AI 术语从易到难

Thu, 25 Jun 2026 00:00:00 GMT

本文整理 AI 领域常见术语，按理解难度分三级递进。每条仅给出定义与必要说明，不展开使用方法。

初级

AI（人工智能）：让机器具备类人认知与决策能力的技术总称，涵盖机器学习、计算机视觉、自然语言处理等多个分支。它是一类研究方向的统称。

LLM（大语言模型）：Large Language Model，基于 Transformer 架构、在海量文本上训练的大型语言模型。输入一段文字，输出续写或变换后的文字。ChatGPT、Claude、DeepSeek 等产品的核心均为 LLM。

ChatGPT：OpenAI 于 2022 年 11 月发布的对话产品，是这一轮大模型热潮的起点。底层模型为 GPT-5 系列，支持文本对话、代码生成、文档处理等任务。

Claude：Anthropic 公司推出的对话模型产品，最新版本为 Claude Sonnet 4.8，强调安全对齐与长文本理解能力，在代码生成与文档分析任务上表现突出。

Gemini：Google 推出的多模态对话模型，最新版本为 Gemini 3.5-flash，前身为 Bard。支持文本、图像、音频、视频的统一处理，已接入 Google 搜索、相册、Android 等产品线。

DeepSeek：中国开源大模型团队，隶属于幻方量化。2026 年 4 月发布并开源的 DeepSeek-V4 以较低训练成本达到接近顶级闭源模型的效果，模型权重完全开源。

智谱：清华系 AI 公司，2026 年 6 月发布并开源的 GLM-5.2 主攻长程任务能力，支持 1M 无损上下文，在编程与长文档处理任务上表现突出。

Kimi：月之暗面公司的对话产品，2026 年 6 月发布并开源的 Kimi K2.7 Code 为 1.1 万亿参数、256K 上下文的编程特化模型，在长上下文编程任务上表现突出。

Xiaomi MiMo：小米自研的开源大模型系列，2026 年 4 月发布 MiMo-V2.5 系列，包含 MiMo-V2.5、MiMo-V2.5-Pro 等多款型号。Pro 版本通过 UltraSpeed 模式支持万亿参数模型推理，针对推理任务优化。

通义千问：阿里推出的大模型产品，开源版本为 Qwen3.7 系列，支持多模态，在中文任务与代码生成上表现较好。

豆包：字节跳动的对话产品，集成图像生成与语音合成能力，在国内普通用户中装机量较大。

Prompt（提示词）：用户输入给模型的指令文本，决定模型本次任务的目标与约束。同一模型在不同 Prompt 下表现差异显著。

上下文：模型在当前对话中可引用的全部输入与输出内容。上下文存在长度上限，超出后早期内容会被丢弃。

记忆：模型跨对话保留用户信息与偏好的能力。默认情况下每次新对话相互独立，开启记忆后模型可调用历史交互内容。

Token：模型处理文本的最小单位，大致对应一个字或词。中文一个汉字通常占用一到两个 Token，英文一个单词约一个 Token。模型按 Token 计算上下文长度与计费。

文生文：输入文本、输出文本的任务模式，包括写作、翻译、摘要、代码生成等，是 LLM 最基础的应用形态。

文生图：输入文本描述、输出图像的任务模式。底层为扩散模型而非 LLM，代表产品包括 Midjourney、Stable Diffusion、DALL-E、即梦。

文生视频：输入文本描述、输出视频的任务模式。技术难度高于文生图，需保证帧间一致性，代表产品有 Sora 2、Veo 3.1、可灵 3.0、即梦 Seedance 2.0。

语音克隆：基于少量样本录音复制特定人声的技术，可生成任意文本的合成语音。技术成熟度较高，存在被滥用于诈骗的风险。

幻觉：模型生成看似合理但与事实不符内容的现象。根源在于模型本质为概率生成而非事实检索，无法区分"流畅"与"正确"。

开源模型：模型权重与配套代码公开发布，允许下载、研究、修改与再分发。代表项目有 LLaMA、DeepSeek、Qwen、GLM。

闭源模型：模型仅通过厂商 API 或产品提供服务，权重不公开。代表产品有 ChatGPT、Claude、Gemini。

中级

提示词工程（Prompt Engineering）：研究如何构造 Prompt 以提升模型表现的方法论。常见技巧包括角色设定、示例引导、分步指示、输出格式约束等。模型能力提升后，部分技巧的边际收益在下降。

思维链（CoT）：Chain of Thought，引导模型在给出答案前先输出推理步骤的方法。在数学与逻辑任务上能显著降低错误率，代价是消耗更多 Token。

温度：控制模型输出随机性的参数，取值范围通常为 0 到 1 或 0 到 2。数值越低输出越确定保守，数值越高越具多样性。

Top-p：核采样参数，限制模型从概率累积前 p 的候选词中采样。与温度同为采样策略参数，通常调整其一即可。

模型训练：使用大规模文本数据对模型参数进行优化的过程，涉及海量算力与数月时间，成本可达数百万至数千万元。训练完成得到模型权重。

蒸馏：用大模型输出训练小模型的方法，使小模型在部分任务上接近大模型效果，同时保持较低部署成本。能力上限受限于教师模型。

RAG：Retrieval-Augmented Generation，检索增强生成。模型在生成回答前先检索外部知识库，将检索结果注入上下文。可解决事实时效性与私有数据接入问题。

知识库：为 RAG 提供检索来源的结构化文档集合，可为企业文档、专业资料或个人笔记。知识库质量直接影响检索效果与回答准确性。

语义检索：基于语义相似度而非关键词匹配的检索方法。将文本表示为向量后比较向量距离，可命中意思相近但措辞不同的内容。

Copilot：嵌入特定软件的 AI 助手，能感知所在软件上下文并直接操作软件功能。代表产品有 GitHub Copilot、Microsoft 365 Copilot。

插件（Plugin）：为模型扩展特定外部能力的模块，如查询股票、订票等。该概念逐步被 MCP 与 Skill 体系取代。

指令：描述模型需执行任务的内容，强调任务本身而非措辞技巧。模型会将指令拆解为内部步骤执行。

Function Calling：模型调用外部函数的能力。模型识别任务所需函数与参数，调用后获得返回结果并据此生成回答，是从对话工具向智能体演进的关键能力。

多模态：模型同时处理多种数据类型的能力，如文本、图像、音频、视频。GPT-5、Gemini 3.5-flash、Claude Sonnet 4.8 均为多模态模型。

AGI：Artificial General Intelligence，通用人工智能，指能在多数智力任务上达到或超越人类水平的 AI。当前所有模型均属窄 AI，AGI 是否可行、何时实现，业界尚无共识。

强 AI：具备自我意识与主观体验的 AI，属哲学概念，目前并不存在。强 AI 必然是 AGI，但 AGI 未必是强 AI。

弱 AI：仅在行为结果上模拟人类智能、不具备真实理解能力的 AI。当前所有实际运行的 AI 系统均为弱 AI。

幻觉：模型生成与事实不符内容的现象，根源在于生成机制本身。降低幻觉的常用手段包括 RAG 检索约束、让模型标注不确定性、限制回答范围。

端侧模型：部署在用户本地设备上的小规模模型。优点为隐私保护、离线可用、低延迟；缺点为参数受限，能力低于云端模型。

云端模型：部署在厂商服务器、通过网络调用的模型。参数规模大、能力强，但数据需上传、依赖网络、按调用量计费。

Embedding：将文本或其他模态数据映射为高维向量的过程。语义相近的内容对应向量距离较近，是语义检索、RAG、推荐系统的基础。

高级

Agent：能自主规划任务步骤、调用工具、完成多步目标的 AI 系统。区别于问答式对话工具，Agent 具备目标分解、工具选择、结果反馈循环的能力。

子 Agent：由父 Agent 派生、负责特定子任务的 Agent。父 Agent 将复杂任务分解后，分派子 Agent 并行或顺序执行，最后汇总结果。

多 Agent：多个 Agent 协作完成任务的架构。各 Agent 分工不同，可对话、交接、互审。代表框架有 AutoGen、CrewAI、MetaGPT。

自主规划：Agent 将高层目标分解为有序可执行步骤的能力。规划质量直接决定 Agent 能否完成复杂任务，是其区别于普通对话工具的核心能力。

ReAct：Reasoning and Acting，模型交替进行推理与行动的执行模式。每一步包含思考、行动、观察三个阶段，是 Agent 的基础执行范式。

Tool：Agent 可调用的外部能力，如搜索引擎、计算器、API 接口。Agent 自身仅具备推理能力，具体操作依赖 Tool 完成。

MCP：Model Context Protocol，模型上下文协议，由 Anthropic 于 2024 年 11 月提出的开放标准，定义 AI 与外部工具之间的统一通信方式。任何符合标准的工具可被任意支持 MCP 的 AI 调用，旨在替代此前逐一适配的集成方式。

Skill：封装特定任务流程的可复用模块，AI 在识别到相关任务时自动加载。由 Anthropic 于 2025 年 10 月提出 Agent Skill 概念，12 月发布开放标准。其本质为说明文档配合可选脚本，可降低长 Prompt 对上下文的占用。

Workflow：将多个 AI 步骤编排为固定流程的框架。流程预先定义、不随运行调整，适合重复性任务。与 Agent 的区别在于流程固定性与临场规划性。

Transformer：2017 年由 Google 提出的神经网络架构，基于自注意力机制。GPT、Claude、Gemini、LLaMA、DeepSeek 等模型均基于该架构或其变体。

注意力：Transformer 中判断序列内各元素关联权重的机制。使模型能识别"哪些词与当前词关系更密切"，是处理长距离依赖的关键。

Fine-tuning：在已训练模型基础上使用领域数据进行继续训练，使其在特定任务上表现提升。与 RAG 为不同路线，RAG 是检索增强，Fine-tuning 是参数更新。

RLHF：Reinforcement Learning from Human Feedback，基于人类反馈的强化学习。通过人类对模型输出的偏好标注训练奖励模型，再以此优化策略模型，使其输出更符合人类偏好。

SFT：Supervised Fine-Tuning，监督微调，使用"输入-输出"成对数据训练模型学习特定任务模式。通常作为 RLHF 的前置阶段。

Few-shot：在 Prompt 中提供少量示例以引导模型完成任务的方式。无需修改模型参数，但消耗上下文 Token，效果依赖示例质量。

Zero-shot：不提供任何示例直接让模型完成任务的方式。模型能力较强时 Zero-shot 效果已可接受，无需额外示例。

本地部署：将开源模型下载至本地设备或私有服务器运行的部署方式。具备隐私保护、长期成本可控、离线可用等优势，需要自行管理硬件与环境。

Blue Blog

AI 术语从易到难

初级

中级

高级