AI 领域核心名词解读词典(130+ 术语全覆盖)
整理时间:2026-04-10 | 从基础概念到前沿方向,一文读懂 AI 领域所有核心名词
一、基础概念
AI(Artificial Intelligence,人工智能)
让机器模拟人类智能行为的技术总称,包括感知、推理、学习、决策等能力。1956 年达特茅斯会议正式提出。
AGI(Artificial General Intelligence,通用人工智能)
能像人类一样在任何智力任务上表现的 AI。目前所有 AI 都属于"窄 AI"(专用 AI),AGI 尚未实现。
ML(Machine Learning,机器学习)
AI 的核心子领域,让计算机从数据中自动学习规律,而不需要显式编程。三大类:监督学习、无监督学习、强化学习。
DL(Deep Learning,深度学习)
机器学习的一个分支,使用多层神经网络(深层结构)学习数据的层次化表示。是当前 AI 突破的核心驱动力。
Neural Network(神经网络)
模拟生物神经元连接结构的计算模型。由输入层、隐藏层、输出层组成,通过调整权重来学习数据中的模式。
二、模型架构
Transformer
2017 年 Google 提出的神经网络架构,完全基于注意力机制,摒弃了 RNN 和 CNN。是当前几乎所有大模型(GPT、BERT、Claude、Gemini 等)的基础架构。论文:Attention Is All You Need。
GPT(Generative Pre-trained Transformer)
OpenAI 的系列生成式预训练模型。GPT-4 是当前最强模型之一,支持多模态输入输出。采用自回归方式,逐 token 生成文本。
BERT(Bidirectional Encoder Representations from Transformers)
Google 提出的双向编码器模型,擅长文本理解任务(分类、问答、NLU),但不擅长生成。已逐步被更先进模型替代。
LLM(Large Language Model,大语言模型)
参数量巨大(通常数十亿到数万亿)的语言模型,在海量文本上预训练。能理解和生成人类语言,是当前 AI 应用最广泛的模型类型。
MoE(Mixture of Experts,混合专家模型)
将大模型分成多个"专家"子网络,每次只激活部分专家。能在不大幅增加计算成本的情况下扩大模型容量。GPT-4、Mixtral 等采用了 MoE 架构。
Diffusion Model(扩散模型)
通过逐步添加噪声再学习去噪来生成数据的模型。是 Stable Diffusion、DALL-E、Midjourney 等 AI 绘图工具的核心技术。
GAN(Generative Adversarial Network,生成对抗网络)
由生成器和判别器组成的模型,两个网络对抗训练。曾广泛用于图像生成,近年来被扩散模型取代。
VAE(Variational Autoencoder,变分自编码器)
一种生成模型,通过编码-解码结构学习数据的隐空间表示。可用于图像生成、数据压缩、异常检测等。
RNN(Recurrent Neural Network,循环神经网络)
处理序列数据的网络,有记忆过去输入的能力。但由于顺序计算限制,已被 Transformer 取代。
CNN(Convolutional Neural Network,卷积神经网络)
擅长处理图像数据的网络,通过卷积核提取空间特征。在图像分类、目标检测等视觉任务中仍是重要工具。
三、训练与学习
Pre-training(预训练)
在大规模无标注数据上进行的初始训练阶段,让模型学习语言和世界知识。如 GPT 在互联网文本上训练。
Fine-tuning(微调)
在预训练基础上,用特定领域数据继续训练,使模型适应特定任务。如用医疗数据微调一个通用模型。
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)
通过人类对模型输出的偏好反馈来优化模型。ChatGPT 能对齐人类价值观,RLHF 是关键步骤。
SFT(Supervised Fine-Tuning,监督微调)
用高质量的问答对(人工标注)来微调模型,让它学会以对话形式回答问题。RLHF 之前通常先做 SFT。
LoRA(Low-Rank Adaptation,低秩适配)
一种高效的微调方法,只训练少量额外参数(低秩矩阵),而不需要修改原模型权重。大幅降低了微调的计算和存储成本。
QLoRA
LoRA 的量化版本,将模型量化到 4-bit 后再做 LoRA 微调,进一步降低显存需求,让消费级 GPU 也能微调大模型。
Transfer Learning(迁移学习)
将一个任务上学到的知识应用到另一个任务。预训练+微调就是迁移学习的典型范式。
Zero-shot / Few-shot Learning(零样本/少样本学习)
不需要专门训练(zero-shot)或只需少量示例(few-shot)就能完成新任务的能力。大模型天然具备这种能力。
RL(Reinforcement Learning,强化学习)
智能体通过与环境交互,根据奖励信号学习最优策略。AlphaGo、游戏 AI 就是强化学习的成功案例。
四、注意力与编码
Attention(注意力机制)
让模型在处理某个位置时能"关注"输入中的相关部分,动态分配权重。是 Transformer 的核心。
Self-Attention(自注意力)
序列内部各位置之间的注意力计算,捕获上下文关系。如"苹果"这个词在"吃苹果"和"苹果手机"中指向不同含义。
Multi-Head Attention(多头注意力)
将注意力分成多个"头"并行计算,每个头关注不同的信息子空间,再合并结果。比单头注意力更强大。
Token
文本处理的基本单元,可以是一个词、一个字或一个子词。模型输入输出都以 token 为单位。
Tokenizer(分词器)
将文本切分为 token 序列的工具。常用方法:BPE(字节对编码)、WordPiece、SentencePiece。
Embedding(嵌入/词向量)
将离散的 token 映射为连续的稠密向量。语义相近的词在向量空间中距离更近。
Positional Encoding(位置编码)
因为 Transformer 没有循环结构,需要通过位置编码告诉模型每个 token 在序列中的位置。可以用正弦函数或可学习参数。
Context Window(上下文窗口)
模型一次能处理的最大 token 数量。如 GPT-4 Turbo 支持约 128K tokens,Gemini 1.5 Pro 支持 1M tokens。
五、提示与生成
Prompt(提示词)
用户输入给模型的指令或问题。Prompt 工程是优化提示词以获得更好输出的技术。
System Prompt(系统提示)
设置模型角色和行为方式的隐藏指令。如"你是一个专业的翻译助手"。
Few-shot Prompting(少样本提示)
在提示词中给几个示例,帮助模型理解期望的输出格式。
Chain of Thought(CoT,思维链)
让模型"一步步思考",显式展示推理过程,能显著提升复杂问题的回答质量。
Temperature(温度)
控制生成随机性的参数。温度越低输出越确定/保守,温度越高输出越多样/创造性。
Top-P / Top-K Sampling
控制生成多样性的采样策略。Top-K 限制只从概率最高的 K 个候选中采样,Top-P 限制累计概率。
Hallucination(幻觉)
模型生成看似合理但实际不正确或编造的内容。是大语言模型的主要缺陷之一。
Greedy Decoding(贪心解码)
每一步都选择概率最高的 token,输出最确定但可能比较"无聊"的结果。
六、RAG 与检索
RAG(Retrieval-Augmented Generation,检索增强生成)
先从知识库中检索相关文档,再让模型基于检索结果生成回答。能减少幻觉,让回答有据可查。
Vector Database(向量数据库)
存储和检索文本嵌入向量的数据库。如 Pinecone、Milvus、Weaviate、Chroma。
Embedding Model(嵌入模型)
将文本转换为向量表示的模型。同一语义的文本在向量空间中距离更近,用于语义检索。
Chunking(文本分块)
将长文档切分成适合检索的小片段。分块策略影响 RAG 的检索效果。
Knowledge Graph(知识图谱)
用图结构表示实体及其关系。可以与 RAG 结合,提供结构化知识。
七、Agent 与工具
AI Agent(AI 智能体)
能自主感知环境、制定计划、使用工具、完成复杂任务的 AI 系统。是当前 AI 应用的重要方向。
ReAct(Reasoning + Acting)
一种 Agent 范式,让模型交替进行"推理"和"行动",先思考下一步该做什么,再执行工具调用。
Function Calling(函数调用/工具调用)
让模型能调用外部 API 或函数,如搜索网页、查询数据库、调用计算器等。是实现 Agent 的关键技术。
Planning(规划)
Agent 制定多步骤执行计划的能力。涉及任务分解、依赖分析、动态调整等。
Memory(记忆)
Agent 记住过去交互和上下文的能力。包括短期记忆(对话历史)和长期记忆(向量存储)。
Multi-Agent(多智能体)
多个 Agent 协作完成复杂任务,每个 Agent 负责不同角色,通过对话或消息传递协调。
MCP(Model Context Protocol)
模型上下文协议,让 AI 模型能标准化地连接外部数据源和工具。由 Anthropic 提出,正在成为行业标准。
八、多模态
Multimodal(多模态)
能同时处理文本、图像、音频、视频等多种数据类型的模型。GPT-4o、Gemini 都是多模态模型。
VLM(Vision-Language Model,视觉语言模型)
能理解图像和文本的模型,如 GPT-4V、LLaVA、Qwen-VL。可以做图像描述、视觉问答等。
TTS(Text-to-Speech,文本转语音)
将文本转换为自然语音的技术。如讯飞 TTS、Edge-TTS、ElevenLabs。
ASR(Automatic Speech Recognition,自动语音识别)
将语音转换为文本的技术。如 Whisper、讯飞语音识别。
OCR(Optical Character Recognition,光学字符识别)
从图片中识别和提取文字。如 PaddleOCR、Tesseract。
九、评估与指标
BLEU
机器翻译的评价指标,衡量生成文本与参考文本的 n-gram 重合度。范围 0-100,越高越好。
Perplexity(困惑度)
衡量模型预测下一个 token 的不确定性。越低表示模型对语言的理解越好。
Benchmark(基准测试)
用于评估模型能力的标准测试集。如 MMLU(多学科知识)、HumanEval(代码)、GSM8K(数学)。
Alignment(对齐)
让模型行为与人类意图和价值观一致的过程。包括安全、有用性、诚实性等方面。
十、推理与部署
Inference(推理)
使用训练好的模型对新数据生成预测的过程。与训练不同,推理时模型权重固定。
Quantization(量化)
将模型参数从高精度(如 FP32)压缩到低精度(如 FP16、INT8、INT4),减少显存占用和推理延迟。
Pruning(剪枝)
移除模型中不重要的权重或神经元,减小模型体积。
Distillation(蒸馏)
用大模型(教师模型)的输出来训练小模型(学生模型),保留大模型能力的同时减小体积。
vLLM
高性能 LLM 推理引擎,使用 PagedAttention 优化显存管理,大幅提升推理吞吐量。
十一、数据与标注
Dataset(数据集)
用于训练和评估模型的数据集合。如 Common Crawl、Wikipedia、RedPajama 等。
Synthetic Data(合成数据)
由 AI 模型生成的训练数据。如用 GPT-4 生成问答对来训练更小的模型。
Scaling Law(缩放定律)
描述模型性能与模型大小、数据量、计算量之间关系的规律。更多算力和数据通常带来更好的性能。
十二、开源与生态
Open Source Model(开源模型)
公开模型权重、允许商业或研究使用的模型。如 Llama、Mistral、Qwen、GLM、DeepSeek。
Hugging Face
最大的 AI 开源社区平台,托管模型、数据集和工具。被称为"AI 界的 GitHub"。
PyTorch
Meta 开发的深度学习框架,目前学术界和工业界使用最广泛的框架。
CUDA
NVIDIA 的并行计算平台,GPU 加速训练和推理的基础。
十三、前沿方向
Reasoning Model(推理模型)
专门增强逻辑推理能力的模型,如 OpenAI o1、DeepSeek-R1。通过"思考链"解决复杂数学和编程问题。
World Model(世界模型)
理解和模拟物理世界规律的模型。Sora(OpenAI 视频生成)被认为具有一定程度的世界模型能力。
Embodied AI(具身智能)
将 AI 与机器人等物理载体结合,让 AI 能在真实世界中感知和行动。
AI Safety(AI 安全)
研究如何让 AI 系统安全、可控、符合人类价值观的领域。包括对齐、可解释性、鲁棒性等。
Emergent Abilities(涌现能力)
当模型规模超过某个阈值时,突然出现的小模型不具备的新能力。
📌 觉得有用的话,欢迎点赞收藏!有遗漏的名词欢迎在评论区补充~