基础概念
人工智能 (Artificial Intelligence, AI)
定义:人工智能是计算机科学的一个分支,旨在创建能够模拟人类智能的系统和机器,包括学习、推理、感知、理解和决策等能力。
分类:
- 弱AI(Narrow AI):专注于特定任务的AI系统,如语音识别、图像识别
- 强AI(AGI - Artificial General Intelligence):具备人类级别通用智能的AI系统(目前仍在研发中)
机器学习 (Machine Learning, ML)
定义:机器学习是AI的一个子领域,通过算法让计算机系统从数据中自动学习和改进,而无需显式编程。系统通过经验来提高性能。
核心思想:让机器从历史数据中发现模式,并用这些模式对新数据进行预测或决策。
深度学习 (Deep Learning, DL)
定义:深度学习是机器学习的一个分支,使用多层神经网络来模拟人脑神经元的工作方式,能够处理复杂的非线性关系。
特点:
- 使用深层神经网络(通常3层以上)
- 能够自动提取特征
- 在大数据和强大计算资源下表现优异
神经网络 (Neural Network, NN)
定义:受生物神经系统启发的计算模型,由大量相互连接的节点(神经元)组成,通过调整连接权重来学习数据中的模式。
基本结构:
- 输入层:接收数据
- 隐藏层:处理和转换数据(可有多层)
- 输出层:产生最终结果
机器学习核心术语
监督学习 (Supervised Learning)
定义:使用带标签的训练数据来训练模型,标签提供了正确答案,模型学习输入和输出之间的映射关系。
常见应用:
- 分类任务(如图像分类、垃圾邮件检测)
- 回归任务(如房价预测、股价预测)
示例:使用大量标注的猫狗图片训练模型,使其能够识别新图片中的猫或狗。
无监督学习 (Unsupervised Learning)
定义:从没有标签的数据中发现隐藏的模式、结构或关系,模型需要自行探索数据的内在组织。
常见应用:
- 聚类(将相似数据分组)
- 降维(减少数据维度)
- 异常检测
示例:分析客户购买行为数据,自动发现客户群体,无需预先定义客户类型。
半监督学习 (Semi-supervised Learning)
定义:结合少量有标签数据和大量无标签数据进行训练,在标注数据稀缺或昂贵时特别有用。
优势:能够充分利用大量易获得的无标签数据,提高模型性能。
强化学习 (Reinforcement Learning, RL)
定义:通过与环境交互,根据获得的奖励或惩罚来学习最优策略的机器学习方法。智能体通过试错来最大化累积奖励。
核心要素:
- 智能体(Agent):做出决策的实体
- 环境(Environment):智能体互动的外部世界
- 奖励(Reward):环境对智能体行为的反馈
- 策略(Policy):智能体的决策规则
应用:游戏AI(如AlphaGo)、机器人控制、自动驾驶、推荐系统
迁移学习 (Transfer Learning)
定义:将在某个任务上训练好的模型知识迁移到新的相关任务上,通过复用预训练模型的参数和特征,减少新任务的训练时间和数据需求。
优势:
- 减少训练时间
- 降低数据需求
- 提高小数据集上的性能
应用:使用ImageNet预训练模型进行特定领域的图像识别
元学习 (Meta-Learning / Learning to Learn)
定义:让模型学习如何学习,即训练模型能够快速适应新任务,通常只需要少量样本就能达到良好性能。
目标:使模型具备快速学习新任务的能力,类似于人类的学习能力。
深度学习与神经网络
卷积神经网络 (Convolutional Neural Network, CNN)
定义:专门设计用于处理具有网格状拓扑结构数据(如图像)的深度学习架构,使用卷积层来提取空间特征。
核心组件:
- 卷积层(Convolutional Layer):使用卷积核提取特征
- 池化层(Pooling Layer):降低特征图维度,减少计算量
- 全连接层(Fully Connected Layer):进行分类或回归
应用:图像识别、目标检测、人脸识别、医学影像分析
循环神经网络 (Recurrent Neural Network, RNN)
定义:能够处理序列数据的神经网络,具有记忆能力,可以保存之前时间步的信息。
特点:神经元之间存在反馈连接,能够处理可变长度的序列数据。
局限性:存在梯度消失问题,难以学习长期依赖关系。
应用:自然语言处理、时间序列预测、语音识别
长短期记忆网络 (Long Short-Term Memory, LSTM)
定义:RNN的一种变体,通过特殊的门控机制(遗忘门、输入门、输出门)来解决传统RNN的梯度消失问题,能够更好地处理长期依赖关系。
优势:
- 能够记住长期信息
- 有效处理长序列
- 控制信息的流动
应用:文本生成、机器翻译、语音识别、股票预测
门控循环单元 (Gated Recurrent Unit, GRU)
定义:LSTM的简化版本,使用更少的参数和门控机制(重置门和更新门),在保持相似性能的同时提高了计算效率。
vs LSTM:GRU更简单、训练更快,但LSTM在某些任务上表现更好。
残差网络 (Residual Network, ResNet)
定义:引入了残差连接(跳跃连接)的深度神经网络,允许信息直接从前一层传递到后面的层,解决了深度网络的梯度消失和退化问题。
核心思想:如果恒等映射是最优的,网络只需将残差部分推至零,而不需要学习完整的映射。
影响:使得训练极深的网络(如152层)成为可能,大幅提升了图像识别性能。
注意力机制 (Attention Mechanism)
定义:允许模型在处理输入时动态地关注不同部分的重要性,根据当前任务需要选择性地关注相关信息。
优势:
- 提高模型对重要信息的关注度
- 增强模型的解释性
- 处理长序列时更有效
类型:
- 自注意力(Self-Attention):输入序列内部元素之间的注意力
- 交叉注意力(Cross-Attention):不同序列之间的注意力
大语言模型与Transformer
Transformer
定义:2017年由Google提出的革命性神经网络架构,完全基于注意力机制,摒弃了循环和卷积结构,成为现代NLP的基础。
核心组件:
- 多头自注意力(Multi-Head Self-Attention):并行处理多个注意力子空间
- 位置编码(Positional Encoding):为序列添加位置信息
- 前馈神经网络(Feed-Forward Network):逐位置应用全连接层
- 残差连接和层归一化:稳定训练
影响:催生了BERT、GPT等一系列大语言模型,彻底改变了NLP领域。
大语言模型 (Large Language Model, LLM)
定义:参数量巨大的语言模型(通常数十亿到数千亿参数),在大量文本数据上预训练,能够理解自然语言并生成连贯的文本。
特点:
- 参数量巨大(GPT-3有1750亿参数)
- 在大规模文本数据上预训练
- 展现强大的涌现能力
- 支持零样本和少样本学习
代表模型:
- 闭源模型:GPT系列(GPT-4o, GPT-4 Turbo)、Claude系列(Claude 3.5 Sonnet)、Gemini系列(Gemini 1.5 Pro)、PaLM
- 开源模型:LLaMA系列(Llama 3.1)、Qwen2.5、Mistral Large、BERT、T5
GPT (Generative Pre-trained Transformer)
定义:OpenAI开发的基于Transformer的自回归语言模型系列,使用生成式预训练,通过预测下一个词来学习语言模式。
发展历程:
- GPT-1(2018):1.17亿参数,证明预训练的有效性
- GPT-2(2019):15亿参数,展现零样本学习能力
- GPT-3(2020):1750亿参数,强大的少样本学习
- GPT-4(2023):多模态模型,接近人类水平的性能
- GPT-4 Turbo(2023):更快的推理速度和更长的上下文窗口(128K tokens)
- GPT-4o(2024):多模态模型,支持实时语音对话,统一处理文本、图像、音频
BERT (Bidirectional Encoder Representations from Transformers)
定义:Google开发的基于Transformer的双向编码器模型,通过掩码语言模型和下一句预测任务进行预训练。
特点:
- 双向编码:同时考虑上下文左右两侧的信息
- 适合下游任务:通过微调适应各种NLP任务
vs GPT:BERT是编码器模型,适合理解任务;GPT是解码器模型,适合生成任务。
自回归模型 (Autoregressive Model)
定义:逐个生成序列元素(如文本中的词)的模型,每个元素的生成依赖于之前已生成的所有元素。
特点:
- 顺序生成,一次一个token
- 生成过程通常具有随机性(可通过温度参数控制),即使给定相同上下文也可能产生不同输出
- 适合文本生成、对话等任务
代表:GPT系列、LLaMA
自编码器模型 (Autoencoder Model)
定义:通过编码-解码结构学习数据表示的模型,能够将输入压缩到潜在空间再重建。BERT等模型虽然也使用编码器结构,但BERT是双向编码器(使用掩码语言模型),与传统自编码器的重建目标不同。
应用:
- 文本理解
- 特征提取
- 降维
多模态模型 (Multimodal Model)
定义:能够同时处理和理解多种类型输入(如文本、图像、音频、视频)的AI模型。
能力:
- 跨模态理解(理解文本和图像之间的关系)
- 跨模态生成(根据文本描述生成图像)
- 多模态推理
代表模型:
- GPT-4V / GPT-4o:OpenAI的多模态模型,支持图像和文本理解
- Claude 3 / Claude 3.5 Sonnet:Anthropic的多模态模型,在代码和推理任务上表现优异
- Gemini 1.5 Pro:Google的原生多模态架构,支持超长上下文(百万级tokens)
- DALL-E 3:OpenAI的文本到图像生成模型
- 注:Midjourney是图像生成服务,基于扩散模型技术
生成式AI
生成对抗网络 (Generative Adversarial Network, GAN)
定义:由生成器(Generator)和判别器(Discriminator)两个神经网络组成的对抗性训练框架,通过相互博弈来学习生成逼真的数据。
工作原理:
- 生成器:尝试生成假数据欺骗判别器
- 判别器:尝试区分真实数据和生成数据
- 两者在对抗中不断提升,最终生成器能够产生高质量数据
应用:图像生成、风格迁移、图像超分辨率、数据增强
扩散模型 (Diffusion Model)
定义:通过逐步去噪过程生成数据的生成模型,首先将数据加噪到随机状态,然后学习逆过程逐步去噪生成新数据。
工作流程:
- 前向过程:逐步向数据添加高斯噪声
- 反向过程:训练模型学习去噪,从纯噪声恢复数据
- 采样:从随机噪声开始,逐步去噪生成新样本
优势:
- 生成质量高
- 训练稳定(相比GAN)
- 可控性强
代表模型:
- Stable Diffusion 3:开源文本到图像扩散模型
- DALL-E 3:OpenAI的文本到图像生成模型,理解能力更强
- Imagen 2:Google的文本到图像生成模型
- Midjourney:基于扩散模型的图像生成服务,艺术风格突出
- Sora(2024):OpenAI的文本到视频生成模型,可生成高质量长视频
Stable Diffusion
定义:开源的文本到图像扩散模型,使用潜在扩散模型(Latent Diffusion Model)在低维潜在空间中操作,大幅降低计算成本。
特点:
- 开源可定制
- 计算效率高
- 生成质量优秀
- 支持多种控制方式
提示工程 (Prompt Engineering)
定义:设计和优化输入提示(prompt)的艺术和科学,以引导AI模型产生期望的输出。
技术:
- 零样本提示(Zero-shot):直接描述任务,不提供示例
- 少样本提示(Few-shot):提供少量示例
- 思维链(Chain-of-Thought):引导模型逐步推理
- 角色设定:给模型指定特定角色或身份
- 提示模板(Prompt Templates):可复用的提示结构
- 提示链(Prompt Chaining):将复杂任务分解为多个提示
- 自动提示优化(Auto Prompting):使用AI优化提示
重要性:良好的提示工程可以显著提升模型性能,是使用LLM的关键技能。
最新发展(2024):
- 提示版本控制:管理不同版本的提示
- 提示测试框架:系统化测试提示效果
- 提示市场:分享和交易优质提示
检索增强生成 (Retrieval-Augmented Generation, RAG)
定义:结合信息检索和生成模型的混合方法,从外部知识库检索相关信息,然后将这些信息与原始提示一起提供给生成模型。
优势:
- 减少幻觉(生成错误信息)
- 能够利用最新信息(无需重新训练)
- 可解释性更好(知道信息来源)
- 降低计算成本
应用场景:问答系统、知识库查询、文档总结
微调 (Fine-tuning)
定义:在预训练模型的基础上,使用特定任务的数据集继续训练,调整模型参数以适应特定应用场景。
类型:
- 全参数微调:更新所有模型参数
- 参数高效微调(Parameter-Efficient Fine-tuning, PEFT):只更新少量参数
参数高效微调方法:
- LoRA(Low-Rank Adaptation):使用低秩矩阵分解
- Adapter:在模型中插入小型适配器层
- Prefix Tuning:优化前缀向量
- P-Tuning v2:可训练的提示嵌入
预训练 (Pre-training)
定义:在大规模无标签或弱标签数据上训练模型,学习通用的表示和模式,为后续的特定任务训练奠定基础。
优势:
- 学习通用知识
- 减少对标注数据的需求
- 提高模型泛化能力
训练与优化技术
反向传播 (Backpropagation)
定义:训练神经网络的核心算法,通过计算损失函数对每个参数的梯度,并使用链式法则从输出层向输入层传播误差。
过程:
- 前向传播:计算预测值
- 计算损失
- 反向传播:计算梯度
- 参数更新:使用梯度下降更新权重
梯度下降 (Gradient Descent)
定义:通过沿着损失函数梯度的反方向更新参数来最小化损失函数的优化算法。
变体:
- 批量梯度下降(Batch GD):使用全部训练数据
- 随机梯度下降(SGD):每次使用一个样本
- 小批量梯度下降(Mini-batch GD):每次使用一小批样本(最常用)
学习率 (Learning Rate)
定义:控制参数更新步长的超参数,决定模型在每次迭代中沿着梯度方向移动的距离。
重要性:
- 过大:可能导致训练不稳定,无法收敛
- 过小:训练速度慢,可能陷入局部最优
自适应学习率:Adam、AdamW、RMSprop等优化器自动调整学习率
过拟合 (Overfitting)
定义:模型在训练数据上表现很好,但在未见过的测试数据上表现差的现象,模型过度学习了训练数据的噪声和细节。
原因:
- 模型过于复杂
- 训练数据不足
- 训练时间过长
解决方法:
- 正则化(L1、L2)
- Dropout
- 数据增强
- 早停(Early Stopping)
- 简化模型
欠拟合 (Underfitting)
定义:模型在训练数据和测试数据上都表现不佳,模型过于简单,无法捕获数据中的模式。
解决方法:
- 增加模型复杂度
- 增加特征
- 减少正则化
- 延长训练时间
正则化 (Regularization)
定义:防止过拟合的技术,通过向损失函数添加惩罚项来限制模型复杂度。
类型:
- L1正则化(Lasso):使用权重的绝对值之和,可能导致权重变为零(特征选择)
- L2正则化(Ridge):使用权重的平方和,使权重变小但不会为零
- Dropout:训练时随机将部分神经元输出置零
- Batch Normalization:归一化层输入,稳定训练
Dropout
定义:训练时随机"关闭"一定比例的神经元(将其输出设为0),防止神经元过度依赖特定的输入特征,提高模型的泛化能力。
原理:强制模型学习更鲁棒的特征表示,避免过拟合。
批量归一化 (Batch Normalization, BN)
定义:对每一层的输入进行归一化处理,使其均值接近0、方差接近1,加速训练并提高模型稳定性。
好处:
- 允许使用更大的学习率
- 减少对初始化的敏感性
- 有一定的正则化效果
激活函数 (Activation Function)
定义:神经网络中引入非线性的函数,使得网络能够学习复杂的非线性模式。
常见类型:
- ReLU(Rectified Linear Unit):f(x) = max(0, x),最常用
- Sigmoid:输出范围(0,1),用于二分类
- Tanh:输出范围(-1,1)
- Softmax:用于多分类,输出概率分布
- GELU(Gaussian Error Linear Unit):Transformer中常用
损失函数 (Loss Function)
定义:衡量模型预测值与真实值之间差异的函数,训练的目标是最小化损失函数。
常见类型:
- 均方误差(MSE):回归任务
- 交叉熵(Cross-Entropy):分类任务
- 二元交叉熵(Binary Cross-Entropy):二分类
- KL散度(Kullback-Leibler Divergence):衡量概率分布差异
评估与指标
准确率 (Accuracy)
定义:分类正确的样本数占总样本数的比例。
公式:Accuracy = (TP + TN) / (TP + TN + FP + FN)
局限性:在类别不平衡的数据集上可能不准确。
精确率 (Precision)
定义:模型预测为正类的样本中,实际为正类的比例。
公式:Precision = TP / (TP + FP)
含义:模型预测为正类时,有多大把握是对的。
召回率 (Recall / Sensitivity)
定义:实际为正类的样本中,被模型正确预测为正类的比例。
公式:Recall = TP / (TP + FN)
含义:模型能找到多少真正的正类样本。
F1分数 (F1 Score)
定义:精确率和召回率的调和平均数,综合考虑两者的平衡。
公式:F1 = 2 × (Precision × Recall) / (Precision + Recall)
应用:在精确率和召回率需要平衡的场景中使用。
AUC-ROC (Area Under ROC Curve)
定义:ROC曲线下的面积,衡量分类器区分正负样本的能力。
范围:0到1,越接近1越好
- 1.0:完美分类器
- 0.5:随机猜测
- < 0.5:比随机猜测还差
困惑度 (Perplexity)
定义:语言模型评估指标,衡量模型对测试数据的不确定程度。困惑度越低,模型越好。
公式:Perplexity = 2^(-平均对数似然)
含义:模型平均需要在多少个候选词中进行选择。
BLEU分数 (Bilingual Evaluation Understudy)
定义:评估机器翻译质量的指标,通过比较候选翻译和参考翻译之间的n-gram重叠程度来评分。
范围:0到1,越接近1越好。
局限性:主要关注精确匹配,可能低估语义正确但用词不同的翻译。
涌现能力 (Emergent Abilities)
定义:当模型规模(参数量、数据量)达到某个临界点时,模型突然表现出在较小模型中不存在的能力。
示例:
- 零样本学习
- 思维链推理
- 代码生成
- 数学推理
重要性:解释了为什么大型模型能够表现出令人惊讶的能力。
幻觉 (Hallucination)
定义:AI模型生成看似合理但实际错误或不存在信息的现象。
表现:
- 编造事实
- 生成矛盾信息
- 提供不存在的引用
原因:
- 训练数据中的错误
- 模型的不确定性
- 缺乏事实检查机制
解决方法:RAG、事实检查、更好的训练数据、可验证性设计
大语言模型评估基准
定义:用于评估大语言模型能力的标准化测试集和指标。
主要基准(2024):
- MMLU (Massive Multitask Language Understanding):涵盖57个任务的综合评估
- HellaSwag:常识推理任务
- HumanEval:代码生成能力评估
- GSM8K:数学推理任务
- TruthfulQA:评估模型真实性和避免错误信息
- BIG-Bench:大规模多样化任务集
- AGIEval:中文能力评估基准
- C-Eval:中文综合评估基准
重要性:标准化评估有助于比较不同模型的性能,推动技术进步。
应用场景术语
自然语言处理 (Natural Language Processing, NLP)
定义:使计算机能够理解、解释和生成人类语言的技术领域。
核心任务:
- 文本分类:将文本分配到预定义类别
- 情感分析:判断文本的情感倾向
- 命名实体识别(NER):识别文本中的人名、地名、机构名等
- 机器翻译:将一种语言翻译成另一种语言
- 问答系统:回答自然语言问题
- 文本摘要:生成文本的简短摘要
计算机视觉 (Computer Vision, CV)
定义:使计算机能够理解和分析视觉信息(图像、视频)的技术领域。
核心任务:
- 图像分类:识别图像中的主要对象
- 目标检测:定位并识别图像中的多个对象
- 语义分割:为图像中每个像素分配类别标签
- 实例分割:区分同一类别的不同实例
- 人脸识别:识别和验证人脸身份
- 图像生成:创建新的图像
语音识别 (Speech Recognition / Automatic Speech Recognition, ASR)
定义:将语音信号转换为文本的技术。
应用:语音助手、语音输入、实时字幕、语音转文字工具
语音合成 (Text-to-Speech, TTS)
定义:将文本转换为自然语音的技术。
发展:从早期机械音到现在接近真人语音质量。
代表技术:WaveNet、Tacotron、VALL-E
推荐系统 (Recommendation System)
定义:根据用户的历史行为、偏好和特征,预测用户可能感兴趣的物品并推荐给用户的系统。
方法:
- 协同过滤:基于用户或物品的相似性
- 内容过滤:基于物品的特征
- 混合方法:结合多种方法
- 深度学习推荐:使用神经网络
应用:电商推荐、视频推荐、新闻推荐、音乐推荐
知识图谱 (Knowledge Graph)
定义:以图结构表示实体、概念及其关系的知识库,将现实世界的信息结构化为可计算的形式。
结构:
- 实体(Entity):现实世界中的对象
- 关系(Relation):实体之间的连接
- 属性(Attribute):实体的特征
应用:搜索引擎、智能问答、推荐系统、知识推理
智能体 (Agent)
定义:能够感知环境、做出决策并采取行动的自主系统。
特性:
- 自主性:能够独立运行
- 反应性:响应环境变化
- 主动性:追求目标
- 社会性:与其他智能体交互
类型:
- 简单反应型智能体:基于条件-行动规则
- 基于模型的智能体:维护环境模型
- 基于目标的智能体:追求特定目标
- 基于效用的智能体:最大化效用函数
- 学习型智能体:能够从经验中学习
AI Agent / AI智能体
定义:结合大语言模型能力的智能体,能够理解复杂指令、规划任务、使用工具、执行多步骤操作。
能力:
- 自然语言理解
- 任务规划
- 工具使用(搜索、计算、代码执行等)
- 自主执行
- 错误处理和恢复
- 多步骤推理和决策
类型(2024):
- ReAct Agent:结合推理和行动
- AutoGPT:自主执行复杂任务
- LangChain Agents:基于工具链的智能体框架
- CrewAI:多智能体协作框架
应用:代码助手(GitHub Copilot)、AI助手(Claude、ChatGPT)、自动化工作流、数据分析、研究助手
伦理与安全
AI对齐 (AI Alignment)
定义:确保AI系统的目标和行为与人类价值观和意图一致的研究领域,确保AI系统按照人类的期望工作。
挑战:
- 价值对齐:定义和理解人类价值观
- 意图对齐:理解用户真实意图
- 能力对齐:确保模型能力符合期望
可解释AI (Explainable AI, XAI)
定义:能够解释其决策过程和推理逻辑的AI系统,让用户理解模型为什么做出特定预测或决策。
重要性:
- 建立信任
- 调试和改进模型
- 满足监管要求
- 发现偏见和错误
方法:
- LIME(Local Interpretable Model-agnostic Explanations)
- SHAP(SHapley Additive exPlanations)
- 注意力可视化
- 特征重要性分析
模型偏见 (Model Bias)
定义:AI模型对某些群体、特征或情况表现出不公平或不准确的倾向,通常源于训练数据中的偏见。
类型:
- 数据偏见:训练数据不代表真实世界
- 算法偏见:算法设计引入的偏见
- 确认偏见:强化现有刻板印象
影响:可能导致歧视性决策、不公平结果、社会不公
隐私保护机器学习 (Privacy-Preserving Machine Learning)
定义:在训练和使用AI模型时保护用户隐私的技术和方法。
技术:
- 差分隐私(Differential Privacy):在数据中添加噪声,保护个体隐私
- 联邦学习(Federated Learning):在本地设备上训练,不共享原始数据
- 同态加密(Homomorphic Encryption):在加密数据上直接计算
- 安全多方计算(Secure Multi-Party Computation):多个方协作计算而不泄露输入
对抗样本 (Adversarial Examples)
定义:经过精心设计的输入,能够欺骗AI模型产生错误预测,但对人类来说看起来正常。
特点:
- 对人类不可察觉
- 能够成功欺骗模型
- 具有可转移性
防御:
- 对抗训练
- 输入检测
- 模型鲁棒性改进
模型可验证性 (Model Verifiability)
定义:能够验证AI模型行为是否符合特定规范或要求的能力。
挑战:深度学习模型复杂,难以形式化验证。
最新技术趋势
AGI (Artificial General Intelligence)
定义:具备与人类同等或超越人类的通用智能的AI系统,能够理解、学习和应用知识到广泛的认知任务中。
特征:
- 跨领域学习和应用
- 理解和抽象推理
- 创造性问题解决
- 自我意识和元认知
现状:仍处于研究阶段,尚未实现。
具身智能 (Embodied Intelligence)
定义:AI系统通过与环境物理互动来学习和发展的智能,强调"具身化"的重要性,认为智能离不开与物理世界的交互。
研究重点:
- 机器人学习
- 物理世界理解
- 多模态感知和行动
多模态大模型 (Multimodal Large Models)
定义:能够同时处理和生成多种模态(文本、图像、音频、视频)数据的大规模模型。
代表:
- GPT-4o(2024):统一处理文本、图像、音频,支持实时语音对话
- GPT-4V:文本和图像理解
- Claude 3.5 Sonnet(2024):多模态理解,在代码和推理任务上表现优异
- Gemini 1.5 Pro(2024):原生多模态架构,支持超长上下文(百万级tokens)
- Sora(2024):OpenAI的文本到视频生成模型,可生成高质量长视频
小样本学习 (Few-Shot Learning)
定义:模型仅使用少量示例就能快速学习新任务的能力。
方法:
- 元学习:学习如何快速适应
- 提示工程:设计有效的提示
- 上下文学习:在提示中包含示例
应用:个性化定制、新领域快速部署
零样本学习 (Zero-Shot Learning)
定义:模型在没有该任务训练数据的情况下,仅根据任务描述就能执行任务的能力。
实现方式:
- 自然语言指令
- 任务描述
- 示例格式
思维链 (Chain-of-Thought, CoT)
定义:引导语言模型通过一系列中间推理步骤来解决问题,而不是直接给出答案。
优势:
- 提高复杂推理任务的准确性
- 增强模型的可解释性
- 帮助模型处理多步骤问题
变体:
- 自洽性(Self-Consistency):生成多个推理路径,选择最一致的答案
- Tree of Thoughts (ToT):探索多个推理树
- Graph of Thoughts (GoT):图结构的推理路径
- ReAct (Reasoning + Acting):结合推理和行动
- Chain-of-Verification (CoVe):生成验证步骤
AI安全 (AI Safety)
定义:确保AI系统的安全、可控和有益的研究领域,防止AI系统造成意外伤害。
关注点:
- 控制问题:如何控制超智能AI
- 鲁棒性:系统在各种情况下的可靠性
- 价值对齐:确保AI遵循人类价值观
- 恶意使用:防止AI被恶意使用
模型蒸馏 (Model Distillation)
定义:将大型复杂模型(教师模型)的知识传递给小型简单模型(学生模型)的技术,在保持性能的同时大幅减少模型大小和计算成本。
应用:移动设备部署、边缘计算、降低推理成本
量化 (Quantization)
定义:将模型参数从高精度(如32位浮点数)转换为低精度(如8位整数)的技术,减少模型大小和加速推理。
类型:
- 训练后量化(Post-training Quantization)
- 量化感知训练(Quantization-Aware Training)
优势:减少内存占用、加速推理、降低硬件要求
MLOps (Machine Learning Operations)
定义:将DevOps实践应用于机器学习工作流,实现ML模型的持续集成、持续交付和持续监控。
核心组件:
- 模型版本控制
- 自动化测试
- 模型监控
- 自动化部署
- A/B测试
边缘AI (Edge AI)
定义:在边缘设备(如手机、IoT设备、嵌入式系统)上运行AI模型,而不是在云端。
优势:
- 低延迟
- 隐私保护(数据不离开设备)
- 减少带宽需求
- 离线工作能力
挑战:计算资源有限、模型优化需求
可持续AI (Sustainable AI / Green AI)
定义:关注AI系统环境影响的领域,致力于开发更节能、更环保的AI技术。
关注点:
- 降低训练和推理的能耗
- 使用可再生能源
- 提高计算效率
- 模型效率优化
合成数据 (Synthetic Data)
定义:由AI模型生成的人工数据,用于训练或测试其他模型,替代或补充真实数据。
优势:
- 解决数据稀缺问题
- 保护隐私
- 可控的数据分布
- 降低数据收集成本
神经符号AI (Neuro-Symbolic AI)
定义:结合神经网络(学习能力)和符号推理(逻辑推理)的混合AI方法,融合数据驱动和知识驱动的方法。
目标:结合两者的优势,实现更强、更可解释的AI系统。
专家混合模型 (Mixture of Experts, MoE)
定义:一种模型架构,将模型分为多个"专家"子网络,每个输入只激活部分专家,从而在保持模型容量的同时降低计算成本。
优势:
- 大幅降低推理计算量(只激活部分参数)
- 支持更大规模的模型
- 提高训练和推理效率
代表模型:GPT-4(推测使用MoE架构)、Mixtral 8x7B、Grok-1
长上下文窗口 (Long Context Window)
定义:模型能够处理和记忆的超长文本序列,从早期的几千tokens发展到现在的百万级tokens。
发展:
- 早期模型:512-2048 tokens
- GPT-3.5/GPT-4:4K-32K tokens
- GPT-4 Turbo:128K tokens
- Claude 3.5 Sonnet:200K tokens
- Gemini 1.5 Pro:100万tokens(可处理整本书或数小时视频)
应用:长文档分析、代码库理解、多轮对话、复杂推理任务
函数调用 / 工具使用 (Function Calling / Tool Use)
定义:大语言模型调用外部工具和函数的能力,使模型能够执行搜索、计算、数据库查询等操作,扩展模型的实际应用能力。
特点:
- 模型可以决定何时调用工具
- 支持多工具组合使用
- 实现更复杂的任务自动化
应用:代码执行、网络搜索、API调用、数据分析、实时信息获取
开源大语言模型 (Open Source LLMs)
定义:开源发布的大语言模型,允许研究者和开发者自由使用、修改和部署。
代表模型(2024-2025):
- Llama 3.1(Meta):70B和405B参数版本,性能接近闭源模型
- Qwen2.5(阿里):多语言支持,代码能力突出
- Mistral Large(Mistral AI):高性能开源模型
- LLaMA 2(Meta):开源LLM的重要里程碑
- Mixtral 8x7B:MoE架构的开源模型
- Phi-3(Microsoft):小参数高性能模型
影响:降低AI应用门槛,促进AI民主化,推动创新
视频生成模型 (Video Generation Models)
定义:能够根据文本描述生成视频内容的AI模型,是生成式AI的重要发展方向。
代表模型:
- Sora(OpenAI,2024):可生成高质量、长时长视频,理解物理世界规则
- Runway Gen-2:商业视频生成工具
- Pika:AI视频生成平台
- Stable Video Diffusion:开源视频生成模型
挑战:时间一致性、物理规则理解、长视频生成
重要组织与项目
OpenAI
定义:致力于创建安全和有益的AGI的研究组织,开发了GPT系列、DALL-E、CLIP、Sora等模型。
使命:确保AGI造福全人类。
最新模型(2024):
- GPT-4o:多模态模型,支持实时语音对话
- GPT-4 Turbo:更快推理,更长上下文
- Sora:文本到视频生成模型
- DALL-E 3:改进的图像生成模型
Anthropic
定义:专注于AI安全和对齐研究的公司,开发了Claude系列模型。
特色:强调AI安全和可解释性,使用宪法式AI(Constitutional AI)方法。
最新模型:
- Claude 3.5 Sonnet(2024):在代码、推理和创意任务上表现优异
- Claude 3 Opus:最强性能版本
- Claude 3 Haiku:快速响应版本
DeepMind
定义:Google旗下的AI研究实验室,以AlphaGo、AlphaFold等突破性研究闻名。
成就:
- AlphaGo:战胜人类围棋冠军
- AlphaFold:蛋白质结构预测(AlphaFold 3,2024)
- Gemini系列:多模态大语言模型
- 强化学习研究
Hugging Face
定义:AI社区和平台,提供预训练模型、工具和数据集,促进开源AI发展。
贡献:Transformers库、模型Hub、开源生态、Hugging Face Chat(模型对比平台)
Meta AI
定义:Meta(原Facebook)的AI研究部门,推动开源AI发展。
贡献:
- LLaMA系列:开源大语言模型(Llama 2, Llama 3.1)
- Segment Anything Model (SAM):图像分割模型
- Code Llama:代码生成模型
- 开源生态:推动AI民主化
总结
AI领域正在快速发展,新术语和概念不断涌现。理解这些术语对于:
- 紧跟技术发展:掌握最新AI进展
- 有效沟通:与AI研究人员和从业者交流
- 做出决策:评估和选择合适的AI技术
- 深入学习:为进一步研究奠定基础
本文涵盖的术语代表了当前AI领域的核心概念和最新趋势。随着技术的不断发展,建议持续关注:
- 学术论文和会议(NeurIPS、ICML、ICLR等)
- 技术博客和社区(ArXiv、GitHub、Twitter等)
- 开源项目和工具
- 行业报告和白皮书
记住:AI领域变化快速,保持学习的态度和开放的心态至关重要。技术的本质在于解决问题、创造价值,而不仅仅是追求最新的术语。
参考文献与延伸阅读
经典论文
- Attention Is All You Need (Transformer)
- Language Models are Few-Shot Learners (GPT-3)
- BERT: Pre-training of Deep Bidirectional Transformers
- Generative Adversarial Networks (GAN)
- Deep Residual Learning for Image Recognition (ResNet)
在线资源
- Papers with Code
- Hugging Face Transformers
- OpenAI Blog
- Deep Learning Book (Ian Goodfellow等)
- Stanford CS224N/Natural Language Processing Course
重要会议
- NeurIPS (Neural Information Processing Systems)
- ICML (International Conference on Machine Learning)
- ICLR (International Conference on Learning Representations)
- ACL (Association for Computational Linguistics)
- CVPR (Computer Vision and Pattern Recognition)