chatGPT爆火以来,AI如火如荼地开始出现在普通人的视野中。但是事实上,AI这个概念在上世纪五十年代就已经出现。今天简单按时间顺序整理一下AI相关的名词。
-
AI,Artificial Intelligence,人工智能。是一切的开端。
-
目标:让机器像人感知、学习、推理、决策甚至创造
-
范畴较大,下棋机器人,自动驾驶到简单的一个温控模块,都可以属于“智能”的范畴
-
-
ML,Machine Learning,机器学习。最早的AI领域。
-
核心:寻找一个函数
f,使得y = f(x),其中x是输入数据,y是期望的输出。ML从历史数据中自动学习出这个f。 -
应用:垃圾邮件过滤、股票金融数据分析。善于处理结构化数据
-
-
DL,Deep Learning,深度学习。机器学习发展的一个分支。
-
定义:模型受生物神经网络启发,由多层的“神经元”(节点)相互连接而成。“深度”指的是网络的层次非常多。
-
核心:通过多层非线性处理单元(层)进行特征提取与转换,低层识别简单特征(如图像的边缘),高层组合低层特征形成更抽象的概念(如眼睛、车轮)
-
进步性:传统ML需要人工设计“特征工程”(如告诉计算机什么是“纹理”“棱角”),而DL是直接把原始数据(像素)输入,它自己能像小孩认识世界一样,从简单到复杂,一层层自动构建出对事物的理解
-
应用:图像分类、文本分析、AlphaGo。可以处理原始的非结构性数据
-
-
CNN,Convolutional Neural Network,卷积神经网络。深度学习早期处理空间数据的经典网络架构
-
定义:专门为处理具有网格状拓扑结构数据(如图像)而设计的深度学习网络。
-
核心:通过“卷积核”在输入数据上滑动,提取局部特征(如边缘),并通过“池化”层逐步降低数据空间尺寸,实现平移不变性(无论物体在图片哪个位置都能识别)。
-
应用:人脸识别、医学影像分析、自动驾驶中的物体检测。
-
-
RNN,Recurrent Neural Network,循环神经网络。深度学习早期处理序列数据的经典网络架构
-
定义:为处理序列数据(如时间序列、语句)而设计的神经网络,其单元间存在循环,允许信息持久化。
-
核心:网络中存在“记忆”机制,当前时刻的输出依赖于当前输入和前一时刻的隐藏状态,使其理论上能处理任意长度的序列并捕捉前后依赖
-
应用:股票价格预测、早期语音识别、生成文本摘要
-
-
RL,Reinforcement Learning,强化学习。
- 让AI通过不断尝试和与环境互动来学习如何做出最优决策的方法。根据得到的反馈来调整自己的行为策略,逐渐学会哪些行动能带来更多奖励,哪些行动会带来负激励或者惩罚,从而找到最优的行动方式,如:AlphaGo
-
RLHF,Reinforcement Learning from Human Feedback,基于人类反馈的强化学习。
- 用人类的偏好作为评判标准,去指导和优化AI模型的行为。传统方法让模型预测下一个词,而RLHF让模型学习“生成人类更喜欢的回答”。
-
LM,Language Model,语言模型。智能的初见端倪。
- 对语言序列的概率分布进行建模。简单说,就是计算一个词序列出现的可能性,或预测序列中的下一个词。
- 其标准流程主要分为三步:
-
- 监督微调:在高质量的指令-回答对数据上,对预训练好的大模型进行微调,让它初步学会遵循指令。
-
- 奖励模型训练:这是RLHF的灵魂。让人类标注员对同一个问题的多个模型输出进行排序(哪个更好)。利用这些排序数据,训练出一个能模仿人类偏好的“奖励模型”。这个模型的作用就是给任何一段文本输出打分,分数越高代表越符合人类偏好。
-
- 强化学习优化:将第一步得到的模型作为“演员”,第二步训练的奖励模型作为“裁判”。让“演员”模型生成回答,“裁判”模型给出分数。通过强化学习算法(如PPO),不断迭代优化“演员”模型,使其输出能获得“裁判”给出的更高奖励分,从而越来越贴近人类喜好。
-
-
LLM,Large Language Model,大语言模型。妙就妙在一个“大”上,量变引发质变。通向通用智能的关键一跃。
-
定义:基于海量文本数据和巨大参数量(通常数十亿到万亿级)训练而成的语言模型。其核心架构是 Transformer。
-
核心:LLM的飞跃源于 Scaling Law:当模型参数、训练数据和计算力超过某个临界规模后,会“涌现”出在小模型中不具备的复杂能力(如推理、代码生成、指令遵循)。
-
进步性:传统LM像一个精通语法的学生,能写出句子通顺的作文。LLM则像一位博览群书、融会贯通的学者,不仅能写,还能根据你提出的要求(指令),模仿特定风格创作、总结文献、解答专业问题甚至进行逻辑辩论。
-
跨时代意义:LLM,特别是基于Transformer的生成式模型,是当前AI发展的奇点。它正在成为新的“操作系统”或“基础平台”,几乎所有行业都在其上构建应用。
-
应用:大家熟知的ChatGPT/DeepSeek/豆包等AI对话助手、GitHub Copilot代码补全与生成、AI辅助写作和翻译。
-
-
AIGC,AI Generate Contents,人工智能生成内容。当下AI技术浪潮的最大化应用。 - 定义:利用人工智能技术,自动生成文本、图像、音频、视频、代码等多种形式数字内容的技术集合与产业范畴。
-
核心:是一个应用生态,其核心技术底座是生成式模型,特别是经过海量多模态数据训练的大模型。它通过理解人类指令(提示词),学习数据中的内在模式和分布,从而创造出符合要求的新内容。
-
应用:chatGPT、豆包、元宝等AI助手;NanoBanana等图像生成助手;Sora等音频助手;以及各行各业如雨后春笋般出现的AI App。
-
划时代意义:新型数字生产要素,AIGC产出的内容本身将成为训练下一代模型的数据燃料,形成数据飞轮。同时降低创作门槛,激发全民创造力。专业工具(如Photoshop、Premiere)需要长期训练,而AIGC工具让任何人用自然语言描述即可成为“创作者”。
-
-
AGI,Artificial General Intelligence,通用人工智能。人类AI发展的北极星。
- 定义:指具备与人类相当、甚至超越人类的综合认知能力的AI系统。它能够在任何智力任务上,像人类一样学习、理解、规划和创新,而非局限于特定领域。
-
核心:核心特征是自主性、通用性 和举一反三的能力。它拥有对世界的深刻理解(物理常识、社会常识、情感等),并能将在一个领域学到的技能和知识,迁移到另一个看似不相关的领域去解决新问题。
-
AGI是驱动整个AI领域从ML、DL、LM、LLM一路发展而来的终极愿景,是所有AI长期研究的核心动力。