引言
人工智能(AI)已经迅速发展为现代最具变革性的技术之一,正在革新各行各业,并重塑我们生活、工作以及与世界互动的方式。从本质上讲,AI 指的是在机器中模拟人类智能,使其能够执行通常需要人类认知能力的任务,例如推理、学习、解决问题和决策。AI 的应用既多样又影响深远,从 Siri、Alexa 这样的个人助理,到自动驾驶汽车等复杂系统,都属于其范畴。
AI 系统的一个关键组成部分是 AI 智能体(AI agents) 的概念。它们是能够感知环境、做出决策并执行动作以实现特定目标的自主实体。这些智能体建立在数据驱动算法、机器学习(ML)和深度学习技术之上,使其能够做出决策并随着时间推移不断适应和改进。它们在实现智能技术方面发挥着关键作用,例如聊天机器人、推荐引擎和机器人系统。
本章将介绍 AI 的基础概念及其发展历史,同时深入讲解 ML 与深度学习技术。此外,还将重点探讨 AI 智能体及其底层功能机制。理解这些基础内容,将帮助读者具备有效设计和实现智能系统所需的知识,并为后续章节的深入学习打下基础。
结构(Structure)
本章将涵盖以下主题:
- 人工智能基础
- 机器学习
- 深度学习
- 生成式人工智能
- 人工智能智能体
学习目标(Objectives)
在本章结束时,读者将能够掌握 AI 的基础知识,包括其历史与基本概念。读者将学习机器学习技术,例如监督学习、无监督学习和强化学习,并理解常见 ML 算法的应用与局限性。本章还旨在介绍深度学习,解释深度神经网络(DNNs)、卷积神经网络(CNNs)和循环神经网络(RNNs)的基本架构与关键组成部分,以及它们的应用场景。
本章还会对 ML 与深度学习进行对比分析,以帮助判断在特定用例中哪种技术更适合。此外,读者还将接触生成式 AI,包括生成对抗网络(GANs)、变分自编码器(VAEs)和 Transformer,以及它们在内容生成中的应用。本章也会介绍 AI 智能体的结构与类型,详细说明其组成部分和功能,并提供构建 AI 智能体的分步指南。
通过理解这些概念,读者将为后续章节中高效构建和应用 AI 智能体做好准备,并能够识别它们的应用场景。
人工智能基础(Basics of artificial intelligence)
AI 指的是在机器中模拟人类智能,使其能够像人类一样思考和学习。这些机器可以执行通常需要人类智能的任务,例如视觉感知、语音识别、决策制定和语言翻译。
人工智能的历史(History of artificial intelligence)
AI 的概念可以追溯到古代,但我们今天所理解的这一学科真正开始于 20 世纪中叶。AI 发展历程中的一些关键里程碑如下:
- 1950 年代:Alan Turing 提出 图灵测试(Turing Test) ,用于衡量机器是否能够表现出智能行为。
- 1956 年:在 达特茅斯会议(Dartmouth Conference) 上,“人工智能(artificial intelligence)”这一术语被正式提出。
- 1980 年代:专家系统兴起,这类系统模仿人类专家的决策能力。
- 2000 年代:机器学习与深度学习兴起,推动 AI 能力取得显著进展。
近年来,许多 AI 从业者(例如 Andrew NG)认为,AI 像电力一样,是一种 通用技术(general-purpose technology) 。AI 将构建新的应用,用于替代或增强人类思维,并影响我们日常生活的方方面面。表 1.1 展示了技术在不同时期对我们的贡献与影响。随着 AI 智能体的出现,它很可能在业务职能和岗位层面带来深刻变革。
| 技术 | 年份 | 贡献 | 影响 |
|---|---|---|---|
| 电力 | 1879 | 替代或增强劳动 | 工业自动化、家电、机器人 |
| 计算机 | 1977 | 帮助我们更高效地工作 | 生产力应用(企业软件、电子表格、数据库) |
| 互联网 | 1983 | 帮助我们更高效地沟通 | 电话、电子邮件、网站 |
| AI | 2016 | 替代或增强人类思维 | 涉及人与软件之间成千上万次交互的业务流程,将被 AI 智能体所替代 |
表 1.1:通用技术及其影响
基本概念(Fundamental concepts)
AI 的一些基础概念如下:
- 机器学习(ML) :AI 的一个子领域,重点是训练算法,使其能够基于数据学习并进行预测。
- 深度学习(Deep learning) :ML 的一个子领域,使用受人脑启发的神经网络模型来建模数据中的复杂模式。
- 生成式 AI(Generative AI) :深度学习的一个子领域,利用大语言模型(LLMs)从已有数据中学习模式,从而生成内容。
图 1.1 展示了 AI 的演进路径:它在 1960 年代作为计算机科学的一个领域起步;到 1990 年代发展为通过数据进行决策的机器学习;随后在 2010 年代进一步演进为深度学习,以便从海量数据中做出更准确的决策。近年来,生成式 AI 则通过简单提示生成内容,正在替代或增强人类思维。
图 1.1:人工智能的演进
机器学习(Machine learning)
机器学习(ML)是人工智能的一个分支,其中算法被设计为能够从数据中学习模式,并在不进行显式编程的情况下做出预测或决策。你可以把它理解为:教计算机识别信用卡欺诈交易;机器学习之所以能做到这一点,是因为它能从历史信用卡交易样本中学习。
常见机器学习算法(Common machine learning algorithms)
ML 算法构成了 AI 的骨干,使应用能够从数据中学习并随着时间推移提升性能。根据学习范式的不同,这些算法通常可以分为三大类:监督学习(supervised learning) 、无监督学习(unsupervised learning) 和 强化学习(reinforcement learning) 。每种方法都有不同用途,并适用于特定类型的任务。三种学习范式简要说明如下:
- 监督学习:算法在带标签数据上训练。
例如:基于历史数据预测房价。 - 无监督学习:算法在无标签数据中识别模式。
例如:基于购买行为对客户进行聚类。 - 强化学习:算法通过与环境交互并接收反馈来学习。
例如:训练机器人走迷宫。
ML 算法种类繁多,各自都有优势、局限和适用领域。通过理解这些算法的底层机制及其合适的使用场景,实践者可以利用它们解决各类领域中的复杂问题。
监督学习算法(Supervised learning algorithms)
监督学习是最常见的机器学习类型。它通过带标签的数据集训练模型,其中每个输入都对应一个输出。这类算法尤其适合预测类任务。
表 1.2 概述了一些常见的监督学习算法,包括线性回归、逻辑回归、决策树和随机森林。每种算法都从用途、工作机制、示例应用、优势和局限几个方面进行了说明。
表 1.2:监督式机器学习算法
| 监督算法 | 线性回归(Linear regression) | 逻辑回归(Logistic regression) | 决策树(Decision trees) | 随机森林(Random forest) |
|---|---|---|---|---|
| 用途(Purpose) | 建模特征与连续目标值之间的关系 | 预测类别结果,如是/否、真/假 | 通过按特征值分支划分数据,用于分类和回归 | 通过聚合多棵树的预测提升准确率与泛化能力 |
| 算法工作机制(Working of the algorithm) | 拟合线性方程到数据,并通过最小二乘法等方式最小化误差 | 建模某类别发生的概率,使用 Sigmoid 激活函数将预测映射为概率 | 构建树状结构:节点表示特征,分支表示决策规则,叶子表示结果 | 构建决策树集成,每棵树在随机子样本与随机特征上训练,并组合其输出 |
| 示例应用(Example application) | 房价预测 | 邮件垃圾分类 | 基于症状进行疾病诊断 | 客户流失预测 |
| 优势(Strengths) | 实现与解释简单,对线性可分数据效果好 | 适合二分类任务;结果可解释 | 可解释性强,同时处理数值型和类别型数据;通常无需复杂预处理 | 降低过拟合、对缺失数据较鲁棒,适用于分类和回归 |
| 局限(Limitations) | 假设线性关系,且对离群点敏感 | 只能学习线性决策边界 | 若树太深容易过拟合 | 相比单棵决策树可解释性差,计算开销较大 |
无监督学习算法(Unsupervised learning algorithms)
与监督学习不同,无监督学习处理的是无标签数据,重点是发现数据中的隐藏模式或结构。表 1.3 简要概述了一些常见的无监督学习技术。
表 1.3:无监督式机器学习算法
| 无监督算法 | K-means 聚类 | 层次聚类(Hierarchical clustering) |
|---|---|---|
| 用途(Purpose) | 基于相似性将数据划分为多个簇 | 构建数据簇的树状表示(dendrogram,树状图) |
| 算法工作机制(Working of the algorithm) | 通过最小化样本点与簇中心的距离,将数据点分配到 k 个簇中 | 基于相似度度量,迭代地合并或拆分簇 |
| 示例应用(Example application) | 面向定向广告的市场细分 | 生物信息学中的基因表达分析 |
| 优势(Strengths) | 简单高效,适合大数据集,结果可解释 | 无需预先指定簇数量;可视化直观 |
| 局限(Limitations) | 对初始簇中心敏感;需预先指定簇数 | 在大数据集上计算开销高,对噪声敏感 |
强化学习算法(Reinforcement learning algorithms)
强化学习关注训练智能体通过与环境交互来做决策,并通过奖励或惩罚形式的反馈进行学习。表 1.4 概括了两种常见强化学习技术:Q-learning 和 Deep Q-Networks(DQN)。
表 1.4:强化学习算法
| 类别(Category) | Q-learning | DQN |
|---|---|---|
| 用途(Purpose) | 基于价值的强化学习,最大化累积奖励 | 使用神经网络近似 Q 值,将 Q-learning 扩展到大规模状态-动作空间 |
| 算法工作机制(Working of the algorithm) | 智能体学习一个 Q 表,将状态与动作映射到期望奖励,并迭代更新 | 用神经网络预测 Q 值,结合经验回放与梯度下降更新策略 |
| 示例应用(Example application) | 机器人自主导航 | 攻克复杂游戏,如 Atari 或 Go |
| 优势(Strengths) | 无模型(model-free);适合离散动作空间 | 能处理大规模、连续状态-动作空间 |
| 局限(Limitations) | 在大状态-动作空间下表现困难;收敛较慢 | 需要大量计算资源和超参数调优 |
机器学习工作流示例(Example machine learning workflow)
为了更好理解 ML 在实践中如何运作,我们以一个典型监督学习应用的工作流为例(如图 1.2 所示):
- 收集并预处理数据,例如包含面积、位置、价格等属性的房价数据集。
- 提取特征,例如房屋面积、社区评分、卧室数量。
- 选择算法(如线性回归或决策树),并将数据输入模型。
- 训练模型,让其学习特征与房价之间的关系。
- 测试模型性能,在未见过的数据上评估准确度。
- 部署模型 用于真实场景,例如预测新房源的价格。
图 1.2:机器学习工作流
深度学习(Deep learning)
深度学习是 ML 中的一个专门领域,它使用由多层互联节点构成的神经网络来建模数据中的复杂模式。比如,可以想象一个机器人通过分析图像来识别不同动物。
常见深度学习算法(Common deep learning algorithms)
深度学习算法是机器学习领域中的高级技术,专门用于解决复杂、数据密集型任务。这些算法使用多层神经网络处理大规模数据集并提取洞察,从而支持图像识别、自然语言处理和自主决策等复杂功能。
下面的小节将简要介绍常见深度学习算法,包括 DNNs、CNNs 和 RNNs。每种算法都有其独特优势与应用场景。
深度神经网络(Deep neural networks)
DNN(深度神经网络)就像由许多微型“大脑”(神经元)组成的一张巨大网络。神经元按层连接,每一层都帮助网络从数据中学到更多信息。你可以把它想象成一组侦探协作破案。
下面是 DNN 基本架构的简要说明(如图 1.3 所示):
-
神经元(Neurons) :可把神经元看作微型决策单元。每个神经元接收输入、处理它,再把结果传给下一层。
-
层(Layers) :DNN 由多层组成,包括:
- 输入层(Input layer) :数据进入网络的地方。
- 隐藏层(Hidden layers) :位于中间,承担大部分处理工作。隐藏层越多,网络越“深”。
- 输出层(Output layer) :给出最终结果或预测。
-
连接(Connections) :一层中的神经元与下一层神经元相连。每条连接都有一个权重,网络学习时会调整这些权重。
-
学习(Learning) :网络通过根据错误调整权重来学习,这个过程称为训练(training)。
图 1.3:深度神经网络架构
卷积神经网络(Convolutional neural networks)
CNN 常用于图像识别、目标检测和分类。你可以想象把一张大图切成许多小块,每一块都像拼图的一部分,CNN 帮助计算机理解每一小块的内容。例如,它通过观察这些小块来判断图片里是猫还是狗。
表 1.5 展示了 CNN 架构中的不同层、它们的用途、工作方式及示例。
表 1.5:CNN 架构的关键组成部分
| 层(Layer) | 用途(Purpose) | CNN 的工作方式(Working of CNN) | 示例(Example) |
|---|---|---|---|
| 卷积层(Convolutional layer) | 从输入图像中提取特征 | 使用滤波器(或卷积核)在输入图像上滑动,对滤波器与输入做点积,生成特征图(feature map) | 检测图像中的边缘、纹理或模式 |
| 池化层(Pooling layer) | 降低特征图的空间维度(宽和高),从而降低计算量并控制过拟合 | 最大池化(取最大值)和平均池化(取平均值) | 对特征图下采样,保留最重要信息 |
| 全连接层(Fully connected layer) | 组合卷积层和池化层学到的特征来做预测 | 将特征图展平为一个向量,并传入一个或多个全连接层(dense layers) | 将图像分类到不同类别 |
CNN 架构另一个重要组件是 激活函数(activation function) ,它为模型引入非线性,使模型能够学习更复杂的模式。CNN 常用激活函数包括 ReLU、Sigmoid 和 Tanh。例如,ReLU 会把负值替换为 0,从而让模型训练更快、更高效。
图 1.4 展示了一个基本 CNN 架构:输入层 → 两组卷积层与池化层 → 全连接层 → 输出层。
图 1.4:卷积神经网络架构
一个使用 CNN 做手写数字识别的示例工作流如下:
- 输入图像(Input image) :一张 28×28 像素的手写数字灰度图。
- 卷积层(Convolutional layer) :应用一个 3×3 滤波器来检测边缘。
- 激活函数(Activation function) :使用 ReLU 引入非线性。
- 池化层(Pooling layer) :应用 2×2 最大池化,将尺寸降为 14×14。
- 展平(Flattening) :将 14×14 的特征图转换为一维向量。
- 全连接层(Fully connected layer) :用展平后的向量将图像分类为 0–9 中的某个数字。
循环神经网络(Recurrent neural networks)
RNN 是一种专门处理序列数据的神经网络,例如时间序列、文本或语音。想象你在读一本书,需要记住前几章的内容才能理解当前章节。RNN 帮助计算机“记住”之前的信息,以便理解新的信息。
RNN 的关键组成部分如下:
-
输入序列(Input sequence)
- 用途(Purpose) :RNN 一次处理一个数据点的序列。
- 示例(Example) :一句话中的每个单词按顺序处理。
-
隐藏层(Hidden layers)
- 用途(Purpose) :从输入序列中提取信息,并通过循环连接保留之前输入的记忆。
- 工作方式(Working) :每个隐藏层都会接收当前数据点的输入和上一个隐藏状态,从而让网络在时间维度上保留信息。
- 示例(Example) :根据前文单词理解当前单词在句子中的语境。
-
输出(Output)
- 用途(Purpose) :基于处理后的序列给出最终预测或分类。
- 示例(Example) :预测句子的下一个词,或判断文本情感是正面还是负面。
下图展示了 RNN 的基本架构及其组成部分:
图 1.5:循环神经网络架构
一个使用 RNN 判断句子正负情感的示例工作流如下:
- 输入序列:一句话,例如 The cat sat on the mat.
- 隐藏层:在处理句中每个词时,同时保留前面词语的上下文。
- 输出:预测下一个词,或将情感分类为正向/负向。
深度学习与机器学习对比(Deep learning versus machine learning)
ML 与深度学习虽然都属于 AI 的核心组成部分,但它们具有不同特征。下表展示了 ML 与深度学习的对比:
表 1.6:机器学习 vs. 深度学习
| 类别(Category) | 机器学习(Machine learning) | 深度学习(Deep learning) |
|---|---|---|
| 特征设计(Features design) | 需要特征工程来设计特征 | 不需要人工特征设计 |
| 数据类型(Data type) | 更适合结构化数据 | 可处理非结构化数据与序列数据 |
| 数据规模(Data size) | 不需要海量样本 | 需要大量数据 |
| 可解释性(Explainability) | 特征与结果较易解释 | 特征与结果不易解释 |
| 训练时间(Training time) | 训练时间较短 | 训练时间较长 |
| 性能(Performance) | 在小数据量场景下准确率较好 | 在大数据场景下精度更高 |
如图 1.6 所示,随着数据量增加,传统 ML 技术在性能方面会逐渐不足,而深度学习在准确率上表现更好。图中说明:传统 ML 算法在小数据量时可能优于 DNN,但随着训练数据增加,其性能趋于饱和;而 DNN 会随着数据量增加持续提升表现。
图 1.6:机器学习 vs. 深度学习性能对比
近年来,深度学习之所以获得显著提升,原因包括:大规模训练数据的可获得性、GPU 带来的计算能力增强,以及 CNN、Transformer 等算法的发展。
基于用例选择深度学习算法(Choosing deep learning algorithm based on use case)
图 1.7 展示了:如果任务是简单分类(如天气预测、贷款违约预测等),应使用 DNN;如果是图像识别与目标识别,则 CNN 最合适;而 RNN 则在语音识别、时间序列和 NLP 场景中表现较好。
图 1.7:不同用例下的深度学习算法选择
表 1.7 列举了深度学习算法在不同行业中的应用。DNN 可用于金融领域识别更复杂的欺诈模式,也可在制造业中通过更深层的异常检测提升缺陷识别能力。
表 1.7:深度学习在各行业中的应用
| 算法(Algorithm) | 应用(Application) | 细节(Details) |
|---|---|---|
| DNNs | 金融 | 通过识别更复杂的模式增强欺诈检测 |
| DNNs | 制造业 | 基于更深层异常检测增强缺陷识别 |
| CNNs | 零售 | 对店内视频进行行为分析以衡量客流 |
| CNNs | 卫星图像 | 地形标注、目标分类 |
| CNNs | 汽车 | 道路与障碍物识别 |
| CNNs | 医疗健康 | 基于 X 光、扫描图像等进行诊断 |
| CNNs | 保险 | 基于照片估算理赔严重程度 |
| RNNs | 客户满意度 | 将语音数据转写为文本以进行 NLP 分析 |
| RNNs | 社交媒体 | 对社交平台与产品论坛帖子进行实时翻译 |
| RNNs | 图片描述(Photo captioning) | 检索图像档案以发现新洞察 |
| RNNs | 金融 | 基于时间序列分析预测行为,增强推荐系统 |
构建深度学习模型的分步指南(Step-by-step guide to building deep learning models)
构建深度学习模型通常包含四个关键步骤,以确保结果高效且准确,具体如下:
- 定义模型架构(Define the model’s architecture)
首先定义模型架构,明确神经网络的结构和类型。 - 定义输入与输出(Define input and output)
指定模型的输入与输出,即模型接收什么数据、期望输出什么结果。 - 定义模型参数(Define the model’s parameters)
选择并配置损失函数与性能指标,用于评估模型准确性并进行必要调整。 - 训练(Training)
模型会经历一系列训练周期(epochs),通过调整参数不断提升预测能力。在这一过程中,还会调优各种参数,例如网络深度、层宽度、学习率和 dropout rate,以提高模型性能。
目前已有多个流行深度学习框架可用,例如 TensorFlow、PyTorch 等,可以通过相对简单的代码构建深度神经网络。
构建高效深度学习模型的最佳实践(Best practices)
以下是构建高效深度学习模型的一些最佳实践:
- 使用正则化(Dropout、L1/L2)来避免过拟合。
- 使用较小的 batch size 和较少的 epoch 数进行训练。
- 在中间层(输入到隐藏层、隐藏层到隐藏层)使用 ReLU 激活函数。
- 在最后一层(隐藏层到输出层)使用 Sigmoid 激活函数。
- 对于小数据集,使用 迁移学习(transfer learning) ,有助于领域适配。
- 使用 循环学习率(cyclic learning rate) 提升性能。
- 在分布式 GPU 训练场景下,相比单 GPU,使用更多的 epoch。
生成式人工智能(Generative artificial intelligence)
生成式 AI(GenAI)是人工智能的一个分支,重点在于创造新内容,而不仅仅是分析现有数据。GenAI 可以生成文本、图像、音乐,甚至逼真的人机交互。你可以想象有一个 AI 能写小说、作交响乐,或创作艺术作品;GenAI 正在把这些可能性变成现实。
常见 GenAI 算法(Common GenAI algorithms)
生成式 AI 算法是人工智能领域中的复杂方法,旨在通过从现有数据集中学习来生成新的、多样化的数据。这些算法利用先进的神经网络架构,在图像、文本、音频等多种模态上生成逼真的输出。每种算法都在特定领域表现出色,具备独特能力与应用场景。
生成对抗网络(Generative adversarial networks)
GAN(生成对抗网络)是非常常见的一类 GenAI。它由两个神经网络组成:生成器(generator) 和 判别器(discriminator) 。生成器负责生成新的数据样本,判别器负责评估这些样本。你可以把它理解成一个“造假币 vs. 打假侦探”的博弈:生成器努力制造逼真的假币,判别器则像侦探一样识别假币。随着训练进行,生成器会越来越擅长生成更逼真的数据。
GAN 的关键组成部分如下:
- 生成器(Generator) :基于随机噪声输入生成新的数据样本。
- 判别器(Discriminator) :将生成数据与真实数据进行比较,以判断其真伪。
- 训练过程(Training process) :两个网络同时训练;生成器尝试欺骗判别器,而判别器学习识别伪造样本。
下图展示了 GAN 的基本架构:
图 1.8:生成对抗网络架构
一个使用 GAN 进行图像生成的示例工作流如下:
- 输入(Input) :生成器接收随机噪声作为输入。
- 生成(Generation) :生成器根据噪声生成图像。
- 评估(Evaluation) :判别器将生成图像与真实图像进行对比评估。
- 反馈(Feedback) :判别器向生成器提供反馈,生成器据此改进下一次生成结果。
变分自编码器(Variational autoencoders)
VAE(变分自编码器)是另一类 GenAI,主要用于图像生成和数据重建。与 GAN 使用两个独立网络不同,VAE 使用一个网络体系将输入数据编码到潜在空间(latent space),再解码回原始形式。你可以把它想象成:把一张高分辨率图片压缩成一个很小的文件,然后在尽量不损失质量的情况下重建出来。
VAE 的关键组成部分如下:
- 编码器(Encoder) :将输入数据压缩为潜在空间表示。
- 潜在空间(Latent space) :输入数据的较小、压缩版本表示。
- 解码器(Decoder) :根据潜在空间表示重建输入数据。
图 1.9 展示了 VAE 的基本架构:
图 1.9:变分自编码器架构
下面是一个使用 VAE 做异常检测的示例工作流:
- 输入(Input) :来自工业设备的传感器数据。
- 编码(Encoding) :将数据压缩到潜在空间。
- 解码(Decoding) :将压缩后的数据重建回原始形式。
- 异常检测(Anomaly detection) :分析原始数据与重建数据之间的差异,从而检测异常。
Transformer(Transformers)
Transformer 是一种神经网络架构,彻底改变了 NLP 和 GenAI。它由 Google Brain 团队在 2017 年论文 Attention Is All You Need 中提出,标志着 NLP 的重要转变。它推动了 GPT-4 等大语言模型(LLMs)的发展,这些模型在通用性和性能上都超越了早期的 RNN。基于 Transformer 的 LLM 在机器翻译、情感分析、问答和文本摘要等任务中表现出色,树立了新的标准,并打开了 AI 的更多可能性。
Transformer 尤其以其处理长程依赖(long-range dependencies)和并行化训练的能力而闻名,因此既高效又强大。它可以根据上下文学习词语的含义。你可以把它想象成在拼图游戏里理解不同拼图块如何组合起来;Transformer 帮助计算机理解数据不同部分如何关联,从而形成整体意义。通过使用这些不同类型的网络,我们可以让计算机完成许多惊人的任务,例如翻译语言、作曲,甚至辅助疾病诊断。
表 1.8 对 Transformer 模型架构的关键组件进行了全面概述,解释了序列处理框架中每个组件的用途与功能。
表 1.8:Transformer 架构的关键组件
| 组件(Component) | 用途(Purpose) | 示例(Example) |
|---|---|---|
| 输入序列(Input sequence) | Transformer 处理的数据点序列(如句子中的单词) | 一句话,如 The cat sat on the mat. |
| 嵌入层(Embedding layer) | 将输入序列中的每个词转换为稠密向量表示 | 把单词 cat 表示为一个数字向量 |
| 多头注意力(Multi-head attention) | 让模型关注输入序列的不同部分,捕捉多种关系与依赖 | 理解句子中 cat 与 sat 的关系 |
| 前馈神经网络(Feed-forward neural network) | 处理注意力机制的输出,生成更抽象的表示 | 进一步细化对句子结构的理解 |
| 输出(Output) | 基于处理后的序列给出最终预测或分类 | 将句子翻译成另一种语言,或预测下一个词 |
图 1.10 展示了一个简化版 Transformer 架构:首先输入序列通过嵌入层转换为向量形式;随后加入位置编码(positional encodings,用于表示词在序列中的位置),再传入编码器。编码器通过自注意力(self-attention)和前馈层对输入序列进行处理,并将其分解为有意义的表示。编码器再把这些表示传给解码器;解码器还会接收前一序列的输出嵌入作为输入,以生成目标输出序列,例如给定文本序列的翻译结果。
图 1.10:Transformer 架构
一个使用 Transformer 将英文句子翻译成法语的示例工作流如下:
- 输入序列(Input sequence) :一句话,如 The cat sat on the mat.
- 嵌入层(Embedding layer) :将每个词转换为向量。
- 多头注意力(Multi-head attention) :关注句子不同部分以理解其关系。
- 前馈神经网络(Feed-forward neural network) :处理注意力输出并进一步细化理解。
- 输出(Output) :生成最终预测,例如翻译成法语:Le chat s'est assis sur le tapis.
大语言模型(Large language models)
大语言模型(LLMs)代表了 AI 领域(尤其是自然语言处理)的一次巨大飞跃。像 GPT-4、Llama 3、Claude 3 和 Gemini 这样的模型,都是构建在 Transformer 架构之上,并在海量数据集上进行训练,因此能够生成类人的文本、执行复杂推理,并理解细微的语言模式。它们处理并生成连贯、上下文相关响应的能力,为 AI 应用树立了新的标杆。
LLM 的显著特征在于:它们能够学习语言表示,捕捉词与句子之间的意义、上下文和关系。它们是高度通用的工具,可执行文本摘要、情感分析、问答和代码生成等任务,正在从客户服务到创意写作等多个行业带来变革。
表 1.9 更深入地介绍了 LLM 的核心组成部分及其在自然语言理解与生成中的作用。
表 1.9:大语言模型的关键组件
| 组件(Component) | 用途(Purpose) | 示例(Example) |
|---|---|---|
| 预训练(Pretraining) | 在大规模数据集上训练,以学习通用语言模式与表示 | 从数十亿篇文本中学习词语关系 |
| 微调(Fine-tuning) | 将预训练模型适配到特定任务或领域 | 优化模型以用于医疗诊断或法律文档处理 |
| 分词(Tokenization) | 将输入文本拆分成更小单元(如词或子词)以便处理 | 将 transformer architecture 拆分为 transformer 和 architecture |
| 注意力机制(Attention mechanism) | 优先关注输入中的相关部分,以更好理解上下文与关系 | 关注句子中 model 与 training 的联系 |
| 输出序列(Output sequence) | 生成连贯且上下文恰当的响应或预测 | 生成摘要、翻译结果或代码片段 |
图 1.11 展示了一个简化版 LLM 工作流:文本数据先被分词,然后通过多层注意力机制和前馈神经网络。这些层协同处理输入并保持上下文,最终生成与目标任务相匹配的输出序列。
图 1.11:大语言模型工作流
一个将 LLM 用于文本摘要的示例工作流如下:
- 输入文本(Input text) :需要摘要的一段文字或一篇文档。
- 分词(Tokenization) :将输入拆分为可处理的单元。
- 注意力机制(Attention mechanism) :识别文本中最关键的部分,优先关注关键信息。
- 前馈神经网络(Feed-forward neural network) :进一步处理数据,确保输出连贯且相关。
- 输出(Output) :生成简洁且可读的输入文本摘要。
生成式 AI 的应用(Generative AI applications)
GenAI 正在通过支持新颖内容的生成,改变多个行业。无论是生成逼真的图像、创作音乐,还是撰写文本,GenAI 都有潜力彻底改变我们创造与交互数字内容的方式。
如表 1.10 所示,GenAI 在不同业务职能中有广泛应用。它可以通过自动回复客户咨询和生成多主题内容来增强客户服务;情感分析帮助理解客户情绪;NLP 有助于数据抽取;机器翻译支持语言间自动转换;报告生成帮助企业及时获取最新信息;分析能力则从数据中提取洞察,辅助企业做出更明智的决策。
表 1.10:GenAI 在业务职能中的应用
| 业务职能(Business function) | GenAI 应用(GenAI application) |
|---|---|
| 客户服务(Customer service) | 自动回复客户咨询 |
| 内容生成(Content generation) | 自动生成各种主题内容 |
| 情感分析(Sentiment analysis) | 分析文本数据情感,帮助理解客户情绪并做出更好决策 |
| 自然语言处理(Natural language processing) | 处理和理解自然语言数据,便于从文本中提取信息 |
| 机器翻译(Machine translation) | 自动将文本从一种语言翻译成另一种语言 |
| 报告(Reporting) | 自动生成报告,帮助企业获得最新信息 |
| 分析(Analytics) | 从数据中提取洞察,辅助业务决策 |
图 1.12 是生成式 AI 应用版图(application landscape)的示意图,来源于 Huang 和 Grady 在 2022 年的论文。该图按不同数据类型和功能对应用进行了分类。横向组织的主要类别如下:
- Text(文本) :包括营销内容生成、销售邮件、客户支持(聊天/邮件)、通用写作辅助、笔记记录等文本类任务。
- Code(代码) :包括代码生成、代码文档、文本转 SQL 查询、构建 Web 应用。
- Image(图像) :包括图像生成、消费级与社交媒体应用、媒体与广告、设计工具。
- Speech(语音) :聚焦语音合成技术。
- Video(视频) :涉及视频编辑与生成。
- 3D:涉及 3D 模型与场景创建。
- Other(其他) :包括游戏、机器人流程自动化(RPA)、音乐生成、音频处理,以及生物与化学领域应用。
图 1.12:GenAI 应用版图
(来源:Huang and Grady, 2022)
纵轴标注为 application layer(应用层) ,暗示了 AI 工具在不同领域与功能中的分层使用方式。图中不同区块的高度可能表示各类别应用的相对普及度或成熟度。例如,文本和图像应用看起来覆盖范围更大,而语音或 3D 应用则相对较小。图中还列出了 OpenAI、DeepMind、Meta 等多家公司,它们都在不同数据类型上开发 GenAI 工具。
需要注意的是,这一版图反映的是 2022 年的生成式 AI 状态;随着新进展和新应用不断出现,该版图很可能已经发生变化。
GenAI 还加速了 ML 产品开发
GenAI 还可以通过减少任务量和开发时间来加速 ML 产品的构建。在监督学习中,通常有三项主要任务(获取带标签数据、训练模型、部署模型),每项往往需要一到三个月,因此一个 ML 产品的典型开发周期大约是 六个月。而基于 GenAI 的产品开发通常只需要数周,因为 GenAI 往往只需指定提示词(prompts)并部署模型即可。
人工智能智能体(Artificial intelligence agents)
AI 智能体(AI agent)被定义为一种软件程序或系统,它能够观察环境、处理信息,并执行动作以实现特定目标。智能体以自主方式运行,这意味着它并不由人类操作员直接控制。AI 智能体是许多应用的核心组成部分,包括机器人、游戏和智能系统。你可以把 AI 智能体理解为一个聪明的助手:它能够理解周围环境,并据此采取行动来帮助你完成各种任务。
AI 智能体是一个极具潜力、并有望改变世界的领域,处于众多技术进步的核心。为了理解 AI 智能体及其功能机制,我们将探索它们的概念与类型,并辅以简单表格、图示和示例来帮助理解。
AI 智能体的演进(Evolution of AI agents)
AI 智能体的发展经历了多个重要里程碑与进展,概括如下:
- 基础模型(Foundational models) :早期 AI 模型主要聚焦于基础的规则系统。
- 少样本学习(Few-shot learning) :AI 智能体能够通过少量示例进行学习。
- 思维链(Chain-of-thought) :AI 智能体具备更高级的推理能力。
- ReAct 智能体(ReAct agent) :AI 智能体在“思考-行动-观察(Think-Act-Observe)”循环中结合推理与行动,以解决动态环境中的复杂任务。
- 多智能体(Multi-agents) :多个 AI 智能体协作以实现复杂目标。
- 自治智能体(Autonomous agents) :具备独立决策能力的完全自治 AI 智能体。
下图展示了 AI 智能体的演进过程:
图 1.13:AI 智能体的演进
AI 智能体的特性(Features of AI agents)
AI 智能体具备若干关键特性,使其能够有效执行任务,主要包括:
- 自主性(Autonomy) :无需人工干预即可运行的能力。
- 适应性(Adaptability) :适应变化环境并从经验中学习的能力。
- 协作性(Collaboration) :与其他智能体协同完成共同目标的能力。
- 可扩展性(Scalability) :将操作规模扩展到处理大型复杂任务的能力。
- 透明性(Transparency) :使决策过程对人类可理解的能力。
AI 智能体的特征分类(Characteristics of AI agents)
在使用 AI 构建应用时,智能体可以根据若干特征进行分类,这些特征在设计时需要考虑。
下表简要概述了各类特征:
表 1.11:AI 智能体的特征(Characteristics of AI agents)
| 特征(Characteristic) | 描述(Description) |
|---|---|
| 反应式(Reactive) | 对来自环境的即时刺激做出响应。 |
| 主动式(Proactive) | 主动采取行动并提前规划以实现目标。 |
| 固定环境(Fixed environment) | 在一组静态、不会变化的规则中运行。 |
| 动态环境(Dynamic environment) | 在持续变化的环境中运行,需要具备适应能力。 |
| 单智能体系统(Single-agent system) | 由一个智能体独立工作。 |
| 多智能体系统(Multi-agent system) | 多个智能体协同工作以实现共同目标,并可组织为层级结构。 |
AI 智能体的类型(Types of AI agents)
AI 智能体可以根据其“感知到的智能程度”和能力分为若干类别,具体如下:
- 简单反射型智能体(Simple reflex agents) :仅根据当前感知采取行动,忽略感知历史。它们依赖“条件-动作”规则,适用于完全可观测环境。
- 基于模型的反射型智能体(Model-based reflex agents) :维护一个依赖感知历史的内部状态,因此可以处理部分可观测环境。
- 目标导向型智能体(Goal-based agents) :为了实现特定目标而采取行动,并根据与目标的距离做决策。
- 效用导向型智能体(Utility-based agents) :基于效用函数选择行动,该函数衡量智能体的“幸福感”或满意度。
- 学习型智能体(Learning agents) :通过从经验中学习,不断提升自身性能。
表 1.12 总结了这些智能体类型及其示例应用。
表 1.12:AI 智能体类型及示例应用(Types of AI agents with example applications)
| 智能体类型(Type of agent) | 描述(Description) | 示例应用(Example applications) |
|---|---|---|
| 简单反射型智能体 | 仅基于当前感知采取行动,忽略感知历史。 | 基础机器人、简单自动化系统 |
| 基于模型的反射型智能体 | 基于感知历史维护内部状态,以处理部分可观测环境。 | 自动驾驶汽车、智能家居设备 |
| 目标导向型智能体 | 以实现特定目标为导向,并基于目标距离做决策。 | 下棋程序、导航系统 |
| 效用导向型智能体 | 基于衡量满意度/效用的函数选择行动。 | 金融交易系统、推荐引擎 |
| 学习型智能体 | 通过从经验中学习不断提升性能。 | 个人助理、自适应学习平台 |
AI 智能体的结构(Structure of an AI agent)
要理解智能体的结构,我们需要熟悉 架构(architecture) 和 智能体程序(agent program) 两个概念:
- 架构(Architecture) :智能体运行所依赖的“机器”,例如机器人汽车或计算机。
- 智能体程序(Agent program) :智能体函数的实现,即将感知序列映射为动作。
智能体可以表示为:
Agent = Architecture + Agent program
下图展示了一个简单的智能体架构:智能体通过传感器感知环境,并通过执行器采取行动。
图 1.14:一个简单的智能体架构
AI 智能体的关键组成部分(Key components of AI agents)
一个 AI 智能体由五个核心组成部分构成:环境、传感器、执行器、决策机制和学习系统。具体说明如下:
- 环境(Environment) :AI 智能体运行的领域,可以是物理环境(例如工厂车间),也可以是数字环境(例如网站)。
- 传感器(Sensors) :AI 智能体用来感知环境的工具,例如摄像头和麦克风。比如,自动驾驶汽车使用摄像头和传感器来感知道路状况。
- 执行器(Actuators) :AI 智能体用来与环境交互并执行动作的装置(例如电机、扬声器),以实现目标。比如,自动驾驶汽车通过执行器把控制信号转换为物理动作,这些执行器控制方向盘、油门和刹车等部件。
- 决策机制(Decision-making mechanism) :AI 智能体的“大脑”,负责处理传感器信息并决定如何通过执行器行动。它可以基于规则系统、专家系统或神经网络。比如,自动驾驶汽车要决定何时停车、转弯或加速。
- 学习系统(Learning system) :使 AI 智能体能够从经验中学习,并通过强化学习、监督学习和无监督学习等技术持续改进。
表 1.13 总结了 AI 智能体的关键组成部分。这些组件协同工作,构成一个能够感知环境、做出决策、执行动作,并从经验中学习优化的智能体。
表 1.13:AI 智能体的关键组成部分(Key components of AI agents)
| 组件(Component) | 描述(Description) |
|---|---|
| 环境(Environment) | AI 智能体运行的区域或领域(物理或数字环境)。 |
| 传感器(Sensors) | 用于感知环境的工具(例如摄像头、麦克风)。 |
| 执行器(Actuators) | 与环境交互并执行动作的工具(例如机械臂、电脑屏幕)。 |
| 决策机制(Decision-making mechanism) | 处理信息并决定行动的智能体“大脑”。 |
| 学习系统(Learning system) | 使智能体能够从经验中学习并随着时间改进。 |
构建 AI 智能体的分步指南(Step-by-step guide to building AI agents)
构建 AI 智能体通常包含多个关键步骤,以确保结果高效且准确。这些步骤包括:定义目标、选择合适工具、设计系统、收集与准备数据、开发智能体程序、训练智能体,以及评估与优化模型。具体如下:
-
定义目标(Define objectives)
明确 AI 智能体的目标与任务。理解它要解决的具体问题以及期望结果。 -
选择合适工具(Choose the right tools)
选择适合开发 AI 智能体的工具与框架。常见选择包括:- Python:一种在 AI 开发中广泛使用的通用编程语言。
- TensorFlow:Google 开发的开源机器学习框架。
- PyTorch:Facebook 开发的开源机器学习库。
-
设计系统(Design the system)
设计 AI 智能体的架构,包括:- 传感器(Sensors) :感知环境的设备(如摄像头、麦克风)。
- 执行器(Actuators) :作用于环境的设备(如电机、扬声器)。
- 智能体程序(Agent program) :智能体函数的实现。
-
收集与准备数据(Collect and prepare data)
收集训练 AI 智能体所需的数据。这可能包括:- 数据采集(Data collection) :从多个来源收集相关数据。
- 数据预处理(Data preprocessing) :清洗并准备训练数据。
-
开发智能体程序(Develop the agent program)
实现将感知序列映射为动作的智能体函数。即编写定义智能体如何处理输入并做出决策的代码。 -
训练智能体(Train the agent)
使用 ML 技术在收集到的数据上训练 AI 智能体。包括:- 模型训练(Model training) :使用监督学习、无监督学习或强化学习等算法训练模型。
- 超参数调优(Hyperparameter tuning) :调整超参数以优化模型性能。
-
评估与优化(Evaluate and refine)
持续评估智能体性能,并根据需要优化模型。包括:- 性能评估(Performance evaluation) :使用准确率(accuracy)、精确率(precision)、召回率(recall)等指标评估。
- 模型优化(Model refinement) :进行必要调整以提升性能。
AI 智能体的应用(Application of AI agents)
AI 智能体是 AI 中功能强大且用途广泛的工具,能够解决复杂问题并提升多个领域的效率。理解 AI 智能体的应用,有助于我们认识 AI 的进步及其如何改善生活。随着技术持续演进,AI 智能体将在塑造未来方面发挥越来越重要的作用。表 1.14 展示了 AI 智能体在现实世界中的广泛应用场景,实际上在其他领域还有更多类似应用。
表 1.14:AI 智能体的应用(Applications of AI agents)
| 领域(Field) | 应用(Application) |
|---|---|
| 机器人(Robotics) | 控制机器人并在制造业和交通运输中实现任务自动化。例如 Roomba 扫地机器人和亚马逊配送机器人,它们能在物理世界中自主运行。 |
| 智能个人助理(Intelligent personal assistants) | Siri、Alexa 和 Google Assistant 帮助用户完成预约安排、设置提醒等任务。 |
| 智能家居(Smart homes) | 控制供暖、照明和其他系统,以优化能源使用。 |
| 医疗健康(Healthcare) | 监测患者并提供个性化治疗方案。 |
| 金融(Finance) | 自动化交易、欺诈检测和风险管理。 |
| 游戏(Games) | 创建智能对手,提供更具挑战性的体验。如下棋程序和扑克智能体可与人类或其他智能体对战。 |
| 自然语言处理(Natural language processing) | 语言翻译、问答系统和聊天机器人。 |
| 网络安全(Cybersecurity) | 入侵检测与恶意软件分析。 |
| 环境监测(Environmental monitoring) | 管理自然资源并跟踪气候变化。 |
| 社交媒体(Social media) | 分析数据以识别趋势并提供推荐。 |
开发 AI 智能体应用的挑战(Challenges in developing AI agents’ applications)
尽管 AI 智能体取得了许多进展,但在开发和应用中仍面临若干挑战,例如:
- 伦理与偏见问题(Ethical and bias issues) :确保 AI 智能体公平运行,不延续训练数据中的偏见。
- 安全问题(Security concerns) :保护 AI 智能体免受恶意攻击,并确保其行为的完整性。
- 可扩展性(Scalability) :开发能够高效扩展、处理大型复杂环境的 AI 智能体。
- 互操作性(Interoperability) :确保 AI 智能体能够与其他系统和技术无缝协作。
- 透明性与可解释性(Transparency and explainability) :使 AI 智能体的决策过程对人类透明且可理解。
结论(Conclusion)
AI 已成为一种变革性技术,正在革新各行各业,并重塑人类与机器交互的方式。通过机器学习、深度学习和生成式 AI 等不同子领域,AI 展现了其模拟人类智能、适应复杂环境并为各领域挑战提供自治解决方案的能力。AI 智能体具备学习、进化和决策能力,体现了技术创新与实际应用之间的协同作用。
AI 从基于规则的系统发展到具备推理、协作与适应能力的动态学习型智能体,这一演进路径展现了仍在持续推进的创新轨迹。GenAI 则进一步拓展了创造力与自动化的边界,使机器能够生成文本、图像甚至音乐。这一转变不仅提升了生产力,也使人类能够探索更多艺术与实践的新可能。从 GAN 到 Transformer,GenAI 的底层架构正成为推动新型应用发展的催化剂,这些应用模仿人类式创造力,并丰富媒体、教育和娱乐等行业。
通过自动化日常任务、提升决策准确性以及提供创造性解决方案,AI 智能体正在重塑劳动力结构,并重新定义人机协作的边界。随着 AI 进一步融入日常生活,我们需要以审慎的方式推进其发展,在拥抱机会的同时积极应对挑战。
下一章将探讨 Agentic AI(智能体式 AI) 及其独特特性,例如自主性、适应性和学习能力。我们还将考察其在医疗、金融、制造和客户服务等行业中的实际应用,展示它如何通过提升效率和推动创新来改变这些行业。最后,我们将展望 Agentic AI 的新兴趋势与未来方向,讨论技术进步及可能塑造未来的新应用。
要点回顾(Points to remember)
- 人工智能(AI) :AI 通过模拟人类智能来执行决策、语音识别、视觉感知等任务,正在改变各行各业。
- 机器学习(ML) :AI 的一个子集,包括监督学习、无监督学习和强化学习,用于训练算法从数据中学习并做出预测。
- 深度学习(Deep learning) :ML 的一个子领域,使用神经网络建模复杂数据模式,包括 CNN、RNN 等技术。
- 生成式 AI(GenAI) :前沿技术,可生成文本、图像、音乐等内容。关键算法包括 GAN、VAE 和 Transformer。
- AI 智能体(AI agents) :能够感知环境、处理信息并采取行动以实现特定目标的自治系统。常见类型包括反射型、目标导向型和学习型智能体。
- 应用(Applications) :AI 及其子领域广泛应用于机器人、医疗、金融、内容生成和自然语言处理等场景。
- 挑战(Challenges) :伦理问题、安全问题、可扩展性和透明性仍是 AI 应用的重要难题。
- 最佳实践(Best practices) :构建 AI 系统需要明确目标、选择合适算法、进行系统设计、准备数据并持续评估。
关键术语(Key terms)
- 卷积神经网络(CNNs, Convolutional neural networks) :专门用于处理图像的神经网络,通过卷积层提取空间特征和模式。
- 循环神经网络(RNNs, Recurrent neural networks) :用于处理序列数据的神经网络,能够在时间步之间保留信息,以理解上下文和时序关系。
- 生成对抗网络(GANs, Generative adversarial networks) :一种双网络架构,生成器与判别器相互对抗,从而实现图像或文本等新数据的逼真生成。
- 变分自编码器(VAEs, Variational autoencoders) :学习数据压缩潜在表示的神经网络,用于高效生成建模与重建。
- Transformer:使用自注意力机制处理序列的深度学习模型,彻底改变了自然语言处理和生成式 AI 任务。
- 大语言模型(LLM, Large language model) :在海量文本数据上训练的高级 AI 模型,能够理解并生成类人的语言。
参考文献(References)
深度学习与机器学习(Deep learning and machine learning)
- “Deep Learning” (LeCun, Bengio, Hinton, 2015):一篇全面综述论文,总结了当时深度学习的发展状态。
- “ImageNet Classification with Deep Convolutional Neural Networks” (Krizhevsky, Sutskever, Hinton, 2012):展示了深度卷积神经网络在图像分类上的强大能力。
- “Long Short-Term Memory” (Hochreiter, Schmidhuber, 1997):提出了 LSTM 架构,这是处理序列数据的关键技术。
- “Generative Adversarial Nets” (Goodfellow et al., 2014):提出了生成对抗网络(GAN),是生成建模的重要框架。
- “Backpropagation Applied to Handwritten Zip Code Recognition” (LeCun et al., 1989):展示了反向传播在神经网络训练(手写数字识别)中的有效性。
Transformer 与 LLM(Transformers and LLMs)
- “Attention Is All You Need” (Vaswani et al., 2017):提出 Transformer 架构,彻底改变自然语言处理及多个领域。
- “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (Devlin et al., 2018):展示了双向预训练在语言理解任务中的强大能力。
- “Language Models are Few-Shot Learners” (Brown et al., 2020):展示了 GPT-3 等大语言模型在少样本学习方面的突出能力。
- “Improving Language Understanding by Generative Pre-Training” (Radford et al., 2018):提出 GPT 模型并展示了生成式预训练的有效性。
AI 智能体(AI agents)
- Huang, S.; Grady, P.; and GPT-3. 2022. Generative AI: A Creative New World. www.sequoiacap.com/article/gen….
- “Reinforcement Learning: A Survey” (Kaelbling, Littman, Moore, 1996):强化学习的奠基性综述,而强化学习是许多 AI 智能体应用的核心。
- “Human-level control through deep reinforcement learning” (Mnih et al., 2015):推进了 Atari 相关研究,并展示了更复杂的游戏控制能力。