构建 AI 智能体应用——AI 智能体基础

0 阅读45分钟

引言

人工智能(AI)已经迅速发展为现代最具变革性的技术之一,正在革新各行各业,并重塑我们生活、工作以及与世界互动的方式。从本质上讲,AI 指的是在机器中模拟人类智能,使其能够执行通常需要人类认知能力的任务,例如推理、学习、解决问题和决策。AI 的应用既多样又影响深远,从 Siri、Alexa 这样的个人助理,到自动驾驶汽车等复杂系统,都属于其范畴。

AI 系统的一个关键组成部分是 AI 智能体(AI agents) 的概念。它们是能够感知环境、做出决策并执行动作以实现特定目标的自主实体。这些智能体建立在数据驱动算法、机器学习(ML)和深度学习技术之上,使其能够做出决策并随着时间推移不断适应和改进。它们在实现智能技术方面发挥着关键作用,例如聊天机器人、推荐引擎和机器人系统。

本章将介绍 AI 的基础概念及其发展历史,同时深入讲解 ML 与深度学习技术。此外,还将重点探讨 AI 智能体及其底层功能机制。理解这些基础内容,将帮助读者具备有效设计和实现智能系统所需的知识,并为后续章节的深入学习打下基础。

结构(Structure)

本章将涵盖以下主题:

  • 人工智能基础
  • 机器学习
  • 深度学习
  • 生成式人工智能
  • 人工智能智能体

学习目标(Objectives)

在本章结束时,读者将能够掌握 AI 的基础知识,包括其历史与基本概念。读者将学习机器学习技术,例如监督学习、无监督学习和强化学习,并理解常见 ML 算法的应用与局限性。本章还旨在介绍深度学习,解释深度神经网络(DNNs)、卷积神经网络(CNNs)和循环神经网络(RNNs)的基本架构与关键组成部分,以及它们的应用场景。

本章还会对 ML 与深度学习进行对比分析,以帮助判断在特定用例中哪种技术更适合。此外,读者还将接触生成式 AI,包括生成对抗网络(GANs)、变分自编码器(VAEs)和 Transformer,以及它们在内容生成中的应用。本章也会介绍 AI 智能体的结构与类型,详细说明其组成部分和功能,并提供构建 AI 智能体的分步指南。

通过理解这些概念,读者将为后续章节中高效构建和应用 AI 智能体做好准备,并能够识别它们的应用场景。

人工智能基础(Basics of artificial intelligence)

AI 指的是在机器中模拟人类智能,使其能够像人类一样思考和学习。这些机器可以执行通常需要人类智能的任务,例如视觉感知、语音识别、决策制定和语言翻译。

人工智能的历史(History of artificial intelligence)

AI 的概念可以追溯到古代,但我们今天所理解的这一学科真正开始于 20 世纪中叶。AI 发展历程中的一些关键里程碑如下:

  • 1950 年代:Alan Turing 提出 图灵测试(Turing Test) ,用于衡量机器是否能够表现出智能行为。
  • 1956 年:在 达特茅斯会议(Dartmouth Conference) 上,“人工智能(artificial intelligence)”这一术语被正式提出。
  • 1980 年代:专家系统兴起,这类系统模仿人类专家的决策能力。
  • 2000 年代:机器学习与深度学习兴起,推动 AI 能力取得显著进展。

近年来,许多 AI 从业者(例如 Andrew NG)认为,AI 像电力一样,是一种 通用技术(general-purpose technology) 。AI 将构建新的应用,用于替代或增强人类思维,并影响我们日常生活的方方面面。表 1.1 展示了技术在不同时期对我们的贡献与影响。随着 AI 智能体的出现,它很可能在业务职能和岗位层面带来深刻变革。

技术年份贡献影响
电力1879替代或增强劳动工业自动化、家电、机器人
计算机1977帮助我们更高效地工作生产力应用(企业软件、电子表格、数据库)
互联网1983帮助我们更高效地沟通电话、电子邮件、网站
AI2016替代或增强人类思维涉及人与软件之间成千上万次交互的业务流程,将被 AI 智能体所替代

表 1.1:通用技术及其影响

基本概念(Fundamental concepts)

AI 的一些基础概念如下:

  • 机器学习(ML) :AI 的一个子领域,重点是训练算法,使其能够基于数据学习并进行预测。
  • 深度学习(Deep learning) :ML 的一个子领域,使用受人脑启发的神经网络模型来建模数据中的复杂模式。
  • 生成式 AI(Generative AI) :深度学习的一个子领域,利用大语言模型(LLMs)从已有数据中学习模式,从而生成内容。

图 1.1 展示了 AI 的演进路径:它在 1960 年代作为计算机科学的一个领域起步;到 1990 年代发展为通过数据进行决策的机器学习;随后在 2010 年代进一步演进为深度学习,以便从海量数据中做出更准确的决策。近年来,生成式 AI 则通过简单提示生成内容,正在替代或增强人类思维。

image.png

图 1.1:人工智能的演进

机器学习(Machine learning)

机器学习(ML)是人工智能的一个分支,其中算法被设计为能够从数据中学习模式,并在不进行显式编程的情况下做出预测或决策。你可以把它理解为:教计算机识别信用卡欺诈交易;机器学习之所以能做到这一点,是因为它能从历史信用卡交易样本中学习。

常见机器学习算法(Common machine learning algorithms)

ML 算法构成了 AI 的骨干,使应用能够从数据中学习并随着时间推移提升性能。根据学习范式的不同,这些算法通常可以分为三大类:监督学习(supervised learning)无监督学习(unsupervised learning)强化学习(reinforcement learning) 。每种方法都有不同用途,并适用于特定类型的任务。三种学习范式简要说明如下:

  • 监督学习:算法在带标签数据上训练。
    例如:基于历史数据预测房价。
  • 无监督学习:算法在无标签数据中识别模式。
    例如:基于购买行为对客户进行聚类。
  • 强化学习:算法通过与环境交互并接收反馈来学习。
    例如:训练机器人走迷宫。

ML 算法种类繁多,各自都有优势、局限和适用领域。通过理解这些算法的底层机制及其合适的使用场景,实践者可以利用它们解决各类领域中的复杂问题。

监督学习算法(Supervised learning algorithms)

监督学习是最常见的机器学习类型。它通过带标签的数据集训练模型,其中每个输入都对应一个输出。这类算法尤其适合预测类任务。

表 1.2 概述了一些常见的监督学习算法,包括线性回归、逻辑回归、决策树和随机森林。每种算法都从用途、工作机制、示例应用、优势和局限几个方面进行了说明。

表 1.2:监督式机器学习算法
监督算法线性回归(Linear regression)逻辑回归(Logistic regression)决策树(Decision trees)随机森林(Random forest)
用途(Purpose)建模特征与连续目标值之间的关系预测类别结果,如是/否、真/假通过按特征值分支划分数据,用于分类和回归通过聚合多棵树的预测提升准确率与泛化能力
算法工作机制(Working of the algorithm)拟合线性方程到数据,并通过最小二乘法等方式最小化误差建模某类别发生的概率,使用 Sigmoid 激活函数将预测映射为概率构建树状结构:节点表示特征,分支表示决策规则,叶子表示结果构建决策树集成,每棵树在随机子样本与随机特征上训练,并组合其输出
示例应用(Example application)房价预测邮件垃圾分类基于症状进行疾病诊断客户流失预测
优势(Strengths)实现与解释简单,对线性可分数据效果好适合二分类任务;结果可解释可解释性强,同时处理数值型和类别型数据;通常无需复杂预处理降低过拟合、对缺失数据较鲁棒,适用于分类和回归
局限(Limitations)假设线性关系,且对离群点敏感只能学习线性决策边界若树太深容易过拟合相比单棵决策树可解释性差,计算开销较大

无监督学习算法(Unsupervised learning algorithms)

与监督学习不同,无监督学习处理的是无标签数据,重点是发现数据中的隐藏模式或结构。表 1.3 简要概述了一些常见的无监督学习技术。

表 1.3:无监督式机器学习算法
无监督算法K-means 聚类层次聚类(Hierarchical clustering)
用途(Purpose)基于相似性将数据划分为多个簇构建数据簇的树状表示(dendrogram,树状图)
算法工作机制(Working of the algorithm)通过最小化样本点与簇中心的距离,将数据点分配到 k 个簇中基于相似度度量,迭代地合并或拆分簇
示例应用(Example application)面向定向广告的市场细分生物信息学中的基因表达分析
优势(Strengths)简单高效,适合大数据集,结果可解释无需预先指定簇数量;可视化直观
局限(Limitations)对初始簇中心敏感;需预先指定簇数在大数据集上计算开销高,对噪声敏感

强化学习算法(Reinforcement learning algorithms)

强化学习关注训练智能体通过与环境交互来做决策,并通过奖励或惩罚形式的反馈进行学习。表 1.4 概括了两种常见强化学习技术:Q-learning 和 Deep Q-Networks(DQN)。

表 1.4:强化学习算法
类别(Category)Q-learningDQN
用途(Purpose)基于价值的强化学习,最大化累积奖励使用神经网络近似 Q 值,将 Q-learning 扩展到大规模状态-动作空间
算法工作机制(Working of the algorithm)智能体学习一个 Q 表,将状态与动作映射到期望奖励,并迭代更新用神经网络预测 Q 值,结合经验回放与梯度下降更新策略
示例应用(Example application)机器人自主导航攻克复杂游戏,如 Atari 或 Go
优势(Strengths)无模型(model-free);适合离散动作空间能处理大规模、连续状态-动作空间
局限(Limitations)在大状态-动作空间下表现困难;收敛较慢需要大量计算资源和超参数调优

机器学习工作流示例(Example machine learning workflow)

为了更好理解 ML 在实践中如何运作,我们以一个典型监督学习应用的工作流为例(如图 1.2 所示):

  1. 收集并预处理数据,例如包含面积、位置、价格等属性的房价数据集。
  2. 提取特征,例如房屋面积、社区评分、卧室数量。
  3. 选择算法(如线性回归或决策树),并将数据输入模型。
  4. 训练模型,让其学习特征与房价之间的关系。
  5. 测试模型性能,在未见过的数据上评估准确度。
  6. 部署模型 用于真实场景,例如预测新房源的价格。

image.png

图 1.2:机器学习工作流

深度学习(Deep learning)

深度学习是 ML 中的一个专门领域,它使用由多层互联节点构成的神经网络来建模数据中的复杂模式。比如,可以想象一个机器人通过分析图像来识别不同动物。

常见深度学习算法(Common deep learning algorithms)

深度学习算法是机器学习领域中的高级技术,专门用于解决复杂、数据密集型任务。这些算法使用多层神经网络处理大规模数据集并提取洞察,从而支持图像识别、自然语言处理和自主决策等复杂功能。

下面的小节将简要介绍常见深度学习算法,包括 DNNs、CNNs 和 RNNs。每种算法都有其独特优势与应用场景。

深度神经网络(Deep neural networks)

DNN(深度神经网络)就像由许多微型“大脑”(神经元)组成的一张巨大网络。神经元按层连接,每一层都帮助网络从数据中学到更多信息。你可以把它想象成一组侦探协作破案。

下面是 DNN 基本架构的简要说明(如图 1.3 所示):

  • 神经元(Neurons) :可把神经元看作微型决策单元。每个神经元接收输入、处理它,再把结果传给下一层。

  • 层(Layers) :DNN 由多层组成,包括:

    • 输入层(Input layer) :数据进入网络的地方。
    • 隐藏层(Hidden layers) :位于中间,承担大部分处理工作。隐藏层越多,网络越“深”。
    • 输出层(Output layer) :给出最终结果或预测。
  • 连接(Connections) :一层中的神经元与下一层神经元相连。每条连接都有一个权重,网络学习时会调整这些权重。

  • 学习(Learning) :网络通过根据错误调整权重来学习,这个过程称为训练(training)。

image.png

图 1.3:深度神经网络架构

卷积神经网络(Convolutional neural networks)

CNN 常用于图像识别、目标检测和分类。你可以想象把一张大图切成许多小块,每一块都像拼图的一部分,CNN 帮助计算机理解每一小块的内容。例如,它通过观察这些小块来判断图片里是猫还是狗。

表 1.5 展示了 CNN 架构中的不同层、它们的用途、工作方式及示例。

表 1.5:CNN 架构的关键组成部分
层(Layer)用途(Purpose)CNN 的工作方式(Working of CNN)示例(Example)
卷积层(Convolutional layer)从输入图像中提取特征使用滤波器(或卷积核)在输入图像上滑动,对滤波器与输入做点积,生成特征图(feature map)检测图像中的边缘、纹理或模式
池化层(Pooling layer)降低特征图的空间维度(宽和高),从而降低计算量并控制过拟合最大池化(取最大值)和平均池化(取平均值)对特征图下采样,保留最重要信息
全连接层(Fully connected layer)组合卷积层和池化层学到的特征来做预测将特征图展平为一个向量,并传入一个或多个全连接层(dense layers)将图像分类到不同类别

CNN 架构另一个重要组件是 激活函数(activation function) ,它为模型引入非线性,使模型能够学习更复杂的模式。CNN 常用激活函数包括 ReLU、Sigmoid 和 Tanh。例如,ReLU 会把负值替换为 0,从而让模型训练更快、更高效。

图 1.4 展示了一个基本 CNN 架构:输入层 → 两组卷积层与池化层 → 全连接层 → 输出层。

image.png

图 1.4:卷积神经网络架构

一个使用 CNN 做手写数字识别的示例工作流如下:

  • 输入图像(Input image) :一张 28×28 像素的手写数字灰度图。
  • 卷积层(Convolutional layer) :应用一个 3×3 滤波器来检测边缘。
  • 激活函数(Activation function) :使用 ReLU 引入非线性。
  • 池化层(Pooling layer) :应用 2×2 最大池化,将尺寸降为 14×14。
  • 展平(Flattening) :将 14×14 的特征图转换为一维向量。
  • 全连接层(Fully connected layer) :用展平后的向量将图像分类为 0–9 中的某个数字。

循环神经网络(Recurrent neural networks)

RNN 是一种专门处理序列数据的神经网络,例如时间序列、文本或语音。想象你在读一本书,需要记住前几章的内容才能理解当前章节。RNN 帮助计算机“记住”之前的信息,以便理解新的信息。

RNN 的关键组成部分如下:

  • 输入序列(Input sequence)

    • 用途(Purpose) :RNN 一次处理一个数据点的序列。
    • 示例(Example) :一句话中的每个单词按顺序处理。
  • 隐藏层(Hidden layers)

    • 用途(Purpose) :从输入序列中提取信息,并通过循环连接保留之前输入的记忆。
    • 工作方式(Working) :每个隐藏层都会接收当前数据点的输入和上一个隐藏状态,从而让网络在时间维度上保留信息。
    • 示例(Example) :根据前文单词理解当前单词在句子中的语境。
  • 输出(Output)

    • 用途(Purpose) :基于处理后的序列给出最终预测或分类。
    • 示例(Example) :预测句子的下一个词,或判断文本情感是正面还是负面。

下图展示了 RNN 的基本架构及其组成部分:

image.png

图 1.5:循环神经网络架构

一个使用 RNN 判断句子正负情感的示例工作流如下:

  • 输入序列:一句话,例如 The cat sat on the mat.
  • 隐藏层:在处理句中每个词时,同时保留前面词语的上下文。
  • 输出:预测下一个词,或将情感分类为正向/负向。

深度学习与机器学习对比(Deep learning versus machine learning)

ML 与深度学习虽然都属于 AI 的核心组成部分,但它们具有不同特征。下表展示了 ML 与深度学习的对比:

表 1.6:机器学习 vs. 深度学习
类别(Category)机器学习(Machine learning)深度学习(Deep learning)
特征设计(Features design)需要特征工程来设计特征不需要人工特征设计
数据类型(Data type)更适合结构化数据可处理非结构化数据与序列数据
数据规模(Data size)不需要海量样本需要大量数据
可解释性(Explainability)特征与结果较易解释特征与结果不易解释
训练时间(Training time)训练时间较短训练时间较长
性能(Performance)在小数据量场景下准确率较好在大数据场景下精度更高

如图 1.6 所示,随着数据量增加,传统 ML 技术在性能方面会逐渐不足,而深度学习在准确率上表现更好。图中说明:传统 ML 算法在小数据量时可能优于 DNN,但随着训练数据增加,其性能趋于饱和;而 DNN 会随着数据量增加持续提升表现。

image.png

图 1.6:机器学习 vs. 深度学习性能对比

近年来,深度学习之所以获得显著提升,原因包括:大规模训练数据的可获得性、GPU 带来的计算能力增强,以及 CNN、Transformer 等算法的发展。

基于用例选择深度学习算法(Choosing deep learning algorithm based on use case)

图 1.7 展示了:如果任务是简单分类(如天气预测、贷款违约预测等),应使用 DNN;如果是图像识别与目标识别,则 CNN 最合适;而 RNN 则在语音识别、时间序列和 NLP 场景中表现较好。

image.png

图 1.7:不同用例下的深度学习算法选择

表 1.7 列举了深度学习算法在不同行业中的应用。DNN 可用于金融领域识别更复杂的欺诈模式,也可在制造业中通过更深层的异常检测提升缺陷识别能力。

表 1.7:深度学习在各行业中的应用
算法(Algorithm)应用(Application)细节(Details)
DNNs金融通过识别更复杂的模式增强欺诈检测
DNNs制造业基于更深层异常检测增强缺陷识别
CNNs零售对店内视频进行行为分析以衡量客流
CNNs卫星图像地形标注、目标分类
CNNs汽车道路与障碍物识别
CNNs医疗健康基于 X 光、扫描图像等进行诊断
CNNs保险基于照片估算理赔严重程度
RNNs客户满意度将语音数据转写为文本以进行 NLP 分析
RNNs社交媒体对社交平台与产品论坛帖子进行实时翻译
RNNs图片描述(Photo captioning)检索图像档案以发现新洞察
RNNs金融基于时间序列分析预测行为,增强推荐系统

构建深度学习模型的分步指南(Step-by-step guide to building deep learning models)

构建深度学习模型通常包含四个关键步骤,以确保结果高效且准确,具体如下:

  1. 定义模型架构(Define the model’s architecture)
    首先定义模型架构,明确神经网络的结构和类型。
  2. 定义输入与输出(Define input and output)
    指定模型的输入与输出,即模型接收什么数据、期望输出什么结果。
  3. 定义模型参数(Define the model’s parameters)
    选择并配置损失函数与性能指标,用于评估模型准确性并进行必要调整。
  4. 训练(Training)
    模型会经历一系列训练周期(epochs),通过调整参数不断提升预测能力。在这一过程中,还会调优各种参数,例如网络深度、层宽度、学习率和 dropout rate,以提高模型性能。

目前已有多个流行深度学习框架可用,例如 TensorFlow、PyTorch 等,可以通过相对简单的代码构建深度神经网络。

构建高效深度学习模型的最佳实践(Best practices)

以下是构建高效深度学习模型的一些最佳实践:

  • 使用正则化(Dropout、L1/L2)来避免过拟合。
  • 使用较小的 batch size 和较少的 epoch 数进行训练。
  • 在中间层(输入到隐藏层、隐藏层到隐藏层)使用 ReLU 激活函数。
  • 在最后一层(隐藏层到输出层)使用 Sigmoid 激活函数。
  • 对于小数据集,使用 迁移学习(transfer learning) ,有助于领域适配。
  • 使用 循环学习率(cyclic learning rate) 提升性能。
  • 在分布式 GPU 训练场景下,相比单 GPU,使用更多的 epoch。

生成式人工智能(Generative artificial intelligence)

生成式 AI(GenAI)是人工智能的一个分支,重点在于创造新内容,而不仅仅是分析现有数据。GenAI 可以生成文本、图像、音乐,甚至逼真的人机交互。你可以想象有一个 AI 能写小说、作交响乐,或创作艺术作品;GenAI 正在把这些可能性变成现实。

常见 GenAI 算法(Common GenAI algorithms)

生成式 AI 算法是人工智能领域中的复杂方法,旨在通过从现有数据集中学习来生成新的、多样化的数据。这些算法利用先进的神经网络架构,在图像、文本、音频等多种模态上生成逼真的输出。每种算法都在特定领域表现出色,具备独特能力与应用场景。

生成对抗网络(Generative adversarial networks)

GAN(生成对抗网络)是非常常见的一类 GenAI。它由两个神经网络组成:生成器(generator)判别器(discriminator) 。生成器负责生成新的数据样本,判别器负责评估这些样本。你可以把它理解成一个“造假币 vs. 打假侦探”的博弈:生成器努力制造逼真的假币,判别器则像侦探一样识别假币。随着训练进行,生成器会越来越擅长生成更逼真的数据。

GAN 的关键组成部分如下:

  • 生成器(Generator) :基于随机噪声输入生成新的数据样本。
  • 判别器(Discriminator) :将生成数据与真实数据进行比较,以判断其真伪。
  • 训练过程(Training process) :两个网络同时训练;生成器尝试欺骗判别器,而判别器学习识别伪造样本。

下图展示了 GAN 的基本架构:

image.png

图 1.8:生成对抗网络架构

一个使用 GAN 进行图像生成的示例工作流如下:

  • 输入(Input) :生成器接收随机噪声作为输入。
  • 生成(Generation) :生成器根据噪声生成图像。
  • 评估(Evaluation) :判别器将生成图像与真实图像进行对比评估。
  • 反馈(Feedback) :判别器向生成器提供反馈,生成器据此改进下一次生成结果。

变分自编码器(Variational autoencoders)

VAE(变分自编码器)是另一类 GenAI,主要用于图像生成和数据重建。与 GAN 使用两个独立网络不同,VAE 使用一个网络体系将输入数据编码到潜在空间(latent space),再解码回原始形式。你可以把它想象成:把一张高分辨率图片压缩成一个很小的文件,然后在尽量不损失质量的情况下重建出来。

VAE 的关键组成部分如下:

  • 编码器(Encoder) :将输入数据压缩为潜在空间表示。
  • 潜在空间(Latent space) :输入数据的较小、压缩版本表示。
  • 解码器(Decoder) :根据潜在空间表示重建输入数据。

图 1.9 展示了 VAE 的基本架构:

image.png

图 1.9:变分自编码器架构

下面是一个使用 VAE 做异常检测的示例工作流:

  • 输入(Input) :来自工业设备的传感器数据。
  • 编码(Encoding) :将数据压缩到潜在空间。
  • 解码(Decoding) :将压缩后的数据重建回原始形式。
  • 异常检测(Anomaly detection) :分析原始数据与重建数据之间的差异,从而检测异常。

Transformer(Transformers)

Transformer 是一种神经网络架构,彻底改变了 NLP 和 GenAI。它由 Google Brain 团队在 2017 年论文 Attention Is All You Need 中提出,标志着 NLP 的重要转变。它推动了 GPT-4 等大语言模型(LLMs)的发展,这些模型在通用性和性能上都超越了早期的 RNN。基于 Transformer 的 LLM 在机器翻译、情感分析、问答和文本摘要等任务中表现出色,树立了新的标准,并打开了 AI 的更多可能性。

Transformer 尤其以其处理长程依赖(long-range dependencies)和并行化训练的能力而闻名,因此既高效又强大。它可以根据上下文学习词语的含义。你可以把它想象成在拼图游戏里理解不同拼图块如何组合起来;Transformer 帮助计算机理解数据不同部分如何关联,从而形成整体意义。通过使用这些不同类型的网络,我们可以让计算机完成许多惊人的任务,例如翻译语言、作曲,甚至辅助疾病诊断。

表 1.8 对 Transformer 模型架构的关键组件进行了全面概述,解释了序列处理框架中每个组件的用途与功能。

表 1.8:Transformer 架构的关键组件

组件(Component)用途(Purpose)示例(Example)
输入序列(Input sequence)Transformer 处理的数据点序列(如句子中的单词)一句话,如 The cat sat on the mat.
嵌入层(Embedding layer)将输入序列中的每个词转换为稠密向量表示把单词 cat 表示为一个数字向量
多头注意力(Multi-head attention)让模型关注输入序列的不同部分,捕捉多种关系与依赖理解句子中 catsat 的关系
前馈神经网络(Feed-forward neural network)处理注意力机制的输出,生成更抽象的表示进一步细化对句子结构的理解
输出(Output)基于处理后的序列给出最终预测或分类将句子翻译成另一种语言,或预测下一个词

图 1.10 展示了一个简化版 Transformer 架构:首先输入序列通过嵌入层转换为向量形式;随后加入位置编码(positional encodings,用于表示词在序列中的位置),再传入编码器。编码器通过自注意力(self-attention)和前馈层对输入序列进行处理,并将其分解为有意义的表示。编码器再把这些表示传给解码器;解码器还会接收前一序列的输出嵌入作为输入,以生成目标输出序列,例如给定文本序列的翻译结果。

image.png

图 1.10:Transformer 架构

一个使用 Transformer 将英文句子翻译成法语的示例工作流如下:

  • 输入序列(Input sequence) :一句话,如 The cat sat on the mat.
  • 嵌入层(Embedding layer) :将每个词转换为向量。
  • 多头注意力(Multi-head attention) :关注句子不同部分以理解其关系。
  • 前馈神经网络(Feed-forward neural network) :处理注意力输出并进一步细化理解。
  • 输出(Output) :生成最终预测,例如翻译成法语:Le chat s'est assis sur le tapis.

大语言模型(Large language models)

大语言模型(LLMs)代表了 AI 领域(尤其是自然语言处理)的一次巨大飞跃。像 GPT-4、Llama 3、Claude 3 和 Gemini 这样的模型,都是构建在 Transformer 架构之上,并在海量数据集上进行训练,因此能够生成类人的文本、执行复杂推理,并理解细微的语言模式。它们处理并生成连贯、上下文相关响应的能力,为 AI 应用树立了新的标杆。

LLM 的显著特征在于:它们能够学习语言表示,捕捉词与句子之间的意义、上下文和关系。它们是高度通用的工具,可执行文本摘要、情感分析、问答和代码生成等任务,正在从客户服务到创意写作等多个行业带来变革。

表 1.9 更深入地介绍了 LLM 的核心组成部分及其在自然语言理解与生成中的作用。

表 1.9:大语言模型的关键组件

组件(Component)用途(Purpose)示例(Example)
预训练(Pretraining)在大规模数据集上训练,以学习通用语言模式与表示从数十亿篇文本中学习词语关系
微调(Fine-tuning)将预训练模型适配到特定任务或领域优化模型以用于医疗诊断或法律文档处理
分词(Tokenization)将输入文本拆分成更小单元(如词或子词)以便处理transformer architecture 拆分为 transformerarchitecture
注意力机制(Attention mechanism)优先关注输入中的相关部分,以更好理解上下文与关系关注句子中 modeltraining 的联系
输出序列(Output sequence)生成连贯且上下文恰当的响应或预测生成摘要、翻译结果或代码片段

图 1.11 展示了一个简化版 LLM 工作流:文本数据先被分词,然后通过多层注意力机制和前馈神经网络。这些层协同处理输入并保持上下文,最终生成与目标任务相匹配的输出序列。

image.png

图 1.11:大语言模型工作流

一个将 LLM 用于文本摘要的示例工作流如下:

  • 输入文本(Input text) :需要摘要的一段文字或一篇文档。
  • 分词(Tokenization) :将输入拆分为可处理的单元。
  • 注意力机制(Attention mechanism) :识别文本中最关键的部分,优先关注关键信息。
  • 前馈神经网络(Feed-forward neural network) :进一步处理数据,确保输出连贯且相关。
  • 输出(Output) :生成简洁且可读的输入文本摘要。

生成式 AI 的应用(Generative AI applications)

GenAI 正在通过支持新颖内容的生成,改变多个行业。无论是生成逼真的图像、创作音乐,还是撰写文本,GenAI 都有潜力彻底改变我们创造与交互数字内容的方式。

如表 1.10 所示,GenAI 在不同业务职能中有广泛应用。它可以通过自动回复客户咨询和生成多主题内容来增强客户服务;情感分析帮助理解客户情绪;NLP 有助于数据抽取;机器翻译支持语言间自动转换;报告生成帮助企业及时获取最新信息;分析能力则从数据中提取洞察,辅助企业做出更明智的决策。

表 1.10:GenAI 在业务职能中的应用

业务职能(Business function)GenAI 应用(GenAI application)
客户服务(Customer service)自动回复客户咨询
内容生成(Content generation)自动生成各种主题内容
情感分析(Sentiment analysis)分析文本数据情感,帮助理解客户情绪并做出更好决策
自然语言处理(Natural language processing)处理和理解自然语言数据,便于从文本中提取信息
机器翻译(Machine translation)自动将文本从一种语言翻译成另一种语言
报告(Reporting)自动生成报告,帮助企业获得最新信息
分析(Analytics)从数据中提取洞察,辅助业务决策

图 1.12 是生成式 AI 应用版图(application landscape)的示意图,来源于 Huang 和 Grady 在 2022 年的论文。该图按不同数据类型和功能对应用进行了分类。横向组织的主要类别如下:

  • Text(文本) :包括营销内容生成、销售邮件、客户支持(聊天/邮件)、通用写作辅助、笔记记录等文本类任务。
  • Code(代码) :包括代码生成、代码文档、文本转 SQL 查询、构建 Web 应用。
  • Image(图像) :包括图像生成、消费级与社交媒体应用、媒体与广告、设计工具。
  • Speech(语音) :聚焦语音合成技术。
  • Video(视频) :涉及视频编辑与生成。
  • 3D:涉及 3D 模型与场景创建。
  • Other(其他) :包括游戏、机器人流程自动化(RPA)、音乐生成、音频处理,以及生物与化学领域应用。

image.png

图 1.12:GenAI 应用版图
(来源:Huang and Grady, 2022)

纵轴标注为 application layer(应用层) ,暗示了 AI 工具在不同领域与功能中的分层使用方式。图中不同区块的高度可能表示各类别应用的相对普及度或成熟度。例如,文本和图像应用看起来覆盖范围更大,而语音或 3D 应用则相对较小。图中还列出了 OpenAI、DeepMind、Meta 等多家公司,它们都在不同数据类型上开发 GenAI 工具。

需要注意的是,这一版图反映的是 2022 年的生成式 AI 状态;随着新进展和新应用不断出现,该版图很可能已经发生变化。

GenAI 还加速了 ML 产品开发

GenAI 还可以通过减少任务量和开发时间来加速 ML 产品的构建。在监督学习中,通常有三项主要任务(获取带标签数据、训练模型、部署模型),每项往往需要一到三个月,因此一个 ML 产品的典型开发周期大约是 六个月。而基于 GenAI 的产品开发通常只需要数周,因为 GenAI 往往只需指定提示词(prompts)并部署模型即可。

人工智能智能体(Artificial intelligence agents)

AI 智能体(AI agent)被定义为一种软件程序或系统,它能够观察环境、处理信息,并执行动作以实现特定目标。智能体以自主方式运行,这意味着它并不由人类操作员直接控制。AI 智能体是许多应用的核心组成部分,包括机器人、游戏和智能系统。你可以把 AI 智能体理解为一个聪明的助手:它能够理解周围环境,并据此采取行动来帮助你完成各种任务。

AI 智能体是一个极具潜力、并有望改变世界的领域,处于众多技术进步的核心。为了理解 AI 智能体及其功能机制,我们将探索它们的概念与类型,并辅以简单表格、图示和示例来帮助理解。

AI 智能体的演进(Evolution of AI agents)

AI 智能体的发展经历了多个重要里程碑与进展,概括如下:

  • 基础模型(Foundational models) :早期 AI 模型主要聚焦于基础的规则系统。
  • 少样本学习(Few-shot learning) :AI 智能体能够通过少量示例进行学习。
  • 思维链(Chain-of-thought) :AI 智能体具备更高级的推理能力。
  • ReAct 智能体(ReAct agent) :AI 智能体在“思考-行动-观察(Think-Act-Observe)”循环中结合推理与行动,以解决动态环境中的复杂任务。
  • 多智能体(Multi-agents) :多个 AI 智能体协作以实现复杂目标。
  • 自治智能体(Autonomous agents) :具备独立决策能力的完全自治 AI 智能体。

下图展示了 AI 智能体的演进过程:

image.png

图 1.13:AI 智能体的演进

AI 智能体的特性(Features of AI agents)

AI 智能体具备若干关键特性,使其能够有效执行任务,主要包括:

  • 自主性(Autonomy) :无需人工干预即可运行的能力。
  • 适应性(Adaptability) :适应变化环境并从经验中学习的能力。
  • 协作性(Collaboration) :与其他智能体协同完成共同目标的能力。
  • 可扩展性(Scalability) :将操作规模扩展到处理大型复杂任务的能力。
  • 透明性(Transparency) :使决策过程对人类可理解的能力。

AI 智能体的特征分类(Characteristics of AI agents)

在使用 AI 构建应用时,智能体可以根据若干特征进行分类,这些特征在设计时需要考虑。

下表简要概述了各类特征:

表 1.11:AI 智能体的特征(Characteristics of AI agents)
特征(Characteristic)描述(Description)
反应式(Reactive)对来自环境的即时刺激做出响应。
主动式(Proactive)主动采取行动并提前规划以实现目标。
固定环境(Fixed environment)在一组静态、不会变化的规则中运行。
动态环境(Dynamic environment)在持续变化的环境中运行,需要具备适应能力。
单智能体系统(Single-agent system)由一个智能体独立工作。
多智能体系统(Multi-agent system)多个智能体协同工作以实现共同目标,并可组织为层级结构。

AI 智能体的类型(Types of AI agents)

AI 智能体可以根据其“感知到的智能程度”和能力分为若干类别,具体如下:

  • 简单反射型智能体(Simple reflex agents) :仅根据当前感知采取行动,忽略感知历史。它们依赖“条件-动作”规则,适用于完全可观测环境。
  • 基于模型的反射型智能体(Model-based reflex agents) :维护一个依赖感知历史的内部状态,因此可以处理部分可观测环境。
  • 目标导向型智能体(Goal-based agents) :为了实现特定目标而采取行动,并根据与目标的距离做决策。
  • 效用导向型智能体(Utility-based agents) :基于效用函数选择行动,该函数衡量智能体的“幸福感”或满意度。
  • 学习型智能体(Learning agents) :通过从经验中学习,不断提升自身性能。

表 1.12 总结了这些智能体类型及其示例应用。

表 1.12:AI 智能体类型及示例应用(Types of AI agents with example applications)
智能体类型(Type of agent)描述(Description)示例应用(Example applications)
简单反射型智能体仅基于当前感知采取行动,忽略感知历史。基础机器人、简单自动化系统
基于模型的反射型智能体基于感知历史维护内部状态,以处理部分可观测环境。自动驾驶汽车、智能家居设备
目标导向型智能体以实现特定目标为导向,并基于目标距离做决策。下棋程序、导航系统
效用导向型智能体基于衡量满意度/效用的函数选择行动。金融交易系统、推荐引擎
学习型智能体通过从经验中学习不断提升性能。个人助理、自适应学习平台

AI 智能体的结构(Structure of an AI agent)

要理解智能体的结构,我们需要熟悉 架构(architecture)智能体程序(agent program) 两个概念:

  • 架构(Architecture) :智能体运行所依赖的“机器”,例如机器人汽车或计算机。
  • 智能体程序(Agent program) :智能体函数的实现,即将感知序列映射为动作。

智能体可以表示为:

Agent = Architecture + Agent program

下图展示了一个简单的智能体架构:智能体通过传感器感知环境,并通过执行器采取行动。

image.png

图 1.14:一个简单的智能体架构

AI 智能体的关键组成部分(Key components of AI agents)

一个 AI 智能体由五个核心组成部分构成:环境、传感器、执行器、决策机制和学习系统。具体说明如下:

  • 环境(Environment) :AI 智能体运行的领域,可以是物理环境(例如工厂车间),也可以是数字环境(例如网站)。
  • 传感器(Sensors) :AI 智能体用来感知环境的工具,例如摄像头和麦克风。比如,自动驾驶汽车使用摄像头和传感器来感知道路状况。
  • 执行器(Actuators) :AI 智能体用来与环境交互并执行动作的装置(例如电机、扬声器),以实现目标。比如,自动驾驶汽车通过执行器把控制信号转换为物理动作,这些执行器控制方向盘、油门和刹车等部件。
  • 决策机制(Decision-making mechanism) :AI 智能体的“大脑”,负责处理传感器信息并决定如何通过执行器行动。它可以基于规则系统、专家系统或神经网络。比如,自动驾驶汽车要决定何时停车、转弯或加速。
  • 学习系统(Learning system) :使 AI 智能体能够从经验中学习,并通过强化学习、监督学习和无监督学习等技术持续改进。

表 1.13 总结了 AI 智能体的关键组成部分。这些组件协同工作,构成一个能够感知环境、做出决策、执行动作,并从经验中学习优化的智能体。

表 1.13:AI 智能体的关键组成部分(Key components of AI agents)
组件(Component)描述(Description)
环境(Environment)AI 智能体运行的区域或领域(物理或数字环境)。
传感器(Sensors)用于感知环境的工具(例如摄像头、麦克风)。
执行器(Actuators)与环境交互并执行动作的工具(例如机械臂、电脑屏幕)。
决策机制(Decision-making mechanism)处理信息并决定行动的智能体“大脑”。
学习系统(Learning system)使智能体能够从经验中学习并随着时间改进。

构建 AI 智能体的分步指南(Step-by-step guide to building AI agents)

构建 AI 智能体通常包含多个关键步骤,以确保结果高效且准确。这些步骤包括:定义目标、选择合适工具、设计系统、收集与准备数据、开发智能体程序、训练智能体,以及评估与优化模型。具体如下:

  1. 定义目标(Define objectives)
    明确 AI 智能体的目标与任务。理解它要解决的具体问题以及期望结果。

  2. 选择合适工具(Choose the right tools)
    选择适合开发 AI 智能体的工具与框架。常见选择包括:

    • Python:一种在 AI 开发中广泛使用的通用编程语言。
    • TensorFlow:Google 开发的开源机器学习框架。
    • PyTorch:Facebook 开发的开源机器学习库。
  3. 设计系统(Design the system)
    设计 AI 智能体的架构,包括:

    • 传感器(Sensors) :感知环境的设备(如摄像头、麦克风)。
    • 执行器(Actuators) :作用于环境的设备(如电机、扬声器)。
    • 智能体程序(Agent program) :智能体函数的实现。
  4. 收集与准备数据(Collect and prepare data)
    收集训练 AI 智能体所需的数据。这可能包括:

    • 数据采集(Data collection) :从多个来源收集相关数据。
    • 数据预处理(Data preprocessing) :清洗并准备训练数据。
  5. 开发智能体程序(Develop the agent program)
    实现将感知序列映射为动作的智能体函数。即编写定义智能体如何处理输入并做出决策的代码。

  6. 训练智能体(Train the agent)
    使用 ML 技术在收集到的数据上训练 AI 智能体。包括:

    • 模型训练(Model training) :使用监督学习、无监督学习或强化学习等算法训练模型。
    • 超参数调优(Hyperparameter tuning) :调整超参数以优化模型性能。
  7. 评估与优化(Evaluate and refine)
    持续评估智能体性能,并根据需要优化模型。包括:

    • 性能评估(Performance evaluation) :使用准确率(accuracy)、精确率(precision)、召回率(recall)等指标评估。
    • 模型优化(Model refinement) :进行必要调整以提升性能。

AI 智能体的应用(Application of AI agents)

AI 智能体是 AI 中功能强大且用途广泛的工具,能够解决复杂问题并提升多个领域的效率。理解 AI 智能体的应用,有助于我们认识 AI 的进步及其如何改善生活。随着技术持续演进,AI 智能体将在塑造未来方面发挥越来越重要的作用。表 1.14 展示了 AI 智能体在现实世界中的广泛应用场景,实际上在其他领域还有更多类似应用。

表 1.14:AI 智能体的应用(Applications of AI agents)
领域(Field)应用(Application)
机器人(Robotics)控制机器人并在制造业和交通运输中实现任务自动化。例如 Roomba 扫地机器人和亚马逊配送机器人,它们能在物理世界中自主运行。
智能个人助理(Intelligent personal assistants)Siri、Alexa 和 Google Assistant 帮助用户完成预约安排、设置提醒等任务。
智能家居(Smart homes)控制供暖、照明和其他系统,以优化能源使用。
医疗健康(Healthcare)监测患者并提供个性化治疗方案。
金融(Finance)自动化交易、欺诈检测和风险管理。
游戏(Games)创建智能对手,提供更具挑战性的体验。如下棋程序和扑克智能体可与人类或其他智能体对战。
自然语言处理(Natural language processing)语言翻译、问答系统和聊天机器人。
网络安全(Cybersecurity)入侵检测与恶意软件分析。
环境监测(Environmental monitoring)管理自然资源并跟踪气候变化。
社交媒体(Social media)分析数据以识别趋势并提供推荐。

开发 AI 智能体应用的挑战(Challenges in developing AI agents’ applications)

尽管 AI 智能体取得了许多进展,但在开发和应用中仍面临若干挑战,例如:

  • 伦理与偏见问题(Ethical and bias issues) :确保 AI 智能体公平运行,不延续训练数据中的偏见。
  • 安全问题(Security concerns) :保护 AI 智能体免受恶意攻击,并确保其行为的完整性。
  • 可扩展性(Scalability) :开发能够高效扩展、处理大型复杂环境的 AI 智能体。
  • 互操作性(Interoperability) :确保 AI 智能体能够与其他系统和技术无缝协作。
  • 透明性与可解释性(Transparency and explainability) :使 AI 智能体的决策过程对人类透明且可理解。

结论(Conclusion)

AI 已成为一种变革性技术,正在革新各行各业,并重塑人类与机器交互的方式。通过机器学习、深度学习和生成式 AI 等不同子领域,AI 展现了其模拟人类智能、适应复杂环境并为各领域挑战提供自治解决方案的能力。AI 智能体具备学习、进化和决策能力,体现了技术创新与实际应用之间的协同作用。

AI 从基于规则的系统发展到具备推理、协作与适应能力的动态学习型智能体,这一演进路径展现了仍在持续推进的创新轨迹。GenAI 则进一步拓展了创造力与自动化的边界,使机器能够生成文本、图像甚至音乐。这一转变不仅提升了生产力,也使人类能够探索更多艺术与实践的新可能。从 GAN 到 Transformer,GenAI 的底层架构正成为推动新型应用发展的催化剂,这些应用模仿人类式创造力,并丰富媒体、教育和娱乐等行业。

通过自动化日常任务、提升决策准确性以及提供创造性解决方案,AI 智能体正在重塑劳动力结构,并重新定义人机协作的边界。随着 AI 进一步融入日常生活,我们需要以审慎的方式推进其发展,在拥抱机会的同时积极应对挑战。

下一章将探讨 Agentic AI(智能体式 AI) 及其独特特性,例如自主性、适应性和学习能力。我们还将考察其在医疗、金融、制造和客户服务等行业中的实际应用,展示它如何通过提升效率和推动创新来改变这些行业。最后,我们将展望 Agentic AI 的新兴趋势与未来方向,讨论技术进步及可能塑造未来的新应用。

要点回顾(Points to remember)

  • 人工智能(AI) :AI 通过模拟人类智能来执行决策、语音识别、视觉感知等任务,正在改变各行各业。
  • 机器学习(ML) :AI 的一个子集,包括监督学习、无监督学习和强化学习,用于训练算法从数据中学习并做出预测。
  • 深度学习(Deep learning) :ML 的一个子领域,使用神经网络建模复杂数据模式,包括 CNN、RNN 等技术。
  • 生成式 AI(GenAI) :前沿技术,可生成文本、图像、音乐等内容。关键算法包括 GAN、VAE 和 Transformer。
  • AI 智能体(AI agents) :能够感知环境、处理信息并采取行动以实现特定目标的自治系统。常见类型包括反射型、目标导向型和学习型智能体。
  • 应用(Applications) :AI 及其子领域广泛应用于机器人、医疗、金融、内容生成和自然语言处理等场景。
  • 挑战(Challenges) :伦理问题、安全问题、可扩展性和透明性仍是 AI 应用的重要难题。
  • 最佳实践(Best practices) :构建 AI 系统需要明确目标、选择合适算法、进行系统设计、准备数据并持续评估。

关键术语(Key terms)

  • 卷积神经网络(CNNs, Convolutional neural networks) :专门用于处理图像的神经网络,通过卷积层提取空间特征和模式。
  • 循环神经网络(RNNs, Recurrent neural networks) :用于处理序列数据的神经网络,能够在时间步之间保留信息,以理解上下文和时序关系。
  • 生成对抗网络(GANs, Generative adversarial networks) :一种双网络架构,生成器与判别器相互对抗,从而实现图像或文本等新数据的逼真生成。
  • 变分自编码器(VAEs, Variational autoencoders) :学习数据压缩潜在表示的神经网络,用于高效生成建模与重建。
  • Transformer:使用自注意力机制处理序列的深度学习模型,彻底改变了自然语言处理和生成式 AI 任务。
  • 大语言模型(LLM, Large language model) :在海量文本数据上训练的高级 AI 模型,能够理解并生成类人的语言。

参考文献(References)

深度学习与机器学习(Deep learning and machine learning)

  • “Deep Learning” (LeCun, Bengio, Hinton, 2015):一篇全面综述论文,总结了当时深度学习的发展状态。
  • “ImageNet Classification with Deep Convolutional Neural Networks” (Krizhevsky, Sutskever, Hinton, 2012):展示了深度卷积神经网络在图像分类上的强大能力。
  • “Long Short-Term Memory” (Hochreiter, Schmidhuber, 1997):提出了 LSTM 架构,这是处理序列数据的关键技术。
  • “Generative Adversarial Nets” (Goodfellow et al., 2014):提出了生成对抗网络(GAN),是生成建模的重要框架。
  • “Backpropagation Applied to Handwritten Zip Code Recognition” (LeCun et al., 1989):展示了反向传播在神经网络训练(手写数字识别)中的有效性。

Transformer 与 LLM(Transformers and LLMs)

  1. “Attention Is All You Need” (Vaswani et al., 2017):提出 Transformer 架构,彻底改变自然语言处理及多个领域。
  2. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (Devlin et al., 2018):展示了双向预训练在语言理解任务中的强大能力。
  3. “Language Models are Few-Shot Learners” (Brown et al., 2020):展示了 GPT-3 等大语言模型在少样本学习方面的突出能力。
  4. “Improving Language Understanding by Generative Pre-Training” (Radford et al., 2018):提出 GPT 模型并展示了生成式预训练的有效性。

AI 智能体(AI agents)

  • Huang, S.; Grady, P.; and GPT-3. 2022. Generative AI: A Creative New World. www.sequoiacap.com/article/gen….
  • “Reinforcement Learning: A Survey” (Kaelbling, Littman, Moore, 1996):强化学习的奠基性综述,而强化学习是许多 AI 智能体应用的核心。
  • “Human-level control through deep reinforcement learning” (Mnih et al., 2015):推进了 Atari 相关研究,并展示了更复杂的游戏控制能力。

其他学习资源(Other learning resources)