AI-Native 大语言模型安全——大语言模型基础与导论本章中，我们将探索大语言模型（LLM）的迷人世界。我们将首先考

本章中，我们将探索大语言模型（LLM）的迷人世界。我们将首先考察人工智能（AI）的基础，并理解狭义 AI 与通用人工智能（AGI）之间的区别。接着，本章还会带领我们学习机器学习（ML）与深度学习（DL）的核心要点。随着内容逐步展开，我们将深入理解 LLM，了解它们的架构、训练过程，以及诸如分词（tokenization）和 Transformer 架构等关键组成部分。本章还将重点介绍 LLM 所展现出的强大能力，包括自然语言理解、自然语言生成、小样本学习以及多任务学习。我们也会看到 LLM 在各个行业中的广泛应用，从医疗、教育到金融与创意领域，均有其身影。

此外，我们还将学习一个创新性的概念——检索增强生成（RAG），以及它在提升 LLM 性能方面所发挥的作用。到本章结束时，你将对 LLM 建立起全面的理解，并为进一步探索 AI 原生 LLM 安全 这一复杂领域做好充分准备。

对于任何从事 AI 安全工作的人来说，理解 LLM 的基础原理都至关重要。在真正有效地保护这些系统之前，我们必须先弄清它们是如何工作的、它们为何如此强大，以及它们的脆弱点可能位于何处。这些基础知识将帮助你在本书后续内容中，更有依据地做出安全措施实施决策、识别潜在威胁，并制定稳健的 AI 原生安全策略。

在本章中，我们将讨论以下主题：

AI 的演进与影响——从基础概念到 LLM
LLM 概览
LLM 中的高级技术与增强方法

AI 的演进与影响——从基础概念到 LLM

我们正处于技术史上一个具有变革意义的关键节点。AI 的迅猛发展，已经让它从科幻作品中的概念走入了我们的日常生活。尤其是近年来生成式 AI 工具的爆发式增长，已经从根本上改变了我们与技术交互的方式，也改变了技术影响世界的方式。

像 OpenAI 的 ChatGPT 这样的模型，凭借惊人的语言能力震撼了大众。它们基于海量的文本、图像和视频进行训练。借助先进的学习方法与独特的架构设计，这些模型能够几乎像人类一样理解、生成并处理语言。其名称本身就概括了模型的几个关键特征：

Generative（生成式） ：它能够生成全新的原创内容
Pre-trained（预训练） ：它会先在大规模文本语料上进行初始训练，然后再针对特定任务进行微调
Transformer：它采用了 Transformer 架构，我们会在本章后面更详细地讨论这一点

2022 年 11 月 30 日，OpenAI 将 ChatGPT（准确地说是 GPT-3.5）推向世界，自此，一切都不再相同。这个面向对话场景微调的大语言模型迅速席卷互联网。它带来的影响是即时的，也是前所未有的：

上线仅 5 天，ChatGPT 的用户数就达到 100 万
到 2023 年 1 月，也就是发布仅两个月后，它的月活跃用户已达到 1 亿，成为历史上增长最快的消费级应用

为了更直观地理解这一增长速度：TikTok 大约用了 9 个月 才达到 1 亿用户，而 Instagram 则用了 两年半。ChatGPT 仅用了 2 个月 就完成了这一里程碑，打破了此前所有纪录，树立了病毒式传播的新标杆。

是什么让 ChatGPT 如此令人难以抗拒？其核心在于：它能够围绕极其广泛的话题，开展近乎人类式的对话，这种能力具有革命性意义。从回答复杂问题、调试代码，到写诗、解释科学概念，ChatGPT 展现出一种在许多用户看来近乎“魔法”般的通用性。

这种影响来得迅速而深远。学生开始用它辅助完成作业，程序员借助它写代码，写作者用它激发灵感，企业则把它用于内容生产。教育机构因此展开了关于未来作业与考试形态的激烈讨论。各家公司也纷纷加速将 AI 集成进自己的产品与服务中，唯恐在这场新的 AI 淘金热中被甩在后面。

然而，随着 ChatGPT 风靡全球，它也暴露出一系列安全挑战，进一步凸显了在 AI 部署过程中构建健壮安全机制的必要性。其中包括：

提示注入攻击（Prompt Injection Attacks） ：早期用户发现，通过精心设计的提示，有时可以绕过 ChatGPT 的伦理约束，从而诱导其生成有害或带有偏见的内容
数据隐私问题：外界开始质疑 OpenAI 如何处理和存储通过 ChatGPT 交互所产生的大量用户数据
错误信息风险（Misinformation Risks） ：ChatGPT 即便在内容不准确时，往往也会给出听起来很自信的回答，这引发了人们对于错误信息传播风险的担忧
Do Anything Now（DAN）越狱利用：用户找到了构造越狱提示的方法，有时可以绕过 ChatGPT 内置的安全防护机制，这暴露了 AI 系统在维持一致伦理边界方面的持续挑战
API 安全：随着 OpenAI 发布 ChatGPT API，如何确保安全集成并防止滥用，成为开发者和组织面临的重要问题

这些挑战揭示了 LLM 周围复杂的安全形势，也强调了持续推进 AI 安全与安全防护研究的必要性。它们同样也为更广泛的 AI 社区提供了宝贵经验，影响了后续 AI 模型与应用的开发与部署方式。

ChatGPT 上线及其早期普及阶段的经验，揭示了一个关键事实：随着 AI 系统变得越来越强大、越来越普及，健壮安全措施的重要性也会呈指数级上升。ChatGPT 发展历程中积累的经验教训，已经成为塑造 AI 安全未来的重要财富，深刻影响着研究人员、开发者以及组织在构建与部署 LLM 时的思路。

如果想真正理解当前 AI 进展以及大语言模型的重要意义，就必须先理解 AI、ML 与 DL 的更大背景。

LLM 正在快速演进，新的突破和最先进模型层出不穷。

AI

AI 是一个广泛且跨学科的领域，致力于开发能够模拟人类认知能力与问题求解能力的高级计算系统。其核心目标是构建能够执行需要类似人类智能才能完成的任务的系统，例如：

感知（Perception） ：理解并解释感官输入（视觉、听觉等）
推理（Reasoning） ：基于已有信息得出逻辑结论
学习（Learning） ：通过经验获取知识并提升表现
决策（Decision-making） ：根据对情境的分析选择合适的行动
自然语言处理（NLP） ：理解并生成人类语言

把 AI 类比为汽车的发明，是非常贴切的。正如汽车通过提供更快、更高效的出行方式彻底改变了交通运输，AI 也能够通过自动化复杂任务、增强人类能力，重塑我们生活中的诸多方面。这有望显著提升医疗诊断、科学研究、教育以及商业运营等领域的效率与质量。

多模态模型

近年来的进展催生了多模态模型，它们能够处理并生成文本、图像、音频和视频：

GPT-4o（OpenAI，2024） ：这是 GPT-4 的更新版本，展示了更强的多模态能力，包括图像分析、基于视觉输入的文本生成，以及更强的语言能力
Claude 3.5 Sonnet（Anthropic，2024 年 6 月） ：Anthropic 的最新模型在多个基准测试中超越前代，与竞品不相上下。其主要改进包括：
- 更强的代码编写与翻译能力
- 更好的多步骤工作流处理能力
- 更强的图表理解能力
- 更高级的图像文字转录能力
- 对幽默更好的理解，以及更接近人类的写作风格
Claude 3 Opus（Anthropic，2024 年 3 月） ：在多模态处理方面带来了显著提升，能够更准确、更深入地处理文本、图像和文档等多种数据类型
Gemini 1.5 Pro（Google，2024） ：Google Gemini 模型的更新版本，在文本、图像、音频和视频理解等多模态任务上持续表现出色
Llama 3 400B（Meta，2024） ：Meta 最新的大语言模型，在多个基准测试上展现了有竞争力的性能

多语言模型

建立在多模态能力成功发展的基础上，该领域也在能够跨多种语言理解和生成内容的模型方面取得了显著进展，从而不断打破全球沟通中的语言壁垒，例如：

Command R+（Cohere，2024） ：该模型在多语言场景下表现强劲，增强了其在全球化应用中的通用性
BLOOM（BigScience，2022） ：一个拥有 1760 亿参数的模型，训练数据覆盖 46 种自然语言和 13 种编程语言
XLM-RoBERTa（Facebook AI，2019） ：在 100 种语言上进行预训练，并在跨语言基准测试中表现强劲

如果你想获取当前可用语言模型的最新信息，可以参考以下资源：

Hugging Face Model Hub
AWS Bedrock Models

这些平台提供了最先进模型的完整列表，包括它们的能力、性能指标以及使用说明。

重要说明
AI 模型生态变化极快，新模型和更新版本不断发布。模型排名及相对能力可能迅速变化，因此在引用这些模型时，始终建议查阅最新信息。

机器学习——现代 AI 的基础

机器学习（ML）是 AI 的一个关键分支，它使计算机系统能够通过经验自动改进自身能力：通过分析数据中的模式，在无需显式编程的情况下提升其在特定任务上的表现。

与传统编程不同，传统方式中开发者会明确地为计算机指定规则；而 ML 算法则允许系统通过识别数据中的模式与关系，自动学习这些规则。

为了说明这一概念，我们来看垃圾邮件过滤器这个例子：

传统方法：开发者需要手工列出垃圾邮件的各种特征，编写一长串规则
ML 方法：算法通过分析大量带标注的样本，学习区分垃圾邮件与正常邮件。它会识别出与垃圾邮件相关的模式，例如高频词或某些短语结构，并利用这些模式对新的、未见过的邮件进行分类

以垃圾邮件过滤器为基础，我们还可以进一步理解更广泛的 ML 方法谱系。ML 算法通常可分为三大类，每一类都适用于不同任务与数据类型：

监督学习（Supervised Learning） ：在这种方法中，算法从带标签数据中学习，就像前面的垃圾邮件过滤例子一样。它再用学到的规律去预测新的未见数据结果。除了邮件分类之外，监督学习还广泛应用于房价预测（回归）以及图像目标识别（分类）等任务
半监督学习（Semi-supervised Learning） ：这种方法结合了监督学习与无监督学习的特点。它使用少量带标签数据和大量无标签数据。当获取标签代价高或耗时长时，这种方法尤其有用，可以同时利用两类数据提升效果
无监督学习（Unsupervised Learning） ：与监督学习不同，这类算法处理的是无标签数据，其目标是发现隐藏在数据中的模式或结构。例如，它们可以将相似客户分组（聚类），或者通过降维简化复杂数据集，帮助企业从原始数据中提炼洞察
强化学习（Reinforcement Learning） ：这种方法模拟人类通过试错学习的方式。算法与环境交互，根据自身行动获得奖励或惩罚。它尤其适用于博弈 AI、机器人控制等场景，在这些环境中，算法可以通过反复尝试学得最优策略

每一种方法都有其独特优势，使得 ML 能够应对现实世界中各类复杂挑战。

深度学习——分层表征的力量

深度学习（DL）是 ML 的一个革命性子领域，因其在复杂任务上的卓越表现而备受关注。DL 从人脑的结构与功能中汲取灵感，利用人工神经网络学习数据的层次化表示。这种方式带来了几个使其区别于传统 ML 的关键特性：

自动特征提取：DL 模型能够直接从原始数据中自动学习相关特征，从而免去传统 ML 中常常需要的手工特征工程
层次化学习：这类模型擅长在多个抽象层次上表征数据，逐步从简单概念构建到复杂概念
端到端学习：DL 网络可以直接从原始输入学习到最终输出，减少对特定任务算法设计的依赖

为了真正理解 DL 的力量，我们以图像分类为例。一个经过大量标注图像训练的 DL 模型，可以以惊人的准确率识别物体、场景，甚至情绪。这种能力是通过一种类似于人类视觉感知的层次化学习过程实现的：

在较低层，模型学习识别边缘、颜色、纹理等基础特征
在中间层，这些基础特征会被组合起来，用于识别更复杂的形状和模式
在更高层，模型进一步综合这些信息，识别完整的物体或场景

这种层次化方式与人类感知和理解视觉信息的方式高度相似，因此模型能够发展出对视觉世界更细腻的理解。通过模拟大脑逐层处理复杂信息的能力，DL 模型得以处理那些曾被认为只能由人类智能完成的任务。

正是凭借自动特征提取、层次化学习与端到端处理这三者的强力结合，DL 为 AI 打开了新的前沿，不断推动机器在计算机视觉、NLP、自动驾驶系统等领域的能力边界。

生成式 AI——释放机器的创造力

生成式 AI 标志着人工智能的一次革命性进步，它推动机器从传统的分析与分类角色，迈入内容创造的领域。这个突破性的子领域近年来受到极大关注与欢迎，很大程度上正是因为强大的 LLM 和先进图像生成工具的出现：

密集段落检索（Dense Passage Retrieval） ：这是一种神经信息检索技术，通过对查询与文段都使用稠密向量表示，实现高效且有效的检索
语义搜索（Semantic Search） ：这是一种能够理解搜索者意图以及术语上下文含义的搜索方法，超越了简单关键词匹配
知识检索（Knowledge Retrieval） ：指从大型知识库中查找并提取相关信息，以补充模型回答
上下文整合（Context Integration） ：将检索到的外部信息与原始查询结合，为模型生成回答提供更丰富的上下文

这些技术共同作用，增强了模型从训练数据与外部来源中访问和处理相关信息的能力，从而提高生成准确且相关输出的统计概率。不过，这一过程并不意味着模型像人类那样真正“理解”或“推理”。

从本质上看，生成式 AI 由三个关键特征定义，而这也正是它区别于其他 AI 应用的地方：

内容创造：这类模型能够生成多种类型的内容，包括文本、图像、音乐，甚至视频
模式学习：生成模型擅长发现并内化训练数据中潜在的模式与结构，从而生成带有这些特征的新内容
创新性组合：尽管它们并不具备真正意义上的人类创造力，但这些模型能够以新颖且常常出人意料的方式重组已学到的元素，产生创新性的结果

生成式 AI 的影响已经在许多领域显现，其应用正在重塑多个行业：

文本生成：像 GPT-3 及其后继模型这样的 LLM，已经彻底改变了 NLP，可用于写作辅助、聊天机器人以及全面内容生产等场景
图像生成：DALL-E、Midjourney、Stable Diffusion 等模型不断拓展视觉创造力边界，能够将文本描述转化为独特图像，为艺术与设计开辟新路径
代码辅助：AI 模型如今能够帮助编写与补全代码，这可能通过提升程序员生产力与降低开发门槛，重塑软件开发格局
音乐创作：AI 系统开始进入音乐领域，能够创作不同风格和流派的原创作品，从而挑战我们对于创造力与作者身份的传统认知
视频生成：新兴技术已经开始支持根据文本描述或静态图像生成视频内容，预示着影视制作与视觉叙事的未来可能性

这些应用还只是生成式 AI 的冰山一角。随着技术持续演进，我们可以预见会有更多创新用法不断出现，进一步改变多个领域的创作流程。从辅助人类创作者，到直接生成全新的内容形式，生成式 AI 正在重新定义机器能力的边界，也在重塑我们对 AI 的理解。

尽管这些进展已经足够惊人，但它们也把我们带向 AI 研究中一个更具雄心的前沿：AGI 的探索。AGI 的目标，是创造能够在广泛任务上展现类人认知能力的机器。

通用人工智能——下一个前沿

尽管当前的 AI 系统已经相当令人惊叹，但它们仍然属于狭义 AI——擅长特定任务，却不具备通用智能。其局限包括：

擅长特定任务，但难以在不同领域之间迁移知识
无法像人类那样真正理解和推理

而 AGI 代表着下一个重大目标，其特征包括：

能够在许多不同任务中理解、学习并应用知识
能够像人类一样推理、规划并解决问题
具备类似人类智能的“常识”与适应能力

这种区别，就像计算器（狭义 AI）与人类数学家（AGI）之间的区别一样。尽管我们已经取得了巨大进展，但真正的 AGI 仍然是研究者持续努力的未来目标。

AI 这个领域，从 ML 到 DL 再到 LLM，已经取得了巨大的飞跃。这些技术正在改变各个行业，并将在未来继续重塑我们的世界。随着研究不断推进，想到更进一步的突破——包括 AGI 可能的到来——会给我们的生活和社会带来什么，确实令人兴奋。

在对整个 AI 图景建立起广泛理解之后，接下来让我们聚焦现代 AI 中最强大、最通用的工具之一：LLM。它们代表了 NLP 与自然语言生成（NLG）的重大飞跃，也是当今许多前沿 AI 应用的核心基础。

LLM 概览

想象一座巨大的图书馆，里面收藏着人类写过的每一本书、发生过的每一场对话，以及人类曾创造出的每一条知识片段。现在，再想象这样一位图书管理员：他不仅读过这座无限图书馆中的每一个字，还能够基于这些知识进行理解、综合，并创造出新的内容。这正是 LLM 在 AI 中所追求的目标。

LLM 已经彻底改变了人工智能。语言技术之所以能实现这次飞跃，是因为模型在设计、训练和使用方式上都得到了显著提升。

LLM 的快速发展，也引发了 Google、Microsoft、Meta、Amazon 等科技巨头之间的激烈竞争。它们都在争相打造最先进的语言模型与聊天机器人。这场竞赛迫使企业不断加快 LLM 的研发与应用部署，希望在各行业中获得竞争优势并抢占市场份额。

例如，Google 的 Gemini 模型能够处理文本、图像、音频、视频和代码等多种数据类型，因此适用于更丰富的应用场景。与此同时，Microsoft 已经将 GPT 能力整合进 Bing 搜索引擎与 Office 办公软件中，使人们能够更快、更高效地获取信息并完成工作。

随着这些模型变得越来越复杂，并越来越深入各行各业，对它们进行安全防护也变得至关重要。与 LLM 相关的潜在风险——例如数据泄露、对抗攻击或有害内容生成——都凸显出部署强大 AI 系统时构建健壮安全机制的必要性。因此，在探索 LLM 的能力与应用时，我们也必须同步思考：当这些强大的 AI 系统被部署到真实世界场景中时，会带来哪些安全影响。

为了真正理解 LLM 的变革性力量，我们将在后续部分进一步深入其内部工作原理。我们将探讨 LLM 的架构，包括分词、Transformer 机制等关键组成部分；随后还会考察使这些模型获得庞大知识与能力的训练过程；最后，我们会讨论像小样本学习与 RAG 这样的高级技术，它们如何进一步提升 LLM 的性能。通过这一完整的旅程，你将对 LLM 如何重塑 AI 图景建立起扎实理解。

什么是 LLM？

LLM 代表了 NLP 领域的一次革命性进步。这些复杂模型在广泛的语言任务上，已经显著超越了以往的方法，包括：

开放式问答
交互式对话系统
内容摘要
执行复杂的多步骤指令
语言翻译
内容与代码生成

LLM 是在海量数据集上经过充分训练的产物，它们借助最先进的 ML 算法，学习并内化人类语言中复杂的模式与结构。它们的能力并不只是“存储信息”那么简单；LLM 还展现出将训练数据中的信息进行处理与组合、识别不同概念之间模式，并生成类人回答的惊人能力。不过，需要特别强调的是：LLM 并不像人类那样真正理解或推理。它们本质上是在训练数据基础上进行复杂的模式识别与统计预测。

自然语言处理——连接人类与机器的沟通桥梁

自然语言处理是 AI 的一个关键子领域，目标是让计算机能够理解、解释并生成人类语言。NLP 的总体目标，是开发能够处理、分析并生成自然语言的复杂算法与模型，从而实现人机之间更自然、更直观的交互。

NLP 的关键任务包括：

情感分析
命名实体识别
词性标注
机器翻译
文本摘要
问答系统

为完成这些任务，NLP 采用了多种技术：

分词（Tokenization） ：将文本拆分为单词或子词
句法解析（Parsing） ：分析句子的语法结构
语义分析（Semantic Analysis） ：从文本中提取含义
嵌入表示（Embedding） ：将单词或句子表示为稠密向量

这些方法对于从非结构化文本数据中提取意义与结构至关重要。

LLM 代表了当前用于自然语言交互的 AI 系统前沿。这类模型被设计用于处理并分析海量语言数据，并基于这些信息生成高度接近人类沟通模式的回答。最先进的 LLM，在语言理解、组织和操作方面，已经展现出接近人类的能力。

与最先进的 LLM 交互时，往往会给人一种仿佛在与一位知识渊博、具备上下文意识且富有同理心的数字助理对话的体验。这种语言处理与生成能力上的高度成熟，标志着 AI 在实现与人类进行有意义、细腻沟通方面迈出了重要一步。

LLM 是如何工作的？

从本质上说，LLM 是极其复杂的预测引擎。它们的核心任务，是在给定前文上下文的情况下，预测序列中下一个最可能出现的词。听上去似乎很简单，但要做到这一点，模型必须对语言、上下文以及世界常识具有极深的“掌握”。

想象你在玩一个词语联想游戏，需要补全这句话：
The chef reached for the salt and ___.
你大概率会想到 pepper，对吧？这是因为你理解烹饪语境，也知道“salt and pepper”是常见搭配。LLM 做的其实也是这件事，只不过规模极其庞大：它不仅考虑局部上下文，还会利用训练中所学到的所有知识。

词预测（Word Prediction） ：在最核心层面，LLM 会尝试预测序列中的下一个词，就像你会把 “The chef reached for the salt and ___” 补成 “pepper” 一样
模式识别（Pattern Recognition） ：LLM 通过分析海量文本数据学习语言模式，识别单词、短语与概念之间的关系
上下文理解（Contextual Understanding） ：不同于简单的词语联想，LLM 会考虑整句话甚至整段话的上下文，从而生成更准确、更连贯的回答
向量表示（Vector Representations） ：词语和短语会被转换为高维空间中的数值向量，语义相近的词在这个空间里距离也更近
注意力机制（Attention Mechanism） ：这使模型在生成输出中的每个词时，可以聚焦输入中最相关的部分，类似于人类在理解一句话含义时，会特别注意其中的关键部分

一个形象的类比是：可以把 LLM 看作是手机预测输入功能的超级增强版。你的手机可能只会根据你常用的短语推荐下一个词，而 LLM 则会结合更广泛的上下文，甚至能生成完整的段落或文档，而且这些内容往往连贯、自然、语境匹配。

那么，它究竟是如何预测下一个词的呢？

分词——语言处理的基础

分词，是把一段文本拆解为更小单元——也就是 token——的过程。这些 token 可以是单个单词、子词，甚至短语。分词的目的，是把字符序列（文本）转换成 LLM 可以高效处理和理解的离散单元。

你可以把它想象成：先把一个复杂的拼图拆成若干块。正如通过观察每个拼图块，更容易理解整个拼图；同样，把文本拆成可管理的小单元后，LLM 也更容易处理和理解。

执行这一任务的工具或算法，叫做 tokenizer（分词器） 。它会根据预定义规则来决定如何拆分文本。例如，一个简单的分词器可能会根据空格和标点来拆分文本，使每个单词和标点都变成单独的 token。

不过，更高级的分词器还能处理更复杂的情况，例如：

处理缩写形式（例如把 don’t 拆成 do 和 n’t）
将前缀和后缀从词中分离出来（例如把 unhappiness 拆成 un、happi 和 ness）
处理不以空格分词的语言（例如中文或日文）

让我们用一个例子来说明分词过程：

原始文本：The quick brown fox jumps over the lazy dog.
分词结果：[The, quick, brown, fox, jumps, over, the, lazy, dog, .]

可以看到，分词器将句子拆成了单独的单词和标点，从而形成一组 token，便于 LLM 进行后续处理和理解。

分词对于 LLM 至关重要，原因有很多。它有助于模型通过识别单独的词及其关系，理解文本的结构与含义；它也使文本处理变得更高效，因为模型处理的是更小、更离散的单元；此外，它还支持诸如词表映射这样的技术——为每个唯一 token 分配一个数值 ID，从而让 LLM 更容易对文本数据执行数学运算。

既然我们已经理解了分词这一基础过程，接下来就可以看看，它是如何嵌入到 LLM 更广泛的整体架构中的。

LLM 的架构

LLM 通常包含三个主要的架构元素：

编码器（Encoder） ：在分词器把大段文本转换成 token（数值表示）之后，编码器会为这些 token 创建有意义的嵌入表示。这些嵌入会把语义相近的词放置在高维向量空间中较近的位置
注意力机制（Attention Mechanisms） ：这些复杂算法使模型能够聚焦于输入文本中那些对于语言理解和生成最相关的部分。注意力机制通常同时集成在编码器和解码器中
解码器（Decoder） ：在最后阶段，模型将处理后的信息转换成人类可读的文本。在这一过程中，LLM 会一次又一次地预测下一个词，重复数百万次。训练完成后，模型就能执行问答、翻译、语义搜索等各种任务

为了更好理解 LLM 的整体结构，我们可以借助一张示意图来观察其架构。该图展示了 LLM 的关键组成部分，以及信息在模型中的流动方式。

图 1.1——LLM 的架构

这张图概括了 LLM 架构中的基本组件。整个过程从输入文本开始，文本首先进入前面刚讨论过的分词器。分词后的文本接着由编码器处理，生成这些 token 的有意义嵌入表示。之后，注意力机制会发挥关键作用，帮助模型聚焦输入中相关的部分。最后，解码器将处理后的信息转换成最终输出文本。

这些组件中的每一个，都对 LLM 理解并生成人类式文本的能力起着关键作用。在后续小节中，我们将进一步深入探讨这些部分，首先从 Transformer 架构开始，理解它们是如何共同塑造 LLM 的强大能力的。

为了正式开始理解 LLM 架构，让我们先来看那个彻底改变整个领域的基础构件：Transformer 架构。

Transformer 架构——现代 LLM 的引擎

Transformer 架构最早由 Vaswani 等人在 2017 年发表的一篇开创性论文中提出（《Attention Is All You Need》，Vaswani et al., 2017）。它彻底改变了 NLP 任务的处理方式。Transformer 架构中的关键创新，是 自注意力机制（self-attention） ，它使模型在处理输入时，能够根据不同词之间的重要性动态分配关注权重。

你可以把它想象成一个非常聪明的学生，知道在一堂课里，哪些部分最值得重点关注。Transformer 架构帮助 LLM 理解句子中词与词之间的上下文关系，类似于人类通过词间关系和上下文来解释语言。

而这一惊人能力的核心，正来自一个关键组件：自注意力机制。接下来我们就来深入看看，这项关键创新是如何彻底改变语言处理的。

自注意力机制——真正的“秘方”

自注意力是 Transformer 架构中的核心成分，它使 LLM 能够理解一句话中不同词之间的关系。它允许输入中的每个词，去“关注”句子中其他与之最相关的词。

为了更好理解自注意力的工作原理，我们可以借助一张示意图来观察这一关键过程。

图 1.2——自注意力机制

这张图展示了 LLM 中的自注意力过程，其工作方式如下：

过程从一个输入词开始
自注意力机制允许这个词去关注句子中的其他词
模型会根据这些词对当前输入词的重要性，为每个被关注的词分配不同权重
然后，将这些带权重的注意力结果加总起来
最终，这个加权和就成为输入词的输出表示

这一过程使模型能够在考虑句中所有其他词的基础上理解每个词的上下文，从而捕捉语言中复杂的关系与依赖，这对理解语言至关重要。

来看一个例子：
“The animal didn’t cross the street because it was too wide.”

在这句话中，it 指的是什么？人类会自然理解为 the street，而不是 the animal。自注意力机制正帮助模型建立这种联系：

对于句中的每个词，模型都会计算在处理当前词时，应当对其他每个词分配多少注意力。当处理 it 时，模型大概率会对 street 分配更高的注意力权重，而不是 animal。正是这种注意力分布，让模型理解：这里的 it 指的是“街道太宽”，而不是“动物太宽”。

这一机制使模型能够捕捉长距离依赖关系，并解决语言中的歧义，就像人类利用上下文来理解代词和隐含指代一样。

既然我们已经探讨了 LLM 架构中的关键组件，接下来让我们聚焦这些强大模型究竟是如何被训练出来的。从原始文本到一个完整可用的 LLM，这一过程涉及高度复杂的训练流程，它会把海量数据转化为语言理解与生成能力。

训练过程——从原始文本到语言掌握能力

训练 LLM 需要数量极其庞大、类型高度多样的文本数据，这些数据往往来自互联网、书籍、文章以及其他文本来源。在训练开始之前，这些数据会先经历预处理步骤：

分词：将文本拆分成更小的单元（token）
清洗：去除噪声和无关信息
格式化：处理特殊字符与格式问题

预处理后的数据，随后会被输入模型，进入正式训练流程。

为了直观理解 LLM 从原始数据到训练完成模型的完整过程，我们可以参考下图。

图 1.3——LLM 训练流程

这张图展示了 LLM 训练流程的几个关键特征：

预处理步骤（分词、清洗、格式化）按照清晰的顺序排列
整个流程自上而下展开，便于理解各步骤先后关系

下面对各步骤做简要说明：

Raw Text Data（原始文本数据） ：训练起点，即用于训练的大规模文本语料
Preprocessing（预处理） ：
- Tokenization（分词） ：把文本拆分成更小的单元（词、子词或字符）
- Cleaning（清洗） ：去除噪声、无关信息或格式问题
- Formatting（格式化） ：统一文本格式，保证一致性
Preprocessed Data（预处理后数据） ：已清洗、格式统一，可直接用于训练的数据
Pre-Training（预训练） ：在大规模通用文本语料上进行初始训练
Pre-Trained Model（预训练模型） ：完成初始训练后的模型，可继续用于特定任务微调
Fine-Tuning（微调） ：将预训练模型进一步适配到特定任务或特定领域
Trained LLM（训练完成的 LLM） ：最终可部署、可使用的模型

这一过程将原始文本转化为能够理解并生成类人语言的复杂模型。从数据准备到针对特定应用的最终微调，每一步都对 LLM 能力的形成起着关键作用。

LLM 通常经历两阶段训练过程：

预训练（Pre-training） ：这一阶段是在海量、广泛、多样的文本语料上训练模型，以学习通用语言模式和世界知识。在此阶段，模型通常学习预测序列中的下一个词，或填补缺失词。有时会采用一种称为 掩码语言建模（masked language modeling） 的技术，即随机遮盖输入中的部分词，让模型根据上下文预测这些被遮盖的内容
微调（Fine-tuning） ：这一阶段是将预训练模型适配到特定任务上，通过在更小规模、任务相关的数据集上继续训练，使模型在情感分析、文本分类、问答等下游任务中表现得更专业、更出色

既然我们已经理解了 LLM 的基础架构与训练过程，接下来让我们把注意力转向那些正在不断突破模型能力边界的前沿技术。AI 领域发展极快，研究者持续提出新的方法来增强 LLM 的能力。在接下来的部分中，我们将探讨这些高级方法，它们正推动 LLM 从强大的语言处理器，进一步演化为更加通用、更加智能的系统。

LLM 中的高级技术与增强方法

LLM 中的高级技术与增强方法，代表着 NLP 领域 AI 的前沿。这些复杂技术不断拓展 LLM 的能力边界，使其能够以惊人的效率与准确率执行复杂任务。

从让模型仅凭极少示例就能适应新任务的 few-shot 和 zero-shot 学习，到通过引入外部知识增强回答能力的 RAG，这些方法都显著扩展了 LLM 的能力。微调技术则使我们能够将预训练模型定制到特定领域或任务。正是这些进展，推动 LLM 朝着更通用、更具上下文感知能力、更稳健的方向发展，并在内容创作、客户服务、科学研究等多个领域释放更大价值。随着这些技术不断演进，它们将重塑我们与 AI 系统的交互方式，使其变得更直观、更博学，也更能适应我们持续变化的信息需求。

Few-shot 与 Zero-shot 学习——泛化能力的力量

尽管训练如此庞大的模型极具挑战，但 LLM 在 few-shot 和 zero-shot 学习方面已经展现出惊人的能力：

Few-shot learning（小样本学习） ：这种强大能力使 LLM 只需要少量示例就能学会新任务，而不必依赖大量标注训练数据。这之所以可能，是因为 LLM 在预训练阶段已经学到了大量关于语言和世界的知识
Zero-shot learning（零样本学习） ：它把这一能力更进一步推进，使 LLM 在完全没有任务专用训练的情况下，仅依赖自身对语言和上下文的理解，就能执行任务。这充分体现了 LLM 强大的泛化能力与迁移学习能力，也展示了它们在极少额外训练条件下适应新任务和新情境的潜力

如果说 few-shot 与 zero-shot 提升的是 LLM 从有限示例中进行泛化的能力，那么另一个突破性技术则解决了另一类问题：如何在推理时为 LLM 注入外部、最新的知识。这正是 RAG 发挥作用的地方。下面我们就来看看这种创新方法，以及它是如何进一步拓展 LLM 能力边界的。

什么是 RAG？

RAG 是一种创新方法，它通过引入外部知识源，显著增强 LLM 的表现。这项技术结合了基于检索的系统与生成式语言模型的优势，使 LLM 能够针对用户查询给出更准确、更有信息量、也更具上下文相关性的回答。

为了更好理解 RAG 与 LLM 的关系，可以借助下面这个类比。

想象一位经验丰富的图书管理员，他对许多主题都拥有广博知识。当读者提出问题时，这位图书管理员会先尝试从自己的记忆中回忆相关信息，这就类似于 LLM 根据其训练数据生成回答。但如果他觉得自己的知识需要更新，或者还需要核实，他就会去查阅外部资源，例如书籍、期刊或在线数据库，以找到最相关、最新的信息。这样，他就能更好地回答读者的问题。

RAG 对 LLM 的作用也是如此：它让模型在生成回答时，不再局限于训练数据，而是能够在需要时访问外部知识源。这一点在 LLM 的训练数据不包含最新进展，或不覆盖某些冷门领域时，尤其有价值。

RAG 与 LLM 的集成通常包括以下步骤：

知识检索（Knowledge Retrieval） ：当用户提出问题或提示时，RAG 模型会查询外部知识库，检索最相关的信息。这个知识库可以是像 Wikipedia 这样的大型语料库，也可以是某个领域的专用资源。检索过程通常会使用密集段落检索、语义搜索等高级技术，以找到与输入查询在语义上最相近的内容片段
上下文整合（Context Integration） ：检索到的内容会与用户原始查询结合，形成增强后的上下文。这一步非常关键，它为 LLM 提供了生成更充分、更有依据回答所需的背景信息
响应组织（Response Organization） ：当上下文被外部知识增强后，LLM 会对这些整合后的信息进行处理，并生成回答。通常会经历以下过程：
- 相关性排序（Relevance Ranking） ：模型会先根据与用户查询的相关性，对检索到的信息进行排序，确保最关键的事实优先进入回答
- 信息综合（Information Synthesis） ：模型再将排序后的信息与其已有知识整合起来，形成一个连贯的回答
- 上下文适配（Contextual Adaptation） ：模型会根据用户问题的语境，调整语言风格与语气，使回答自然、合适
- 来源归因（Source Attribution） ：如果系统配置允许，模型还可能附带引用或参考来源，从而增强回答的可信度
回答生成（Response Generation） ：最后，LLM 生成最终回答，并把检索到的信息自然地融合进输出中。这样形成的答案不仅基于模型原有训练数据，也吸收了外部的最新相关知识

通过这样的组织方式，RAG 可以确保上下文与用户的具体问题高度相关。下面是几个典型例子：

如果用户询问某一领域的最新进展，RAG 系统可以从外部知识库中检索并纳入最新信息，即便这些信息并不在模型原始训练数据中
对于冷门主题，RAG 可以从领域专用知识源中拉取专业信息，使 LLM 能够在原本知识不足的方向上给出更专业的回答
当涉及时效性很强的信息时，RAG 能确保模型回答反映外部知识库中的最新数据

正是这种“检索—整合—组织”信息的过程，使得经过 RAG 增强的 LLM，不仅更准确、更及时，也能更贴合用户查询的具体上下文与需求。

为了更好理解 RAG 的工作流程，以及它如何提升 LLM 能力，我们可以参考其流程示意图。

图 1.4——RAG 的主要流程：从用户查询到最终回答，并展示外部知识库等关键组件

该图展示了 RAG 系统如何逐步增强 LLM 的回答能力：

User Query（用户查询） ：流程从用户向系统提交问题开始
RAG System（RAG 系统） ：查询由 RAG 系统处理，并协调各类 RAG 组件。这些组件包括语义搜索和密集段落检索等高级检索技术
Knowledge Retrieval（知识检索） ：借助 RAG 组件，系统会在 External Knowledge Base（外部知识库） 中搜索与用户问题相关的信息。外部知识库是一个大型信息仓库，RAG 可以访问它来补充 LLM 原有知识
Context Integration（上下文整合） ：检索到的信息与原始查询结合，形成更丰富的上下文，供 LLM 使用
LLM：LLM 对整合后的上下文进行处理
Response Generation（回答生成） ：基于增强后的上下文，LLM 生成回答
Final Response（最终回答） ：系统把经过知识增强的最终回答返回给用户

这一流程表明，通过把外部、最新的知识引入生成过程，RAG 系统能够显著提高 LLM 回答的质量与准确性。

RAG 与 LLM 结合后，带来了多个显著优势：

准确性提升（Improved Accuracy） ：通过引入外部知识，RAG 增强的 LLM 能在训练数据有限或过时的场景下，给出更准确的回答
更强的具体性（Increased Specificity） ：RAG 使模型能够利用检索内容为回答提供更详细、更具体的背景与支撑信息
适应新信息（Adaptability to New Information） ：由于外部知识库可以独立于模型训练数据进行更新，RAG 使 LLM 能在无需重新训练整个模型的情况下适应新知识
处理冷门主题（Handling of Niche Topics） ：RAG 可以帮助 LLM 更好地处理冷门或专业主题，因为它能够从领域专用知识库中检索相关内容
减少幻觉（Reduced Hallucination） ：通过让回答建立在外部来源之上，RAG 有助于缓解 LLM 生成错误或无意义内容的问题
增强可解释性（Enhanced Explainability） ：RAG 中的检索步骤可以清晰展示生成回答时使用了哪些信息源，从而提升输出的透明度与可信度

不过，需要注意的是，RAG 的效果高度依赖于外部知识源的质量与相关性。确保检索到的信息准确、可靠、并且真正与用户问题相关，是生成高质量回答的关键。这就要求对 RAG 所依赖的知识库进行精心构建与持续维护。

此外，相比标准 LLM，RAG 的实现还会引入额外的计算复杂度。检索环节需要高效的索引与搜索算法，尤其是在面对大规模知识库时，才能保证响应时间保持在合理范围内。

尽管存在这些挑战，RAG 仍然代表了 NLP 的一项重要进步。它弥合了静态训练数据与动态、最新信息之间的鸿沟，使更灵活、更可适应的 AI 系统成为可能。

RAG 是一项强大的技术，它显著增强了 LLM 的能力。通过让 LLM 能访问并利用外部知识，RAG 使模型能够针对用户问题给出更准确、更有信息量、也更具上下文意识的回答。这使 LLM 更适合真实世界应用，并在问答系统、虚拟助理、智能教学系统等领域打开了新的可能性。随着这一方向的研究不断演进，我们有望看到更复杂、更成熟的 RAG 实现，进一步推动 AI 驱动语言理解与生成能力的边界。

如果说 RAG 是在推理阶段通过引入外部知识来增强 LLM，那么另一项关键技术则聚焦于直接改造模型本身，使其适配特定任务或领域。这种方法被称为 微调（fine-tuning） 。它让我们能够把预训练模型定制到具体应用中，进一步提升 LLM 的实用性。下面就来看看微调是如何工作的，以及它与 RAG 在提升模型能力时有何根本区别。

什么是微调？

微调是一种将预训练语言模型适配到特定任务或领域的强大技术。与 RAG 不同，RAG 是在推理时通过引入外部知识来增强模型表现；而微调则是通过在任务专用数据上继续训练，直接修改模型的内部参数。

这一过程通常从一个已经完成预训练的模型开始。这个模型已经在大规模、多样化的数据集上学习到了通用语言模式，因此本身就具备丰富的语言知识与理解能力。微调则是在此基础上，使用一个规模更小、但与目标任务或目标领域更相关的数据集，继续对模型进行训练。通过这一附加训练过程，模型能够把已有知识进一步适配到新任务的具体需求上，从而在目标应用上表现更好。

在微调过程中，模型的部分参数或全部参数都会被更新，以更好贴合新任务。这与 RAG 形成鲜明对比：RAG 并不会改动模型参数，而是通过外部信息增强输出。微调过程通常还需要精细调整学习率、批大小等超参数，以获得最佳效果。正是这种对学习过程的精细控制，使微调相比 RAG 在任务定制上更具针对性。

为了直观理解微调流程及其关键组成部分，我们可以参考下图。

图 1.5——预训练 LLM 与任务专用数据集共同进入微调流程

该图展示了 LLM 的微调过程：

Pre-Trained LLM（预训练 LLM） ：流程起点是一个已在大规模数据集上学习通用语言模式的模型
Task-Specific Dataset（任务专用数据集） ：引入一个更小但更聚焦的数据集，它与目标任务或领域高度相关
Fine-Tuning Details（微调细节） ：这部分涵盖微调过程中的技术细节：
- Parameter Adjustment（参数调整） ：修改模型内部参数
- Learning Rate Scheduling（学习率调度） ：精细控制模型学习速度
- Hyperparameter Tuning（超参数调优） ：优化多种训练设置以提升性能
Fine-Tuning Process（微调过程） ：预训练模型在任务专用数据上继续训练，并引入上述微调细节
Fine-Tuned Model（微调后模型） ：最终得到适配特定任务或领域的模型

通过这一过程，我们通常会获得以下结果：

Improved Task Performance（任务性能提升） ：模型在目标任务上更熟练、更高效
Domain Specialization（领域专精化） ：模型获得特定行业或应用场景中的专业能力

这一过程使得功能强大的预训练语言模型，可以被定制为在某个特定任务或领域中表现出色，从而显著增强其实用价值。

微调带来了多项区别于 RAG 的优势。首先，它通常能在特定任务上实现更强性能，因为模型的整体架构都围绕目标任务进行了优化。其次，微调模型在推理时不需要查询外部知识库，因此在很多场景下，它可以比 RAG 更高效地实现这种性能提升。这使得微调模型在延迟要求严格的应用中更具优势。

当然，微调也有其独特挑战。一个典型问题是 灾难性遗忘（catastrophic forgetting） ：模型在适应新任务时，可能会丢失原有的通用知识。相比之下，RAG 因为不改动模型内部参数，所以较少出现这一问题。另一个潜在问题是 过拟合（overfitting） ，尤其是在数据集较小的情况下更容易发生；而 RAG 因为并不修改底层模型，因此相对不容易出现过拟合。

虽然微调和 RAG 的目标都是提升模型性能，但它们所依赖的机制是根本不同的。微调通过改造模型本身，使其专门适配特定任务，因此往往带来更高性能与更高推理效率；而 RAG 则通过动态引入外部知识，增强模型知识广度，从而提供更好的灵活性，以及更方便的知识更新方式。究竟选择哪种方法，取决于具体应用需求，包括任务专用性、知识更新频率以及可用计算资源等因素。

总结

本章对 LLM 及其在现代 AI 中的关键作用做了全面介绍。我们回顾了 AI 从基础概念到驱动当今先进语言模型的前沿技术的发展历程。通过对 LLM 精细架构的探讨，包括分词、Transformer 架构以及自注意力机制等关键组件，你已经理解了这些复杂系统是如何处理并生成类人语言的。

本章还重点说明了小样本学习、RAG 与微调等高级技术如何显著增强 LLM 的能力，不断突破 NLP 的边界。我们同时也考察了该领域的最新突破，例如能够处理多种数据类型的多模态模型、不断增强的推理能力，以及围绕更具伦理性、更高效率 AI 系统所展开的持续努力。

这些知识为你理解 LLM 在不同行业中的变革潜力打下了坚实基础，也帮助你更从容地面对 AI 的复杂格局，既能看到其巨大可能性，也能意识到部署这类强大技术时所伴随的伦理考量。

接下来，下一章将深入探讨一个至关重要的主题：LLM 的 AI 原生安全。我们将考察这种新方法与传统网络安全方法有何不同，分析 LLM 带来的独特安全挑战，并讨论如何以安全方式开发与部署这些模型的最佳实践。通过理解 AI 原生安全原则，你将更有能力在真实世界应用中释放 LLM 的力量，同时有效控制潜在风险。

AI-Native 大语言模型安全——大语言模型基础与导论