介绍
大型语言模型(LLM)已迅速成为科技、商业和日常对话中的热门话题,但有时专业术语会让日常讨论变得困难。
而且,别人说的话也会根据自己的理解而有不同的解释。
为了确保你了解LLM背后的所有主要术语,请阅读接下来的简单解释,并在需要时随时参考。
当我第一次看到 Ashish 的视觉效果时,我立刻想到这些术语的解释是如此清晰和简单!
LLM 是迄今为止最成功的人工智能技术之一
预计到 2033 年,LLM 市场的总价值将达到820 亿美元。
截至 2025 年,全球已有 67% 的组织采用 LLM,利用生成式人工智能支持其运营。
如果您是 LLM 的新手,并希望加深对 LLM 的了解,本文将为您提供帮助。
让我们开始吧!
什么是 LLM?
大型语言模型(LLM)是一种人工智能系统,它通过对大量文本数据进行训练来理解和生成类似人类的语言。
在训练过程中,它们通过分析来自书籍、文章、网站和其他书面来源的数十亿文本示例,学习语言中的模式、关系和结构。
这样,它们就能理解人类语言的语法和语义。
目前常用的 LLM 包括
- OpenAI 的 GPT-4o(ChatGPT 形式)
- 来自 Anthropic 的Claude Sonnet 4
- 谷歌的双子座 2.5 Flash
这些模型都是专有的,这意味着它们的内部细节(权重、参数、训练数据、训练方法)并不公开。
使用最广泛的开放权重模型是
- Meta 的Llama
- DeepSeek 的DeepSeek-V3
- MistralAI 公司的 MistralMedium 3
Transformer 架构是我们今天使用的所有流行 LLM 的支柱。
Transformer 是谷歌在 2017 年通过研究开发出来的。
它之所以如此出色,是因为与以往的方法不同,它可以让 LLM 同时(并行)理解和处理输入文本中的所有单词,而不是一个接一个(顺序)地处理。
这是通过其名为 "自我关注"的机制实现的,该机制有助于找出每个单词与文本序列中其他单词的关系。
与以往方法不同的是,它能让 LLM 同时(并行)理解和处理输入文本中的所有单词,而不是一个接一个(按顺序)处理。
这是通过其名为 "自我关注"的机制实现的,该机制有助于找出每个单词与文本序列中其他单词的关系。
什么是 GPT?
GPT或生成预训练转换器是最早也是最广为人知的 LLM 之一。
GPT 诞生于 2018 年OpenAI 的研究,距谷歌推出 Transformer 架构仅一年时间。
它的后继者 ChatGPT 是当今最流行的 LLM 之一。
GPT 通过预测给出提示的下一个单词/令牌来生成文本。
这一过程被称为自动回归(Autoregression),这意味着每个单词都是基于前一个单词生成的。
你会在描述 GPT 的图片中看到,它接受输入嵌入和位置编码作为输入。
这看起来很奇怪,因为应该是一个单词/句子进入 GPT,它才会生成下一个单词。
事实上,LLM 不懂英语(或任何其他人类语言)。
英语中的任何单词/句子都必须在一个称为 "**标记化"(Tokenization)**的过程中首先被分解成称为 "标记"(Token)的小片段。
在像 ChatGPT 这样的 LLM 中,这一过程是通过一种称为 "字节对编码"的标记化算法完成的。
然后,将获得的标记编码成数学形式,即嵌入(Embeddings)。
嵌入是一种高维向量表示法,可捕捉不同词语/句子之间的语义和关系。
词义相近的词在高维空间中的嵌入度更接近。
如下图所示,"Apple"的嵌入比 "Pen"更接近 "Orange"。
我们之前讨论过 LLM 中的 Transformer 架构是如何让它们并行处理所有单词/标记的。
这可能会导致一些问题,因为在英语这样的语言中,单词的位置对于表达意思非常重要。
这就是位置编码被用来将句子中不同单词/标记的位置信息与这些单词/标记的输入嵌入相结合的原因。
既然我们已经了解了 LLM 的内部结构,下面我们就来讨论一下如何训练 LLM。
训练 LLM 生成文本
从零开始训练LLM 生成文本的第一步是预训练。
在这一阶段,LLM 通过处理大量无标签文本数据集来学习。
每一步都会给它提供上下文(即前面的单词/标记),并要求它预测后面的单词/标记。
这使它逐渐学习语法、事实和常识推理。
一旦我们获得了预先训练好的 LLM,就可以通过在特定任务的标注示例上对其进行训练,使其适应特定任务的执行。
这些任务包括模型回答问题、总结文档或更可靠地遵循指令。
这一步骤称为监督微调(SFT) 。
在 SFT 之后,LLM 可能会学会很好地执行任务,但其反应仍可能偏离人类的价值观。
例如,如果你问 LLM "圣诞节是什么时候? ",它可能会回答 "不是 12 月 25 日吗?
虽然这个回答是正确的,但你更喜欢听起来更礼貌的回答,比如 "每年的 12 月 25 日是圣诞节"。
这是通过一种名为 "从人类反馈中强化学习"(RLHF)的技术实现的**。**
RLHF 通过使用人类判断的数据集,使 LLM 与人类的价值观、偏好和期望保持一致,从而引导 LLM 做出被认为更好的回应。
这是现代 LLM(如 ChatGPT)实现高对话质量和安全性的关键技术。
如何从 LLM 中获得更好的回复?
提示是一种流行的技术,可以帮助您获得 LLM 的回复,围绕这种做法已经出现了一个名为 "**提示工程 "**的完整领域。
目前流行两种提示方法。它们是
- 零次提示:直接指示 LLM 执行任务
- 少量提示:即提供几个与要完成的任务相关的例子,并指示如何完成任务。这通常会使 LLM 作出更好的反应。
除此之外,还引入了许多专门的提示技巧,其中之一就是思维链(CoT)提示法。
在使用思维链(CoT)提示时,LLM 会被指示在给出答案之前逐步推理。
这可以提高它在数学、逻辑和推理任务中的准确性。
还有一种方法可以进一步训练 LLM,使其将这种思维链方法内化。这有助于他们在应对复杂问题时更好地思考和推理。
具体做法是利用强化学习技术,在包含提示及其思维链响应示例的海量数据集上训练 LLM。
由此产生的 LLM 被称为大型推理模型(Large Reasoning Models,LRM)。 这些模型在回答查询之前会花时间思考。
目前常用的大型推理模型有
- OpenAI 的o3 和 o4-mini
- Anthropic 的Claude Opus 4
- DeepSeek 的DeepSeek-R1
LLM 不仅是文本生成器,还能做更多的事情。
现代 LLM 是多模式的。这意味着它们可以使用不同模式(音频、图像和视频)的数据作为输入和输出。
现代 LLM 还具有代理权和自主性。这就使它们成为人工智能代理。
代理意味着 LLM 可以充当系统的大脑,当被赋予一项任务时,它们可以
- 推理和规划完成任务的方法
- 使用特定任务工具与环境和其他代理互动
- 获取反馈并修正完成任务的方法
在过去几个月中,有两个重要的协议被引入,它们使代理工作流程更加高效和可靠。它们是
- 模型上下文协议(MCP) :该协议由 Anthropic 开发并开源,使代理能够无缝访问外部数据源、API、工具和应用程序,并与之协同工作。
- 代理2代理(A2A)协议:该协议由谷歌开发并开源,可让多个独立的人工智能代理协作完成给定任务。
以上就是关于什么是 LLM、如何训练 LLM 以及如何使用 LLM 获得适合您任务的响应的简要概述。