LLM 大语言模型入门指南:从原理到智能体

232 阅读11分钟

一、什么是大语言模型(LLM)?

1.1 核心定义与类比

  • 正式定义:LLM(Large Language Model)是基于海量文本训练的深度学习模型,具备生成、理解、推理自然语言的能力。

  • 通俗理解

它像一只“吞了全世界图书馆的电子鹦鹉”🦜——能写诗、编代码、装莎士比亚,但也会一本正经地胡说八道(如“番茄是蓝色的”),因为它只“读书”没“体验”。

1.2 核心特征(三大支柱)

庞大的参数量从 GPT-1(1.17亿)到 GPT-3(1750亿),参数≈“脑容量”,决定模型潜力
海量训练数据GPT-3 使用近 3000 亿 tokens,涵盖 CommonCrawl、Reddit、书籍、维基等
长上下文窗口如 GPT-3.5-16K 支持 16,000 tokens 的上下文,支撑复杂对话与文档处理

参数量级庞大(百亿至万亿级)

  • 正式定义:大模型参数是人工智能模型(如GPT、LLaMA等)内部用于“记住”知识和“理解”任务的一组可调节的数值。它们在训练过程中通过大量数据自动学习得到,决定了模型如何将输入(比如一句话)转换成输出(比如回答)。

  • 通俗类比:  可以把大模型想象成一个超级大脑,而参数就像是这个大脑里的神经连接强度

    • 就像人脑有 billions(数十亿)个神经元通过突触相互连接,每个连接有强弱之分;
    • 大模型也有数十亿甚至上万亿个参数,每个参数决定了“看到某个词时,该多重视哪个上下文”。

📊 附:OpenAI 模型参数演进表

模型版本参数量
GPT-11.17亿
GPT-215亿
GPT-31750亿

2. 训练数据规模巨大

以 GPT-3 为例,GPT-3 的训练数据由多个部分组成,涵盖了书籍、新闻、论文、维基百科、社交媒体等几乎人类所有的高质量文本近 3000 亿个文本单位,分布如下:

📊 **附:GPT-3 的训练数据集

数据集说明数据量训练混合权重训练 300B tokens 轮数
CommonCrawl(网络爬虫公开数据集)410 billion60%0.44
WebText2(Reddit 论坛的网页文本)19 billion22%2.9
Books(互联网书籍语料库)67 billion16%2.33
Wikipedia(整个英文维基百科知识库)5 billion3%3.4

3. 上下文窗口长

比如 GPT-3.5-16K 模型的上下文长度是 16K,意思就是单次对话的最多可以包含 16,000 个 Token(文本片段)。

二、LLM 是如何工作的?

2.1 基础单位:Token 与词表(Vocabulary)

  • Token 是什么?
    文本处理的最小单元,可以是字、词、符号或字节片段。

  • 中文 vs 英文

    • 英文 Token 数量少,仅包含 a-z 26 个字母、逗号、句号、空格等标点符 号(数百至数千)
    • 中文 Token 数量多(数万),1 汉字 ≈ 1~1.5 tokens
  • 词表示例

以下是一个词汇表(vocab)的片段示例,展示了token到id的映射关系。包括特殊符号、字节token、英文token和中文token等

{
    "vocab": {
        # 特殊符号部分
        "<unk>": 0,           # 未知符号占位符
        "<|startoftext|>": 1, # 文本起始标记
        
        # 字节token(用于处理特殊字符)
        "<0x00>": 305,        # 十六进制00的字节表示
        "<0x01>": 306,        # 十六进制01的字节表示
        # ...(其他字节token)
        
        # 英文token(带_前缀表示单词开头)
        "ct": 611,            # 普通英文片段
        "__re": 612,          # 单词开头片段(如"re"开头)
        # ...(其他英文token)
        
        # 中文token
        "安徽省": 28560,       # 中国省份名称
        "子和": 28561,         # 中文词汇片段
        # ...(其他中文token)
    }
}

2.2 生成原理:Token 预测机制

  • 统计预测:基于历史共现频率(已过时)

  • 神经网络预测(主流):

  1. 输入文本 → Token → 向量
  2. 模型计算下一个 token 的概率分布
  3. 选择最高概率 token 作为输出,拼接后继续生成
---
config:
  theme: base
  look: handDrawn
  layout: elk
---
graph LR
    A[输入文本<br>“肚子饿了”] --> B[Token转换<br>“肚”→123<br>“子”→456<br>“饿”→789<br>“了”→101]
    B --> C[模型计算概率分布]
    C --> D[“怎么办”:31%]
    C --> E[“吃什么”:24.3%]
    C --> F[“为什么”:15%]
    E --> G[选择Token 243<br>“吃什么”]
    G --> H[新输入序列<br>123+456+789+101+243]
    H --> I[最终输出<br>“肚子饿了吃什么”]

🖼️ 流程图嵌入
image.png

2.3 训练流程:如何“学会说话”?

训练指的是将大量文本输入给模型,进而得到模型参数,目前LLM训练一般用到了大量文本,一般在 2T token 以上(2 万亿 Token )

  1. 初始化参数
  2. 输入文本(如“程”)
  3. 模型预测输出(如“hello”)
  4. 计算预测与真实答案的损失(Loss)
  5. 梯度下降更新参数
  6. 循环直至收敛

🖼️ 训练循环图嵌入:初始化 → 输入 → 输出 → 损失 → 更新 → 判断停止 image.png

三、LLM 的能力边界与局限性

限制类型具体表现解决方案/缓解策略
实时性无法获取互联网实时数据引入RAG(检索增强生成) ,在运行时从权威、实时数据源(如新闻、数据库、API)检索最新信息
数据依赖仅能基于公开语料库回答结合私有知识库 + 向量数据库,通过 RAG 注入企业/领域专有数据,弥补训练数据盲区
环境交互默认无法主动访问外部系统构建AI Agent,赋予模型调用工具(如 API、代码解释器、数据库)的能力,实现主动交互
数学能力复杂数学问题准确率低集成外部计算工具(如 Python 代码解释器、计算器),让模型生成代码并执行,而非直接计算
可靠性风险可能输出虚假/错误信息(幻觉)1. 使用RAG 提供事实依据 2. 设置置信度阈值 3. 引入人工审核或验证模块
长上下文处理复杂上下文易出现逻辑断裂1. 采用支持超长上下文的模型(如 Claude 200K、GPT-4 Turbo 128K) 2. 使用上下文压缩/摘要技术 3. 设计分段处理 + 记忆回溯机制
交互适配需集成到软件作为 AI 智能体通过LLMOps 平台Agent 框架(如 LangChain、LlamaIndex)快速封装为可部署服务,支持 API 调用、插件扩展和工作流编排

💡 提示:LLM 是“概率大师”,不是“事实权威”。

四、LLM 如何改变软件开发?(单点提效 → 自动化编程)

4.1 当前提效场景(C1~C3)

智能代码提示基于上下文(光标前代码)预测下一个 token 或代码片段,实时补全变量、函数、类等。
重复代码检查通过语义嵌入(embedding)比对代码块相似度,识别逻辑重复或拷贝粘贴代码。
SQL语句的智能生成将自然语言(如“查询上月销售额最高的用户”)解析为结构化查询,并生成符合语法的 SQL。
跨端代码快速转换利用 LLM 对多语言语法的理解,将代码从一种平台(如 iOS Swift)自动翻译为另一种(如 Android Kotlin)。
静态代码检查与自动修复分析代码模式,识别潜在 bug、安全漏洞或风格问题,并生成修复建议或直接修改代码。
代码注释生成根据函数/类的逻辑和变量名,自动生成清晰、简洁的中文或英文注释,解释其用途与行为。
单元/接口测试代码生成基于函数签名和业务逻辑,自动生成覆盖边界条件、正常路径和异常场景的测试用例。
更精准的技术问答结合用户项目上下文(如代码库、技术栈)和外部知识,提供针对性更强、可执行的答案。
代码评审与代码重构识别冗余逻辑、复杂嵌套或不良设计,建议更清晰、高效、符合规范的重构方案。
失败用例自动分析与归因解析 CI/CD 中的错误日志、堆栈信息和关联代码变更,定位根因并给出修复方向。

4.2 自动化编程五级演进

C1当前行自动补全
C2预测下一行代码
C3自然语言生成代码、语言翻译
C4全流程辅助:生成+测试+调试+注释
C5完全自主编程:AI 作为服务,无需人类写代码

五、从 LLM 到 AI Agent:下一代智能范式

5.1 关键概念辨析

技术定义作用
大模型 (LLM)利用海量文本数据训练的模型,能生成连贯文本、进行逻辑推理和回答问题。提供强大的语言理解和生成能力,是构建复杂AI系统的基石。
检索增强生成 (RAG)结合传统信息检索和最新生成技术,先从知识库检索相关信息,再基于这些信息生成回答。扩展LLM能力,利用外部知识库提供更准确、信息更丰富的输出。
智能体 (Agent)能感知环境并做出响应或决策的智能程序或设备。集成LLM和RAG技术,在特定环境下做出决策和执行任务,位于应用层。

5.2 Agent 核心架构

  • 记忆系统
    • 短期记忆(对话历史)
    • 长期记忆(向量数据库)
  • 工具集成
    • 日历
    • 计算器
    • 代码解释器
    • 搜索引擎
    • ...
  • 规划能力
    • 思维链(Chain-of-Thought)
    • 子目标拆解
    • 自我反思(Self-Reflection)
  • 协作机制
    • 多 Agent 协同完成复杂任务

🖼️ Agent 架构图嵌入:红色 Agent 框,含感知 → 决策 → 行动 + 记忆双向连接 image.png

六、LLM 应用开发核心概念

6.1 必知术语速览

术语定义关键特征
AIGCAI生成内容支持文字/图像/音频/视频生成,ChatGPT是其对话场景实现
AGI人工通用智能终极目标,具备类人的理解/学习/应用能力(非仅内容生成)
Agent智能代理自主感知环境并执行任务的计算实体(如自动驾驶系统)
Prompt提示词人机交互的核心媒介,引导模型生成响应
LoRA插件式微调低秩矩阵分解技术(W≈ABᵀ),显著降低微调成本
向量数据库非结构化数据存储支持图像/音频/文本的相似性检索(如人脸识别)
数据蒸馏数据浓缩技术将大数据集提炼为小数据集,保持模型效果同时降低训练成本

6.2 人机协作新模式

嵌入模式AI 作为工具,人主导写小说、画图
副驾驶模式人机协同GitHub Copilot
智能体模式AI 自主执行AutoGPT、企业自动化流程

七、LLM 在企业中的价值落地

体验提升智能客服、知识库助手LLM + 企业知识库
降本增效日志分析、法务文书生成LLM + RAG
收入增长个性化推荐、虚拟导购LLM + 用户行为分析
流程变革端到端智能体Agent + 工具链

八、LLMOps:让 LLM 应用开发更简单

什么是 LLMOps?

面向 LLM 应用的全生命周期管理平台,覆盖开发、部署、监控、优化。

核心价值(对比传统开发)

应用前后端开发需自行集成LLM接口,开发周期长直接调用LLMOps API,节省80%时间-80%
Prompt工程手动调试,效率低可视化编排,所见即所得-25%
数据准备与嵌入编写代码处理长文本平台自动处理,支持文件上传-80%
应用日志与分析需自建日志系统平台内置实时日志分析-70%
AI插件开发与集成手动编码实现可视化拖拽集成-50%
AI工作流开发程序化编写工作流逻辑图形化编排,支持拖拽调试-80%

随着 LLM 应用爆发,一批 LLMOps 平台应运而生,帮助开发者快速构建、部署和管理大模型应用。以下是几个典型代表:

LangChain开源框架,支持 Prompt 编排、工具调用、记忆管理、RAG 等,生态丰富开发者自建 Agent 或 RAG 应用
LlamaIndex专注于高效数据接入与检索,擅长将私有文档转化为 LLM 可用的知识企业知识库问答、文档智能检索
Databricks Mosaic ML提供端到端 LLM 训练、微调、部署,集成 Unity Catalog 实现数据治理企业级大模型私有化部署
Azure AI Studio微软出品,支持模型评估、Prompt 工程、向量搜索、一键部署到 Azure企业云上 AI 应用开发
Amazon BedrockAWS 托管服务,集成 Claude、Llama、Titan 等多模型,支持 Serverless 调用快速集成商业大模型到现有系统
Weights & Biases (W&B) LLM Insights专注 LLM 实验追踪、Prompt 版本管理、输出质量监控团队协作优化 Prompt 与模型效果
Dify国产开源 LLMOps 平台,提供可视化 Prompt 编排、Agent 构建、API 发布中小团队快速上线中文 LLM 应用

💡 趋势:LLMOps 正从“代码优先”走向“低代码/可视化”,未来非技术角色(如产品经理、运营)也可能直接参与 AI 应用构建。