前言
最近AI圈新词爆炸:LLM、Token、Context、Prompt、Tool、Agent Skill、MCP、RAG……很多人天天用却讲不明白原理。这篇文章用人话+案例+对比,把大模型最核心的底层逻辑讲透,看完就能理解AI怎么“思考”、怎么计费、怎么干活。
一、什么是LLM(大语言模型)
1.1 核心定义
LLM = Large Language Model,大语言模型。 目前市面上几乎所有主流大模型(GPT系列、Claude、Kimi、文心一言、通义千问、小米MiMo等),全部基于Transformer架构训练而成,这是大模型的底层引擎。
1.2 大模型最本质的工作原理:文字接龙
很多人以为大模型“懂语义、会思考”,底层其实就是概率预测+文字接龙:
- 接收输入文本;
- 预测下一个概率最高的词/字;
- 把刚输出的内容追加回输入,继续预测下一个;
- 直到输出结束标识符,停止生成。
举个极简例子: 你问:今天天气怎么样? 模型第一步预测:非常 拼接后输入:今天天气怎么样?非常 第二步预测:得 拼接后输入:今天天气怎么样?非常得 第三步预测:好 模型判断语句完整,输出结束符。 最终回答:非常得好
这就是为什么大模型总是逐字/逐词流式输出,而不是一次性吐出完整答案。
1.3 Transformer架构极简理解(不搞公式)
Transformer的核心是自注意力机制,让模型能同时看到整段文本里所有词的关联,而不是逐词顺序处理,解决了长文本依赖与并行计算问题,是当前LLM的基石架构。
二、Tokenizer与Token:大模型只认数字,不认文字
2.1 为什么需要Tokenizer?
大模型本质是数学函数+矩阵运算,只处理数字,不识别文字、标点、符号。 Tokenizer就是翻译官:
- 把人类文字 → 编码成模型能运算的数字序列
- 把模型输出的数字 → 翻译回人类可读文本
没有Tokenizer,大模型就是“文盲”。
2.2 什么是Token?
Token是大模型处理文本的最小计价/计算单元,不是严格的“词”,可以是:
- 完整单词:ChatGPT、Python
- 子词:program → program + mer
- 单个字符:a、中、!
- 特殊标记:
<|endoftext|>、[CLS]
通用换算(开发必记):
- 1 Token ≈ 0.75 个英文单词
- 1 Token ≈ 1.5 个汉字
- 100万 Token ≈ 150万汉字(可容纳一本长篇小说)
2.3 Tokenizer工作流程
编码(输入 → 模型)
- 文本预处理:统一格式、去多余空格、加特殊标记
- 分词:切成Token序列
- 映射ID:查词汇表,每个Token对应唯一数字ID
解码(模型 → 输出)
- 模型输出Token ID序列
- 反向查表映射回文本
- 拼接成自然语言返回
2.4 对开发者的意义
API按Token计费,优化输入长度、精简Prompt、合理用上下文,能直接降低成本。
三、上下文Context:大模型的“临时记忆”
3.1 大模型并没有真正的记忆
LLM本质是输入→输出的函数,没有持久记忆。 你感觉它“记得对话”,是因为每次发送新问题,都会把历史对话一起塞给模型。
3.2 什么是Context(上下文)
Context = 模型一次推理能接收的所有信息总和,包括:
- 用户当前问题
- 历史对话(用户+助手)
- System Prompt(系统指令)
- 工具列表(Tool Definitions)
- 正在生成的Token
可以把Context理解为大模型的临时工作内存。
3.3 Context Window(上下文窗口)
窗口大小决定一次能塞多少内容,是模型硬限制。 主流模型2026年参考(开发选型用):
| 模型 | 上下文窗口 | 等效汉字 |
|---|---|---|
| GPT-5.2 | 400K | 约60万 |
| Claude Opus 4.6 | 1M(Beta) | 约150万 |
| Gemini 3 Pro | 2M | 约300万 |
| DeepSeek V4 | 1M+ | 约150万+ |
| 小米MiMo-V2-Pro | 1M | 约150万 |
窗口越大,越能处理长文档、代码库、剧本、研报,但Token消耗越高。
3.4 超长文本怎么办?RAG登场
直接把几十万字手册塞进Context,成本爆炸、容易超限。 解决方案:RAG(检索增强生成)
- 先把文档切片、入库、建索引
- 用户提问时,只检索最相关的片段传给模型
- 突破窗口限制,大幅省Token,提升准确性
四、Prompt:你给AI的“指令说明书”
4.1 极简定义
Prompt = 你对模型的明确指令/问题/约束,决定输出质量。 例:
- 帮我写一段Python快速排序
- 你是一名后端架构师,用简洁语言解释微服务
4.2 好Prompt的核心原则
- 清晰角色:你是谁
- 明确任务:做什么
- 限定格式:输出结构
- 补充约束:风格、长度、禁忌
五、Tool:AI的“外部工具手”
5.1 为什么需要Tool?
LLM本身没有联网能力、不会实时计算、不能操作数据库。 Tool就是给AI外挂能力:
- 联网搜索
- 计算器
- 数据库查询
- 代码执行
- 发送邮件/API调用
5.2 工作流程
- Prompt告诉模型可用工具列表
- 模型判断是否需要调用
- 模型返回工具调用参数
- 系统执行并返回结果
- 模型整理结果输出
这里给大家分享一个实用工具——向量引擎,国内直连不用魔法,通用额度可跨模型使用,新手注册还能领取免费测试额度,刚好可以用来实操本文讲到的所有AI概念,快速上手大模型调用,具体使用方法可参考详细教程。 官方地址:api.vectorengine.ai/register?af… 使用教程www.yuque.com/nailao-zvxv…
六、Agent Skill:AI的“专业技能包”
6.1 什么是Agent?
Agent = 能自主规划、多步推理、调用工具、完成复杂任务的智能体。 不再是“问一答一”,而是“给目标→自动干完”。
6.2 什么是Skill?
Skill = 封装好的专业能力模块,相当于Agent的“插件/APP”。 例:
- 代码调试Skill
- 文档总结Skill
- 数据分析Skill
- 客服对话Skill
一个Skill = 专用Prompt + 工具链 + 执行流程。
七、MCP:AI与工具的“通用插座协议”
7.1 全称
MCP = Model Context Protocol,模型上下文协议。
7.2 解决什么问题?
过去每个Agent、每个工具都要单独对接,成本高、混乱。 MCP是标准化通信规范:
- 统一AI与工具/数据源的交互方式
- 一次接入,全平台通用
- 让Skill、Tool、Agent无缝互通
可以理解为:AI生态的USB接口标准。
八、核心概念一张表总结(建议收藏)
| 名词 | 通俗理解 | 核心作用 |
|---|---|---|
| LLM | 大语言模型,文字接龙机器 | 生成文本、推理、对话 |
| Token | 最小计价/处理单元 | 计费、计算、编码 |
| Tokenizer | 文字↔数字翻译官 | 让模型能读懂人类语言 |
| Context | 临时记忆窗口 | 保存对话、指令、工具信息 |
| Prompt | 指令说明书 | 控制输出行为 |
| Tool | 外部能力插件 | 联网、计算、查库、执行 |
| Agent | 自主智能体 | 多步规划、自动完成任务 |
| Skill | 专业技能包 | 领域专用能力模块 |
| MCP | 通用交互协议 | 统一AI与工具对接标准 |
| RAG | 检索增强 | 超长文档低成本处理 |
九、实战意义:为什么这些概念开发者必须懂?
- 成本控制:懂Token/Context,才能写出省预算的Prompt与调用逻辑
- 架构选型:懂Agent/Tool/MCP,才能设计可扩展的AI应用
- 排错高效:知道输出卡顿、幻觉、超限的根源
- 合规安全:控制上下文长度、工具权限,避免数据泄露
结语
从LLM到Agent,本质是从文字生成→自主执行的进化。 Token是基础单元,Context是记忆,Prompt是指令,Tool是手脚,MCP是标准,Agent是终极形态。