AI 通关攻略 · 第 0 关 | 入门:从零认识 AI 核心概念
系列:AI 通关攻略 —— 从一颗 Token 开始,层层通关,彻底搞懂大语言模型
核心概念:LLM,Token,Context Window,Prompt,Tool,MCP,Agent,Agent Skill
1. LLM(Large Language Model,大语言模型)
LLM 是目前最主流的 AI 模型架构,基于 Transformer 实现。它的本质是:
- 接收一段文本(token 序列)作为输入
- 输出另一段文本(token 序列)
LLM 本身是"静止"的——它无法主动感知外部环境的变化,也无法自行连接互联网、调用 API 或读取本地文件。这意味着训练完成后,模型的知识就固定了(俗称"知识截止日期")。
但这并不意味着 LLM 无法与外部世界交互,而是需要一个"中介"——也就是后面会讲到的 Agent、tool 等机制,来帮它连接到真实世界。
2. Token 与 Tokenizer
2.1 什么是 Token?
Token 是 LLM 处理文本的最小单位。你可以理解为"词块":
- 英文:一个单词可能是一个 token(如
"hello"),也可能被拆成多个(如"hamburger"→"ham"+"burger") - 中文:通常按字符或词组拆分(如
"大语言模型"可能被拆成["大", "语言", "模型"]或["语言模型"])
为什么会这样?原因是 LLM 实际上不处理文字,它只认识数字。所有输入输出都要经过转换。
2.2 什么是 Tokenizer?
Tokenizer(分词器)是文本和数字之间的"翻译官",它负责两件事:
- 编码(Encode):将用户输入的文字,按照词汇表拆分成 token,再将每个 token 映射为一个数字 ID(token ID),传给 LLM 处理。
- 解码(Decode):LLM 输出的 token ID 序列,经过 tokenizer 反向映射回文字,最终拼接成我们能读懂的句子返回给用户。
类比理解:就像发送微信消息时,文字被转成网络信号传输,到达对方手机后再转回文字显示。在 LLM 的世界里,tokenizer 就是那两道"转码关卡"。
2.3 为什么 LLM 要用 Token 而不是直接处理文字?
核心原因有两个:
- 效率:用数字 ID 比用字符串处理快得多,也节省存储空间。
- 泛化能力:通过将词拆成子词(subword),模型能理解从未见过的词汇(比如
"tokenize"没在训练集中,但 tokenizer 认识"token"+"ize",模型也能处理)。
重要理解:LLM 从头到尾打交道的是 token ID,它完全不理解文字本身。文字只是人类才看得懂的"外壳"。
经验参考:1 token ≈ 0.75 ~ 1 个英文单词 ≈ 1.5 ~ 2 个汉字。所以,如果想减少 token 消耗,可以尝试用英文提示词。
3. Context Window(上下文窗口)
什么是 Context Window?
Context Window 即上下文窗口,是 LLM 单次推理所能处理的 最大 token 总数(包含输入 + 输出的总和)。
简单理解:
- LLM 在一次对话中,能"看到"的 token 数量是有限的
- 超出 context window 的内容,模型会直接"看不见",而不是"忘记"
- context window 越大,意味着模型一次能处理的信息量越大
注意:context window 不是模型的"记忆"能力,而是"单次处理的容量"。超出容量的内容不是被遗忘了,而是从一开始就没被模型看到。
4. Prompt(提示词)
4.1 User Prompt(用户提示词)
User Prompt 即用户提示词,是用户想要表达、想要提问所输入的内容,旨在期待 LLM 给出回应。
4.2 System Prompt(系统提示词)
System Prompt 即系统提示词,旨在让 LLM 生成的内容更加精准、更加符合人类的特定需要。
本质上,是在 User Prompt 输入之前,先将 System Prompt 输入给 LLM,让 LLM 知道自己的定位(扮演什么角色)和需要解决的问题。
常见用法:比如在聊天机器人中设置 System Prompt 为"你是一个专业的翻译助手,只翻译不解释",这样无论用户输入什么,LLM 都会以翻译的角色来回应。
5. Tool(工具)
什么是 Tool?
Tool(工具)是 LLM 主动调用、用来连接外部世界的桥梁。本质上它是一个函数:
- 接收 LLM 生成的参数作为输入
- 执行预定的逻辑(如调用 API、查询数据库、读写文件)
- 返回执行结果给 LLM
可以类比为软件开发中的 API 接口——你传递参数,它返回结果。
例子:LLM 本身不知道今天天气如何,但当它"看到"用户问天气时,可以自动调用一个天气查询工具(tool),拿到天气数据后再回答用户。
Tool 是怎么工作的?
这个过程叫做 Tool Calling(工具调用),通常分三步:
- LLM 分析用户问题,判断是否需要调用工具
- LLM 生成符合工具 schema 的参数,发起调用
- 工具执行后返回结果,LLM 整合结果再回复用户
6. MCP 协议(Model Context Protocol)
什么是 MCP?
MCP(Model Context Protocol,模型上下文协议)是一个开放标准协议,目的是统一 tool 的接入方式。
在 MCP 出现之前,每家 AI 平台(OpenAI、Anthropic、Google 等)都有自己的 tool 调用规范,开发者为某个平台写的 tool 无法直接迁移到另一个平台。
MCP 就像 USB 接口——有了统一标准后,不同厂商的设备(tool)都能即插即用。
核心价值:一次编写,多平台复用。大幅降低了 tool 的开发成本。
7. Agent(智能体)
什么是 Agent?
Agent(智能体)是 LLM + Tool + 自主规划能力 的完整实现,是 LLM 从"回答问题"进化到"自动完成任务"的关键。
简单类比:
- LLM = 大脑(能推理、能理解)
- Tool = 四肢(能行动、能获取外部信息)
- Agent = 大脑 + 四肢 + 规划能力,能自主判断下一步做什么
Agent 与 LLM + Tool 的区别
仅靠 LLM + Tool,还只是"你调用它执行";Agent 的核心区别在于它多了:
- 规划(Planning):将复杂任务拆解成多个步骤
- 记忆(Memory):保留对话历史和中间结果
- 自我反思(Reflection):根据执行结果调整下一步行动
- 多轮 Tool 调用:可以连续调用多个工具直到达成目标
经典例子:你让 Agent "帮我规划去北京的行程",它会:查天气 → 搜景点 → 订酒店 → 生成行程表,全程自主完成,而不是只告诉你"好的"。
8. Agent Skill(技能)
什么是 Agent Skill?
Agent Skill(技能)是 Agent 在特定场景下的预设行为模板,本质上是一个结构化的 System Prompt + 工具集组合。
它包含两部分:
- 行为定义:告诉 Agent 在什么场景下做什么、怎么做(用 Prompt 描述)
- 配套工具:预置该场景下需要用到的 tool(如查日历、发邮件等)
类比:Agent Skill 就像是给 Agent 装备的"专业技能包"——不是让它从头学,而是直接装上就能用。
实际应用:Cursor 的 Agent Skill 就是让你自定义 AI 在特定任务(如代码审查、架构设计)中的行为规范和可用工具。