AI 通关攻略 · 第 0 关 | 入门：从零认识 AI 核心概念AI 通关攻略 · 第 0 关

AI 通关攻略 · 第 0 关 | 入门：从零认识 AI 核心概念

系列：AI 通关攻略 —— 从一颗 Token 开始，层层通关，彻底搞懂大语言模型

核心概念：LLM，Token，Context Window，Prompt，Tool，MCP，Agent，Agent Skill

1. LLM（Large Language Model，大语言模型）

LLM 是目前最主流的 AI 模型架构，基于 Transformer 实现。它的本质是：

接收一段文本（token 序列）作为输入
输出另一段文本（token 序列）

LLM 本身是"静止"的——它无法主动感知外部环境的变化，也无法自行连接互联网、调用 API 或读取本地文件。这意味着训练完成后，模型的知识就固定了（俗称"知识截止日期"）。

但这并不意味着 LLM 无法与外部世界交互，而是需要一个"中介"——也就是后面会讲到的 Agent、tool 等机制，来帮它连接到真实世界。

2. Token 与 Tokenizer

2.1 什么是 Token？

Token 是 LLM 处理文本的最小单位。你可以理解为"词块"：

英文：一个单词可能是一个 token（如 "hello"），也可能被拆成多个（如 "hamburger" → "ham" + "burger"）
中文：通常按字符或词组拆分（如 "大语言模型" 可能被拆成 ["大", "语言", "模型"] 或 ["语言模型"]）

为什么会这样？原因是 LLM 实际上不处理文字，它只认识数字。所有输入输出都要经过转换。

2.2 什么是 Tokenizer？

Tokenizer（分词器）是文本和数字之间的"翻译官"，它负责两件事：

编码（Encode）：将用户输入的文字，按照词汇表拆分成 token，再将每个 token 映射为一个数字 ID（token ID），传给 LLM 处理。
解码（Decode）：LLM 输出的 token ID 序列，经过 tokenizer 反向映射回文字，最终拼接成我们能读懂的句子返回给用户。

类比理解：就像发送微信消息时，文字被转成网络信号传输，到达对方手机后再转回文字显示。在 LLM 的世界里，tokenizer 就是那两道"转码关卡"。

2.3 为什么 LLM 要用 Token 而不是直接处理文字？

核心原因有两个：

效率：用数字 ID 比用字符串处理快得多，也节省存储空间。
泛化能力：通过将词拆成子词（subword），模型能理解从未见过的词汇（比如 "tokenize" 没在训练集中，但 tokenizer 认识 "token" + "ize"，模型也能处理）。

重要理解：LLM 从头到尾打交道的是 token ID，它完全不理解文字本身。文字只是人类才看得懂的"外壳"。

经验参考：1 token ≈ 0.75 ~ 1 个英文单词 ≈ 1.5 ~ 2 个汉字。所以，如果想减少 token 消耗，可以尝试用英文提示词。

3. Context Window（上下文窗口）

什么是 Context Window？

Context Window 即上下文窗口，是 LLM 单次推理所能处理的 最大 token 总数（包含输入 + 输出的总和）。

简单理解：

LLM 在一次对话中，能"看到"的 token 数量是有限的
超出 context window 的内容，模型会直接"看不见"，而不是"忘记"
context window 越大，意味着模型一次能处理的信息量越大

注意：context window 不是模型的"记忆"能力，而是"单次处理的容量"。超出容量的内容不是被遗忘了，而是从一开始就没被模型看到。

4. Prompt（提示词）

4.1 User Prompt（用户提示词）

User Prompt 即用户提示词，是用户想要表达、想要提问所输入的内容，旨在期待 LLM 给出回应。

4.2 System Prompt（系统提示词）

System Prompt 即系统提示词，旨在让 LLM 生成的内容更加精准、更加符合人类的特定需要。

本质上，是在 User Prompt 输入之前，先将 System Prompt 输入给 LLM，让 LLM 知道自己的定位（扮演什么角色）和需要解决的问题。

常见用法：比如在聊天机器人中设置 System Prompt 为"你是一个专业的翻译助手，只翻译不解释"，这样无论用户输入什么，LLM 都会以翻译的角色来回应。

5. Tool（工具）

什么是 Tool？

Tool（工具）是 LLM 主动调用、用来连接外部世界的桥梁。本质上它是一个函数：

接收 LLM 生成的参数作为输入
执行预定的逻辑（如调用 API、查询数据库、读写文件）
返回执行结果给 LLM

可以类比为软件开发中的 API 接口——你传递参数，它返回结果。

例子：LLM 本身不知道今天天气如何，但当它"看到"用户问天气时，可以自动调用一个天气查询工具（tool），拿到天气数据后再回答用户。

Tool 是怎么工作的？

这个过程叫做 Tool Calling（工具调用），通常分三步：

LLM 分析用户问题，判断是否需要调用工具
LLM 生成符合工具 schema 的参数，发起调用
工具执行后返回结果，LLM 整合结果再回复用户

6. MCP 协议（Model Context Protocol）

什么是 MCP？

MCP（Model Context Protocol，模型上下文协议）是一个开放标准协议，目的是统一 tool 的接入方式。

在 MCP 出现之前，每家 AI 平台（OpenAI、Anthropic、Google 等）都有自己的 tool 调用规范，开发者为某个平台写的 tool 无法直接迁移到另一个平台。

MCP 就像 USB 接口——有了统一标准后，不同厂商的设备（tool）都能即插即用。

核心价值：一次编写，多平台复用。大幅降低了 tool 的开发成本。

7. Agent（智能体）

什么是 Agent？

Agent（智能体）是 LLM + Tool + 自主规划能力 的完整实现，是 LLM 从"回答问题"进化到"自动完成任务"的关键。

简单类比：

LLM = 大脑（能推理、能理解）
Tool = 四肢（能行动、能获取外部信息）
Agent = 大脑 + 四肢 + 规划能力，能自主判断下一步做什么

Agent 与 LLM + Tool 的区别

仅靠 LLM + Tool，还只是"你调用它执行"；Agent 的核心区别在于它多了：

规划（Planning）：将复杂任务拆解成多个步骤
记忆（Memory）：保留对话历史和中间结果
自我反思（Reflection）：根据执行结果调整下一步行动
多轮 Tool 调用：可以连续调用多个工具直到达成目标

经典例子：你让 Agent "帮我规划去北京的行程"，它会：查天气 → 搜景点 → 订酒店 → 生成行程表，全程自主完成，而不是只告诉你"好的"。

8. Agent Skill（技能）

什么是 Agent Skill？

Agent Skill（技能）是 Agent 在特定场景下的预设行为模板，本质上是一个结构化的 System Prompt + 工具集组合。

它包含两部分：

行为定义：告诉 Agent 在什么场景下做什么、怎么做（用 Prompt 描述）
配套工具：预置该场景下需要用到的 tool（如查日历、发邮件等）

类比：Agent Skill 就像是给 Agent 装备的"专业技能包"——不是让它从头学，而是直接装上就能用。

实际应用：Cursor 的 Agent Skill 就是让你自定义 AI 在特定任务（如代码审查、架构设计）中的行为规范和可用工具。