AI 通关攻略 · 第 0 关 | 入门:从零认识 AI 核心概念

5 阅读6分钟

AI 通关攻略 · 第 0 关 | 入门:从零认识 AI 核心概念

系列:AI 通关攻略 —— 从一颗 Token 开始,层层通关,彻底搞懂大语言模型

核心概念:LLM,Token,Context Window,Prompt,Tool,MCP,Agent,Agent Skill


1. LLM(Large Language Model,大语言模型)

LLM 是目前最主流的 AI 模型架构,基于 Transformer 实现。它的本质是:

  • 接收一段文本(token 序列)作为输入
  • 输出另一段文本(token 序列)

LLM 本身是"静止"的——它无法主动感知外部环境的变化,也无法自行连接互联网、调用 API 或读取本地文件。这意味着训练完成后,模型的知识就固定了(俗称"知识截止日期")。

但这并不意味着 LLM 无法与外部世界交互,而是需要一个"中介"——也就是后面会讲到的 Agent、tool 等机制,来帮它连接到真实世界。


2. Token 与 Tokenizer

2.1 什么是 Token?

Token 是 LLM 处理文本的最小单位。你可以理解为"词块":

  • 英文:一个单词可能是一个 token(如 "hello"),也可能被拆成多个(如 "hamburger""ham" + "burger"
  • 中文:通常按字符或词组拆分(如 "大语言模型" 可能被拆成 ["大", "语言", "模型"]["语言模型"]

为什么会这样?原因是 LLM 实际上不处理文字,它只认识数字。所有输入输出都要经过转换。

2.2 什么是 Tokenizer?

Tokenizer(分词器)是文本和数字之间的"翻译官",它负责两件事:

  1. 编码(Encode):将用户输入的文字,按照词汇表拆分成 token,再将每个 token 映射为一个数字 ID(token ID),传给 LLM 处理。
  2. 解码(Decode):LLM 输出的 token ID 序列,经过 tokenizer 反向映射回文字,最终拼接成我们能读懂的句子返回给用户。

类比理解:就像发送微信消息时,文字被转成网络信号传输,到达对方手机后再转回文字显示。在 LLM 的世界里,tokenizer 就是那两道"转码关卡"。

2.3 为什么 LLM 要用 Token 而不是直接处理文字?

核心原因有两个:

  • 效率:用数字 ID 比用字符串处理快得多,也节省存储空间。
  • 泛化能力:通过将词拆成子词(subword),模型能理解从未见过的词汇(比如 "tokenize" 没在训练集中,但 tokenizer 认识 "token" + "ize",模型也能处理)。

重要理解:LLM 从头到尾打交道的是 token ID,它完全不理解文字本身。文字只是人类才看得懂的"外壳"。

经验参考:1 token ≈ 0.75 ~ 1 个英文单词 ≈ 1.5 ~ 2 个汉字。所以,如果想减少 token 消耗,可以尝试用英文提示词。


3. Context Window(上下文窗口)

什么是 Context Window?

Context Window 即上下文窗口,是 LLM 单次推理所能处理的 最大 token 总数(包含输入 + 输出的总和)。

简单理解:

  • LLM 在一次对话中,能"看到"的 token 数量是有限的
  • 超出 context window 的内容,模型会直接"看不见",而不是"忘记"
  • context window 越大,意味着模型一次能处理的信息量越大

注意:context window 不是模型的"记忆"能力,而是"单次处理的容量"。超出容量的内容不是被遗忘了,而是从一开始就没被模型看到。


4. Prompt(提示词)

4.1 User Prompt(用户提示词)

User Prompt 即用户提示词,是用户想要表达、想要提问所输入的内容,旨在期待 LLM 给出回应。

4.2 System Prompt(系统提示词)

System Prompt 即系统提示词,旨在让 LLM 生成的内容更加精准、更加符合人类的特定需要。

本质上,是在 User Prompt 输入之前,先将 System Prompt 输入给 LLM,让 LLM 知道自己的定位(扮演什么角色)和需要解决的问题

常见用法:比如在聊天机器人中设置 System Prompt 为"你是一个专业的翻译助手,只翻译不解释",这样无论用户输入什么,LLM 都会以翻译的角色来回应。


5. Tool(工具)

什么是 Tool?

Tool(工具)是 LLM 主动调用、用来连接外部世界的桥梁。本质上它是一个函数

  • 接收 LLM 生成的参数作为输入
  • 执行预定的逻辑(如调用 API、查询数据库、读写文件)
  • 返回执行结果给 LLM

可以类比为软件开发中的 API 接口——你传递参数,它返回结果。

例子:LLM 本身不知道今天天气如何,但当它"看到"用户问天气时,可以自动调用一个天气查询工具(tool),拿到天气数据后再回答用户。

Tool 是怎么工作的?

这个过程叫做 Tool Calling(工具调用),通常分三步:

  1. LLM 分析用户问题,判断是否需要调用工具
  2. LLM 生成符合工具 schema 的参数,发起调用
  3. 工具执行后返回结果,LLM 整合结果再回复用户

6. MCP 协议(Model Context Protocol)

什么是 MCP?

MCP(Model Context Protocol,模型上下文协议)是一个开放标准协议,目的是统一 tool 的接入方式。

在 MCP 出现之前,每家 AI 平台(OpenAI、Anthropic、Google 等)都有自己的 tool 调用规范,开发者为某个平台写的 tool 无法直接迁移到另一个平台。

MCP 就像 USB 接口——有了统一标准后,不同厂商的设备(tool)都能即插即用。

核心价值:一次编写,多平台复用。大幅降低了 tool 的开发成本。


7. Agent(智能体)

什么是 Agent?

Agent(智能体)是 LLM + Tool + 自主规划能力 的完整实现,是 LLM 从"回答问题"进化到"自动完成任务"的关键。

简单类比:

  • LLM = 大脑(能推理、能理解)
  • Tool = 四肢(能行动、能获取外部信息)
  • Agent = 大脑 + 四肢 + 规划能力,能自主判断下一步做什么

Agent 与 LLM + Tool 的区别

仅靠 LLM + Tool,还只是"你调用它执行";Agent 的核心区别在于它多了:

  • 规划(Planning):将复杂任务拆解成多个步骤
  • 记忆(Memory):保留对话历史和中间结果
  • 自我反思(Reflection):根据执行结果调整下一步行动
  • 多轮 Tool 调用:可以连续调用多个工具直到达成目标

经典例子:你让 Agent "帮我规划去北京的行程",它会:查天气 → 搜景点 → 订酒店 → 生成行程表,全程自主完成,而不是只告诉你"好的"。


8. Agent Skill(技能)

什么是 Agent Skill?

Agent Skill(技能)是 Agent 在特定场景下的预设行为模板,本质上是一个结构化的 System Prompt + 工具集组合

它包含两部分:

  • 行为定义:告诉 Agent 在什么场景下做什么、怎么做(用 Prompt 描述)
  • 配套工具:预置该场景下需要用到的 tool(如查日历、发邮件等)

类比:Agent Skill 就像是给 Agent 装备的"专业技能包"——不是让它从头学,而是直接装上就能用。

实际应用:Cursor 的 Agent Skill 就是让你自定义 AI 在特定任务(如代码审查、架构设计)中的行为规范和可用工具。