大模型入门必看:从Token到Agent,一文吃透AI底层核心概念(干货版)

0 阅读7分钟

前言

最近AI圈新词爆炸:LLM、Token、Context、Prompt、Tool、Agent Skill、MCP、RAG……很多人天天用却讲不明白原理。这篇文章用人话+案例+对比,把大模型最核心的底层逻辑讲透,看完就能理解AI怎么“思考”、怎么计费、怎么干活。


一、什么是LLM(大语言模型)

在这里插入图片描述

1.1 核心定义

LLM = Large Language Model,大语言模型。 目前市面上几乎所有主流大模型(GPT系列、Claude、Kimi、文心一言、通义千问、小米MiMo等),全部基于Transformer架构训练而成,这是大模型的底层引擎。

1.2 大模型最本质的工作原理:文字接龙

很多人以为大模型“懂语义、会思考”,底层其实就是概率预测+文字接龙

  1. 接收输入文本;
  2. 预测下一个概率最高的词/字;
  3. 把刚输出的内容追加回输入,继续预测下一个;
  4. 直到输出结束标识符,停止生成。

举个极简例子: 你问:今天天气怎么样? 模型第一步预测:非常 拼接后输入:今天天气怎么样?非常 第二步预测: 拼接后输入:今天天气怎么样?非常得 第三步预测: 模型判断语句完整,输出结束符。 最终回答:非常得好

这就是为什么大模型总是逐字/逐词流式输出,而不是一次性吐出完整答案。

1.3 Transformer架构极简理解(不搞公式)

Transformer的核心是自注意力机制,让模型能同时看到整段文本里所有词的关联,而不是逐词顺序处理,解决了长文本依赖与并行计算问题,是当前LLM的基石架构。


二、Tokenizer与Token:大模型只认数字,不认文字

在这里插入图片描述

2.1 为什么需要Tokenizer?

大模型本质是数学函数+矩阵运算只处理数字,不识别文字、标点、符号。 Tokenizer就是翻译官

  • 把人类文字 → 编码成模型能运算的数字序列
  • 把模型输出的数字 → 翻译回人类可读文本

没有Tokenizer,大模型就是“文盲”。

2.2 什么是Token?

Token是大模型处理文本的最小计价/计算单元,不是严格的“词”,可以是:

  • 完整单词:ChatGPT、Python
  • 子词:program → program + mer
  • 单个字符:a、中、!
  • 特殊标记:<|endoftext|>[CLS]

通用换算(开发必记)

  • 1 Token ≈ 0.75 个英文单词
  • 1 Token ≈ 1.5 个汉字
  • 100万 Token ≈ 150万汉字(可容纳一本长篇小说)

2.3 Tokenizer工作流程

编码(输入 → 模型)

  1. 文本预处理:统一格式、去多余空格、加特殊标记
  2. 分词:切成Token序列
  3. 映射ID:查词汇表,每个Token对应唯一数字ID

解码(模型 → 输出)

  1. 模型输出Token ID序列
  2. 反向查表映射回文本
  3. 拼接成自然语言返回

2.4 对开发者的意义

API按Token计费,优化输入长度、精简Prompt、合理用上下文,能直接降低成本。


三、上下文Context:大模型的“临时记忆”

在这里插入图片描述

3.1 大模型并没有真正的记忆

LLM本质是输入→输出的函数,没有持久记忆。 你感觉它“记得对话”,是因为每次发送新问题,都会把历史对话一起塞给模型

3.2 什么是Context(上下文)

Context = 模型一次推理能接收的所有信息总和,包括:

  • 用户当前问题
  • 历史对话(用户+助手)
  • System Prompt(系统指令)
  • 工具列表(Tool Definitions)
  • 正在生成的Token

可以把Context理解为大模型的临时工作内存

3.3 Context Window(上下文窗口)

窗口大小决定一次能塞多少内容,是模型硬限制。 主流模型2026年参考(开发选型用):

模型上下文窗口等效汉字
GPT-5.2400K约60万
Claude Opus 4.61M(Beta)约150万
Gemini 3 Pro2M约300万
DeepSeek V41M+约150万+
小米MiMo-V2-Pro1M约150万

窗口越大,越能处理长文档、代码库、剧本、研报,但Token消耗越高

3.4 超长文本怎么办?RAG登场

直接把几十万字手册塞进Context,成本爆炸、容易超限。 解决方案:RAG(检索增强生成)

  • 先把文档切片、入库、建索引
  • 用户提问时,只检索最相关的片段传给模型
  • 突破窗口限制,大幅省Token,提升准确性

四、Prompt:你给AI的“指令说明书”

在这里插入图片描述

4.1 极简定义

Prompt = 你对模型的明确指令/问题/约束,决定输出质量。 例:

  • 帮我写一段Python快速排序
  • 你是一名后端架构师,用简洁语言解释微服务

4.2 好Prompt的核心原则

  • 清晰角色:你是谁
  • 明确任务:做什么
  • 限定格式:输出结构
  • 补充约束:风格、长度、禁忌

五、Tool:AI的“外部工具手”

在这里插入图片描述

5.1 为什么需要Tool?

LLM本身没有联网能力、不会实时计算、不能操作数据库。 Tool就是给AI外挂能力:

  • 联网搜索
  • 计算器
  • 数据库查询
  • 代码执行
  • 发送邮件/API调用

5.2 工作流程

  1. Prompt告诉模型可用工具列表
  2. 模型判断是否需要调用
  3. 模型返回工具调用参数
  4. 系统执行并返回结果
  5. 模型整理结果输出

这里给大家分享一个实用工具——向量引擎,国内直连不用魔法,通用额度可跨模型使用,新手注册还能领取免费测试额度,刚好可以用来实操本文讲到的所有AI概念,快速上手大模型调用,具体使用方法可参考详细教程。 官方地址:api.vectorengine.ai/register?af… 使用教程www.yuque.com/nailao-zvxv…

六、Agent Skill:AI的“专业技能包”

在这里插入图片描述

6.1 什么是Agent?

Agent = 能自主规划、多步推理、调用工具、完成复杂任务的智能体。 不再是“问一答一”,而是“给目标→自动干完”。

6.2 什么是Skill?

Skill = 封装好的专业能力模块,相当于Agent的“插件/APP”。 例:

  • 代码调试Skill
  • 文档总结Skill
  • 数据分析Skill
  • 客服对话Skill

一个Skill = 专用Prompt + 工具链 + 执行流程。


七、MCP:AI与工具的“通用插座协议”

在这里插入图片描述

7.1 全称

MCP = Model Context Protocol,模型上下文协议。

7.2 解决什么问题?

过去每个Agent、每个工具都要单独对接,成本高、混乱。 MCP是标准化通信规范

  • 统一AI与工具/数据源的交互方式
  • 一次接入,全平台通用
  • 让Skill、Tool、Agent无缝互通

可以理解为:AI生态的USB接口标准


八、核心概念一张表总结(建议收藏)

名词通俗理解核心作用
LLM大语言模型,文字接龙机器生成文本、推理、对话
Token最小计价/处理单元计费、计算、编码
Tokenizer文字↔数字翻译官让模型能读懂人类语言
Context临时记忆窗口保存对话、指令、工具信息
Prompt指令说明书控制输出行为
Tool外部能力插件联网、计算、查库、执行
Agent自主智能体多步规划、自动完成任务
Skill专业技能包领域专用能力模块
MCP通用交互协议统一AI与工具对接标准
RAG检索增强超长文档低成本处理

九、实战意义:为什么这些概念开发者必须懂?

  1. 成本控制:懂Token/Context,才能写出省预算的Prompt与调用逻辑
  2. 架构选型:懂Agent/Tool/MCP,才能设计可扩展的AI应用
  3. 排错高效:知道输出卡顿、幻觉、超限的根源
  4. 合规安全:控制上下文长度、工具权限,避免数据泄露

结语

从LLM到Agent,本质是从文字生成→自主执行的进化。 Token是基础单元,Context是记忆,Prompt是指令,Tool是手脚,MCP是标准,Agent是终极形态。