从LLM到Agent的核心概念

0 阅读7分钟

你是不是经常听人聊AI时蹦出这些词:LLM、Token、Context、Prompt、Tool、MCP、Agent?听着好像都认识,但真要问“这到底是啥”,又有点懵。别急,今天咱们就用工程师的大白话,把这些词一个个拆开揉碎,讲清楚它们到底是啥、有啥用、又是怎么串起来的。

LLM:(大模型)

LLM的来历:2017年Transformer架构诞生,OpenAI将其发扬光大;
历程:从GPT-3.5破圈,到GPT-4飞跃,再到百家争鸣;
用途:从聊天起步,正在成为一切数字交互的“万能接口”。

eaaa95466ee35b6f720dfd961d8cbd7e.png

LLM(大语言模型)通俗来讲,就是一个极其擅长“文字接龙”的超级智能程序。

你可以把它想象成一个玩接龙游戏的高手:

  1. 它只做一件事:给你一句话,它根据这句话,猜出下一个最可能出现的字或词。
  2. 它一个字一个字地“吐”出来:它先猜第一个字,然后把这个字加回原来的句子里,再猜下一个字。就这样一个字一个字地往外蹦,直到它觉得一句话说完整了。
  3. 它不懂文字,只懂数字:在它内部,所有的文字都会被转换成它认识的数字(也就是“Token”),运算完再把数字变回文字告诉你。

举个例子
你问它“这篇文章怎么样?”,它不会一次性想好“特别棒”三个字。它的内部流程是:

  • 先猜出第一个字:“特”
  • 然后把“特”加回问题,变成“这个视频怎么样特”,再猜出:“别”
  • 再把“别”加进去,变成“这个视频怎么样特别”,再猜出:“棒”
  • 最后发现话说完了,输出“特别棒”。

你平时用的像GPT、Claude、豆包、文心一言这些产品,底层都是这种“接龙”模型。它们之所以显得“聪明”,是因为它们用海量的数据训练过,猜下一个字的“经验”极其丰富,所以接出来的话看起来像是有逻辑、有思考一样。

简单理解,就是大模型就像一个读过全世界所有书、但只会玩“文字接龙”的超级学霸——它每时每刻只关心“下一个字该接什么”,但因为接了几万亿次,它的“语感”好到让人觉得它真的在思考,当我们给它装上“工具”和“长记忆”后,它就从只会玩接龙游戏的玩家变成了能帮忙干活、做决策的搭档。

Token:(大模型处理数据的最基本单元)

Token 通俗来讲,就是大模型“眼中的文字”——它是模型处理文本时最小的“积木块”。

1. 它不是“字”,也不是“词”,而是“模型自己定义的积木”

我们看文字,是一个字一个字看的。
但大模型看文字,是先把一段话切成一小块一小块,每一块就叫一个 Token

  • 有时候一个 Token 就是一个汉字,比如“我”“你”“好”。
  • 有时候一个 Token 是一个词,比如“苹果”“电脑”。
  • 但更多时候,一个词会被切成多个 Token。
    比如“衣服撑”这个词,在大模型眼里可能是两个 Token:“衣服”和“撑”。
    再比如“Helpful”这个英文单词,可能会被切成“Help”和“ful”两个 Token。

一句话总结:Token 是模型自己学会的一套“切分规则”,每个 Token 就是它一次能“看”或“吐”的最小单位。

在线查看token 工具: console.volcengine.com/ark/region:…

f99285f8b56fbf2bc713eab81e6a01ab.png

2. 为什么要有 Token?——因为模型只认数字

大模型内部全是数学运算,它不认识“你”“我”“他”,只认识数字。
所以需要有一个“翻译官”,把文字变成数字,这个数字就是 Token ID

流程是这样的:

  1. 切分:把你说的话切成一个个 Token。
  2. 映射:每个 Token 对应一个唯一的编号(Token ID)。
  3. 运算:模型只处理这些数字。
  4. 还原:模型吐出一个数字(Token ID),再把它变回文字。

举个例子:
你问“这篇文章到底怎么样?”
它可能被切成 3 个 Token:“这篇文章” “到底” “怎么样”。
每个 Token 都有一个数字编号,模型看到的其实是 [1234, 5678, 9011,] 这样一串数字。


3. Token 和字数有什么关系?

这是一个很实用的知识点:

  • 英文:平均 1 个 Token ≈ 0.75 个单词。比如“hello”是一个 Token,“helpful”是两个 Token。
  • 中文:平均 1 个 Token ≈ 1.5 到 2 个汉字。一个常见汉字通常是一个 Token,但生僻字可能需要 2~3 个 Token。

为什么你要关心这个?
因为所有大模型产品都是按 Token 数量 计费的。
你提问时消耗 Token,模型回答时也消耗 Token。一段 1000 字的中文,大概会消耗 1500~2000 个 Token。


4. Token 决定了“它能记住多少”——上下文窗口

每个大模型都有一个“上下文窗口”(Context Window),它的大小就是用 Token 数量 衡量的。

  • 比如一个模型说“上下文窗口是 100 万 Token”,意思就是它一次最多能处理 100 万个 Token 的内容。
  • 100 万 Token 大约相当于 150 万个汉字,或者《水浒传》整本那么多。

你每次和大模型聊天,它之所以能“记住”前面说的话,就是因为程序会把整个对话历史(用 Token 表示)一直塞给它。如果对话太长,超出了窗口,最早的对话就会被“挤出去”,模型就“忘”了。


5. 用一张图帮你记住 Token

中间那一步“转成数字”之后,模型处理的就不再是“文字”,而是“数字积木”。它所有的“思考”,其实都是在计算“下一个数字积木应该是什么”。

image.png

Token 就是大模型“看”和“写”文字时使用的最小积木块。它既不是字也不是词,而是模型自己学会的一种切分方式。你用大模型花的每一分钱、它能记住的每一句话,都是用 Token 来衡量的。

下次你再看到“这个模型有 100 万 Token 上下文”,你就知道:它能一次吞下整本《水浒传》,然后跟你聊里面的任何细节。

Context: (大模型每次处理任务时接收到的信息总和)

Context window: (大模型的 Context 最多能够存储的 Token 量)

Prompt: (用户或系统当前给大模型下达的具体指令或问题)

Tool: (大模型用来感知和影响外部环境的函数)

MCP: (统一了工具接入格式的标准协议)

Agent: (能自主规划和调用工具、直至解决用户问题的程序)

Agent Skill: (给 Agent 看的说明文档)

英文术语中文名称核心定义
LLM大模型大模型本身(Large Language Model)
Token词元/令牌大模型处理数据的最基本单元
Context上下文大模型每次处理任务时接收到的信息总和
Context Window上下文窗口大模型的 Context 最多能够存储的 Token 量
Prompt提示词用户或系统当前给大模型下达的具体指令或问题
Tool工具大模型用来感知和影响外部环境的函数
MCP模型上下文协议统一了工具接入格式的标准协议
Agent智能体能自主规划和调用工具、直至解决用户问题的程序
Agent Skill智能体技能给 Agent 看的说明文档

简单说明:

  • LLM (大模型) :那个超级聪明的“大脑”。
  • Token:大脑认识的最小“积木块”(文字切分后的单位)。
  • Context (上下文) :大脑此刻“脑子里装着的所有信息”(包括你的提问和之前的聊天记录)。
  • Context Window (上下文窗口) :大脑的“短期记忆容量上限”(最多能装多少 Token)。
  • Prompt (提示词) :你给大脑出的“题目”或“指令”。
  • Tool (工具) :大脑的“手和眼”(比如联网搜索、计算器,帮它看世界和做事情)。
  • MCP:工具的“通用插座标准”(让所有工具都能插在大脑上用)。
  • Agent (智能体) :一个有“大脑”且有“手脚”的完整办事员(它不只聊天,还能帮你把事办成)。
  • Agent Skill (技能) :办事员手里的“操作说明书”(告诉它怎么用工具)。