别被AI黑话忽悠了!从LLM到Agent Skill,一文彻底打通AI底层逻辑

0 阅读8分钟

别被AI黑话忽悠了!从LLM到Agent Skill,一篇文章扒光所有底裤

你以为你在和AI聊天,其实它在玩文字接龙

你有没有这种感觉:AI圈的新名词一个接一个往外蹦,今天LLM明天Agent后天MCP,看得人眼花缭乱。每次想深入学习一下,点开文章全是"Transformer架构""上下文窗口"这些天书般的术语。

别慌,今天咱们把AI的底裤扒个精光。从最底层的运转机制到最上层的智能体,一篇文章让你彻底看懂这些所谓"黑科技"背后的真相——简单到你听完会怀疑自己之前为什么被唬住。


一、最底层:LLM大语言模型——本质就是个接龙游戏

LLM(Large Language Model),大语言模型,听名字唬人,但骨子里就干一件事:文字接龙

市面上几乎所有大模型都基于Transformer架构。这套架构2017年由Google团队在论文《Attention Is All You Need》中提出,但真正把它做成爆款的是OpenAI。

  • 2022年底:GPT-3.5横空出世,这是第一个真正能用的大家伙
  • 2023年3月:GPT-4发布,直接把AI天花板捅穿
  • 如今:GPT家族依然是标杆,但Claude、Gemini这些后浪已经杀到跟前

那么问题来了:大模型到底怎么工作的?

答案会让你大跌眼镜——它只是个概率预测机器

举个例子,你问"马克的视频怎么样?",模型脑子里在想什么?

  1. 预测下一个最可能出现的词:"特别"(概率最高)
  2. 把"特别"接到后面,再猜下一个:"得"
  3. 继续接,继续猜:"棒"

最终输出:"特别的棒"

这就是为什么AI总是一个字一个字往外蹦——因为它的底层逻辑就是一场永不停歇的词语接龙。

你说它聪明吗?聪明。但你说它神秘吗?一点不神秘,就是数学概率游戏。


二、Token与Tokenizer——翻译官才是真正的幕后黑手

大模型本质是个数学函数,它只认数字不认字。

那它是怎么读懂中文的?靠的是Tokenizer,人类和模型之间的"翻译官"。

工作流程就两步:

  1. 切分:把文本剁成最小的碎片(token)
  2. 映射:给每个碎片分配一个数字ID

一个残酷的真相:Token ≠ 词语。

  • 中文:"程序员"会被拆成"程序"+"员"两个token
  • 英文:"helpful"会被拆成"help"+"ful"
  • 极端情况:一个特殊符号可能要占用3个token

经验值记住就行:

  • 1个token ≈ 0.75个英文单词
  • 1个token ≈ 1.5~2个汉字
  • 40万token ≈ 60~80万汉字(一本厚书)

所以下次看到"支持100万token上下文",你就知道这意味着能塞进去一整套《哈利波特》。


三、Context与Context Window——AI的鱼记忆

Context(上下文)就是大模型每次干活时能看到的全部信息,包括:

  • 你刚问的问题
  • 之前的聊天记录
  • 正在往外蹦的token
  • 可用工具列表
  • System prompt(后面细说)

而Context Window就是这套记忆容量的上限。

  • GPT-4.5:105万token
  • Claude 3.1 Pro:100万token
  • Cloudopus 4.6:100万token

100万token约等于150万汉字,确实能装下《哈利波特》全集。

但现实问题来了:如果产品手册有上千页怎么办?

全塞进去?先不说可能超限,光费用就够你哭的。

这时候登场的是RAG技术(Retrieval-Augmented Generation)。原理很简单:

  1. 从文档里揪出和问题最相关的片段
  2. 只把这几段发给模型
  3. 既省钱又不超限

说白了就是"临时抱佛脚",只翻重点不背全书。


四、Prompt工程——会说话的人永远占便宜

Prompt就是你对AI说的那句具体指令。

分为两类:

  • User Prompt:你输入的"帮我写首诗"
  • System Prompt:开发者预设的人设(你看不见)

来看个对比:

模糊版:"帮我写一首诗"
→ 可能冒出打油诗、现代诗、古体诗,全看模型心情

精准版:"请帮我写一首五言绝句,主题是秋天的落叶,风格要明亮一点"
→ 输出精准命中靶心

而System Prompt的力量更狠:

设置:"你是一个耐心的数学老师,不要直接给答案,要引导学生思考"

当学生问"3+5=几?",模型会回答:
"可以这样想:你手里有3个苹果,又拿了5个,现在一共有多少个?可以数一数。"

而不是直接甩个"8"。

行业真相:Prompt Engineering这个词曾经火得一塌糊涂,现在提的人越来越少了。为什么?

  1. 门槛太低:本质就是"把话说清楚",没啥技术含量
  2. 模型变强了:就算你说得含糊,它也能猜出你想干啥

会提问依然重要,但不需要把它捧成"玄学"。


五、Tool与MCP——AI长出眼睛和手

大模型有个致命缺陷:它对外界一无所知

你问"今天上海天气如何?",它只能老实回答:"抱歉,我无法获取实时天气信息。"

怎么破?答案是Tool(工具)

Tool的本质就是一个函数:输入参数 → 干点实事 → 返回结果。

以天气查询工具为例:

  • 输入:城市+日期
  • 操作:调用气象接口
  • 输出:天气数据

整套流程是这样的:

  1. 你的问题发给平台(传话筒)
  2. 平台把问题+可用工具清单扔给大模型
  3. 大模型分析后决定"用哪个工具、传什么参数"
  4. 平台去调用工具
  5. 工具返回结果
  6. 平台把结果再喂给大模型
  7. 大模型整理成人话回答你

角色分工清晰得离谱:

  • 大模型:选工具+汇总结果(动脑)
  • 工具:执行具体操作(动手)
  • 平台:串联整个流程(跑腿)

但最大的痛点来了

ChatGPT要求按OpenAI规范接入工具
Claude要求按Anthropic规范接入
Gemini要求按Google规范接入

同一个工具要写三遍代码?这不是把人当驴使吗?

终极解法:MCP(Model Context Protocol)

全称:模型上下文协议
本质:统一的工具接入标准

价值一句话讲完:工具开发者只需按MCP规范写一次代码,就能在所有支持MCP的平台直接用。

就像手机统一用Type-C接口,再也不用带三根线出门。


六、Agent与Agent Skill——AI终于学会自己干活了

Agent是什么?能自主规划、自己调用工具、不完成任务不罢休的系统。

举个例子,你说:"今天我这里天气怎么样?附近有卖伞的吗?"

Agent的脑子立刻开始转:

  1. 调定位工具拿经纬度
  2. 调天气工具查实况
  3. 如果下雨,调店铺工具搜雨伞店
  4. 把结果打包,用自然语言回复你

整个过程不需要你再催一句。

但老司机们发现一个新问题:每次出门都要重复输入个人偏好。

比如你的出门规则:

  • 下雨带伞
  • 光照强戴帽子
  • 空气质量差戴口罩
  • 回答格式必须是"先总结,再列出物品和原因"

难道每次都手打一遍?

解决方案:Agent Skill

本质:提前写好的一份"给Agent看的说明书"(Markdown格式)

结构很简单:

  • 元数据层:名称(name) + 描述(description)
  • 指令层:目标、执行步骤、判断规则、输出格式、示例

实操步骤:

  1. .cloudskills目录下新建文件夹(文件夹名=skill名)
  2. 文件夹内创建SKILL.md文件(注意:必须大写
  3. 写入完整指令内容
  4. Agent匹配到相应场景时自动加载执行

效果如何?你说"我要出门了,告诉我要带什么",Agent会自动:

  • 定位
  • 查天气
  • 按预设规则判断物品
  • 按你要求的格式输出

一劳永逸。


七、完整知识体系——一张图让你彻底通透

所有概念串起来是这样的:

概念本质角色
LLM核心引擎
Token数据处理的最小单元
Context临时记忆体(容量单位是token)
Context Window记忆体容量上限
Prompt具体指令(分User/System两类)
Tool感知外部世界的触手
MCP统一工具接入标准
Agent自主规划+工具调用的系统
Agent SkillAgent的说明书

结语:看懂底层,所有AI新闻都是换汤不换药

当你真正吃透这些底层逻辑,再看AI圈的新品发布,心态会完全不一样。

Cloud Code也好,Codex也罢,Gemini CLI也罢,本质上都在这个框架里跳舞。技术名词换得再勤,核心原理就这几样。

最后留个思考题

在看这篇文章之前,你对哪个AI概念有过误解?现在是不是对"大模型为什么会这样工作"有了更立体的认知?

欢迎在评论区分享你的认知升级时刻。搞懂底层逻辑的人,才配得上未来的AI红利。


如果觉得有用,点个"在看",让更多朋友别再被AI黑话唬住。

接下来我将我精心整理的AI各个赛道的案例和手把手实操的视频放到我的云盘,如果需要可以扫描下方官方认证二维码免费领取【保证100%免费】

引流01.png