从Transformer到Prompt、Agent、MCP:一文理清AI术语背后的技术逻辑

7 阅读7分钟

不懂Transformer,你只是在使用AI;懂了它,你才真正理解AI。

当前人工智能领域新名词层出不穷:提示词、上下文窗口、技能、智能体(Agent)、模型上下文协议(MCP)……如果不了解背后的技术根基,很容易陷入“知其然不知其所以然”的困境。

所有这些概念都源于一个共同的基石——Transformer架构。本文将从Transformer的核心原理出发,一步步推演出现实应用中这些名词的由来与意义。

一、基石:Transformer如何“思考”?

2017年,Google发布论文《Attention Is All You Need》,提出了Transformer模型。它彻底改变了自然语言处理的方式,也是所有现代大语言模型(如GPT、Claude、Gemini)的基础。

1.1 核心机制:注意力(Attention)

想象你在读一句话:“因为今天下雨,所以我带上了____。”

人类能很自然地补出“伞”。Transformer做同样的事,但方法不同:它有一个注意力机制,就像一盏探照灯,当模型要预测最后一个词时,它会同时照亮句子中所有词,并计算每个词对预测目标的重要性权重。

  • “下雨”的权重最高(逻辑相关)
  • “我”次之(动作执行者)
  • “了”几乎无关

这种全局、动态的关注,让模型能够抓住长距离依赖关系,而不是像之前的模型那样只能看近邻的几个词。

1.2 内部工作流程

Transformer内部有两步关键操作:

  1. 词嵌入(Embedding):把每个词转换成高维空间中的向量。这个向量就是词的“语义坐标”,例如“国王”和“王后”的向量距离较近。
  2. 通过注意力更新向量:向量之间会互相“对话”,交换信息。比如“它”的向量在与“苹果”交互后,会融入苹果的特征,从而让模型知道“它”指代什么。

经过多层这样的交互,模型对最后一个词的预测就变得非常精准。

小结:Transformer的本质,是通过注意力机制,让词语在高维向量空间中不断融合上下文信息,最终根据已有的所有词语(上文)来预测下一个最可能的词语

二、从原理到应用:名词的诞生

基于“根据上文预测下文”的核心机制,我们再看那些名词,就豁然开朗了。

2.1 提示词(Prompt)

原理溯源:对于Transformer来说,“上文”是唯一能接收的输入。模型内部没有“意识”,只有一个巨大的概率表。它根据你给的“上文”,计算接下来所有词的概率分布。

名词解释提示词就是提供给模型的初始“上文”。它决定了模型后续计算的起点和概率分布的方向。

为什么重要?

  • 提示“很久很久以前,有一座城堡……” → 模型输出“公主”、“骑士”等。
  • 提示“函数 f(x)=x² 的导数是……” → 模型输出“2x”。

提示词工程,本质上就是设计一个最有效的“上文”,让目标答案在概率计算中脱颖而出

2.2 上下文(Context)

原理溯源:Transformer有一个关键限制:上下文窗口。这就像一个临时的“工作记忆区”,模型一次性能关注的“上文”总量有限。窗口内的信息可以通过注意力交互,窗口外的信息模型会“忘记”。

名词解释上下文就是当前对话中,模型工作记忆区内所有可用的信息,包括历史提问、模型之前的回答以及当前提示词。

为什么重要? 长文本处理能力(大上下文窗口)意味着模型可以“记住”整本书,然后在回答问题时,让注意力机制扫描书中的相关细节,而不是只靠“记忆”去猜。

2.3 技能(Skill)

原理溯源:模型在训练阶段见过海量数据,相当于内化了无数种“模式”或“技能”:写诗是一种文本模式,写代码是一种符号逻辑模式,翻译是一种跨语言映射模式,角色扮演是一种特定风格的对话模式。

名词解释技能就是模型通过训练固化在数十亿参数中的某种特定任务处理能力。你不需要教它怎么写诗,因为它已经在训练数据里见过几百万首诗的规律。

为什么重要? 提示词的作用之一,就是激活模型的特定“技能”。比如用“/translate”指令,或用“请用一首诗的风格来形容……”开头,引导模型从“通用模式”切换到“写诗模式”。

2.4 智能体(Agent)

原理溯源:Transformer本身只是一个“大脑”,只能处理和生成文字,无法与现实世界交互。智能体的出现,就是给这个“大脑”装上“眼”、“耳”、“手”。

名词解释智能体是一个系统,它将大语言模型(作为核心决策引擎)与外部工具(如搜索引擎、计算器、API、代码解释器)结合起来。模型不再是单纯“生成文字”,而是可以循环“思考 → 决定调用工具 → 获取结果 → 继续思考”。

为什么重要? 智能体解决了Transformer的固有缺陷:

  • 无法获取实时信息:模型知识有截止日期。智能体可调用搜索引擎,获取今天的天气。
  • 数学和逻辑不精确:模型本质是概率计算,不适合精确计算。智能体可调用计算器或Python代码来保证准确。
  • 无法执行操作:模型不能帮你发邮件。智能体可调用邮件API来执行操作。

2.5 模型上下文协议(MCP,Model Context Protocol)

原理溯源:当一个智能体系统需要调用各种外部工具时,会面临兼容性问题。每个工具都有自己的API和调用方式。如果每接入一个新工具就重写一套调用代码,非常繁琐且难以扩展。

名词解释模型上下文协议,可以理解为智能体系统的 “通用插头”。它定义了一套标准化的接口,让大语言模型可以通过这个统一的协议,去连接任何遵守该协议的工具服务器。工具开发者只需将自己的工具封装成一个MCP服务器,任何支持MCP的AI应用都可以无缝调用它。

为什么重要? MCP让AI应用和工具之间的连接变得标准化和可扩展,就像USB-C接口统一了充电和数据传输。它让未来的AI智能体能够更灵活地“接入”数字世界,调用各种功能,而无需为每个功能做专门适配。

三、总结:一条清晰的演化路径

  1. 起点:Transformer的注意力机制让模型能够理解上下文。
  2. 交互:用户通过提示词设定初始上下文,引导模型的输出。
  3. 扩展:为了突破模型自身能力的局限(无法实时查询、无法精确计算),我们构建了智能体系统。
  4. 标准化:为了让智能体能更高效、更灵活地调用海量外部工具,我们设计了MCP作为通用接口协议。
  5. 内化:模型在训练中学习到的各种能力(写诗、编程、翻译等),就是它的技能

这些看似孤立的名词,其实是围绕Transformer这个核心引擎,为解决不同层次的问题而演化出来的概念。理解了这个底层逻辑,你就能真正看懂AI技术发展的脉络,而不仅仅是背诵一堆术语。


如果你觉得这篇文章对你有帮助,欢迎点赞、收藏、转发,让更多人摆脱对AI术语的困惑。评论区留下你想深入了解的话题,我们下期再见!