2026年,人工智能正从“对话时代”全面迈入“智能体时代”,理解这些核心概念已成为技术从业者的必修课。
引言:AI技术栈的变迁
如果说2023年是“提示词工程”的元年,2024-2025年是“上下文工程”的成熟期,那么2026年无疑是“智能体编排”爆发的一年。这一演进路径清晰地反映了AI应用开发的成熟轨迹:从如何与模型对话,到如何为模型构建信息环境,再到如何设计模型运行其中的完整系统。
下面将系统梳理当前AI领域的核心概念,构建一个完整的技术认知框架。
AI 核心概念全景图谱
首先,让我们通过一张结构化的图表来鸟瞰这些概念之间的关系:
| 核心概念 | 角色定位 | 核心功能/定义 |
|---|---|---|
| Transformer | 🏭 底层引擎 | Google 2017年提出的架构,是目前所有大模型的基石。 |
| LLM (大语言模型) | 🧠 大脑 | 基于 Transformer 架构训练的超大规模语言模型(如GPT-4, Claude),能理解与生成人类语言(本质是“文字接龙”)。 |
| Token | 🧩 基本单位 | 模型处理的最小单元(文字切片)。1个Token约等于0.75个英文单词或1.5~2个汉字。 |
| Context | 📚 临时记忆 | 上下文窗口(Context Window),决定了模型一次能“记住”多少内容。 |
| Prompt | 🗣️ 指令 | 用户或系统输入的问题/指令。分为User Prompt(任务)和System Prompt(人设)。 |
| Tool | 🔧 手脚 | 外部工具(函数),让模型能感知和影响外部环境(如查天气、发邮件)。 |
| MCP | 🔄 工具连接器 | 统一的工具接入规范,使工具可在不同平台通用,解决碎片化问题。 |
| Agent | 🤖 自主代理 | 能自主规划、调用工具直至完成任务的系统(大脑+手脚的结合)。 |
| Skill (Agent Skill) | 📄 能力说明书 | 预定义的Agent操作指南,包含元数据(简介)和指令层(执行步骤)。 |
核心概念深度解析
根据文档内容,我们可以将大模型的工作流程拆解为以下几个关键环节:
1. 底层逻辑:LLM 与 Token
LLM(大语言模型)——AI 的 “大脑”,本质是一个复杂的概率预测函数。大语言模型 是当前AI应用的核心引擎。目前主流的大模型基本都基于Transformer架构训练,这一架构由Google在2017年提出。2022年11月OpenAI发布的GPT-3.5标志着第一个真正达到“可用级别”的大模型诞生,而2023年3月的GPT-4则带来了又一次质的飞跃。
大模型的工作原理本质上可以理解为“文字接龙”——模型根据输入文本,通过内部运算预测最可能出现的下一个词元,然后将新生成的词元追加到原文本后继续预测,直到输出结束标识。这种机制虽然简单,却在规模效应的加持下展现出了惊人的智能涌现能力。
你:今天天气怎么样? → AI预测:特别 → 的 → 好 → [结束] → 输出:特别的好
- Tokenization(切分) :模型不认识文字,只认识数字。Tokenizer 负责将文字切分为 Token(如“有趣”可能被切分为“有”和“趣”两个Token),并映射为数字 ID。
- 运作方式:就像玩“文字接龙”游戏。模型根据上文预测下一个概率最高的词,然后把这个词放回文本继续预测下一个,直到遇到结束符号。
- 流程:文本 → 切分 Token → 映射为 Token ID → 模型运算 → 还原为文本。
2. 记忆与限制:Context (上下文)
这是大模型处理任务时接收到的信息总和(临时记忆体)。
- Context Window (上下文窗口) :这是模型一次性能处理的最大 Token 数量。
- RAG (Retrieval-Augmented Generation,检索增强生成) :它是一种通过连接外部知识库来增强LLM的技术架构。它通过“检索-融合-生成”的三阶段流程,让模型在回答问题时能够查询最新的、特定领域的信息。 比如 要处理的文档(如产品手册)超过了 Context Window 的限制,直接喂给模型会“撑爆”内存且成本高昂。此时需要 RAG 技术,先从文档中检索出最匹配的片段,只把片段发给模型,从而突破长度限制。
RAG的演进经历了多个阶段:
| RAG范式 | 核心特点 | 适用场景 |
|---|---|---|
| Vector RAG | 向量检索,简单高效 | 通用知识问答 |
| Graph RAG | 知识图谱增强,多跳推理 | 复杂关系推理 |
| Agentic RAG | 自主决策检索策略 | 动态信息需求 |
| Multimodal RAG | 图文音多模态支持 | 富媒体内容理解 |
RAG的核心价值在于:缓解模型“幻觉”问题、支持知识实时更新、提供可追溯的答案来源。
3. 交互方式:Prompt (提示词)
这是你与大模型沟通的桥梁。
- User Prompt:你输入的具体问题(如“写一首诗”)。
- System Prompt:开发者在后台配置的“人设”和规则(如“你是一个专业的翻译助手”)。
- 关键点:好的 Prompt 应该是清晰、具体、明确的。
4. 能力扩展:Tool (工具) 与 MCP (协议)
单纯的 LLM 是一个“静态”的知识库,无法获取实时信息。
-
Tool (工具) :本质上是一个函数。例如查询天气的工具。
- 交互流程:用户提问 -> 大模型分析需要工具 -> 平台调用工具 -> 工具返回结果 -> 大模型整理结果 -> 返回用户。
-
MCP (模型上下文协议) :这是一个统一的工具接入规范。按照这个规范编写的工具,可以在不同的平台上通用,解决了工具碎片化的问题。
5. 进阶形态:Agent (智能体)
当大模型拥有了自主调用工具的能力,它就进化成了 Agent。
-
自主规划:Agent 能够根据复杂任务进行拆解。例如用户问“今天天气不好要带伞吗?”:
- Agent 首先调用定位工具获取用户位置。
- 根据位置调用天气工具查询天气。
- 判断是否有雨,进而决定是否需要提供其他建议(如查询店铺买伞)。
-
Agent Skill:这是提前写好给 Agent 的“说明书”,包含元数据层(简介)和指令层(具体操作步骤)。
极简架构图
┌─────────────────────────────────────────┐
│ MCP │
│ (统一工具接入协议) │
└───────────────┬─────────────────────────┘
│
┌───────┴───────┐
│ │
┌───▼───┐ ┌───▼───┐
│ Agent │ │ Agent │
│ 智能体 │ │ 智能体 │
└───┬───┘ └───┬───┘
│ │
┌──────┴──────┐ ┌────┴────┐
│ Skill │ │ Skill │
│(技能模块) │ │(技能模块)│
└─────────────┘ └─────────┘
│
┌──────┴──────┐
│ Tool │
│ (外部工具) │
└──────┬──────┘
│
┌──────┴──────┐
│ RAG │
│(外置知识库)│
└─────────────┘
↑
┌─────────────┐
│ LLM + Token + Context + Prompt │
└─────────────┘
完整工作流(从输入到输出)
- 用户输入文字 → Tokenizer 切成 Token → 转为数字
- 与对话历史拼成Context
- 结合Prompt指令送入LLM
- LLM 判断是否调用Tool
- 按MCP标准调用工具 / RAG 获取信息
- Agent自主规划多步执行
- 生成结果 → 还原为文字 → 返回用户
架构演进——从Prompt到Harness
2023年重“Prompt”,2025年重“Context”,2026年跃升至“Harness”。这三者并非替代关系,而是分层协同:
| 层级 | 核心关注 | 解决问题 |
|---|---|---|
| Prompt Engineering | 如何表达任务 | 激活正确的模型行为 |
| Context Engineering | 模型看到什么 | 管理信息环境 |
| Harness Engineering | 模型运行其中的系统 | 约束、验证、纠错 |
Harness Engineering的核心思想是:当发现Agent犯了一个错误,就投入时间设计方案,让它不再犯同样的错。这标志着AI应用开发正从“工程技巧”向“系统工程”转变。
上述概念构成了一个完整的技术栈:
┌─────────────────────────────────────────┐
│ Harness(系统编排层) │
├─────────────────────────────────────────┤
│ Agent(智能体)+ Skill(技能) │
├─────────────────────────────────────────┤
│ RAG(检索)+ Tool/MCP(工具) │
├─────────────────────────────────────────┤
│ LLM + Context + Token │
└─────────────────────────────────────────┘
综合总结:从模型到智能体的进化
结合文档内容,我们可以将 AI 的发展路径概括为以下阶段:
- 基础阶段 (LLM + Token) :模型通过海量 Token 学习语言规律,能够进行简单的文本生成。
- 对话阶段 (Prompt + Context) :通过 Prompt 工程和上下文管理,模型能够进行连贯的对话和问答。
- 工具阶段 (Tool + MCP) :通过接入外部工具(Tool)和统一协议(MCP),模型突破了静态知识的限制,能够处理实时数据。
- 智能体阶段 (Agent) :模型具备了自主规划 (Planning) 和 工具使用 (Tool Use) 的能力,不再被动回答问题,而是主动拆解任务、调用工具去完成目标。