AI 核心概念从LLM到Agent

17 阅读7分钟

2026年,人工智能正从“对话时代”全面迈入“智能体时代”,理解这些核心概念已成为技术从业者的必修课。

引言:AI技术栈的变迁

如果说2023年是“提示词工程”的元年,2024-2025年是“上下文工程”的成熟期,那么2026年无疑是“智能体编排”爆发的一年。这一演进路径清晰地反映了AI应用开发的成熟轨迹:从如何与模型对话,到如何为模型构建信息环境,再到如何设计模型运行其中的完整系统。

下面将系统梳理当前AI领域的核心概念,构建一个完整的技术认知框架。

AI 核心概念全景图谱

首先,让我们通过一张结构化的图表来鸟瞰这些概念之间的关系:

核心概念角色定位核心功能/定义
Transformer🏭 底层引擎Google 2017年提出的架构,是目前所有大模型的基石。
LLM (大语言模型)🧠 大脑基于 Transformer 架构训练的超大规模语言模型(如GPT-4, Claude),能理解与生成人类语言(本质是“文字接龙”)。
Token🧩 基本单位模型处理的最小单元(文字切片)。1个Token约等于0.75个英文单词或1.5~2个汉字。
Context📚 临时记忆上下文窗口(Context Window),决定了模型一次能“记住”多少内容。
Prompt🗣️ 指令用户或系统输入的问题/指令。分为User Prompt(任务)和System Prompt(人设)。
Tool🔧 手脚外部工具(函数),让模型能感知和影响外部环境(如查天气、发邮件)。
MCP🔄 工具连接器统一的工具接入规范,使工具可在不同平台通用,解决碎片化问题。
Agent🤖 自主代理能自主规划、调用工具直至完成任务的系统(大脑+手脚的结合)。
Skill (Agent Skill)📄 能力说明书预定义的Agent操作指南,包含元数据(简介)和指令层(执行步骤)。

核心概念深度解析

根据文档内容,我们可以将大模型的工作流程拆解为以下几个关键环节:

1. 底层逻辑:LLM 与 Token

LLM(大语言模型)——AI 的 “大脑”,本质是一个复杂的概率预测函数大语言模型 是当前AI应用的核心引擎。目前主流的大模型基本都基于Transformer架构训练,这一架构由Google在2017年提出。2022年11月OpenAI发布的GPT-3.5标志着第一个真正达到“可用级别”的大模型诞生,而2023年3月的GPT-4则带来了又一次质的飞跃。

大模型的工作原理本质上可以理解为“文字接龙”——模型根据输入文本,通过内部运算预测最可能出现的下一个词元,然后将新生成的词元追加到原文本后继续预测,直到输出结束标识。这种机制虽然简单,却在规模效应的加持下展现出了惊人的智能涌现能力。

你:今天天气怎么样? → AI预测:特别 → 的 → 好 → [结束] → 输出:特别的好
  • Tokenization(切分) :模型不认识文字,只认识数字。Tokenizer 负责将文字切分为 Token(如“有趣”可能被切分为“有”和“趣”两个Token),并映射为数字 ID。
  • 运作方式:就像玩“文字接龙”游戏。模型根据上文预测下一个概率最高的词,然后把这个词放回文本继续预测下一个,直到遇到结束符号。
  • 流程:文本 → 切分 Token → 映射为 Token ID → 模型运算 → 还原为文本。

2. 记忆与限制:Context (上下文)

这是大模型处理任务时接收到的信息总和(临时记忆体)。

  • Context Window (上下文窗口) :这是模型一次性能处理的最大 Token 数量。
  • RAG (Retrieval-Augmented Generation,检索增强生成) :它是一种通过连接外部知识库来增强LLM的技术架构。它通过“检索-融合-生成”的三阶段流程,让模型在回答问题时能够查询最新的、特定领域的信息。 比如 要处理的文档(如产品手册)超过了 Context Window 的限制,直接喂给模型会“撑爆”内存且成本高昂。此时需要 RAG 技术,先从文档中检索出最匹配的片段,只把片段发给模型,从而突破长度限制。

RAG的演进经历了多个阶段:

RAG范式核心特点适用场景
Vector RAG向量检索,简单高效通用知识问答
Graph RAG知识图谱增强,多跳推理复杂关系推理
Agentic RAG自主决策检索策略动态信息需求
Multimodal RAG图文音多模态支持富媒体内容理解

RAG的核心价值在于:缓解模型“幻觉”问题、支持知识实时更新、提供可追溯的答案来源。

3. 交互方式:Prompt (提示词)

这是你与大模型沟通的桥梁。

  • User Prompt:你输入的具体问题(如“写一首诗”)。
  • System Prompt:开发者在后台配置的“人设”和规则(如“你是一个专业的翻译助手”)。
  • 关键点:好的 Prompt 应该是清晰、具体、明确的。

4. 能力扩展:Tool (工具) 与 MCP (协议)

单纯的 LLM 是一个“静态”的知识库,无法获取实时信息。

  • Tool (工具) :本质上是一个函数。例如查询天气的工具。

    • 交互流程:用户提问 -> 大模型分析需要工具 -> 平台调用工具 -> 工具返回结果 -> 大模型整理结果 -> 返回用户。
  • MCP (模型上下文协议) :这是一个统一的工具接入规范。按照这个规范编写的工具,可以在不同的平台上通用,解决了工具碎片化的问题。

5. 进阶形态:Agent (智能体)

当大模型拥有了自主调用工具的能力,它就进化成了 Agent。

  • 自主规划:Agent 能够根据复杂任务进行拆解。例如用户问“今天天气不好要带伞吗?”:

    1. Agent 首先调用定位工具获取用户位置。
    2. 根据位置调用天气工具查询天气。
    3. 判断是否有雨,进而决定是否需要提供其他建议(如查询店铺买伞)。
  • Agent Skill:这是提前写好给 Agent 的“说明书”,包含元数据层(简介)和指令层(具体操作步骤)。


极简架构图

┌─────────────────────────────────────────┐
│                 MCP                     │
│          (统一工具接入协议)            │
└───────────────┬─────────────────────────┘
                │
        ┌───────┴───────┐
        │               │
    ┌───▼───┐       ┌───▼───┐
    │ Agent │       │ Agent │
    │ 智能体 │       │ 智能体 │
    └───┬───┘       └───┬───┘
        │               │
 ┌──────┴──────┐  ┌────┴────┐
 │   Skill     │  │  Skill  │
 │(技能模块) │ │(技能模块)│
 └─────────────┘  └─────────┘
        │
 ┌──────┴──────┐
 │    Tool     │
 │  (外部工具) │
 └──────┬──────┘
        │
 ┌──────┴──────┐
 │    RAG      │
 │(外置知识库)│
 └─────────────┘
        ↑
 ┌─────────────┐
 │  LLM + Token + Context + Prompt  │
 └─────────────┘

完整工作流(从输入到输出)

  1. 用户输入文字 → Tokenizer 切成 Token → 转为数字
  2. 与对话历史拼成Context
  3. 结合Prompt指令送入LLM
  4. LLM 判断是否调用Tool
  5. MCP标准调用工具 / RAG 获取信息
  6. Agent自主规划多步执行
  7. 生成结果 → 还原为文字 → 返回用户

架构演进——从Prompt到Harness

2023年重“Prompt”,2025年重“Context”,2026年跃升至“Harness”。这三者并非替代关系,而是分层协同

层级核心关注解决问题
Prompt Engineering如何表达任务激活正确的模型行为
Context Engineering模型看到什么管理信息环境
Harness Engineering模型运行其中的系统约束、验证、纠错

Harness Engineering的核心思想是:当发现Agent犯了一个错误,就投入时间设计方案,让它不再犯同样的错。这标志着AI应用开发正从“工程技巧”向“系统工程”转变。

上述概念构成了一个完整的技术栈:

┌─────────────────────────────────────────┐
│           Harness(系统编排层)           │
├─────────────────────────────────────────┤
│      Agent(智能体)+ Skill(技能)       │
├─────────────────────────────────────────┤
│      RAG(检索)+ Tool/MCP(工具)        │
├─────────────────────────────────────────┤
│         LLM + Context + Token           │
└─────────────────────────────────────────┘

综合总结:从模型到智能体的进化

结合文档内容,我们可以将 AI 的发展路径概括为以下阶段:

  1. 基础阶段 (LLM + Token) :模型通过海量 Token 学习语言规律,能够进行简单的文本生成。
  2. 对话阶段 (Prompt + Context) :通过 Prompt 工程和上下文管理,模型能够进行连贯的对话和问答。
  3. 工具阶段 (Tool + MCP) :通过接入外部工具(Tool)和统一协议(MCP),模型突破了静态知识的限制,能够处理实时数据。
  4. 智能体阶段 (Agent) :模型具备了自主规划 (Planning)  和 工具使用 (Tool Use)  的能力,不再被动回答问题,而是主动拆解任务、调用工具去完成目标。