【实战】AI黑话全解：LLM、RAG、Agent、MCP……15个核心概念一文搞懂前言做AI应用开发这两年，被各种名词

前言

做AI应用开发这两年，被各种名词搞得脑壳疼。什么Token、Context、RAG、Agent……每次看文档都像在背单词。

今天就把这些概念彻底捋清楚，用工程师的大白话讲，不掉书袋。

一、基础层：LLM是地基

1.1 LLM，大语言模型

LLM是整个AI世界的核心，这点没什么好说的。它通过海量文本数据训练，获得了理解和生成语言的能力。

现在主流的LLM就那么几家：

OpenAI的GPT-4、GPT-3.5
Anthropic的Claude 3系列
Google的Gemini
国内的话有文心、通义、混元等等

不同LLM擅长不同场景，选型的时候得看具体需求。比如Claude写代码能力强，GPT-4综合能力强等等。

有个概念得搞清楚：LLM本身只是"脑子"，上面还得套壳才能变成产品。ChatGPT、Claude这些产品，就是LLM加了一层UI，让你普通人能直接用。

1.2 Token，计量和处理的基本单元

Token这个概念太重要了，不懂它你都不知道钱花哪儿去了。

AI处理文本的方式跟人不一样的。它会把所有内容切成小块，每块叫一个Token。

大概的换算关系是：

英文：1 Token ≈ 4个字符
中文：1 Token ≈ 1-2个汉字

API调用是按Token数收钱的。你发的越长，花的越多。还有Context Window这个限制，超过上限的内容会被直接截断。

写代码的时候一般会用tiktoken这种库来算Token数，提前知道自己发了多少。

1.3 Context Window，AI的内存

Context Window翻成"上下文窗口"，就是AI单次能处理的最大Token数量。

这个数字非常重要。你跟AI的对话历史、你上传的文件、你给它的系统设定，全得塞进这个窗口里。塞不下的就被截断。

现在主流模型的Context对比：

模型	Context Window
GPT-3.5	4K / 16K
GPT-4	8K / 32K / 128K
Claude 3	200K

工程实践里面，Context管理是个很重要的课题。超过几十轮的对话就得考虑怎么压缩或者截断，否则有效信息反而被"挤"掉了。

二、交互层：Prompt Engineering

2.1 Prompt写的好不好直接决定输出质量

Prompt就是你给LLM的输入。Prompt Engineering已经成为AI应用开发的基础技能。

核心原则就那么几个：

第一，清晰。你到底要什么，说清楚，别让AI猜。

第二，具体。给够上下文，包括背景、格式要求、长度限制这些。

第三，结构化。用分隔符、列表这些把内容组织好，AI更容易理解。

第四，迭代。别想着一遍就写好，基于输出持续调优。

常见模式有这么几种：

Zero-shot：直接给任务，不给示例
Few-shot：给几个示例，让AI学习 pattern
Chain-of-thought：引导AI一步步推理

写Prompt这事真的得练。同一件事，prompt怎么写，决定了AI是给你精品还是给你一堆废话。

2.2 Chat/Chatbot就是LLM的UI壳子

Chat本质上就是在LLM外面包了一层对话界面，让普通人能直接用。

Chatbot这个词就是这种交互形式的了统称，没什么神秘的。

三、能力层：RAG + Tool + Skill + Agent

这一层是从"能聊"到"能干"的关键。

3.1 RAG，检索增强生成

RAG解决的是LLM的两个固有问题：知识有截止日期、不知道私有内容。

原理很简单：

用户提问 → 去外部知识库检索相关内容 → 塞进Context → LLM基于这些参考资料生成答案

94a3b3295fa543d980b61bf53db6b1fa.jpeg~tplv-a9rns2rl98-image_raw_b.png

RAG的几个核心组件：

Embedding模型，负责把文本变成向量。向量数据库，负责存储和检索这些向量。检索策略，决定怎么找到最相关的内容。

RAG应用现在遍地开花，企业知识库问答、客服系统、文档智能检索，用的都是这个。

3.2 Tool，让LLM能操作外部世界

LLM以前只能"说话"，Tool给了它"动手"的能力。

比如：

搜索工具：让AI能查实时信息
日历工具：让AI能看和创建日程
邮件工具：让AI能发邮件
数据库工具：让AI能查数据

Function Calling就是让LLM判断什么时候该调用哪个工具、传什么参数的技术。

调用链路大概是这样的：LLM分析用户意图 → 决定需要调用哪个Tool → 生成调用参数 → 执行 → 把结果整合进回答。

3.3 Skill，封装好的执行流程

Skill就是把"怎么做一件事"的流程固化下来打包，让AI每次都按这个流程执行。

比如一个"代码审查Skill"，可能包含这些步骤：

读取代码文件
运行ESLint做静态分析
做安全扫描
生成审查报告
输出改进建议

有了Skill，同一类任务每次执行的质量是稳定的，不会因为prompt怎么写而忽高忽低。

3.4 Agent，自主规划执行 🔥

Agent是现在最火的概念。

本质上就是：给AI一个目标，AI自己制定计划、调用工具、执行任务、中间可能反思和调整、直到达成目标。

对比一下：

Chat：你问，它答
Agent：你说"帮我整理会议纪要并发给同事"，它会自动读邮件、整理内容、写邮件、确认收件人、点击发送

4f0842597f9c486ba0c62a8b7b03f8be.jpeg~tplv-a9rns2rl98-image_raw_b.png

Agent的典型架构大概是这样的：

Agent
├── LLM（大脑）
├── Memory（记忆）
├── Tools（工具集）
├── Planning（规划）
└── Reflection（反思）

现在做Agent的框架很多，LangChain、AutoGPT、还有Claude自己的Agent SDK。选哪个看具体需求。

四、技术层：连接标准

4.1 API，AI能力的出口

API是标准化的软件接口，这个搞开发的肯定熟悉。

AI API就是让你在自己的应用里面调用AI能力的通道。不用自己训练模型，按用量付费，接上就能用。

主流AI API提供商：

OpenAI（GPT系列）
Anthropic（Claude系列）
Google（Gemini）
国内：文心、通义、混元

调用方式都是RESTful API，发HTTP请求，传JSON参数，没多复杂。

4.2 MCP，新兴的协议标准 🔥

MCP是Anthropic提出的开放协议，全称Model Context Protocol。

解决的问题是：以前AI连接外部工具，每个组合都得单独开发。N个AI乘M个工具，是N乘M的工作量。

MCP搞了个统一标准：

传统：每个AI × 每个工具 = N×M次开发
MCP：每个工具实现一次MCP → 所有支持MCP的AI都能用

这就像USB接口统一了各种外设一样，一次开发，到处使用。

4.3 AI + IDE，开发新范式

Cursor是第一个真正意义上的AI原生IDE，内置了GPT-4和Claude。

几个核心功能：

@聊天：基于整个项目上下文
Cmd+K：跨文件编辑
自动代码生成和解释

用Cursor写代码真的快很多。尤其是不熟悉的语言或者框架，让AI先跑一遍，自己再 review 就行。

4.4 Vibe Coding，自然语言驱动开发

核心思路：你描述你想要什么，AI生成代码。

你的角色从"打字员"变成了"产品经理+评审"。

你负责：

想清楚要什么（产品设计）
描述清楚需求
Review AI生成的代码
做决策

AI负责：

代码实现
语法正确性
基础测试

现在很多非程序员都在用这个方式做自己的小工具、产品原型。门槛真的降低了很多。

五、实战链路串联

拿企业智能助手这个场景举例：

用户说："帮我查一下Q1销售数据，做成PPT"

Agent接管之后大概会这样执行：

第一步，规划。拆解成几个子任务——查数据、分析数据、生成PPT内容。

第二步，Tool调用。用数据库查询Tool拿到Q1销售数据。

第三步，RAG检索。查一下有没有历史销售报告模板或者分析框架可以参考。

第四步，LLM处理。分析数据，提取关键洞察。

第五步，Skill执行。调用PPT生成Skill，按模板填充内容。

第六步，返回结果。

整个过程用户只说了一句话。

六、速查表

概念	作用	实践要点
LLM	语言理解和生成	选型看场景
Token	计量和处理单元	控制长度省成本
Context	记忆上限	注意截断
Prompt	交互指令	结构化表达
RAG	知识增强	检索质量很重要
Tool	能力扩展	判断调用时机
Skill	流程封装	复用和组合
Agent	自主执行	规划+反思机制
API	能力输出	RESTful调用
MCP	协议标准	一次对接多处复用
Vibe Coding	自然语言开发	关注需求而非语法

总结

AI应用开发的核心知识体系其实就几块：

LLM是引擎——得理解它的能力和限制。Prompt是接口——写好prompt是基本功。RAG/Tool/Skill是能力延伸——让AI真正能干活的组合。Agent是进化形态——从被动回答到主动执行。API/MCP是基础设施——构建应用的标准连接方式。

地基打好了，上层怎么变化都能跟上。

有问题欢迎评论区交流。