【实战】AI黑话全解:LLM、RAG、Agent、MCP……15个核心概念一文搞懂

49 阅读8分钟

前言

做AI应用开发这两年,被各种名词搞得脑壳疼。什么Token、Context、RAG、Agent……每次看文档都像在背单词。

今天就把这些概念彻底捋清楚,用工程师的大白话讲,不掉书袋。


一、基础层:LLM是地基

1.1 LLM,大语言模型

LLM是整个AI世界的核心,这点没什么好说的。它通过海量文本数据训练,获得了理解和生成语言的能力。

现在主流的LLM就那么几家:

  • OpenAI的GPT-4、GPT-3.5
  • Anthropic的Claude 3系列
  • Google的Gemini
  • 国内的话有文心、通义、混元等等

不同LLM擅长不同场景,选型的时候得看具体需求。比如Claude写代码能力强,GPT-4综合能力强等等。

有个概念得搞清楚:LLM本身只是"脑子",上面还得套壳才能变成产品。ChatGPT、Claude这些产品,就是LLM加了一层UI,让你普通人能直接用。


1.2 Token,计量和处理的基本单元

Token这个概念太重要了,不懂它你都不知道钱花哪儿去了。

AI处理文本的方式跟人不一样的。它会把所有内容切成小块,每块叫一个Token。

大概的换算关系是:

  • 英文:1 Token ≈ 4个字符
  • 中文:1 Token ≈ 1-2个汉字

API调用是按Token数收钱的。你发的越长,花的越多。还有Context Window这个限制,超过上限的内容会被直接截断。

写代码的时候一般会用tiktoken这种库来算Token数,提前知道自己发了多少。


1.3 Context Window,AI的内存

Context Window翻成"上下文窗口",就是AI单次能处理的最大Token数量。

这个数字非常重要。你跟AI的对话历史、你上传的文件、你给它的系统设定,全得塞进这个窗口里。塞不下的就被截断。

现在主流模型的Context对比:

模型Context Window
GPT-3.54K / 16K
GPT-48K / 32K / 128K
Claude 3200K

工程实践里面,Context管理是个很重要的课题。超过几十轮的对话就得考虑怎么压缩或者截断,否则有效信息反而被"挤"掉了。


二、交互层:Prompt Engineering

2.1 Prompt写的好不好直接决定输出质量

Prompt就是你给LLM的输入。Prompt Engineering已经成为AI应用开发的基础技能。

核心原则就那么几个:

第一,清晰。你到底要什么,说清楚,别让AI猜。

第二,具体。给够上下文,包括背景、格式要求、长度限制这些。

第三,结构化。用分隔符、列表这些把内容组织好,AI更容易理解。

第四,迭代。别想着一遍就写好,基于输出持续调优。

常见模式有这么几种:

  • Zero-shot:直接给任务,不给示例
  • Few-shot:给几个示例,让AI学习 pattern
  • Chain-of-thought:引导AI一步步推理

写Prompt这事真的得练。同一件事,prompt怎么写,决定了AI是给你精品还是给你一堆废话。


2.2 Chat/Chatbot就是LLM的UI壳子

Chat本质上就是在LLM外面包了一层对话界面,让普通人能直接用。

Chatbot这个词就是这种交互形式的了统称,没什么神秘的。


三、能力层:RAG + Tool + Skill + Agent

这一层是从"能聊"到"能干"的关键。

3.1 RAG,检索增强生成

RAG解决的是LLM的两个固有问题:知识有截止日期、不知道私有内容。

原理很简单:

用户提问 → 去外部知识库检索相关内容 → 塞进Context → LLM基于这些参考资料生成答案

94a3b3295fa543d980b61bf53db6b1fa.jpeg~tplv-a9rns2rl98-image_raw_b.png

RAG的几个核心组件:

Embedding模型,负责把文本变成向量。向量数据库,负责存储和检索这些向量。检索策略,决定怎么找到最相关的内容。

RAG应用现在遍地开花,企业知识库问答、客服系统、文档智能检索,用的都是这个。


3.2 Tool,让LLM能操作外部世界

LLM以前只能"说话",Tool给了它"动手"的能力。

比如:

  • 搜索工具:让AI能查实时信息
  • 日历工具:让AI能看和创建日程
  • 邮件工具:让AI能发邮件
  • 数据库工具:让AI能查数据

Function Calling就是让LLM判断什么时候该调用哪个工具、传什么参数的技术。

调用链路大概是这样的:LLM分析用户意图 → 决定需要调用哪个Tool → 生成调用参数 → 执行 → 把结果整合进回答。


3.3 Skill,封装好的执行流程

Skill就是把"怎么做一件事"的流程固化下来打包,让AI每次都按这个流程执行。

比如一个"代码审查Skill",可能包含这些步骤:

  1. 读取代码文件
  2. 运行ESLint做静态分析
  3. 做安全扫描
  4. 生成审查报告
  5. 输出改进建议

有了Skill,同一类任务每次执行的质量是稳定的,不会因为prompt怎么写而忽高忽低。


3.4 Agent,自主规划执行 🔥

Agent是现在最火的概念。

本质上就是:给AI一个目标,AI自己制定计划、调用工具、执行任务、中间可能反思和调整、直到达成目标。

对比一下:

  • Chat:你问,它答
  • Agent:你说"帮我整理会议纪要并发给同事",它会自动读邮件、整理内容、写邮件、确认收件人、点击发送

4f0842597f9c486ba0c62a8b7b03f8be.jpeg~tplv-a9rns2rl98-image_raw_b.png

Agent的典型架构大概是这样的:

Agent
├── LLM(大脑)
├── Memory(记忆)
├── Tools(工具集)
├── Planning(规划)
└── Reflection(反思)

现在做Agent的框架很多,LangChain、AutoGPT、还有Claude自己的Agent SDK。选哪个看具体需求。


四、技术层:连接标准

4.1 API,AI能力的出口

API是标准化的软件接口,这个搞开发的肯定熟悉。

AI API就是让你在自己的应用里面调用AI能力的通道。不用自己训练模型,按用量付费,接上就能用。

主流AI API提供商:

  • OpenAI(GPT系列)
  • Anthropic(Claude系列)
  • Google(Gemini)
  • 国内:文心、通义、混元

调用方式都是RESTful API,发HTTP请求,传JSON参数,没多复杂。


4.2 MCP,新兴的协议标准 🔥

MCP是Anthropic提出的开放协议,全称Model Context Protocol。

解决的问题是:以前AI连接外部工具,每个组合都得单独开发。N个AI乘M个工具,是N乘M的工作量。

MCP搞了个统一标准:

传统:每个AI × 每个工具 = N×M次开发
MCP:每个工具实现一次MCP → 所有支持MCP的AI都能用

这就像USB接口统一了各种外设一样,一次开发,到处使用。


4.3 AI + IDE,开发新范式

Cursor是第一个真正意义上的AI原生IDE,内置了GPT-4和Claude。

几个核心功能:

  • @聊天:基于整个项目上下文
  • Cmd+K:跨文件编辑
  • 自动代码生成和解释

用Cursor写代码真的快很多。尤其是不熟悉的语言或者框架,让AI先跑一遍,自己再 review 就行。


4.4 Vibe Coding,自然语言驱动开发

核心思路:你描述你想要什么,AI生成代码。

你的角色从"打字员"变成了"产品经理+评审"。

你负责:

  • 想清楚要什么(产品设计)
  • 描述清楚需求
  • Review AI生成的代码
  • 做决策

AI负责:

  • 代码实现
  • 语法正确性
  • 基础测试

现在很多非程序员都在用这个方式做自己的小工具、产品原型。门槛真的降低了很多。


五、实战链路串联

拿企业智能助手这个场景举例:

用户说:"帮我查一下Q1销售数据,做成PPT"

Agent接管之后大概会这样执行:

第一步,规划。拆解成几个子任务——查数据、分析数据、生成PPT内容。

第二步,Tool调用。用数据库查询Tool拿到Q1销售数据。

第三步,RAG检索。查一下有没有历史销售报告模板或者分析框架可以参考。

第四步,LLM处理。分析数据,提取关键洞察。

第五步,Skill执行。调用PPT生成Skill,按模板填充内容。

第六步,返回结果。

整个过程用户只说了一句话。


六、速查表

概念作用实践要点
LLM语言理解和生成选型看场景
Token计量和处理单元控制长度省成本
Context记忆上限注意截断
Prompt交互指令结构化表达
RAG知识增强检索质量很重要
Tool能力扩展判断调用时机
Skill流程封装复用和组合
Agent自主执行规划+反思机制
API能力输出RESTful调用
MCP协议标准一次对接多处复用
Vibe Coding自然语言开发关注需求而非语法

总结

AI应用开发的核心知识体系其实就几块:

LLM是引擎——得理解它的能力和限制。Prompt是接口——写好prompt是基本功。RAG/Tool/Skill是能力延伸——让AI真正能干活的组合。Agent是进化形态——从被动回答到主动执行。API/MCP是基础设施——构建应用的标准连接方式。

地基打好了,上层怎么变化都能跟上。

有问题欢迎评论区交流。