前言
做AI应用开发这两年,被各种名词搞得脑壳疼。什么Token、Context、RAG、Agent……每次看文档都像在背单词。
今天就把这些概念彻底捋清楚,用工程师的大白话讲,不掉书袋。
一、基础层:LLM是地基
1.1 LLM,大语言模型
LLM是整个AI世界的核心,这点没什么好说的。它通过海量文本数据训练,获得了理解和生成语言的能力。
现在主流的LLM就那么几家:
- OpenAI的GPT-4、GPT-3.5
- Anthropic的Claude 3系列
- Google的Gemini
- 国内的话有文心、通义、混元等等
不同LLM擅长不同场景,选型的时候得看具体需求。比如Claude写代码能力强,GPT-4综合能力强等等。
有个概念得搞清楚:LLM本身只是"脑子",上面还得套壳才能变成产品。ChatGPT、Claude这些产品,就是LLM加了一层UI,让你普通人能直接用。
1.2 Token,计量和处理的基本单元
Token这个概念太重要了,不懂它你都不知道钱花哪儿去了。
AI处理文本的方式跟人不一样的。它会把所有内容切成小块,每块叫一个Token。
大概的换算关系是:
- 英文:1 Token ≈ 4个字符
- 中文:1 Token ≈ 1-2个汉字
API调用是按Token数收钱的。你发的越长,花的越多。还有Context Window这个限制,超过上限的内容会被直接截断。
写代码的时候一般会用tiktoken这种库来算Token数,提前知道自己发了多少。
1.3 Context Window,AI的内存
Context Window翻成"上下文窗口",就是AI单次能处理的最大Token数量。
这个数字非常重要。你跟AI的对话历史、你上传的文件、你给它的系统设定,全得塞进这个窗口里。塞不下的就被截断。
现在主流模型的Context对比:
| 模型 | Context Window |
|---|---|
| GPT-3.5 | 4K / 16K |
| GPT-4 | 8K / 32K / 128K |
| Claude 3 | 200K |
工程实践里面,Context管理是个很重要的课题。超过几十轮的对话就得考虑怎么压缩或者截断,否则有效信息反而被"挤"掉了。
二、交互层:Prompt Engineering
2.1 Prompt写的好不好直接决定输出质量
Prompt就是你给LLM的输入。Prompt Engineering已经成为AI应用开发的基础技能。
核心原则就那么几个:
第一,清晰。你到底要什么,说清楚,别让AI猜。
第二,具体。给够上下文,包括背景、格式要求、长度限制这些。
第三,结构化。用分隔符、列表这些把内容组织好,AI更容易理解。
第四,迭代。别想着一遍就写好,基于输出持续调优。
常见模式有这么几种:
- Zero-shot:直接给任务,不给示例
- Few-shot:给几个示例,让AI学习 pattern
- Chain-of-thought:引导AI一步步推理
写Prompt这事真的得练。同一件事,prompt怎么写,决定了AI是给你精品还是给你一堆废话。
2.2 Chat/Chatbot就是LLM的UI壳子
Chat本质上就是在LLM外面包了一层对话界面,让普通人能直接用。
Chatbot这个词就是这种交互形式的了统称,没什么神秘的。
三、能力层:RAG + Tool + Skill + Agent
这一层是从"能聊"到"能干"的关键。
3.1 RAG,检索增强生成
RAG解决的是LLM的两个固有问题:知识有截止日期、不知道私有内容。
原理很简单:
用户提问 → 去外部知识库检索相关内容 → 塞进Context → LLM基于这些参考资料生成答案
RAG的几个核心组件:
Embedding模型,负责把文本变成向量。向量数据库,负责存储和检索这些向量。检索策略,决定怎么找到最相关的内容。
RAG应用现在遍地开花,企业知识库问答、客服系统、文档智能检索,用的都是这个。
3.2 Tool,让LLM能操作外部世界
LLM以前只能"说话",Tool给了它"动手"的能力。
比如:
- 搜索工具:让AI能查实时信息
- 日历工具:让AI能看和创建日程
- 邮件工具:让AI能发邮件
- 数据库工具:让AI能查数据
Function Calling就是让LLM判断什么时候该调用哪个工具、传什么参数的技术。
调用链路大概是这样的:LLM分析用户意图 → 决定需要调用哪个Tool → 生成调用参数 → 执行 → 把结果整合进回答。
3.3 Skill,封装好的执行流程
Skill就是把"怎么做一件事"的流程固化下来打包,让AI每次都按这个流程执行。
比如一个"代码审查Skill",可能包含这些步骤:
- 读取代码文件
- 运行ESLint做静态分析
- 做安全扫描
- 生成审查报告
- 输出改进建议
有了Skill,同一类任务每次执行的质量是稳定的,不会因为prompt怎么写而忽高忽低。
3.4 Agent,自主规划执行 🔥
Agent是现在最火的概念。
本质上就是:给AI一个目标,AI自己制定计划、调用工具、执行任务、中间可能反思和调整、直到达成目标。
对比一下:
- Chat:你问,它答
- Agent:你说"帮我整理会议纪要并发给同事",它会自动读邮件、整理内容、写邮件、确认收件人、点击发送
Agent的典型架构大概是这样的:
Agent
├── LLM(大脑)
├── Memory(记忆)
├── Tools(工具集)
├── Planning(规划)
└── Reflection(反思)
现在做Agent的框架很多,LangChain、AutoGPT、还有Claude自己的Agent SDK。选哪个看具体需求。
四、技术层:连接标准
4.1 API,AI能力的出口
API是标准化的软件接口,这个搞开发的肯定熟悉。
AI API就是让你在自己的应用里面调用AI能力的通道。不用自己训练模型,按用量付费,接上就能用。
主流AI API提供商:
- OpenAI(GPT系列)
- Anthropic(Claude系列)
- Google(Gemini)
- 国内:文心、通义、混元
调用方式都是RESTful API,发HTTP请求,传JSON参数,没多复杂。
4.2 MCP,新兴的协议标准 🔥
MCP是Anthropic提出的开放协议,全称Model Context Protocol。
解决的问题是:以前AI连接外部工具,每个组合都得单独开发。N个AI乘M个工具,是N乘M的工作量。
MCP搞了个统一标准:
传统:每个AI × 每个工具 = N×M次开发
MCP:每个工具实现一次MCP → 所有支持MCP的AI都能用
这就像USB接口统一了各种外设一样,一次开发,到处使用。
4.3 AI + IDE,开发新范式
Cursor是第一个真正意义上的AI原生IDE,内置了GPT-4和Claude。
几个核心功能:
- @聊天:基于整个项目上下文
- Cmd+K:跨文件编辑
- 自动代码生成和解释
用Cursor写代码真的快很多。尤其是不熟悉的语言或者框架,让AI先跑一遍,自己再 review 就行。
4.4 Vibe Coding,自然语言驱动开发
核心思路:你描述你想要什么,AI生成代码。
你的角色从"打字员"变成了"产品经理+评审"。
你负责:
- 想清楚要什么(产品设计)
- 描述清楚需求
- Review AI生成的代码
- 做决策
AI负责:
- 代码实现
- 语法正确性
- 基础测试
现在很多非程序员都在用这个方式做自己的小工具、产品原型。门槛真的降低了很多。
五、实战链路串联
拿企业智能助手这个场景举例:
用户说:"帮我查一下Q1销售数据,做成PPT"
Agent接管之后大概会这样执行:
第一步,规划。拆解成几个子任务——查数据、分析数据、生成PPT内容。
第二步,Tool调用。用数据库查询Tool拿到Q1销售数据。
第三步,RAG检索。查一下有没有历史销售报告模板或者分析框架可以参考。
第四步,LLM处理。分析数据,提取关键洞察。
第五步,Skill执行。调用PPT生成Skill,按模板填充内容。
第六步,返回结果。
整个过程用户只说了一句话。
六、速查表
| 概念 | 作用 | 实践要点 |
|---|---|---|
| LLM | 语言理解和生成 | 选型看场景 |
| Token | 计量和处理单元 | 控制长度省成本 |
| Context | 记忆上限 | 注意截断 |
| Prompt | 交互指令 | 结构化表达 |
| RAG | 知识增强 | 检索质量很重要 |
| Tool | 能力扩展 | 判断调用时机 |
| Skill | 流程封装 | 复用和组合 |
| Agent | 自主执行 | 规划+反思机制 |
| API | 能力输出 | RESTful调用 |
| MCP | 协议标准 | 一次对接多处复用 |
| Vibe Coding | 自然语言开发 | 关注需求而非语法 |
总结
AI应用开发的核心知识体系其实就几块:
LLM是引擎——得理解它的能力和限制。Prompt是接口——写好prompt是基本功。RAG/Tool/Skill是能力延伸——让AI真正能干活的组合。Agent是进化形态——从被动回答到主动执行。API/MCP是基础设施——构建应用的标准连接方式。
地基打好了,上层怎么变化都能跟上。
有问题欢迎评论区交流。