00AI基础知识

2026-03-01 50 阅读9分钟

1. 核心名词解释

以下表格汇总了构建现代AI应用，特别是智能体系统的核心组件。

名词	全称 / 核心解释	关联方向与角色
1.1 LLM	大语言模型。基于海量文本训练的深度学习模型，功能为理解、生成、推理自然语言。它是所有高级能力的“智力基础”。	一切的基础。是Agent的“大脑”，是生成、理解、规划能力的来源。
1.2 Token	词元。文本被切分后的最小语义单元，是模型处理的基本数据单位。1个Token约等于0.75个英文单词或2个中文字符。	原子单位。模型输入/输出、成本计算、上下文长度限制均基于Token。
1.3 Context Window	上下文窗口。模型单次交互能处理的最大Token数量。它定义了模型的“短期记忆工作台”大小。	关键限制。决定了单次对话或单次注入给模型的背景信息量上限。
1.4 Fine-tuning	微调。在预训练好的基础LLM上，使用特定领域数据继续训练，使其深度适配特定任务或风格。	AI训练师核心。让通用模型变为领域专家的主要方法之一。
1.5 Prompt Engineering	提示词工程。通过精心设计输入文本来引导LLM生成高质量输出。是优化模型表现的关键实践。	全员必备技能。成本最低、最直接的模型“编程”和优化方式。
1.6 RAG	检索增强生成。一种框架：检索相关信息 -> 将其作为上下文增强提示词 -> 指导LLM生成答案。极大提升事实准确性与时效性。	核心应用范式。连接私域知识库与大模型的桥梁，是落地关键。
1.7 Vector Database	向量数据库。专门存储和检索“向量嵌入”的数据库。能根据语义相似度高效查找信息，是RAG的“专用图书馆”。	应用基础设施。为RAG提供高效、准确的知识检索能力。
1.8 Agent	智能体。能感知、决策、执行的自主系统。通常= LLM（大脑）+ 规划能力 + 工具调用 + 记忆。	应用高级形态。能完成复杂多步任务的AI“机器人”或“数字员工”。
1.9 Skill / Tools	技能/工具。为Agent扩展的具体功能模块（如搜索、计算、绘图）。一个Skill可能封装对一个或多个Tools的调用。	能力积木。Agent通过与外界的“手”和“脚”，是业务逻辑的具体实现。
1.10 MCP	模型上下文协议。一种开放协议，标准化了LLM与各种数据源、工具之间的连接方式。	连接神经系统。让不同组件能用同一种“语言”通信，实现即插即用。
1.11 Workflow	工作流。Agent为达成目标而执行的标准化步骤序列，通常包括：规划、执行、反思、迭代。	业务流程载体。将业务目标转化为Agent可执行步骤的蓝图。
1.12 Memory	记忆。Agent持久化存储和利用历史信息的能力，分为短期记忆（在Context中）和长期记忆（外部存储，需时检索）。	实现连续性。使AI能跨会话学习，提供个性化、连贯的服务。
1.13 Subagent	子智能体。被主Agent创建或委托，以完成特定子任务的、更专注的Agent。用于实现复杂任务的分解与协作。	系统扩展模式。实现模块化、复杂系统架构的关键，体现“分而治之”。

2. 核心逻辑框架：从“大脑”到“团队”的AI系统

可以将一个复杂的AI应用系统，理解为一个数字特工团队。

框架分层解读：

大脑与核心智力（基础层）

- LLM：是整个团队的“首席智囊”，提供最核心的理解、推理和生成能力。它的智力水平决定了团队的上限。
- Context Window：是首席智囊的“当前办公桌桌面大小”，限制了他一次性能翻阅的资料总量。

能力扩展层（专业训练）

- Fine-tuning：是对“首席智囊”进行岗前封闭培训，让他成为某个领域的专家（如法律、医疗）。效果持久，但成本高。
- Prompt Engineering：是给智囊的高效工作指令手册，教他如何更好地回答问题。不改变他本身，但能显著提升其工作表现。

应用架构层（团队与协作）

- Agent：是一个完整的“特工”，他拥有LLM大脑，还能自己规划、使用工具、记住事情。主Agent是“项目经理”，Subagent是“各领域专员”。
- Skill/Tool：是特工装备的“瑞士军刀”或“专业技能”，如开锁、黑客技术、多国语言等。
- Workflow：是执行任务的“标准作业程序”，例如：侦察 -> 分析 -> 行动 -> 汇报。它定义了特工们如何协作。

支持系统层（后勤与保障）

- Memory：是团队的“中央档案室”，存储历次任务的经验、目标信息、行为模式。支持长期、跨任务的知识积累。
- Vector Database：是档案室里的“智能检索系统”，能根据“意思”而不仅仅是关键词，快速找到最相关的档案。

连接协议层（组织语言）

- MCP：是整个组织的“标准通信协议与文书格式”。它确保首席智囊、特工、后勤部门之间能无缝沟通，无论他们来自哪个分部。它定义了“如何请求”和“如何回复”的格式，是系统集成的关键。

3. 综合实例详解：“阳澄湖大闸蟹公司”深度报告生成

场景：你（用户）要求AI系统生成一份《阳澄湖大闸蟹有限公司深度背景报告》。

3.1 工作流与数据流动全景

3.2 逐步拆解与概念对应

接收与拆解任务

- 你的请求被转换为 Token序列，送入主Agent。
- 主Agent的LLM大脑根据预设的Workflow，进行任务规划，决定创建4个Subagent并行工作。此过程消耗Token，并受Context窗口大小限制。

子智能体并行工作

- 市场价格 Subagent 需要最新信息，其LLM判断需调用 Search Skill。Subagent按 MCP协议 格式封装请求（“查询近期蟹券价格”），调用技能。
- 养殖技术 Subagent 遇到专业问题（“湖蟹塘蟹区别”），其LLM决定采用 RAG框架。它通过MCP调用RAG技能，该技能去向量数据库中语义检索相关资料，并将结果返回。

综合与生成

- 各Subagent将结果（Token序列）返回主Agent。主Agent的Context中现在包含了：原始指令、四个分报告、从长期Memory中调取的“用户喜欢数据图表”偏好。
- 主Agent的LLM基于所有这些Token序列，开始生成最终报告的Token序列，最终解码为文本。

学习与闭环

- 任务结束，系统可将“本次用户关注养殖技术”这一信息，结构化后存入长期Memory，使服务越用越智能。

关键点：整个过程中，Token 是流动的数据单元，MCP 是确保流转通畅的通信标准，Context 是每个Agent的临时工作区，Memory 是共享的持久化知识库。

4. 关键概念深度辨析

4.1 LLM vs. Agent：心脏 vs. 完整的人

维度	LLM (大语言模型)	Agent (智能体)
本质	一个功能强大的函数。输入文本，输出文本。	一个能够自主行动的完整系统或程序。
核心能力	语言理解与生成。预测下一个Token。	感知、决策、执行、记忆。完成复杂目标。
比喻	一个博学的“参谋”或“心脏”。	一个配备了该参谋作为“大脑”的“特种兵”或“完整的人”。
关系	Agent的核心推理引擎。没有LLM，Agent无法进行复杂思考。	LLM能力的 “外骨骼”与“执行器” 。没有Agent，LLM只是一个聊天接口。

4.2 Skill vs. Tool：能力与接口

Skill (技能) ：是从功能角度描述，指Agent能完成的一项任务，如“数据可视化”。它是一个比较上层的概念。
Tool (工具) ：是从接口角度描述，是Skill的具体实现和调用端点。一个“数据可视化”技能，可能通过调用“图表生成API”这个工具来实现。
通俗理解：你想“拧螺丝”（Skill），你可以选择用“手动螺丝刀”或“电动螺丝刀”（两种不同的Tools）。在MCP中，我们通常定义和调用的是Tool。

4.3 RAG：作为框架 vs. 作为技能

作为框架/方法论：这是其本质。它描述了一种“先检索，后增强，再生成”的解决已知问题的标准模式。如同“先查字典再写作文”的方法。
作为技能：这是其封装形式。在构建Agent时，可以将整个RAG的复杂流程（连接向量库、检索、组合提示词）打包成一个简单的、可被调用的rag_tool。Agent只需要调用它，而无需关心内部细节。

4.4 Context Window vs. Memory：工作台 vs. 档案柜

特性	Context Window (上下文窗口)	Memory (长期记忆)
性质	短期、临时的工作区。	长期、持久的存储库。
功能	存放当前任务相关的所有信息（指令、历史、检索结果），供LLM本次推理使用。	存储历史交互中的关键信息（用户偏好、事实知识、操作记录），供未来任务调用。
生命周期	随会话或请求开始而建立，结束而消失。	跨会话、跨任务持久存在。
类比	你桌面上当前正在处理的所有文件和便签。	公司的整个档案室和数据库。
联系	执行任务时，可以从Memory中检索相关信息，加载到Context中使用。	任务结束后，可以将Context中有价值的信息，总结后存入Memory。

5. 补充：Token与工作流的动态视角

在整个工作流中，Token是唯一的数据载体和成本单位。

输入Token：你的问题、从Memory检索的历史、从技能返回的结果，全部被转换为Token序列，填入Context。
处理/生成Token：LLM基于Context中的Token序列，计算并生成回答的Token序列。
成本计算：云服务API按 总消耗Token数（输入+输出） 计费。
核心限制：Context Window的大小（如128K Tokens），限制了单次交互能处理的信息总量。优化Prompt、精炼输入、管理Memory，本质都是在高效利用有限的Token资源。