00AI基础知识

0 阅读9分钟

1. 核心名词解释

以下表格汇总了构建现代AI应用,特别是智能体系统的核心组件。

名词全称 / 核心解释关联方向与角色
1.1 LLM大语言模型。基于海量文本训练的深度学习模型,功能为理解、生成、推理自然语言。它是所有高级能力的“智力基础”。一切的基础。是Agent的“大脑”,是生成、理解、规划能力的来源。
1.2 Token词元。文本被切分后的最小语义单元,是模型处理的基本数据单位。1个Token约等于0.75个英文单词或2个中文字符。原子单位。模型输入/输出、成本计算、上下文长度限制均基于Token。
1.3 Context Window上下文窗口。模型单次交互能处理的最大Token数量。它定义了模型的“短期记忆工作台”大小。关键限制。决定了单次对话或单次注入给模型的背景信息量上限。
1.4 Fine-tuning微调。在预训练好的基础LLM上,使用特定领域数据继续训练,使其深度适配特定任务或风格。AI训练师核心。让通用模型变为领域专家的主要方法之一。
1.5 Prompt Engineering提示词工程。通过精心设计输入文本来引导LLM生成高质量输出。是优化模型表现的关键实践。全员必备技能。成本最低、最直接的模型“编程”和优化方式。
1.6 RAG检索增强生成。一种框架:检索相关信息 -> 将其作为上下文增强提示词 -> 指导LLM生成答案。极大提升事实准确性与时效性。核心应用范式。连接私域知识库与大模型的桥梁,是落地关键。
1.7 Vector Database向量数据库。专门存储和检索“向量嵌入”的数据库。能根据语义相似度高效查找信息,是RAG的“专用图书馆”。应用基础设施。为RAG提供高效、准确的知识检索能力。
1.8 Agent智能体。能感知、决策、执行的自主系统。通常= LLM(大脑)+ 规划能力 + 工具调用 + 记忆。应用高级形态。能完成复杂多步任务的AI“机器人”或“数字员工”。
1.9 Skill / Tools技能/工具。为Agent扩展的具体功能模块(如搜索、计算、绘图)。一个Skill可能封装对一个或多个Tools的调用。能力积木。Agent通过与外界的“手”和“脚”,是业务逻辑的具体实现。
1.10 MCP模型上下文协议。一种开放协议,标准化了LLM与各种数据源、工具之间的连接方式。连接神经系统。让不同组件能用同一种“语言”通信,实现即插即用。
1.11 Workflow工作流。Agent为达成目标而执行的标准化步骤序列,通常包括:规划、执行、反思、迭代。业务流程载体。将业务目标转化为Agent可执行步骤的蓝图。
1.12 Memory记忆。Agent持久化存储和利用历史信息的能力,分为短期记忆(在Context中)和长期记忆(外部存储,需时检索)。实现连续性。使AI能跨会话学习,提供个性化、连贯的服务。
1.13 Subagent子智能体。被主Agent创建或委托,以完成特定子任务的、更专注的Agent。用于实现复杂任务的分解与协作。系统扩展模式。实现模块化、复杂系统架构的关键,体现“分而治之”。

2. 核心逻辑框架:从“大脑”到“团队”的AI系统

可以将一个复杂的AI应用系统,理解为一个数字特工团队

框架分层解读:

  1. 大脑与核心智力(基础层)
    • LLM:是整个团队的“首席智囊”,提供最核心的理解、推理和生成能力。它的智力水平决定了团队的上限。
    • Context Window:是首席智囊的“当前办公桌桌面大小”,限制了他一次性能翻阅的资料总量。
  1. 能力扩展层(专业训练)
    • Fine-tuning:是对“首席智囊”进行岗前封闭培训,让他成为某个领域的专家(如法律、医疗)。效果持久,但成本高。
    • Prompt Engineering:是给智囊的高效工作指令手册,教他如何更好地回答问题。不改变他本身,但能显著提升其工作表现。
  1. 应用架构层(团队与协作)
    • Agent:是一个完整的“特工”,他拥有LLM大脑,还能自己规划、使用工具、记住事情。主Agent是“项目经理”,Subagent是“各领域专员”。
    • Skill/Tool:是特工装备的“瑞士军刀”或“专业技能”,如开锁、黑客技术、多国语言等。
    • Workflow:是执行任务的“标准作业程序”,例如:侦察 -> 分析 -> 行动 -> 汇报。它定义了特工们如何协作。
  1. 支持系统层(后勤与保障)
    • Memory:是团队的“中央档案室”,存储历次任务的经验、目标信息、行为模式。支持长期、跨任务的知识积累。
    • Vector Database:是档案室里的“智能检索系统”,能根据“意思”而不仅仅是关键词,快速找到最相关的档案。
  1. 连接协议层(组织语言)
    • MCP:是整个组织的“标准通信协议与文书格式”。它确保首席智囊、特工、后勤部门之间能无缝沟通,无论他们来自哪个分部。它定义了“如何请求”和“如何回复”的格式,是系统集成的关键。

3. 综合实例详解:“阳澄湖大闸蟹公司”深度报告生成

场景:你(用户)要求AI系统生成一份《阳澄湖大闸蟹有限公司深度背景报告》。

3.1 工作流与数据流动全景

3.2 逐步拆解与概念对应

  1. 接收与拆解任务
    • 你的请求被转换为 Token序列,送入主Agent
    • 主Agent的LLM大脑根据预设的Workflow,进行任务规划,决定创建4个Subagent并行工作。此过程消耗Token,并受Context窗口大小限制。
  1. 子智能体并行工作
    • 市场价格 Subagent 需要最新信息,其LLM判断需调用 Search Skill。Subagent按 MCP协议 格式封装请求(“查询近期蟹券价格”),调用技能。
    • 养殖技术 Subagent 遇到专业问题(“湖蟹塘蟹区别”),其LLM决定采用 RAG框架。它通过MCP调用RAG技能,该技能去向量数据库中语义检索相关资料,并将结果返回。
  1. 综合与生成
    • 各Subagent将结果(Token序列)返回主Agent。主Agent的Context中现在包含了:原始指令、四个分报告、从长期Memory中调取的“用户喜欢数据图表”偏好。
    • 主Agent的LLM基于所有这些Token序列,开始生成最终报告的Token序列,最终解码为文本。
  1. 学习与闭环
    • 任务结束,系统可将“本次用户关注养殖技术”这一信息,结构化后存入长期Memory,使服务越用越智能。

关键点:整个过程中,Token 是流动的数据单元,MCP 是确保流转通畅的通信标准,Context 是每个Agent的临时工作区,Memory 是共享的持久化知识库。


4. 关键概念深度辨析

4.1 LLM vs. Agent:心脏 vs. 完整的人

维度LLM (大语言模型)Agent (智能体)
本质一个功能强大的函数。输入文本,输出文本。一个能够自主行动的完整系统或程序
核心能力语言理解与生成。预测下一个Token。感知、决策、执行、记忆。完成复杂目标。
比喻一个博学的“参谋”或“心脏”。一个配备了该参谋作为“大脑”的“特种兵”或“完整的人”。
关系Agent的核心推理引擎。没有LLM,Agent无法进行复杂思考。LLM能力的 “外骨骼”与“执行器” 。没有Agent,LLM只是一个聊天接口。

4.2 Skill vs. Tool:能力与接口

  • Skill (技能) :是从功能角度描述,指Agent能完成的一项任务,如“数据可视化”。它是一个比较上层的概念。
  • Tool (工具) :是从接口角度描述,是Skill的具体实现和调用端点。一个“数据可视化”技能,可能通过调用“图表生成API”这个工具来实现。
  • 通俗理解:你想“拧螺丝”(Skill),你可以选择用“手动螺丝刀”或“电动螺丝刀”(两种不同的Tools)。在MCP中,我们通常定义和调用的是Tool

4.3 RAG:作为框架 vs. 作为技能

  • 作为框架/方法论:这是其本质。它描述了一种“先检索,后增强,再生成”的解决已知问题的标准模式。如同“先查字典再写作文”的方法。
  • 作为技能:这是其封装形式。在构建Agent时,可以将整个RAG的复杂流程(连接向量库、检索、组合提示词)打包成一个简单的、可被调用的rag_tool。Agent只需要调用它,而无需关心内部细节。

4.4 Context Window vs. Memory:工作台 vs. 档案柜

特性Context Window (上下文窗口)Memory (长期记忆)
性质短期、临时的工作区。长期、持久的存储库。
功能存放当前任务相关的所有信息(指令、历史、检索结果),供LLM本次推理使用。存储历史交互中的关键信息(用户偏好、事实知识、操作记录),供未来任务调用。
生命周期随会话或请求开始而建立,结束而消失。跨会话、跨任务持久存在。
类比你桌面上当前正在处理的所有文件和便签。公司的整个档案室和数据库。
联系执行任务时,可以从Memory中检索相关信息,加载到Context中使用。任务结束后,可以将Context中有价值的信息,总结后存入Memory。

5. 补充:Token与工作流的动态视角

在整个工作流中,Token是唯一的数据载体和成本单位

  1. 输入Token:你的问题、从Memory检索的历史、从技能返回的结果,全部被转换为Token序列,填入Context。
  2. 处理/生成Token:LLM基于Context中的Token序列,计算并生成回答的Token序列。
  3. 成本计算:云服务API按 总消耗Token数(输入+输出) 计费。
  4. 核心限制:Context Window的大小(如128K Tokens),限制了单次交互能处理的信息总量。优化Prompt、精炼输入、管理Memory,本质都是在高效利用有限的Token资源。