AI领域的术语层出不穷,很容易让人眼花缭乱。下面我梳理一下包括 MCP 和 Agent 在内的一系列核心词汇,并将它们分成了基础概念、技术架构和应用场景三类,方便大家理解和查阅。
📚 AI核心词汇分类速查
基础概念篇
- 人工智能 (AI): 模拟人类智能的机器系统,能执行通常需要人类智能的任务 。
- 大语言模型 (LLM): 基于海量文本数据训练而成的深度学习模型,能够理解和生成人类语言,是当前AI应用的核心引擎 。
- 生成式AI (GenAI): 专注于创造新内容(如文本、图像、音频)的AI技术分支,其核心是生成而非仅仅分析 。
- 通用人工智能 (AGI): 一种 hypothetical 的AI,具备像人类一样理解、学习和应用智能解决任何问题的能力,是AI发展的终极目标 。
- 多模态 (Multimodal): 指AI模型能够同时处理和理解多种类型的信息,例如文本、图像、音频和视频 。
技术架构与能力篇
- MCP (模型上下文协议): 一个由Anthropic推出的开放标准。它就像AI应用的“万能插座”或“USB-C接口”,旨在标准化大语言模型如何连接外部数据源和工具(如数据库、API),让AI能更轻松地获取实时信息和执行操作 。
- Agent (智能体): 一个能够理解用户指令、自主规划步骤,并调用外部工具来执行任务的AI系统。它像一个执行者,但决策和行动通常由用户指令触发 。
- Agentic AI (自主型AI): 代表比普通Agent更高级的形态。它不仅执行任务,更具备自主设定目标、进行复杂决策、自我反思和持续优化的能力,更像一个能与用户共创的伙伴 。
- RAG (检索增强生成): 一种技术框架,让LLM在生成答案前,先从外部知识库中检索相关信息,从而有效减少“幻觉”,提高回答的准确性和时效性 。
- 微调 (Fine-tuning): 在已训练好的大模型基础上,使用特定领域的数据进行二次训练,使其在该领域的表现更佳、更专业 。
常见应用与问题篇
- 提示工程 (Prompt Engineering): 通过设计和优化输入给AI的指令(即提示词),来引导模型生成更符合预期的结果 。
- Token (词元): 模型处理文本时的最小单位。可以是一个词,也可以是词的一部分或一个字符。模型的计费和上下文长度通常以Token数量计算 。
- 幻觉 (Hallucination): 指模型生成了看似合理但实际错误或无意义的内容,这是当前LLM需要重点克服的问题之一 。
- 深度伪造 (Deepfake): 利用AI技术(特别是深度学习)生成的逼真的虚假图像、音频或视频,可能带来信息安全和伦理风险 。
深度解读 LLM
LLM 是 大语言模型 的英文缩写,全称是 Large Language Model。
结合刚才的词汇表,可以从这几个维度来理解它:
- 核心定义:它是一个用海量文本数据训练出来的深度学习模型。简单来说,它的核心能力就是理解和生成人类语言。
- 它的“大脑”作用:如果把你现在用到的各种AI应用(比如智能客服、写作助手)看作一个“机器人”,那LLM就是它的“大脑”。它负责思考、理解和生成回复,但自己可能不直接去执行具体动作(比如帮你查天气)。
- 如何获取信息:由于LLM的知识有“截止日期”(训练数据的截止时间),它通常需要结合其他技术来获取新信息或执行具体任务。例如,通过RAG(检索增强生成) 技术连接外部数据库来获取最新信息,或者作为Agent(智能体) 的“大脑”来规划如何调用工具完成任务。
LLM的“组合拳”
可以把 LLM 想象成一个知识渊博但双手被绑住的学者,它需要借助其他技术来“长出手脚”和“更新知识”:
🧠 LLM + RAG = 带知识库的专家
解决的问题:LLM 的知识有截止日期,且可能产生幻觉。
工作原理:
- 你提问:“2024年巴黎奥运会中国队拿了多少金牌?”
- RAG 检索:系统先去外部知识库(如最新数据库、网页)搜索相关信息
- LLM 生成:LLM 基于检索到的真实数据,生成准确答案
实际应用:企业智能客服(基于最新产品文档回答问题)、学术研究助手
🧠 LLM + Agent = 会动手的执行者
解决的问题:LLM 只能动嘴,不能动“手”。
工作原理:
- 你指令:“帮我订下周五下午去上海的机票”
- LLM 规划:理解意图,拆解步骤(查航班 → 比价格 → 选座位 → 支付)
- Agent 执行:调用外部工具(如航班API、支付接口)一步步完成操作
实际应用:个人助理(帮你发邮件、订会议)、自动化工作流
🧠 LLM + MCP = 标准化“万能插头”
解决的问题:以前每个工具都需要单独给 AI 写接口代码,太麻烦。
工作原理:
- MCP 协议:像 USB-C 接口一样,统一了 LLM 连接外部工具的标准
- 即插即用:只要工具支持 MCP,LLM 就能直接调用,无需重复开发
实际应用:让 AI 无缝连接你的数据库、本地文件、设计软件等
🧠 LLM + 多模态 = 能看懂世界的通才
解决的问题:传统 LLM 只能处理文字。
工作原理:
- LLM + 图像:识别图片内容、生成图像描述
- LLM + 音频:语音交互、音乐生成
- LLM + 视频:理解视频内容、自动剪辑
实际应用:ChatGPT 看图功能、Midjourney 文生图、Sora 文生视频
🔄 完整协同场景举例
场景:帮老板准备一份竞品分析报告
| 技术组合 | 在这个场景中的作用 |
|---|---|
| LLM | 大脑核心,理解任务、规划报告框架 |
| RAG | 联网搜索最新的竞品新闻和财报 |
| MCP | 连接公司数据库获取内部销售数据 |
| 多模态 | 分析竞品发布会视频截图 |
| Agent | 自动将数据整理成图表,发送邮件给老板 |