🤖 跟小何一起学 AI ｜基础概念篇就在昨天晚上，小何正打开 GitHub 看看有什么新项目。翻着翻着，看到一个仓库

就在昨天晚上，小何正打开 GitHub 看看有什么新项目。翻着翻着，看到一个仓库的 README 上写着：“基于 MCP 协议实现的 AI Agent，支持动态加载 Skill，通过 Tool Calling 调用外部 API ……”

小何盯着屏幕看了十秒钟。

每个字都认识，但是连在一起完全不知道在说啥。

这种感觉已经不是第一次了。

现在不管是刷文章、看博客，还是跟同事吃饭闲聊，到处都是 “Token”、“Skill”、“Agent” 这些词。大家都聊得热火朝天，就小何一个人坐在旁边假装听懂了，其实脑子里一片空白。

……

不行，不能再装了。

小何终于下定决心，从 AI 基础概念开始，把零散的知识系统化梳理！

📜 AI 发展历史

在聊概念之前，我们先花两分钟了解一下 AI 是怎么走到今天的。

早期人工智能（1950s ~ 1990s）

故事要从 1950 年说起，那一年，英国数学家艾伦·图灵发表了一篇论文，标题叫《计算机器与智能（Computing Machinery and Intelligence）》。

他在论文中提出了一个问题：机器能思考吗？

为了回答这个问题，他设计了一个测试 —— 也就是大名鼎鼎的「图灵测试」。简单说就是：如果你跟一个东西聊天，分不清对面是人还是机器，那这台机器就可以被认为有智能。

这个想法放在 70 多年前，确实很超前。

到了 1956 年，一群科学家在达特茅斯学院开了个会，正式搞出了「人工智能（Artificial Intelligence）」这个词，从此 AI 成了一门正经学科。

早期的 AI 走的是「规则驱动」路线。什么意思呢？就是人类把各种知识和推理规则写进程序里，机器按规则办事。最典型的就是「专家系统」，比如 1980 年代 DEC 公司的 XCON 系统，能自动检查计算机硬件配置是否兼容，替公司省了不少钱。

但问题也很明显 —— 规则太多了写不过来，换个场景就抓瞎，所以这波 AI 热潮后来就凉了。

机器学习时代（1990s ~ 2010s）

再到后来大家发现，与其手动写规则，不如让机器自己从数据里学规律，这就是「机器学习」的核心思想。

打个比方：你想让机器认出猫的照片。规则驱动的做法是告诉机器 “猫有尖耳朵、有胡须、有尾巴……”，写一堆特征。而机器学习的做法是给机器看一万张猫的照片，让它自己琢磨猫长啥样。

2012 年是个转折点，多伦多大学的 AlexNet 用深度学习在图像识别比赛里把传统方法打得落花流水。深度学习用的是多层神经网络，层数越多，能学到的特征就越抽象、越厉害。

从此以后，AI 进入了「大数据 + 大算力 + 新算法」三驾马车并驾齐驱的时代。

大模型时代（2017 至今）

2017 年，Google 的团队发表了一篇论文《Attention Is All You Need》，提出了 Transformer 架构。这篇论文后来被引用了十几万次，基本上奠定了后面所有大模型的基础。

Transformer 用了一种叫「自注意力机制」的东西，让模型在处理一段文本的时候，能同时关注到所有位置的关系，不用像以前那样从头到尾一个字一个字地读，这让训练速度和效果都上了一个大台阶。

有了 Transformer，后面的事情大家就很熟悉了：

2018 年，Google 出了 BERT，OpenAI 出了 GPT-1
2020 年，GPT-3 横空出世，1750 亿参数，能写文章、写代码、翻译、问答
2022 年底，ChatGPT 发布，直接让 AI 火出圈
2023 年，GPT-4 支持了图片理解，多模态成为新方向
2024 年开始，Claude、Gemini、DeepSeek 等各种大模型都冒出来了，AI Agent 也开始真正落地

AI 就这么走了 70 多年，中间热过也冷过好几轮，终于从实验室走进了每个人的生活。

🧩 核心概念

聊完了历史，下面进入正题，把那些让人头大的概念一个个拆开来讲。

LLM 大语言模型

LLM 是 Large Language Model 的缩写，翻译过来就是「大语言模型」。

把它想象成 AI 的「大脑」。ChatGPT、Claude、Gemini、DeepSeek，这些你听说过的 AI 产品，底层跑的都是某个 LLM。

它的核心能力就两件事：理解你说的话，然后生成回复。写代码、写文章、翻译、做数学题，本质上都是在「理解 → 生成」这个循环里打转。

那么“大”体现在哪呢？参数量。GPT-3 有 1750 亿个参数，GPT-4 更多。参数越多，模型能学到的规律就越复杂，能力也越强。当然，训练和运行的成本也越高。

Token 词元

Token 是 LLM 处理文本的最小单位。

你发给 AI 一句话，AI 不会直接把这句话整个吞下去。它会先把文本拆成一个个 Token，然后再处理。Token 可能是一个完整的单词，也可能是单词的一部分，甚至是一个标点符号。

举个例子，“I love coding” 这句话，可能会被拆成 3 个 Token：I、love、coding。但 “unhappiness” 可能会被拆成 un、happi、ness 三个 Token。

为什么要关心这个？因为 Token 是计费单位。你调用大模型 API 的时候，服务商是按 Token 数量收费的。Token 用得越多，花的钱就越多。

另外一个原因，Token 数量直接决定了下个概念 —— Context Window 。

Context Window 上下文窗口

上下文窗口是 LLM 一次能处理的最大 Token 数量。

你可以把它理解成 AI 的「工作记忆」。窗口越大，AI 一次能看到的信息就越多，回答也越有上下文关联。

早期的 GPT-3 只有 4K Token 的上下文窗口，大概相当于 3000 个汉字。聊到后面，它就把前面说过的话忘了。现在的 Claude 支持 200K Token，差不多能塞进一整本书。

但窗口大也有大的烦恼。就算窗口够大，AI 也不一定能把中间的内容理解透。很多模型都有「迷失在中间」的问题 —— 如果重要信息恰好放在长文本的中间位置，AI 有时候会忽略它。

Prompt 提示词

Prompt 就是你给 AI 的指令。

你跟 ChatGPT 说“帮我写一首夸奖小何的诗”，这句话就是 Prompt。Prompt 写得好不好，直接决定了 AI 输出的质量，这就是为什么现在还有「提示词工程师」这个岗位。

Prompt 主要分两种：

System Prompt（系统提示词）：相当于给 AI 定的「人设」和「行为准则」，整个会话期间都生效。比如“你是一个专业的法律顾问，回答要引用具体法条”。
User Prompt（用户提示词）：就是你每次发的具体问题或指令。

打个比方，System Prompt 是演员拿到的角色剧本，User Prompt 是导演在每一幕喊的具体指令。剧本写得好，演员的发挥就稳定；指令下得清楚，这一幕就演得精准。

Rule 规则

Rule 是给 AI 设定的行为约束和边界。

跟 Prompt 不太一样，Rule 更偏向于「硬性限制」。比如：

不能回答涉及暴力的内容
回复不能超过 500 字
代码示例必须用 TypeScript

有些 AI 产品会把 Rule 直接写进 System Prompt 里，有些会单独抽出来做一个配置项。本质上都是在告诉 AI：「你可以做这些，但不能做那些」。

Agent 智能体

Agent 是这两年 AI 圈最火的词之一。

如果说 LLM 是一个只会坐在那里回答问题的「超级大脑」，那 Agent 就是给这个大脑装上了手和脚 —— 它能感知环境、自主决策、调用工具，主动帮你把事情办了。

普通 LLM 的工作方式是你问一句它答一句，问完就结束。Agent 不一样，它会根据你的目标自己规划步骤，然后一步步执行，中间遇到问题还会调整计划。

比如你说“帮我调研一下最近 AI Agent 的发展趋势，写一份简要报告”。普通 LLM 会直接根据训练数据给你编一段，而 Agent 会上网搜索最新资讯、阅读相关文章、提取关键信息、整理分析、最后写出报告。

整个流程就像一个能独立干活的实习生，而且不用你手把手教。

Tool 工具

Tool 是 Agent 调用的外部能力。

LLM 本身只能做文本处理，它不能查天气、不能读数据库、不能发邮件，但通过 Tool Calling 机制，Agent 可以调用各种外部工具来完成这些操作。

关键点是：LLM 本身不执行这些操作。它只是生成一段「调用指令」，告诉外部系统“我要查成都的天气”，然后外部系统去执行，把结果返回给 LLM。

你可以把 Tool 理解成 Agent 的「四肢」，大脑想好要做什么，四肢去执行。

Skill 技能

Skill 是 2025 年 Anthropic 推出的一个概念。

如果说 Tool 是单一的工具（比如一把锤子），那 Skill 就是一套完整的「操作手册 + 工具包」。一个 Skill 是一个文件夹，里面装着让 Agent 完成某类任务所需的所有东西：说明文档、执行脚本、参考资源。

举个例子，你有一个「PDF 发票整理」的 Skill，里面可能包含：SKILL.md 写着怎么识别发票字段、怎么分类汇总；scripts 文件夹里有解析 PDF 的 Python 脚本；还有一个 Excel 模板。

Skill 的好处是可复用。做一次，以后 Agent 遇到类似任务就自动加载对应的 Skill，不用每次都重新教它，就像给 Agent 发了一本又一本的专业手册。

MCP 模型上下文协议

MCP 全称 Model Context Protocol，是 Anthropic 在 2024 年底推出的一个开放协议。

它解决的问题很实际：AI 想要调用外部工具和数据源，以前每对接一个就得写一套适配代码。10 个 Agent 对接 10 个工具，理论上要写 100 个适配器。

MCP 的思路是统一标准，工具方按 MCP 规范提供一个 MCP Server，Agent 方实现 MCP Client，这样不管你是连 GitHub、查数据库还是读文件系统，都走同一套协议。

有人把它比喻成 AI 界的 USB-C 接口 —— 一个统一的端口，什么设备都能插上来。

到 2026 年初，MCP 已经成为事实上的行业标准，Claude Code、Cursor、VS Code 等主流工具都支持它。

ACP 智能体客户端协议

ACP 全称 Agent Client Protocol，是 Zed Industries 在 2025 年发布的开放标准。

跟 MCP 的定位不同，ACP 关注的是代码编辑器和 AI 编码 Agent 之间的通信。MCP 解决的是「Agent ↔ 工具」的连接，ACP 解决的是「编辑器 ↔ Agent」的连接。

简单说，MCP 让 Agent 能用各种工具，ACP 让编辑器能调度各种 Agent。两者是互补关系，不是竞争关系。

ACP 基于 JSON-RPC 2.0 协议，通过标准输入输出（stdio）通信。任何支持 ACP 的编辑器都能使用任何 ACP 兼容的 Agent，实现了「即插即用」。

目前 ACP 还在发展阶段，生态没有 MCP 那么成熟，但方向是对的。

以后写代码大概是这么个流程：编辑器通过 ACP 调度 Agent，Agent 通过 MCP 调用各种工具，各司其职。

📝 总结

回过头来看，这些概念其实是层层递进的关系：

LLM 是底层的大脑，负责理解和生成
Token 是它的语言单位，Context Window 是它的记忆容量
Prompt 和 Rule 是你给它下指令的方式
Agent 把 LLM 包装成一个能自主行动的智能体
Tool 是它的手脚，Skill 是它的专业手册
MCP 和 ACP 是连接这一切的通信标准

搞清楚这些，我们就有了一个完整的知识框架，后面不管是用 AI 工具还是自己搭 Agent，心里就都有底啦～

🍵 写在最后

我是 xiaohe0601，热爱代码，目前专注于 Web 前端领域。

欢迎关注我的微信公众号「小何不会写代码」，我会不定期分享一些开发心得、最佳实践以及技术探索等内容，希望能够帮到你！

🤖 跟小何一起学 AI ｜ 基础概念篇