🤖 跟小何一起学 AI | 基础概念篇

0 阅读11分钟

就在昨天晚上,小何正打开 GitHub 看看有什么新项目。翻着翻着,看到一个仓库的 README 上写着:“基于 MCP 协议实现的 AI Agent,支持动态加载 Skill,通过 Tool Calling 调用外部 API ……”

小何盯着屏幕看了十秒钟。

每个字都认识,但是连在一起完全不知道在说啥。

这种感觉已经不是第一次了。

现在不管是刷文章、看博客,还是跟同事吃饭闲聊,到处都是 “Token”、“Skill”、“Agent” 这些词。大家都聊得热火朝天,就小何一个人坐在旁边假装听懂了,其实脑子里一片空白。

……

不行,不能再装了。

小何终于下定决心,从 AI 基础概念开始,把零散的知识系统化梳理!

📜 AI 发展历史

在聊概念之前,我们先花两分钟了解一下 AI 是怎么走到今天的。

早期人工智能(1950s ~ 1990s)

故事要从 1950 年说起,那一年,英国数学家艾伦·图灵发表了一篇论文,标题叫《计算机器与智能(Computing Machinery and Intelligence)》。

他在论文中提出了一个问题:机器能思考吗?

为了回答这个问题,他设计了一个测试 —— 也就是大名鼎鼎的「图灵测试」。简单说就是:如果你跟一个东西聊天,分不清对面是人还是机器,那这台机器就可以被认为有智能。

这个想法放在 70 多年前,确实很超前。

到了 1956 年,一群科学家在达特茅斯学院开了个会,正式搞出了「人工智能(Artificial Intelligence)」这个词,从此 AI 成了一门正经学科。

早期的 AI 走的是「规则驱动」路线。什么意思呢?就是人类把各种知识和推理规则写进程序里,机器按规则办事。最典型的就是「专家系统」,比如 1980 年代 DEC 公司的 XCON 系统,能自动检查计算机硬件配置是否兼容,替公司省了不少钱。

但问题也很明显 —— 规则太多了写不过来,换个场景就抓瞎,所以这波 AI 热潮后来就凉了。

机器学习时代(1990s ~ 2010s)

再到后来大家发现,与其手动写规则,不如让机器自己从数据里学规律,这就是「机器学习」的核心思想。

打个比方:你想让机器认出猫的照片。规则驱动的做法是告诉机器 “猫有尖耳朵、有胡须、有尾巴……”,写一堆特征。而机器学习的做法是给机器看一万张猫的照片,让它自己琢磨猫长啥样。

2012 年是个转折点,多伦多大学的 AlexNet 用深度学习在图像识别比赛里把传统方法打得落花流水。深度学习用的是多层神经网络,层数越多,能学到的特征就越抽象、越厉害。

从此以后,AI 进入了「大数据 + 大算力 + 新算法」三驾马车并驾齐驱的时代。

大模型时代(2017 至今)

2017 年,Google 的团队发表了一篇论文《Attention Is All You Need》,提出了 Transformer 架构。这篇论文后来被引用了十几万次,基本上奠定了后面所有大模型的基础。

Transformer 用了一种叫「自注意力机制」的东西,让模型在处理一段文本的时候,能同时关注到所有位置的关系,不用像以前那样从头到尾一个字一个字地读,这让训练速度和效果都上了一个大台阶。

有了 Transformer,后面的事情大家就很熟悉了:

  • 2018 年,Google 出了 BERT,OpenAI 出了 GPT-1
  • 2020 年,GPT-3 横空出世,1750 亿参数,能写文章、写代码、翻译、问答
  • 2022 年底,ChatGPT 发布,直接让 AI 火出圈
  • 2023 年,GPT-4 支持了图片理解,多模态成为新方向
  • 2024 年开始,Claude、Gemini、DeepSeek 等各种大模型都冒出来了,AI Agent 也开始真正落地

AI 就这么走了 70 多年,中间热过也冷过好几轮,终于从实验室走进了每个人的生活。

🧩 核心概念

聊完了历史,下面进入正题,把那些让人头大的概念一个个拆开来讲。

LLM 大语言模型

LLM 是 Large Language Model 的缩写,翻译过来就是「大语言模型」。

把它想象成 AI 的「大脑」。ChatGPT、Claude、Gemini、DeepSeek,这些你听说过的 AI 产品,底层跑的都是某个 LLM。

它的核心能力就两件事:理解你说的话,然后生成回复。写代码、写文章、翻译、做数学题,本质上都是在「理解 → 生成」这个循环里打转。

那么“大”体现在哪呢?参数量。GPT-3 有 1750 亿个参数,GPT-4 更多。参数越多,模型能学到的规律就越复杂,能力也越强。当然,训练和运行的成本也越高。

Token 词元

Token 是 LLM 处理文本的最小单位。

你发给 AI 一句话,AI 不会直接把这句话整个吞下去。它会先把文本拆成一个个 Token,然后再处理。Token 可能是一个完整的单词,也可能是单词的一部分,甚至是一个标点符号。

举个例子,“I love coding” 这句话,可能会被拆成 3 个 Token:Ilovecoding。但 “unhappiness” 可能会被拆成 unhappiness 三个 Token。

为什么要关心这个?因为 Token 是计费单位。你调用大模型 API 的时候,服务商是按 Token 数量收费的。Token 用得越多,花的钱就越多。

另外一个原因,Token 数量直接决定了下个概念 —— Context Window 。

Context Window 上下文窗口

上下文窗口是 LLM 一次能处理的最大 Token 数量。

你可以把它理解成 AI 的「工作记忆」。窗口越大,AI 一次能看到的信息就越多,回答也越有上下文关联。

早期的 GPT-3 只有 4K Token 的上下文窗口,大概相当于 3000 个汉字。聊到后面,它就把前面说过的话忘了。现在的 Claude 支持 200K Token,差不多能塞进一整本书。

但窗口大也有大的烦恼。就算窗口够大,AI 也不一定能把中间的内容理解透。很多模型都有「迷失在中间」的问题 —— 如果重要信息恰好放在长文本的中间位置,AI 有时候会忽略它。

Prompt 提示词

Prompt 就是你给 AI 的指令。

你跟 ChatGPT 说“帮我写一首夸奖小何的诗”,这句话就是 Prompt。Prompt 写得好不好,直接决定了 AI 输出的质量,这就是为什么现在还有「提示词工程师」这个岗位。

Prompt 主要分两种:

  • System Prompt(系统提示词):相当于给 AI 定的「人设」和「行为准则」,整个会话期间都生效。比如“你是一个专业的法律顾问,回答要引用具体法条”。
  • User Prompt(用户提示词):就是你每次发的具体问题或指令。

打个比方,System Prompt 是演员拿到的角色剧本,User Prompt 是导演在每一幕喊的具体指令。剧本写得好,演员的发挥就稳定;指令下得清楚,这一幕就演得精准。

Rule 规则

Rule 是给 AI 设定的行为约束和边界。

跟 Prompt 不太一样,Rule 更偏向于「硬性限制」。比如:

  • 不能回答涉及暴力的内容
  • 回复不能超过 500 字
  • 代码示例必须用 TypeScript

有些 AI 产品会把 Rule 直接写进 System Prompt 里,有些会单独抽出来做一个配置项。本质上都是在告诉 AI:「你可以做这些,但不能做那些」。

Agent 智能体

Agent 是这两年 AI 圈最火的词之一。

如果说 LLM 是一个只会坐在那里回答问题的「超级大脑」,那 Agent 就是给这个大脑装上了手和脚 —— 它能感知环境、自主决策、调用工具,主动帮你把事情办了。

普通 LLM 的工作方式是你问一句它答一句,问完就结束。Agent 不一样,它会根据你的目标自己规划步骤,然后一步步执行,中间遇到问题还会调整计划。

比如你说“帮我调研一下最近 AI Agent 的发展趋势,写一份简要报告”。普通 LLM 会直接根据训练数据给你编一段,而 Agent 会上网搜索最新资讯、阅读相关文章、提取关键信息、整理分析、最后写出报告。

整个流程就像一个能独立干活的实习生,而且不用你手把手教。

Tool 工具

Tool 是 Agent 调用的外部能力。

LLM 本身只能做文本处理,它不能查天气、不能读数据库、不能发邮件,但通过 Tool Calling 机制,Agent 可以调用各种外部工具来完成这些操作。

关键点是:LLM 本身不执行这些操作。它只是生成一段「调用指令」,告诉外部系统“我要查成都的天气”,然后外部系统去执行,把结果返回给 LLM。

你可以把 Tool 理解成 Agent 的「四肢」,大脑想好要做什么,四肢去执行。

Skill 技能

Skill 是 2025 年 Anthropic 推出的一个概念。

如果说 Tool 是单一的工具(比如一把锤子),那 Skill 就是一套完整的「操作手册 + 工具包」。一个 Skill 是一个文件夹,里面装着让 Agent 完成某类任务所需的所有东西:说明文档、执行脚本、参考资源。

举个例子,你有一个「PDF 发票整理」的 Skill,里面可能包含:SKILL.md 写着怎么识别发票字段、怎么分类汇总;scripts 文件夹里有解析 PDF 的 Python 脚本;还有一个 Excel 模板。

Skill 的好处是可复用。做一次,以后 Agent 遇到类似任务就自动加载对应的 Skill,不用每次都重新教它,就像给 Agent 发了一本又一本的专业手册。

MCP 模型上下文协议

MCP 全称 Model Context Protocol,是 Anthropic 在 2024 年底推出的一个开放协议。

它解决的问题很实际:AI 想要调用外部工具和数据源,以前每对接一个就得写一套适配代码。10 个 Agent 对接 10 个工具,理论上要写 100 个适配器。

MCP 的思路是统一标准,工具方按 MCP 规范提供一个 MCP Server,Agent 方实现 MCP Client,这样不管你是连 GitHub、查数据库还是读文件系统,都走同一套协议。

有人把它比喻成 AI 界的 USB-C 接口 —— 一个统一的端口,什么设备都能插上来。

到 2026 年初,MCP 已经成为事实上的行业标准,Claude Code、Cursor、VS Code 等主流工具都支持它。

ACP 智能体客户端协议

ACP 全称 Agent Client Protocol,是 Zed Industries 在 2025 年发布的开放标准。

跟 MCP 的定位不同,ACP 关注的是代码编辑器和 AI 编码 Agent 之间的通信。MCP 解决的是「Agent ↔ 工具」的连接,ACP 解决的是「编辑器 ↔ Agent」的连接。

简单说,MCP 让 Agent 能用各种工具,ACP 让编辑器能调度各种 Agent。两者是互补关系,不是竞争关系。

ACP 基于 JSON-RPC 2.0 协议,通过标准输入输出(stdio)通信。任何支持 ACP 的编辑器都能使用任何 ACP 兼容的 Agent,实现了「即插即用」。

目前 ACP 还在发展阶段,生态没有 MCP 那么成熟,但方向是对的。

以后写代码大概是这么个流程:编辑器通过 ACP 调度 Agent,Agent 通过 MCP 调用各种工具,各司其职。

📝 总结

回过头来看,这些概念其实是层层递进的关系:

  • LLM 是底层的大脑,负责理解和生成
  • Token 是它的语言单位,Context Window 是它的记忆容量
  • PromptRule 是你给它下指令的方式
  • Agent 把 LLM 包装成一个能自主行动的智能体
  • Tool 是它的手脚,Skill 是它的专业手册
  • MCPACP 是连接这一切的通信标准

搞清楚这些,我们就有了一个完整的知识框架,后面不管是用 AI 工具还是自己搭 Agent,心里就都有底啦 ~

🍵 写在最后

我是 xiaohe0601,热爱代码,目前专注于 Web 前端领域。

欢迎关注我的微信公众号「小何不会写代码」,我会不定期分享一些开发心得、最佳实践以及技术探索等内容,希望能够帮到你!