第11讲:AI的边界——局限、趋势与持续学习
📑 目录
- 认知冲突:AI能写诗,但不会关灯
- AI做不到的事
- 局限一:因果推理能力缺失
- 局限二:长期规划与连贯性
- 局限三:可靠的事实性
- 局限四:没有自我意识
- 局限五:缺乏真正的理解
- 未来趋势一:多模态
- 未来趋势二:Long Context
- 未来趋势三:端侧模型与Agent
- 未来趋势四:推理能力提升(o1/o3范式)
- 未来趋势五:开源生态
- 持续学习路线:5个阶段
- 反模式:认为AI会"一夜之间取代所有工作"
- 全系列总结:从学到用,从理解到创造
- 自测卡片
- 上瘾学习路径
认知冲突:AI能写诗,但不会关灯
GPT-4可以:
- 用40种风格写一首关于月亮的诗 ✅
- 帮你调试一段复杂的并发代码 ✅
- 解释量子力学的基本原理 ✅
- 写一份商业计划书 ✅
但让一个机器人走到你家门口,识别门把手,旋转它,走进来,关灯——这个对5岁孩子来说轻而易举的事——当前的AI做不到。
认知冲突的核心: AI的能力分布和人类完全不同。它在某些方面超人类,在某些方面远不如一只猫。知道"它不能做什么",和知道"它能做什么"同等重要。
AI做不到的事
一张图总结当前AI的核心局限:
符号推理 ──────── 强
│
│ 因果推理 ──── 弱
│ │
│ │ 长期规划 ── 极弱
│ │ │
│ │ │ 可靠事实性 ── 不存在
│ │ │ │
│ │ │ │ 自我意识 ── 无
│ │ │ │ │
└──┴──┴──┴──┘
真正的理解 ── 争议中
局限一:因果推理能力缺失
什么是因果推理?
人类:"如果我按下开关,灯会亮,因为电路接通了" LLM:"我见过大量'按下开关→灯亮'的文本,所以下一个词是'亮'"
核心区别
| 人类 | LLM | |
|---|---|---|
| 学习方式 | 通过互动理解因果关系 | 通过文本统计关联 |
| 反事实推理 | "如果当时没按开关会怎样?" | 模拟基于统计,不是因果模型 |
| 干预能力 | 知道改变什么会导致什么 | 没有因果模型 |
| 样本效率 | 少数例子就能学会因果 | 需要海量数据 |
经典实验
"如果球滚向左边,铃铛会响。现在球滚向了右边,铃铛会怎样?"
- 人类5岁孩子:铃铛不会响(推理出"球在左边"是原因)
- LLM:可能会说"铃铛也可能会响"(因为"球"和"铃铛"经常一起出现)
为什么这很重要?
因为因果推理是科学发现、政策制定、工程设计的基础。AI可以帮你写代码,但不能帮你设计实验;可以帮你总结文章,但不能帮你做因果推断。
局限二:长期规划与连贯性
问题
GPT-4在单轮对话中可能表现得很有规划性,但在长周期、多步骤的任务中:
你:写一本10万字的小说
AI:(写了一段精彩的开头)
你:继续
AI:(写了500字,但和前文有些矛盾)
你:再继续
AI:(忘记了主角的名字)
你:记得保持人物性格一致
AI:(好,继续写,但风格变了)
根本原因
- 上下文窗口有限:即使有128K上下文,也装不下一本书
- 没有持久记忆:每次对话基本上是"重新开始"
- 没有递归规划:不能把大任务分解成子任务并追踪进度
人类 vs AI规划
| 维度 | 人类 | AI |
|---|---|---|
| 目标分解 | 自然做到 | 需要显式Prompt |
| 进度追踪 | 内在感知 | 需要外部状态 |
| 纠错 | 即时发现 | 需要外部验证 |
| 长期一致 | 自然保持 | 容易遗忘 |
局限三:可靠的事实性
这是最危险的局限,也是前面第10讲的核心议题。
简单的现实:
- AI的"知识"来自训练数据,不是实时数据库
- AI没有"我在编造"的自我感知
- AI的自信程度和正确程度没有必然关系
场景对比
问:"2024年巴黎奥运会开幕式是在几点?"
人类不知道:会直接说"我不确定"
AI不知道:会基于相关文本"编造"一个合理但错误的答案
人类说错了:你会记住"这个人不可靠"
AI说错了:你会想"是不是我记错了?"
这种不对称性是最危险的。 AI的错误不如人类的错误明显——它们看起来太像正确了。
什么时候这个问题最严重?
- 实时信息:新闻、股价、天气
- 专业领域:医疗、法律、金融(错误代价极高)
- 引用和来源:AI编造的论文引用看起来像真的
- 数字和计算:看似简单但容易出错
局限四:没有自我意识
AI有"意识"吗?
当前共识:没有。 LLM是复杂的模式匹配系统,不是有意识的实体。
区分方式
| 行为 | AI能做到吗? | 是真意识吗? |
|---|---|---|
| 说"我有意识" | ✅ | ❌(只是文本生成) |
| 表达情感 | ✅ | ❌(模拟不是感受) |
| 声称自己累了 | ✅ | ❌("累"是训练数据中的模式) |
| 创造性思维 | ✅(有限的) | ❌(重组不是原创) |
| 自我反思 | ✅(有限的) | ❌(基于Prompt的) |
"中文房间"思想实验
一个人(不懂中文)在一间屋子里,按照规则手册把收到的中文字符对应到输出的中文字符。从外面看起来,这个房间"懂中文"——但房间里的人其实不懂。
LLM就是那个"房间"。它生成的内容看起来很智能,但它并不理解自己在说什么。
为什么这点重要?
因为理解"AI没有意识"会让你:
- 不过度信任AI的判断(它不是"思考",是"匹配")
- 不会和AI争论价值观(它的价值观是你的训练数据)
- 正确看待AI的"情绪"(它不是真的开心或生气)
局限五:缺乏真正的理解
LLM到底"理解"吗?
这个问题学术界有争议。但有一个关键实验:
合取谬误测试:
琳达31岁,单身,坦率直言,主修哲学。
作为学生,她非常关心歧视和社会正义问题。
问题:以下哪个更可能?
A. 琳达是银行出纳员
B. 琳达是银行出纳员,并且活跃于女权运动
人类倾向选B(但逻辑上A更可能,因为B⊆A)。 LLM也会选B——因为它模仿了人类的偏见,而不是理解了逻辑。
真正理解 vs 统计模仿
| 真正理解 | 统计模仿 | |
|---|---|---|
| 推理 | 基于因果模型 | 基于模式匹配 |
| 泛化 | 能应对全新场景 | 分布外表现差 |
| 解释 | 给出真正原因 | 给出"听起来合理"的原因 |
| 纠错 | 理解为什么错 | 重新匹配模式 |
| 学习 | 举一反三 | 需要大量数据 |
对实际工作的影响
- 不要指望AI理解你的业务上下文——它只是见过类似的文本
- 不要觉得AI"懂了你的意思"——它在匹配你的词
- 不要相信AI的"解释"——那是生成的文本,不是它的思考过程
未来趋势一:多模态
从"看懂文字"到"看懂世界"
2024-2025年最关键的趋势:AI不再只看文字。
| 模态 | 代表模型 | 能力 |
|---|---|---|
| 文本 | GPT-4, Claude | 基础能力 |
| 图片 | GPT-4V, Gemini | 看图说话、图表分析 |
| 音频 | Whisper, Gemini | 语音识别、音乐理解 |
| 视频 | Gemini, Sora | 视频理解与生成 |
| 代码 | Claude, Copilot | 代码理解与生成 |
多模态的杀手场景
- 医学影像 + 病历 → 诊断建议
- UI截图 → 代码生成
- 白板照片 → 可编辑文档
- 视频监控 → 异常检测
多模态的挑战
- 对齐问题:文本中的"红色"和图片中的红色是一回事吗?
- 数据稀缺:标注的多模态数据比纯文本数据贵得多
- 推理成本:处理图片/视频比文本贵10-100倍
未来趋势二:Long Context
Context Window的爆炸式增长
GPT-3 (2020): 2K tokens ≈ 1,500词
GPT-4 (2023): 8K/32K ≈ 24,000词
Claude 2 (2023): 100K ≈ 75,000词
Gemini 1.5 (2024): 1M ≈ 750,000词
GPT-4-128K (2024): 128K ≈ 96,000词
Long Context意味着什么?
- 整本书分析:一次读完整本《三体》
- 超长对话:几小时的对话历史不丢
- 代码库理解:一次给整个代码库
- 长视频理解:看懂一部电影
Long Context的"骗局"
Attention机制的O(n²)复杂度没有被解决——只是工程优化掩盖了它。
"Lost in the Middle"问题:
模型对输入中间部分的信息记忆最差
开头和结尾记住,中间忘掉
所以长上下文不一定等于好的理解
未来趋势三:端侧模型与Agent
端侧模型
AI从云端走向本地设备:
| 优势 | 劣势 |
|---|---|
| 隐私(数据不出设备) | 算力有限 |
| 离线可用 | 模型能力受限 |
| 零延迟 | 更新困难 |
| 低成本 | 模型小 |
代表: Llama 3.1 8B, Phi-3, Gemma 2
Agent(智能体)
从"被动回答"到"主动执行":
传统AI: 用户问 → AI回答
Agent AI: 用户给目标 → AI规划 → 执行 → 反馈 → 迭代
Agent的关键能力:
- 工具使用:调用API、搜网页、发邮件
- 记忆管理:短期记忆(对话)、长期记忆(数据库)
- 规划执行:分解任务、按顺序执行
- 自我反思:出错了自己修正
Agent是2025-2026年最大的AI趋势。 但Agent的可靠性仍然是核心挑战——一个执行100步的Agent,成功概率是每一步的乘积。
未来趋势四:推理能力提升(o1/o3范式)
从"快思考"到"慢思考"
OpenAI的o1/o3模型开启了一个新范式:
传统LLM(快思考):
输入 → 直接生成输出(~0.5秒/token)
"直觉式"回答
o1/o3(慢思考):
输入 → 内部推理(Chain of Thought)→ 验证 → 输出
"深思熟虑"式回答(几秒到几分钟)
能力对比
| 任务 | 传统LLM | o1/o3范式 |
|---|---|---|
| 常识问答 | 强 | 更强 |
| 数学推理 | 弱 | 显著提升 |
| 编程竞赛 | 中 | 金牌水平 |
| 科学推理 | 弱 | 接近专家 |
| 创意写作 | 强 | 略弱(过于审慎) |
核心洞察
推理时间的增加 ≈ 智能的增长
但这是有代价的:
- 延迟从秒级变成分钟级
- 成本增加10-100倍
- 不是所有任务都需要"深思熟虑"
未来趋势五:开源生态
开源的爆发
2023-2025年,开源LLM经历了指数级增长:
Llama 2 (2023) → Llama 3 (2024) → Llama 3.1 (2024) → Llama 4 (2025)
Mistral (2023) → Mixtral (2024) → Mistral Large (2024)
Qwen (2023) → Qwen 2.5 (2024) → Qwen 3 (2025)
开源 vs 闭源
| 维度 | 闭源(OpenAI/Anthropic) | 开源(Llama/Qwen) |
|---|---|---|
| 能力 | 领先6-12个月 | 追赶中 |
| 定制 | 有限 | 完全控制 |
| 成本 | 按Token付费 | 自己部署 |
| 隐私 | 数据给第三方 | 数据自控 |
| 社区 | 黑盒 | 透明可审计 |
开源的意义
- 降低门槛:中小公司也能用AI
- 可审计性:代码和权重公开,安全性更高
- 定制化:针对特定领域微调
- 去中心化:不依赖少数公司
持续学习路线:5个阶段
学完这11讲,你已经有AI的全局视野。接下来怎么持续成长?
阶段一:实践者(1-3个月)
目标:能用AI工具解决实际问题
技能:
- 熟练使用Prompt Engineering
- 能调API开发简单应用
- 理解基本概念(Token、温度、Top-p)
- 会做基本的Eval
实践:用AI搭一个个人助手
阶段二:开发者(3-6个月)
目标:能开发生产级AI应用
技能:
- RAG系统开发
- Agent框架使用(LangChain/CrewAI)
- 模型微调基础(LoRA)
- AI架构设计
实践:做一个带RAG的客服系统
阶段三:研究者(6-12个月)
目标:理解AI底层原理,能进行一定创新
技能:
- 理解Transformer架构
- 能读懂论文
- 模型评估方法论
- 对齐和安全基础
实践:复现一篇论文的核心实验
阶段四:专家(1-2年)
目标:在特定领域有深入理解
技能:
- 能训练/微调模型
- 深入了解某个方向(Agent/Safety/多模态)
- 能发表技术文章或演讲
- 指导团队做AI项目
实践:开源一个AI项目
阶段五:引领者(持续)
目标:推动AI发展的方向
技能:
- 跨领域创新能力
- 技术领导力
- 伦理思考能力
- 构建AI产品的能力
实践:在AI领域做出原创贡献
反模式:认为AI会"一夜之间取代所有工作"
不合理的预期
❌ "AI会取代所有程序员"
❌ "半年内AI就能做所有工作"
❌ "不用学了,AI都会替你做"
现实
- AI增强工作,而不是取代工作——就像Excel没有取代会计,而是让会计更高效
- 取代的是"任务",不是"职业"——AI取代的是"写周报"这个任务,不是"项目经理"这个职业
- 掌握AI的人会取代不掌握AI的人——不是AI取代你,是会用AI的人取代你
真正会发生的
| 职业类型 | AI的影响 | 建议 |
|---|---|---|
| 重复性白领 | 显著替代 | 转向AI+人工协作 |
| 创造性工作 | 增强 | 学会用AI放大创意 |
| 专业服务 | 效率提升 | AI辅助,人工把关 |
| 体力劳动 | 影响有限 | 长期可能被机器人取代 |
| 人际交互 | 影响最小 | 情感连接难以替代 |
健康的视角
- AI是工具,不是取代者
- 学习和适应是唯一的安全感
- 越了解AI的边界,越能有效使用它
全系列总结:从学到用,从理解到创造
这11讲带你走完了AI通识的完整路径:
第1-3讲:历史与基础
从图灵到Transformer → 知道AI从哪里来
第4-6讲:核心能力
Prompt → RAG → Fine-tuning → 知道怎么用
第7-8讲:进阶应用
Agent → 多模态 → 知道能做什么
第9-10讲:生产实践
架构 → 安全 → 评估 → 知道怎么做得靠谱
第11讲:边界的思考
局限 → 趋势 → 持续学习 → 知道往哪里去
最后一句话
AI不是终点,而是起点。 它把我们从不擅长的事情中解放出来,让我们更专注于真正重要的事——思考、创造、连接。了解它的边界,是为了更好地使用它的能力。
自测卡片
🎯 问题1:LLM能做因果推理吗?为什么?
答案:不能(目前)。LLM的推理基于统计关联,不是因果模型。它知道"A和B经常一起出现",但不知道"是A导致了B"。所以它会模仿因果推理(看起来像在推理,实际在匹配模式),但对反事实、干预等因果推理核心任务表现很差。
🎯 问题2:为什么说LLM的"自信"和"正确"没有必然关系?
答案:LLM的语言输出概率和事实正确性是两回事。模型以高概率输出"爱因斯坦1921年获得诺贝尔平和奖"不是因为这是事实,而是因为训练数据中"爱因斯坦""诺贝尔"等词经常共现。这种概率高 ≠ 事实正确的错位是最危险的。
🎯 问题3:"中文房间"思想实验说明了什么?
答案:说明模拟理解 ≠ 真正理解。LLM就像中文房间里的人——它能正确输出,但它不知道自己输出的是什么意思。所以不要把AI的智能理解为"理解"或"思考"。
🎯 问题4:端侧模型(小模型)相比云端大模型有什么优势和劣势?
答案:优势:隐私保护、离线可用、零延迟、低成本。劣势:模型能力受限、无法处理复杂推理、更新困难。适合的场景:分类、摘要、简单对话。不适合的场景:复杂推理、创意写作、专业领域。
🎯 问题5:o1/o3模型的"慢思考"方式和传统LLM的"快思考"有什么区别?
答案:传统LLM直接生成输出(直觉式),o1/o3在内部做Chain of Thought推理后再输出(深思式)。慢思考在数学、编程、科学推理上有显著提升,但延迟和成本也大幅增加。不是所有任务都需要慢思考。
🎯 问题6:学完这11讲后,你的下一步建议是什么?
答案:选一个方向深耕:①实践者→用AI工具搭建个人项目;②开发者→做一个完整的AI应用(RAG/Agent);③研究者→深入理解Transformer和论文。关键不是学了多少,而是用了多少。