第11讲:AI的边界——局限、趋势与持续学习

5 阅读16分钟

第11讲:AI的边界——局限、趋势与持续学习

📑 目录


认知冲突:AI能写诗,但不会关灯

GPT-4可以:

  • 用40种风格写一首关于月亮的诗 ✅
  • 帮你调试一段复杂的并发代码 ✅
  • 解释量子力学的基本原理 ✅
  • 写一份商业计划书 ✅

但让一个机器人走到你家门口,识别门把手,旋转它,走进来,关灯——这个对5岁孩子来说轻而易举的事——当前的AI做不到

认知冲突的核心: AI的能力分布和人类完全不同。它在某些方面超人类,在某些方面远不如一只猫。知道"它不能做什么",和知道"它能做什么"同等重要。


AI做不到的事

一张图总结当前AI的核心局限:

符号推理 ──────── 强
  │
  │  因果推理 ──── 弱
  │  │
  │  │  长期规划 ── 极弱
  │  │  │
  │  │  │  可靠事实性 ── 不存在
  │  │  │  │
  │  │  │  │  自我意识 ── 无
  │  │  │  │  │
  └──┴──┴──┴──┘
    真正的理解 ── 争议中

局限一:因果推理能力缺失

什么是因果推理?

人类:"如果我按下开关,灯会亮,因为电路接通了" LLM:"我见过大量'按下开关→灯亮'的文本,所以下一个词是'亮'"

核心区别

人类LLM
学习方式通过互动理解因果关系通过文本统计关联
反事实推理"如果当时没按开关会怎样?"模拟基于统计,不是因果模型
干预能力知道改变什么会导致什么没有因果模型
样本效率少数例子就能学会因果需要海量数据

经典实验

"如果球滚向左边,铃铛会响。现在球滚向了右边,铃铛会怎样?"

  • 人类5岁孩子:铃铛不会响(推理出"球在左边"是原因)
  • LLM:可能会说"铃铛也可能会响"(因为"球"和"铃铛"经常一起出现)

为什么这很重要?

因为因果推理是科学发现、政策制定、工程设计的基础。AI可以帮你写代码,但不能帮你设计实验;可以帮你总结文章,但不能帮你做因果推断。


局限二:长期规划与连贯性

问题

GPT-4在单轮对话中可能表现得很有规划性,但在长周期、多步骤的任务中:

你:写一本10万字的小说
AI:(写了一段精彩的开头)
你:继续
AI:(写了500字,但和前文有些矛盾)
你:再继续
AI:(忘记了主角的名字)
你:记得保持人物性格一致
AI:(好,继续写,但风格变了)

根本原因

  1. 上下文窗口有限:即使有128K上下文,也装不下一本书
  2. 没有持久记忆:每次对话基本上是"重新开始"
  3. 没有递归规划:不能把大任务分解成子任务并追踪进度

人类 vs AI规划

维度人类AI
目标分解自然做到需要显式Prompt
进度追踪内在感知需要外部状态
纠错即时发现需要外部验证
长期一致自然保持容易遗忘

局限三:可靠的事实性

这是最危险的局限,也是前面第10讲的核心议题。

简单的现实:

  • AI的"知识"来自训练数据,不是实时数据库
  • AI没有"我在编造"的自我感知
  • AI的自信程度和正确程度没有必然关系

场景对比

问:"2024年巴黎奥运会开幕式是在几点?"

人类不知道:会直接说"我不确定"
AI不知道:会基于相关文本"编造"一个合理但错误的答案

人类说错了:你会记住"这个人不可靠"
AI说错了:你会想"是不是我记错了?"

这种不对称性是最危险的。 AI的错误不如人类的错误明显——它们看起来太像正确了。

什么时候这个问题最严重?

  • 实时信息:新闻、股价、天气
  • 专业领域:医疗、法律、金融(错误代价极高)
  • 引用和来源:AI编造的论文引用看起来像真的
  • 数字和计算:看似简单但容易出错

局限四:没有自我意识

AI有"意识"吗?

当前共识:没有。 LLM是复杂的模式匹配系统,不是有意识的实体。

区分方式

行为AI能做到吗?是真意识吗?
说"我有意识"❌(只是文本生成)
表达情感❌(模拟不是感受)
声称自己累了❌("累"是训练数据中的模式)
创造性思维✅(有限的)❌(重组不是原创)
自我反思✅(有限的)❌(基于Prompt的)

"中文房间"思想实验

一个人(不懂中文)在一间屋子里,按照规则手册把收到的中文字符对应到输出的中文字符。从外面看起来,这个房间"懂中文"——但房间里的人其实不懂。

LLM就是那个"房间"。它生成的内容看起来很智能,但它并不理解自己在说什么。

为什么这点重要?

因为理解"AI没有意识"会让你:

  • 不过度信任AI的判断(它不是"思考",是"匹配")
  • 不会和AI争论价值观(它的价值观是你的训练数据)
  • 正确看待AI的"情绪"(它不是真的开心或生气)

局限五:缺乏真正的理解

LLM到底"理解"吗?

这个问题学术界有争议。但有一个关键实验:

合取谬误测试:

琳达31岁,单身,坦率直言,主修哲学。
作为学生,她非常关心歧视和社会正义问题。

问题:以下哪个更可能?
A. 琳达是银行出纳员
B. 琳达是银行出纳员,并且活跃于女权运动

人类倾向选B(但逻辑上A更可能,因为B⊆A)。 LLM也会选B——因为它模仿了人类的偏见,而不是理解了逻辑。

真正理解 vs 统计模仿

真正理解统计模仿
推理基于因果模型基于模式匹配
泛化能应对全新场景分布外表现差
解释给出真正原因给出"听起来合理"的原因
纠错理解为什么错重新匹配模式
学习举一反三需要大量数据

对实际工作的影响

  • 不要指望AI理解你的业务上下文——它只是见过类似的文本
  • 不要觉得AI"懂了你的意思"——它在匹配你的词
  • 不要相信AI的"解释"——那是生成的文本,不是它的思考过程

未来趋势一:多模态

从"看懂文字"到"看懂世界"

2024-2025年最关键的趋势:AI不再只看文字。

模态代表模型能力
文本GPT-4, Claude基础能力
图片GPT-4V, Gemini看图说话、图表分析
音频Whisper, Gemini语音识别、音乐理解
视频Gemini, Sora视频理解与生成
代码Claude, Copilot代码理解与生成

多模态的杀手场景

  • 医学影像 + 病历 → 诊断建议
  • UI截图 → 代码生成
  • 白板照片 → 可编辑文档
  • 视频监控 → 异常检测

多模态的挑战

  1. 对齐问题:文本中的"红色"和图片中的红色是一回事吗?
  2. 数据稀缺:标注的多模态数据比纯文本数据贵得多
  3. 推理成本:处理图片/视频比文本贵10-100倍

未来趋势二:Long Context

Context Window的爆炸式增长

GPT-3 (2020):   2K tokens  ≈ 1,500词
GPT-4 (2023):   8K/32K     ≈ 24,000词
Claude 2 (2023): 100K      ≈ 75,000词
Gemini 1.5 (2024): 1M      ≈ 750,000词
GPT-4-128K (2024): 128K    ≈ 96,000

Long Context意味着什么?

  • 整本书分析:一次读完整本《三体》
  • 超长对话:几小时的对话历史不丢
  • 代码库理解:一次给整个代码库
  • 长视频理解:看懂一部电影

Long Context的"骗局"

Attention机制的O(n²)复杂度没有被解决——只是工程优化掩盖了它。

"Lost in the Middle"问题:
模型对输入中间部分的信息记忆最差
开头和结尾记住,中间忘掉

所以长上下文不一定等于好的理解

未来趋势三:端侧模型与Agent

端侧模型

AI从云端走向本地设备:

优势劣势
隐私(数据不出设备)算力有限
离线可用模型能力受限
零延迟更新困难
低成本模型小

代表: Llama 3.1 8B, Phi-3, Gemma 2

Agent(智能体)

从"被动回答"到"主动执行":

传统AI:  用户问 → AI回答
Agent AI: 用户给目标 → AI规划 → 执行 → 反馈 → 迭代

Agent的关键能力:

  • 工具使用:调用API、搜网页、发邮件
  • 记忆管理:短期记忆(对话)、长期记忆(数据库)
  • 规划执行:分解任务、按顺序执行
  • 自我反思:出错了自己修正

Agent是2025-2026年最大的AI趋势。 但Agent的可靠性仍然是核心挑战——一个执行100步的Agent,成功概率是每一步的乘积。


未来趋势四:推理能力提升(o1/o3范式)

从"快思考"到"慢思考"

OpenAI的o1/o3模型开启了一个新范式:

传统LLM(快思考):
  输入 → 直接生成输出(~0.5秒/token)
  "直觉式"回答

o1/o3(慢思考):
  输入 → 内部推理(Chain of Thought)→ 验证 → 输出
  "深思熟虑"式回答(几秒到几分钟)

能力对比

任务传统LLMo1/o3范式
常识问答更强
数学推理显著提升
编程竞赛金牌水平
科学推理接近专家
创意写作略弱(过于审慎)

核心洞察

推理时间的增加 ≈ 智能的增长

但这是有代价的:

  • 延迟从秒级变成分钟级
  • 成本增加10-100倍
  • 不是所有任务都需要"深思熟虑"

未来趋势五:开源生态

开源的爆发

2023-2025年,开源LLM经历了指数级增长:

Llama 2 (2023) → Llama 3 (2024) → Llama 3.1 (2024) → Llama 4 (2025)
Mistral (2023) → Mixtral (2024) → Mistral Large (2024)
Qwen (2023) → Qwen 2.5 (2024) → Qwen 3 (2025)

开源 vs 闭源

维度闭源(OpenAI/Anthropic)开源(Llama/Qwen)
能力领先6-12个月追赶中
定制有限完全控制
成本按Token付费自己部署
隐私数据给第三方数据自控
社区黑盒透明可审计

开源的意义

  1. 降低门槛:中小公司也能用AI
  2. 可审计性:代码和权重公开,安全性更高
  3. 定制化:针对特定领域微调
  4. 去中心化:不依赖少数公司

持续学习路线:5个阶段

学完这11讲,你已经有AI的全局视野。接下来怎么持续成长?

阶段一:实践者(1-3个月)

目标:能用AI工具解决实际问题
技能:
  - 熟练使用Prompt Engineering
  - 能调API开发简单应用
  - 理解基本概念(Token、温度、Top-p)
  - 会做基本的Eval

实践:用AI搭一个个人助手

阶段二:开发者(3-6个月)

目标:能开发生产级AI应用
技能:
  - RAG系统开发
  - Agent框架使用(LangChain/CrewAI)
  - 模型微调基础(LoRA)
  - AI架构设计

实践:做一个带RAG的客服系统

阶段三:研究者(6-12个月)

目标:理解AI底层原理,能进行一定创新
技能:
  - 理解Transformer架构
  - 能读懂论文
  - 模型评估方法论
  - 对齐和安全基础

实践:复现一篇论文的核心实验

阶段四:专家(1-2年)

目标:在特定领域有深入理解
技能:
  - 能训练/微调模型
  - 深入了解某个方向(Agent/Safety/多模态)
  - 能发表技术文章或演讲
  - 指导团队做AI项目

实践:开源一个AI项目

阶段五:引领者(持续)

目标:推动AI发展的方向
技能:
  - 跨领域创新能力
  - 技术领导力
  - 伦理思考能力
  - 构建AI产品的能力

实践:在AI领域做出原创贡献

反模式:认为AI会"一夜之间取代所有工作"

不合理的预期

"AI会取代所有程序员""半年内AI就能做所有工作""不用学了,AI都会替你做"

现实

  • AI增强工作,而不是取代工作——就像Excel没有取代会计,而是让会计更高效
  • 取代的是"任务",不是"职业"——AI取代的是"写周报"这个任务,不是"项目经理"这个职业
  • 掌握AI的人会取代不掌握AI的人——不是AI取代你,是会用AI的人取代你

真正会发生的

职业类型AI的影响建议
重复性白领显著替代转向AI+人工协作
创造性工作增强学会用AI放大创意
专业服务效率提升AI辅助,人工把关
体力劳动影响有限长期可能被机器人取代
人际交互影响最小情感连接难以替代

健康的视角

  • AI是工具,不是取代者
  • 学习和适应是唯一的安全感
  • 越了解AI的边界,越能有效使用它

全系列总结:从学到用,从理解到创造

这11讲带你走完了AI通识的完整路径:

第1-3讲:历史与基础
  从图灵到Transformer → 知道AI从哪里来

第4-6讲:核心能力
  Prompt → RAG → Fine-tuning → 知道怎么用

第7-8讲:进阶应用
  Agent → 多模态 → 知道能做什么

第9-10讲:生产实践
  架构 → 安全 → 评估 → 知道怎么做得靠谱

第11讲:边界的思考
  局限 → 趋势 → 持续学习 → 知道往哪里去

最后一句话

AI不是终点,而是起点。 它把我们从不擅长的事情中解放出来,让我们更专注于真正重要的事——思考、创造、连接。了解它的边界,是为了更好地使用它的能力。


自测卡片

🎯 问题1:LLM能做因果推理吗?为什么?

答案:不能(目前)。LLM的推理基于统计关联,不是因果模型。它知道"A和B经常一起出现",但不知道"是A导致了B"。所以它会模仿因果推理(看起来像在推理,实际在匹配模式),但对反事实、干预等因果推理核心任务表现很差。

🎯 问题2:为什么说LLM的"自信"和"正确"没有必然关系?

答案:LLM的语言输出概率和事实正确性是两回事。模型以高概率输出"爱因斯坦1921年获得诺贝尔平和奖"不是因为这是事实,而是因为训练数据中"爱因斯坦""诺贝尔"等词经常共现。这种概率高 ≠ 事实正确的错位是最危险的。

🎯 问题3:"中文房间"思想实验说明了什么?

答案:说明模拟理解 ≠ 真正理解。LLM就像中文房间里的人——它能正确输出,但它不知道自己输出的是什么意思。所以不要把AI的智能理解为"理解"或"思考"。

🎯 问题4:端侧模型(小模型)相比云端大模型有什么优势和劣势?

答案:优势:隐私保护、离线可用、零延迟、低成本。劣势:模型能力受限、无法处理复杂推理、更新困难。适合的场景:分类、摘要、简单对话。不适合的场景:复杂推理、创意写作、专业领域。

🎯 问题5:o1/o3模型的"慢思考"方式和传统LLM的"快思考"有什么区别?

答案:传统LLM直接生成输出(直觉式),o1/o3在内部做Chain of Thought推理后再输出(深思式)。慢思考在数学、编程、科学推理上有显著提升,但延迟和成本也大幅增加。不是所有任务都需要慢思考。

🎯 问题6:学完这11讲后,你的下一步建议是什么?

答案:选一个方向深耕:①实践者→用AI工具搭建个人项目;②开发者→做一个完整的AI应用(RAG/Agent);③研究者→深入理解Transformer和论文。关键不是学了多少,而是用了多少


上瘾学习路径

第1步 🧭
列出10件你曾经以为AI能做但实际上不能做的事——理解"边界"比理解"能力"更有价值
第2步 🧪
做因果推理测试:给AI一些因果问题("如果A不发生,B会怎样?"),看看它怎么表现
第3步 📚
选择一个AI方向深入研究(RAG/Agent/多模态/Safety),找一篇综述论文读
第4步 🔧
在本地部署一个开源模型(Llama 3/Qwen 2.5),体验端侧AI
第5步 🚀
用AI做一个你真正需要的产品——不是为了学AI,而是为了解决一个真实问题
第6步 🌟
把你学到的东西教给别人。费曼学习法——最好的学习是教学