国孟昊 清华大学计算机系博士后
Notes
-
很多我们以为是"自身属性"的东西,其实是环境塑造的结果
-
AI 协同进化三阶段
-
环境在演化,智能也在演化
-
从宏观来看,AI 从2010年到现在这十几年的发展可以看成是环境与智能的协同进化。
- 环境:指的是比如说数据、任务、交互的形式。
- 智能体:我们可以把它理解成一个系统,它能够感知环境、做出决策并采取行动。
-
如果从一个动态的角度来看,环境在不断变得丰富,从早期的静态图像到多模态、到开放世界的问答,再到真实的物理世界的任务。随着环境的变化,智能体也在不断的演化,从最初额单一的感知模型(e.g., ResNet, YOLO),逐渐发展成具备理解、推理,甚至自主行动的智能体。所以可以看到一个很明确的趋势,就是环境在演化,智能也在演化。环境影响着智能的进化。
-
时间阶段 环境 智能体 特点 第一阶段(2010~2020) 单一代理问答 (proxy QA) 单问答模型 - 这个阶段的环境是静态的,边界是明确的,定义是清楚的。 -
对单一任务所做的模型,大多都是单点能力很强,但是缺乏泛化性、鲁棒性、整体性。 | | 第二阶段(2020~2025) | 开放问答 (open QA) | 开放问答模型 | - 开放世界的问题,环境开始走向开放、多样。
-
不再完成单一任务,而是能统一地理解、回答各种问题。
-
给模型出题,让模型去解**【这个阶段还是做题或问答】** | | 第三阶段(2025~至今) | 真实世界环境 (Agentic tasks) | 智能体、机器人 | - 这个阶段的环境是动态的、开放的,充满不确定性的。
-
需要观察目标、理解目标、分解步骤、作出行动,并且甚至还需要反馈。
-
进入世界,在真实世界中完成任务,真正让模型去完成一个任务 |
-
第一阶段(2010—2020 左右)是****封闭环境 。 我们事先给模型准备好一个数据集、一个任务定义、一个评价指标,然后它就在这个框架里面进行优化。这样的环境其实就是在约束模型,你只需要在一个相对明确、相对标准化的这种任务中把答案做对就可以了。这个时候,我们要求的智能就是要完成这个环境里的任务(分类、检测、分割、追踪之类的一些问题)。这个阶段的代表性工作是 ResNet、YOLO、Fast-RCNN 这类模型,它们在一个单点任务上可以做的很好,但是在开放世界中泛化性、鲁棒性就不行了。为什么?因为当时的环境就是这样的——预先定义的任务和数据集,导致演化出来的智能也只能是单任务的解题器。
-
第二阶段(2020~2025) 是 CLIP 之后的开放世界。从那个点开始,人们就不再关心"我在 ImageNet 上能从 85 跑到 90"这种问题,而是开始关注泛化性,出现了像 MMMU 这样把整个大学考试都拿出来让模型做的环境。这个阶段的代表是 GPT-4、Gemini、Qwen 这些大模型——它们不再完成单一任务,而是能统一地理解、回答各种问题。但这种方式还停留在"回答世界",而不是真正"进入世界" 。
-
第三阶段(2025~至今)是****真实世界的任务 。 现在我们不再让模型做题,而是让它真正去完成任务——OS World、GUI 操作、Robotics。从 Question & Answer 变成了 Task & Action。这个阶段我们不关心模型中间过程懂没懂,只关心一件事:任务成功率。
-
真正到了这个阶段,所谓的视觉智能才出现了它的端到端形态。从人的角度看,人的输出本质上就两类:一类是语言,另一类是动作。所以视觉的端到端智能必须落到动作上——你只要看到场景能把动作做对就够了。【人的两类输出,语言和动作;对于AI,现在动作还没解决,那是人擅长的部分。】
-
现在的 AI 本质上是以语言为中心的,包括所谓的多模态大模型,核心还是语言。 它可以解一道复杂数学题、写几万行代码,但你却很难让它简单地帮你叠一件衣服、在你家里工作。人平时就生活在真实的物理世界里,所以这个方面是要重点突破的——从语言智能真正走向物理世界的智能。【具身智能】
-
-
-
AI 竞争已经从模型转向环境
- 智能不是凭空出现的,是由环境塑造出来的。有什么样的环境,就会孕育出什么样的智能。
- AI发展的核心挑战之一是环境。现在的 AI 竞争,某种意义上已经从拼模型的能力转变成拼环境的构造能力。e.g., 大厂洗数据,其实也是在给大模型构造环境,相当于提供高质量的数据/环境,它就能学得更好。谁能模拟更真实的环境,谁就更可能做出下一代更强的智能。
4. 训练你自己:先成为一个“可训练”的人
- 讲了这么多 AI,其实人也是一样的。我们每个人都可以看成是在环境里训练我们自己——个人就是模型,你接触的人、所在平台、互联网上的知识就是训练语料,你追求的是论文、做系统、还是真实问题,就是你的损失函数。 所以有时候研究生发展得好不好,并不是因为模型大、所谓"我聪明",而是这个环境对不对、目标清不清楚、训练过程能不能持续。这件事在 AI 发展里也能看出来——模型架构和初始化参数其实没那么重要,最大的壁垒是数据是什么。
- 第一步是让自己成为一个可训练的人。可训练不是说你一开始就很强,而是你能不断吸收外部反馈、修正自己、持续进化。一个可训练的人愿意接受新鲜事物,能够走出舒适区,从失败中提取各种各样的信息,而不是抱怨。从机器学习的角度看,我们要做一个有学习率、能否持续优化的系统。
-
优化你的环境
第二步是找到适合自己的环境,并且主动优化它。每个人的环境其实都不完美,需要去筛选、调整、甚至重构。
具体来说,环境主要由三部分组成:
-
你周围的人
-
你所在的平台
-
用好AI和互联网,把我们的环境从一个小环境变成一个大环境。
- 让AI尽量帮我们做更多的事;
- 用好互联网环境,获取高质量的训练数据。
-
关注自己的环境,找到一个适合自己的环境
- 你是否真正在前沿?你的反馈质量高不高?你能不能真正地被激发出来?我现在所处的环境到底是不是真的能把我训练出来?
- 什么样的信息值得输入?什么样的事情是低水平重复的?什么样的合作关系能让你真正地得到成长?什么样的社交对你有帮助?什么样的社交只会消耗你的注意力?什么目标是重要的?什么是短期噪声?
- 在我们自己的环境里,什么样的成长路径才是最适合我们自己的?
-
筛选、调整,甚至是重构环境
- 如果把自己当作一个智能体,我们要不断洗数据、洗环境,改善数据管线,改善环境管线,调整目标。【洗自己的环境】
- 一个人的瓶颈的上限有时候是接触了太多低质量的输入,导致上限被压低了。从模型的角度来看,垃圾数据是训不出来好模型的。如果我们处在一个垃圾环境里,很难让我们自己有一个非常高的表现的。【垃圾数据训不出好模型,垃圾环境也很难有高表现】
-
最终目标是进入一个比较正向的循环。【正反馈的循环】
-
有一段时间,我们可能发现我们自己变强了,你其实进入了一个正反馈的循环。你的学习率很好,你的环境也很好,你的反馈也很好,这样你的model更新起来就会顺畅很多。
-
-
-
一些认知
-
不要用堆时间去掩盖你的效率问题。 形式上的努力不一定有用。不要把"时间堆上"等同于"事情能做好"——不能用时间去掩盖自己的懒惰。
-
道阻且长,行则将至
- 正如最近有人评价《黑神话·悟空》团队时所说的那样: “踏上取经路,比抵达灵山更重要”。
- 决策要符合自己内心的想法。 坚持自己的想法以后,不管这件事做成或没做成,最起码你不会后悔。
- 人生没有白走的路。 你在过程中所积攒的经验、能力、历练,会最终成为你在某个时刻获得那本经书、获得预期大结果的原因。
-
AI 时代最重要的是 Insight 和 发现高价值问题的能力 。【人比AI强的地方】
- 不要尝试去和 AI 比赛——你用古法编程去和 AI 比谁编得好,这件事意义不大。 重要的是有好的科研品味、好的 idea,然后和 AI 一起把这件事做好就够了。你不需要证明自己比 AI 强,更应该好好利用 AI 去做事。
- 找到那些重要并且值得做的问题能力很重要。 AI 时代带来了大量噪音,发现和定义重要问题、高价值问题的能力,AI 还比较难捕获。【之前还会结合实现能力评估你,现在你的 label 就是你的想法、你解决的问题】
-
认真科研,但也要认真生活。 科研很重要、成长很重要、追求卓越很重要——但人生并不是只有科研。我们前面一直讲环境怎么塑造智能,其实你的人生体验、兴趣、家人朋友的关系、运动、阅读、旅行——这些同样是你的环境,同样在塑造你。
-
References
B站视频:
【【优博之路】环境与智能】 www.bilibili.com/video/BV1iL…
文字版:
国孟昊相关链接:
个人主页: menghaoguo.github.io/