AI 大牛何恺明最新动向来了!
才刚拿下 MIT 终身教职没多久,这转眼又加盟谷歌 DeepMind 任杰出科学家。
目前这一消息已在个人主页同步更新:
也是在最近,MIT 官网发布公告称:
今年 MIT 工程学院一共有 11 位教职人员获得终身教职,而何恺明也在名单中。
要知道他去年 3 月才正式在 MIT 开讲,这中间几乎只隔了一年左右时间。
回到这次加盟谷歌,从介绍里可以看到,确切来说他应该算是兼职(part-time)。
虽然他本人没有透露更多信息,但某书上已经有自称谷歌员工的网友提前剧透了一波:
他即将加入的是 DeepMind 基础研究组,直属领导的 title 是 L8——离 DeepMind 老大哈萨比斯还隔着三个老板的距离。
那么问题来了,已经拥有 MIT 终身教职的何恺明,为啥又选择和谷歌联手呢?
一扒才知道,原来二者早已多次展开研究合作——
何恺明其人
先简单回顾一下何恺明的履历。
众所周知,何恺明算是 CV 领域_(计算机视觉)_的传奇人物。
他本科就读于清华大学物理系,博士师从汤晓鸥,毕业于香港中文大学。
2009 年,汤晓鸥、何恺明以及孙剑凭借论文 “Single Image Haze Removal Using Dark Channel Prior”,获得该年度 CVPR 的最佳论文奖,这也是第一次颁发给亚洲研究学者。
2011 年博士毕业后进入微软亚洲研究院工作,任研究员,并在 2016 年加入 Facebook AI Research(FAIR)继续研究计算机视觉。
不过在这之前,他于 2015 年提出的 ResNet(深度残差网络),不仅在 ILSVRC 2015 分类任务竞赛斩获第一名,还拿到了 2016 年 CVPR 最佳论文。
直到现在,ResNet 仍然是其最高引研究,单篇引用量已超过 28 万次。
而且这一概念如今已广泛应用于现代深度学习模型,包括 Transformer、AlphaGo Zero、AlphaFold 以及几乎所有 GenAI 模型。
在 FAIR 期间,何恺明和团队在计算机视觉领域取得不少亮眼的成绩,包括 Faster R-CNN 及后续的 Mask R-CNN 等一系列研究。
其中,Mask R-CNN 解决了图片中的实例级对象分割问题,不仅能将照片中的人、动物等对象单一检测,还可为其每个对象实例生成一个高质量分隔遮罩,该研究也获得了 ICCV 2017 最佳论文。
在 FAIR 干了相当长一段时间后,2023 年他官宣加入 MIT EECS(电子工程和计算机科学系) ,选择正式回归学术界。
这一转向在当时引起了广泛关注,甚至一众网友吐槽 Meta 痛失一员大将。
后来的故事就接上咱们的开头了~
总之,从学术界到产业界再到学术界,何恺明一路积累了丰硕研究成果。
目前其谷歌学术总引用量已经超过 71 万次,是当之无愧的学术大佬。
近来其研究主要集中在模型性能优化上,包括提出通过正则化表示_(Representation Regularization)_来改进图像生成技术、开发高度压缩的 Tokenizer 来实现在未经训练的情况下生成文本等等。
一言以蔽之,不管身份如何转变,他始终在 CV 领域持续深耕。
和谷歌团队多有合作
事实上,何恺明和谷歌其实多有合作。
就在今年 2 月,他还和谷歌 DeepMind 全华人班底_(黎天鸿、Qinyi Sun、范丽杰)_开辟了生成模型的全新范式——
合发论文《Fractal Generative Models(分形生成模型)》,首次使逐像素生成高分辨率图像成为可能。
具体而言,团队提出用参数化的神经网络作为分形生成器,从数据中学习这种递归法则,实现对高维非序列数据的建模,也可用于材料、蛋白质等。
结果在「逐像素图像生成」这一任务中表现出色。目前相关成果代码已开源。
此外,去年其团队还和谷歌 DeepMind 合作,提出了一个基于连续标记的随机顺序自回归模型——Fluid。
他们所要解决的问题是:视觉自回归模型的 Scaling,往往不像在语言模型里那样有效。
而通过合作,他们为自回归文生图模型的扩展指出一个方向:
-
基于连续 token 的模型比离散 token 模型在视觉质量上更好
-
随机顺序生成与光栅顺序相比在 GenEval 测试上得分明显更好
更多研究在此不再枚举,总而言之,何恺明和谷歌 DeepMind 团队实则早有接触。
因此这一次他选择和 DeepMind 合作,也可谓老熟人之间的强强联手。
参考链接:
[1]people.csail.mit.edu/kaiming/
[2]scholar.google.com/citations?u…
[3]news.mit.edu/2025/tenure…
欢迎在评论区留下你的想法!
— 完 —