CCF优博成长访谈第二期:对话南京大学副教授蒋炎岩:读博那些事儿

42 阅读3分钟

蒋炎岩 南京大学副教授,博士生导师

Notes

  1. 数据就是知识,压缩就是智能。

    • 预训练决定模型“学会了什么、会到什么程度、以及以什么方式组织知识”

    • 正确的 reward 方式

      • 知道什么是好的、什么是不好的

      • 怎么去获得好的

      • 人类本质上还是Reward Hacker

        • Long-term reward(更长远的reward) or short-term reward?
  2. 学习是一个不断积累,厚积薄发的过程(Grokking,顿悟

    • 预训练,Grokking(val dataset 比 train dataset 收敛更慢,需要更多Optimization Steps)

    • 有了很好的基础,就可以看更难的东西了(难的东西一下子看不懂很正常,可能它所依赖的前置基础知识没学好

      • 当你把训练你的所有东西都忘得差不多的时候,但你又能把它 reconstruct 出来的时候,你就成了一个Matured Problem Solver(成熟的问题解决者)。

        • 当我把所有问题都忘掉的时候,我就真正理解了。
    • Reward Hacking

      • Wikipedia: en.wikipedia.org/wiki/Reward…

        • Reward hacking or specification gaming occurs when an AI trained with reinforcement learning optimizes an objective function—achieving the literal, formal specification of an objective—without actually achieving an outcome that the programmers intended. DeepMind researchers have analogized it to the human behavior of finding a "shortcut" when being evaluated: "In the real world, when rewarded for doing well on a homework assignment, a student might copy another student to get the right answers, rather than learning the material—and thus exploit a loophole in the task specification." This idea is strongly associated with Goodhart's Law, which argues that when a measure becomes a target, it ceases to be a good measure.
      • Reward Hacking in Reinforcement Learning: lilianweng.github.io/posts/2024-…

  3. 蒋老师过往研究和AI

    • Concurrency(并发)

      • Concurrency(并发)是个老大难的问题——从做计算理论的人、到做体系结构的人要造并行计算机、到操作系统的人要做并发控制、到编程语言的人要做语言机制、到软件工程的人要面向开发者——所有人都在乎 Concurrency。每个领域都有它自己的方法论,而且都是很不一样的方法论。
    • 蒋老师有借用或提到很多 LLM 相关概念和 CS336, Percy Liang 课程

      • 蒋老师本身是做System的,但也在学习 LLM 相关新知识

      • CS336 这门课真的值得看呀, CS336: Language Modeling from Scratch: cs336.stanford.edu/

  4. 对AI时代的反思

    • 编程 = 翻译?你再仔细想想,什么工作不是“翻译”?

      • 话说Transformer最初就是用来做翻译的。
    • 在AI时代,不要给自己设限,去做一些你对其有兴趣的事、自己想要做的事、自己内心喜欢的事。

      • 未来我可以做些什么?

      • 追求自己内心真正的梦想。

References

B站视频:

【[戒读] 绿导师读博那些事儿 (八年后回看版)】 www.bilibili.com/video/BV1oT…

【【优博之路】读博那些事儿】 www.bilibili.com/video/BV1ic…

文字版:

如果将人生看作一个模型:蒋炎岩的“预训练、收敛与反规训”

蒋老师相关链接:


附录:B站视频部分截图