【人工智能】 深度学习——大模型的缩放定律(Scaling Law)

28 阅读1分钟

与摩尔定律一样,大模型也形成了一定的规律,这就是大模型缩放定律(Scaling Law)。

缩放定律包含三个要素:

  • 算力
  • 数据量
  • 参数量

大模型的发展,依赖于这个定律:

  • 算力持续发展: 现在H200 GPU的算力是每秒亿级浮点数运算。
  • 数据量持续增加: 互联网诞生到现在,已经拥有了相当规模的数据量,这使得模型可以充分的学习。
  • 参数量的增加: 从几年前的几百万参数到GPT-3的1750亿参数,参数量越大,模型越复杂,预测的正确率大幅提高。

但是,上面三个要素到现在已经不能够持续增加了,下一步应该从如下几个方面着手优化:

  • 算力已经接近物理极限。 因此需要更加充分的发挥现有GPU的潜力,例如优化显存、分布式运算、并行运算。
  • 数据量几乎用完。 大模型已经基本学完了互联网诞生以来的所有数据,下一步就是充分利用现有的数据,例如优化数据质量、合成新数据。
  • 参数量不能无限制增加。 再增加参数量,边际效应递减,因此,下一步是提高信息密度,用更小的参数量实现同样的效果。例如,GPT-3发布时有1750亿参数,但是,一年后,一些50亿参数的模型也可以达到相同的效果。少的参数量也节省了训练、部署、推理的成本。