【手搓大模型】GPT2系列前言

263 阅读2分钟

What I cannot create, I do not understand.

—— Richard Feynman

  • 理解大模型最好的方式,应该是亲自动手、从零开始实现。大模型之大在于参数(动辄几十B),而不在于代码量(即便很强大的模型也不过几百行代码)。这样我们便可以在动手写代码中,去思考问题、发现问题、解决问题。

  • 本文不深究背后原理,提供尽可能简单的实现,以便整体理解大模型。

  • 参考Sebastian RaschkaAndrej Karpathy的教程,并进行重新组织,并对核心代码做了优化,使之更简单更清晰。

  • 零基础,具备基本的Python技能,了解Pytorch和Tensor的基本操作。

  • 资源:所有代码均运行在个人电脑上,无需GPU。使用数据均为公开数据集。

  • 系列文章:将会分为以下5篇