序言
冲浪时候发现一个神奇网站,其将GPT模型完全可视化,并为每一步都给出了明晰的解释。
效果图如下:
每一步展示数学原理,模型网络结构,参数构造和运行过程!可以精确到每一帧观察大模型结构变化!
涵盖的模型范围
目前网站提供了四种GPT模型的可视化:gpt-2(small)、gpt-2(XL),gpt-3以及nano-gpt。
原理
这个项目展示的是一个GPT风格网络的工作实现的3D模型,也就是在OpenAI的GPT-2、GPT-3,甚至可能是GPT-4中使用的网络拓扑。
首先展示的带有工作权重的网络是一个微型网络,它能够对字母A、B和C的小的列表进行排序。这是来自Andrej Karpathy的 minGPT 实现的演示示例模型。
渲染器还支持可视化任意大小的网络。
网址
原版由Brendan Bycroft开发,英文版在线体验:LLM Visualization 160
此外还有大佬进行了翻译, 中文版在线体验:llm-viz-cn.iiiai.com/llm 426。对应的github地址是:github.com/czhixin/llm…