这个网站也太炸裂了!将 GPT 原理的详细细节可视化出来了!

884 阅读1分钟

序言

冲浪时候发现一个神奇网站,其将GPT模型完全可视化,并为每一步都给出了明晰的解释。

效果图如下:

image.png

每一步展示数学原理,模型网络结构,参数构造和运行过程!可以精确到每一帧观察大模型结构变化!

涵盖的模型范围

目前网站提供了四种GPT模型的可视化:gpt-2(small)、gpt-2(XL),gpt-3以及nano-gpt。

原理

这个项目展示的是一个GPT风格网络的工作实现的3D模型,也就是在OpenAI的GPT-2、GPT-3,甚至可能是GPT-4中使用的网络拓扑。

首先展示的带有工作权重的网络是一个微型网络,它能够对字母A、B和C的小的列表进行排序。这是来自Andrej Karpathy的 minGPT 实现的演示示例模型。

渲染器还支持可视化任意大小的网络。

网址

原版由Brendan Bycroft开发,英文版在线体验:LLM Visualization 160

此外还有大佬进行了翻译, 中文版在线体验:llm-viz-cn.iiiai.com/llm 426。对应的github地址是:github.com/czhixin/llm…