这个网站也太炸裂了！将 GPT 原理的详细细节可视化出来了！

2024-08-11 1,023 阅读1分钟

序言

冲浪时候发现一个神奇网站，其将GPT模型完全可视化，并为每一步都给出了明晰的解释。

效果图如下：

每一步展示数学原理，模型网络结构，参数构造和运行过程！可以精确到每一帧观察大模型结构变化！

涵盖的模型范围

目前网站提供了四种GPT模型的可视化：gpt-2(small)、gpt-2(XL)，gpt-3以及nano-gpt。

原理

这个项目展示的是一个GPT风格网络的工作实现的3D模型，也就是在OpenAI的GPT-2、GPT-3，甚至可能是GPT-4中使用的网络拓扑。

首先展示的带有工作权重的网络是一个微型网络，它能够对字母A、B和C的小的列表进行排序。这是来自Andrej Karpathy的 minGPT 实现的演示示例模型。

渲染器还支持可视化任意大小的网络。

网址

原版由Brendan Bycroft开发，英文版在线体验：LLM Visualization 160

此外还有大佬进行了翻译，中文版在线体验：llm-viz-cn.iiiai.com/llm 426。对应的github地址是：github.com/czhixin/llm…