transformer学习资源汇总

0 阅读4分钟

原文:mp.weixin.qq.com/s/qap5mePkP…

欢迎关注公zh: AI-Frontiers

苏剑林大师的博客

序号发布日期文章标题链接
12021-03-08Sinusoidal位置编码追根溯源spaces.ac.cn/archives/82…
22021-03-23博采众长的旋转式位置编码spaces.ac.cn/archives/82…
32021-04-22从Performer到线性Attentionspaces.ac.cn/archives/83…
42021-05-10二维位置的旋转式位置编码spaces.ac.cn/archives/83…
52021-08-06作为无限维的线性Attentionspaces.ac.cn/archives/85…
62022-12-28旋转位置编码的完备性分析spaces.ac.cn/archives/94…
72023-01-12长度外推性与局部注意力spaces.ac.cn/archives/94…
82023-01-31长度外推性与位置鲁棒性spaces.ac.cn/archives/94…
92023-05-12一种全局长度外推的新思路spaces.ac.cn/archives/95…
102023-07-06RoPE是一种β进制编码spaces.ac.cn/archives/96…
112023-07-31将β进制位置进行到底spaces.ac.cn/archives/97…
122023-08-07无限外推的ReRoPE?spaces.ac.cn/archives/97…
132023-08-14逆用Leaky ReRoPEspaces.ac.cn/archives/97…
142023-08-24当HWFA遇见ReRoPEspaces.ac.cn/archives/97…
152023-11-20Key归一化助力长度外推spaces.ac.cn/archives/98…
162024-01-26"复盘"长度外推技术spaces.ac.cn/archives/99…
172024-03-29多模态位置编码的简单思考spaces.ac.cn/archives/10…
182024-05-29RoPE的底数选择原则spaces.ac.cn/archives/10…
192025-04-18第二类旋转位置编码spaces.ac.cn/archives/10…
202025-05-04MLA好在哪里?(上)spaces.ac.cn/archives/10…
212025-07-10MLA好在哪里?(下)spaces.ac.cn/archives/11…

入门系列

序号发布日期文章标题链接备注
12017-06-12Attention Is All You Needarxiv.org/abs/1706.03…Transformer 的奠基之作,定义了整个领域的演进方向
22018-06-27The Illustrated Transformerjalammar.github.io/illustrated…The Illustrated Transformer](blog.csdn.net/qq_36667170…)视觉化讲解的行业标准,极大地降低了直观理解的门槛
32023-01-27The Transformer Family (Lilian Weng)lilianweng.github.io/posts/2023-…由 OpenAI 首席研究员撰写,提供了严谨的架构演进综述与技术总结
42021-01-11Breaking Down the Transformeraman.ai/primers/ai/…对架构组件进行模块化拆解,适合从工程角度深入理解
52020-12-24How Transformers work in deep learning and NLP: an intuitive introductiontheaisummer.com/transformer…起源、核心架构(如自注意力机制)及其在深度学习领域的影响,是学习NLP基础架构的深度技术教程
62018-04-03The Annotated Transformernlp.seas.harvard.edu/annotated-t…提供 Transformer 论文的逐行代码实现与详细解析
72019-08-18Transformers from scratchpeterbloem.nl/blog/transf…详细讲解自注意力机制,附带完整的 PyTorch 代码,教你从零实现一个 Transformer
82018-06-24Attention? Attention!lilianweng.github.io/posts/2018-…深入讲解各类注意力机制的原理与发展,适合想要深入理解注意力机制的学习者

github开源生态

仓库名称网址定位与特色
awesome-transformer-nlpgithub.com/cedrickchee…全球最受欢迎的 Transformer 资源列表,更新频率高
awesome-transformer (ICTNLP)github.com/ictnlp/awes…侧重于模型实现与 WMT 翻译基准测试的可复现性
awesome-transformers (abacaj)github.com/abacaj/awes…聚焦于模型许可协议与模型来源,适合企业级选型
Transformers-Recipegithub.com/dair-ai/Tra…旨在提供一份“从入门到精通”的结构化学习路线图
Awesome-Visual-Transformergithub.com/dk-liang/Aw…专注于视觉 Transformer (ViT) 及其在医学成像等领域的应用
Awesome-Transformer-Attention (视觉Transformer)github.com/cmhungsteve…最全面的视觉 Transformer/Attention 论文列表,包含代码和相关网站
Awesome-Transformer-Visualizationgithub.com/Ki-Seki/Awe…Transformer 可视化工具汇总,包括 Transformer Explainer、GemmaScope 等
BertVizgithub.com/jessevig/be…Transformer 注意力可视化工具,支持 Head View、Model View、Neuron View 三重视图,可直观查看模型的注意力权重分布

官方与第三方高性能框架

框架/项目网址适用场景
Tensor2Tensor (Google)github.com/tensorflow/…Transformer 的官方原始实现,基于 TensorFlow
OpenNMT-py (Harvard)github.com/OpenNMT/Ope…基于 PyTorch 的机器翻译工具包,因其高可扩展性广受好评
Fairseq (Meta AI)github.com/facebookres…Meta 开发的高性能序列建模工具,RoBERTa 等模型即诞生于此
X-Transformersgithub.com/lucidrains/…提供简洁且功能完整的全注意力实现,适合实验性研究
transformersgithub.com/huggingface…提供最先进的预训练模型,用于处理 NLP、图像及音频任务。

课程学习

提供方课程核心技能点
DeepLearning.AIwww.deeplearning.ai/courses/dee…RNN/LSTM/Transformer 的理论与实践
Stanfordweb.stanford.edu/class/cs224…经典的深度学习自然语言处理(CS224N)课程主页,涵盖了Transformer、语言模型等前沿NLP技术与讲义。
Hugging Facegithub.com/huggingface…Hugging Face 官方出品的免费开源课程,基于其生态教学,覆盖 Transformer 在文本、音频等多模态任务的应用,部分课程支持中文
亚马逊github.com/d2l-ai/d2l-…亚马逊科学家团队维护的互动式深度学习书籍,涵盖 Transformer 理论推导与 PyTorch、TensorFlow、MXNet 多框架代码实现,被全球 500 余所名校用作教材。