原文:mp.weixin.qq.com/s/qap5mePkP…
欢迎关注公zh: AI-Frontiers
苏剑林大师的博客
入门系列
| 序号 | 发布日期 | 文章标题 | 链接 | 备注 | |
|---|---|---|---|---|---|
| 1 | 2017-06-12 | Attention Is All You Need | arxiv.org/abs/1706.03… | Transformer 的奠基之作,定义了整个领域的演进方向 | |
| 2 | 2018-06-27 | The Illustrated Transformer | jalammar.github.io/illustrated… | The Illustrated Transformer](blog.csdn.net/qq_36667170…) | 视觉化讲解的行业标准,极大地降低了直观理解的门槛 |
| 3 | 2023-01-27 | The Transformer Family (Lilian Weng) | lilianweng.github.io/posts/2023-… | 由 OpenAI 首席研究员撰写,提供了严谨的架构演进综述与技术总结 | |
| 4 | 2021-01-11 | Breaking Down the Transformer | aman.ai/primers/ai/… | 对架构组件进行模块化拆解,适合从工程角度深入理解 | |
| 5 | 2020-12-24 | How Transformers work in deep learning and NLP: an intuitive introduction | theaisummer.com/transformer… | 起源、核心架构(如自注意力机制)及其在深度学习领域的影响,是学习NLP基础架构的深度技术教程 | |
| 6 | 2018-04-03 | The Annotated Transformer | nlp.seas.harvard.edu/annotated-t… | 提供 Transformer 论文的逐行代码实现与详细解析 | |
| 7 | 2019-08-18 | Transformers from scratch | peterbloem.nl/blog/transf… | 详细讲解自注意力机制,附带完整的 PyTorch 代码,教你从零实现一个 Transformer | |
| 8 | 2018-06-24 | Attention? Attention! | lilianweng.github.io/posts/2018-… | 深入讲解各类注意力机制的原理与发展,适合想要深入理解注意力机制的学习者 |
github开源生态
| 仓库名称 | 网址 | 定位与特色 |
|---|---|---|
| awesome-transformer-nlp | github.com/cedrickchee… | 全球最受欢迎的 Transformer 资源列表,更新频率高 |
| awesome-transformer (ICTNLP) | github.com/ictnlp/awes… | 侧重于模型实现与 WMT 翻译基准测试的可复现性 |
| awesome-transformers (abacaj) | github.com/abacaj/awes… | 聚焦于模型许可协议与模型来源,适合企业级选型 |
| Transformers-Recipe | github.com/dair-ai/Tra… | 旨在提供一份“从入门到精通”的结构化学习路线图 |
| Awesome-Visual-Transformer | github.com/dk-liang/Aw… | 专注于视觉 Transformer (ViT) 及其在医学成像等领域的应用 |
| Awesome-Transformer-Attention (视觉Transformer) | github.com/cmhungsteve… | 最全面的视觉 Transformer/Attention 论文列表,包含代码和相关网站 |
| Awesome-Transformer-Visualization | github.com/Ki-Seki/Awe… | Transformer 可视化工具汇总,包括 Transformer Explainer、GemmaScope 等 |
| BertViz | github.com/jessevig/be… | Transformer 注意力可视化工具,支持 Head View、Model View、Neuron View 三重视图,可直观查看模型的注意力权重分布 |
官方与第三方高性能框架
| 框架/项目 | 网址 | 适用场景 |
|---|---|---|
| Tensor2Tensor (Google) | github.com/tensorflow/… | Transformer 的官方原始实现,基于 TensorFlow |
| OpenNMT-py (Harvard) | github.com/OpenNMT/Ope… | 基于 PyTorch 的机器翻译工具包,因其高可扩展性广受好评 |
| Fairseq (Meta AI) | github.com/facebookres… | Meta 开发的高性能序列建模工具,RoBERTa 等模型即诞生于此 |
| X-Transformers | github.com/lucidrains/… | 提供简洁且功能完整的全注意力实现,适合实验性研究 |
| transformers | github.com/huggingface… | 提供最先进的预训练模型,用于处理 NLP、图像及音频任务。 |
课程学习
| 提供方 | 课程 | 核心技能点 |
|---|---|---|
| DeepLearning.AI | www.deeplearning.ai/courses/dee… | RNN/LSTM/Transformer 的理论与实践 |
| Stanford | web.stanford.edu/class/cs224… | 经典的深度学习自然语言处理(CS224N)课程主页,涵盖了Transformer、语言模型等前沿NLP技术与讲义。 |
| Hugging Face | github.com/huggingface… | Hugging Face 官方出品的免费开源课程,基于其生态教学,覆盖 Transformer 在文本、音频等多模态任务的应用,部分课程支持中文 |
| 亚马逊 | github.com/d2l-ai/d2l-… | 亚马逊科学家团队维护的互动式深度学习书籍,涵盖 Transformer 理论推导与 PyTorch、TensorFlow、MXNet 多框架代码实现,被全球 500 余所名校用作教材。 |