图像2022-11-24 15.49.jpeg

1. Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

自研深度学习编译器技术的 OneFlow 团队更是在不降低采样效果的前提下，成功将之前的 “一秒出图” 缩短到了 “半秒出图”！在 GPU 上仅仅使用不到 0.5 秒就可以获得一张高清图片！

这基于清华大学朱军教授带领的 TSAIL 团队所提出的DPM-Solver，一种针对于扩散模型特殊设计的高效求解器：该算法无需任何额外训练，同时适用于离散时间与连续时间的扩散模型，可以在 20 到 25 步内几乎收敛，并且只用 10 到 15 步也能获得非常高质量的采样。在 Stable Diffusion 上，25 步的 DPM-Solver 就可以获得优于 50 步 PNDM 的采样质量，因此采样速度直接翻倍。

链接：

mp.weixin.qq.com/s/vr5Pw6rc3…

2. 比快更快，Stable Diffusion实现一秒出图

起初，AI 作图需要几天，再缩减到几十分钟，再到几分钟，出图时间在不断加速，问题是，究竟快到什么程度，才会在专业的美术从业者甚至普通大众之间普及开来？

显然，现在还无法给出具体答案。即便如此，可以确定的是 AI 作图在技术和速度上的突破，很可能已经接近甚至超过阈值，因为这一次，OneFlow 带来了字面意义上 “一秒出图” 的 Stable Diffusion 模型。

链接：
mp.weixin.qq.com/s/KqffXfRhL…

3. VLIW的前世今生：为什么DL加速器都青睐于它

现在，很多主攻云端推理和训练市场的产品，在提到基础架构时都会宣传其自定义的矢量运算指令集，大发射位宽，高度的并行执行能力。这些名词背后的底层结构几乎都是VLIW。被Intel收购的Habana就大方宣称采用自定义的VLIW的指令集。
虽然VLIW结构在之前的几十年只能算是取得了“非常有限的成果“，但就目前的深度学习处理器架构发展而言，重新回顾下VLIW的特征以及其成功和失败的案例仍然是很有意义的，也许这也是AI设计的一种可能方向。

链接：

zhuanlan.zhihu.com/p/101538383

4. 深挖Cerebras：世界上最大AI芯片的架构设计

作为业内备受关注的AI加速器创业公司，成立于2016年的Cerebras希望通过构建全新AI加速器方案解决AI计算问题，以实现数量级计算性能：首先，需要改进计算核心架构，而不只是一味地提升每秒浮点运算次数；其次，需要以超越摩尔定律的速度提高芯片集成度；最后，还要简化集群连接，大幅度提升集群计算效率。

为了实现上述目标，Cerebras设计了一种新的计算核心架构。它让单台设备运行超大规模模型成为可能，此外，它开发出只需简单数据并行的横向扩展和本地非结构化稀疏加速技术，使大模型的应用门槛大幅降低。

链接：

mp.weixin.qq.com/s/_JmINzust…

5. 关于AI芯片软件栈的六条感悟

链接：

zhuanlan.zhihu.com/p/582706007

6. AI编译关键技术 • 高层循环编译优化 - 不仅仅是分块和合并

如何借助编译优化理论和方法，将计算图描述的深度学习算法部署在具体硬件上并让算法高效运行，是学术界和工业界一个重要的研究课题。更多深度芯片编译技术内容在清华大学出版社新书《多面体编译理论与深度学习实践》中。

链接：

mp.weixin.qq.com/s/mBheJ9NG8…

7. TVM for DSA的一些总结

目前TVM/MLIR等开源AI编译器生态有一定起色，于是进入了TVM的坑（端侧对TVM的接受度更高）。对于TVM来说，针对CPU/GPU等通用架构做了很多优化工作。我们的开发没有走BYOC路线（自身也没有现成编译软件栈，都需要0-1造所有轮子），于是就像CPU/GPU那样走relay->te->tir->(llvm)->dsa的路子，想沿用TVM上各种优秀的feature。

链接：

zhuanlan.zhihu.com/p/571045566

8. OneFlow源码解析：Global Tensor

上文中讲到的类似于PyTorch中的普通Tensor，在OneFlow中称为Local Tensor。Local Tensor是单卡视角下的普通Tensor。与之相对，OneFlow中还有一个独有的概念——Global Tensor。Global Tensor是指被placement和SBP属性所指定的，一个全局视角下的逻辑Tensor。Global Tensor的shape是逻辑形状，其真实数据根据placement和SBP的规则分布在多个rank上。

Global Tensor既可以通过普通的Local Tensor通过tensor.to_global()转换得到，也可以直接用数据或Numpy来构造。

链接：

mp.weixin.qq.com/s/bVaz0DQki…

9. 李白：你的模型权重很不错，可惜被我没收了

按照现在的趋势来说，模型越来越大了，大到一张GPU甚至装不下完整的模型，必须得上分布式并行技术，但是分布式代码在很多框架下都是高度定制化的，对于新手来说根本读不懂，也不知道应该怎么使用，导致大家上手非常的困难，让自己珍贵的发际线显得更加珍贵。

针对大模型上述存在的痛点，导致我们必须上分布式（数据并行、模型并行、流水并行）才能跑起来一个大模型。那么，LiBai有哪些特点呢？

链接：

mp.weixin.qq.com/s/zWsB-iL0g…

10. 一个更快的YOLOv5问世，附送全面中文解析教程

作为计算机视觉领域的基础性技术，目标检测在业界具有广泛应用，而YOLO系列因其综合性能较好，成为广受欢迎的首选框架。

这次，为了让用户深入了解 OneFlow 训练目标检测模型的可行性以及性能的优越性，我们将Ultralytics 版YOLOv5通过 import oneflow as torch 的方式迁移为 OneFlow 后端。

相比PyTorch，目前 YOLOv5 在 OneFlow 上进行小 batch 训练时有 5%-10% 的性能优势，而训练大 batch 的性能与 PyTorch 持平。

链接：

mp.weixin.qq.com/s/imTnKQVWc…

11. 关于AI大模型的一点思考和讨论

大家似乎都沉浸在大模型欣欣向荣、歌舞升平的状态中，大多数工业界的场景中，大模型并不能直接发挥价值。在不同的任务里还是要根据实际场景去谈具体的模型和算法，不建议逢解决方案就提大模型，也不建议把大模型当成一个主要的技术方案去忽悠不是特别懂这一块技术的人，事实上在学术界的论文中也不会有人说我们用一个Big Model解决了所有问题。

未来大模型应该可以在2.c所提的方向上持续发力，但肯定也会演变出来一系列千奇百怪或优或劣的AI架构，大浪淘沙，去伪存真。

链接：

zhuanlan.zhihu.com/p/580745171

12. 直播预告｜LiBai：开源大规模预训练模型库及开发实践

LiBai（李白）模型库一个基于OneFlow的开源大规模模型工具箱，覆盖了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有主流Transformer库的优点，为用户提供了“开箱即用”的深度学习大模型体验。目前，LiBai已支持BERT、GPT、ViT、Swin-Transformer、T5 等常见大模型，以及MoCoV3、MAE等最新研究，开箱即用，并且可以很方便地在下游任务上进行微调。

11月24日（本周四）19:00，LiBai核心作者程鹏将首先介绍大规模预训练模型的开发生态，并比较主流的Transformer模型库，之后重点讲解开源大规模预训练模型库LiBai的研发目标、克服的困难。最后，程鹏也将展示基于LiBai的大模型开发流程。

报名链接：

mp.weixin.qq.com/s/Td3LZjwxB…

欢迎下载体验 OneFlow v0.8.0 最新版本：
github.com/Oneflow-Inc…

Stable Diffusion半秒出图；VLIW的前世今生；YOLOv5全面解析教程 | AI系统前沿动态

1. Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

2. 比快更快，Stable Diffusion实现一秒出图

3. VLIW的前世今生：为什么DL加速器都青睐于它

4. 深挖Cerebras：世界上最大AI芯片的架构设计

5. 关于AI芯片软件栈的六条感悟

6. AI编译关键技术 • 高层循环编译优化 - 不仅仅是分块和合并

7. TVM for DSA的一些总结

8. OneFlow源码解析：Global Tensor

9. 李白：你的模型权重很不错，可惜被我没收了

10. 一个更快的YOLOv5问世，附送全面中文解析教程

11. 关于AI大模型的一点思考和讨论

12. 直播预告｜LiBai：开源大规模预训练模型库及开发实践