TPU演进十年;18个PyTorch性能优化技巧 | AI系统前沿动态

971 阅读6分钟

图像2022-11-14 10.12.jpeg

1. TPU演进十年:Google的十大经验教训

希腊神话中,特洛伊战争的起因是两方争夺世界上最美的女人——海伦,后世诗人将海伦的美貌“令成千战舰为之起航”。TPU就像海伦,它的出现引起了“成千芯片与之竞逐”。

可以说,TPU的问世引发了硅谷的“地震”。TPU宣布诞生后,Intel耗资数十亿美元收购了多家芯片公司,阿里巴巴、Amazon等竞争对手纷纷开始研发类似产品。TPU重新唤起了人们对计算机架构的关注,后来的几年内,出现了上百家相关初创企业,年均总融资额近20亿美元,各种新奇的想法层出不穷。

链接:

mp.weixin.qq.com/s/XuwExQsg5…

2. 进击的PyTorch,和它背后的开源领袖

十年间,从Torch进化到PyTorch,再到近期落地Linux基金会,PyTorch从一个无心插柳的项目逐渐演变为最有影响力的开源项目之一。它究竟是如何一步步成长起来的?背后有那些与众不同的故事?

链接:

mp.weixin.qq.com/s/JrutTVvFt…

3. 首个中文Stable Diffusion模型开源,中文AI艺术时代开启

生成内容一直被视为 AI 领域中最具有挑战性的能力,最近大火的 AI 绘画背后,是 Stable Diffusion 模型的开源,催生了众多 AI 绘画的应用,得益于 Stability AI 的开源精神,这一创变推动了整个以英文为主的下游文生图生态的蓬勃发展。

然而在国内,目前大部分团队主要是基于翻译 API + 英文 stable diffusion 模型进行开发,但由于中英文之间所得存在文化差异导致遇到中文独特的叙事和表达时,这种模型就很难给出正确匹配的图片内容。因此,IDEA 研究院认知计算与自然语言研究中心(IDEA CCNL)开源了第一个中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,让中文的世界真正拥有具备中国文化内核的 AIGC 模型。

链接:

mp.weixin.qq.com/s/WrzkiJOxq…

4. 开源风暴吞噬AI界?从Stable Diffusion的爆火说起

近日,文本生成图像模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资,估值达10亿美元,这家基于开源社区的“草根”企业的风头一时间甚至盖过了业界顶级研究机构OpenAI。

尽管开源项目存在商业模式、开源许可协议等方面的挑战,但通过良好开源社区的驱动,AI项目的技术发展、应用广度和创造空间都有了意想不到的发展,正如开源“吞噬”软件1.0,“开源AI”运动将在软件2.0时代不可阻挡。

链接:

mp.weixin.qq.com/s/yc5zCng3D…

5. 旷视开源深度学习模型编译器 MegCC

MegEngine 团队开源的深度学习模型编译器 MegCC是一个运行时超轻量,高效,移植简单的深度学习模型编译器。基于 MLIR 开发,便于所有对二进制大小/内存占用敏感的推理场景。输入模型,输出可执行文件,mobilenetv1 的推理runtime 只要 81KB,速度和内存占用都很不错。为了便于大家使用,在MegEngine 模型之外还支持 ONNX 模型的导入。

链接:

github.com/MegEngine/M…

6. TensorFlow将于2023年发布新版,明确四大支柱

近日,谷歌宣布他们已经着手开发 TensorFlow 的下一个迭代,并专注于快速和可扩展、应用型 ML、部署、简单化这四大支柱。更具体地,谷歌计划在 2023 年第二季度发布新的 TensorFlow 预览版,之后晚些时候发布生产版本。

链接:

mp.weixin.qq.com/s/5YIT45AcS…

7. PyTorch编译机制的总结

PyTorch 编译器一直在不断变化,不断出现新的解决方案堆栈或 IR,新方案都与以前的解决方案部分重叠。这是为什么?

链接:

dev-discuss.pytorch.org/t/the-nuanc…

8. 优化PyTorch的速度和内存效率(2022)

深度学习模型的训练/推理过程涉及很多步骤。在有限的时间和资源条件下,每个迭代的速度越快,整个模型的预测性能就越快。作者收集了几个PyTorch技巧,以最大化内存使用效率和最小化运行时间。为了更好地利用这些技巧,我们还需要理解它们如何以及为什么有效。

链接:

mp.weixin.qq.com/s/BYV-ANrWp…

9. OneFlow的大模型分片保存和加载策略

在模型比较小时(如 100G 以下),还有可能采用单机存储。当模型参数量比较大时,要求的样本数也更大,训练后做 dump 出来的模型也会很大,单机肯定放不下。本文将介绍 OneFlow 的大模型分片保存、加载策略以及使用方法。

链接:

mp.weixin.qq.com/s/2Z400_r_Z…

10. 视频教程|OneFlow源码解析(3):OneFlow的Eager VM

其它的深度学习框架的动态图运行时,往往可能只做简单的算子派发。OneFlow 的动态图运行时(Eager VM),做了多项技术创新,如:将张量的生命周期作为性能优化的考量之一。这使得 OneFlow Eager VM 在通常情况下,都具有性能优势,在某些边界情况下,这类性能优势可以超过100%。

链接:

www.bilibili.com/video/BV1xY…

11. 昇思金箍棒:基于MindSpore的业界SOTA模型压缩算法集

近些年来,随着算力的提升、数据的爆炸式增长和深度神经网络技术的成熟,深度神经网络在CV、NLP等很多领域都取得了远超传统机器学习的效果,相应的,神经网络的规模和参数量也在迅速增加。端边设备的算力、电量和内存虽然有提升,但并不能匹配神经网络的部署要求,模型压缩算法就是为解决这个矛盾应运而生。

链接:

zhuanlan.zhihu.com/p/555032583

12. Meta发布全新推理引擎AITemplate

Meta 发布了革命性的推理引擎 AITemplate。测试结果显示,相比 PyTorch Eager,AITemplate 在 NVIDIA GPU 上实现了最高 12 倍的性能提升,在 AMD GPU 上实现了高达 4 倍的性能提升。

链接:

mp.weixin.qq.com/s/POMDj0P4-…

13. 一行代码12倍加速Bert推理,OpenAI编程语言加持的引擎火了

一行代码的威力到底有多大?今天我们要介绍的这个 Kernl 库,用户只需一行代码,在 GPU 上就能以快几倍的速度运行 Pytorch transformer 模型,从而极大的加快了模型的推理速度。具体而言,有了 Kernl 的加持,Bert 的推理速度比 Hugging Face 基线快了 12 倍。

这一成果主要得益于 Kernl 用新的 OpenAI 编程语言 Triton 和 TorchDynamo 编写了定制的 GPU 内核。项目作者来自 Lefebvre Sarrut。

链接:

mp.weixin.qq.com/s/aIjq2JDUr…

14.重磅!AI基础软件架构峰会来袭,算法能力的新跃迁

2022年11月19日,DataFunSummit2022:AI基础软件架构峰会将如约而至。本次峰会由3位主席与5位出品人精心策划而成,共包含了:深度学习框架、超大规模模型训练、AI芯片及编译器、新一代AI基础架构及应用、MLOps及AI工程化落地、端侧推理等6大主题论坛,邀请30余位来自国内外一线的AI基础软件技术专家,进行深度分享交流。本次峰会将全程直播,欢迎大家届时收看。

链接:
mp.weixin.qq.com/s/8yOBMadMt…

欢迎下载体验 OneFlow v0.8.0 最新版本:

github.com/Oneflow-Inc…