近期，OpenAI 发布通用视觉大模型 Sora ，这也是继 - Baihai_IDP - 沸点 - 掘金

@白海科技

近期，OpenAI 发布通用视觉大模型 Sora ，这也是继文本模型ChatGPT和图片模型Dall-E之后，又一极具颠覆性的大模型产品，人们重新思考了生成式 AI 在视觉内容创作领域的应用前景，内容创作工作流有望被颠覆。

我们今天要为大家分享的这篇博文，作者认为 Sora 代表了Transformer、NaViT、扩散模型等一系列视觉AI技术的融合创新，是迈向通用人工智能的重要一步。

作者首先简要介绍了Sora的功能，然后详细梳理了支持Sora的各项核心技术内容，包括Transformer、ViT、ViVit、MAE、NaViT、扩散模型、Latent Diffusion Models以及最关键的Diffusion Transformer。最后，作者预测Sora未来将进一步拓展应用范围，进军三维建模领域，并最终成为类似物理引擎的通用分析工具，为视觉内容创作甚至其他各个领域带来革命性进步。Sora的诞生预示着多模态AI将逐步走向成熟与普及，人类想象力的边界将得到进一步拓展。

作者：Baihai_IDP
链接：

juejin.cn
来源：稀土掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

展开

好文推荐

赞过