近期,OpenAI 发布通用视觉大模型 Sora ,这也是继文本模型ChatGPT和图片模型Dall-E之后,又一极具颠覆性的大模型产品,人们重新思考了生成式 AI 在视觉内容创作领域的应用前景,内容创作工作流有望被颠覆。

我们今天要为大家分享的这篇博文,作者认为 Sora 代表了Transformer、NaViT、扩散模型等一系列视觉AI技术的融合创新,是迈向通用人工智能的重要一步。

作者首先简要介绍了Sora的功能,然后详细梳理了支持Sora的各项核心技术内容,包括Transformer、ViT、ViVit、MAE、NaViT、扩散模型、Latent Diffusion Models以及最关键的Diffusion Transformer。最后,作者预测Sora未来将进一步拓展应用范围,进军三维建模领域,并最终成为类似物理引擎的通用分析工具,为视觉内容创作甚至其他各个领域带来革命性进步。Sora的诞生预示着多模态AI将逐步走向成熟与普及,人类想象力的边界将得到进一步拓展。

作者:Baihai_IDP
链接:juejin.cn
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
展开
评论