gpt+dit可能是OpenAI的新架构
很有可能openai应该不是纯粹的gpt架构了
而是gpt+dit 类似sora的架构
目前看来gpt+dit才可能解决无限长和多模态快速融合高效输出的问题
光gpt在图和语音这种像素点密集架构推理会很慢
光dit对于无限上下文问题解决不太好
所以sora的gpt+dit才可能解决多模态效率问题
大家讲sora基本只介绍dit往往忽略他是怎么实现视频拼接 视频续生的
token本身没问题的 图视频也是序列的
这就是为什么sora不是直接dit而是gpt+dit