就在刚刚,Google Deepmind 深夜放大招,发布了最新基础世界模型 Genie 2。
模型Genie2展示
想体验游戏世界?未来只需一张图片就能实现
Gemini在竞技场跑分已经飙升至第一,想要订阅升级使用Gemini Pro的可以参考:GeminiPro升级教程
作为一个基础世界模型,Genie 2 能够凭借开局一张图生成各种可操作、可玩的3D环境。
当 Genie 2 能准确预判角色行为并实时生成连贯画面,这也意味着它已经开始真正「理解」而不是简单「模仿」世界的运作规律。
第一代 Genie 创造 2D 世界,而今天 Deepmind 推出的 Genie 2 则迈出了更大的一步,能够生成丰富多彩的 3D 世界。 作为世界模型,Genie 2 最厉害的地方在于它能「理解」虚拟世界的运作规律。比如当你操控角色跳跃或游泳时,它能准确预测和展示接下来会发生什么。这得益于其在海量视频数据集上的训练,以及类似其他生成式模型所展现的多项涌现能力,包括物体互动、复杂角色动画、真实物理效果,以及对其他智能体行为的模拟与预测能力。
DeepMind 发布的演示视频生动展示了用户与 Genie 2 的互动过程。 首先,系统使用 Imagen 3 根据文字描述生成初始图片。然后,Genie 2 就能基于这张图片创造出一个完整的互动世界。最后,用户可以用键盘鼠标在这个世界里自由探索,而 Genie 2 会实时模拟生成你看到的每一帧画面。
更重要的是, Genie 2 能够在一分钟内生成世界,大多数示例的时长为 10 至 20 秒。具体而言,Genie 2 能智能响应键盘输入,准确识别并移动目标角色。比如,它能自动理解方向键应该控制机器人的移动,而不是场景中的树木或云朵。
有趣的是,即使从同一个初始画面出发,由于玩家决策和行动的差异,最终可以产生截然不同的结果。这一特性对于训练 AI 智能体理解不同决策带来的后果极其有价值。
另外,Genie 2 还拥有强大的「记忆力」和「创造力」,它能记住你看不到的地方是什么样的,在重新看到时还能精确重现。
Genie 2 能保持长达一分钟的场景连贯性,动态生成新的合理内容。Genie 2 还能支持多种视角切换,比如第一人称视角、等角视角或第三人称驾驶视频。
Genie2底层原理
说到具体的技术原理,Genie 2 本质上是一种自回归的潜在扩散模型,经过大规模视频数据集的训练。
视频经过自编码器处理后,提取的潜在帧被传递到一个大型 Transformer 模型,后者使用类似大语言模型的因果掩码进行训练。
在推理时,Genie 2 可以以自回归方式进行采样,逐帧处理,基于过去的潜在帧和当前的动作生成新的帧。
研究团队使用无分类器引导方法来提高动作的可控性。
看着有些复杂,简单来说,它看过海量的视频资料,学会了预测画面怎么变化。当你在这个虚拟世界里行动时,它就能一帧一帧地生成新画面,从而让整个过程看起来特别流畅自然。
官方目前展示的这些案例都是通过未蒸馏的基础模型生成的,目的是展示潜力。虽然研究团队也有一个能实时运行的精简版本,但输出的画面效果会差一些。
但不管怎么说,从平面到立体,Genie 2 完成了 AI 创造力的维度跃迁。
OpenAI截胡预告
商战气息一触即发!!!
而在凌晨时分,OpenAI 也正式官宣了为期十二天的圣诞惊喜活动。
十二月的硅谷不只是圣诞老人的主场,也是 AI 巨头们的年终对决。 不是冤家不聚头,Deepmind 头条再次被成功抢占。
按照以往惯例,OpenAI新产品都是提供给订阅plus会员优先使用,大家需要订阅升级的可以参考本文:国内手段ChatGPT升级教程
Sam Altman 在 X 平台宣布:
🎄🎅 从明天太平洋时间上午 10 点开始,我们将启动为期 12 天的 OpenAI 活动。每个工作日,我们都会进行一场直播,展示一些新发布的内容或演示,有些是重磅活动,也有些是小惊喜。我们有很多精彩内容等着与大家分享,希望你喜欢!圣诞快乐!
网友也化身预言家,预测了 OpenAI 要发布的一些内容:
第 1 天:发布文本到视频 AI 工具 Sora。
第 2 天:为 ChatGPT 引入圣诞老人灵感的声音,增添节日气氛。
第 3 天:通过视觉功能增强 ChatGPT 的高级语音模式。
第 4 天:向免费用户发布 o1-preview,扩展了对高级推理模型的访问。
第 5 天:展示 1 月即将推出的 GPT 智能体。
第 6 天:发布 GPT-4o 图像。
第 7 天:推出新的开发者工具。
第 8 天:展示新的 Dalle。
第 9 天:宣布具有更大上下文窗口的 GPT-NEXT 模型。
第 10 天:发布辩论游戏,教机器辩论玩具问题。
第 11 天:推出 Microscope,这是神经网络模型可视化的集合。
第 12 天:将高级语音模式时间增加至每天 20 小时。
满血版 o1、Sora 的呼声在众多网友的猜测中此起彼伏,可以说,2024 年的 AI 竞赛正在酝酿最后的高潮。