AI生成世界：从草图到元宇宙的探索本周AI简报探讨了多媒体模型如何引领实时交互式世界生成，以及其对元宇宙的推动作用。文章

人工智能简报 #11

编者按

本周思考的重点是多媒体人工智能模型将如何引领实时交互式世界生成，以及这为何是虚拟现实和元宇宙的有力支撑。与同事就此进行了交流，并观看了一场相关演讲（见下文研究雷达部分），这一想法令人难以忘怀。（编者按：该同事及本机构均不对以下推测负责）

就在本周：现在可以微调 FLUX.1 模型；某机构推出了对话式视频接口，这是一个“数字孪生”应用程序接口，能以真人形象进行实时视频聊天。Puppet-Master 项目为 Stable Video Diffusion 模型添加了拖拽标记，让你可以像关闭微波炉门一样，控制视频中微波炉图片的门扇开关。Sketch2scene 是一个复杂的流水线项目，它像一个巨大的联动机，通过组合多个模型，能够从粗略的草图生成一个可完全运行的游戏世界，并且已经实现。

基于 FLUX.1 的图像生成器可以处理手部、文字等此前用于区分人工智能图像的几乎所有元素。这是该技术目前最不成熟的阶段，同时也清晰地展示了人们对于生成世界能力的渴望。

下一步将如何发展？当我们拥有能够处理多步骤决策的智能体时又会怎样？

目前，对于一个知识工作者来说，工作流程可能是这样的：指示人工智能撰写内容，查看其回答，进行复制粘贴，或许再做一些编辑。

另一项工作是构想各种可能的世界并在其中做出选择。这意味着进行规划，设定目标。知道哪些值得尝试，哪些文本或图像应该复制粘贴到哪里。

规划过程本身也正在被自动化，部分是由你的选择驱动的。现在，每当你做出一个选择，机器都会记录下来。这在代码编辑器中已经发生：有一个专门训练的模型，可以预测光标的下一个位置以及将在那里进行的更改。

一旦这些大型模型能够可靠地规划行动，我们将委托它们完成长期运行的程序。你可以让你的智能体去做研究，它会研究问题、提出假设、找出可以运行的测试、执行测试并撰写报告，然后将结果反馈给你。这看起来更像是一个人的行为，而非一个程序。

我们需要能够与这种长期运行、智能且类似人类的实体进行交互的界面。我们可能希望它们在外观上更接近人，并存在于一个类似世界的环境中。实现这一点的技术正在发展中，这得益于元宇宙、某机构头显以及其他类似项目中投入的巨额资金。

虚拟人将出现在你的编辑器、Zoom 会议、增强现实和虚拟现实中。它们可以在现实感上进行调整，或多或少地应用现实效果。它们将相互交互，成熟的虚拟人可以教导新生的虚拟人，它们所处的世界也将足够真实，以满足所有这些智能体的交互需求。可能不必“像地球一样真实”，但至少要达到“像电子游戏一样真实”的水平。它们将拥有自己的物理规则，并适用于所有智能体，这些规则甚至可以包括飞行、火球或其他任何设定。

无限的世界，由纯粹的算力生成。一切都将并行化：实验、研究人员，乃至整个现实。我们将为了更美好的未来探寻秘密知识，实现医学突破、清洁能源，以及爱、恨、信仰的全新方式。这将是美丽而震撼的。我们将探索每一个方向，解锁新的世界和成为人类的新方式。

元宇宙也是多元宇宙。通往所有其他世界的大门将打开，人类将向其中探索得越来越深。同时，也会将宝藏带回现实世界。但可能的虚拟世界的范围要广阔得多。

我们正处于那个时代的开端，一个巨大洞穴的入口。

你敢于深入探索吗？

—— deepfates

实用工具

使用数字人构建视频对话

某机构推出了对话式视频接口，这是一个“数字孪生”应用程序接口，能以真人形象进行实时视频聊天。这些人工智能化身具备不到一秒的延迟，可为客户支持、销售等场景提供自然的交互体验。

该系统整合了语音识别、视觉处理和自然语言理解技术，以创建栩栩如生的数字复制品。开发者可以轻松地将此技术集成到自己的应用中，为规模化、个性化的视频交互开辟新的可能性。

基于本平台构建！

[演示]

研究雷达

从草图到可玩的 3D 游戏世界

Sketch2Scene 是一个雄心勃勃的项目，旨在将粗略的草图转化为完全可玩的游戏世界。只需绘制一张简单的俯视地图，该系统就能生成 3D 地形、纹理、物体，甚至可玩的角色模型。

该项目在一个复杂的流程中组合了多个人工智能模型，包括等距图像生成、视觉场景理解和程序化 3D 场景生成。它让我们得以一窥游戏开发和人工智能生成交互环境的未来。

[演示] | [论文] | [YouTube]

控制人工智能生成视频中的物体

Puppet-Master 为 Stable Video Diffusion 添加了拖拽标记，允许对生成视频中的物体进行精细控制。在物体周围绘制边界框，模型就能让你控制其运动和位置。

这项技术让我们离完全交互式的人工智能生成内容更近一步。预计未来会有更多将标记分配给视频空间概念的相关研究出现。

[演示] | [论文]

对元宇宙的展望

本机构的同事分享了他对增强现实、虚拟现实和人工智能智能体未来的见解，该演讲来自 2022 年，富有预见性。他认为，智能手机时代将被增强现实和虚拟现实体验所取代，从而为开发者创造新的机遇。

他探讨了增强现实/虚拟现实在教育、工作和社交互动方面的潜力，并强调了负责任地使用这些技术的重要性。这个演讲极具先见之明：值得注意的是，他在某社交媒体巨头股价最低点时预测了其反弹。自那以来，该股价已上涨 436%。

[YouTube]

结语

本周的内容就是这些！你对人工智能生成的世界和具身人工智能智能体的未来有何看法？请回复邮件告诉我。拜托了，任何人。

如果你喜欢这份简报，请转发给可能感兴趣的朋友。如果是别人转发给你的，别忘了自己订阅！

下次再见。 —— deepfatesFINISHED

AI生成世界：从草图到元宇宙的探索