控制难题:为何文本指令不足以支撑VR体验
想象戴上VR头显,伸手去拿一个虚拟咖啡杯。视频中你看到手在接近,但当你试图抓住时,手指却像幽灵般穿过杯体。杯子毫无反应,你的手也没有弯曲环绕。虚拟世界将你的动作仅视为装饰,而非控制指令。
这正是当前视频世界模型面临的核心难题。现有系统主要接受粗略的控制信号——大多是文本提示。你可以要求它们生成"某人拿起杯子"的画面,它们会想象出看似合理的视频。但它们完全不了解你实际的手部动作,无法看到你的关节弯曲或手腕实时旋转。它们生成的是一般性的人体动作,与你特定的动作毫无关联。
扩展现实(XR)的需求截然不同。当你在物理空间中移动手时,虚拟世界应对这个精确的动作做出响应——不是类似的动作,不是符合文本描述的动作,而是你的动作。追踪技术能测量的数据与生成模型能处理的条件之间的不匹配,正是本文试图弥合的根本差距。
当思考人们在VR中实际想要完成的任务时,这个问题变得更加突出:用手指精确按下一个按钮,通过旋转手腕打开罐子,双手协调转动方向盘。这些都需要灵巧的交互、精细的控制和即时响应。基于文本条件的模型缺乏让这些交互感觉真实的信息,它无法区分你的拇指和小指移动,也无法追踪你手腕是顺时针还是逆时针旋转。
如何感知你:手部与头部追踪
解决方案始于识别已有信息。每个现代VR头显都配备摄像头,能实时追踪用户的头部位置和手部姿态。这不是模糊的数据,而是具体的3D几何信息:你在虚拟空间中的头部空间位置、视野方向的旋转,以及你26个手部关节的位置和旋转。
系统并非将这种丰富的空间信息转换为不精确的描述,而是直接处理这些数值数据。头部姿态用六个自由度表示,同时描述你的眼睛在3D空间中的位置以及观看方向。手部姿态则来自UmeTrack模型,它追踪手腕的平移和旋转以及每个手指关节的位置。这就是视频生成器将要学习的语言。
整个流程很直接:头显实时追踪你的身体,将追踪数据转换为3D坐标,将这些坐标输入视频模型,然后接收回虚拟环境的视频流。在解释模型如何学会使用这些信号之前,值得理解的是,追踪提供的是精确的空间信息,而非模糊的推断。当你移动食指时,系统知道是那个位置发生了变化,而不仅仅是"手动了一下"。
教导模型关注手部:条件生成的挑战
接下来是难题所在。视频扩散模型——目前最好的视频生成器——是在互联网数据上训练的,在这些数据中,手通常是微小的背景细节。一只手只占画面的3%,手指几乎难以分辨,精确的手部姿态几乎与标题描述无关。当你突然要求模型密切关注26个关节位置并将它们作为生成的核心时,你是在要求它忘掉预训练期间自然学到的东西。
挑战在于架构层面。视频模型需要被明确告知使用手部姿态信息,而有多种方式可能效果不佳。压缩过度,信号就会消失在模型的深层中。处理过于简单,模型就会学会忽略它,转而依赖它已熟知的模式。本文测试了多种条件策略,发现混合方法效果最佳——一种在扩散过程的多个层次整合手部姿态信息的方法。
观察模型生成的内容时,差异变得明显。采用不良的条件策略时,模型生成的手会偏离输入的追踪数据,或者完全忽略信号,仅执行一般性的人体动作。而采用混合策略时,生成的手能与追踪数据指示的位置保持一致。视频中的手实际匹配了用户在物理空间中做出的手势。
混合条件策略实现了追踪手部输入与生成输出之间更紧密的对齐。
这种方法能扩展到更复杂的场景。在GigaHands(一个包含多样手与物体交互的数据集)上测试时,同样的策略能泛化到不同类型的运动和不同的环境中。适用于简单手部追踪的条件机制,在手与方向盘交互或打开罐子时也同样有效。
条件机制的创新很重要,因为它使手部姿态成为一等控制信号,而非事后考虑。模型不仅容忍手部信息,还在生成过程的每个层次将其整合到决策中。这为后续聚焦于相机控制奠定了基础。当头部姿态和手部姿态都得到适当条件化时,系统就能生成这样的世界:你所见即你所看之处,且你的手能以物理上合理的方式与物体交互。
相机和手部控制协同工作。仅使用其一,交互的另一个维度就会失去控制。
速度至关重要:从双向教师到实时系统
一个完美但生成一帧需要30秒的视频模型在VR中毫无价值。从你移动手到看到世界响应之间的时间称为延迟,用户对此极其敏感。超过约20毫秒的延迟,交互在心理上就会断裂。你不再感觉自己在控制某物,而开始感觉在看一个偶尔响应你输入的视频。
这在生成模型中造成了张力。你可以通过迭代运行扩散过程,经过许多步骤构建输出来实现高质量。但迭代需要时间。本文通过知识蒸馏解决了这个问题——这是一种让高质量模型(教师)训练一个更快模型(学生)的技术,使学生能在没有额外计算的情况下产生类似输出。
教师模型是双向的,意味着它在生成帧时能看到过去和未来的上下文。这赋予了它做出可靠预测所需的信息。学生模型是因果的,意味着它只能看到过去,就像真实的交互一样——未来尚未发生。学生从教师那里学习如何仅凭过去上下文做出好的预测。通过这个训练过程,学生学会了如何足够快地运行以实现实时交互,同时保留了精细手部条件化的质量优势。
这不仅仅是让事情更快,更是让条件化的手部信息在实际应用中真正有用。如果系统无法在VR头显上实时运行,再复杂的条件策略也无济于事。蒸馏方法在保持条件化优势的同时,实现了具身交互所需的响应能力。
实际效果如何:真实用户测试
技术创新只有改善了用户的实际体验才有意义。为了验证这一点,本文让真人用户执行三个具体任务:按绿色按钮、打开罐子和转动方向盘。这些并非随意选择。每个任务都需要不同类型的手机交互。按钮需要精确、局部的指尖放置。罐子需要手绕轴协调旋转。方向盘需要双手协调和持续转动。它们共同考验系统处理灵巧交互的能力。
受试者佩戴商用VR头显,在两种条件下完成这些任务。基线条件下,他们收到描述任务的文本提示。实验条件下,系统使用他们实际追踪到的手部姿态。评估衡量两个方面:他们是否成功完成任务,以及他们是否感觉能控制正在发生的事情。
结果显示明显改进。当模型实际看到用户的手时,任务成功率提高。但更有趣的是主观发现:当系统基于他们实际的手部追踪进行条件生成时,用户报告了显著更高的控制感和自主感。这很重要,因为它表明系统并非偶然命中目标,而是让用户感觉虚拟世界正在响应他们的意图。
基于手部条件的视频生成既提高了任务成功率,也增强了用户对自己动作的控制感。
用户研究让整个叙述变得具体。每一个技术决策单独看来都合理,但真正的问题是它是否产生了一个人类想要使用的系统。答案是肯定的。当虚拟世界响应你实际的手,而非一般性的手时,交互感觉响应迅速且充满意图。这证明了条件化工作、速度优化和训练策略共同解决了具身交互中的一个实际问题。
不足之处与未来展望
没有系统是完美的,清晰地认识局限性比虚假的自信更有用。手部遮挡——当一只手遮住另一只时——有时会混淆追踪和生成。极快、灵巧的动作偶尔会超出模型跟上的能力。生成与训练数据差异显著的新场景,对所有生成模型来说仍然具有挑战性。扩展到更长的交互序列需要在连贯性与实时生成的计算限制之间进行权衡。
但这些局限性指向了未来工作的自然方向。遮挡之所以困难,是因为模型必须想象看不见的手部配置;随着手部追踪的改进,这将变得更容易。速度限制将随着硬件进步和模型效率提高而缓解。对新场景的泛化对任何生成模型来说本质上都困难,但手部条件化至少提供了一个纯文本模型所缺乏的立足点。通过手部姿态追踪用户意图的系统,能比纯粹依赖语言描述的系统更有效地从更少的数据中学习。
这项工作也与具身AI的更广泛轨迹相连。其他方法,如用于第一人称视频的手物交互生成,已探索了如何从手部运动生成交互。本文通过构建一个以手部和头部控制为条件的完整世界模型,实现了交互式模拟而不仅仅是交互预测,从而扩展了该领域。类似地,利用人类视频训练世界模型的研究已显示出使用人类演示作为训练信号的价值,这一原则加强了本文工作在真实用户运动方面的基础。
更广泛的背景是,具身AI的发展路线图越来越强调能模拟视觉环境的世界模型,将其作为智能体学习和人机交互的关键组成部分。本文为实现这一愿景做出了具体贡献:一个能响应人体运动的视觉世界模型。随着这些模型的改进,问题将从"我们能否以手部姿态为条件"转变为"既然可以,我们能构建什么?"
坦诚的评估是,这是在解决一个真实问题上取得的进展,而非一个完整的解决方案。手部追踪和视频生成都将独立持续改进,而这项工作受益于这些进步。其条件策略足够通用,能随着未来更优视频模型的出现而继续有效。随着效率的提高,蒸馏方法将变得更加易行。随着底层技术的每项改进,该系统与完全沉浸、无延迟的虚拟具身之间的差距正在逐步缩小。FINISHED