3DHM：3D 姿势到视频生成技术3DHM：3D 姿势到视频生成技术 3DHM[1] 是又一款基于扩散模型的技术，能够将

3DHM[1] 是又一款基于扩散模型的技术，能够将 3D 运动姿势视频与参考人物照片结合，生成高质量的视频内容。无论是舞蹈还是体操，3DHM 都能轻松生成。

与其他类似技术相比，3DHM 的显著优势在于其支持长视频和大动作幅度的能力，这提供了更广泛的应用场景，在画面稳定性上不如前天介绍的 DisPose，而且现在还是期货开源。

来欣赏由大佬 MatanCohenGrumi[2] 使用 Pika 2.0 生成的一段表情包服装秀视频。这段视频主要利用了 Pika 的 Scene Ingredients 功能，该功能支持参考背景、角色和服装的图片来生成视频，视频流畅，角色一致，效果不错。

DIFF-INSTRUCT*[3]（简称 DI ）的最新论文更新显示，其 2.6B 的 DI-1step 文生图模型在人类偏好和 CLIP 得分上超越了 12B FLUX-dev-50step 模型，仅使用了 1.88% 的推理时间和 29.30% 的 GPU 内存。

兄弟们这要是真的确实是非常强的提升。不过，论文中提到模型现已就绪，但仓库地址目前还是 404，可能还需要等待一段时间。