一张照片创造会动的虚拟形象 开箱即用解决方案

59 阅读2分钟

WarpTuber:快手 LivePortrait 驱动的即时 VTubing 工具

1.gif

WarpTuber 是一个基于快手 LivePortrait 的即时 VTubing 工具。它允许用户通过摄像头,将自己的脸部表情和面部动作即时‘套’到一张照片或角色图像上,从而创造出会动的虚拟形象。

作者开源了在 Windows 11 上的开箱即用解决方案[1],有需要的佬可以一试

Mistral Small 3.1:多模态模型

Mistral Small 3.1 是 Mistral Small 3 的升级版本,拥有 24B(240 亿)参数,旨在提供高效、低延迟和高性能的生成式 AI 解决方案。该模型在 Apache 2.0 许可证下发布,允许用于商业目的。

该版本主要新增了对图像理解的支持,上下文长度从原来的 32k 提升至 128k 令牌,可在单张 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,比同参数量的 Llama 3.3 70B 在相同硬件上快 3 倍。

这个模型在多个基准测试中表现优异,超越了同级别模型 Gemma 3 27B 和 GPT-4o Mini 等。更多更新细节可以查看官方博客[2]。

Silent Branding Attack:基于生图模型的数据投毒

Silent Branding Attack[3] 是一种新的数据投毒技术,专门针对文生图模型。

这种技术独特之处在于,它不需要使用任何明确的提示词,就能在生成的图像中无缝嵌入特定品牌,并且看起来非常自然。一把双刃剑,既能用于品牌推广,也能用于恶意攻击。

目前,仅发布了研究论文,代码即将开源。

佬们可以看看配图,你能发现哪些图被投毒了?

快手 ReCamMaster:单目视频重运镜技术

2.gif

ReCamMaster[4] 是快手团队开发的一项单目视频重运镜技术。它能够通过控制相机视角和运动路径,将已有的视频素材“重新拍摄”,生成全新的动态视角,而无需额外的拍摄设备或复杂的后期制作。

这项技术有点类似前几天介绍的 TrajectoryCrafter[5],不过看效果要好的多,暂时还没开源,可以期待下。

Piece it Together:拼图魔法

“Piece it Together”[6](简称 PiT)是一款创新的视觉概念生成工具,它能够将用户提供的各种“部件”智能整合,形成一个有意义的整体。