ComfyUI-MochiEdit: 开源的 AI 视频编辑工具,支持局部编辑和视频转视频功能

325 阅读5分钟

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. ComfyUI-MochiEdit 是一款开源的 AI 视频编辑工具,支持视频转噪声再重采样。
  2. 提供了多种编辑功能,包括局部编辑、视频风格或内容转换等。
  3. 用户可以通过调整参数来控制最终视频的效果。

正文(附运行示例)

ComfyUI-MochiEdit 是什么

ComfyUI-MochiEdit.png

ComfyUI-MochiEdit 是基于 ComfyUI 和 Genmo Mochi 的开源视频编辑工具,通过将视频转换为噪声并重新采样来实现视频编辑。它支持局部编辑和视频转视频功能,用户可以调整噪声校正强度、对齐强度等参数控制视频效果,与 ComfyUI-MochiWrapper 节点结合使用,实现更复杂的编辑需求。ComfyUI-MochiEdit 安装简便,无需额外依赖,为视频编辑带来新思路。

ComfyUI-MochiEdit 的主要功能

  1. 视频转噪声再重采样:将输入的视频转换为噪声,用目标提示对噪声进行重新采样,生成新的视频内容。
  2. 局部编辑:用户只对视频中的特定部分进行编辑,不必处理整个视频,为视频编辑提供更大的灵活性。
  3. 视频风格或内容转换:将一个视频转换为具有特定风格或内容的新视频,用其他视频作为参考。
  4. 参数调整:用户调整如噪声校正强度、与原始视频的对齐强度和生成过程的引导步数等参数,控制最终视频的效果。
  5. 自定义提示符:支持与 ComfyUI-MochiWrapper 节点结合使用,基于自定义提示符调整输出结果,实现更复杂的编辑需求。

ComfyUI-MochiEdit 的技术原理

  1. Mochi Unsampler 节点:ComfyUI-MochiEdit 的核心节点之一,负责将输入的视频数据转换为噪声。涉及将视频的像素数据转换成一种被重新采样的噪声形式。
  2. Mochi Prepare Sigmas 节点:作用是将噪声数据转换回视频格式。负责根据目标提示和噪声数据生成新的视频帧。
  3. 噪声与信号处理:在视频转换为噪声的过程中,涉及对视频信号的分析和处理,及在重新采样时对噪声的控制和调整。
  4. 目标提示的使用:在重新采样噪声生成新视频的过程中,目标提示起到关键作用,指导噪声如何被转换成所需的视频内容。
  5. 参数控制:用户调整各种参数影响视频编辑的结果,参数包括噪声校正强度、对齐强度和引导步数等,参数的调整直接影响视频的最终输出效果。

如何运行 ComfyUI-MochiEdit

安装步骤

  1. 这些节点是为与ComfyUI-MochiWrapper节点一起使用而构建的,目前请遵循该包装器的安装指南。
  2. 将此仓库克隆到你的ComfyUI/custom_nodes/目录,或使用 ComfyUI Manager 进行安装(当此仓库被添加到管理器中时)。
  3. 无需额外依赖。

使用示例

  1. 进入example_workflows目录查看示例工作流。
  2. 首先,输入视频被转换为噪声,然后使用目标提示对此噪声进行重采样,类似于RF-Inversion的策略。
Unsampling 节点
  • Mochi Unsampler
    • gamma:噪声校正量。通常设置为 0,因为与 Mochi 不兼容。
    • seed:如果进行噪声校正,则使用的随机噪声种子。
  • Mochi Prepare Sigmas
    • 对 Mochi Sigma Schedule 节点产生的 sigmas 进行微调。
  • SamplerCustom (MochiWrapper)
    • positivenegative 应为空提示。
    • cfg 应始终为 1.0,用于解样。
    • add_noise 应始终为 False,用于解样。
    • seed 无需更改。
    • sigmas 必须先准备后翻转。
Sampling 节点
  • Mochi Resampler
    • latents:原始视频的 latents。
    • eta:生成应与原始视频对齐的强度。更高值使生成更接近原始视频。
    • start_step:原始视频开始引导生成的步数。较低值(如 0)会使生成更接近原始视频,但不允许添加新对象(如帽子)。较高值(如 6)允许添加新对象,但可能不完全跟随原始视频,较高值可能导致模糊。
    • end_step:停止引导生成接近原始视频的步数。较低值会导致更多差异。
    • eta_trend:随着步骤进展,eta(对齐强度)是否保持不变、增加或减少。推荐设置为linear_decrease
  • SamplerCustom (MochiWrapper)
    • positivenegative 可以是任何内容。positive 应为目标提示。
    • cfg 可以是任何与正常 Mochi 兼容的值(如 4.50)。
    • latents 应为解样后的 latents。
    • sigmas 必须准备但不应翻转。
    • seed 无影响。

资源

  1. 项目官网:logtd.github.io/ComfyUI-Moc…
  2. GitHub 仓库:github.com/logtd/Comfy…
  3. RF-Inversion 官网:rf-inversion.github.io/
  4. arXiv 技术论文:arxiv.org/pdf/2410.10…

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦