ComfyUI 东京首次线下用户见面会

64 阅读3分钟

ComfyUI Flux Accelerator:加速图像生成

ComfyUI Flux Accelerator[1] 是一款用于加速 ComfyUI 中 Flux .1 图像生成的自定义节点。通过连接此节点,用户可以实现 35%-37% 的加速效果。该节点利用了 TAEF1[2] 技术、量化编译和跳过冗余 DiT 块来实现加速。虽然整体速度提升了,但是它会损失一点质量,而且首次运行需要 30-60 秒来优化模型,而且目前只支持 Linux。

ComfyUI 东京首次线下用户见面会

ComfyUI 团队[3]宣布将于 2024 年 9 月 27 日在东京举办首次线下用户见面会,期待与全球用户面对面交流,分享未来发展路线。几乎所有的核心成员都将出席,活动定于下午 5 点至 8 点举行,具体地点将在活动日期临近时公布。立即报名参加东京 ComfyUI 见面会[4],不要错过与 ComfyUI 团队直接互动的机会。

这个活动面向所有对 ComfyUI 感兴趣的爱好者,带上电脑直接去就行!非常想去啊,但下次一定,你们有在日本的不要错过了。更多信息请访问Comfy Org[5]。

Cogstudio:专为 CogVideo 设计的 WebUI

Cogstudio[6] 是一款专为 CogVideo[7] 设计的 gradio WebUI,支持文本转视频、视频转视频、图像转视频、长视频扩展等功能。很多人说 CogVideo 效果拉,但你要知道运行显存最低只要不到 5G,这个门槛真的非常的低了。

这个 WebUI 采用单文件实现,只需将其复制粘贴到 CogVideo/inference/gradio_composite_demo 文件夹,即可确保支持最新版本的特性。

腾讯 Oryx:多模态视觉理解模型

由腾讯出品的Oryx[8]是一款统一的多模态模型,专注于图像、视频和多视角 3D 场景的时空理解。该模型能够高效处理任意空间尺寸和时间长度的视觉输入,在同时处理图像、视频和 3D 数据上表现出色,实现了多模态理解的高效无缝处理。

在官方提供的多个图像/视频理解基准测试得分表现下,34B 参数的模型远超所有开源 MLLM 模型,同时还超越了 OpenAI 的 GPT-4V,当然比起 GPT-4o 还是稍逊一筹。3D 空间理解的任务甚至比专门的理解 3D 的模型得分还要高。

腾讯 LVCD 动漫线稿视频上色

腾讯推出的LVCD[9]是一款基于参考图片上色的视频扩散模型,采用了 ControlNet 技术。实际上是线稿引导的视频生成,因此,即使画面快速运动,上色也能保持一致。

微信截图_20240923084818.png 目前被认为是除了ToonCrafter[10]之外最好的技术。官方提供了 120 个演示[11],生成的效果非常出色。目前尚未开源,但由于在三花的 9 群中讨论热烈,所以分享给大家。