JoyCaption：开放且支持 NSFW 的视觉语言模型

2024-10-18 794 阅读2分钟

JoyCaption：开放且支持 NSFW 的视觉语言模型

JoyCaption[1] 是一个开放、免费且未经审查的视觉语言模型（VLM），其最大的特点是多样性和完全支持 NSFW 内容。Readme 的介绍很有意思，不过具体还是你们自己看吧。

Meta 开源 Movie Gen Bench

微信截图_20241018113919.png Meta 今天宣布开源了 Meta Movie Gen[2] 技术报告中的 Movie Gen Bench[3]，包含视频和音频的生成基准测试。起猛了，还以为视频模型本身开源了，不过按照 Meta 目前的节奏应该会慢慢开源，关注我，为你持续跟进 Meta 的开源动态。

Open Canvas: OpenAI Canvas 开源替代

Open Canvas[4] 是由 langchain-ai 社区开源的 OpenAI Canvas 替代版本，支持本地化部署。实际体验与 chat 功能没啥区别？你们可以自己试试，在线使用[5]

复旦开源 Hallo2：音频驱动数字人头视频生成

微信截图_20241018114039.png Hallo2[6]，这是一项音频驱动的数字人头技术，能够生成长达 1 小时的 4K 分辨率视频。与 Hallo[7] 相比，Hallo2 支持更高分辨率和更长的视频生成，也同样支持如雕像、绘画、卡通等多种风格的人头。

OpenAI 发布 Windows 版 ChatGPT 客户端

OpenAI 推出的 ChatGPT 客户端现已支持 Windows 系统，官方还在其帮助中心发布了《使用 ChatGPT Windows app[8]》的教程。不过，目前这个版本还处于早期测试阶段，还不支持高级语音功能，仅支持付费用户，并且只能在微软商店下载。下载似乎还存在地区限制。

Mini-Omni2：全能交互模型，支持多模态输入与实时对话

微信截图_20241018114105.png Mini-Omni2[9] 是一款全能交互模型，能够理解图像、音频和文本输入，并支持实时语音对话，官方宣称就像 GPT4-o 一样。在对话过程中，用户可以灵活交互，随时打断。项目目前还处于早期阶段，感兴趣的朋友可以关注起来。