JoyCaption:开放且支持 NSFW 的视觉语言模型
JoyCaption[1] 是一个开放、免费且未经审查的视觉语言模型(VLM),其最大的特点是多样性和完全支持 NSFW 内容。Readme 的介绍很有意思,不过具体还是你们自己看吧。
Meta 开源 Movie Gen Bench
Meta 今天宣布开源了 Meta Movie Gen[2] 技术报告中的 Movie Gen Bench[3],包含视频和音频的生成基准测试。起猛了,还以为视频模型本身开源了,不过按照 Meta 目前的节奏应该会慢慢开源,关注我,为你持续跟进 Meta 的开源动态。
Open Canvas: OpenAI Canvas 开源替代
Open Canvas[4] 是由 langchain-ai 社区开源的 OpenAI Canvas 替代版本,支持本地化部署。实际体验与 chat 功能没啥区别?你们可以自己试试,在线使用[5]
复旦开源 Hallo2:音频驱动数字人头视频生成
Hallo2[6],这是一项音频驱动的数字人头技术,能够生成长达 1 小时的 4K 分辨率视频。与 Hallo[7] 相比,Hallo2 支持更高分辨率和更长的视频生成,也同样支持如雕像、绘画、卡通等多种风格的人头。
OpenAI 发布 Windows 版 ChatGPT 客户端
OpenAI 推出的 ChatGPT 客户端现已支持 Windows 系统,官方还在其帮助中心发布了《使用 ChatGPT Windows app[8]》的教程。不过,目前这个版本还处于早期测试阶段,还不支持高级语音功能,仅支持付费用户,并且只能在微软商店下载。下载似乎还存在地区限制。
Mini-Omni2:全能交互模型,支持多模态输入与实时对话
Mini-Omni2[9] 是一款全能交互模型,能够理解图像、音频和文本输入,并支持实时语音对话,官方宣称就像 GPT4-o 一样。在对话过程中,用户可以灵活交互,随时打断。项目目前还处于早期阶段,感兴趣的朋友可以关注起来。