腾讯 GameGen-O 是首个为开放世界游戏生成而定制的视频模型GameGen-O[12] 是首个为开放世界游戏生成而

微信截图_20240914100034.png HeyGen[1] 发布 Avatar 3.0 主要改进了脚本理解能力、面部表情和语音语调，还新增了唱歌能力。

Out of Focus v1.0[2] 允许用户通过提示词修改图像，核心技术是扩散模型的反转过程。

百闻不如一见，直接在这里尝试 fffiloni/OutofFocus[3]

PuLID[4] 是 SD 下非常不错的角色一致性模型，现在终于支持 FLUX 了，官方公告 PuLID for FLUX[5] 详细介绍了如何使用，你还可以在 yanze/PuLID-FLUX[6] 这个演示里快速尝试一下，速度比较慢。

原 PuLID_ComfyUI 作者正在尝试适配，你可以关注这个 issues #69[7]

微信截图_20240914100112.png

GVHMR[8]能够从单个视频中进行人体运动捕捉而无需穿戴复杂且昂贵的设备服，看起来非常不错。所有代码和模型都已公开，官方预计在 9 月 16 日提供一个在线演示，可以稍微期待下

在这个大模型时代的，传统的 OCR 模型已经力不从心， GOT-OCR[9]是一个 580M 参数的模型，它将所有普通文本、数学/分子公式、表格、图表、乐谱甚至几何图形都视为“字符”统一处理，还支持输出多种格式，如纯文本、markdown 等，此外，还支持通过坐标或颜色来精准提取要识别的区域。

作者在知乎上有一篇详细的介绍：GOT-OCR-2.0 模型开源[10]，你还可以在 Tonic/GOT-OCR[11] 这免费试用

拿音标试了下，还是挺难的，不过确实比传统 OCR 要好一些，再接一层大模型洗一下数据应该会好点。

微信截图_20240914100140.png

GameGen-O[12] 是首个为开放世界游戏生成而定制的视频模型。它可以生成高质量的开放世界游戏，包括逼真的角色（巫师 3 的杰洛特、大镖客的亚瑟等）、环境（春夏秋冬等）、动作（开车、骑马、跑步、射击等）和事件（下雨、打雷、龙卷风等）。

最强的是它能多模态交互控制，通过文本提示来生成画面、通过视频引导（类似 CN）生成画面，最强的是允许直接输入操作（手柄或键盘）来控制画面，比如你可以按 WASD 来控制生成的画面

目前该项目还是期货开源，可以先关注下 GameGen-O 的 GitHUB[13]。

生成的画面要比之前的 MarioVGG[14] 和 GameNGen[15] 好的多，但可以肯定是离实时渲染还是有点远的。

微信截图_20240914100233.png

Windows Agent Arena[16]是微软官方推出的一个为 Windows 操作系统设计专用于测试桌面 AI Agent 的平台,它提供了一个真实的 Windows 操作系统环境，能帮助开发者评估和优化 AI Agent 的能力。

WAA 提供了一个可靠、可重复的测试环境，不过 AI Agent 我不知道，但是感觉利好 RPA 呀。