今日 AI 简报｜腾讯发布业界最强 MoE 模型和 3D 建模生成模型，360 推出可控图形生成模型，另有视频编辑等多款开源项目

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Stagehand：自然语言驱动的网页自动化框架

Stagehand

Stagehand 是一个简单且可扩展的 AI 网页浏览框架，支持自然语言驱动的网页操作，提供 act、extract 和 observe 三个 API，支持多种语言模型和模型提供商。

资源

GitHub 仓库：github.com/browserbase…

HiCo：360 AI 研究院的可控布局生成模型

HiCo

HiCo 是 360 AI 研究院推出的基于扩散模型的层次化可控布局到图像生成模型，支持对象级可控生成和多分支结构融合，适合自然场景的多目标可控布局生成。

资源

项目官网：360cvgroup.github.io/HiCo_T2I/
GitHub 仓库：github.com/360CVGroup/…
arXiv 技术论文：arxiv.org/pdf/2410.14…

ComfyUI-MochiEdit：视频编辑工具

ComfyUI-MochiEdit

ComfyUI-MochiEdit 是基于 ComfyUI 和 Genmo Mochi 的开源视频编辑工具，支持视频转噪声再重采样、局部编辑和视频风格转换等功能，安装简便，支持自定义提示符。

资源

GitHub 仓库：github.com/logtd/Comfy…

MMBench-Video：长视频理解基准测试

MMBench-Video

MMBench-Video 是浙江大学、上海人工智能实验室等联合推出的长视频多题问答基准测试，评估大型视觉语言模型在视频理解方面的能力，支持多场景和细粒度能力评估。

资源

项目官网：mmbench-video.github.io/
GitHub 仓库：github.com/open-compas…
HuggingFace 模型库：huggingface.co/datasets/op…
arXiv 技术论文：arxiv.org/pdf/2406.14…

Hunyuan3D-1.0：3D 生成模型

Hunyuan3D-1.0

Hunyuan3D-1.0 是腾讯推出的 3D 生成模型，采用两阶段方法，支持文本到 3D 和图像到 3D 生成，生成高质量的 3D 资产，适用于创作、设计和工程领域。

资源

项目官网：3d.hunyuan.tencent.com/
Github 仓库：github.com/Tencent/Hun…
HuggingFace 模型库：huggingface.co/tencent/Hun…

Hunyuan-Large：大型混合专家模型

Hunyuan-Large

Hunyuan-Large 是腾讯推出的大型混合专家（MoE）模型，具有 3890 亿总参数量，支持高达 256K 的文本序列输入，适用于长上下文处理、知识问答、代码生成等任务。

资源

项目官网：llm.hunyuan.tencent.com/
Github 仓库：github.com/Tencent/Ten…
HuggingFace 模型库：huggingface.co/tencent/Ten…
arXiv 技术论文：arxiv.org/pdf/2411.02…

MotionCLR：基于注意力机制的动作编辑模型

MotionCLR转存失败，建议直接上传图片文件

MotionCLR 是基于注意力机制的人体动作生成和编辑模型，支持文本驱动的动作生成、动作强调与减弱、原地动作替换等任务，适用于游戏、动画和虚拟现实等领域。

资源

项目官网：lhchen.top/MotionCLR/
GitHub 仓库：github.com/IDEA-Resear…
arXiv 技术论文：arxiv.org/pdf/2410.18…
在线体验 Demo：huggingface.co/spaces/Evan…

DistilQwen2：轻量级语言模型

DistilQwen2

DistilQwen2 是基于 Qwen2 大模型用知识蒸馏技术优化得到的轻量级语言模型，支持高效运算和轻量级部署，适合移动设备和边缘计算。

资源

HuggingFace 模型库：
- huggingface.co/alibaba-pai…
- huggingface.co/alibaba-pai…

DocMind：文档智能大模型

DocMind

DocMind 是司马阅推出的文档智能大模型，基于 Transformer 结构，融合 NLP 和 CV 技术，处理富文本文档的复杂结构和视觉信息，支持精准信息抽取、内容理解和任务执行。

资源

项目官网：smartread.cc/docmind.htm…

MiniMates：轻量级数字人项目

MiniMates

MiniMates 是高性能的轻量级数字人驱动算法，支持语音和表情两种驱动模式，可在普通电脑上实现实时运行，适用于虚拟主播、在线教育和客户服务等领域。

资源

GitHub 仓库：github.com/kleinlee/Mi…

🥦 微信公众号｜搜一搜：蚝油菜花 🥦