今日 AI 简报|腾讯发布业界最强 MoE 模型和 3D 建模生成模型,360 推出可控图形生成模型,另有视频编辑等多款开源项目

260 阅读3分钟

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

Stagehand:自然语言驱动的网页自动化框架

Stagehand

Stagehand 是一个简单且可扩展的 AI 网页浏览框架,支持自然语言驱动的网页操作,提供 act、extract 和 observe 三个 API,支持多种语言模型和模型提供商。

资源

  1. GitHub 仓库:github.com/browserbase…

HiCo:360 AI 研究院的可控布局生成模型

HiCo

HiCo 是 360 AI 研究院推出的基于扩散模型的层次化可控布局到图像生成模型,支持对象级可控生成和多分支结构融合,适合自然场景的多目标可控布局生成。

资源

  1. 项目官网:360cvgroup.github.io/HiCo_T2I/
  2. GitHub 仓库:github.com/360CVGroup/…
  3. arXiv 技术论文:arxiv.org/pdf/2410.14…

ComfyUI-MochiEdit:视频编辑工具

ComfyUI-MochiEdit

ComfyUI-MochiEdit 是基于 ComfyUI 和 Genmo Mochi 的开源视频编辑工具,支持视频转噪声再重采样、局部编辑和视频风格转换等功能,安装简便,支持自定义提示符。

资源

  1. GitHub 仓库:github.com/logtd/Comfy…

MMBench-Video:长视频理解基准测试

MMBench-Video

MMBench-Video 是浙江大学、上海人工智能实验室等联合推出的长视频多题问答基准测试,评估大型视觉语言模型在视频理解方面的能力,支持多场景和细粒度能力评估。

资源

  1. 项目官网:mmbench-video.github.io/
  2. GitHub 仓库:github.com/open-compas…
  3. HuggingFace 模型库:huggingface.co/datasets/op…
  4. arXiv 技术论文:arxiv.org/pdf/2406.14…

Hunyuan3D-1.0:3D 生成模型

Hunyuan3D-1.0

Hunyuan3D-1.0 是腾讯推出的 3D 生成模型,采用两阶段方法,支持文本到 3D 和图像到 3D 生成,生成高质量的 3D 资产,适用于创作、设计和工程领域。

资源

  1. 项目官网:3d.hunyuan.tencent.com/
  2. Github 仓库:github.com/Tencent/Hun…
  3. HuggingFace 模型库:huggingface.co/tencent/Hun…

Hunyuan-Large:大型混合专家模型

Hunyuan-Large

Hunyuan-Large 是腾讯推出的大型混合专家(MoE)模型,具有 3890 亿总参数量,支持高达 256K 的文本序列输入,适用于长上下文处理、知识问答、代码生成等任务。

资源

  1. 项目官网:llm.hunyuan.tencent.com/
  2. Github 仓库:github.com/Tencent/Ten…
  3. HuggingFace 模型库:huggingface.co/tencent/Ten…
  4. arXiv 技术论文:arxiv.org/pdf/2411.02…

MotionCLR:基于注意力机制的动作编辑模型

MotionCLR转存失败,建议直接上传图片文件

MotionCLR 是基于注意力机制的人体动作生成和编辑模型,支持文本驱动的动作生成、动作强调与减弱、原地动作替换等任务,适用于游戏、动画和虚拟现实等领域。

资源

  1. 项目官网:lhchen.top/MotionCLR/
  2. GitHub 仓库:github.com/IDEA-Resear…
  3. arXiv 技术论文:arxiv.org/pdf/2410.18…
  4. 在线体验 Demo:huggingface.co/spaces/Evan…

DistilQwen2:轻量级语言模型

DistilQwen2

DistilQwen2 是基于 Qwen2 大模型用知识蒸馏技术优化得到的轻量级语言模型,支持高效运算和轻量级部署,适合移动设备和边缘计算。

资源

  1. HuggingFace 模型库:

DocMind:文档智能大模型

DocMind

DocMind 是司马阅推出的文档智能大模型,基于 Transformer 结构,融合 NLP 和 CV 技术,处理富文本文档的复杂结构和视觉信息,支持精准信息抽取、内容理解和任务执行。

资源

  1. 项目官网:smartread.cc/docmind.htm…

MiniMates:轻量级数字人项目

MiniMates

MiniMates 是高性能的轻量级数字人驱动算法,支持语音和表情两种驱动模式,可在普通电脑上实现实时运行,适用于虚拟主播、在线教育和客户服务等领域。

资源

  1. GitHub 仓库:github.com/kleinlee/Mi…

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦