今日 AI 简报|微软推出通用多智能体系统,支持语音克隆的开源TTS模型,Android 自动化评估等

244 阅读3分钟

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

Recraft V3:高质量文本到图像生成

Recraft V3

Recraft V3 是 Recraft 公司推出的高质量文本到图像生成模型。该模型在 Hugging Face 的文本到图像模型排行榜上以 1172 的 ELO 评分荣获第一。Recraft V3 具有先进的设计控制功能,支持用户精确定位文本和元素,定制品牌风格和颜色。模型支持长文本生成,提供用户友好的界面和灵活的定价策略,通过网站、移动应用或 API 使用,为设计师和创意专业人士提供了强大的图像生成解决方案。

资源

  1. 项目官网:www.recraft.ai/blog/recraf…
  2. 在线体验地址:fal.ai/models/fal-…

GTA:评估通用工具智能体的基准测试

GTA

GTA 是上海交通大学和上海 AI 实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。GTA 包含 229 个真实设计的问题,覆盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,解决现实世界中的复杂任务。

资源

  1. 项目官网:open-compass.github.io/GTA
  2. GitHub 仓库:github.com/open-compas…
  3. HuggingFace 模型库:huggingface.co/datasets/Ji…
  4. arXiv 技术论文:arxiv.org/pdf/2407.08…

Magentic-One:多AI智能体协同完成复杂任务系统

Magentic-One

Magentic-One 是微软推出的通用多智能体系统,解决跨领域的复杂网络和文件任务。系统基于多智能体架构,由 Orchestrator 智能体领导,协调 WebSurfer、FileSurfer、Coder 和 ComputerTerminal 四个专业智能体执行任务。Magentic-One 支持模块化和灵活性,易于扩展和适应新任务。

资源

  1. 项目官网:www.microsoft.com/en-us/resea…
  2. GitHub 仓库:github.com/microsoft/a…
  3. 技术论文:www.microsoft.com/en-us/resea…

AndroidLab:系统化评估 Android 智能代理的框架

AndroidLab

AndroidLab 是清华大学和北京大学联合推出的系统化评估 Android 自主代理的框架,集成文本和图像模态操作环境,统一行动空间和可重现基准测试。AndroidLab 支持大型语言模型和多模态模型,包含 138 个任务,覆盖九个应用。基于 AndroidLab,开发 Android 指令数据集,提升开源模型的成功率。

资源

  1. GitHub 仓库:github.com/THUDM/Andro…
  2. arXiv 技术论文:arxiv.org/pdf/2410.24…

VQAScore:文本到视觉图像生成评估方法

VQAScore

VQAScore 是 CMU 和 Meta 联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore 用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VQAScore 核心优势在于无需额外人类标注,提供更精确的评估结果。

资源

  1. 项目官网:linzhiqiu.github.io/papers/vqas…
  2. GitHub 仓库:github.com/linzhiqiu/t…
  3. arXiv 技术论文:arxiv.org/pdf/2404.01…
  4. 在线体验 Demo:huggingface.co/spaces/zhiq…

OuteTTS:开源的文本到语音合成项目

OuteTTS

OuteTTS 是开源的文本到语音(TTS)项目,基于纯语言建模的方法生成语音。OuteTTS 项目基于 LLaMa 架构,用 Oute3-350M-DEV 基础模型,拥有 3.5 亿参数。OuteTTS 具备音频标记化、CTC 强制对齐技术和结构化提示创建等创新音频处理方法,支持语音克隆功能,及用户创建自定义说话人的声音。

资源

  1. GitHub 仓库:github.com/edwko/OuteT…

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦