每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

AgentSquare：清华推出优化智能体模块化设计和搜索的新框架

AgentSquare 是清华大学团队推出的模块化智能体设计和搜索新框架，通过自动优化 LLM 代理设计，显著提升智能体性能。

1年前
605
点赞
评论

AgentSquare：清华推出优化智能体模块化设计和搜索的新框架

Ichigo：开源 AI 语音助手，能够实时处理语音和文本的交织序列，提供接近实时的语音交互体验

Ichigo 是一个开源的多模态 AI 语音助手，能够实时处理语音和文本的交织序列，提供接近实时的语音交互体验。

1年前
437
1
评论

Ichigo：开源 AI 语音助手，能够实时处理语音和文本的交织序列，提供接近实时的语音交互体验

Magentic-One：微软推出多智能体系统，用于解决跨领域的复杂网络和文件任务

Magentic-One 是微软推出的一个通用多智能体系统，旨在解决跨领域的复杂网络和文件任务。Magentic-One 基于微软 AutoGen 框架实现，支持模块化和灵活性，易于扩展和适应新任务。

1年前
388
点赞
评论

Magentic-One：微软推出多智能体系统，用于解决跨领域的复杂网络和文件任务

AndroidLab：系统评估 Android 自主代理的基准测试框架，支持大型语言模型和多模态模型

本文介绍了 AndroidLab，一个用于训练和系统评估 Android 自主代理的框架，涵盖了多模态操作环境、基准测试、评估指标、数据集构建等方面。

1年前
108
点赞
评论

AndroidLab：系统评估 Android 自主代理的基准测试框架，支持大型语言模型和多模态模型

VQAScore：文本到视觉生成模型的评估工具，用于衡量模型生成图像、视频和 3D 模型的质量

VQAScore 是 CMU 和 Meta 联合推出的一种评估文本到视觉图像生成质量的方法，基于视觉问答（VQA）模型，提供了自动化和更准确的评估方案。

1年前
410
点赞
评论

VQAScore：文本到视觉生成模型的评估工具，用于衡量模型生成图像、视频和 3D 模型的质量

OuteTTS：基于纯语言建模的开源文本到语音合成项目，支持语音克隆等多种语音合成任务

OuteTTS 是一个基于纯语言建模方法的开源文本到语音合成项目，支持语音克隆功能，以及用户创建自定义说话人的声音。

1年前
301
1
1

OuteTTS：基于纯语言建模的开源文本到语音合成项目，支持语音克隆等多种语音合成任务

Cerebellum：浏览器 AI 助手，基于 Claude 3.5 Sonnet 和 Selenium WebDriver 执行网页自动化任务

Cerebellum 是基于 Claude 3.5 Sonnet 和 Selenium WebDriver 构建的浏览器 AI 助手，能够执行网页自动化任务和行动规划。

1年前
450
点赞
评论

Cerebellum：浏览器 AI 助手，基于 Claude 3.5 Sonnet 和 Selenium WebDriver 执行网页自动化任务

WebRL：自进化在线课程强化学习框架，提升开源大模型网络任务能力的新框架

WebRL 是清华大学和智谱 AI 联合推出的自进化在线课程强化学习框架，通过自我进化课程学习和结果监督奖励模型（ORM）评估任务成功与否，显著提升了开源 LLM 在 WebArena-Lite 基准

1年前
489
2
评论

WebRL：自进化在线课程强化学习框架，提升开源大模型网络任务能力的新框架

Docling：开源的文档解析工具，支持多种格式的解析和转换，可与其他 AI 工具集成

Docling 是一个开源的文档解析工具，支持多种格式的文档解析和转换，具备高级 PDF 理解、OCR 功能，并且易于与其他 AI 工具集成。

1年前
784
点赞
1

Docling：开源的文档解析工具，支持多种格式的解析和转换，可与其他 AI 工具集成

Claude 3.5 Sonnet API 新增计算机使用功能，支持通过自然语言完成自动化操作电脑任务

Claude 3.5 Sonnet 新增的计算机使用功能，使其可以像人类一样进行鼠标操作、键盘输入等，实现自动化操作桌面环境的任务。

1年前
440
点赞
评论

Claude 3.5 Sonnet API 新增计算机使用功能，支持通过自然语言完成自动化操作电脑任务

Cofounder：全栈 AI 应用开发 Agent，基于单一提示生成完整的应用程序

Cofounder 是一个开源的全栈 AI 开发代理，帮助开发者自动生成完整的应用程序，包括后端、前端、数据库和有状态的 Web 应用。

1年前
725
1
评论

Cofounder：全栈 AI 应用开发 Agent，基于单一提示生成完整的应用程序

MagicTailor：组件可控的个性化图像生成框架，减少语义污染提高图像生成质量

MagicTailor 是一种专为组件可控个性化设计的新框架，支持在文本到图像生成过程中精确控制特定组件。该框架解决了语义污染和语义不平衡的问题，提高了图像生成的质量和控制能力。

1年前
258
1
评论

MagicTailor：组件可控的个性化图像生成框架，减少语义污染提高图像生成质量

Hunyuan-Large：腾讯发布业界参数规模最大的开源 MoE 模型，支持超长文本输入，超越主流开源模型

Hunyuan-Large 是腾讯推出的一款大规模混合专家（MoE）模型，具有 3890 亿总参数和 520 亿激活参数，支持高达 256K 的文本序列输入。该模型在长上下文处理、多语言支持和各类基准

1年前
630
点赞
评论

Hunyuan-Large：腾讯发布业界参数规模最大的开源 MoE 模型，支持超长文本输入，超越主流开源模型

Hunyuan3D-1.0：腾讯开源超高效 3D 生成模型，支持文本和图像输入

Hunyuan3D-1.0 是腾讯推出的一种高效的 3D 生成模型，支持文本和图像输入，可以在短时间内生成高质量的 3D 资产，广泛应用于游戏开发、工业设计、建筑设计等多个领域。

1年前
368
点赞
评论

Hunyuan3D-1.0：腾讯开源超高效 3D 生成模型，支持文本和图像输入

MMBench-Video：上海 AI Lab 联合多所高校推出长视频理解基准测试工具，全面评估 LVLMs 视频理解的能力

MMBench-Video 是一款用于评估大型视觉语言模型在视频理解能力上的基准测试，涵盖了 16 个类别的长视频，每个视频时长从 30 秒到 6 分钟不等。

1年前
398
点赞
评论

MMBench-Video：上海 AI Lab 联合多所高校推出长视频理解基准测试工具，全面评估 LVLMs 视频理解的能力

HiCo：360 AI 开源布局可控 AI 绘画模型，实现对对象位置和文本描述的精确控制

HiCo 是一种基于扩散模型的层次化可控布局到图像生成模型，通过多分支结构实现对对象位置和文本描述的精确控制。

1年前
172
点赞
评论

HiCo：360 AI 开源布局可控 AI 绘画模型，实现对对象位置和文本描述的精确控制

ComfyUI-MochiEdit：开源的 AI 视频编辑工具，支持局部编辑和视频转视频功能

ComfyUI-MochiEdit 是一款开源的 AI 视频编辑工具，通过将视频转换为噪声并重新采样来实现视频编辑，支持局部编辑和视频转视频功能。

1年前
524
点赞
评论

ComfyUI-MochiEdit：开源的 AI 视频编辑工具，支持局部编辑和视频转视频功能

Stagehand：可扩展的 AI 网页浏览框架，支持使用自然语言执行网页操作

Stagehand 是一个简单且可扩展的 AI 网页浏览框架，提供自然语言驱动的网页操作，支持多种模型和提供商。

1年前
1.0k
点赞
评论

Stagehand：可扩展的 AI 网页浏览框架，支持使用自然语言执行网页操作

Fish Agent：集成 ASR 和 TTS 的端到端语音处理模型，支持多语言转换

Fish Agent 是 FishAudio 推出的端到端语音处理模型，支持多语言的语音到语音转换，集成 ASR 和 TTS 功能，无需传统编解码器。

1年前
712
5
评论

Fish Agent：集成 ASR 和 TTS 的端到端语音处理模型，支持多语言转换

Fast GraphRAG：微软推出高效的知识图谱检索框架，结合了知识图谱和 RAG 技术

Fast GraphRAG 是微软推出的一款高效的知识图谱检索框架，结合了检索增强生成（RAG）技术和知识图谱，旨在提供可解释性和高精度的代理驱动检索工作流。

1年前
681
点赞
评论

Fast GraphRAG：微软推出高效的知识图谱检索框架，结合了知识图谱和 RAG 技术