每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 109 人订阅共816篇文章创建于2024-11-02

ClotheDreamer：上海大学联合腾讯等高校推出的3D服装生成技术

ClotheDreamer是由上海大学、上海交通大学、复旦大学和腾讯优图实验室联合推出的3D服装生成技术，能够根据文本描述生成高保真、可穿戴的3D服装资产，适用于虚拟试穿和物理精确动画。

1年前
112
点赞
评论

ClotheDreamer：上海大学联合腾讯等高校推出的3D服装生成技术

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架，用户可以通过自然语言命令执行复杂的视频任务，如搜索、编辑、合成和生成视频内容。

1年前
155
点赞
评论

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

VISION XL：支持四倍超分辨率的 AI 视频修复处理工具，提供去除模糊、修复缺失等功能

VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具，能够修复视频缺失部分、去除模糊，并支持四倍超分辨率。该工具优化了处理效率，适合快速处理视频的应用场景。

1年前
553
点赞
评论

VISION XL：支持四倍超分辨率的 AI 视频修复处理工具，提供去除模糊、修复缺失等功能

Florence-VL：微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型，结合生成式视觉基础模型Florence-2和深度-广度融合技术，实现视觉与语言理解的深度融合，适用于多种下游任务。

1年前
136
点赞
评论

Florence-VL：微软和马里兰大学共同开源的多模态大语言模型

OOTDiffusion：开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

OOTDiffusion是一款开源的AI虚拟试衣工具，能够智能适配不同性别和体型，自动调整衣物尺寸和形状，生成自然贴合的试穿效果。该工具支持半身和全身试穿模式。

1年前
233
点赞
评论

OOTDiffusion：开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

O1-CODER：北交大推出的O1代码版开源项目，专注于编码任务

O1-CODER是由北京交通大学研究团队推出的开源项目，专注于编码任务。该项目结合强化学习和蒙特卡洛树搜索技术，提升模型的System-2思维能力，旨在生成更高效、逻辑性更强的代码。

1年前
109
点赞
评论

O1-CODER：北交大推出的O1代码版开源项目，专注于编码任务

Amurex：开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

Amurex是一款开源的AI会议助手，提供实时建议、智能摘要、快速回顾关键信息等功能，帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。

1年前
188
点赞
评论

Amurex：开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

See3D：智源研究院开源的无标注视频学习 3D 生成模型

See3D 是智源研究院推出的无标注视频学习 3D 生成模型，能够从大规模无标注的互联网视频中学习 3D 先验，实现从视频中生成 3D 内容。

1年前
252
点赞
评论

See3D：智源研究院开源的无标注视频学习 3D 生成模型

GenMAC：港大、清华联合微软推出文本到视频生成的多代理协作框架

GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作，解决了复杂场景生成问题，显著提高了视频生成的准确性和文本对齐度。

1年前
85
点赞
评论

GenMAC：港大、清华联合微软推出文本到视频生成的多代理协作框架

NVILA：英伟达开源视觉语言大模型，高效处理高分辨率图像和长视频

NVILA是英伟达推出的视觉语言大模型，旨在高效处理高分辨率图像和长视频，同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术，在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。

1年前
135
点赞
评论

NVILA：英伟达开源视觉语言大模型，高效处理高分辨率图像和长视频

SNOOPI：创新 AI 文本到图像生成框架，提升单步扩散模型的效率和性能

SNOOPI是一个创新的AI文本到图像生成框架，通过增强单步扩散模型的指导，显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术，分别用于增强训练稳定性和整合负面提示。

1年前
117
点赞
评论

SNOOPI：创新 AI 文本到图像生成框架，提升单步扩散模型的效率和性能

MEMO：通过音频和图像生成肖像说话视频，感知音频中的情感来细化面部表情

MEMO是一种音频驱动的生成肖像说话视频框架，由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架包含记忆引导的时间模块和情感感知音频模块。

1年前
230
点赞
评论

MEMO：通过音频和图像生成肖像说话视频，感知音频中的情感来细化面部表情

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

Clone-voice是一款开源的声音克隆工具，支持16种语言，能够将文本转换为语音或将一种声音风格转换为另一种。

1年前
609
1
评论

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

Llama 3.3：Meta AI 开源新的纯文本语言模型，专注于多语言对话优化

Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型，支持多语言对话，具备高效、低成本的特点，适用于多种应用场景，如聊天机器人、客户服务自动化、语言翻译等。

1年前
239
点赞
评论

Llama 3.3：Meta AI 开源新的纯文本语言模型，专注于多语言对话优化

Aurora：xAI 为 Grok AI 推出新的图像生成模型，xAI Premium 用户可无限制访问

Aurora是xAI为Grok AI助手推出的新图像生成模型，专注于生成高逼真度的图像，特别是在人物和风景图像方面。该模型支持文本到图像的生成，并能处理包括公共人物和版权形象在内的多种图像生成请求。

1年前
174
点赞
评论

Aurora：xAI 为 Grok AI 推出新的图像生成模型，xAI Premium 用户可无限制访问

FullStack Bench：字节豆包联合M-A-P社区开源的全新代码评估基准

FullStack Bench是由字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准，专注于全栈编程和多语言编程能力评估。该基准覆盖超过11种真实编程场景，包含3374个问题，涉及16种

1年前
292
点赞
评论

FullStack Bench：字节豆包联合M-A-P社区开源的全新代码评估基准

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法，能够有效消除背景噪声，保留语音清晰度，

1年前
829
点赞
评论

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

Optimus-1：哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Optimus-1是由哈尔滨工业大学（深圳）和鹏城实验室联合推出的智能体框架，旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验，通过混合多模态记忆模块、知识引导规划器和经验驱动

1年前
190
点赞
评论

Optimus-1：哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音（TTS）模型，支持13种语言，具备零样本和少样本语音合成能力，语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如

1年前
540
点赞
评论

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

ConsisID：北大联合鹏城实验室等机构推出的文本到视频生成模型

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型，专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构，能够在多个

1年前
31
点赞
评论

ConsisID：北大联合鹏城实验室等机构推出的文本到视频生成模型