每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

StoryWeaver：故事可视化生成模型，快速生成故事绘本，支持处理单角色和多角色的故事可视化任务

StoryWeaver 是厦门大学与网易伏羲联合推出的 AI 模型，通过知识图谱和角色定制技术，实现高质量的故事可视化。

1年前
224
1
评论

StoryWeaver：故事可视化生成模型，快速生成故事绘本，支持处理单角色和多角色的故事可视化任务

Poetry2Image：专为中文古诗词设计的图像生成校正框架，增强了诗歌内容与模型生成图像之间的一致性

Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架，通过自动化反馈和校正循环，提升诗歌与图像之间的一致性，有效捕捉诗歌的语义和艺术精髓。

1年前
173
点赞
评论

Poetry2Image：专为中文古诗词设计的图像生成校正框架，增强了诗歌内容与模型生成图像之间的一致性

AGUVIS：指导模型实现 GUI 自动化训练框架，结合视觉-语言模型进行训练，实现跨平台自主 GUI 交互

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架，能够在多种平台上实现自主 GUI 交互，结合显式规划和推理，提升复杂数字环境中的导航和交互能力。

1年前
185
点赞
评论

AGUVIS：指导模型实现 GUI 自动化训练框架，结合视觉-语言模型进行训练，实现跨平台自主 GUI 交互

VideoVAE+：AI 生成视频高保真重建和跨模态重建工具，基于文本信息指导视频重建，提升视频细节质量

VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器，通过时空分离压缩机制和文本指导，实现了高效视频压缩与精准重建。

1年前
216
点赞
评论

VideoVAE+：AI 生成视频高保真重建和跨模态重建工具，基于文本信息指导视频重建，提升视频细节质量

GraphAgent：自动构建知识图谱，能够处理结构化和非结构化数据，并通过知识图谱展示复杂关系

GraphAgent 是香港大学和香港科技大学联合推出的智能图形语言助手，能够处理结构化和非结构化数据，并通过知识图谱展示复杂关系。

1年前
197
点赞
评论

GraphAgent：自动构建知识图谱，能够处理结构化和非结构化数据，并通过知识图谱展示复杂关系

Large Motion Model：多模态运动生成模型，能够同时处理文本、音乐、视频等多种模态生成相应的运动动作

Large Motion Model（LMM）是商汤科技与南洋理工大学联合推出的统一多模态运动生成模型，能够处理文本到运动、音乐到舞蹈等多种任务，展现出强大的泛化能力。

1年前
273
点赞
评论

Large Motion Model：多模态运动生成模型，能够同时处理文本、音乐、视频等多种模态生成相应的运动动作

AutoRAG：自动优化 RAG 管道工具，自动评估各种 RAG 模块组合，快速找到最优的 RAG 管道

AutoRAG 是一款自动优化 RAG（Retrieval-Augmented Generation）管道的工具，帮助用户找到最适合其数据和应用场景的最佳 RAG 管道。

1年前
243
2
评论

AutoRAG：自动优化 RAG 管道工具，自动评估各种 RAG 模块组合，快速找到最优的 RAG 管道

VersaGen：生成式 AI 代理，基于 Stable Diffusion 生成图像，专注于控制一至多个视觉主体等生成细节

VersaGen 是一款生成式 AI 代理，专注于文本到图像合成中的视觉控制能力，支持多种视觉控制类型，并通过优化策略提升图像生成质量和用户体验。

1年前
154
点赞
评论

VersaGen：生成式 AI 代理，基于 Stable Diffusion 生成图像，专注于控制一至多个视觉主体等生成细节

VideoPhy：UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具，衡量模型生成的视频是否遵循现实世界的物理规则

VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试，旨在衡量模型生成的视频是否遵循现实世界的物理规则。

1年前
146
点赞
评论

VideoPhy：UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具，衡量模型生成的视频是否遵循现实世界的物理规则

Valley：字节跳动开源小体积的多模态模型，在小于 10B 参数的模型中排名第二

Valley 是字节跳动推出的多模态大模型，能够处理文本、图像和视频数据，在电子商务和短视频领域表现优异，并在 OpenCompass 测试中排名第二。

1年前
321
点赞
评论

Valley：字节跳动开源小体积的多模态模型，在小于 10B 参数的模型中排名第二

联通元景：中国联通开源中文原生的文生图模型，优化对中文长文本和成语语义等理解

联通元景（UniT2IXL）是中国联通AI推出的中文原生文生图模型，基于国产昇腾AI平台，优化中文语义理解，支持高质量图像生成。

1年前
187
点赞
评论

联通元景：中国联通开源中文原生的文生图模型，优化对中文长文本和成语语义等理解

EDTalk：只需上传图片、音频和视频，就能使图片中的人物说话，情感表情与音频情绪高度统一

EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型，能够独立控制嘴型、头部姿态和情感表情，适用于多种应用场景。

1年前
290
1
评论

EDTalk：只需上传图片、音频和视频，就能使图片中的人物说话，情感表情与音频情绪高度统一

MNN：阿里开源的轻量级深度学习推理框架，支持在移动端等多种终端上运行，兼容主流的模型格式

MNN 是阿里巴巴开源的轻量级深度学习推理框架，支持多种设备和主流模型格式，具备高性能和易用性，适用于移动端、服务器和嵌入式设备。

1年前
672
1
评论

MNN：阿里开源的轻量级深度学习推理框架，支持在移动端等多种终端上运行，兼容主流的模型格式

Infinity：字节跳动开源高分辨率图像生成模型，生成 1024x1024 的图像仅需 0.8 秒

Infinity 是字节跳动推出的高分辨率图像生成模型，通过位级自回归建模和无限词汇量标记器，显著提升了图像生成的细节和质量。

1年前
464
点赞
评论

Infinity：字节跳动开源高分辨率图像生成模型，生成 1024x1024 的图像仅需 0.8 秒

VidTok：微软开源的视频分词器，能够将视频内容转换为视觉 Token

VidTok 是微软开源的一款先进的视频分词器，支持连续和离散分词化，能够高效地将视频内容转换为视觉 Token，适用于多种应用场景。

1年前
160
点赞
评论

VidTok：微软开源的视频分词器，能够将视频内容转换为视觉 Token

FinRobot：开源的金融专业 AI Agent，提供市场预测、报告分析和交易策略等金融解决方案

FinRobot 是一个开源的 AI Agent 平台，专注于金融领域的应用，通过大型语言模型（LLMs）构建复杂的金融分析和决策工具，提供市场预测、文档分析和交易策略等多种功能。

1年前
471
1
评论

FinRobot：开源的金融专业 AI Agent，提供市场预测、报告分析和交易策略等金融解决方案

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架，通过最小化积分Kullback-Leibler散度，指导其他生成模型的训练，提升生成性能。

1年前
102
点赞
评论

Diff-Instruct：指导任意生成模型训练的通用框架，无需额外训练数据即可提升生成质量

CogAgent-9B：智谱 AI 开源 GLM-PC 的基座模型，专注于预测和执行 GUI 操作，可应用于自动化交互任务

CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型，支持高分辨率图像处理和双语交互，能够预测并执行GUI操作，广泛应用于自动化任务。

1年前
360
点赞
评论

CogAgent-9B：智谱 AI 开源 GLM-PC 的基座模型，专注于预测和执行 GUI 操作，可应用于自动化交互任务

Qwen-Agent：阿里通义开源 AI Agent 应用开发框架，支持构建多智能体，具备自动记忆上下文等能力

Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架，支持指令遵循、工具使用、规划和记忆能力，适用于构建复杂的智能代理应用。

1年前
1.1k
点赞
评论

Qwen-Agent：阿里通义开源 AI Agent 应用开发框架，支持构建多智能体，具备自动记忆上下文等能力

Enhance-A-Video：上海 AI Lab 推出视频生成质量增强算法，显著提升 AI 视频生成的真实度和细节表现

Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法，能够显著提升视频的对比度、清晰度和细节真实性。

1年前
285
点赞
评论

Enhance-A-Video：上海 AI Lab 推出视频生成质量增强算法，显著提升 AI 视频生成的真实度和细节表现