每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型，结合视觉预测与动作执行，显著提升机器人任务成功率。

1年前
242
点赞
评论

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术，支持细粒度视频对象理解、复杂关系分析及多模态交互，适用于视频剪辑、教育、安防等多个领域。

1年前
273
点赞
评论

VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

MultiBooth：清华联合 Meta 推出多对象的图像生成框架，生成包含多个指定对象的图像

MultiBooth是清华大学联合Meta等机构推出的多概念图像生成方法，支持高效生成高保真度图像，适用于娱乐、广告、教育等多个领域。

1年前
199
点赞
评论

MultiBooth：清华联合 Meta 推出多对象的图像生成框架，生成包含多个指定对象的图像

Ingredients：无需额外训练的多ID视频生成框架，通过多张人物照片生成定制视频

Ingredients 是一款基于多ID照片与视频扩散Transformer相结合的定制视频生成框架，能够生成高质量、身份一致且内容灵活的视频。

1年前
587
点赞
评论

Ingredients：无需额外训练的多ID视频生成框架，通过多张人物照片生成定制视频

VideoRAG：长视频理解的检索增强生成技术，支持多模态信息提取，能与任何 LVLM 兼容

VideoRAG 是一种用于长视频理解的检索增强生成技术，通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型更好地理解和处理长视频内容。

1年前
624
1
评论

VideoRAG：长视频理解的检索增强生成技术，支持多模态信息提取，能与任何 LVLM 兼容

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理，能够通过视觉感知自主完成复杂的移动设备操作任务，支持跨应用操作和纯视觉解决方案。

1年前
601
点赞
1

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

Edicho：多图像一致性编辑，支持即插即用无需训练，快速实现风格转换

Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法，基于扩散模型，支持即插即用，无需额外训练，适用于多种图像编辑任务。

1年前
220
点赞
评论

Edicho：多图像一致性编辑，支持即插即用无需训练，快速实现风格转换

SeedVR：高效视频修复模型，支持任意长度和分辨率，生成真实感细节

SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型，能够高效修复低质量视频，支持任意长度和分辨率，生成真实感细节。

1年前
432
点赞
评论

SeedVR：高效视频修复模型，支持任意长度和分辨率，生成真实感细节

Casevo：开源的社会传播模拟系统，基于 AI 模拟人类认知、决策和社会交互，预测社会传播现象

Casevo 是中国传媒大学推出的开源社会传播模拟系统，结合大语言模型和多智能体技术，支持复杂社会网络建模与动态交互，适用于新闻传播、社会计算等领域。

1年前
392
点赞
评论

Casevo：开源的社会传播模拟系统，基于 AI 模拟人类认知、决策和社会交互，预测社会传播现象

RealisHuman：AI 生成的人像不真实？后处理框架帮你修复生成图像中畸形人体部位

RealisHuman 是一个创新的后处理框架，专注于修复生成图像中畸形的人体部位，如手和脸，通过两阶段方法提升图像的真实性。

1年前
293
点赞
评论

RealisHuman：AI 生成的人像不真实？后处理框架帮你修复生成图像中畸形人体部位

JoyCaption：开源的图像转提示词生成工具，支持多种风格和场景，性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具，支持多种生成模式和灵活的提示选项，适用于社交媒体、图像标注、内容创作等场景，帮助用户快速生成高质量图像描述。

1年前
849
点赞
评论

JoyCaption：开源的图像转提示词生成工具，支持多种风格和场景，性能与 GPT4o 相当

SPRIGHT：提升文本到图像模型空间一致性的数据集

SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集，通过重新描述600万张图像，显著提升文本到图像模型的空间一致性。

1年前
183
点赞
评论

SPRIGHT：提升文本到图像模型空间一致性的数据集

AIOpsLab：云服务自动化运维 AI，微软开源云服务 AI 框架，覆盖整个生命周期

AIOpsLab 是微软等机构推出的开源框架，支持云服务自动化运维，涵盖故障检测、根本原因分析等完整生命周期。

1年前
281
点赞
评论

AIOpsLab：云服务自动化运维 AI，微软开源云服务 AI 框架，覆盖整个生命周期

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

Cosmos 是英伟达推出的生成式世界基础模型平台，旨在加速物理人工智能系统的发展，特别是在自动驾驶和机器人领域。

1年前
561
点赞
评论

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

MiniPerplx：基于 Grok 2.0 的开源 AI 搜索引擎，支持网页、学术、视频搜索

MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎，支持网页、学术论文、YouTube 视频等多种内容搜索，提供代码解释、天气预报等功能。

1年前
238
点赞
评论

MiniPerplx：基于 Grok 2.0 的开源 AI 搜索引擎，支持网页、学术、视频搜索

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术，通过大规模数据集和孪生多模态扩散变换器，实现高质量图像生成与布局优化。

1年前
118
点赞
评论

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型，通过图像-文本对齐和地理匹配技术，实现街道级精度的定位，适用于城市管理、社交媒体、旅游导航等场景。

1年前
275
点赞
评论

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

Gemini Coder：基于 Google Gemini API 的开源 Web 应用生成工具，支持实时编辑和预览

Gemini Coder 是一款基于 Google Gemini API 的 AI 应用生成工具，支持通过文本描述快速生成代码，并提供实时代码编辑和预览功能，简化开发流程。

1年前
222
点赞
评论

Gemini Coder：基于 Google Gemini API 的开源 Web 应用生成工具，支持实时编辑和预览

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

KAG 是蚂蚁集团推出的专业领域知识服务框架，通过知识增强提升大型语言模型在特定领域的问答性能，支持逻辑推理和多跳事实问答，显著提升推理和问答的准确性和效率。

1年前
569
点赞
评论

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

PsycoLLM 是合肥工业大学推出的中文心理大语言模型，基于高质量心理数据集训练，支持心理健康评估、多轮对话和情绪识别，为心理健康领域提供技术支持。

1年前
544
点赞
评论

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话