每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

AVD2：清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

AVD2 是由清华大学联合多所高校推出的自动驾驶事故视频理解与生成框架，结合视频生成与事故分析，生成高质量的事故描述、原因分析和预防措施，显著提升自动驾驶系统的安全性和可靠性。

1年前
165
点赞
评论

AVD2：清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

Kiss3DGen：基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

1年前
100
点赞
评论

Kiss3DGen：基于图像扩散模型的3D资产生成框架

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型，基于百万真实数据预训练，赋予机器人强大的3D空间理解能力，支持跨平台泛化控制

1年前
164
点赞
评论

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

ART：匿名区域布局+多层透明图像生成技术，生成速度比全注意力方法快12倍以上

ART 是一种新型的多层透明图像生成技术，支持根据全局文本提示和匿名区域布局生成多个独立的透明图层，具有高效的生成机制和强大的透明度处理能力。

1年前
234
1
评论

ART：匿名区域布局+多层透明图像生成技术，生成速度比全注意力方法快12倍以上

NotaGen：中央音乐学院联合清华推出AI音乐生成模型，古典乐谱一键生成，音乐性接近人类！

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型，基于模仿大型语言模型的训练范式，能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式，显著提

1年前
679
点赞
评论

NotaGen：中央音乐学院联合清华推出AI音乐生成模型，古典乐谱一键生成，音乐性接近人类！

Proxy Lite：仅3B参数的开源视觉模型！快速实现网页自动化，支持在消费级GPU上运行

Proxy Lite 是一款开源的轻量级视觉语言模型，支持自动化网页任务，能够像人类一样操作浏览器，完成网页交互、数据抓取、表单填写等重复性工作，显著降低自动化成本。

1年前
237
点赞
评论

Proxy Lite：仅3B参数的开源视觉模型！快速实现网页自动化，支持在消费级GPU上运行

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集，旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表

1年前
138
点赞
评论

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

MIT颠覆传统！分形生成模型效率暴涨4000倍，高分辨率图像秒级生成

Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法，基于分形思想，通过递归调用模块构建自相似架构，显著提升计算效率，适用于

1年前
154
点赞
评论

MIT颠覆传统！分形生成模型效率暴涨4000倍，高分辨率图像秒级生成

CogView4：智谱开源中文文生图新标杆，中文海报+任意分辨率一键生成

CogView4 是智谱推出的开源文生图模型，支持中英双语输入和任意分辨率图像生成，特别优化了中文文字生成能力，适合广告、创意设计等场景。

1年前
252
点赞
评论

CogView4：智谱开源中文文生图新标杆，中文海报+任意分辨率一键生成

PRefLexOR：MIT自进化AI框架上线！动态知识图谱+跨域推理，重塑自主思考

PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架，结合偏好优化和强化学习，通过递归推理和多步反思，动态生成知识图谱，支持跨领域推理和自主学习。

1年前
131
点赞
评论

PRefLexOR：MIT自进化AI框架上线！动态知识图谱+跨域推理，重塑自主思考

Probly：开源 AI Excel表格工具，交互式生成数据分析结果与可视化图表

Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具，支持在浏览器中运行 Python 代码，提供交互式电子表格、数据可视化和智能分析建议，适合需要强大数据分析功能又希望操

1年前
286
点赞
评论

Probly：开源 AI Excel表格工具，交互式生成数据分析结果与可视化图表

ViDoRAG：开源多模态文档检索框架，多智能体推理+图文理解精准解析文档

ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架，基于多智能体协作和动态迭代推理，显著提升复杂视觉文档的检索和生成效率。

1年前
481
1
1

ViDoRAG：开源多模态文档检索框架，多智能体推理+图文理解精准解析文档

MiniMind：2小时训练出你的专属AI！开源轻量级语言模型，个人GPU轻松搞定

MiniMind 是一个开源的超小型语言模型项目，帮助开发者以极低成本从零开始训练自己的语言模型，最小版本仅需25.8M参数，适合在普通个人GPU上快速训练。

1年前
478
点赞
评论

MiniMind：2小时训练出你的专属AI！开源轻量级语言模型，个人GPU轻松搞定

Shandu：开源AI研究黑科技！自动挖掘多层级信息，智能生成结构化报告

Shandu 是一款开源的 AI 研究自动化工具，结合 LangChain 和 LangGraph 技术，能够自动化地进行多层次信息挖掘和分析，生成结构化的研究报告，适用于学术研究、市场分析和技术探索

1年前
176
点赞
评论

Shandu：开源AI研究黑科技！自动挖掘多层级信息，智能生成结构化报告

SepLLM：开源大模型加速神器！400万Token长文本推理提速50%，告别OOM噩梦

SepLLM 是一个用于加速大语言模型的高效框架，通过压缩段落信息并消除冗余标记，显著提高了模型的推理速度和计算效率，适用于长文本处理和多场景部署。

1年前
121
1
评论

SepLLM：开源大模型加速神器！400万Token长文本推理提速50%，告别OOM噩梦

Story-flicks：AI一键生成高清故事视频，5分钟搞定全流程创作

Story-flicks 是一款基于AI大模型的视频生成工具，支持一键生成包含图像、文本、音频和字幕的高清故事短视频，适用于教育、内容创作、广告营销等多个领域。

1年前
572
点赞
评论

Story-flicks：AI一键生成高清故事视频，5分钟搞定全流程创作

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具，能够实时将语音转换为文本，并自动清理和优化文本内容，适用于会议记录、写作辅助等多种场景。

1年前
382
点赞
评论

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

AI-Infra-Guard：腾讯开源AI基础设施安全评估神器，一键扫描漏洞

AI-Infra-Guard 是腾讯开源的高效、轻量级 AI 基础设施安全评估工具，支持 28 种 AI 框架指纹识别和 200 多个安全漏洞数据库，帮助用户快速检测和修复 AI 系统中的安全风险。

1年前
354
1
评论

AI-Infra-Guard：腾讯开源AI基础设施安全评估神器，一键扫描漏洞

VideoFusion：开源视频处理神器！一键去黑边水印，AI提升画质+批量剪辑全搞定

VideoFusion 是一款开源的AI视频剪辑工具，支持自动去除视频黑边、水印和字幕，提供批量处理、画质提升等功能，适合视频创作者和自媒体运营者使用。

1年前
585
点赞
评论

VideoFusion：开源视频处理神器！一键去黑边水印，AI提升画质+批量剪辑全搞定

Mahilo：多智能体实时协作框架开源！人类与AI无缝交互，复杂任务一键协同

Mahilo 是一个灵活的多智能体框架，支持创建与人类互动的多智能体系统，适用于从客户服务到紧急响应等多种场景。

1年前
151
点赞
评论

Mahilo：多智能体实时协作框架开源！人类与AI无缝交互，复杂任务一键协同