每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

MT-TransformerEngine：国产训练核弹！FP8+算子融合黑科技，Transformer训练速度飙升300%

MT-TransformerEngine 是摩尔线程开源的高效训练与推理优化框架，专为 Transformer 模型设计，通过算子融合、并行加速等技术显著提升训练效率，支持 FP8 混合精度训练，适用

1年前
168
1
1

MT-TransformerEngine：国产训练核弹！FP8+算子融合黑科技，Transformer训练速度飙升300%

Chitu：清华核弹级开源！推理引擎3倍提速+50%省卡，国产芯片告别英伟达绑架

Chitu（赤兔）是清华大学与清程极智联合开源的高性能大模型推理引擎，支持多硬件适配，显著提升推理效率，适用于金融、医疗、交通等多个领域。

1年前
1.1k
5
2

Chitu：清华核弹级开源！推理引擎3倍提速+50%省卡，国产芯片告别英伟达绑架

APB：清华核弹级突破！长文本推理提速10倍，128K上下文碾压FlashAttention

APB 是清华大学等机构联合推出的分布式长上下文推理框架，通过稀疏注意力机制和序列并行推理方式，显著提升大模型处理长文本的效率，推理速度比 Flash Attention 快约 10 倍。

1年前
175
点赞
评论

APB：清华核弹级突破！长文本推理提速10倍，128K上下文碾压FlashAttention

MIDI-3D：单图秒变3D场景！40秒生成360度空间，多实例扩散黑科技

MIDI-3D 是一种先进的 AI 3D 场景生成技术，能够将单张图像快速转化为高保真度的 360 度 3D 场景，具有强大的全局感知能力和细节表现力，适用于游戏开发、虚拟现实、室内设计等多个领域。

1年前
225
点赞
评论

MIDI-3D：单图秒变3D场景！40秒生成360度空间，多实例扩散黑科技

MT-MegatronLM：国产训练框架逆袭！三合一并行+FP8黑科技，大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架，支持多种模型架构和高效混合并行训练，显著提升 GPU 集群的算力利用率。

1年前
227
点赞
评论

MT-MegatronLM：国产训练框架逆袭！三合一并行+FP8黑科技，大模型训练效率暴涨200%

Botgroup.chat：超有趣的开源 AI 聊天室！多个 AI 在线互怼，一键搭建你的专属 AI 社群

Botgroup.chat 是一款基于 React 和 Cloudflare Pages 的开源 AI 聊天应用，支持多个 AI 角色同时参与对话，提供类似群聊的交互体验。

1年前
1.3k
1
评论

Botgroup.chat：超有趣的开源 AI 聊天室！多个 AI 在线互怼，一键搭建你的专属 AI 社群

Evolving Agents：开源Agent革命！智能体动态进化框架上线，复杂任务一键协同搞定

Evolving Agents 是一个开源的AI Agent管理与进化框架，支持智能代理之间的通信与协作，能够根据语义理解需求动态进化，适用于文档处理、医疗保健、金融分析等多个领域。

1年前
219
点赞
评论

Evolving Agents：开源Agent革命！智能体动态进化框架上线，复杂任务一键协同搞定

TokenSwift：90分钟生成10万Token！文本生成提速3倍，无损加速黑科技

TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架，能在90分钟内生成10万Token的文本，速度提升3倍，生成质量无损，支持多种模型架构。

1年前
179
点赞
评论

TokenSwift：90分钟生成10万Token！文本生成提速3倍，无损加速黑科技

Gemma 3：谷歌最新开源多模态AI模型，单GPU性能碾压Llama！

Gemma 3 是谷歌最新推出的开源多模态AI模型，支持超过35种语言，具备文本、图像及短视频处理能力，提供四种模型尺寸，优化单GPU性能，适用于多种AI应用场景。

1年前
428
点赞
评论

Gemma 3：谷歌最新开源多模态AI模型，单GPU性能碾压Llama！

Open-Sora 2.0：零门槛吊打闭源！20万训练成本开源视频模型生成720p大片

Open-Sora 2.0 是潞晨科技推出的开源AI视频生成模型，仅需20万美元训练成本，生成720p高清视频，性能媲美主流闭源模型，支持文本到视频、图像到视频等多种生成方式。

1年前
461
点赞
评论

Open-Sora 2.0：零门槛吊打闭源！20万训练成本开源视频模型生成720p大片

Deep Research Web UI：开源版Deep Research！接入DeepSeek一键生成深度研究报告，可视化检索过程

Deep Research Web UI 是一款开源的 AI 研究助手工具，通过 AI 驱动的迭代搜索和多语言支持，帮助用户高效进行深度研究，并以树状结构可视化研究过程，支持导出为 Markdown

1年前
783
3
评论

Deep Research Web UI：开源版Deep Research！接入DeepSeek一键生成深度研究报告，可视化检索过程

AI-Researcher：告别熬夜肝论文！港大开源AI科研神器，从选题到发表全自动

AI-Researcher 是香港大学数据科学实验室推出的开源自动化科研工具，基于大型语言模型（LLM）代理，支持从研究想法到论文发表的全流程自动化，涵盖文献综述、算法设计、实验验证和论文撰写等功能。

1年前
492
点赞
评论

AI-Researcher：告别熬夜肝论文！港大开源AI科研神器，从选题到发表全自动

MM-StoryAgent：交大阿里联合开源！多模态AI一键生成儿童故事绘本+配音

MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架，用于生成沉浸式的有声故事绘本视频，支持文本、图像、语音等多种模态的生成与对齐。

1年前
750
5
评论

MM-StoryAgent：交大阿里联合开源！多模态AI一键生成儿童故事绘本+配音

MV-MATH：中科院开源多模态数学推理基准，多视觉场景评估新标杆

MV-MATH 是中科院自动化所推出的多模态数学推理基准数据集，旨在评估多模态大语言模型在多视觉场景中的数学推理能力。该数据集包含2009个高质量的数学问题。

1年前
139
点赞
评论

MV-MATH：中科院开源多模态数学推理基准，多视觉场景评估新标杆

GaussianAnything：多模态3D生成黑科技！南洋理工开源框架秒建可编辑高精度模型

GaussianAnything 是由南洋理工大学 S-Lab 和上海 AI Lab 联合推出的 3D 生成框架，支持多模态输入，能够生成高质量、可编辑的 3D 模型，广泛应用于游戏、影视、VR/AR

1年前
181
点赞
评论

GaussianAnything：多模态3D生成黑科技！南洋理工开源框架秒建可编辑高精度模型

PP-DocBee：百度飞桨多模态文档解析神器，中文场景SOTA准确率一键提取表格图表

PP-DocBee 是百度飞桨推出的专注于文档图像理解的多模态大模型，基于 ViT+MLP+LLM 架构，具备强大的中文文档解析能力，适用于文档问答、复杂文档解析等场景，支持多种部署方式。

1年前
324
1
评论

PP-DocBee：百度飞桨多模态文档解析神器，中文场景SOTA准确率一键提取表格图表

LanPaint：零训练消除AI图像违和感！与ComfyUI完美兼容的无损修复神器

LanPaint 是一款基于 Stable Diffusion 的零训练 AI 图像修复工具，支持无缝修复和内容替换，适用于从简单修复到复杂损坏恢复的多种场景。

1年前
299
点赞
评论

LanPaint：零训练消除AI图像违和感！与ComfyUI完美兼容的无损修复神器

MHA2MLA：0.3%数据微调！复旦团队开源推理加速神器，KV缓存狂降96.87%

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效微调方法，通过引入多头潜在注意力机制（MLA），显著优化基于Transformer的LLM推理效率，降低推理成本。

1年前
132
点赞
评论

MHA2MLA：0.3%数据微调！复旦团队开源推理加速神器，KV缓存狂降96.87%

Anus：公开整活！完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目

Anus 是一个开源 AI 智能体项目，复刻了 Manus 的部分功能，支持自然语言指令执行、多代理协作、多模态输入处理等功能，旨在为开发者提供强大且灵活的工具。

1年前
1.1k
5
1

Anus：公开整活！完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目

阿里通义开源全模态大语言模型 R1-Omni：情感分析成绩新标杆！推理过程全程透明，准确率飙升200%

R1-Omni 是阿里通义开源的全模态大语言模型，专注于情感识别任务，结合视觉和音频信息，提供可解释的推理过程，显著提升情感识别的准确性和泛化能力。

1年前
276
点赞
评论

阿里通义开源全模态大语言模型 R1-Omni：情感分析成绩新标杆！推理过程全程透明，准确率飙升200%