每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

VidSketch：手残党逆袭！浙大AI神器草图秒变4K动画，三连提示词玩转影视级特效

VidSketch 是浙江大学推出的创新视频生成框架，通过手绘草图和简单文本提示生成高质量视频动画，降低视频创作的技术门槛，满足多样化的艺术需求。

1年前
253
点赞
评论

VidSketch：手残党逆袭！浙大AI神器草图秒变4K动画，三连提示词玩转影视级特效

Baichuan-Audio：端到端音频大模型，实时双语对话+语音生成

Baichuan-Audio 是百川智能推出的端到端音频大语言模型，支持无缝集成音频理解和生成功能，实现高质量、可控的实时中英双语对话。

1年前
512
3
评论

Baichuan-Audio：端到端音频大模型，实时双语对话+语音生成

AIMv2：苹果开源多模态视觉模型，自回归预训练革新图像理解

AIMv2 是苹果公司开源的多模态自回归预训练视觉模型，通过图像和文本的深度融合提升视觉模型的性能，适用于多种视觉和多模态任务。

1年前
137
点赞
评论

AIMv2：苹果开源多模态视觉模型，自回归预训练革新图像理解

SongGen：三秒克隆音色！开源AI一键生成专业级歌曲，创作人必备神器

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型，能够通过文本生成高质量歌曲，支持混合模式和双轨模式，显著提升生成歌曲的自然度和人声清

1年前
506
点赞
评论

SongGen：三秒克隆音色！开源AI一键生成专业级歌曲，创作人必备神器

HippoRAG 2：开源RAG框架革新知识检索，多跳推理+持续学习全搞定

HippoRAG 2 是俄亥俄州立大学推出的检索增强生成框架，通过个性化PageRank算法和知识图谱技术，显著提升了RAG系统在复杂问答任务中的表现。

1年前
444
3
评论

HippoRAG 2：开源RAG框架革新知识检索，多跳推理+持续学习全搞定

Trae 接入 Claude 3.7：AI 编程工具界的“卷王”，完全免费使用！

Trae 是一款完全免费的AI编程工具，现已接入 Claude 3.7 模型，提供代码生成、调试等强大功能，支持多模态输入和上下文理解，用户可享受24小时高速服务，无需担心付费限制。

1年前
8.7k
16
14

Trae 接入 Claude 3.7：AI 编程工具界的“卷王”，完全免费使用！

DeepSeek开源周第五弹之一！3FS：支撑V3/R1模型数据访问的高性能分布式文件系统

3FS是DeepSeek开源的高性能分布式文件系统，专为AI训练和推理任务设计，提供高达6.6 TiB/s的读取吞吐量，支持强一致性保障和通用文件接口，优化AI工作负载。

1年前
508
1
评论

DeepSeek开源周第五弹之一！3FS：支撑V3/R1模型数据访问的高性能分布式文件系统

DeepSeek开源周第五弹之二！Smallpond：构建于3FS之上的轻量级数据处理框架，高效处理PB级数据

Smallpond 是 DeepSeek 开源的轻量级数据处理框架，基于 DuckDB 和 3FS 构建，支持 PB 级数据处理，提供高性能的数据加载、查询和转换功能，适合大规模数据预处理和实时分析。

1年前
193
1
评论

DeepSeek开源周第五弹之二！Smallpond：构建于3FS之上的轻量级数据处理框架，高效处理PB级数据

DeepSeek开源周第四弹之一！DualPipe：训练V3/R1的双向流水线并行技术，计算与训练完全重叠，训练效率提升200%

DeepSeek 开源的 DualPipe 技术通过双向流水线并行设计，显著提升大规模深度学习模型的训练效率，优化计算与通信重叠，降低内存峰值需求，适用于推理加速、多模态数据处理等场景。

1年前
228
1
评论

DeepSeek开源周第四弹之一！DualPipe：训练V3/R1的双向流水线并行技术，计算与训练完全重叠，训练效率提升200%

R1-Onevision：开源多模态推理之王！复杂视觉难题一键解析，超越GPT-4V

R1-Onevision 是一款开源的多模态视觉推理模型，基于 Qwen2.5-VL 微调，专注于复杂视觉推理任务。它通过整合视觉和文本数据，能够在数学、科学、深度图像理解和逻辑推理等领域表现出色，并

1年前
286
点赞
评论

R1-Onevision：开源多模态推理之王！复杂视觉难题一键解析，超越GPT-4V

DeepSeek开源周第四弹之二！EPLB：专为V3/R1设计的专家并行负载均衡器，让GPU利用率翻倍！

EPLB 是 DeepSeek 推出的专家并行负载均衡器，通过冗余专家策略和负载均衡算法，优化大规模模型训练中的 GPU 资源利用率和训练效率。

1年前
219
1
评论

DeepSeek开源周第四弹之二！EPLB：专为V3/R1设计的专家并行负载均衡器，让GPU利用率翻倍！

video-subtitle-master：开源字幕生成神器！批量生成+AI翻译全自动，5分钟解放双手

video-subtitle-master 是一款开源AI字幕生成工具，支持批量为视频或音频生成字幕，并可将字幕翻译成多种语言。它集成了多种翻译服务和语音识别技术，适合视频创作者、教育领域和个人娱乐使

1年前
677
点赞
评论

video-subtitle-master：开源字幕生成神器！批量生成+AI翻译全自动，5分钟解放双手

VideoGrain：零样本多粒度视频编辑神器，用AI完成换装改场景，精准控制每一帧！

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架，基于调节时空交叉注意力和自注意力机制，实现类别级、实例级和部件级的精细视频修改，保持时间一致性，显著优于现有方法。

1年前
229
点赞
评论

VideoGrain：零样本多粒度视频编辑神器，用AI完成换装改场景，精准控制每一帧！

SPO：如何优化出最佳提示词？开源自监督提示词优化工具，让AI自主优化提示词！附WebUI使用教程

本文介绍由DeepWisdom与香港科技大学联合研发的SPO框架，通过自我监督机制实现大语言模型提示优化，仅需3个样本即可达到SOTA效果，优化成本降低至传统方法的1.1%-5.6%。

1年前
666
1
评论

SPO：如何优化出最佳提示词？开源自监督提示词优化工具，让AI自主优化提示词！附WebUI使用教程

DeepSeek开源周第四弹之三！Profiling Data：训练V3/R1时计算与通信重叠策略的性能分析数据

DeepSeek开源的Profiling Data是基于PyTorch Profiler捕获的性能分析数据，帮助开发者优化深度学习模型的训练和推理过程，提升系统整体效率。

1年前
101
1
评论

DeepSeek开源周第四弹之三！Profiling Data：训练V3/R1时计算与通信重叠策略的性能分析数据

Flame：开源AI设计图转代码模型！生成React组件，精准还原UI+动态交互效果

Flame 是一款开源的多模态 AI 模型，能够将 UI 设计图转换为高质量的现代前端代码，支持 React 等主流框架，具备动态交互、组件化开发等功能，显著提升前端开发效率。

1年前
677
点赞
1

Flame：开源AI设计图转代码模型！生成React组件，精准还原UI+动态交互效果

OctoTools：斯坦福开源AI推理神器！16项测试准确率碾压GPT-4o，一键搞定复杂任务

OctoTools 是斯坦福大学推出的开源智能体框架，通过标准化工具卡片和自动化工具集优化算法，显著提升复杂推理任务的解决效率，支持多领域应用。

1年前
285
点赞
评论

OctoTools：斯坦福开源AI推理神器！16项测试准确率碾压GPT-4o，一键搞定复杂任务

DeepSeek 开源周第三弹！DeepGEMM：FP8矩阵计算神器！JIT编译+Hopper架构优化，MoE性能飙升

DeepGEMM 是 DeepSeek 开源的专为 FP8 矩阵乘法设计的高效库，支持普通和混合专家（MoE）分组的 GEMM 操作，基于即时编译技术，动态优化矩阵运算，显著提升计算性能。

1年前
267
1
评论

DeepSeek 开源周第三弹！DeepGEMM：FP8矩阵计算神器！JIT编译+Hopper架构优化，MoE性能飙升

PhotoDoodle：设计师必备！AI一键生成装饰元素，30+样本复刻风格+无缝融合的开源艺术编辑框架

PhotoDoodle 是由字节跳动、新加坡国立大学等联合推出的艺术化图像编辑框架，能够通过少量样本学习艺术家的独特风格，实现照片涂鸦和装饰性元素生成。

1年前
251
点赞
评论

PhotoDoodle：设计师必备！AI一键生成装饰元素，30+样本复刻风格+无缝融合的开源艺术编辑框架

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型，支持文生视频和图生视频任务，具备强大的视觉生成能力，性能超越Sora、Luma等国内外模型。

1年前
817
点赞
评论

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频