每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

OCRmyPDF：16.5K Star！快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具，专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

1年前
466
2
评论

OCRmyPDF：16.5K Star！快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

node-DeepResearch：开源复现版OpenAI Deep Research，支持多步推理和复杂查询的AI智能体

node-DeepResearch 是一个开源 AI 智能体项目，支持多步推理和复杂查询，帮助用户逐步解决问题。

1年前
491
1
评论

node-DeepResearch：开源复现版OpenAI Deep Research，支持多步推理和复杂查询的AI智能体

MILS：无需对LLM进行额外训练就能处理多模态任务，Meta AI提出零样本生成多模态描述方法

MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法，支持图像、视频和音频的描述生成，无需额外训练。

1年前
153
点赞
评论

MILS：无需对LLM进行额外训练就能处理多模态任务，Meta AI提出零样本生成多模态描述方法

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

DeepSeek R1 + LobeChat + Ollama：快速本地部署模型，创建个性化 AI 助手

1年前
1.4k
1
评论

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

Oumi：开源的AI模型一站式开发平台，涵盖训练、评估和部署模型的综合性平台

Oumi 是一个完全开源的 AI 平台，支持从 1000 万到 4050 亿参数的模型训练，涵盖文本和多模态模型，提供零样板代码开发体验。

1年前
551
点赞
评论

Oumi：开源的AI模型一站式开发平台，涵盖训练、评估和部署模型的综合性平台

Aligner：自动修正AI的生成结果，北大推出残差修正模型对齐技术

介绍北大团队提出的 Aligner 模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差，提升大语言模型的性能。

1年前
274
点赞
评论

Aligner：自动修正AI的生成结果，北大推出残差修正模型对齐技术

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，具备拟人口语化表达、低延迟响应和多情感控制等功能。

1年前
631
点赞
评论

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

o3-mini：OpenAI 发布最新推理模型，强大的STEM推理能力，灵活调整推理强度

OpenAI o3-mini是OpenAI推出的全新推理模型，专为科学、数学和编程等技术领域优化，支持三种推理强度，灵活调整性能。

1年前
377
1
评论

o3-mini：OpenAI 发布最新推理模型，强大的STEM推理能力，灵活调整推理强度

VARGPT：将视觉理解与生成统一在一个模型中，北大推出支持混合模态输入与输出的多模态统一模型

VARGPT是北京大学推出的多模态大语言模型，专注于视觉理解和生成任务，支持混合模态输入和高质量图像生成。

1年前
215
点赞
评论

VARGPT：将视觉理解与生成统一在一个模型中，北大推出支持混合模态输入与输出的多模态统一模型

YuE：开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种语言和多种音乐风格

YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型，能够将歌词转化为完整的歌曲，支持多种音乐风格和多语言。

1年前
595
点赞
评论

YuE：开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种语言和多种音乐风格

Qwen2.5-Max：阿里通义千问超大规模 MoE 模型，使用超过20万亿tokens的预训练数据

Qwen2.5-Max是阿里云推出的超大规模MoE模型，具备强大的语言处理能力、编程辅助和多模态处理功能，支持29种以上语言和高达128K的上下文长度。

1年前
546
点赞
评论

Qwen2.5-Max：阿里通义千问超大规模 MoE 模型，使用超过20万亿tokens的预训练数据

QVQ-72B-Preview：阿里通义千问最新多模态推理模型，视觉推理助力复杂图像理解

阿里云通义千问团队开源的多模态推理模型 QVQ-72B-Preview，专注于提升视觉推理能力，支持复杂图像理解和逐步推理。

1年前
432
点赞
评论

QVQ-72B-Preview：阿里通义千问最新多模态推理模型，视觉推理助力复杂图像理解

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型，具有3B、7B和72B三种不同规模，能够识别常见物体、分析图像中的文本、图表等元素，并具备作为视觉Agent的能力。

1年前
805
点赞
评论

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型，支持图像理解和生成，提供1B和7B两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的

1年前
574
点赞
评论

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出，显著提升多模态交互体验。

1年前
309
点赞
评论

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

DiffuEraser：阿里通义实验室推出的视频修复模型，支持高清修复、时间一致性优化

DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具，能够生成丰富的细节并保持时间一致性，适用于电影修复、监控增强等场景。

1年前
397
1
评论

DiffuEraser：阿里通义实验室推出的视频修复模型，支持高清修复、时间一致性优化

Chainlit：一个开源的异步Python框架，快速构建生产级对话式 AI 应用

Chainlit 是一个开源的异步 Python 框架，帮助开发者在几分钟内构建可扩展的对话式 AI 或代理应用，支持多种工具和服务集成。

1年前
837
1
评论

Chainlit：一个开源的异步Python框架，快速构建生产级对话式 AI 应用

FilmAgent：多智能体共同协作制作电影，哈工大联合清华推出 AI 驱动的自动化电影制作工具

FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具，通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。

1年前
1.7k
1
评论

FilmAgent：多智能体共同协作制作电影，哈工大联合清华推出 AI 驱动的自动化电影制作工具

VideoLLaMA3：阿里达摩院开源专注于视觉理解的多模态基础模型，具备多语言视频理解能力

VideoLLaMA3 是阿里巴巴开源的多模态基础模型，专注于图像和视频理解，支持多语言生成、视频内容分析和视觉问答任务，适用于多种应用场景。

1年前
314
点赞
评论

VideoLLaMA3：阿里达摩院开源专注于视觉理解的多模态基础模型，具备多语言视频理解能力

Tarsier2：字节跳动开源专注于图像和视频内容理解的视觉语言大模型

Tarsier2 是字节跳动推出的大规模视觉语言模型，支持高质量视频描述、问答与定位，在多个视频理解任务中表现优异。

1年前
385
点赞
评论

Tarsier2：字节跳动开源专注于图像和视频内容理解的视觉语言大模型