每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

Deepfake Defenders：中科院开源 Deepfake 伪造内容识别工具！

Deepfake Defenders 是由中科院开发的开源 AI 模型，专用于识别 Deepfake 伪造内容。通过像素级分析和深度学习算法，实时检测图像和视频中的伪造痕迹。

1年前
857
点赞
评论

Deepfake Defenders：中科院开源 Deepfake 伪造内容识别工具！

Laminar：专为 LLM 设计的监控和分析平台，支持追踪与事件分析

Laminar 是开源的 LLM 监控分析平台，提供追踪、评估、标注工具，支持自动追踪、事件分析、数据标注，基于现代技术栈确保高性能，助力优化应用性能。

1年前
462
点赞
评论

Laminar：专为 LLM 设计的监控和分析平台，支持追踪与事件分析

WonderWorld：斯坦福与 MIT 联手打造实时交互生成图像，单图秒变 3D 虚拟世界

WonderWorld 是由斯坦福大学和麻省理工学院联合开发的创新性 3D 场景生成框架，能从单张图片快速生成多样化且连贯的 3D 虚拟世界，用户可通过文本和相机移动实时交互，具有广泛的应用潜力。

1年前
234
点赞
评论

WonderWorld：斯坦福与 MIT 联手打造实时交互生成图像，单图秒变 3D 虚拟世界

商业级免费OCR利器！Surya OCR：支持90+种语言识别，复杂布局识别，表格解析全覆盖！

Surya是一款强大的开源OCR工具包，支持90多种语言，能识别文本、分析阅读顺序、检测布局元素及解析表格。免费且跨平台，适合处理敏感信息。安装简单，提供多种功能命令。

1年前
2.1k
14
1

商业级免费OCR利器！Surya OCR：支持90+种语言识别，复杂布局识别，表格解析全覆盖！

DeepSeek AI 推出 Janus 自回归框架，统一视觉、文本理解与生成的创新解决方案

Janus 是一个由 DeepSeek AI 推出的自回归框架，旨在统一多模态理解和生成任务，通过解耦视觉编码和统一的 Transformer 架构，实现高效的多模态处理。

1年前
443
点赞
评论

DeepSeek AI 推出 Janus 自回归框架，统一视觉、文本理解与生成的创新解决方案

CogVLM 与 CogAgent：清华与智谱 AI 联合推出专注于 GUI 的多模态视觉大模型

CogVLM 和 CogAgent 是由清华大学与智谱 AI 联合推出的多模态视觉大模型，专注于图形用户界面（GUI）的理解和导航，具备视觉问答、视觉定位和 GUI Agent 等多种能力。

1年前
428
点赞
评论

CogVLM 与 CogAgent：清华与智谱 AI 联合推出专注于 GUI 的多模态视觉大模型

NotebookLlama：Meta 推出的将 PDF 转换为播客的开源利器

NotebookLlama 是一个开源项目，旨在帮助用户将 PDF 文档转换为播客内容，利用 LLaMa 模型实现自动化处理，包括 PDF 预处理、生成播客脚本、增加戏剧化元素以及文本转语音合成。

1年前
424
1
评论

NotebookLlama：Meta 推出的将 PDF 转换为播客的开源利器

震撼发布！libcom：上海交大黑科技，一键搞定图像合成，让你的创意秒变现实！

ibcom 是上海交通大学开发的开源图像合成工具箱，旨在解决前景和背景不一致性的问题。`import libcom`就能轻松调用库方法进行复杂的图像合成操作，在文中我编写了一个简单的图像融合示例。

1年前
664
点赞
评论

震撼发布！libcom：上海交大黑科技，一键搞定图像合成，让你的创意秒变现实！

革命性RAG系统 LightRAG：实现快速适应新数据的智能检索

LightRAG 是香港大学开发的检索增强生成系统，结合图结构索引和双层检索机制，提升大型语言模型的信息检索准确性和效率。能处理复杂查询，快速适应新数据，通过增量更新算法保持高效和准确。

1年前
1.5k
4
评论

革命性RAG系统 LightRAG：实现快速适应新数据的智能检索

高效规划神器 markmap：一键将 Markdown 变思维导图！

markmap 是一款将 Markdown 文本转换为思维导图的工具，支持实时渲染和高度定制，适用于项目规划和文档整理。通过文本解析和布局算法，实现 Markdown 到思维导图的完美转换。

1年前
2.2k
点赞
评论

高效规划神器 markmap：一键将 Markdown 变思维导图！

Video-XL：智源研究院开源超基准测试的长视频理解大模型

Video-XL 是一款由智源研究院联合多所高校开发的长视频理解大模型，能够在单块 80G GPU 上处理 2048 帧视频，并在多个视频理解基准测试中取得领先成绩。

1年前
473
点赞
评论

Video-XL：智源研究院开源超基准测试的长视频理解大模型

EveryoneNobel：一键生成属于你的诺贝尔奖风格图像

EveryoneNobel 是一个开源 AI 工具，利用 ComfyUI 框架生成个性化诺贝尔奖风格图像，用户只需上传照片和基本信息，即可自动生成独特奖状，适用于社交媒体分享和各类庆祝场合。

1年前
965
点赞
评论

EveryoneNobel：一键生成属于你的诺贝尔奖风格图像

OpenAI 全新基准工具：75 个 Kaggle 任务，全面测试 AI 代理能力

OpenAI 推出全新基准工具 MLE-bench，包含 75 个 Kaggle 任务，全面评估 AI 代理在机器学习工程中的表现，支持自主完成任务流程，助力算法研究和教育应用。

1年前
367
点赞
评论

OpenAI 全新基准工具：75 个 Kaggle 任务，全面测试 AI 代理能力

Kotaemon：RAG 技术赋能，多语言模型问答系统，高效文档检索

Kotaemon 是一款基于 RAG 技术的开源问答系统，支持多语言模型和多用户协作，适用于文档检索和知识管理。

1年前
506
1
评论

Kotaemon：RAG 技术赋能，多语言模型问答系统，高效文档检索

Composio：AI 开发利器，集成 100+ 工具，简化智能体构建

Composio 是一个 AI 智能体开发工具，集成了超过 100 种工具，简化开发和部署。支持一行代码调用多种工具和框架，适用于多种编程语言和场景。

1年前
1.4k
点赞
评论

Composio：AI 开发利器，集成 100+ 工具，简化智能体构建

阿里巴巴开源！mPLUG-DocOwl 1.5：无需 OCR 的文档理解多模态大型语言模型

阿里巴巴开源 mPLUG-DocOwl 1.5，专注 OCR-free 文档理解，基于统一结构学习，强化图像结构信息理解，多任务覆盖文档、表格等，性能领先。

1年前
983
4
评论

阿里巴巴开源！mPLUG-DocOwl 1.5：无需 OCR 的文档理解多模态大型语言模型

Chat-macOS：HuggingChat 开源 MACOS 原生 AI 聊天神器，让你的 Mac 变成智能助手！

HuggingChat macOS 是一款专为 macOS 用户设计的开源聊天应用程序，基于强大的开源语言模型，提供丰富的功能和流畅的用户体验，支持多种顶尖大语言模型，助力日常聊天、信息查询、编程辅助

1年前
374
点赞
评论

Chat-macOS：HuggingChat 开源 MACOS 原生 AI 聊天神器，让你的 Mac 变成智能助手！

Genmoai-smol：专为单 GPU 优化的开源 AI 视频生成模型，低显存生成高质量视频

Genmoai-smol 是一个专为单 GPU 设备优化的开源 AI 视频生成模型，能够在显存受限的环境下生成高质量的视频内容。

1年前
230
点赞
评论

Genmoai-smol：专为单 GPU 优化的开源 AI 视频生成模型，低显存生成高质量视频

Crawl4AI 异步爬虫：为 LLM 与 AI 应用量身定制的利器

Crawl4AI 是基于 Python 的异步爬虫框架，专为 LLMs 和 AI 应用设计，支持多种输出格式，提取网页多媒体数据及元数据，提供自定义功能，提高爬虫效率。

1年前
633
点赞
评论

Crawl4AI 异步爬虫：为 LLM 与 AI 应用量身定制的利器

王炸！Anthropic 推出全新模型 Claude 3.5 Haiku，首发支持计算机使用功能！

Claude 3.5 Haiku 是 Anthropic 公司推出的新一代 AI 模型，在保持与前代相近速度和成本的同时，实现了全面能力提升，适用于多种应用场景，如代码补全、聊天机器人、数据提取和内容

1年前
691
点赞
评论

王炸！Anthropic 推出全新模型 Claude 3.5 Haiku，首发支持计算机使用功能！