每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

开源神器！CodeFormer：一键去除马赛克，高清修复照片视频

CodeFormer 是一款开源的 AI 照片和视频修复工具，利用深度学习技术去除马赛克，提升图像和视频的清晰度，操作简单且免费。

1年前
5.8k
点赞
2

开源神器！CodeFormer：一键去除马赛克，高清修复照片视频

DuoAttention：高效处理长上下文推理的 AI 框架，让 LLMs 如虎添翼！

DuoAttention 是一种新型框架，旨在提高大型语言模型（LLMs）处理长上下文时的推理效率。通过区分“检索头”和“流式头”两种注意力头，优化模型的内存使用和计算速度。

1年前
356
点赞
评论

DuoAttention：高效处理长上下文推理的 AI 框架，让 LLMs 如虎添翼！

Agent S震撼发布！一键解放双手，智能自动化操作神器，办公效率飙升！

Agent S 是基于 GUI 的人机交互自动化框架，通过经验增强的分层规划和多模态语言模型提升任务自动化能力，支持跨操作系统，适用于办公自动化等多种场景。

1年前
790
点赞
评论

Agent S震撼发布！一键解放双手，智能自动化操作神器，办公效率飙升！

Stable Diffusion 3.5 震撼发布！最新开源 AI 图像生成模型，艺术创作必备神器！

Stable Diffusion 3.5 是 Stability AI 最新推出的图像生成模型，提供多种版本和高效性能，支持多样化输出和风格，适用于艺术创作、游戏开发等多种场景。

1年前
747
点赞
评论

Stable Diffusion 3.5 震撼发布！最新开源 AI 图像生成模型，艺术创作必备神器！

D-Edit：支持文本、图像和掩码编辑等多功能的图像编辑框架

D-Edit 是一个基于扩散模型的多功能图像编辑框架，支持文本、图像和掩码编辑。它通过解耦控制实现对图像中特定项目的精确编辑，适用于多种应用场景。

1年前
189
点赞
评论

D-Edit：支持文本、图像和掩码编辑等多功能的图像编辑框架

MobileLLM：Meta 开源适用于移动设备的语言模型，具备高质量的语言理解和生成能力

MobileLLM 是 Meta 推出的适合移动端使用的大语言模型，通过优化设计实现在少于十亿参数的情况下提供高质量的语言理解和生成能力。

1年前
163
点赞
评论

MobileLLM：Meta 开源适用于移动设备的语言模型，具备高质量的语言理解和生成能力

Oasis 500M：开源的实时生成交互式视频内容的 AI 模型

Oasis 500M 是由 Decart 和 Etched 共同开发的交互式世界模型，基于扩散变压器技术，能够根据用户输入实时生成游戏画面。

1年前
367
点赞
评论

Oasis 500M：开源的实时生成交互式视频内容的 AI 模型

探索 Meta AI 的多模态语言模型 Spirit LM：融合语音与文本的创新应用

Spirit LM 是 Meta AI 开发的多模态语言模型，无缝集成语音和文本数据，具备跨模态生成、语义表达和少量样本学习能力，应用于语音助手、ASR、TTS 等场景。

1年前
414
点赞
评论

探索 Meta AI 的多模态语言模型 Spirit LM：融合语音与文本的创新应用

Meissonic：消费级 GPU 也能轻松生成高质量图像！阿里联合多所高校推出高效文生图模型

Meissonic 是由阿里巴巴集团等多所高校合作推出的文本到图像合成模型，采用掩蔽生成变换器技术，能在消费级 GPU 上高效生成高分辨率图像，适用于艺术创作、媒体娱乐等多种场景。

1年前
255
点赞
评论

Meissonic：消费级 GPU 也能轻松生成高质量图像！阿里联合多所高校推出高效文生图模型

BlinkShot：开源的实时 AI 图像生成器，几毫秒内生成高质量图像

BlinkShot 是一款开源的实时 AI 图像生成器，基于 Flux Schnell 技术和 Together AI 平台，能在几毫秒内生成高质量图像，适用于艺术创作、游戏开发等多个领域。

1年前
230
1
1

BlinkShot：开源的实时 AI 图像生成器，几毫秒内生成高质量图像

MimicTalk：字节跳动和浙江大学联合推出 15 分钟生成 3D 说话人脸视频的生成模型

MimicTalk 是由字节跳动和浙江大学联合开发的一种基于 NeRF 技术的 3D 说话人脸视频生成模型。该模型能够在 15 分钟内生成个性化且富有表现力的 3D 说话人脸视频，显著提高了训练效率和

1年前
809
2
评论

MimicTalk：字节跳动和浙江大学联合推出 15 分钟生成 3D 说话人脸视频的生成模型

PDFtoChat：开源 AI 文档处理工具，实现与 PDF 文档自然语言秒级问答

PDFtoChat 是一款基于 AI 的 PDF 交互工具，支持自然语言对话，利用 Together AI 和 Pinecone 技术。

1年前
222
点赞
评论

PDFtoChat：开源 AI 文档处理工具，实现与 PDF 文档自然语言秒级问答

全球首款开源！多模态 MoE 模型 Aria：64K 超长上下文，图像视频文档全能处理，支持全参数微调！

Aria是由Rhymes AI推出的全球首个开源多模态原生混合专家模型，具备64K tokens长上下文窗口，擅长处理长视频和文档。支持LoRA和全参数微调，助力开发者快速应用。

1年前
669
点赞
评论

全球首款开源！多模态 MoE 模型 Aria：64K 超长上下文，图像视频文档全能处理，支持全参数微调！

PyVideoTrans：视频多语言自动翻译与配音，影视后期新利器

PyVideoTrans 是一款开源的视频翻译和配音工具，支持多语言，集成了语音识别、自动翻译和高质量语音合成技术，适用于影视后期、教育、企业宣传和自媒体内容创作等多种场景。

1年前
578
点赞
评论

PyVideoTrans：视频多语言自动翻译与配音，影视后期新利器

Napkins：开源 AI 开发工具，实现截图或线框图到网页应用的快速转换

Napkins 是一款基于 AI 的开源项目，能将截图或线框图快速转换成网页应用。依托 Meta 的 Llama 模型和 Together.ai，提供代码生成、编辑、多主题选择等功能。

1年前
401
点赞
评论

Napkins：开源 AI 开发工具，实现截图或线框图到网页应用的快速转换

OmniParser：微软推出的屏幕解析工具，轻松将屏幕截图转换为结构化数据

OmniParser 是微软研究院推出的屏幕解析工具，能将 UI 截图转换为结构化数据，提升基于大型语言模型的 UI 代理系统性能，广泛应用于自动化测试、虚拟助手等领域。

1年前
1.9k
10
评论

OmniParser：微软推出的屏幕解析工具，轻松将屏幕截图转换为结构化数据

LongVU：Meta AI 开源的创新交互式长视频理解模型

LongVU 是 Meta AI 推出的长视频理解模型，通过时空自适应压缩机制，有效处理长视频，保留关键视觉细节，适用于视频内容分析、搜索、生成等多种应用场景。

1年前
321
点赞
评论

LongVU：Meta AI 开源的创新交互式长视频理解模型

GitHub Spark：GitHub 推出零代码开发应用的 AI 编程产品

GitHub Spark 是一个基于 AI 的大模型编程产品，允许用户通过自然语言描述来创建和分享微应用程序，无需编写代码，即可在桌面和移动端使用。

1年前
649
1
评论

GitHub Spark：GitHub 推出零代码开发应用的 AI 编程产品

最佳实践！使用 GraphRAG + GLM-4 对《红楼梦》全文构建中文增强检索

`graphrag-practice-chinese`是一个 GraphRAG 的应用实例，项目特点在于提供了替换 OpenAI 模型的方法，并通过修改原有提示和切分文档的方法。

1年前
953
5
2

最佳实践！使用 GraphRAG + GLM-4 对《红楼梦》全文构建中文增强检索

FunASR：阿里巴巴开源的语音识别工具包，提供预训练模型与详细教程，一键部署多场景应用.

FunASR是由阿里巴巴开源的语音识别工具包，支持语音识别、语音活动检测、标点恢复等功能。提供预训练模型和易用接口，可快速部署。本文介绍其功能、技术原理及安装教程，附运行示例。

1年前
5.1k
4
评论

FunASR：阿里巴巴开源的语音识别工具包，提供预训练模型与详细教程，一键部署多场景应用.