每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

Micro LLAMA：教学版 LLAMA 3模型实现，用于学习大模型的核心原理

Micro LLAMA是一个精简的教学版LLAMA 3模型实现，旨在帮助学习者理解大型语言模型的核心原理。该项目仅约180行代码，便于理解和学习。Micro LLAMA基于LLAMA 3中最小的8B参

1年前
70
点赞
评论

Micro LLAMA：教学版 LLAMA 3模型实现，用于学习大模型的核心原理

Perplexideez：开源本地 AI 搜索助手，智能搜索信息来源追溯

Perplexideez 是一款开源的本地 AI 搜索助手，旨在通过智能搜索和信息来源追溯功能，提升用户的搜索体验。它支持多用户、单点登录（SSO），并提供美观的搜索结果展示。Perplexideez

1年前
399
点赞
评论

Perplexideez：开源本地 AI 搜索助手，智能搜索信息来源追溯

GenCast：谷歌DeepMind推出的AI气象预测模型

GenCast是由谷歌DeepMind推出的革命性AI气象预测模型，基于扩散模型技术，提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS，尤其在极端天气

1年前
143
点赞
评论

GenCast：谷歌DeepMind推出的AI气象预测模型

MagicDriveDiT：华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构，通过流匹配增强模型的可扩展性，并采用渐进式训练策略处理复杂场景。MagicDriv

1年前
200
点赞
评论

MagicDriveDiT：华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

Codel：AI代理工具，支持在终端、浏览器、编辑器执行复杂任务和项目

Codel是一款全自主AI代理工具，支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中，具备自主操作能力，内置浏览器和文本编辑器，所有操作记录存储于PostgreSQL

1年前
99
点赞
评论

Codel：AI代理工具，支持在终端、浏览器、编辑器执行复杂任务和项目

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

腾讯推出的开源视频生成模型HunyuanVideo，拥有130亿参数，是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性，能生成带有背景音乐的视频，

1年前
236
点赞
评论

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

GPT学术优化：专为学术研究和写作设计的多功能开源项目

GPT学术优化是一个专为学术研究和写作设计的多功能开源项目，集成了论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能。本文将详细介绍GPT学术优化的主要功能、技

1年前
123
点赞
评论

GPT学术优化：专为学术研究和写作设计的多功能开源项目

PersonaCraft：首尔国立大学推出的单参考图像生成多身份全身图像技术

PersonaCraft是由首尔国立大学推出的创新技术，能够从单一参考图像生成多个人物的逼真全身图像。该技术结合了扩散模型和3D人类建模，有效处理人物间的遮挡问题，并支持用户自定义身体形状调整，为多人

1年前
233
点赞
评论

PersonaCraft：首尔国立大学推出的单参考图像生成多身份全身图像技术

Lobe Vidol：AI数字人交互平台，可与虚拟人和3D模型聊天互动

Lobe Vidol是一款开源的AI数字人交互平台，允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持，如文本到语音和语音到文本技术。L

1年前
154
点赞
评论

Lobe Vidol：AI数字人交互平台，可与虚拟人和3D模型聊天互动

EfficientTAM：Meta AI推出的视频对象分割和跟踪模型

EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型，旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer（ViT）

1年前
135
点赞
评论

EfficientTAM：Meta AI推出的视频对象分割和跟踪模型

Vanna：开源 AI 检索生成框架，自动生成精确的 SQL 查询

Vanna 是一个开源的 Python RAG（Retrieval-Augmented Generation）框架，能够基于大型语言模型（LLMs）为数据库生成精确的 SQL 查询。Vanna 支持多

1年前
1.2k
点赞
评论

Vanna：开源 AI 检索生成框架，自动生成精确的 SQL 查询

StableAnimator：复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态，直接合成高保真度且保持人物身份一致性的

1年前
325
点赞
评论

StableAnimator：复旦联合微软等机构推出的端到端身份一致性视频扩散框架

GeneMAN：上海AI Lab联合北大等高校推出的3D人体模型创建框架

GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型，适用于多种应用场景，如虚拟试衣、游戏和娱乐、增强

1年前
142
点赞
评论

GeneMAN：上海AI Lab联合北大等高校推出的3D人体模型创建框架

AnchorCrafter：中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型，能够自动生成高保真度的主播风格产品推广视频，整合人-物交互（HOI）技术。

1年前
276
点赞
评论

AnchorCrafter：中科院联合腾讯推出的AI虚拟主播带货视频制作技术

MVGenMaster：复旦联合阿里等实验室推出的多视图扩散模型

MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型，专注于新视角合成（NVS）任务。该模型通过整合3D先验信息，显著提升了NVS的泛化和3D一致性。

1年前
117
点赞
评论

MVGenMaster：复旦联合阿里等实验室推出的多视图扩散模型

Co-op Translator：微软推出面向开发者的开源多语言翻译工具

微软推出的开源多语言翻译工具Co-op Translator，基于Azure AI服务，能够自动化处理项目文档和图像中的文本翻译，简化技术文档的本地化流程，促进全球开发者协作。

1年前
112
点赞
评论

Co-op Translator：微软推出面向开发者的开源多语言翻译工具

360Zhinao2-7B：360推出自研360智脑大模型的升级版

360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版，涵盖基础模型及多种上下文长度的聊天模型。该模型在语言理解与生成、聊天能力、数学逻辑推理等方面表现出色，支持多语言和多上下文。

1年前
180
点赞
评论

360Zhinao2-7B：360推出自研360智脑大模型的升级版

Magic Copy：开源的 AI 抠图工具，在浏览器中自动识别图像进行抠图

Magic Copy 是一款开源的 AI 抠图工具，支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术，能够自动识别图像中的前景对象并提取出来。

1年前
290
点赞
评论

Magic Copy：开源的 AI 抠图工具，在浏览器中自动识别图像进行抠图

FlagEvalMM：智源开源的多模态模型评测框架

FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架，旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标，采用评测与模型推理解耦的设计。

1年前
345
点赞
评论

FlagEvalMM：智源开源的多模态模型评测框架

Delta-CoMe：清华联合OpenBMB等高校开源的新型增量压缩算法

Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术，显著减少了大型语言模型的存储和内存需求，同

1年前
135
点赞
评论

Delta-CoMe：清华联合OpenBMB等高校开源的新型增量压缩算法