每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

POINTS 1.5是腾讯微信推出的多模态大模型，基于LLaVA架构，具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色，是全球10B以下开源模型中的佼佼者。

1年前
237
点赞
评论

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

Meta Motivo：Meta 推出能够控制数字智能体动作的 AI 模型，提升元宇宙互动体验的真实性

Meta Motivo 是 Meta 公司推出的 AI 模型，旨在控制数字智能体的全身动作，提升元宇宙体验的真实性。该模型通过无监督强化学习算法，能够实现零样本学习、行为模仿与生成、多任务泛化等功能，

1年前
130
点赞
评论

Meta Motivo：Meta 推出能够控制数字智能体动作的 AI 模型，提升元宇宙互动体验的真实性

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术，通过将模型的权重和激活值量化至4位，显著减少了内存占用并加速了推理过程。

1年前
488
点赞
评论

SVDQuant：MIT 推出的扩散模型后训练的量化技术，能够将模型的权重和激活值量化至4位，减少内存占用并加速推理过程

Insight-V：腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型，旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程。

1年前
107
点赞
评论

Insight-V：腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

Maya 是一个开源的多语言多模态模型，能够处理和理解八种不同语言，包括中文、法语、西班牙语、俄语、印地语、日语、阿拉伯语和英语。该模型基于LLaVA框架，通过指令微调和多语言数据集的预训练。

1年前
397
点赞
评论

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架，能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型（MLLM），支持多角色

1年前
511
点赞
评论

DiffSensei：AI 漫画生成框架，能生成内容可控的黑白漫画面板，支持多角色和布局控制

ChatMCP：基于 MCP 协议开发的 AI 聊天客户端，支持多语言和自动化安装 MCP 服务器

ChatMCP 是一款基于模型上下文协议（MCP）的 AI 聊天客户端，支持多语言和自动化安装。它能够与多种大型语言模型（LLM）如 OpenAI、Claude 和 OLLama 等进行交互。

1年前
1.5k
6
1

ChatMCP：基于 MCP 协议开发的 AI 聊天客户端，支持多语言和自动化安装 MCP 服务器

Promptic：轻量级 LLM 应用开发框架，提供完善的底层功能，使开发者更专注于构建上层功能

Promptic 是一个轻量级的 LLM 应用开发框架，支持通过一行代码切换不同的 LLM 服务提供商。它提供了类型安全的输出、流式支持、内置对话记忆、错误处理和重试等功能，帮助开发者专注于构建功能，

1年前
264
点赞
评论

Promptic：轻量级 LLM 应用开发框架，提供完善的底层功能，使开发者更专注于构建上层功能

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

CodeArena 是一个在线平台，用于测试和比较不同大型语言模型（LLM）的编程能力。通过实时显示多个 LLM 的代码生成过程和结果，帮助开发者选择适合的 LLM，并推动 LLM 技术的发展。

1年前
222
点赞
评论

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

SynCamMaster：快手联合浙大、清华等大学推出的多视角视频生成模型

SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型，能够结合6自由度相机姿势，从任意视点生成开放世界视频。

1年前
197
点赞
评论

SynCamMaster：快手联合浙大、清华等大学推出的多视角视频生成模型

Ultravox：端到端多模态大模型，能直接理解文本和语音内容，无需依赖语音识别

Ultravox是一款端到端的多模态大模型，能够直接理解文本和人类语音，无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示，显著提高了处理速度和响应时间。

1年前
336
点赞
评论

Ultravox：端到端多模态大模型，能直接理解文本和语音内容，无需依赖语音识别

TEN Agent：开源的实时多模态 AI 代理框架，支持语音、文本和图像的实时通信交互

TEN Agent 是一个开源的实时多模态 AI 代理框架，集成了 OpenAI Realtime API 和 RTC 技术，支持语音、文本和图像的多模态交互，具备实时通信、模块化设计和多语言支持等

1年前
665
点赞
评论

TEN Agent：开源的实时多模态 AI 代理框架，支持语音、文本和图像的实时通信交互

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准（MMMU）上表现优异，超越了许多商业模型。

1年前
424
点赞
评论

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

ChatTTSPlus 是一个开源的文本转语音工具，是 ChatTTS 的扩展版本，支持语音克隆、TensorRT 加速和移动模型部署等功能，极大地提升了语音合成的性能和灵活性。

1年前
367
点赞
评论

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

FineWeb 2：开源的多语言预训练数据集，覆盖超过 1000 种语言

FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集，覆盖超过 1000 种语言，支持多种 NLP 任务，如机器翻译和文本分类。该数据集通过定制化的数据处理流程，包括语言识别、

1年前
220
点赞
评论

FineWeb 2：开源的多语言预训练数据集，覆盖超过 1000 种语言

MMAudio：开源 AI 音频合成项目，根据视频或文本生成同步的音频

MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目，能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景，提升用户体验。

1年前
456
点赞
评论

MMAudio：开源 AI 音频合成项目，根据视频或文本生成同步的音频

EXAONE 3.5：LG 推出的开源 AI 模型，采用 RAG 和多步推理能力降低模型的幻觉问题

EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型，擅长长文本处理，能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本，支持多步推理和检索增强生成技术

1年前
196
点赞
评论

EXAONE 3.5：LG 推出的开源 AI 模型，采用 RAG 和多步推理能力降低模型的幻觉问题

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

DeepSeek-V2.5-1210 是 DeepSeek V2.5 系列的最终版微调模型，支持联网搜索功能，具备在数学、编程、写作和角色扮演等领域的能力提升。

1年前
394
点赞
评论

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集，包含18,000个视频片段，涵盖驾驶操作、多智能体交互及开放世界驾驶知识。

1年前
275
点赞
评论

DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

SPDL：Meta AI 推出的开源高性能AI模型数据加载解决方案，兼容主流 AI 框架 PyTorch

SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案，基于多线程技术和异步事件循环，提供高吞吐量、低资源占用的数据加载功能，支持分布式系统和主流AI框架PyTorch。

1年前
167
点赞
评论

SPDL：Meta AI 推出的开源高性能AI模型数据加载解决方案，兼容主流 AI 框架 PyTorch