每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型，支持文生视频、图生视频，最高支持4K分辨率，广泛应用于内容创作、教育、广告等领域。

1年前
609
点赞
评论

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，具备强大的图像识别、OCR文字识别和数据提取能力，支持API调用，适用于多种应用场景。

1年前
709
1
评论

moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

PSHuman 是一种先进的单图像3D人像重建技术，仅需一张照片即可生成高度逼真的3D模型，支持面部细节、全身姿态和纹理恢复，适用于影视、游戏、虚拟现实等多个领域。

1年前
498
点赞
评论

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

GLM-Realtime：智谱推出多模态交互AI模型，融入清唱功能，支持视频和语音交互

GLM-Realtime 是智谱推出的端到端多模态模型，具备低延迟的视频理解与语音交互能力，支持清唱功能、2分钟内容记忆及灵活调用外部工具，适用于多种智能场景。

1年前
362
点赞
评论

GLM-Realtime：智谱推出多模态交互AI模型，融入清唱功能，支持视频和语音交互

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

1年前
624
点赞
评论

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Sky-T1：开源版"OpenAI o1-preview"，训练成本竟不到450美元

Sky-T1是NovaSky发布的开源推理AI模型，支持低成本训练，性能优异，适用于数学问题解决、编程评估和科学研究。

1年前
232
点赞
评论

Sky-T1：开源版"OpenAI o1-preview"，训练成本竟不到450美元

Uni-AdaFocus：清华大学开源高效视频理解框架，根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架，通过自适应聚焦机制动态调整计算资源分配，显著提升视频处理效率。

1年前
147
点赞
评论

Uni-AdaFocus：清华大学开源高效视频理解框架，根据视频内容动态分配计算资源

SmartEraser：中科大推出图像对象移除技术，轻松移除照片中的不想要元素，保留完美瞬间

SmartEraser 是由中科大与微软亚洲研究院联合开发的图像编辑技术，能够精准移除图像中的指定对象，同时保留周围环境的细节和结构，适用于复杂场景的图像处理。

1年前
155
点赞
评论

SmartEraser：中科大推出图像对象移除技术，轻松移除照片中的不想要元素，保留完美瞬间

SHMT：体验 AI 虚拟化妆！阿里巴巴达摩院推出自监督化妆转移技术

SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术，支持高效妆容迁移与动态对齐，适用于图像处理、虚拟试妆等多个领域。

1年前
281
1
评论

SHMT：体验 AI 虚拟化妆！阿里巴巴达摩院推出自监督化妆转移技术

ParGo：字节与中山大学联合推出的多模态大模型连接器，高效对齐视觉与语言模态

ParGo 是字节与中山大学联合推出的多模态大模型连接器，通过全局与局部视角联合，提升视觉与语言模态的对齐效果，支持高效连接、细节感知与自监督学习。

1年前
222
点赞
评论

ParGo：字节与中山大学联合推出的多模态大模型连接器，高效对齐视觉与语言模态

Mini-InternVL：轻量级多模态大模型，4B 参数量媲美 InternVL2-76B

Mini-InternVL 是上海AI Lab联合清华等机构推出的轻量级多模态大模型，支持高效推理、跨领域适应和动态分辨率输入，适用于多种场景。

1年前
348
点赞
评论

Mini-InternVL：轻量级多模态大模型，4B 参数量媲美 InternVL2-76B

AutoMouser：AI Chrome扩展程序，实时跟踪用户的浏览器操作，自动生成自动化操作脚本

AutoMouser是一款Chrome扩展程序，能够实时跟踪用户交互行为，并基于OpenAI的GPT模型自动生成Selenium测试代码，简化自动化测试流程。

1年前
503
1
评论

AutoMouser：AI Chrome扩展程序，实时跟踪用户的浏览器操作，自动生成自动化操作脚本

OmAgent：轻松构建在终端设备上运行的 AI 应用，赋能手机、穿戴设备、摄像头等多种设备

OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架，支持多设备连接、高效模型集成，助力开发者快速构建复杂的多模态代理应用。

1年前
286
2
评论

OmAgent：轻松构建在终端设备上运行的 AI 应用，赋能手机、穿戴设备、摄像头等多种设备

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人，支持实时语音交互和多语言对话，适用于个人助理、娱乐互动和教育辅导等多种场

1年前
310
点赞
评论

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

RealtimeSTT 是一款开源的实时语音转文本库，支持低延迟应用，具备语音活动检测、唤醒词激活等功能，适用于语音助手、实时字幕等场景。

1年前
588
点赞
评论

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

24.7K Star！用 KHOJ 打造你的AI第二大脑，自动整合和更新多源知识，轻松构建个人知识库

KHOJ 是一款开源的个人化 AI 助手，支持多源知识整合、语义搜索、个性化图像生成等功能，帮助用户高效管理知识库。

1年前
385
点赞
评论

24.7K Star！用 KHOJ 打造你的AI第二大脑，自动整合和更新多源知识，轻松构建个人知识库

Pipecat实战：5步快速构建语音与AI整合项目，创建你的第一个多模态语音 AI 助手

Pipecat 是一个开源的 Python 框架，专注于构建语音和多模态对话代理，支持与多种 AI 服务集成，提供实时处理能力，适用于语音助手、企业服务等场景。

1年前
746
1
评论

Pipecat实战：5步快速构建语音与AI整合项目，创建你的第一个多模态语音 AI 助手

每个人都可以成为虚拟主播，一键创建属于你的虚拟形象，RAIN 为你实时生成逼真动画角色

RAIN 是一款创新的实时动画生成工具，支持在消费级硬件上实现无限视频流的实时动画化，适用于直播、虚拟角色生成等场景。

1年前
264
点赞
评论

每个人都可以成为虚拟主播，一键创建属于你的虚拟形象，RAIN 为你实时生成逼真动画角色

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

MiniCPM-o 2.6 是面壁智能开源的多模态大模型，支持视觉、语音和多模态直播，性能媲美GPT-4o，能够在端侧设备上高效运行。

1年前
482
点赞
评论

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

LlamaV-o1：全能多模态视觉推理模型，推理得分超越其他开源模型，推理速度翻5倍

LlamaV-o1 是一款多模态视觉推理模型，通过逐步推理学习方法解决复杂任务，支持透明推理过程，适用于医疗、金融等领域。

1年前
93
点赞
评论

LlamaV-o1：全能多模态视觉推理模型，推理得分超越其他开源模型，推理速度翻5倍