每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

StarVector：图像秒变矢量代码！开源多模态模型让SVG生成告别手绘

StarVector是由ServiceNow Research等机构联合开发的开源多模态视觉语言模型，能够将图像和文本转换为可编辑的SVG矢量图形，支持1B和8B两种规模，在SVG生成任务中表现出色。

1年前
423
2
评论

StarVector：图像秒变矢量代码！开源多模态模型让SVG生成告别手绘

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型，能够从单张图像快速重建高质量可动画化的3D人体模型，支持实时渲染和姿态控制，适用于AR/VR、游戏开发等多种场景。

1年前
299
点赞
评论

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

ReasonGraph：别让AI成黑箱！这个开源工具把大模型的脑回路画给你看

ReasonGraph是一款开源的可视化分析工具，能将大语言模型的复杂推理过程转化为直观图表，支持50+主流模型和多种推理方法，帮助开发者快速理解AI思考逻辑并优化模型表现。

1年前
352
1
评论

ReasonGraph：别让AI成黑箱！这个开源工具把大模型的脑回路画给你看

Reve Image：设计师失业警告！AI秒出海报级神图，排版自动搞定

Reve Image 是 Reve 推出的全新 AI 图像生成模型，专注于提升美学表现、精确的提示遵循能力以及出色的排版设计，能生成高质量的视觉作品。

1年前
387
点赞
评论

Reve Image：设计师失业警告！AI秒出海报级神图，排版自动搞定

InfiniteYou：写真AI革命！字节核弹级AI秒出定制人像，身份保持度拉满

InfiniteYou 是字节跳动推出的基于扩散变换器的身份保持图像生成框架，通过 InfuseNet 注入身份特征，结合多阶段训练策略，生成高质量、高相似度的图像，兼容多种现有工具，适用于多种应用场

1年前
322
点赞
评论

InfiniteYou：写真AI革命！字节核弹级AI秒出定制人像，身份保持度拉满

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架，基于强化学习和自回归变换器，能够生成高质量的 3D 网格，适用于虚拟环境构建、动态内容生成、角色动画等多种场景。

1年前
637
点赞
评论

DeepMesh：3D建模革命！清华团队让AI自动优化拓扑，1秒生成工业级网格

Soundwave：语音对齐黑科技！开源模型秒解翻译问答，听懂情绪波动

Soundwave 是香港中文大学（深圳）开源的语音理解大模型，专注于语音与文本的智能对齐和理解，支持语音翻译、语音问答、情绪识别等功能，广泛应用于智能语音助手、语言学习等领域。

1年前
280
点赞
评论

Soundwave：语音对齐黑科技！开源模型秒解翻译问答，听懂情绪波动

Motia：程序员福音！AI智能体三语言混编，零基础秒级部署

Motia 是一款专为软件工程师设计的 AI Agent 开发框架，支持多种编程语言，提供零基础设施部署、模块化设计和内置可观测性功能，帮助开发者快速构建和部署智能体。

1年前
629
点赞
评论

Motia：程序员福音！AI智能体三语言混编，零基础秒级部署

RuoYi AI：1人搞定AI中台！开源全栈式AI开发平台，快速集成大模型+RAG+支付等模块

RuoYi AI 是一个全栈式 AI 开发平台，支持本地 RAG 方案，集成多种大语言模型和多媒体功能，适合企业和个人开发者快速搭建个性化 AI 应用。

1年前
378
点赞
评论

RuoYi AI：1人搞定AI中台！开源全栈式AI开发平台，快速集成大模型+RAG+支付等模块

MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

MoshiVis 是 Kyutai 推出的开源多模态语音模型，结合视觉与语音输入，支持实时交互，适用于无障碍应用、智能家居控制等多个场景。

1年前
258
点赞
评论

MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法，通过识别重用相邻时间步中的结构相似特征，减少冗余计算，最高可加速50%，同时保持生成质量。

1年前
249
点赞
评论

BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

GPT-4o mini TTS：OpenAI 推出轻量级文本转语音模型！情感操控+白菜价冲击配音圈

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型，支持多语言、多情感控制，适用于智能客服、教育学习、智能助手等多种场景。

1年前
217
点赞
评论

GPT-4o mini TTS：OpenAI 推出轻量级文本转语音模型！情感操控+白菜价冲击配音圈

Agent TARS：一键让AI托管电脑！字节开源PC端多模态AI助手，无缝集成浏览器与系统操作

Agent TARS 是一款开源的多模态AI助手，能够通过视觉解析网页并无缝集成命令行和文件系统，帮助用户高效完成复杂任务。

1年前
525
1
评论

Agent TARS：一键让AI托管电脑！字节开源PC端多模态AI助手，无缝集成浏览器与系统操作

Dify-Plus：企业级AI管理核弹！开源方案吊打SaaS，额度+密钥+鉴权系统全面集成

Dify-Plus 是基于 Dify 二次开发的企业级增强版项目，新增用户额度、密钥管理、Web 登录鉴权等功能，优化权限管理，适合企业场景使用。

1年前
1.4k
8
评论

Dify-Plus：企业级AI管理核弹！开源方案吊打SaaS，额度+密钥+鉴权系统全面集成

GPT-4o-Transcribe：OpenAI 推出高性能语音转文本模型！错误率暴降90%+方言通杀，Whisper当场退役

GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型，支持多语言和方言，适用于复杂场景如呼叫中心和会议记录，定价为每分钟 0.006 美元。

1年前
228
点赞
评论

GPT-4o-Transcribe：OpenAI 推出高性能语音转文本模型！错误率暴降90%+方言通杀，Whisper当场退役

Crack Coder：在线面试“AI外挂”！编程问题秒出答案，完全绕过屏幕监控，连录屏都抓不到痕迹！

Crack Coder 是一款开源的隐形 AI 辅助工具，专为技术面试设计，支持多种编程语言，提供实时编程问题解决方案，帮助面试者高效解决问题。

1年前
339
2
评论

Crack Coder：在线面试“AI外挂”！编程问题秒出答案，完全绕过屏幕监控，连录屏都抓不到痕迹！

Maestro：7.4K Star！告别千行测试代码，20行配置搞定跨平台全流程自动化测试

Maestro 是一款开源的端到端自动化测试框架，专为移动和 Web 应用设计，支持跨平台测试，内置容错机制和自动等待功能，帮助开发者高效进行 UI 测试。

1年前
894
点赞
评论

Maestro：7.4K Star！告别千行测试代码，20行配置搞定跨平台全流程自动化测试

Step-Video-TI2V：开源视频生成核弹！300亿参数+102帧电影运镜

Step-Video-TI2V 是阶跃星辰推出的开源图生视频模型，支持根据文本和图像生成高质量视频，具备动态性调节和多种镜头运动控制功能，适用于动画制作、短视频创作等场景。

1年前
231
点赞
评论

Step-Video-TI2V：开源视频生成核弹！300亿参数+102帧电影运镜

YT Navigator：AI秒搜YouTube！自然语言直达视频关键帧

YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具，通过自然语言查询快速定位视频中的关键信息，支持与视频内容对话，适用于研究人员、学生和内容创作者。

1年前
216
点赞
评论

YT Navigator：AI秒搜YouTube！自然语言直达视频关键帧

Umi-OCR：31K Star！离线OCR终结者！公式+二维码+多语种，开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具，支持截图、批量图片、PDF 扫描件的文字识别，内置多语言识别库，提供命令行和 HTTP 接口调用功能。

1年前
440
1
评论

Umi-OCR：31K Star！离线OCR终结者！公式+二维码+多语种，开源免费吊打付费