每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

BizGen：长文秒变信息图！AI排版黑科技碾压PPT，十语种一键出图

清华大学与微软联合推出的BizGen AI工具，能自动将长篇文章转化为专业信息图和幻灯片，支持10种语言和多种风格，排版准确率远超同类产品。

1年前
236
点赞
评论

BizGen：长文秒变信息图！AI排版黑科技碾压PPT，十语种一键出图

TxGemma：谷歌DeepMind革命药物研发！270亿参数AI药理学家24小时在线

谷歌推出专为药物研发设计的TxGemma大模型，具备药物特性预测、生物文献筛选、多步推理等核心能力，提供20亿至270亿参数版本，显著提升治疗开发效率。

1年前
155
点赞
评论

TxGemma：谷歌DeepMind革命药物研发！270亿参数AI药理学家24小时在线

DistilQwen2.5-R1：蒸馏黑科技！32B推理能力塞进3B小模型，推理速度狂飙300%

阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术，在保持高性能的同时大幅降低计算资源需求，7B模型性能甚至可媲美32B大模型。

1年前
125
点赞
评论

DistilQwen2.5-R1：蒸馏黑科技！32B推理能力塞进3B小模型，推理速度狂飙300%

TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术，能够从单张图像生成细节丰富的 3D 网格模型，在工业设计、游戏开发等领域具有广泛应用前景。

1年前
209
点赞
评论

TripoSG：3D生成新纪元！修正流模型秒出高保真网格，碾压传统建模

TripoSR：开源3D生成闪电战！单图0.5秒建模，Stability AI颠覆设计流程

TripoSR是由Stability AI和VAST联合推出的开源3D生成模型，能在0.5秒内从单张2D图像快速生成高质量3D模型，支持游戏开发、影视制作等多领域应用。

1年前
242
点赞
评论

TripoSR：开源3D生成闪电战！单图0.5秒建模，Stability AI颠覆设计流程

TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

TripoSF 是 VAST AI 推出的新一代 3D 基础模型，采用创新的 SparseFlex 表示方法，支持 1024³ 高分辨率建模，内存占用降低 82%，在细节捕捉和复杂结构处理上表现优异。

1年前
333
点赞
评论

TripoSF：3D建模内存暴降80%！VAST AI新一代模型细节狂飙82%

QVQ-Max：阿里通义新一代视觉推理模型！再造多模态「全能眼」秒解图文难题

QVQ-Max是阿里通义推出的新一代视觉推理模型，不仅能解析图像视频内容，还能进行深度推理和创意生成，在数学解题、数据分析、穿搭建议等场景展现强大能力。

1年前
246
点赞
评论

QVQ-Max：阿里通义新一代视觉推理模型！再造多模态「全能眼」秒解图文难题

Video-T1：视频生成实时手术刀！清华腾讯「帧树算法」终结闪烁抖动

清华大学与腾讯联合推出的Video-T1技术，通过测试时扩展（TTS）和Tree-of-Frames方法，显著提升视频生成的连贯性与文本匹配度，为影视制作、游戏开发等领域带来突破性解决方案。

1年前
197
点赞
评论

Video-T1：视频生成实时手术刀！清华腾讯「帧树算法」终结闪烁抖动

阿里开源多模态全能王 Qwen2.5-Omni：创新Thinker-Talker架构，全面超越Gemini-1.5-Pro等竞品

阿里开源Qwen2.5-Omni多模态大模型，支持文本、图像、音频和视频输入，具备实时语音合成与流式响应能力，在OmniBench等基准测试中全面超越Gemini-1.5-Pro等竞品。

1年前
629
点赞
评论

阿里开源多模态全能王 Qwen2.5-Omni：创新Thinker-Talker架构，全面超越Gemini-1.5-Pro等竞品

Cosmos-Reason1：物理常识觉醒！NVIDIA 56B模型让AI懂重力+时空法则

Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列，具备物理常识理解和具身推理能力，支持视频输入和长链思考，可应用于机器人、自动驾驶等场景。

1年前
217
点赞
评论

Cosmos-Reason1：物理常识觉醒！NVIDIA 56B模型让AI懂重力+时空法则

谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

牛津大学与谷歌联合推出的Bolt3D技术，能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景，基于高斯溅射和几何多视角扩散模型，为游戏、VR/AR等领域带来革命性突破。

1年前
147
点赞
评论

谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

Oliva是一款基于Langchain和Superlinked的开源语音RAG助手，通过实时语音交互在Qdrant向量数据库中进行语义搜索，支持多智能体协作处理复杂查询任务。

1年前
144
点赞
评论

Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型，结合Transformer架构与DINOv2主干网络，支持多分辨率灵活切换，为安防、自动驾驶等场景提供高精度实时检测方案。

1年前
524
点赞
评论

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

Fin-R1：上海财大开源金融推理大模型！7B参数竟懂华尔街潜规则，评测仅差满血版DeepSeek3分

Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型，基于7B参数的Qwen2.5架构，在金融推理任务中表现出色，支持中英双语，可应用于风控、投资、量化交易等多个金融场景。

1年前
283
1
评论

Fin-R1：上海财大开源金融推理大模型！7B参数竟懂华尔街潜规则，评测仅差满血版DeepSeek3分

Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型，支持10种语言歌词生成和纯音乐创作，通过自研ICL技术实现声场优化，覆盖爵士/电子/流行等多元风格，为音乐爱好者和专业创作者提供高效工具。

1年前
171
点赞
评论

Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

Mureka O1：全球首款「思维链」音乐大模型！昆仑万维让AI作曲自我进化

昆仑万维推出的全球首款音乐推理大模型Mureka O1，引入思维链技术实现多轮自我优化，支持10种语言AI音乐创作，具备音色克隆、风格控制等特色功能，为开发者提供API和微调服务。

1年前
206
点赞
评论

Mureka O1：全球首款「思维链」音乐大模型！昆仑万维让AI作曲自我进化

TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

阿里巴巴最新推出的TaoAvatar技术，通过3D高斯溅射实现照片级虚拟人实时渲染，支持多信号驱动与90FPS流畅运行，将彻底改变电商直播与远程会议体验。

1年前
371
1
评论

TaoAvatar：手机拍出电影级虚拟人！阿里3D高斯黑科技让动捕设备下岗

pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具，能精准提取正文内容并转换为Markdown/EPUB格式，通过AI算法解决跨页连贯性问题，是学术研究和电子书制作的利器。

1年前
693
2
评论

pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

Gemini 2.5 Pro：谷歌「思维可视化」核弹！100万token生吞3本《战争与和平》

谷歌Gemini 2.5 Pro突破性支持100万token上下文窗口，在推理、代码生成和多模态处理方面全面超越GPT-4.5，即将扩展至200万token处理能力。

1年前
231
点赞
评论

Gemini 2.5 Pro：谷歌「思维可视化」核弹！100万token生吞3本《战争与和平》

Qwen2.5-VL-32B：阿里开源多模态核弹！32B模型吊打自家72B，数学推理封神

阿里巴巴最新开源的Qwen2.5-VL-32B多模态模型，在数学推理、视觉问答等任务中超越前代72B版本，支持图像细粒度理解和复杂逻辑分析，已在HuggingFace开源。

1年前
300
点赞
评论

Qwen2.5-VL-32B：阿里开源多模态核弹！32B模型吊打自家72B，数学推理封神