3D 席卷CVPR 2025!华人最佳论文领衔,引爆多模态实时生成与产业落地狂潮

424 阅读8分钟

【导读】

2025年计算机视觉与模式识别领域的顶级盛会CVPR刚刚落下帷幕!这场汇聚全球顶尖AI大脑的盛会,再次用无数令人瞠目结舌的突破宣告:我们眼前的世界,正被算法以超乎想象的方式重新定义。>>更多资讯可加入CV技术群获取了解哦~

****

核心亮点速览

  • 技术热点:3D视觉(NeRF++、单图3D重建)、多模态生成(文本/视频合成)、具身智能(机器人空间推理)为三大主导方向,论文接收量占比超40%。
  • 华人学术统治力:最佳论文、最佳学生论文、4项荣誉提名及青年学者奖均由华人学者领衔;中国机构贡献39.2%的作者量,清华、腾讯等机构论文接收数全球领先。
  • 产业融合加速:腾讯开源3D生成模型Hunyuan 3D、美图精细化图像编辑技术、小鹏高保真世界模型等成果从实验室快速落地应用场景。

顶会盛况

今年CVPR投稿数量再创历史新高——13008篇有效投稿,经过严格评审,最终2878篇论文被接收,接收率约22.1%。在接收论文中,仅有96篇获得口头报告资格,占比不到0.7%。参会人数同样惊人:来自70多个国家和地区的9000多名学者涌入纳什维尔会场。

CVPR2025投稿数据


奖项全解析

CVPR2025获奖详细信息

三大技术风向标

官方数据揭示了今年三大技术风向标:

  • 3D视觉领域接收率最高,成为最大赢家
  • 图像与视频生成论文接收数量最多,持续火热
  • 论文标题高频词统计中,“多模态”位列第一,成为最热门关键词

在会议现场,产业界的存在感空前强烈。Meta、NVIDIA、谷歌、苹果等科技巨头展台林立,而腾讯的“长鹅”气球和字节跳动的展区前同样人潮涌动


技术方向分布

3D视觉大爆发

本届CVPR最大亮点当属3D视觉技术的突破性进展。获得最佳论文的VGGT(视觉几何基础Transformer)由牛津大学与Meta的华人博士生王建元领衔开发。

CVPR2025最佳论文

这项革命性工作解决了计算机视觉领域的长期挑战:仅需单次前馈计算,就能从单张或多张图像中直接推理出相机参数、点云图、深度图等完整3D属性,速度比传统方法快10倍以上,在多项任务中达到最先进水平。

3D学生飞溅与挖掘技术

另一项引人注目的3D创新是“3D学生飞溅与挖掘技术”(Student Splatting and Scooping),由全华人团队开发。该技术打破了传统3D高斯泼溅的限制,通过正负密度组合显著提升了参数效率——在将组件数量减少82%的情况下仍能保持质量。

世界模型走向实用

“世界模型”成为本届CVPR的热词之一。在自动驾驶专题研讨会上,Yann LeCun团队的“导航世界模型”(Navigation World Models)获得最佳论文提名。

CVPR2025荣誉题名论文(Navigation World Models)

该模型采用10亿参数的条件扩散Transformer架构,能够根据历史观测和导航动作预测未来视觉场景,为自动驾驶和机器人导航提供了新思路。

CVPR2025小鹏车企演讲

中国车企小鹏汽车作为唯一受邀汽车厂商,展示了从真实驾驶数据训练出的高保真世界模型,标志着这项技术正快速走向产业应用。

多模态生成进入实时时代

社交平台Soul App的研究团队提出了一种实时音频驱动人像动画框架 “Teller” ,实现了视频生成的效率突破。该技术将任务分解为面部运动生成和高效身体运动生成两大模块。

CVPR2025收录论文(Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation)

与扩散模型相比,Teller方案生成效率大幅提升,同时在细微动作、面部身体协调度方面表现优异,为实时数字人交互打开了新可能。

CVPR2025收录论文(FilmComposer: LLM-Driven Music Production for Silent Film Clips)

上海电影学院团队则开创性地将AIGC技术应用于电影配乐,其 FilmComposer框架 能根据电影片段自动生成专业级配乐,实现音画在语义、节奏和进展上的精确对齐。


中国力量:从实验室突围到全球竞技场

本届CVPR上,中国团队表现亮眼。西安交通大学曹相湧副教授团队不仅有三篇论文被接收,其中一篇入选接受率仅0.7%的口头报告,还一举夺得“第四届反无人机挑战赛”冠军和“图像超分挑战赛”冠军。

企业界同样战绩斐然:

  • 腾讯有40+篇论文被接收,覆盖多模态推理、3D生成等多个领域
  • 腾讯混元团队推出全面开源的3D生成大模型Hunyuan 3D,达到闭源模型水平
  • Soul App 的实时人像动画技术突破入选会议论文

CVPR2025腾讯展位

在赞助商阵营中,中国企业的存在同样引人注目。在28家美国机构主导的赞助名单中,腾讯、字节跳动等6家中国企业跻身白金赞助商行列,投入力度空前

人才方面,中国新生代研究者闪耀国际舞台:

  • 谢赛宁与苏昊荣获青年学者奖(谢赛宁参与ResNeXt和MAE,苏昊是李飞飞弟子)
  • 贾扬清 参与的GoogleNet论文获得时间检验奖
  • 最佳学生论文荣誉提名 中有多位华人学者

CVPR2025青年学者奖(谢赛宁与苏昊)


学术与产业

CVPR 2025最显著的趋势是学术界与产业界的深度交融。在论文海报展示区,研究者们一边讲解技术,一边不断被问及“这个能不能商用”、“模型开源了吗”等实际问题。产业界研究人员占比明显上升,技术讨论直接围绕“从论文到产品”的话题展开。

CVPR从一个学术交流、计算机科学家聚会的会议,开始转为了工业界与学术界互动、AI公司抢夺注意力和人才、更偏向实际应用及工程化的成果集中展示的AI行业大聚会。

腾讯等企业不仅在技术上展示实力,更通过“群星未来之夜”等活动大力招揽人才。


未来已来

获奖论文之外,CVPR 2025展示的技术趋势指向了清晰的未来:

3D生成平民化

腾讯开源的Hunyuan 3D 2.1版本实现了几何与纹理的双重优化,支持消费级显卡运行,使高质量3D内容创作不再依赖专业工作站。

影视制作革命

上海电影学院的FilmComposer框架能根据影片内容自动生成专业级配乐,大幅降低电影配乐制作成本,为影视创作提供了全新可能。

具身智能突破

机器人视觉研究取得重大进展,新框架让机器人真正理解物体堆叠、遮挡等复杂空间关系,在杂乱环境中的物品整理成功率提升300%。

伦理安全并进

新一代深度伪造检测技术利用生成模型本身的“指纹”特征及物理世界光影一致性约束,在对抗性攻击下保持高鲁棒性。模型可解释性成为高风险领域的硬性要求。

随着CVPR 2025落幕,3D技术浪潮已势不可挡。从手机摄像头化身3D扫描仪到影视游戏内容生产革命,从工业质检“零漏检”到自动驾驶环境理解跃升,这些实验室突破正涌向产业与生活的每个角落。CVPR 2025标志着3D视觉从优化依赖迈向端到端学习,多模态模型从封闭走向开源。华人学者在基础架构创新中的主导地位(如VGGT、SSS)与国内产学研协同能力(如腾讯、西安交大)成为技术突破的双引擎。然而,审稿争议与接收率下降亦警示学术界:在追求效率的同时需坚守严谨评审底线。

持续关注我们,获取更多CVPR最新开源数据集与视觉前沿动态!