【导读】
2025年计算机视觉与模式识别领域的顶级盛会CVPR刚刚落下帷幕!这场汇聚全球顶尖AI大脑的盛会,再次用无数令人瞠目结舌的突破宣告:我们眼前的世界,正被算法以超乎想象的方式重新定义。>>更多资讯可加入CV技术群获取了解哦~
****
核心亮点速览
- 技术热点:3D视觉(NeRF++、单图3D重建)、多模态生成(文本/视频合成)、具身智能(机器人空间推理)为三大主导方向,论文接收量占比超40%。
- 华人学术统治力:最佳论文、最佳学生论文、4项荣誉提名及青年学者奖均由华人学者领衔;中国机构贡献39.2%的作者量,清华、腾讯等机构论文接收数全球领先。
- 产业融合加速:腾讯开源3D生成模型Hunyuan 3D、美图精细化图像编辑技术、小鹏高保真世界模型等成果从实验室快速落地应用场景。
顶会盛况
今年CVPR投稿数量再创历史新高——13008篇有效投稿,经过严格评审,最终2878篇论文被接收,接收率约22.1%。在接收论文中,仅有96篇获得口头报告资格,占比不到0.7%。参会人数同样惊人:来自70多个国家和地区的9000多名学者涌入纳什维尔会场。
CVPR2025投稿数据
奖项全解析
CVPR2025获奖详细信息
三大技术风向标
官方数据揭示了今年三大技术风向标:
- 3D视觉领域接收率最高,成为最大赢家
- 图像与视频生成论文接收数量最多,持续火热
- 论文标题高频词统计中,“多模态”位列第一,成为最热门关键词
在会议现场,产业界的存在感空前强烈。Meta、NVIDIA、谷歌、苹果等科技巨头展台林立,而腾讯的“长鹅”气球和字节跳动的展区前同样人潮涌动
技术方向分布
3D视觉大爆发
本届CVPR最大亮点当属3D视觉技术的突破性进展。获得最佳论文的VGGT(视觉几何基础Transformer)由牛津大学与Meta的华人博士生王建元领衔开发。
CVPR2025最佳论文
这项革命性工作解决了计算机视觉领域的长期挑战:仅需单次前馈计算,就能从单张或多张图像中直接推理出相机参数、点云图、深度图等完整3D属性,速度比传统方法快10倍以上,在多项任务中达到最先进水平。
3D学生飞溅与挖掘技术
另一项引人注目的3D创新是“3D学生飞溅与挖掘技术”(Student Splatting and Scooping),由全华人团队开发。该技术打破了传统3D高斯泼溅的限制,通过正负密度组合显著提升了参数效率——在将组件数量减少82%的情况下仍能保持质量。
世界模型走向实用
“世界模型”成为本届CVPR的热词之一。在自动驾驶专题研讨会上,Yann LeCun团队的“导航世界模型”(Navigation World Models)获得最佳论文提名。
CVPR2025荣誉题名论文(Navigation World Models)
该模型采用10亿参数的条件扩散Transformer架构,能够根据历史观测和导航动作预测未来视觉场景,为自动驾驶和机器人导航提供了新思路。
CVPR2025小鹏车企演讲
中国车企小鹏汽车作为唯一受邀汽车厂商,展示了从真实驾驶数据训练出的高保真世界模型,标志着这项技术正快速走向产业应用。
多模态生成进入实时时代
社交平台Soul App的研究团队提出了一种实时音频驱动人像动画框架 “Teller” ,实现了视频生成的效率突破。该技术将任务分解为面部运动生成和高效身体运动生成两大模块。
CVPR2025收录论文(Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation)
与扩散模型相比,Teller方案生成效率大幅提升,同时在细微动作、面部身体协调度方面表现优异,为实时数字人交互打开了新可能。
CVPR2025收录论文(FilmComposer: LLM-Driven Music Production for Silent Film Clips)
上海电影学院团队则开创性地将AIGC技术应用于电影配乐,其 FilmComposer框架 能根据电影片段自动生成专业级配乐,实现音画在语义、节奏和进展上的精确对齐。
中国力量:从实验室突围到全球竞技场
本届CVPR上,中国团队表现亮眼。西安交通大学曹相湧副教授团队不仅有三篇论文被接收,其中一篇入选接受率仅0.7%的口头报告,还一举夺得“第四届反无人机挑战赛”冠军和“图像超分挑战赛”冠军。
企业界同样战绩斐然:
- 腾讯有40+篇论文被接收,覆盖多模态推理、3D生成等多个领域
- 腾讯混元团队推出全面开源的3D生成大模型Hunyuan 3D,达到闭源模型水平
- Soul App 的实时人像动画技术突破入选会议论文
CVPR2025腾讯展位
在赞助商阵营中,中国企业的存在同样引人注目。在28家美国机构主导的赞助名单中,腾讯、字节跳动等6家中国企业跻身白金赞助商行列,投入力度空前
人才方面,中国新生代研究者闪耀国际舞台:
- 谢赛宁与苏昊荣获青年学者奖(谢赛宁参与ResNeXt和MAE,苏昊是李飞飞弟子)
- 贾扬清 参与的GoogleNet论文获得时间检验奖
- 最佳学生论文荣誉提名 中有多位华人学者
CVPR2025青年学者奖(谢赛宁与苏昊)
学术与产业
CVPR 2025最显著的趋势是学术界与产业界的深度交融。在论文海报展示区,研究者们一边讲解技术,一边不断被问及“这个能不能商用”、“模型开源了吗”等实际问题。产业界研究人员占比明显上升,技术讨论直接围绕“从论文到产品”的话题展开。
CVPR从一个学术交流、计算机科学家聚会的会议,开始转为了工业界与学术界互动、AI公司抢夺注意力和人才、更偏向实际应用及工程化的成果集中展示的AI行业大聚会。
腾讯等企业不仅在技术上展示实力,更通过“群星未来之夜”等活动大力招揽人才。
未来已来
获奖论文之外,CVPR 2025展示的技术趋势指向了清晰的未来:
3D生成平民化
腾讯开源的Hunyuan 3D 2.1版本实现了几何与纹理的双重优化,支持消费级显卡运行,使高质量3D内容创作不再依赖专业工作站。
影视制作革命
上海电影学院的FilmComposer框架能根据影片内容自动生成专业级配乐,大幅降低电影配乐制作成本,为影视创作提供了全新可能。
具身智能突破
机器人视觉研究取得重大进展,新框架让机器人真正理解物体堆叠、遮挡等复杂空间关系,在杂乱环境中的物品整理成功率提升300%。
伦理安全并进
新一代深度伪造检测技术利用生成模型本身的“指纹”特征及物理世界光影一致性约束,在对抗性攻击下保持高鲁棒性。模型可解释性成为高风险领域的硬性要求。
随着CVPR 2025落幕,3D技术浪潮已势不可挡。从手机摄像头化身3D扫描仪到影视游戏内容生产革命,从工业质检“零漏检”到自动驾驶环境理解跃升,这些实验室突破正涌向产业与生活的每个角落。CVPR 2025标志着3D视觉从优化依赖迈向端到端学习,多模态模型从封闭走向开源。华人学者在基础架构创新中的主导地位(如VGGT、SSS)与国内产学研协同能力(如腾讯、西安交大)成为技术突破的双引擎。然而,审稿争议与接收率下降亦警示学术界:在追求效率的同时需坚守严谨评审底线。
持续关注我们,获取更多CVPR最新开源数据集与视觉前沿动态!