AAAI 2026 | 上海AI Lab发布RacketVision，首次为球拍运动标注球拍姿态导读乒乓球、网球、羽毛

导读

乒乓球、网球、羽毛球——这三大球拍运动的视觉分析一直是体育AI的热门方向，但现有数据集存在两个共性短板：只关注单一运动的球追踪，且完全忽略了球拍这一核心交互物体。球拍的姿态直接决定了击球方向和旋转，不建模球拍就无法真正理解比赛。

本文介绍的 RacketVision 是首个同时标注球位置和球拍姿态（边界框+5关键点）的多运动基准，覆盖乒乓球、网球和羽毛球共 942 场职业比赛、43.5 万帧，定义了球追踪、球拍姿态估计和球轨迹预测三个递进任务。实验揭示了一个关键发现：将球拍姿态特征朴素拼接到轨迹预测模型中，性能反而低于只用球坐标的基线；但引入 Cross-Attention 融合机制后，LSTM 模型在关键击球帧上准确利用球拍信息，最终在三项运动上全面超越纯球轨迹基线。

论文信息

标题：RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis
作者：Linfeng Dong, Yuchen Yang, Hao Wu, Wei Wang, Yuenan Hou, Zhihang Zhong†, Xiao Sun†
机构：上海人工智能实验室、浙江大学、复旦大学、中国科学技术大学
日期：2026 年 1 月 28 日（arXiv v3）
DOI：arXiv:2511.17045

一、球拍运动分析缺什么？现有数据集只追球、不看拍

现有球拍运动数据集（如 TrackNet、TrackNetv2、OpenTTGames）存在两个关键限制：

只做单一运动的球追踪：每个数据集只覆盖一种运动，无法挖掘不同球拍运动之间的共享运动模式
完全缺少球拍标注：尽管球拍是决定击球方向和旋转的核心物体，但没有数据集提供球拍的位置和姿态信息

与已有数据集的规模对比：

数据集	分辨率	运动数	比赛数	帧数	标注类型
TrackNet	720p	1	10	19k	球
TrackNetv2	720p	1	19	78k	球
OpenTTGames	1080p	1	12	55k	球
RacketVision	1080p	3	942	435k	球+球拍

RacketVision 在帧数上是此前最大数据集的 5.6 倍，且首次引入球拍姿态标注（边界框+5个关键点）。

二、三项运动、三个递进任务：从感知到预测的完整流水线

数据集构成

数据来源为 YouTube 上 942 场职业比赛的广播视频，经过有效片段切分和稀疏标注（每个片段均匀采样 20% 的帧进行人工标注）：

运动	比赛数	片段数	帧数	时长(秒)	球标注	球拍标注
乒乓球	50	780	170,027	3,878	19,495	6,648
网球	431	431	150,399	4,285	21,544	7,395
羽毛球	461	461	114,753	4,592	23,003	10,578
合计	942	1,672	435,179	12,755	64,042	24,621

球拍标注包含每个球拍的边界框和5个关键点（顶部、底部、手柄、左侧、右侧），用于捕捉球拍在帧中的姿态。

三个递进任务

论文定义了从低层感知到高层预测的三个相互关联的任务：

任务一：球追踪（Ball Tracking） ——预测目标帧中球的坐标和可见性。分为单帧和多帧（使用前5帧作为时序上下文）两种设置。

任务二：球拍姿态估计（Racket Pose Estimation） ——预测每个球拍的边界框和5个关键点坐标，采用单帧设置。

任务三：球轨迹预测（Ball Trajectory Prediction） ——给定历史球位置序列（可选加入球拍姿态），预测未来若干帧的球轨迹。分为短轨迹（历史20帧→预测5帧）和长轨迹（历史80帧→预测20帧）两种设置。

三个任务形成流水线：球追踪器和球拍姿态估计器先在稀疏标注帧上训练，再对完整视频生成逐帧的密集预测（"软标签"），为轨迹预测器提供训练数据。

图片来源于原论文

三、多运动联合训练显著提升泛化，背景建模大幅降低定位误差

球追踪结果

论文以 TrackNetV3 为核心架构，对比了单运动（SS）与多运动（MS）训练、是否使用背景建模（BM）、单帧与多帧（#F=1 vs #F=4）的影响：

模型	BM	#F	乒乓球 mAP	网球 mAP	羽毛球 mAP
TrackNetV3	✓	4	68.3	68.7	72.5
MS-TrackNetV3	✓	4	71.1	81.9	83.1

三个关键发现：

多运动联合训练显著提升泛化：MS-TrackNetV3 在网球 mAP 上比单运动版本提升 +19.2%（81.9 vs 68.7），羽毛球 +14.6%（83.1 vs 72.5）
背景建模大幅降低定位误差：加入背景中值帧后，TrackNetV3（#F=1）的 MDE 在乒乓球降低 54.0%，网球 61.4%，羽毛球 54.8%
多帧输入提升检测但存在精度权衡：4帧输入提升了 Recall 和 mAP，但偶尔因运动模糊引入轻微的坐标抖动

球拍姿态估计结果

论文使用 RTMPose 作为基线，多运动训练同样带来一致提升：

训练方式	乒乓球 PCK@0.2	网球 PCK@0.2	羽毛球 PCK@0.2
单运动（SS）	75.6	83.7	82.1
多运动（MS）	81.8（+6.17%）	89.6（+5.97%）	88.5（+6.36%）

一个值得关注的现象：侧面关键点远比结构关键点难检测。顶部、底部、手柄的准确率均在 92% 以上，而左侧、右侧关键点仅为 64.8%-80.1%。论文分析原因是侧边常被手部遮挡，且对快速运动和视角变化高度敏感。

图片来源于原论文

四、消融实验：朴素拼接球拍特征反而有害，Cross-Attention 融合才是关键

轨迹预测任务是本文最核心的实验，也揭示了关于多模态融合的关键洞察。

三种输入与融合方式

Ball-Only：仅输入历史球坐标，纯单模态基线
Concat Fusion：将球坐标和球拍姿态的嵌入拼接后送入模型
Cross-Attention Fusion：球轨迹序列作为 Query，球拍姿态序列作为 Key/Value，通过注意力机制动态加权

短轨迹预测结果（历史20帧→预测5帧）

模型	输入	融合方式	乒乓球 ADE	乒乓球 FDE	网球 ADE	网球 FDE	羽毛球 ADE	羽毛球 FDE
LSTM	Ball	-	41.9	64.0	23.8	37.6	37.5	60.7
LSTM	Ball+Racket	Concat	58.1	86.6	29.3	45.3	45.7	70.7
LSTM	Ball+Racket	CrossAttn	38.3	60.4	22.8	35.7	37.0	59.3

长轨迹预测结果（历史80帧→预测20帧）

模型	输入	融合方式	乒乓球 ADE	乒乓球 FDE	网球 ADE	网球 FDE	羽毛球 ADE	羽毛球 FDE
LSTM	Ball	-	113.9	184.3	62.5	108.7	118.7	194.7
LSTM	Ball+Racket	Concat	139.9	198.9	76.8	125.0	134.5	203.3
LSTM	Ball+Racket	CrossAttn	101.3	161.3	55.5	94.7	114.6	187.6

三个核心发现

1. 朴素拼接（Concat）一致地损害性能。在 LSTM 和 Transformer 两种骨干上，Concat 融合的 ADE/FDE 均差于纯 Ball-Only 基线。原因是数据集中大量样本处于球在空中飞行状态，此时球拍信息不相关甚至是噪声，Concat 方式无差别地融合了这些无用信息，干扰了轨迹动力学的学习。

2. Cross-Attention 在关键击球帧上表现优异。Cross-Attention 机制让模型学会在击球瞬间加大球拍信息的权重，在球飞行过程中自动忽略球拍信号。从可视化结果看，Cross-Attention 模型能利用球拍姿态准确预测击球后的转向点和飞行方向。

3. 整体提升幅度受数据构成影响。由于短轨迹样本中大量是球在飞行中的片段（无球拍交互），Cross-Attention 在这些样本上表现与 Ball-Only 相当，整体统计改进不算巨大；但在有击球事件的关键帧上，改进显著。

图片来源于原论文

五、总结与思考

RacketVision 的核心贡献是填补了球拍运动分析中"只追球不看拍"的空白，提供了首个包含球拍姿态标注的多运动基准。多运动联合训练一致提升了球追踪和球拍姿态估计的泛化能力，而轨迹预测实验则揭示了一个有实际指导意义的结论：多模态数据的价值高度依赖于融合架构——朴素拼接不如不融合，Cross-Attention 才能正确地在关键时刻利用球拍信息。

局限性方面：

稀疏标注策略：仅标注 20% 的帧，虽然降低了标注成本，但可能遗漏快速运动中的关键帧
球拍侧面关键点难题：左右关键点准确率（64.8%-80.1%）与顶部/底部/手柄（>92%）差距明显，遮挡和视角变化仍是待解决的挑战
轨迹预测的统计改进有限：Cross-Attention 的优势集中在击球帧，而大量飞行帧稀释了整体指标，未来可能需要针对事件帧的专门评估协议