NFL球员追踪与机器学习技术解析

2 阅读12分钟

NFL下一代统计创新的十年

每场NFL比赛都会从22名佩戴RFID设备的球员身上产生数百万个追踪数据点。运行在某机构云服务上的75个机器学习模型在不到一秒的时间内处理这些数据,将足球运动转变为每一次移动都可被测量、建模并即时分析的运动。

每一次攻防都会触发海量的物理数据。22名球员在瞬间加速、碰撞、变向,而球则在可控的混乱中穿行。然而,在这项运动历史的大部分时间里,这些复杂性大多未被测量。“足球这项运动在100多年里,一直是一场数据表游戏:只有码数、达阵、擒抱……”NFL下一代统计研究与分析高级经理迈克·班德说。这些数字只能捕捉到场上实际发生情况的一小部分。教练们仔细研究比赛录像并做出有根据的猜测。球迷们在看台和沙发上争论。裁判有时会根据不完整且经常被遮挡的视角做出判断。NFL足球数据与分析高级总监迈克·洛佩兹说:“查看数据表统计时,你甚至不知道某次进攻中有哪22名球员在场。”

2015年,NFL决定通过推出下一代统计(NGS)来超越数据表。RFID芯片被放置在每个肩垫组和足球内部,每个体育场周围安装了20多个超宽带接收器。该系统开始以每秒10次的频率流式传输所有22名球员的坐标,以及每秒25次的足球坐标。联盟首次在每次进攻的每一刻都能捕获精确到几英寸的综合球员位置数据。

起初,每个俱乐部只能访问自己的追踪数据。这种情况在2018年发生了改变,当时各队获得了全联盟范围的访问权限,使教练、球探和分析师处于共同的分析基础上。也在那一年,联盟正式确立并深化了与某机构云服务的合作伙伴关系,标志着NGS从一个追踪实验逐步转变为NFL关键基础设施的开始,而现场直播只是其最明显的表现形式。

如今,NGS支撑着整个联盟的决策,从俱乐部如何评估球员和设计比赛计划,到NFL如何研究裁判、球员安全和规则更改。每支球队以及联盟的大部分部门,现在都基于同一不断扩展的数据骨干网工作。

但这一切始于简单,班德说。“我们早期的指标是唾手可得的果实——球员分离、速度和出手时间——这些都很容易从我们拥有的数据中推导出来。对更复杂的比赛指标进行建模需要更多的努力,而这正是某机构云服务的用武之地。”

该合作伙伴关系在2018年交付的第一个复杂统计数据是传球成功率。它旨在回答一个简单的问题:一次传球的难度能否被量化?答案部分来自于托管在某机构SageMaker平台上的XGBoost机器学习模型。它融合了影响传球结果的因素,从四分卫受到的压力到传球深度、接球手分离度以及边线距离。该模型返回一个单一的百分比,同时捕获了可能性和难度。“这成为了我们进入机器学习的切入点,”班德说。

除了SageMaker,NFL的分析工作已扩展到一套广泛的某机构云工具,包括某机构的Quick服务,联盟使用该服务向球迷、分析师和转播合作伙伴提供实时的交互式可视化和答案。洛佩兹说,联盟足球数据分析组的成员“称我们自己是一个某机构云技术商店”。到2018年,随着全联盟范围访问权限的到位和某机构云服务的机器学习管道运行,NGS开始揭示整个运动中更深层次的问题。

每场NFL比赛都会产生数百万原始追踪数据点,然而原始数据流只是基础。真正的数据增长来自于将坐标转换为可用足球洞察的模型。例如,施压概率估计了在每次传球冲击中,防守球员在每个时刻影响四分卫的可能性,并产生十多个次要指标。班德估计,NGS现在每次进攻产生500到1000个统计数据。保持系统的响应能力依赖于某机构云基础设施来吸收数据流、运行模型、在几秒钟内为球队和转播商返回结果,并存储更广泛的数据宝库以供深入分析。

大数据碗

那种更深入分析的根源可以追溯到2018年,即首届大数据碗。由洛佩兹领导,它成为了联盟首次大规模向外部研究人员开放球员追踪数据的努力,邀请他们解决的问题包括:哪些防守球员能最有效地缩小空间,或者如何预测传球后的球员移动。这项年度竞赛被设计成一个持续数月的黑客马拉松,挑战参与者使用历史追踪数据训练机器学习模型,并测试其泛化到未见过的比赛场次的能力。重点越来越放在预测上——能够预测接下来会发生什么的模型。

一个早期的成功案例是2020年开发的超出预期冲球码数指标。该指标衡量实际获得码数与预期冲球码数之间的差异。它有助于具体说明某次冲球的强度,以及当汇总时,一名跑卫在一场比赛或一个赛季中的表现如何。超出预期冲球码数从大数据碗迅速进入了全国转播。洛佩兹回忆起他在2021年海盗队与包装工队之间的NFC冠军赛中第一次看到它的出现:“伦纳德·福内特有一次不错的冲球,然后立即弹出一个显示他超出预期冲球码数的图形。那距离我们获得获胜方案还不到10个月。”他补充道:“我给我的电视屏幕拍了张照片,同事们也在给我发他们的照片。那是一个自豪的时刻。”

这条管道已经将大数据碗变成了创意和数据科学人才的试验场。在其第一个十年中,大数据碗已成为联盟分析生态系统的核心部分。正如时任新奥尔良圣徒队教练肖恩·佩顿在2015年谈到 sidelines 上实时数据兴起时打趣的那样,“我认为这意味着会有更多的麻省理工毕业生来执教。”

关键指标

在过去的十年中,NGS已经发展成为一个包含超过75个机器学习模型的产品组合,涵盖进攻、防守、特勤组和比赛策略。其中,擒抱概率和防守警报也许最好地说明了原始追踪数据如何能为球队、转播商和球迷转化为更清晰的洞察。擒抱概率估计防守球员在接触时刻完成擒抱的可能性,考虑了速度、角度、距离、 leverage 和追击。这些数据使NGS能够识别真正的擒抱机会,量化错失的擒抱,并计算防守球员节省或丢失的码数。

防守警报在开球前评估防守阵型和移动,以预测哪些球员可能会冲击四分卫。该模型使用加速度模式和开球前变化,将它们与情境背景(如档数、距离和比赛状态)相结合,然后应用生成式AI预测可能的冲击者,这些球员会用红圈为观众突出显示。“从转播角度来看,防守警报产生了巨大影响,”某机构云服务首席体育顾问达希尔·弗林说。他强调了该模型如何暴露故意的误导:“有时预测是错误的,因为防守方本身在使用误导,试图欺骗进攻方认为突袭即将到来。”这些时刻为比赛解说员提供了一种自然的方式来讨论伪装的防守压力和其背后的意图。这些指标共同展示了NGS模型如何将快速、模糊的时刻转化为清晰的视觉和战术解释。

球员安全与规则变更

为表现分析提供支持的同一追踪基础,也使联盟能够更清晰地了解球员安全。通过捕捉每个球员的速度、间距和移动,它为联盟提供了对长期以来被认为是高风险进攻背后动态的具体理解。2024赛季引入的新动态开球就是一个清晰的例子。开球产生了太多危险的高速碰撞。NGS帮助量化并最终改变了这一点。“前一个赛季,我们展示了球员空间和相对速度的NGS动画,那项分析成为了规则变更的关键部分,”洛佩兹说。

NFL竞赛委员会测试了替代阵型,并确定了一种既能减少高速接触又不削弱竞争元素的设计。两个赛季的数据表明动态开球正在奏效:2025年的回攻率跃升至75%(而2024年为32%),即使比赛次数增加了1157次,下肢受伤率下降了35%,同时脑震荡发生率仍低于旧开球模式。这一变化既带来了更多行动,也减少了伤病。

姿态追踪

下一个重大进步——光学追踪——的基础设施已经嵌入到每个NFL场馆中。该系统不仅记录球员的二维位置,还使用4K摄像机捕捉关键关节(如肩膀、肘部、膝盖、臀部和手部)的完整三维位置。其结果是姿态估计,即每次进攻中每个球员的数字骨骼模型。本赛季是联盟第一次在每个比赛中拥有班德所说的“完整安装、完整捕获”,尽管这些数据在验证、构建和存储以备将来使用时仍保持内部状态。

对于NGS团队来说,姿态追踪来得正是时候。班德说,十年的二维追踪加深了对比赛的理解,“但这种新的骨骼数据将开启下一个层次。这是一个转折点。”数据捕获的规模值得停下來思考。标准位置追踪以每秒10次的频率为每个球员收集一个x,y坐标。光学追踪以每秒60次的频率从16个角度捕捉高分辨率视频,为每个球员推导29个身体部位的x,y,z坐标。“数据量的暴增可能令人生畏,”弗林说。“但一旦人们理解了它,想法就会很快涌现。”

光学追踪背后的管道分三个阶段运行:本地捕获、现场处理和云端分析。来自4K摄像机的高带宽视频无法足够快地发送到云端,因此每个体育场馆都托管某机构云服务器,在大约700毫秒内处理数据。处理后的简化数据随后被发送到云端,机器学习模型在100毫秒内运行并将分析返回给制作团队。这使得从捕获到分析的完整管道保持在一秒以内。并且由于像《周四橄榄球之夜》这样的转播以大约两秒的延迟运行,从这个新数据派生的NGS可以在屏幕上进攻发展时有效地实时交付。

姿态数据的前景在于它为足球的几何形状增加的细节。洛佩兹说,它也解决了二维数据无法解决的歧义。“在传球进攻中,我们现在可以使用RFID数据看到球越过一名球员,但我们不知道球是从他们两腿之间滚过还是从他们头上飞过20码。”最终目标是一个混合系统,使用RFID识别每个球员的质心,并将其与完整的骨骼数据相结合,当球员在摄像机视野中彼此遮挡时,算法会填补空白。

姿态追踪还将开启一种新的训练环境。四分卫可以使用VR头显面对虚拟的传球冲击,其展开方式与场上完全相同。“你会看到那些锋线球员向你冲來,并学会在那一瞬间将视线保持在球场下方,”弗林说。这种真实感使得安全训练和纠正让年轻四分卫陷入困境的习惯成为可能,同时也帮助他们在口袋里做出更快的决定。“乔希·艾伦花了好几个赛季才成为乔希·艾伦。也许这可以在半年而不是三年内发生,”弗林说。

NGS演进的每个阶段都推动联盟更接近于对比赛底层机制进行建模,而不仅仅是比赛结果。随着这些能力结合在一起,更广泛的转变变得更加清晰。在将数据表扩展十年后,NFL与某机构云服务的合作关系已从一个追踪实验发展得更接近于这项运动的神经系统。通过将足球专业知识与可扩展的云基础设施相结合,Next Gen Stats继续塑造着比赛进行、执教和理解的方式。

但归根结底,吸引人们的是足球微妙的深度。“这就像量子物理,”班德说。“你可以随心所欲地放大,每一个尺度的变化都会揭示新的东西。比赛中蕴含着比赛,在整个球场上发生。”事实证明,阐明这项运动复杂的机制并不会破坏魔力,只会加深敬畏。FINISHED