前言
足球作为全球极具影响力的运动和重要产业,其数据分析在现代足球中扮演着关键角色。在这篇博客中,我们将深入探讨一种创新的ransformer-Based Neural Marked Spatio Temporal Point Process (NMSTPP) 模型,研究该模型如何为足球比赛事件分析带来新的视角和方法。
研究背景与动机
足球比赛中,球员控球时间有限,平均每场仅3分钟,因此如何高效利用控球时间成为关键。过去,各项研究尝试理解事件序列对后续事件的影响,多数皆采用机器学习模型处理长序列事件数据,但现有方法在处理大规模时空数据(特别是时间过程)时存在不足,迫切需要更全面的时空模型和整体性能指标。在此背景下,我们提出NMSTPP模型,旨在同时且相关地对足球事件数据的时间、空间和动作类型进行建模,为足球比赛分析提供更有效的工具。
研究方法与模型架构
1.定义足球事件数据为NMSTPP
我们将足球比赛中的控球动作事件数据与标记时空点过程(MSTPP)相联系,其中标记m对应动作类型(如射门、传球等),空间z对应足球场区域,时间t对应事件间时间。通过分解多元密度函数,将MSTPP的联合概率密度函数表示为时间、空间和动作类型的条件概率密度函数的乘积。采用机器学习算法估计这些概率密度函数,并基于最大负对数似然估计定义了MSTPP损失函数。为提高效率,我们使用TransformerEncoder对历史事件信息进行编码,这种结合点过程和机器学习方法的模型被称为NMSTPP模型。
2.NMSTPP模型架构
-输入阶段:模型输入包括事件间时间、区域、动作及其他连续特征,如区域编号(1至20)、动作类型(传球、控球结束等)以及描述区域变化的工程特征。这些输入形成一个矩阵。
-历史编码阶段:对输入的时间和连续特征应用密集层,对区域和动作应用嵌入层,然后利用Transformer模型的位置编码和编码器获取固定大小的历史向量,并通过另一个密集层进行信息捕捉。
-预测阶段:使用神经网络估计条件概率密度函数,预测下一个事件的时间、区域和动作。神经网络对区域和动作估计条件概率质量函数,对时间直接建模其与历史的关系。
-输出阶段:模型输出包括事件间时间的值、区域的20个对数和动作的5个对数,将最大对数对应的类别作为预测类别。
-成本函数阶段:使用输出和真实值计算成本函数,通过梯度下降算法(如adam优化器)对模型进行端到端训练。
3.整体控球利用率得分(HPUS)
为更全面地分析控球情况,我们扩展了poss-util度量,提出了HPUS。首先计算整体动作得分(HAS),通过预期区域和动作的乘积评估每个动作的有效性,并考虑事件间时间的效率。HPUS是控球中n个动作的HAS加权和,权重从最后一个动作开始按指数衰减函数计算,使HPUS更关注控球周期的最终结果。我们还创建了HPUS+,仅考虑导致进攻(传中或射门)的控球。
实验结果与验证
1.数据集与预处理
基于2017-2018赛季的五大联赛数据,从WyScout开放获取数据集中提取比赛事件数据,包括动作类型、位置坐标等信息。为增加数据的可解释性和降低复杂性,将位置坐标分组为20个区域,并将详细动作类型分组为5类。同时,从区域特征创建额外特征,为模型提供更多信息。
2.与基线模型比较
将NMSTPP模型与统计模型和改进的Seq2event模型等基线模型对比,结果表明NMSTPP模型在预测验证集比赛事件方面表现最佳,总损失、区域CEL损失和动作CEL损失均优于基线模型,且事件间时间t的RMSE性能与最佳基线模型相当。在效率方面,改进的Seq2event模型(Transformer)训练速度最快,NMSTPP模型稍慢,但NMSTPP模型的可训练参数更多且总损失更低,是最有效且相对高效的模型。
3.消融研究
验证NMSTPP模型架构时发现,依赖型的NMSTPP模型在总损失上比独立型模型低0.04,性能更好,表明对事件间时间、区域和动作的预测模型进行依赖建模是必要的。此外,使用区域特征与使用(x,y)坐标特征在模型性能上无显著差异,但区域特征可提高模型输出对球员和教练的可解释性。
4.模型验证
分析NMSTPP模型预测结果,发现使用40个历史事件序列长度合理,预测的事件间时间CDF与真实CDF匹配,模型能够推断下一个事件的区域和动作。
5.HPUS验证与应用
计算英超各球队的平均HPUS和HPUS+,发现它们与球队最终排名、平均进球数和平均xG显著相关,表明HPUS度量能够评估足球中的主要事件,反映球队排名和进攻表现。通过分析球队控球的HPUS密度和比赛中HPUS的变化,展示了HPUS在提供球队表现深度信息方面的有效性,即使在缺少进球和射门等重要事件时,基于HPUS的分析仍可行。
NMSTPP模型预测比赛成效
预测成果展现
NMSTPP模型赛事分析以海量赛事数据为基石,运用机器学习算法深度剖析,进而实现对比赛结果较为精准的预估。这一技术在洞察赛事未来趋势方面意义非凡。当下,NMSTPP模型分析工具准确率可达80%左右,泊松分布、蒙特卡洛模拟、ELO评分体系与贝叶斯推断等专业技术协同发力,共同铸就此成果。它持续探索全球赛事,挖掘潜力热门赛事并推送用户,为用户了解赛事提供了极具价值的参考,已然成为体育赛事领域不可或缺的关键力量。
监测分析详情
比赛期间,实时数据跟踪服务借助先进的数据采集技术,实时获取比分、进程等数据。智能分析技术随即处理这些数据,为用户提供即时分析与预测信息。这让用户能紧跟比赛节奏,明晰局势变化。用户依此可减少外界干扰对判断的不良影响,更精准地剖析与推测比赛走向,仿佛为用户装上了洞察比赛的“透视眼”,使观赛体验与赛事理解达到新高度。
研究结论与展望
本研究提出的NMSTPP模型在足球比赛事件分析中表现出色,相较于基线模型更有效,其架构在框架下得到优化。HPUS度量能有效反映球队在赛季中的多项关键指标。未来,使用更多数据训练有望进一步提升模型性能,且基于NMSTPP模型还可开发更多性能指标,其他包含多个重要组成部分的顺序事件体育项目也有望受益于该模型。