跳转至内容
Grail Rank博客
← 所有文章
一幅足球数据分析的风格化图形可视化作品
方法论

进球难度算法:一套公开的、无需评论员即可评定伟大进球的科学方法

作者:GrailRank Team 15分钟阅读

进球难度算法是一种根据进球瞬间的射门难度对进球进行���序的方法。它量化八项输入:射门位置、防守压力、守门员位置、触球部位、球的运动状态、射门前触球次数、组织配合的复杂程度以及比赛状态。与衡量概率的预期进球(xG)不同,它衡量的是射门终结本身的技术难度。

自 2005 年以来,每一个“年度最佳进球”奖项都是错的。

错误不在于获奖的球员不对。而在于问题本身从未被正确地提出。普斯卡什奖、BBC 赛季最佳进球、国际足联的各种年终盘点。所有这些都是按照评论员评价进球的方式对进球进行排序:视觉奇观、激情时刻、球员叙事、部落记忆。倒钩胜过单骑闯关,决赛胜过小组赛,知名球星的进球胜过其他任何人的进球。

这些权重,没有一个与进球实际有多难打进相关。

本文阐述了一套公开的方法以修正这个问题。如果你想要,可以自己动手构建。数学原理都在这里。

“精彩进球”真正意味着什么

“精彩进球”这个短语里隐藏着两个问题。

第一个是:在给定情境下,这脚射门最终成为进球的概率有多低?这就是预期进球(xG),自大约 2012 年起,这已经是足球分析领域一个已经解决的问题了。每一家重要的 Opta 和 StatsBomb 衍生数据机构都有各自的版本。门前六码头球攻门,面前是空门,xG 就高。在两名防守队员逼近下 25 码外凌空抽射,xG 就低。xG 衡量的是概率。

它不衡量难度。

第二个问题,那个从没有人将其操作化的问题是:考虑到球员在触球瞬间面临的限制,世界上有多少球员能完成这脚射门?那是一个难度问题,也是区分一粒预期进球和一颗让你在十年后仍会铭记的进球的关键。

点球是足球中难度最低的。在对方后卫贴身防守下 18 码处的倒钩射门属于难度最高的之一。xG 无法告诉你这一点。下面的方法论可以。

八项输入项

一个进球难度分数在球被击中的瞬间采集八项输入。

射门位置。距球门的距离和角度,精确到脚。这是任何 xG 模型的核心,也是这里的根基。越近、越居中越容易。关系是非线性的;从 20 码到 30 码的额外十码,所增加的难度远大于从 6 码到 16 码的同等距离。

防守压力。射门瞬间,距离球三码以内的防守球员人数,外加一个二元标记,标明最近的防守者是否积极进行封堵。视野清晰地看到球门是一回事。视野清晰但有一名中后卫正低头冲入射门线路又是另一回事。

守门员位置。射门时守门员距门线的距离,以及根据守门员站位,球门框内实际无人把守的范围有多大。守门员失位能把一次高难度射门变成打空门。守门员站稳封角度则能将目标缩小一半。

触球部位与击球方式。弱势脚、头球、倒钩、蝎子摆尾、外脚背。每一项都根据历史转化率校准一个难度系数。倒钩射门的转化率大约是从可比位置标准正脚背射门的五分之一。这个比率就是系数。

射门时球的速度与运动。来球速度快、半凌空、坠落或有旋转,比静止或滚动的球更难击中部位。追踪数据能捕捉到这一点。没有追踪数据时,细致的视频回顾也能做到。

射门前的触球次数。面对紧逼防守球员多次触球单骑闯关,本质上比接倒三角传中直接打门要难。两者都可能精彩绝伦。但只有前者承担着个人创造性的难度。

组织配合的复杂程度。这是团队层面的输入。传球序列中的传球次数、突破的对手逼抢强度、覆盖的纵向距离。一次经过 15 脚传球穿透高位逼抢形成的进球,与一次抢断后直接打击的进球,所蕴含的难度类型不同。两者都该入选精彩进球榜单,但入选的理由不同。

比赛状态。比分、剩余时间、比赛阶段、对手实力。这是唯一的情境输入。它不会改变进球本身有多难打进。它改变的是进球有多重要。这二者被分别评分,然后合并。

无需评论员的权重赋值

大多数排名陷入的陷阱,是用评审团投票来赋权。选个委员会,给他们一张表格,看他们争论不休。输出反映的是委员会,而不是进球本身。

一套经得起推敲的方法论,会根据每项输入对“在可比情境下进了球”的预测力来赋予权重。运行历史数据集。找出每项输入对转化率的边际贡献。这个边际贡献就是权重。

与球门的距离权重最大,因为它对转化率的经验效应最强。触球部位(倒钩、头球、弱势脚)的权重重要但较小。组织配合复杂度在原始难度上权重较小,而在包含比赛状态的综��“可记忆性”得分中权重较大。

这些权重不是主观的。它们与数据拟合,并随着新数据的产生而更新。

验证

一个说梅西的每一次单骑闯关都是史上最伟大进球的模型,是在一个有用的方向上有缺陷:它揭示了一个真实的模式。而一个说每个点球都伟大的模型,则是在无用的方向上有缺陷。验证能告诉你你有的是哪一种缺陷。

诚实的验证是向前盲测。在某个截止日期前的进球上构建模型。对测试周期中模型从未见过的每个进球进行评分。与三样东西进行比较:存在相关博彩市场的博彩公司赔率、趋向一致的专家共识,以及当你对训练集进行自助采样时模型自身的内部稳定性。击败这三者,否则模型就只是装饰。

应用此法后会有什么变化

有些事会改变,而评论员们不会喜欢。

梅西的进球目录的统治力表现方式,与精华集锦所暗示的不同。按照难度排行,他最顶尖的进球不是那些面对弱旅时著名的单骑闯关。而是那些面对稳固防线、有两名防守球员逼近下的狭窄角度终结,那些摄像机不钟爱、因此无人剪辑的进球。

有几粒标志性进球排名会下降。齐达内在 2002 年欧冠决赛的凌空抽射是一粒精彩进球。但就���难度而言,它排不进过去二十年的前五十。技术是非凡的,但防守压力极小,守门员站位很深。它之所以成为标志,是因为那个时刻。这套方法论将这两样东西拆分开,分别评分。

几粒被遗忘的进球排名会上升。一些在荒诞条件下打进、赛事重要性低的联赛进球,得分会超过那些著名的决赛制胜球。它们从未被剪辑。但算法依然能找到它们。这正是意义所在。

方法公开

完整的输入项列表、权重赋值方式和验证框架,已在上文呈现。任何拥有追踪数据并愿意投入工作的人,都可以构建一个版本。没有人公开这样做过,因为足球媒体的激励机制奖励的是叙事和部落认同,而不是方法。

方法是开放层。数据流水线、实时排名、长期维护的模型,这是另一个问题。本文的存在,是为了让下一次“年度最佳进球”争论,至少能在一个共通的根基上展开。

如果你读到了这里,并想看看这套方法论产生的排名,它们在本系列的其余部分中。第一个是梅西与罗纳尔多(C罗)孰优孰劣的问题,该问题在 2023 年便已尘埃落定,此后再无人问津。

常见问题

什么是进球难度算法?

进球难度算法根据进球的实际得分难度而非其观赏性进行排名。它在触球瞬间测量八项输入,包括射门位置、防守压力、守门员位置和触球部位,并按照每项输入对“类似情况下未能得分”的预测强度赋予权重。

进球难度与预期进球(xG)是一回事吗?

不是。预期进球衡量的是从给定位置射门转化为进球的概率。进球难度衡量的是在球员所面临的限制下,完成射门的执行难度。点球的xG高但难度低。在压力下的倒钩射门xG低但难度高。它们回答的是不同的问题。

进球难度分数是如何计算的?

八项输入中的每一项,都根据它对类似射门未被命中的边际贡献进行加权。与球门的距离权重最大,因为它对转化率的经验影响最强。触球部位和视线受阻也占有重要权重。比赛状态被单独计算,因为它改变了进球的重要性,而非其得分难度。

你能客观地排名最佳进球吗?

你能够使用触球瞬间的可测量输入,客观地评定进球的执行难度。你无法客观地评定它们是否令人难忘或有多重要,因为这取决于背景和情感。大多数“最伟大进球”榜单将两者混为一谈。进球难度算法则将它们分开,仅对难度进行评分。

为什么大多数“年度最佳进球”奖项存在偏差?

像国际足联普斯卡什奖这样的奖项由公众投票和评审团决定,它们衡量的是受欢迎程度,而非难度。在广泛转播的联赛中取得的进球更容易获奖,因为有更多人看到并分享它们。任意球和远射更容易获奖,因为它们画面感强,尽管它们通常比人群中射入的狭窄角度进球更容易。