MLFA(2):足球數(shù)據(jù)分析常用數(shù)據(jù)集介紹
要將機器學習算法應用于足球數(shù)據(jù)分析,就必須先有一套關(guān)于比賽內(nèi)容的數(shù)據(jù)集。本專欄的第二篇文章將介紹足球數(shù)據(jù)分析領(lǐng)域常用的兩種數(shù)據(jù)類型:事件數(shù)據(jù) 與 追蹤數(shù)據(jù),并介紹每種類型中比較知名的數(shù)據(jù)提供商,以及他們免費公開的數(shù)據(jù)集。
本篇文章部分內(nèi)容參考 Soccer Analytics Handbook
事件數(shù)據(jù)
事件數(shù)據(jù)(event data, a.k.a. play-by-play data)描述了一場比賽中每次有球處理的詳細信息。具體而言,第三方數(shù)據(jù)公司從比賽錄像中由人工標注出每一次處理球事件,例如傳球、射門、盤帶、爭頂?shù)鹊?,并記錄下該事件?球員、時間、地點(在球場上的坐標)以及 其他詳細信息(例如使用的左腳還是右腳、是否成功)。據(jù)統(tǒng)計,一場比賽的事件數(shù)據(jù)大約包含 1700 次事件,且其中約一半的事件為傳球。[1]

比較知名的事件數(shù)據(jù)提供商有 Wyscout、StatsBomb 以及被 Stats Perform 收購的 Opta 等。其中,Wyscout 和 StatsBomb 各公開了一部分數(shù)據(jù),且 StatsBomb 還提供了一種包含 凍結(jié)幀(freezing frame)的數(shù)據(jù)。
Wyscout 公開數(shù)據(jù)
Wyscout 的公開數(shù)據(jù) 涵蓋了 1941 場比賽, 約 300 萬個事件,涉及 4299 名球員。具體包含的賽事如下表所示。
賽事賽季比賽數(shù)量英超17/18380西甲17/18380德甲17/18306法甲17/18380意甲17/18380歐洲杯201651世界杯201864合計1941StatsBomb 公開數(shù)據(jù)
StatsBomb 的公開數(shù)據(jù) 涵蓋的賽事范圍更加廣泛,不僅兼顧男足女足,而且時間跨度上包含了一些年代較久遠的比賽,如英超 03/04 賽季中賽季不敗的阿森納的比賽、梅西在巴塞羅那的生涯中所有出場的西甲比賽、99/00 賽季起的部分歐冠決賽。具體包含的賽事如下表所示。
賽事賽季比賽數(shù)量男足世界杯201864歐洲杯202051英超(阿森納)03/0433西甲(梅西)04/05 – 20/21520歐冠(決賽)99/00 – 18/1914女足世界杯201952美國國家聯(lián)賽201836英超18/19 – 20/21326合計1096在傳統(tǒng)的事件數(shù)據(jù)中,一個事件的信息僅包含了與該事件相關(guān)的球員位置,而場上其他球員的位置不會被記錄。而 StatsBomb 的數(shù)據(jù)則包含 凍結(jié)幀,即同時記錄了事件發(fā)生瞬間鏡頭中其他球員的位置。不過,StatsBomb 的公開數(shù)據(jù)僅在 2020 年歐洲杯的 51 場比賽中為每個事件都記錄了凍結(jié)幀(這個數(shù)據(jù)類型被 StatsBomb 稱為 360 data),而在其他賽事中只對每腳射門記錄了凍結(jié)幀。

追蹤數(shù)據(jù)
追蹤數(shù)據(jù)(tracking data) 記錄了一場比賽中每時每刻足球和場上球員的位置坐標。這類數(shù)據(jù)是由球員比賽時的穿戴設(shè)備直接收集獲得,或者通過計算機視覺的手段從錄像中估算而得。最先進的技術(shù)設(shè)備可以得到幀率達 25 Hz 的追蹤數(shù)據(jù),即每場比賽約 14 萬幀數(shù)據(jù)。比較知名的追蹤數(shù)據(jù)提供商有 Matrica Sports、 Stats Perform 、Second Spectrum 等。
然而,想要獲取場上所有球員的追蹤數(shù)據(jù)需要在場館內(nèi)裝配相應的硬件設(shè)施,并非每一場比賽都有條件得到這類數(shù)據(jù)。退而求其次,我們可以只關(guān)注直播鏡頭中可見的球員位置,這就衍生出了 直播鏡頭追蹤數(shù)據(jù)(broadcast tracking data)。這類數(shù)據(jù)的提供商有 SkillCorner、Sportlogiq 等。
Matrica Sports 和 SkillCorner 各公開了一小部分追蹤數(shù)據(jù),具體情況如下。
Matrica Sports 公開數(shù)據(jù)
Matrica Sports 的公開數(shù)據(jù) 包含三場匿名比賽,幀率為 25 Hz。除了場上所有球員的追蹤數(shù)據(jù)外,還提供了與追蹤數(shù)據(jù)時間對齊的事件數(shù)據(jù)。同時擁有時間對齊的追蹤數(shù)據(jù)和事件數(shù)據(jù)往往更有利于分析工作的進行。

SkillCorner 公開數(shù)據(jù)
SkillCorner 的公開數(shù)據(jù) 包含了 19/20 賽季五大聯(lián)賽冠亞軍之間的共 9 場比賽[2]的直播鏡頭追蹤數(shù)據(jù),幀率為 10 Hz。由于 SkillCorner 本身并不是事件數(shù)據(jù)提供商,因此,必要時,使用這些數(shù)據(jù)需要將其和其他提供商的事件數(shù)據(jù)進行時間對齊。
在下圖中,我們可以明顯觀察到該類數(shù)據(jù)只能追蹤到鏡頭區(qū)域內(nèi)的球員。據(jù)統(tǒng)計,直播鏡頭追蹤數(shù)據(jù)平均每幀只能捕獲到 14 名場上球員。

由于足球場地大、人員多的特點,數(shù)據(jù)收集難度大,起步也較晚。在足球以外,例如籃球,NBA 從 2013 年起就引入了 Stats Perform 的 SportVU 系統(tǒng),在場館內(nèi)安裝設(shè)備收集追蹤數(shù)據(jù)。
雖然如今已有很多數(shù)據(jù)提供商開始收集足球數(shù)據(jù),但免費公開的數(shù)據(jù)相對于提供商掌握的數(shù)據(jù)還是鳳毛麟角,希望將來能有更多的公開數(shù)據(jù)提供給拿不到合作的研究者和足球分析的業(yè)余愛好者使用,促進足球數(shù)據(jù)分析領(lǐng)域的技術(shù)進步。
從下一篇文章開始,我將開始分專題介紹機器學習在足球數(shù)據(jù)分析中的應用。
PS: 下一篇選什么專題還沒想好,可能先搞點簡單的 :)
參考
^Pappalardo L, Cintia P, Rossi A, et al. A public data set of spatio-temporal match events in soccer competitions[J]. Scientific data, 2019, 6(1): 1-15. https://www.nature.com/articles/s41597-019-0247-7^法甲 19/20 賽季因疫情提前終止,故該賽季巴黎圣日耳曼與馬賽之間有一場比賽未進行。掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由財神資訊-領(lǐng)先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。