Il punto sulla ricerca nella statistica sportiva dalla MIT Sloan 2018

di Stephanie Kovalchik // OnTheT

Pubblicato il 27 febbraio 2018 – Traduzione di Edoardo Salvati

Verranno presentate alcune delle ricerche più all’avanguardia nell’analisi statistica sportiva questa settimana alla MIT Sloan Sports Analytics Conference (SSAC). Cosa suggeriscono gli argomenti all’ordine del giorno riguardo allo stato dell’arte della ricerca quantitativa nello sport?

Arrivata alla dodicesima edizione e ospitata a Boston, la SSAC sembra poter crescere anno dopo anno e attrarre nomi sempre più grandi nello sport. Insieme a rappresentanti del mondo della pallacanestro come Sam Hinkie e John Hollinger, anche l’ex presidente degli Stati Uniti Barack Obama, come noto un grande appassionato di sport, è stato invitato a intervenire.   

Ci si chiede se, guardando la lista dei relatori, uno statistico dello sport possa davvero sperare di apprendere alcunché partecipando alla SSAC o se si tratti solo di un’occasione mondana per i nomi che contano nel settore. Nella mia esperienza, è un po’ entrambe le cose. Per chi è patito di statistiche, concentrare l’attenzione sulla parte del programma dedicato alla ricerca offre gli spunti più rilevanti.

La fitta elaborazione di numeri e dati della ricerca sportiva rappresenta una parte ridotta del programma della SSAC: verranno presentati infatti solo 8 lavori e 12 poster.

Tuttavia, grazie a un processo estremamente selettivo, si ha garanzia che il contenuto sia di altissima qualità e indicativo di cosa si stiano occupando le menti più brillanti nella ricerca sportiva (va detto, con una forte inclinazione per il mondo americano). 

Cosa mostrano quindi le ricerche presentate alla SSAC 2018 sull’analisi statistica sportiva?

Sport analizzati

Iniziamo con gli sport analizzati quest’anno dai lavori e dai poster. Con 2 lavori e 6 poster – il 50% dei poster – il basket è lo sport più trattato alla SSAC 2018. La maggior parte delle analisi sul basket si concentrano sulla NBA, con un progetto sulla NCAA (di Sailofsky, ‘Drafting Errors’), e un altro con dati ricavati da videocamere GoPro su competizioni amatoriali (di Bertasius et al., ‘Learning an Egocentric Basketball Ghosting Model’).

Per gli altri due sport, il football americano e il baseball, sono stati accettati 2 lavori ciascuno, a completamento di un triumvirato di sport di squadra americani tra i lavori finalisti della conferenza.

Al di fuori dagli sport americani più popolari, è il calcio (o Association Football) a essere il più rappresentato nelle ricerche, con un lavoro e 3 poster. Chiude la lista un progetto sugli eSports (di Maymin, ‘An Open-Sourced Optical Tracking and Advanced eSports Analytics Platform for League of Legends’), solamente il secondo, per quanto ne sappia, alla SSAC.

Il tennis e l’hockey su ghiaccio sono presenti con un poster a testa, anche se lo studio per la categoria hockey include una sottomissione anche per la categoria basket. Il lavoro sul tennis arriva dal gruppo a cui appartengo, il Game Insight Group (di Kovalchik e Reid, ‘Going Inside the Inner Game’).

Il mero conteggio potrebbe far pensare che sia il basket su cui il maggior numero di ricerche analitiche nello sport è incentrato. Considerando però la forte connotazione nordamericana dei ricercatori che hanno inviato i lavori e dei giudici che che li hanno esaminati, non necessariamente è un’immagine esaustiva delle tendenze più generali nell’analisi statistica sportiva nel mondo.

Temi trattati

In assenza di temi e parole chiave associate ai lavori presentati alla SSAC, la categorizzazione dell’argomento principale alla base di ogni ricerca si riduce a un’interpretazione soggettiva. Avendo letto tutti i lavori, credo che la ripartizione in tabella sia una rappresentazione ragionevole di ogni questione di fondo affrontata da ciascuno di essi. 

I temi che più si sono distinti tra i lavori presentati sono stati l’introduzione di nuovi indici di rendimento e la valutazione delle abilità e del talento degli atleti, ciascun tema con 2 lavori specifici. Un lavoro è stato dedicato all’identificazione degli stili di gioco e uno all’identificazione delle tendenze di gioco.

L’appellativo di inedito spetta a uno studio sulla previsione degli infortuni (di Ward et al., ‘Volume and Intensity are Important Training Related Factors in Injury’) e a uno sulla gestione quotidiana del portafoglio negli sport di fantasia [di Haugh e Singal, ‘How to Play Strategically in Fantasy Sports (and Win)’]‘.

Con un 50% di poster in più rispetto ai lavori, la diversità di argomento è maggiore in questo gruppo. Solo il tema della valutazione della strategia ha prevalso, grazie alle ricerche su calcio e basket di Bornn e co-autori.   

Ci sono stati 2 studi che hanno esaminato metodi per l’identificazione di tendenze di gioco, mentre altri 2 progetti tra i poster presentati hanno introdotto soluzioni per automatizzare il processo di analisi dei filmati o dei video con la prospettiva dell’atleta.

Con un solo poster ciascuno, alcuni dei temi più trattati in passato, come la valutazione delle scelte nel draft o l’introduzione di indici di prestazione, non hanno avuto lo stesso approfondimento. È curioso come nessuno studio per la SSAC 2018 abbia analizzato le problematiche relative alla programmazione dei calendari di gioco nello sport, nonostante l’argomento sia di estrema attualità.

Dati esaminati

La possibilità di esaminare alcuni dei dati più ambiti nello sport è spesso una caratteristica delle ricerche per la SSAC. Come categoria a sé stante, i dati derivanti da tracciatura (tracking data) sono stati i più utilizzati, comparendo, in una forma o nell’altra, in 12 dei 20 studi.

Il sistema con videocamere a copertura integrale del campo implementato da STATS SportsVU è quello che ha rilasciato più dati, presente in 4 degli studi. Pur rimanendo la tracciatura basata su videocamere il metodo più diffuso per raccogliere dati di posizione tra le ricerche della SSAC, è interessante vedere anche alternative come l’applicazione di sensori o la tracciatura ottica.

La maggior parte dei rimanenti lavori ha raccolto dati diretti, tra cui 2 delle ricerche sull’analisi manuale dei filmati e dei video con la prospettiva dell’atleta, con i campioni di dati strutturati in modo specifico per la ricerca in questione.

Tre studi (1 lavoro e 2 poster) hanno utilizzato dati punto-per-punto di pubblico dominio. Considerando che la maggior parte dei dati derivanti da tracciatura e di quelli raccolti direttamente sono privati, è incoraggiante sapere che esiste ancora la possibilità di produrre lavori inediti con dati disponibili a tutti che possano rientrare nella candidatura alla SSAC. 

Metodologie applicate

Dando uno sguardo alle metodologie applicate in ciascun lavoro e poster, emerge in modo forte e persistente un tema di fondo, quello delle reti neurali, che in una forma o nell’altra sono state utilizzate come strumento principale in 8 studi su 20. Due motivi rendono questa statistica meno sorprendente di quanto possa sembrare.

Da un lato il termine ‘rete neurale’, con il significato qui inteso, è piuttosto generico e ricomprende diversi modelli: convoluzionale, ricorrente, etc.

Inoltre, vista la popolarità delle reti neurali per la tracciatura di dati e dei video con prospettiva dell’atleta, la quantità di dati derivanti da tracciatura usati nei lavori per la SSAC rende più scontati gli esiti sull’analisi delle metodologie.    

Ero particolarmente interessata all’applicazione del raggruppamento per traiettoria (di Hobbs et al., ‘Quantifying the Value of Transitions’) e all’apprendimento per rinforzo (di Wang et al., ‘The Advantage of Doubling’), il primo perché sembra funzionale alla risoluzione di molte delle problematiche di tracciatura dati e il secondo perché si adatta in modo del tutto naturale alla valutazione delle strategie. Modelli formali bayesiani compaiono in 2 lavori, mentre altri 2 hanno stupito i giuridici della SSAC facendo uso della vecchia sana regressione lineare.

Riepilogo

Anche tenendo conto dell’enfasi sugli sporti americani, è interessante che un’iniziativa di fatto lanciata e portata avanti dal baseball si stia orientando sempre di più verso il basket (quantomeno per quello che si può vedere in termini di lavori alla SSAC).

Con una partecipazione così ridotta, molte delle tendenze in atto sono alimentate da un ristretto gruppo di ricercatori, guidati dai Bornns, Luceys e Goldsberrys del mondo analitico.

C’è chiaramente molto più da aggiungere alla storia dell’evoluzione dell’analisi sportiva di quanto una conferenza possa dire, ma è comunque un’occasione rivelatrice delle dinamiche in atto. 

Si se desidera approfondire uno qualsiasi dei lavori o poster che hanno partecipato alla SSAC 2018, sono liberamente scaricabili qui.

Research Highlights from 2018 MIT Sloan Analytics Conference