Pubblicato il 7 agosto 2019 su HiddenGameOfTennis – Traduzione di Edoardo Salvati
// Il riferimento è a un articolo sul sito dell’ATP che ha la pretesa di fornirci questo tipo di indicazione: “Un’immersione in profondità di Infosys ATP Insights sui primi 50 giocatori che, dall’inizio del 2019, fanno il break dal punteggio di 40-0 e servizio per il l’avversario, rivela che da questo abisso in media si ottiene il break solo nell’1.38% dei casi (84/6027)”. Questa statistica è definita la “più dura nel tennis”. Viene poi presentata la seguente tabella.
IMMAGINE 1 – Game vinti alla risposta dal 40-0 per l’avversario, dall’inizio del 2019
Un’immersione in profondità nei dati, ma senza dati
Lasciando stare se è per davvero la “statistica più dura nel tennis”, sono sicuro che si riesce a trovare qualche evento nel tennis meno probabile dell’1.38%. Il primo che mi viene in mente è per una giocatrice di vincere 23 titoli Slam, il secondo è di vincere un set dal punteggio di 0-5 e alla risposta. E molti altri.
Vediamo invece se Infosys ha in realtà svelato qualcosa di interessante in riferimento a questi recuperi impossibili. Dimentichiamoci del singolo giocatore per un momento. Dimentichiamoci anche di qualsiasi dato punto per punto delle partite effettivamente giocate nel 2019. Sappiamo che in media un giocatore vince, in una partita del tabellone principale di un torneo del circuito maggiore, circa il 62.5% dei punti al servizio. Senza fare ricerche specifiche, inserendo questo valore in un modello Markov otteniamo che il giocatore al servizio ha, all’inizio del game, il 78.5% di probabilità di tenere il servizio. Detto altrimenti, anche sullo 0-0, il generico giocatore alla risposta ha solo il 21.5% di probabilità di fare il break.
Serve della matematica aggiuntiva (ugh) o un foglio di calcolo orribilmente contorto come il mio (ebbene sì!), o ancora un codice Python dalla pagina GitHub di Jeff Sackmann (per andare sul sicuro), per sapere che sul 15-0 la probabilità del generico giocatore al servizio scende al 12.4%. Sul 30-0, la stessa probabilità è solo del 5.5%, mentre sul 40-0 e dell’1.40%. Suona familiare? Riprendiamo l’estratto dal paragrafo iniziale. Senza “svelare” alcun dato dalle partite giocate, siamo in grado di giungere alla probabilità media di ottenere il break dal punteggio di 40-0 sul servizio dell’avversario.
Che ne è dei giocatori della tabella?
La tabella ordina i giocatori sulla base del numero di game vinti da un punteggio di 40-0 sul servizio dell’avversario. Alcuni dei numeri sembrano seriamente impressionanti, in particolare sapendo che il break arriva solo l’1.4% delle volte contro un giocatore medio al servizio. Però, molti dei giocatori in elenco sono colpitori eccezionali alla risposta, cioè faranno il break più spesso in una qualsiasi situazione.
Per capire se Infosys è arrivata a conclusioni inedite — e con questo intendo chiedermi: è una statistica da cui possiamo dedurre informazioni in più su un giocatore che non avremmo potuto derivare semplicemente dalla bravura alla risposta? — nella tabella che segue ho aggiunto una colonna. Si tratta della percentuale di break attesi dal punteggio di 40-0, in funzione della percentuale di punti vinti al servizio dell’avversario.
IMMAGINE 2 – Percentuale di break attesi dal 40-0 in funzione dei punti vinti al servizio dall’avversario
Voglio essere chiaro. Non sto implicando che ci sia qualcosa di sbagliato in questo elenco o che lo siano i calcoli. Dopo tutto, sono recuperi realmente accaduti. Tuttavia, voglio capire se quelle percentuali di vittoria sottintendono l’esistenza di un talento speciale nel ribaltare il risultato dal 40-0, o se sono percentuali di vittoria che ci si attende rispetto alla bravura alla risposta dei giocatori in esame.
La risposta è “forse” relativamente ai primi cinque, i cui risultati sono andati oltre le aspettative per più di quanto avremmo ipotizzato dalla casualità, e “probabilmente no” per i restanti cinque.
Perché “forse” per i primi cinque?
Non possiamo stabilire se sia un talento che supera la bravura alla risposta di ciascuno dei cinque senza sapere se è ripetibile su molteplici periodi di tempo. La bravura alla risposta è ripetibile, non lo è generalmente fare più break di quanto atteso. Siamo in presenza di un’eccezione, sebbene esigua? Ho molti dubbi al riguardo, ma mi piacerebbe essere smentito.
Infosys ha tutti i dati a disposizione, e sarebbe stato quindi utile vedere se gli stessi nomi avessero fatto la loro apparizione anche nel 2018 e 2017 (suppongo che nessuno abbia pensato di verificarlo, che è un altro modo per dire che spero che non ci sia stato qualcuno che abbia guardato gli altri anni e omesso i valori perché non in linea con la tesi principale).
Abbiamo invece un’immersione in piscina che presenta conclusioni in modo più definitivo di quanto probabilmente lo siano. L’ATP dovrebbe esigere di più dal suo fornitore di dati. ◼︎