Un’analisi delle partite Slam più lunghe di sempre

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 24 maggio 2020 – Traduzione di Edoardo Salvati

La sospensione della stagione tennistica ha lasciato tempo per dedicare attenzione a progetti che normalmente stazionano nel cassetto. In questo articolo, condivido i retroscena del mio tentativo di costruire un database complessivo dei risultati di tutte le partite di singolare che siano mai state giocate nei tornei dello Slam. Grazie a Wikipedia e a settimane di manipolazione dei dati, sono in grado di mostrare la prima analisi su questo blog che ricomprende l’intera storia di competizioni negli Slam, quella delle partite più lunghe di sempre.

Diverse settimane fa ho candidamente inseguito l’idea di raccogliere i dati relativi ai tabelloni di tutti gli Slam dalle pagine di Wikipedia. All’interno del Grand Slam Project di Wikipedia, è possibile trovare una pagina con tutti i risultati di singolare per ogni Slam maschile e femminile, dalla prima partita giocata a Wimbledon 1877 fino alle finali degli Australian Open 2020.

Vi presento Wikidraws

Si è trattato di un lavoro di ricerca ben più arduo di quanto avessi sperato, considerando le variazioni della struttura dei tornei nel corso degli anni e le diverse modalità d’inserimento delle informazioni in ciascuna pagina. Più di una volta ho pensato di gettare la spugna. Di fronte però alle energie profuse dai volontari di Wikipedia non potevo certamente tirarmi indietro, soprattutto in nome della storia del tennis.

Il risultato finale è il database Wikidraws, che contiene sia il codice per andare a fare incetta di dati, sia i sottoinsiemi attuali di dati organizzati per evento. Oltre ai dati di ciascun evento, sono inclusi anche i game vinti da ogni giocatore e i punti dei tiebreak che sono stati giocati. Ho fatto molta fatica ad avvalorare i dati delle partite. In diverse occasioni dal controllo sono emersi errori che, dopo una controverifica, ho sistemato manualmente. Per quanto abbia fiducia nelle informazioni su Wikipedia, ho il sospetto che ci siano ancora in giro errori o incompletezze. Ogni correzione al riguardo è benvenuta.

Viene da chiedersi la necessità di un database come Wikidraws quando c’è già Wikipedia. La ragione principale risiede nel vantaggio di avere i dati accorpati, così da poter fare più interrogazioni simultaneamente ed espandere il raggio d’azione dell’attività investigativa. In molti di certo sanno che il tiebreak escogitato da James Van Alen fu introdotto negli Slam a partire dagli anni ’70. Quanti erano invece al corrente che per diversi anni dalla prima comparsa a Wimbledon, il tiebreak si giocava sul punteggio di 8-8? Ancora, quanti erano a conoscenza che la spinta all’adozione del tiebreak arrivò dalla finale di Wimbledon 1969 tra Pancho Gonzales e Charlie Pasarell, durata ben 112 game?

L’1% delle partite più lunghe per game giocati

Per quanto non l’unico, Wikidraws è un prezioso strumento con cui fare questo tipo di scoperte. Rimanendo in tema di durata della partita, ho composto un grafico che rappresenta l’1% di quelle più lunghe, per numero di game giocati, in campo maschile e femminile in ciascuno Slam. Come referenza, il diagramma a scatola e baffi (boxplot) grigio nel grafico mostra i cinque parametri statistici di riepilogo (valore minimo e massimo, 25esimo percentile, mediana e 75esimo percentile) per i game giocati in tutte le partite completate, mentre i punti verdi rappresentano gli estremi di ogni evento (nella versione originale, è possibile visualizzare i dettagli dell’anno e dei protagonisti puntando il mouse sul grafico, n.d.t.).

IMMAGINE 1 – Distribuzione della partite Slam maschili e femminili per durata in termini di numero di game giocati

Per ogni edizione degli Slam, è chiara la deviazione verso destra nella distribuzione delle partite. È interessante però notare l’alta concentrazione della maggior parte dell’1% di partite dalla durata più estrema. Poche sono arrivate a raggiungere l’eternità di Gonzalez contro Pasarell o di John Isner contro Nicolas Mahut a Wimbledon, e tra quelle che si avvicinano per molte ci si trova prima dell’avvio dell’era Open.

Confronto con le donne

Si possono fare anche validi confronti tra generi. Le partite femminili più lunghe in assoluto non arrivano in ogni caso a un terzo della durata della maratona record tra Isner e Mahut. Però, in anni passati in cui anche le donne hanno adottato il formato al meglio dei cinque set, emerge che molte giocatrici hanno disputato partite identiche in lunghezza al 25% delle più lunghe partite Slam maschili. Nei grafici si distingue anche lo sparuto gruppo di partite con almeno 100 game. Io sono riuscita a contarne solo quattro, di cui tre a Wimbledon e una agli US Open.

Un ringraziamento speciale a Yan Holtz per il codice di elaborazione per il diagramma a scatola e baffi, che è stato il punto di partenza nella costruzione dei grafici dell’articolo.

Charting the Longest Slam Matches of All Time

Alcune tra le imprese più sorprendenti nella storia recente degli Slam

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 18 aprile 2020 – Traduzione di Edoardo Salvati

Con molto tempo a disposizione per indugiare nei ricordi legati al tennis, ho pensato che sarebbe stato divertente fare una classifica delle imprese più incredibili negli Slam. A questo proposito, il guadagno ottenuto dal singolo giocatore in termini di valutazione del suo livello di bravura nel corso di un torneo è utile all’identificazione di risultati a sorpresa, in questo caso dagli anni 1990 a oggi.

Effetto sorpresa

Uno degli aspetti più interessanti dei sistemi di valutazione come Elo, basati cioè sulle probabilità, è che incorporano l’effetto sorpresa. L’aggiornamento della valutazione di un giocatore segue temporalmente i suoi risultati ed è di fatto una misura ponderata della prevedibilità o imprevedibilità del risultato. Quando Kevin Anderson ha sconfitto Roger Federer a Wimbledon 2018, alla vigilia della partita aveva solo una probabilità di vittoria su cinque. Si è trattato quindi di una sorpresa che ha dato una grande spinta alla sua valutazione. I sistemi di valutazione operano questi calcoli a ogni partita e per ogni risultato, fornendo così un’istantanea dell’effetto sorpresa consultabile in qualsiasi momento.

Sono variazioni parte del processo di auto-correzione di questo tipo di sistemi di valutazione. In generale, se un sistema è efficace non si lascia sorprendere troppo spesso. Ci sono però occasioni in cui una vittoria fa saltare il banco, pensiamo ad esempio a quella di Lukas Rosol contro Rafael Nadal a Wimbledon 2012. Non capita di frequente di assistere a vittorie a sorpresa di fila perché, se succede, significa che probabilmente si è verificato qualcosa di straordinario.

Possiamo provare a isolare quelle occasioni osservando il guadagno complessivo di punti validi per le valutazioni in un torneo (secondo il mio sistema di valutazioni Elo), dalla prima all’ultima partita giocata. Con le mie valutazioni storiche, che attualmente tornano indietro fino al 1990 per gli uomini e al 1997 per le donne, ho trovato che incrementi di almeno 160 punti rappresentano il 5% superiore dei risultati che sono andati oltre le attese negli Slam. Ci concentriamo quindi su questo 5%.

Uomini

Nel periodo considerato, solo due giocatori a fine di un torneo Slam sono riusciti a far aumentare la propria valutazione di più di 200 punti rispetto a quella iniziale. Il maggior guadagno in assoluto è stato di Gustavo Kuerten con la vittoria del primo Slam al Roland Garros 1997. Fuori dalle teste di serie, ha sorpreso davvero tutti. Anche con i punti guadagnati dopo ogni turno, era comunque il giocatore sfavorito in tutte le partite tranne una che, curiosamente, è stata la semifinale contro Filip Dewulf, sulla carta la partita più facile.

Il secondo posto è occupato da Andrei Medvedev (che non ha parentele con Daniil Medvedev), che ha raggiunto la finale del Roland Garros 1999, che si è poi rivelato anche il miglior risultato in uno Slam. Quella sconfitta è stata la sesta di fila contro Andre Agassi, e deve aver spento definitivamente la volontà di Medvedev nella conquista di un altro Slam.

IMMAGINE 1 – Primo 5% delle imprese più sorprendenti negli Slam maschili dal 1993 al 2020 sulla base del guadagno totale di punti del sistema di valutazione Elo

Nadal al Roland Garros

Prima del dominio di Nadal, ho sempre avuto l’impressione che il Roland Garros fosse tra i quattro Slam quello con i risultati più “strani”. E credo che questa ne sia una conferma. Non solo i due più sorprendenti sono in cima all’elenco, ma ben 8 dei 23 risultati che rientrano nel primo 5% sono di imprese avvenute sulla terra battuta di Parigi. Poi, dal 2005 al 2013, Nadal ha normalizzato la situazione a suo favore. Mi ha incuriosito quindi vedere che la sua vittoria al Roland Garros 2014 rientra tra le sorprese. Anche se Nadal non ha praticamente ottenuto punti dai primi quattro turni, la difficoltà delle vittorie contro David Ferrer, Andy Murray e Novak Djokovic (il quale aveva in quel momento una valutazione complessiva più alta) è stata sufficiente per un guadagno di 166 punti rispetto alla valutazione di inizio torneo.

Anche i nomi più prestigiosi

Ci sono poi anche alcuni dei nomi più prestigiosi del tennis maschile, e si può pensare che siano le loro prime vittorie di uno Slam. Non è così. C’è l’ultima vittoria agli US Open 2002 di Pete Sampras, dopo due anni di assenza dall’albo d’oro negli Slam. Per certi versi simile, c’è la vittoria di Djokovic a Wimbledon 2018, la prima dal Roland Garros 2016, in cui era riuscito a completare tutti i tornei Slam. Sono presenti anche Andre Agassi e Federer, in fasi diverse di rinascita della loro carriera.

Come qualche volta accade, la mancanza di dati può generare storie altrettanto interessanti. Nel caso delle sorprese negli Slam, i dati mancati si riferiscono alla lunga sequenza di risultati secondo pronostico tra la semifinale di Rainer Schuettler a Wimbledon 2008 e la vittoria di Nadal al Roland Garros 2014. Solo il titolo conquistato da Juan Martin Del Potro agli US Open 2009 ha interrotto brevemente le vittorie dei favoriti negli Slam, dando vita al periodo più continuo di risultati prevedibili negli Slam degli ultimi tre decenni.

La storia di Vladimir Voltchkov merita una nota finale. Nel 2000, Voltchkov, un giocatore juniores con poche sortite sul circuito maggiore, arrivò a Wimbledon con una valutazione appena superiore a 1600. Anche ispirato dall’epica del film Il Gladiatore di quello stesso anno, Voltchkov riuscì incredibilmente a sopravvivere ai primi 5 avversari per poi essere eliminato senza patemi da Pete Sampras nella sua unica semifinale Slam.

Donne

Purtroppo le mie valutazioni storiche per il tennis femminile non coprono un periodo così ampio. Però, anche dai soli risultati negli anni 2000 è chiaro che le imprese più sorprendenti hanno seguito dinamiche decisamente diverse da quelle degli uomini. In primo luogo, il Roland Garros compare solo una volta, quando Jelena Ostapenko ha vinto nel 2017 diventando la prima dopo Kuerten ha vincere uno Slam come primo torneo in assoluto del circuito maggiore.

Inoltre, la maggior parte delle sorprese più recenti si sono verificate agli Australian Open (8 delle 22 del grafico). La più inaspettata di questo gruppo è stata la vittoria di Serena Williams nel 2007, a seguito di una serie di infortuni che nel 2006 le avevano fatto saltare gran parte della stagione e retrocedere al numero 139 in classifica.

IMMAGINE 2 – Primo 5% delle imprese più sorprendenti negli Slam femminili dal 1999 al 2020 sulla base del guadagno totale di punti del sistema di valutazione Elo

Kim

Sembra quasi scritto che la vittoria agli US Open 2009 di Kim Clijsters dopo il rientro alle competizioni superi per sorpresa anche la vittoria di Serena nel 2007. Sono infatti le due giocatrici che meglio di tutte hanno gestito maternità e professionismo in momenti diversi della carriera. Se in molti erano convinti che Serena avrebbe vinto uno Slam poco dopo aver partorito, è in realtà Clijsters l’unica a raggiungere quel traguardo. E c’erano buone possibilità che almeno una delle sorelle Williams avrebbe interrotto il cammino di Clijsters, prima Venus negli ottavi di finale, con il 90% di probabilità di vittoria, e poi Serena in semifinale. Dopo solo un mese nel circuito maggiore, con un altro Slam vinto e 300 punti aggiunti alla sua valutazione, è Clijsters a ricevere il premio di impresa più sorprendete negli Slam degli ultimi trent’anni.

Some of the Most Surprising Runs in Recent Grand Slam History

Il ritorno alla forma Slam dopo una lunga pausa: l’esempio delle due guerre mondiali

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 28 marzo 2020 – Traduzione di Edoardo Salvati

Se si escludono le due guerre mondiali, durante le quali molti Slam furono cancellati, non c’è stato un periodo nella storia del tennis di profondi sconvolgimenti come quello attuale. In questo articolo, guardiamo ai vincitori di tornei Slam nei dieci anni antecedenti e successivi alla Prima e alla Seconda guerra mondiale per trarre possibili indicazioni su quanto è difficile rientrare alla normalità dopo un evento così distruttivo.

Anche di fronte alla situazione inedita, per i tempi moderni, di una pandemia di queste proporzioni, il passato può essere una guida di quello che ci attende. Per gli appassionati più fortunati, senza altra grande preoccupazione che la sospensione del gioco, significa analizzare i precedenti in cui la stagione è stata interrotta così a lungo. Pochi sono gli eventi che hanno costretto il calendario sportivo a fermarsi, e gli anni testimoni delle due guerre mondiali sono il paragone più immediato.

Più di un secolo ci separa ormai da quegli avvenimenti che costrinsero tre dei quattro Slam a saltare diverse edizioni, facendo emergere la mancanza di una risposta coordinata da parte degli organizzatori, una delle poche costanti nella storia del tennis. Gli US Open ad esempio furono giocati in tutti gli anni martoriati dalla guerra.

Per recitare un dramma di cui il passato è il prologo

Il tennis che ha preceduto l’introduzione dell’era Open ha poco in comune con le dinamiche da vera e propria industria del professionismo in mostra in quello attuale. È comunque di interesse storico osservare come il massimo livello dello sport ha reagito nell’unico altro momento in cui si è trovato di fronte a una crisi fuori dall’ordinario.

Nell’immagine 1, ho cercato di illustrarne l’impatto con una rappresentazione temporale dei vincitori Slam nei dieci anni che precedono e che seguono le due guerre mondiali, per avere un’idea di quanti giocatori hanno dovuto rinunciare a una carriera più lunga.

IMMAGINE 1 – Rappresentazione temporale dei vincitori Slam nei dieci anni precedenti e successivi alle due guerre mondiali

Prima guerra mondiale

Iniziando dalla Prima guerra mondiale, quattro giocatori hanno perso la vita tra il 1915 e il 1919: Laurence Doherty, Anthony Wilding, Ernie Parker e Arthur O’Hara Wood. Wilding, neozelandese, e gli australiani Parker e O’Hara Wood, sono caduti di guerra, il sacrificio ultimo per la patria. Nessuno tra i vincitori Slam negli anni appena antecedenti al conflitto è riuscito a replicare il successo alla ripresa. Solo pochissimi giocatori, come William Johnston che ha vinto due volte gli US Open durante la guerra, sono rimasti al vertice anche dopo la fine delle ostilità.

Seconda guerra mondiale

Simile andamento emerge per quei giocatori la cui carriera si è fatalmente sovrapposta allo scoppio della Seconda guerra mondiale. Henner Henkel e Joe Hunt sono morti in guerra, Hunt a poco più di un anno dalla vittoria contro Jack Kramer agli US Open 1943. Ci sono però due eccezioni, cioè Adrian Quist e John Bromwich. Quist, australiano, ha vinto gli Australian Open per tre volte prima, durante e dopo la guerra (1936, 1940, 1948). Il connazionale Bromwich ha avuto un percorso analogo, con le vittoria agli Australian Open del 1939 e del 1946.

La competizione nell’era del dilettantismo non si è mai neanche avvicinata al livello del professionismo del tennis contemporaneo, e questo rende l’assenza di ritorno al vertice tra giocatori di quell’epoca storica ancora più punitiva.

Se il passato del tennis è di qualche insegnamento, una pausa così lunga chiederà un tributo concreto e metaforico. Speriamo che lo sport, come qualsiasi altro ambito umano, non debba più affrontare esperienze così drammatiche.

What the World Wars Might Tell Us About Returning to Top Slam Form After a Long Hiatus From Play

E ora, cosa guardiamo? Edizione femminile

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 27 marzo 2020 – Traduzione di Edoardo Salvati

In un precedente articolo, ho descritto un possibile metodo per ottenere in automatico una classifica delle partite più interessanti sulla base del turno, del margine di game, cioè la differenza di game vinti, e dei game totali giocati. Dopo averlo applicato per le trenta migliori partite Slam maschili dal 1990, è la volta di fare lo stesso per trovare le migliori partite Slam femminili dal 1997.

In breve, la statistica “interessante” ha l’obiettivo di fornire uno strumento per classificare la spettacolarità, competitività e qualità di tutte le partite nella storia del tennis per le quali è possibile avere dettagli specifici sul punteggio. I numeri effettivamente coinvolti nel calcolo sono i game totali, il margine di game e il turno. Per turno s’intende una categoria numerica ponderata che attribuisce l’importanza maggiore alle fasi finali e quella minore alla prima giornata di qualificazione.

Partite lunghe e competitive

Nel caso delle partite femminili, ci si attende una distribuzione meno sbilanciata rispetto al fattore durata, visto che anche negli Slam si gioca al meglio dei tre set. Inoltre, ci si aspetta una più alta densità di partite contestualmente lunghe e competitive (con un margine di game basso). E, di solito, così accade, come dimostra li grafico nell’immagine 1 sulle partite Slam dal 1997. Quasi tutte le partite delle prime 30 sono una deviazione standard sopra alla media per game totale e per margine di game.

IMMAGINE 1 – Distribuzione delle variabili centralizzate e in scala della statistica di interesse delle partite Slam femminili (qualificazioni e tabellone principale) dal 1997 al 2020

La tabella elenca le trenta partite del periodo considerato con l’indice d’interesse più alto, in cui troviamo diverse di quelle giocate recentemente. Ma c’è anche un primo turno degli Australian Open 2001 tra Greta Arn e Jana Nejedly che, con 44 game totali, è il terzo più lungo (per game giocati) della lista.

Sarebbe curioso sapere cosa è successo ma, come per molte partite femminili, e a differenza di quelle maschili, non ci sono video integrali o anche solo dei punti più significativi. È una carenza che andrebbe colmata, servono più filmati di qualità, anche per avere una piacevole distrazione in questi tempi decisamente difficili.  

What Do I Watch Now (Part 2)?

E ora, cosa guardiamo?

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 26 marzo 2020 – Traduzione di Edoardo Salvati

Non sembra possa esserci del tennis giocato nell’immediato futuro (anche l’edizione di Wimbledon 2020 è stata appena cancellata, n.d.t.), e gli appassionati si sentono in mancanza di partite da guardare. Se però avete pensato di dedicarvi a qualche grande classica e non sapete dove iniziare, ho la soluzione per voi! Costruendo un indice di interesse che mette insieme durata della partita, competitività e qualità, ho prodotto una classifica delle trenta partite maschili più coinvolgenti dal 1990 a oggi.

Viaggio nel passato

In crisi d’astinenza da sport attuale, mi sono messa a rovistare su internet per gli elenchi delle partite più belle nella storia del tennis. Ho rivisto così la finale del Roland Garros 1984 tra John McEnroe e Ivan Lendl, in cui Lendl è finalmente riuscito a vincere il primo Slam a spese dell’occasione migliore in carriera per McEnroe di vincere a Parigi.

Un altro momento che ricordo per la qualità delle partite e per il significato storico sono stati gli US Open 2002. Non sapevamo li per li che sarebbe stato l’ultimo Slam vinto da Pete Sampras e anche il suo ultimo torneo da professionista. Ci sono state poi molte partite incredibili nelle fasi finali di quell’edizione, che sono ancora più avvincenti sapendo in anticipo come è andata a finire.

Si trovano molte selezioni di “partite fantastiche” in giro. Sono certamente grandi partite, ma ho il sospetto che la scelta sia dettata più dalle preferenze e dal tifo del singolo autore che da una valutazione oggettiva. Mi sono chiesta quindi come sarebbe un elenco selezionato sulla base di un criterio statistico. Non esiste naturalmente una statistica specifica in grado di catturare le sfumature e il contesto di una partita davvero speciale. Di contro però, potrebbero emergere delle gemme che, per qualsiasi motivo, non hanno ricevuto l’attenzione che avrebbero meritato.

Come definiamo quantitativamente un classico?

Ci sono diversi modi. Si può usare l’Indice Emozionale creato da Jeff Sackmann che considera la volatilità della probabilità di vittoria attesa mentre la partita è in corso. Oppure la statistica Partita imperdibile, che ho ideato per stabilire una priorità nella scelta di quale partita vedere tra quelle ancora ancora da giocare, sulla base della qualità e della competitività che la valutazione dei giocatori lascia intendere potrà emergere dalla specifica partita.

Per un elenco di partite storiche però, ero alla ricerca di una metodologia adatta a qualsiasi partita, potenzialmente anche quelle precedenti all’era Open. Questo vuol dire ridurre i parametri alla categoria del torneo, al turno e al punteggio dei game. È abbastanza per distinguere tra le partite più entusiasmanti e quelle meno?

Per rispondere dobbiamo chiederci quali aspetti definiscono un “classico”. Ognuno di noi ha certamente una preferenza al riguardo, ma per molti le partite memorabili tendono a essere quelle con numerosi cambiamenti di fronte, il concetto alla base della “volatilità” dell’Indice Emozionale di Sackmann. Non disponendo, per quasi tutte le partite, della probabilità di vittoria attesa durante la partita, si può usare il numero totale dei game come valido indicatore di classicità nelle partite in cui entrambi i giocatori sono stati in vantaggio in un momento o nell’altro.

Le variabili di base

Partite molto lunghe non vuole necessariamente dire partite competitive. Possiamo quindi verificare anche il margine di game, cioè la differenza di game vinti dai due giocatori, per determinare il livello competitivo. Infine, c’è l’elemento qualitativo. Normalmente, mi affiderei alla valutazione dei giocatori ma, in questo caso, ci sono un paio di controindicazioni. Cercare di applicare un sistema di valutazioni alle partite precedenti all’era Open avrebbe poco senso. E forse è giusto così perché la qualità del tennis prima del 1968 non poteva certamente reggere il confronto con la competitività introdotta e richiesta dalla professionalizzazione dello sport. Ciononostante, in ottica storica, sarebbe preferibile una statistica utilizzabile da quando le partite hanno iniziato a essere registrate su supporto video.

Un altro fattore è che la maggior parte dei sistemi di valutazione non si adatta efficacemente alle circostanze in cui un giocatore è in rapida ascesa o che ha raggiunto uno stato di forma clamoroso ma di breve durata. Detto diversamente, ci sono volte in cui i giocatori possono essere sottovalutati perché il sistema ha bisogno di un periodo più lungo di risultati costanti per cambiare opinione.

Un’alternativa secca per ovviare a queste limitazioni è quella di concentrarsi unicamente sul turno raggiunto negli Slam. La logica è quella per cui un giocatore capace di spingersi fino alle fasi finali di uno Slam probabilmente sta mostrando una qualità di gioco eccelsa, a prescindere dal rendimento precedente a quel torneo o in quello successivo.

Una sola statistica

Possiamo combinare queste tre variabili – game totali, margine di game e turno – in una sola statistica attraverso un processo di standardizzazione e di computo complessivo (con una scala invertita per il margine, in modo che numeri più positivi corrispondono a più competitività). L’immagine 1 mostra la distribuzione di ciascuna variabile per tutte le partite Slam maschili dal 1990 al 2020. Le linee verdi indicano la posizione nella distribuzione delle prime 30 partite.

Il marcato spostamento sulla destra nei game totali e nei turni rende queste due variabili predominanti all’interno della statistica complessiva, ma tutte le partite più interessanti si trovano sopra la mediana anche nel margine di game. Il motivo per cui ci sono 10 turni e non tutti sono separati di un intero è perché sono comprese anche le qualificazioni e l’importanza dei turni è attribuita con maggior peso sulle partite della seconda rispetto alla prima settimana.

IMMAGINE 1 – Distribuzione delle variabili centralizzate e in scala della statistica di interesse delle partite Slam maschili (qualificazioni e tabellone principale) dal 1990 al 2020

Finalmente, l’elenco!

La tabella riepiloga la classifica delle prime trenta partite Slam maschili degli ultimi trent’anni, con in cima la più entusiasmante. Alcune sono universalmente apprezzate, ma spero che altre siano meno scontate, come la semifinale di Wimbledon 1996 tra Malivai Washington e Todd Martin o il quarto di finale agli Australian Open 1999 tra Nicolas Lapentti e Karol Kucera. Non mi aspetto che rimaniate tutti catturati da queste partite, ma confido che abbiate scoperto nuove sfide e magari anche nuovi giocatori. E se riusciamo a riscoprire l’ammirazione per i grandi giocatori del passato o consolidare quella per i giocatori del presente, almeno ci sarà una nota positiva nella situazione che stiamo vivendo.

What Do I Watch Now?

L’ipotesi non indipendente e identicamente distribuito nel tennis

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 20 marzo 2020 – Traduzione di Edoardo Salvati

In assenza di sport in campo per cause di forza maggiore, c’è più tempo per gli smanettoni dei numeri per scatenarsi. In questo articolo, cerco di rispondere alla domanda che dovrebbe stare a cuore di qualsiasi analista di tennis: ai giocatori si applica l’ipotesi non indipendente e identicamente distribuito (non iid)? Come si possono misurare le conseguenze relative a una situazione non iid? Perché dovrebbe interessarci? E quali sono stati i giocatori più non iid tra i primi 50 della classifica?

In uno dei rari studi di sport a essere pubblicato sul Journal of the American Statistical Association, i due giganti dell’analisi statistica del tennis Franc Klaassen e Jan Magnus si soffermano sull’ipotesi indipendente e identicamente distribuito (iid) per l’esito dei punti nel tennis. Se vi fosse mai capitato di fare una regressione, avrete già applicato l’ipotesi iid. Per un campione casuale di occorrenze, iid è un punto di partenza comodo e ragionevole. Nella fattispecie tennistica, iid è il modo più semplice per intendere la sequenza di punti in una partita. In sostanza, una volta che si conosce la media di punti vinti al servizio dal giocatore in quella partita si ipotizza che ogni punto al servizio sia una prova Bernoulli con la probabilità dell’esito “successo” pari alla probabilità di punti vinti al servizio del giocatore nella partita.

Da un punto di vista dell’analisi statistica, iid è una manna. Se i giocatori sono iid, allora qualsiasi quesito investigativo come vincere un set, vincere un tiebreak o vincere la partita si riduce a una qualche funzione della probabilità di punti vinti al servizio del giocatore.

Cosa succede però se i giocatori non sono iid?

Beh, la situazione si complica. L’ipotesi non iid vorrebbe dire che, in determinati momenti come ad esempio sul 30-30, i giocatori servono sistematicamente meglio o peggio. Dovremmo conoscere nel dettaglio quelle dinamiche per avere anche una speranza di descrivere le probabilità di risultato durante lo svolgimento di una partita.

Se guardando una partita vi è capitato di pensare che un giocatore ha il braccino o ha ceduto alla pressione, vi stavate esprimendo in termi di effetti non iid. Ci si è abituati ormai a vari cambiamenti di fronte nel corso di una partita che è difficile accettare il postulato per cui i giocatori sono iid. Quella che sembra una striscia vincente, o uno scenario sorprendente, è in realtà in linea con le probabilità associate a una sequenza di Bernoulli.

Se è possibile ricavare un insegnamento dallo studio di Klaassen e Magnus, è che la verità sta nel mezzo. Voglio cioè dire che i giocatori non sono iid, ma gli effetti del loro non iid sono molto più contenuti di quanto si potrebbe pensare. Così ridotti infatti che l’ipotesi iid, in molti casi nel tennis, è una descrizione estremamente veritiera dei risultati effettivi. Anche in presenza di effetti circoscritti, almeno nella media, è comunque possibile che alcuni giocatori mostrino un comportamento non iid più accentuato di altri. Quali sono tra quelli attualmente al vertice i giocatori meno iid in assoluto?

Una misura complessiva degli effetti non iid

Un modo per ottenere una misura complessiva degli effetti non iid in una partita è confrontare i game al servizio concretamente vinti da un giocatore con i servizi vinti in base alle previsioni iid. Chiamiamo g la proporzione di servizi vinti concretamente in una partita. Chiamiamo poi p la proporzione di punti vinti al servizio in una partita dal giocatore in esame e q quella del suo avversario. Date le caratteristiche espresse al servizio durante la partita, possiamo usare una simulazione Monte Carlo per calcolare una proporzione attesa di game vinti come ĝ(p,q).

Per fare un esempio pratico, nell’ultima partita prima della sospensione, Novak Djokovic ha vinto il 90% dei game al servizio, con una percentuale di punti vinti al servizio del 70% contro il 58% di Stefanos Tsitsipas. Inserendo probabilità al servizio del 70% e del 58% nel simulatore iid per una partita al meglio dei tre set, si riesce a determinare la stima dei game vinti al servizio per un grande numero di partite simulate.

Ho eseguito questa simulazione per le partite dal 2018 a oggi per tutti i giocatori tra i primi 50 (qualunque sia il significato attuale della classifica). L’immagine 1 mostra i risultati per tutte le partite, con in blu il non iid medio. I giocatori sono in ordine decrescente dall’alto verso il basso da quello con la media non iid più positiva a quello con la media non iid inferiore. Un effetto positivo qui significa che un giocatore ha vinto più game al servizio di quelli attesi rispetto alla sua percentuale di punti vinti al servizio e in ipotesi iid.

IMMAGINE 1 – Effetti non iid in partita per le partite dal 2018 a oggi per gli attuali primi 50 giocatori

Strategie basate sul servizio bomba

Proprio in cima troviamo tre dei giocatori con il servizio più potente: Reilly Opelka, Nick Kyrgios e John Isner. Quale può essere il motivo? Un’interpretazione è che i giocatori che fanno del servizio un colpo fondamentale lo utilizzano come elemento portante di una o due strategie per risolvere con efficacia i momenti più importanti della partita, come i game al servizio molto combattuti o le fasi conclusive. Potrebbe trattarsi di una modalità a disposizione di un giocatore per incrementare il rendimento nei game vinti al servizio, anche se poi la percentuale media di punti vinti al servizio rimane fondamentalmente invariata.

È interessante la presenza di diversi giocatori tra i primi dieci che non si pensa possiedano un servizio particolarmente forte, come ad esempio Pablo Carreno Busta, Jo Wilfried Tsonga o Denis Shapovalov. L’effetto non iid per loro è inferiore ma potrebbe essere dettato comunque dalla stessa strategia.

Anche se per questi giocatori la percentuale complessiva di punti vinti al servizio non è così alta, in ogni caso nei punti importanti al servizio potrebbero adottare una certa strategia o disposizione mentale che determina una divario misurabile tra previsione iid e previsione non iid.

Il caso di Carreno Busta

Nel caso di Carreno Busta, le tre partite con il massimo effetto iid sono terminate in una sconfitta, con i suoi avversari che hanno ottenuto più del 70% dei punti al servizio. Carreno Busta ha vinto più del 90% dei game al servizio in ognuna di quelle partite a dispetto di una percentuale relativamente bassa di punti vinti al servizio.

C’è stata la sconfitta nel 2019 agli Internazionali d’Italia contro Shapovalov, nella quale Carreno Busta ha vinto +17 punti percentuali di game al servizio rispetto alle attese iid. Come la sconfitta, sempre l’anno scorso, allo Shanghai Masters contro Dominic Thiem, nella quale ha vinto +14 punti percentuali delle attese. E la recente sconfitta a Rotterdam contro Felix Auger-Aliassime, nella quale ha vinto +13 punti percentuali. Sono occorrenze che evidenziano come gli effetti non iid potrebbero spiegare situazioni in cui un giocatore è riuscito a gestire egregiamente la pressione al servizio, ma ha comunque poi perso la partita.

La mentalità del campione

Non mi ha sorpreso vedere i Grandi Tre tra i giocatori più sistematici in termini di iid. Significa cioè che sono stati tra i meno influenzati dal contesto. O, detto in altro modo, sono giocatori che affrontano ogni punto come se avesse la stessa importanza, un aspetto che molti attribuiscono alla mentalità del campione. I lettori più attenti avranno notato che ci sono più giocatori dal lato positivo degli effetti non iid che dal lato negativo. Credo che in parte dipenda dal fatto che, considerati i pochi game al servizio giocati in una partita, soprattutto se una al meglio dei tre set, il risultato è più di tipo discreto con limite superiore di 1.

Una simile impostazione potrebbe tornare utile per altri indicatori di rendimento, oltre ai game vinti al servizio, più sensibili agli effetti non iid. L’elenco dei temi legati all’ipotesi non iid che meritano un approfondimento sembra davvero interminabile e di indubbia ispirazione per futuri articoli.

Are Top ATP Players Non-IID?

Chi vince e chi perde in caso di sospensione della classifica

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 13 marzo 2020 – Traduzione di Edoardo Salvati

L’annuncio di una sospensione di sei settimane del circuito maschile è solo l’ultimo di una serie di sconvolgimenti del calendario tennistico causati dalla pandemia COVID-19. In assenza di decisioni in merito alla possibilità per i giocatori di conservare la classifica attuale, cerco di capire il possibile impatto di un eventuale scenario in cui, per entrambi i circuiti, la classifica rimane inalterata per un periodo di tempo prolungato.

Con il continuo aumento dei casi di contagio in tutto il mondo e con le drastiche misure necessarie per contenere la diffusione del virus, era inevitabile che le conseguenze ricadessero anche sul tennis. Con la sospensione del circuito maschile che dovrebbe terminare pochi giorni prima dell’avvio del Roland Garros, in programma il 24 maggio 2020, potrebbe essere proprio lo Slam di Parigi il prossimo grande evento sportivo di tennis vittima dell’emergenza.

Raziocinio?

Sia gli organizzatori dell’Indian Wells Master che l’ATP hanno definito queste scelte una “sospensione”, invece di considerarla un’immediata cancellazione. Da un punto di vista finanziario, ha senso mantenere aperta la possibilità dello svolgimento del torneo in altra data, prima di rinunciare definitivamente al potenziale indotto economico associato. Con il passare del tempo però, e con il rinvio di altri tornei, la fattibilità di un deferimento si fa sempre più remota.

Di fronte a una situazione così drammatica, gli organismi decisionali dei due circuiti dovrebbero agire razionalmente e pianificare la gestione di un calendario fortemente accorciato. E uno dei temi più spinosi da affrontare è certamente la classifica dei giocatori.

Al momento sono solo congetture, ma sembra ragionevole ipotizzare che non ci saranno penalizzazioni per i tornei che sono stati cancellati (se così sarà perché non verranno effettivamente recuperati). In questo caso, l’impatto minore arriverebbe dal permettere ai giocatori di conservare la classifica alla viglia di Indian Wells.

Sarebbe una soluzione equa?

Un modo per valutare l’equità di una sospensione della classifica è di verificare quanto le posizioni in classifica variano in un periodo di tempo prolungato. L’immagine 1 mostra il cambiamento in un anno della classifica di quei giocatori che sono entrati almeno tra i primi 250 negli ultimi venti anni. I segmenti rappresentano lo scarto interquartile della variazione rispetto all’età dei giocatori. I grafici sono raggruppati per posizione massima in classifica.

Primi 10

Prendiamo la dinamica associata ai primi 10. Quando sono giovanissimi, il guadagno in classifica è normalmente di qualche centinaio di punti. Tra i venti e i venticinque anni raggiungono e si assestano sul livello di gioco più alto, rendendo quasi nulla la variazione anno su anno. Superati i trent’anni, inizia la fase discendente ed è più probabile assistere a una perdita più sostanziale di posizioni in classifica da un anno all’altro.

IMMAGINE 1 – Stabilità nella classifica maschile con la variazione su un anno delle posizioni dei giocatori, dal 2000 al 2020 (scarto interquartile)

Sono tutte tendenze che si può pensare di prevedere. E, in termini di generale crescita in classifica per fascia di età, l’andamento per i primi 10 è simile a quello di giocatori con una carriera meno ricca di successi: un maggior guadagno di posizioni nei primi anni sul circuito, una progressione stabile tra i venti e i trent’anni, seguita da una fase di declino nella parte finale. Per i giocatori che occupano le parti basse della classifica però, un avanzamento di posizioni nei primi anni non è mai altrettanto importante e nel periodo apicale è più probabile assistere a spostamenti minimi verso l’alto o verso il basso.

Donne

Nonostante parziali differenze nel sistema di assegnazione di punti per la classifica maschile e quella femminile, lo stesso meccanismo si ripete per le giocatrici.

IMMAGINE 2 – Stabilità nella classifica femminile con la variazione su un anno delle posizioni delle giocatrici, dal 2000 al 2020 (scarto interquartile)

Quali sono le implicazioni?

Abbiamo una chiave di lettura su quali giocatori trarrebbero probabilmente maggiori benefici o, viceversa, maggiori svantaggi dalla mancata opportunità di cambiare la loro classifica.

Djokovic e Federer

All’età di 32 anni, il numero 1 del mondo Novak Djokovic è in quell’intervallo della curva in cui rimanere al vertice per lunghi periodi vorrebbe dire andare contro pronostico. I giocatori tra i primi 10 a questo punto della carriera perdono tipicamente dieci di posizioni in un solo anno.

La situazione sarebbe ancora più precaria per i 38 anni di Roger Federer. A quell’età, non sono molti i giocatori a rimanere competitivi ad alto livello e quelli che riescono a non subire infortuni possono comunque attendersi di perdere quindici posizioni in un anno. In realtà, dopo aver compiuto trent’anni, Federer ha perso anche fino a quattordici posizioni in 52 settimane. Dovesse Federer tornare alla ribalta dopo l’operazione al ginocchio, sarebbe doppiamente fortunato in caso di sospensione della classifica.

IMMAGINE 3 – Variazione di classifica nell’arco di 52 settimane per quattro giocatori di vertice, con possibili guadagni e perdite attesi in caso di mancate opportunità nei prossimi mesi

Thiem e Auger-Aliassime

Quando riprenderanno le competizioni, saranno giocatori come Dominic Thiem che si trovano nel pieno della carriera ad aver avuto meno da perdere grazie al mantenimento della posizione attuale.

Sono invece giocatori in ascesa come Felix Auger-Aliassime, al momento il numero 20 del mondo a soli diciannove anni, che subiranno le conseguenze più negative di un’interruzione della classifica. Solitamente, in questo passaggio del loro percorso, giocatori destinati a entrare tra i primi 10 hanno guadagnato tra le 25 e le 150 posizioni della classifica in un solo anno. Ci si può fare un’idea nel grafico dal numero e dalla intensità degli incrementi che Auger-Aliassime ha collezionato, con guadagni annuali anche da 125 fino a 150 posizioni negli ultimi due anni.

Certezze e incertezze

La contrapposizione delle traiettorie di questo gruppo di giocatori obbliga a valutare se una stima della classifica non sarebbe un sistema più equo al momento della ripresa dei circuiti dopo una lunga sospensione. Se ad esempio non si torna a giocare prima di sei mesi, ci aspettiamo davvero che tutti i giocatori e le giocatrici siano in grado di mostrare lo stesso livello della loro attuale classifica?

Non credo che lo faremmo e sapremmo probabilmente chi dovrebbe trovarsi più in alto o più in basso rispetto all’età e alla forma più recente. Di sicuro però giocatori e appassionati non accetterebbero cambiamenti alla classifica che non siano legati a risultati effettivi. Ciò che è meno certo è quanto dovremo aspettare prima di vedere di nuovo delle partite su un campo da tennis.

Winners and Losers of a Rankings Hiatus

La corporatura dei primi 100 giocatori ATP nel confronto tra 2000 e 2020

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 22 febbraio 2020 – Traduzione di Edoardo Salvati

In un recente articolo sul Financial Times relativo al dominio del Liverpool nel campionato inglese, John Burn-Murdoch ha creato una visualizzazione dell’altezza e del peso dei giocatori di Premier League, della NBA e della NFL. Mi sono chiesta quindi come la corporatura dell’attuale gruppo di giocatori del circuito maschile si paragoni a quella di professionisti in altri sport e se c’è stato un cambiamento nella struttura fisica dei giocatori di vertice dagli anni 2000 a oggi.

Non ci si deve sorprendere se dall’analisi di Burn-Murdoch (disponibile sul sito del Financial Times a pagamento, n.d.t.) emerge che l’altezza e il peso dei calciatori della Premier League assumono valori decisamente medi rispetto a quelli degli atleti di punta della NBA e della NFL. Ci si può aspettare lo stesso riguardo ai migliori giocatori di tennis?

Una replica per il tennis

Grazie al prezioso aiuto di Martin Ingram, sono riuscita a recuperare i dati pubblicamente disponibili di altezza e peso dei giocatori di vertice di diversi decenni. Il grafico dell’immagine 1 è un tentativo di replicare il confronto fatto da Burn-Murdoch (nella versione originale, è possibile visualizzare il nome di ciascun giocatore puntando il mouse sul grafico, n.d.t.)

IMMAGINE 1 – Confronto tra corporature di una selezione dei primi 100 giocatori della classifica nel 2000 e nel 2020

Per facilitare il paragone, ho aggiunto in questo grafico anche i dati di Cristiano Ronaldo (in rosso), il cui fisico, per quanto un po’ più alto e pesante, sembra essere più in linea con quello dei tennisti moderni di quanto non lo sia con il calciatore medio della Premier League. Da questo unico punto di riferimento risulta chiaro che la costituzione dei tennisti è molto simile a quella dei calciatori e la più confrontabile tra i quattro sport in questione.

Accade spesso di vedere tennisti dare calci a una pallina come farebbe Salah. Pensandoci bene, questo gesto che suscita divertimento è in realtà indicazione della natura del tennis di élite. La maggior parte dei giocatori più forti arriva, e continua a emergere, dall’Europa. Molti sono cresciuti giocando a calcio e alcuni, come Federer, hanno valutato di farne una professione.

Dinamiche biomeccaniche simili

Nonostante quindi le differenze evidenti tra i due sport, la somiglianza della corporatura tra i più forti in entrambi i due mondi suggerisce che le dinamiche biomeccaniche sono più ravvicinate di quanto si possa immaginare. Tornano alla mente quei filmati in cui Novak Djokovic si allena con Ronaldo in preparazione alla nuova stagione, che probabilmente non sono stati solo una mossa di pubbliche relazioni.

Nel confronto tra i primi 100 del 2000 e del 2020, troviamo più somiglianze che differenze, anche se le differenze presenti meritano di essere evidenziate. In primo luogo, tra i migliori del 2000 non c’è traccia di giganti del servizio come John Isner o Ivo Karlovic. Un secondo aspetto che sembra esclusivo dell’era attuale è un numero rilevante di giocatori che mostrano una flessibilità inusuale per la loro altezza, come Andrey Rublev e Alexander Bublik.

Cambiamenti radicali negli stili di gioco possono favorire, per giungere all’apice di quello sport, determinate strutture corporee a scapito di altre. Considerando che l’agilità tende a essere inversamente proporzionale all’altezza, può il successo di giocatori molto alti suggerire che la diffusione del gioco da fondo è stata effettivamente per loro un vantaggio? O il serbatoio di talento dei passati decenni era troppo ridotto da risultare in una distribuzione fortemente sbilanciata verso l’altezza?

Già da un semplice grafico emergono diverse questioni di grande fascino. Sono convinta ora che aggiungere elementi riguardanti una tendenza a grafici antropometrici dei giocatori potrebbe rivelare molto di più sull’evoluzione di uno specifico sport. Spero di continuare a vedere analisi di questo tipo nell’approfondimento statistico sportivo.

Build of Top 100 ATP Players 2000 vs 2020

Punteggi di set più probabili per combinazione di giocatrici al servizio

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 22 febbraio 2020 – Traduzione di Edoardo Salvati

Nel suo rientro al professionismo dopo quasi otto anni, Kim Clijsters ha impressionato per aver costretto Garbine Muguruza al tiebreak del secondo set, nel quale nessuna delle due vinceva più del 60% dei punti al servizio. Mi sono chiesta qual è la probabilità di un tiebreak in questi casi. Nell’analisi che segue, ho utilizzato un semplice modello Monte Carlo per verificare i punteggi di set più probabili per diverse combinazioni di giocatrici al servizio.

Nella prima partita giocata da Clijsters a livello professionistico al Dubai Championships, in molti si sono stupiti del punteggio ottenuto contro una giocatrice che aveva da poco disputato la finale agli Australian Open. Anche se spesso chi è al commento considera il tiebreak un esempio di due giocatrici che hanno avuto un rendimento sostanzialmente identico nel set, ci sono molte situazioni che possono portare a un tiebreak e non tutte soddisfano quella condizione.

Ad esempio, nel secondo set della partita in questione Clijsters e Muguruza sono riuscite in un break per parte, con Clijsters che ha vinto solo il 52% dei punti al servizio rispetto al 59% di Muguruza. Di fronte a quelle statistiche, ho cercato di capire se la fortuna ha in parte aiutato Clijsters a mantenere il set così in equilibrio.

Tutti i possibili punteggi

Mediante la simulazione di un set, ho esaminato la probabilità di tutti i possibili punteggi per diverse combinazioni di giocatrici. Per ciascuna occorrenza, ho ipotizzato una percentuale di punti al servizio costante durante il set. Si tratta di una semplificazione (nel gergo statistico del tennis, l’ipotesi indipendente e identicamente distribuito) che però fornisce una base di partenza utile, oltre a essersi rivelata ragionevolmente rappresentativa della prestazione della maggior parte delle giocatrici in un set qualsiasi.

Il grafico dell’immagine 1 è una mappa di calore dei risultati. Sull’asse dell’ordinate troviamo la bravura al servizio della giocatrice che ha vinto il set, mentre sull’asse delle ascisse il corrispondente livello della giocatrice che ha perso il set. Ciascun pannello corrisponde a un diverso punteggio finale per la giocatrice che perde il set, o alla probabilità di un tiebreak, se lo si raggiunge. La somma di tutte le celle nella stessa posizione della griglia per i sette i pannelli è uguale a 100.

IMMAGINE 1 – Possibile numero di game vinti dalla giocatrice che perde il set per ciascuna combinazione di punti vinti al servizio dalla vincitrice del set (ordinate) e dalla perdente del set (ascisse), in un intervallo dal 55 al 95%

Se incrociamo quindi il 55% sull’asse delle ascisse e il 60% su quello delle ordinate, la probabilità di un tiebreak nel secondo set tra Clijsters e Muguruza a Dubai era solo dell’11%. Con questi numeri era più probabile infatti che Muguruza avrebbe vinto il set per 6-4 6-3.

Come mai?

Spostandosi da sinistra verso destra, la probabilità di un tiebreak aumenta quando le giocatrici hanno un simile rendimento al servizio, quello che nella terminologia di Klaassen e Magnus è un piccolo “malus”. Nella tabella il malus è 0 lungo le diagonali e cresce all’aumentare della distanza dalle diagonali.

L’equilibrio nel rendimento al servizio però non è l’unico aspetto. Il fattore più importante anzi è la bravura complessiva al servizio tra le giocatrici, che può essere sintetizzata con la percentuale combinata di punti vinti al servizio. Sempre per Klaassen e Magnus, si tratta del concetto di “bonus”. Nel secondo set tra Clijsters e Muguruza il bonus era solo di 111, abbastanza basso per giocatrici di quella caratura. Nell’immagine 1, il bonus aumenta spostandosi verso l’alto (per la giocatrice che vince il set) e verso destra (per la giocatrice che lo perde).

A parità di qualsiasi riga del grafico, notiamo che la probabilità di un tiebreak, o in questo caso muoversi verso l’ultimo pannello di destra, aumenta all’aumentare del rendimento al servizio della giocatrice che perde il set. Sarebbe molto sorprendente per una giocatrice con il 95% dei punti vinti al servizio perdere il set ma, dovesse accadere, sarebbe quasi con certezza in un tiebreak.

Dedurre le probabilità dal punteggio

Si può anche procedere per punteggio invece che per prestazione al servizio delle giocatrici. Significa determinare la più probabile combinazione di percentuale di punti vinti al servizio con un punteggio dato del set, ad esempio 6-3. Nel caso di un tiebreak, osserviamo una maggiore concentrazione di probabilità negli alti valori dell’angolo superiore a destra. Le probabilità di quest’intervallo sembrano abbastanza uniformi, a enfasi del fatto che le giocatrici non devono avere un rendimento identico al servizio per arrivare al tiebreak.

IMMAGINE 2 – Possibile percentuale di punti al servizio delle due giocatrici dato un determinato punteggio finale del set. I pannelli da sinistra a destra mostrano i game vinti dalla giocatrice che perde il set

Uno dei motivi per i quali il tennis è uno sport che invita all’analisi statistica è il contenuto informativo che si può apprendere sul possibile risultato di una partita conoscendo solo il rendimento al servizio di una giocatrice contro un’altra. Un solo grafico è in grado di illustrare tutti i possibili esiti di set in una partita di tennis! Ovviamente, si potrebbe anche includere gli effetti generati da ipotesi non indipendenti e identicamente distribuite se sapessimo che alcune giocatrici, ad esempio, sistematicamente cedono alla pressione delle palle break. Spero comunque che sia un riferimento per chi vuole andare oltre il semplice punteggio di una partita.

Which Set Scores Are Most Likely for all Combinations of Servers?

Quantità di gioco e probabilità di vittoria all’avvio della seconda settimana di uno Slam

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 17 febbraio 2020 – Traduzione di Edoardo Salvati

Per raggiungere i quarti di finale agli Australian Open 2020, Dominic Thiem è rimasto in campo per 10 ore e 23 minuti, entrando così nel 20% di tempo più lungo prima di un quarto di finale di uno Slam negli ultimi dieci anni. Nei turni successivi ha accumulato altre ore di gioco, ponendosi all’estremo della distribuzione di questo speciale conteggio.

Nell’analisi che segue, cerco quindi di capire se l’intensità del percorso di Thiem ha contribuito a ridurre la sua probabilità di vittoria del titolo. Pochi giocatori riescono ad arrivare in fondo a uno Slam senza subire affaticamento, ma per alcuni la strada diventa molto più tortuosa.

Le fatiche di Thiem

Negli ultimi tre turni degli Australian Open 2020, Thiem si è trovato proprio in questa situazione. Alla vigilia della sua difficile partita contro Rafael Nadal, il tempo di gioco di Thiem era superiore di 1.3 ore rispetto alla media degli ultimi dieci anni tra i giocatori in un quarto di finale di uno Slam, come rappresentato nell’immagine 1. Alla conclusione della vittoriosa battaglia contro Nadal in quattro set, tra cui tre tiebreak, Thiem era a 14.6 ore, cioè 3.4 ore in più della media.

Un’altra vittoria in quattro set, in semifinale contro Alexander Zverev, ha portato il totale a 18.2 ore, o a 4.5 ore in più della media degli altri semifinalisti di uno Slam. Thiem si è ritrovato nel 3% del monte ore di gioco delle partite che precedono la finale, una posizione non certamente invidiabile contro il sette volte vincitore degli Australian Open Novak Djokovic, il quale invece aveva impiegato solo 12.5 ore.

IMMAGINE 1 – Distribuzione delle ore giocate prima degli ultimi turni di uno Slam maschile nel periodo dal 2011 al 2020. La linea rossa indica il tempo giocato da Thiem agli Australian Open 2020

Possibili conseguenze sull’esito della finale?

Proviamo a elaborare qualche idea con l’esempio fornito da altri giocatori che hanno avuto un percorso accidentato per entrare nella seconda settimana di uno Slam. La tabella a conclusione dell’articolo raccoglie alcune di queste situazioni, tra cui quella di Thiem. Il carico di gioco di Thiem agli Australian Open 2020 è simile a quello di Kevin Anderson a Wimbledon 2019 e di Nadal agli Australian Open 2017. Nessuno di questi giocatori è poi riuscito a vincere il torneo.

Sono però solo degli esempi. E anche se ci fossero molti esempi a mostrare analoga tendenza, staremmo ignorando un interrogativo di fondo. È un grande carico di gioco a contribuire alle sconfitte, o il grande carico di gioco è semplicemente un effetto collaterale di non essere un favorito?

Vogliamo sapere se la grande quantità di gioco incide sul risultato di una partita dopo aver tenuto conto della differenza di bravura tra due giocatori che si scontrano in un qualsiasi turno di uno Slam. Nel linguaggio della regressione, se wij è la probabilità che il giocatore i batte il giocatore j e caricoi è la somma complessiva di gioco del giocatore i, possiamo calcolare l’effetto della quantità di gioco con la seguente formula:

logit(wij) = β0 + β1logit(pij) + β2(caricoi − caricomedio)

dove pij è la previsione di vittoria pre-partita sulla base della bravura dei giocatori e di qualsiasi altro fattore a eccezione del carico di gioco sostenuto durante il torneo. Si tratta di un semplice modello di regressione logistica, in cui la difficoltà maggiore è la scelta di pij, che potrebbe essere data ad esempio dalle quote scommesse. In questo caso utilizzo le mie valutazioni dei giocatori.

Variazioni attese nella probabilità di vittoria

Con gli ultimi dieci anni di quarti di finale e turni successivi a disposizione, ho applicato il modello e osservato la variazione attesa nella probabilità di vittoria di Thiem in ciascuno dei tre turni conclusivi degli Australian Open 2020. La tendenza storica suggerisce che già ai quarti di finale la probabilità di Thiem si era ridotta (un calo in media del 12%) e che la maratona con Nadal l’aveva ulteriormente abbassata. Dalla semifinale in avanti, Thiem aveva una probabilità del 30-35% inferiore rispetto a quella che un giocatore con la sua valutazione avrebbe predetto.

IMMAGINE 2 – Riduzione attesa nella probabilità di vittoria di Thiem agli Australian Open 2020 per il carico di gioco sostenuto (e con un intervallo di confidenza del 90%)

Si può avere la tentazione di ignorare questi risultati pensando che i giocatori hanno poco controllo sulla durata di una partita. Vorrebbe però dire sottostimare la capacità decisionale del giocatore sul livello di offensività da tenere in campo e su come questo incida sul tempo trascorso. Per quei giocatori la cui bravura permette di pensare oltre alla partita successiva, aumentare il livello offensivo quando si arriva a una durata media potrebbe essere una strategia importante per la vittoria finale.

Does greater competition load going into the second week of a Grand Slam hurt a player’s win chances?