Il tennis è diventato più prevedibile? Un’indagine con un modello tematico

di Martin Ingram // Martin Ingram’s Blog

Pubblicato il 23 marzo 2020 – Traduzione di Edoardo Salvati

Visto che il tennis è sospeso, ho pensato che fosse interessante cercare di individuare alcune tendenze nell’evoluzione degli stili di gioco. È da tempo che avevo intenzione di applicare un modello diffuso nel campo dell’apprendimento automatico, il Latent Dirichlet Allocation (LDA), ai dati derivanti dal Match Charting Project. Per chi non lo conoscesse, il Match Charting Project è uno sforzo colossale di diversi volontari che codificano con minuzia la sequenza dei colpi di ciascuno scambio di un’intera partita di tennis. Rappresenta di gran lunga la più completa risorsa informativa sulle partite. Gli altri database pubblicamente disponibili infatti si limitano, nei casi migliori, a descrivere la sequenza dei colpi senza fornire altri dettagli sullo scambio.

Il modello LDA nell’apprendimento automatico

Che cos’è il Latent Dirichlet Allocation? Si tratta di un modello inizialmente concepito per trovare specifici temi o categorie in un insieme di documenti scritti in linguaggio naturale. Costituisce la base di analisi del LDA una serie di documenti, come potrebbero essere degli articoli del New York Times. Ciascun documento è identificato dalla frequenza con cui ogni parola, o termine, è citata. Ad esempio, se un documento consiste solo nella frase “ciao ciao arrivederci”, viene identificato con (ciao, 2), (arrivederci, 1), perché ciao compare due volte e arrivederci una.

L’idea centrale del LDA è il tema. Un tema definisce quanto ogni termine è probabile. Negli articoli del New York Times, si può pensare che ricorra un tema “politica” che assegna un’alta probabilità a parole come “politico”, “congresso”, “elezione”, e così via.

Si può naturalmente pensare che ogni documento è generato da un singolo tema. È una modalità legittima, e darebbe luogo a un modello combinato. Tuttavia, molti documenti contengono molti temi. Ad esempio, è ipotizzabile che il tema “politica” appaia spesso in articoli che hanno a che fare anche con l’economia. Il LDA ne tiene conto modellando ogni articolo come un misto di temi: un documento potrebbe essere 60% economia e 40% politica. Questo significa che ogni parola arriva al 60% probabilmente dal tema economia e al 40% dal tema politica.

Come si comporta il LDA nella pratica?

In presenza di un insieme di documenti con il rispettivo conteggio delle parole e con il numero di temi da cercare, il LDA è in grado di trovare quei temi – come sono distribuiti rispetto alle parole – e quanto è probabile che ogni documento vada ricollegato a un tema, quindi come sono distribuiti rispetto ai temi.

Il LDA per il Match Charting Project

In che modo il LDA può essere applicato al Match Charting Project? L’interrogativo primario riguarda a quali elementi del tennis corrispondono le “parole” e i “documenti”. La risposta non è così scontata, e ho considerato diverse possibilità. Quella da cui alla fine sono partito, principalmente perché era la più facile grazie al preciso lavoro di riordino dei dati da parte di Jeff Sackmann, è la seguente:

  • una parola equivale a un tipo di colpo. Il Match Charting Project prevede 17 tipi di colpi base, come dritto e rovescio a rimbalzo piatto o in topspin, dritto e rovescio tagliato, volée di dritto e così via, per citarne alcuni (di più su questo a breve)
  • ogni documento equivale a una combinazione giocatore-partita. Ad esempio, una partita tra Roger Federer e Rafael Nadal determina due documenti, uno per Federer, identificato da quanto spesso colpisce ogni colpo, e un altro per Nadal.

Pur nella convinzione che sia un punto di partenza ragionevole, ci sono ovvi margini di miglioramento. Un’aggiunta relativamente semplice è quella di procedere a un’ulteriore categorizzazione di tutti i colpi in funzione della direzione in cui sono stati colpiti. Un’altra idea può essere quella di raggruppare i colpi in sequenze di due colpi consecutivi: ad esempio (dritto a rimbalzo incrociato piatto o in topspin, dritto a rimbalzo incrociato piatto in topspin) indica che il giocatore ha ricevuto un dritto a rimbalzo incrociato piatto o in topspin e ha risposto con lo stesso tipo di dritto. Si potrebbero integrare così informazioni sullo sviluppo di uno scambio. In ogni caso, era il sistema più facile da applicare e, come spero sarete d’accordo, produce già dei risultati piuttosto interessanti.

La finale di Wimbledon 2008

Per illustrare l’idea, quale migliore esempio se non la rappresentazione dell’incredibile finale di Wimbledon 2008 tra Federer e Nadal?

IMMAGINE 1 – Rappresentazione secondo il metodo LDA della finale di Wimbledon 2008

Ogni colonna rappresenta qui un “documento” e ogni fila una “parola”. Come ci si poteva aspettare, la maggior parte dei colpi sono stati colpi a rimbalzo, e la maggior parte di questi dal lato del dritto. Federer ha colpito più rovesci tagliati ed è venuto a rete più spesso, mentre Nadal ha colpito più dritti. Tornerò su questo esempio più avanti nel riepilogo dei risultati ottenuti con il LDA.

Complessivamente, al momento della stesura, ci sono 4938 documenti partite-giocatore, relativi quindi al circuito maschile. Non stupisce che i giocatori più famosi sono anche quelli con più occorrenze, il solo Federer ne ha ben 417, ma si tratta comunque di una risorsa fondamentale. E il mio vivo ringraziamento va a tutti i volontari che hanno contribuito!

Aggiustamento del LDA

Nell’utilizzo del LDA, una scelta obbligata è quella del numero di temi da cercare. Non mi sono soffermato a lungo su questo aspetto. Come prima scelta, ho cercato di prendere il numero di elementi con la minore “perplessità”, un numero che ho facilmente calcolato con l’implementazione scikit-learn di Python che stavo usando. È emerso che quattro temi valutati sull’insieme di dati completo restituiscono il risultato migliore. Mi aspettavo un numero più alto, e non mi sento del tutto sicuro del mio metodo di selezione dei temi. Il timore è che quattro temi rischiano di essere una semplificazione eccessiva, anche se un numero ridotto ha il vantaggio di una maggiore immediatezza interpretativa contro, ad esempio, a dieci temi. Per ora quindi mantengo i quattro temi.

Temi

Questi sono i quattro temi che ho trovato, insieme alla loro distribuzione di probabilità rispetto ai colpi. Per facilitare la lettura, ho assegnato un nome a ciascuno. Per evitare eccessiva confusione, ho elencato solo i colpi con la probabilità più alta.

Tema 1, “Colpi da fondo”

54% rovesci a rimbalzo piatti o in topspin, 38% dritti a rimbalzo piatti o in topspin

Tema 2, “Colpi a rete”

28% volée di rovescio, 24% volée di dritto, 18% rovesci a rimbalzo piatti o in topspin, 10% dritti a rimbalzo piatti o in topspin, 6% smash normali, 4% demi-volée di rovescio, 3% rovesci tagliati, 3% demi-volée di dritto, 3% pallonetti di rovescio

Tema 3, “Scambio di dritto”

84% dritti a rimbalzo piatti o in topspin, 7% rovesci a rimbalzo piatti o in topspin, 4% rovesci tagliati

Tema 4, “Rovescio tagliato”

68% rovesci tagliati, 17% dritti a rimbalzo piatti o in topspin, 6% dritti tagliati, 3% rovesci a rimbalzo piatti o in topspin.

Cosa ne è di Federer e Nadal a Wimbledon 2008?

IMMAGINE 2 – Distribuzione di probabilità rispetto ai colpi per i quattro temi individuati per la finale di Wimbledon 2008

Osserviamo che il 54% dei colpi di Federer e Nadal rientrano nel tema Colpi da fondo, senza che vi sia in questo caso differenza tra i due. Federer è ricorso al tema Colpi a rete il 6% delle volte, mentre Nadal non lo ha mai praticamente fatto, con la probabilità di quel tema arrotondata a zero. Federer ha anche fatto più uso del tema Rovescio tagliato di Nadal. È interessante come Nadal è stato capace di fare intenso ricorso al tema dello Scambio di dritto. Infine, Federer ha usato il tema Rovescio tagliato più spesso di Nadal.

Giocatori rappresentativi di ciascun tema

Per una maggiore comprensione, l’immagine 3 mostra i giocatori con la più alta probabilità media di utilizzo di ciascun tema. Sono considerati solo i giocatori con almeno 20 partite nel database del Match Charting Project.

IMMAGINE 3 – Giocatori con la più alta probabilità media per tema

Quattro dei primi cinque giocatori nel tema Colpi da fondo hanno avuto i loro periodo più redditizio negli anni 2000 e negli anni 2010, come era pensabile considerato il dominio del gioco da fondo nel tennis contemporaneo. Per questi giocatori la maggior parte della distribuzione dei colpi è nel tema Colpi da fondo, con qualche colpo nel tema Scambio di dritto.

Una vera testimonianza che il gioco al volo è un retaggio del passato arriva dai giocatori in cima all’elenco del tema Colpi a rete. Tutti e cinque hanno vinto Wimbledon almeno una volta. Patrick Rafter si mette in evidenza per un uso cospicuo del rovescio tagliato, mentre sembra che Boris Becker e Goran Ivanisevic fossero più disposti a scambiare anche da fondo rispetto agli altri tre.

I primi cinque nel tema Scambio di dritto sono tutti in attività. Milos Raonic appare come il più prone a colpire di dritto. Feliciano Lopez si fa notare per tagliare i colpi più degli altri, con Grigor Dimitrov al secondo posto in questo senso. Nadal usa quasi esclusivamente i temi Colpi da fondo e Scambio di dritto.

Ivo Karlovic è in cima al tema Rovescio tagliato. Hai mai colpito un rovescio a rimbalzo piatto o in topspin? Da quanto si vede in partita, non ne fa certamente un’abitudine. I prime cinque nel tema hanno tutti il rovescio a una mano, come ci si poteva aspettare.

Evoluzione dei temi nel tempo

Come sono cambiati gli stili nel corso degli anni? Per avere un’idea, ho deciso di inserire nello stesso grafico le probabilità medie dei temi di ogni anno dal 1980, regolarizzando poi il risultato

IMMAGINE 4 – Evoluzione dei temi nel tempo

Il cambiamento più drastico a mio modo di vedere è il drammatico declino del gioco a rete. Per certi versi, sto dicendo un’ovvietà, tutti sanno che il servizio è volée è una tattica ormai superata. Ero però curioso di capire quando e quanto tempo fa è iniziato il declino. Nella versione regolarizzata, il tema Colpi a rete ha raggiunto l’apice nel 1986 per poi avviarsi alla ritirata intorno al 1990, fino a raggiungere il valore attuale del 5% verso il 2008. Contestualmente, come prevedibile, il tema Colpi da fondo è diventato più frequente, dal punto più basso del 45% nella metà degli anni ’80 fino al valore attuale del 60%.

Inoltre, è anche interessante che il tema Scambio di dritto, per quanto sempre presente, sia aumentato da un valore del 14% dei colpi intorno al 2000 fino a un valore attuale del 23%. Potrebbe essere indicazione che la tattica di colpire più dritti possibili si è diffusa da quel momento in avanti.

Mi piacerebbe sapere anche quanta parte di questi cambiamenti è legata ai diversi fattori di cui piace tanto dibattere agli appassionati. Gustavo Kuerten ha vinto il Roland Garros 1997 usando le famose corde in poliestere, anche se pare non fosse l’unico ad averle. Erano corde che consentivano di imprimere una maggiore rotazione alla palla e facilitare i passanti. Di sicuro il tema Colpi a rete era in fase calante in quel periodo, arrivato al 15% da un periodo d’oro del 25%, quindi era già successo qualcosa. In molti sostengono anche che le differenze tra superfici si sono livellate nel tempo. Non mi sembra così ovvio dal grafico visto che credo (forse erroneamente) che sia iniziato già nei primi anni 2000, ma può aver contribuito al continuo declino del gioco a rete in quel decennio.

Entropia

Sebbene il Match Charting Project sia la fonte più granulare che abbiamo, le partite in esso contenute non sono necessariamente un insieme rappresentativo. Non ho verificato le situazioni di squilibrio, ma è possibile che vi siano più dati per partite sull’erba negli anni ’80 che in quelli a seguire, che potrebbe spiegare parte del calo iniziale. È altresì possibile che i giocatori che compaiono nel database siano una specifica selezione, e che i giocatori che hanno continuato a portare avanti la causa del servizio è volée negli anni ’90 riscuotano meno fascino tra i volontari che raccolgono i dati. Fondamentale quindi leggere questi risultati con il beneficio del dubbio.

Per arrivare in ultimo alla domanda del titolo dell’articolo, ovvero se il tennis è diventato più prevedibile, ho analizzato l’entropia media delle partite per anno. A grandi linee, l’entropia in questo caso è solo una misura dell’ampiezza distributiva delle probabilità. Ad esempio, se tutte le partite hanno usato un unico tema, l’entropia sarebbe vicina allo zero, mentre con un uso uguale di tutti i temi, l’entropia sarebbe di circa 1.39.

IMMAGINE 5 – Entropia come misura dell’imprevedibilità del tennis

Il grafico suggerisce che l’entropia è diminuita e che i giocatori sono diventati più prevedibili nell’uso dei temi. Un possibile inizio del declino è nei primi anni ’90, con un’accelerazione sostenuta verso la fine del decennio. Questo però non deve far pensare che il tennis sia meno interessante: anche nel tema dei Colpi da fondo ricorrono molte sfumature che questo semplice modello non incorpora.

Conclusioni

Spero di avere la vostra approvazione sul fatto che un primo esame dei dati del Match Charting Project con il metodo Latent Dirichlet Allocation ha prodotto risultati interessanti. Ci sono molte estensioni del LDA che potrebbero essere applicate, come il LDA dinamico, che elabora un modello dell’evoluzione dei temi nel tempo e cerca anche di indagare quali documenti hanno cambiato temi. Come ho detto, vorrei procedere a usare più temi nel LDA o forse definirne un numero automatico con modelli gerarchici di temi, oltre a includere più dettagli sugli scambi. C’è ancora molto da fare!

Has tennis become more predictable? An initial look with a topic model

L’ipotesi non indipendente e identicamente distribuito nel tennis

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 20 marzo 2020 – Traduzione di Edoardo Salvati

In assenza di sport in campo per cause di forza maggiore, c’è più tempo per gli smanettoni dei numeri per scatenarsi. In questo articolo, cerco di rispondere alla domanda che dovrebbe stare a cuore di qualsiasi analista di tennis: ai giocatori si applica l’ipotesi non indipendente e identicamente distribuito (non iid)? Come si possono misurare le conseguenze relative a una situazione non iid? Perché dovrebbe interessarci? E quali sono stati i giocatori più non iid tra i primi 50 della classifica?

In uno dei rari studi di sport a essere pubblicato sul Journal of the American Statistical Association, i due giganti dell’analisi statistica del tennis Franc Klaassen e Jan Magnus si soffermano sull’ipotesi indipendente e identicamente distribuito (iid) per l’esito dei punti nel tennis. Se vi fosse mai capitato di fare una regressione, avrete già applicato l’ipotesi iid. Per un campione casuale di occorrenze, iid è un punto di partenza comodo e ragionevole. Nella fattispecie tennistica, iid è il modo più semplice per intendere la sequenza di punti in una partita. In sostanza, una volta che si conosce la media di punti vinti al servizio dal giocatore in quella partita si ipotizza che ogni punto al servizio sia una prova Bernoulli con la probabilità dell’esito “successo” pari alla probabilità di punti vinti al servizio del giocatore nella partita.

Da un punto di vista dell’analisi statistica, iid è una manna. Se i giocatori sono iid, allora qualsiasi quesito investigativo come vincere un set, vincere un tiebreak o vincere la partita si riduce a una qualche funzione della probabilità di punti vinti al servizio del giocatore.

Cosa succede però se i giocatori non sono iid?

Beh, la situazione si complica. L’ipotesi non iid vorrebbe dire che, in determinati momenti come ad esempio sul 30-30, i giocatori servono sistematicamente meglio o peggio. Dovremmo conoscere nel dettaglio quelle dinamiche per avere anche una speranza di descrivere le probabilità di risultato durante lo svolgimento di una partita.

Se guardando una partita vi è capitato di pensare che un giocatore ha il braccino o ha ceduto alla pressione, vi stavate esprimendo in termi di effetti non iid. Ci si è abituati ormai a vari cambiamenti di fronte nel corso di una partita che è difficile accettare il postulato per cui i giocatori sono iid. Quella che sembra una striscia vincente, o uno scenario sorprendente, è in realtà in linea con le probabilità associate a una sequenza di Bernoulli.

Se è possibile ricavare un insegnamento dallo studio di Klaassen e Magnus, è che la verità sta nel mezzo. Voglio cioè dire che i giocatori non sono iid, ma gli effetti del loro non iid sono molto più contenuti di quanto si potrebbe pensare. Così ridotti infatti che l’ipotesi iid, in molti casi nel tennis, è una descrizione estremamente veritiera dei risultati effettivi. Anche in presenza di effetti circoscritti, almeno nella media, è comunque possibile che alcuni giocatori mostrino un comportamento non iid più accentuato di altri. Quali sono tra quelli attualmente al vertice i giocatori meno iid in assoluto?

Una misura complessiva degli effetti non iid

Un modo per ottenere una misura complessiva degli effetti non iid in una partita è confrontare i game al servizio concretamente vinti da un giocatore con i servizi vinti in base alle previsioni iid. Chiamiamo g la proporzione di servizi vinti concretamente in una partita. Chiamiamo poi p la proporzione di punti vinti al servizio in una partita dal giocatore in esame e q quella del suo avversario. Date le caratteristiche espresse al servizio durante la partita, possiamo usare una simulazione Monte Carlo per calcolare una proporzione attesa di game vinti come ĝ(p,q).

Per fare un esempio pratico, nell’ultima partita prima della sospensione, Novak Djokovic ha vinto il 90% dei game al servizio, con una percentuale di punti vinti al servizio del 70% contro il 58% di Stefanos Tsitsipas. Inserendo probabilità al servizio del 70% e del 58% nel simulatore iid per una partita al meglio dei tre set, si riesce a determinare la stima dei game vinti al servizio per un grande numero di partite simulate.

Ho eseguito questa simulazione per le partite dal 2018 a oggi per tutti i giocatori tra i primi 50 (qualunque sia il significato attuale della classifica). L’immagine 1 mostra i risultati per tutte le partite, con in blu il non iid medio. I giocatori sono in ordine decrescente dall’alto verso il basso da quello con la media non iid più positiva a quello con la media non iid inferiore. Un effetto positivo qui significa che un giocatore ha vinto più game al servizio di quelli attesi rispetto alla sua percentuale di punti vinti al servizio e in ipotesi iid.

IMMAGINE 1 – Effetti non iid in partita per le partite dal 2018 a oggi per gli attuali primi 50 giocatori

Strategie basate sul servizio bomba

Proprio in cima troviamo tre dei giocatori con il servizio più potente: Reilly Opelka, Nick Kyrgios e John Isner. Quale può essere il motivo? Un’interpretazione è che i giocatori che fanno del servizio un colpo fondamentale lo utilizzano come elemento portante di una o due strategie per risolvere con efficacia i momenti più importanti della partita, come i game al servizio molto combattuti o le fasi conclusive. Potrebbe trattarsi di una modalità a disposizione di un giocatore per incrementare il rendimento nei game vinti al servizio, anche se poi la percentuale media di punti vinti al servizio rimane fondamentalmente invariata.

È interessante la presenza di diversi giocatori tra i primi dieci che non si pensa possiedano un servizio particolarmente forte, come ad esempio Pablo Carreno Busta, Jo Wilfried Tsonga o Denis Shapovalov. L’effetto non iid per loro è inferiore ma potrebbe essere dettato comunque dalla stessa strategia.

Anche se per questi giocatori la percentuale complessiva di punti vinti al servizio non è così alta, in ogni caso nei punti importanti al servizio potrebbero adottare una certa strategia o disposizione mentale che determina una divario misurabile tra previsione iid e previsione non iid.

Il caso di Carreno Busta

Nel caso di Carreno Busta, le tre partite con il massimo effetto iid sono terminate in una sconfitta, con i suoi avversari che hanno ottenuto più del 70% dei punti al servizio. Carreno Busta ha vinto più del 90% dei game al servizio in ognuna di quelle partite a dispetto di una percentuale relativamente bassa di punti vinti al servizio.

C’è stata la sconfitta nel 2019 agli Internazionali d’Italia contro Shapovalov, nella quale Carreno Busta ha vinto +17 punti percentuali di game al servizio rispetto alle attese iid. Come la sconfitta, sempre l’anno scorso, allo Shanghai Masters contro Dominic Thiem, nella quale ha vinto +14 punti percentuali delle attese. E la recente sconfitta a Rotterdam contro Felix Auger-Aliassime, nella quale ha vinto +13 punti percentuali. Sono occorrenze che evidenziano come gli effetti non iid potrebbero spiegare situazioni in cui un giocatore è riuscito a gestire egregiamente la pressione al servizio, ma ha comunque poi perso la partita.

La mentalità del campione

Non mi ha sorpreso vedere i Grandi Tre tra i giocatori più sistematici in termini di iid. Significa cioè che sono stati tra i meno influenzati dal contesto. O, detto in altro modo, sono giocatori che affrontano ogni punto come se avesse la stessa importanza, un aspetto che molti attribuiscono alla mentalità del campione. I lettori più attenti avranno notato che ci sono più giocatori dal lato positivo degli effetti non iid che dal lato negativo. Credo che in parte dipenda dal fatto che, considerati i pochi game al servizio giocati in una partita, soprattutto se una al meglio dei tre set, il risultato è più di tipo discreto con limite superiore di 1.

Una simile impostazione potrebbe tornare utile per altri indicatori di rendimento, oltre ai game vinti al servizio, più sensibili agli effetti non iid. L’elenco dei temi legati all’ipotesi non iid che meritano un approfondimento sembra davvero interminabile e di indubbia ispirazione per futuri articoli.

Are Top ATP Players Non-IID?

La competitività negli Slam dal 2000 al 2016

Adam Coti // PureFreedom

Pubblicato il 27 settembre 2017 – Traduzione di Edoardo Salvati

Introduzione

Dopo la pubblicazione di una mia analisi sul punteggio nelle partite degli Slam, ho ricevuto diverse richieste per un approfondimento. Ben Rothenberg del New York Times, da cui avevo preso spunto, ha scritto in un tweet: “ [..] curioso anche di sapere quanto spesso il quarto e il quinto set mancano di competitività perché un giocatore ha finito la benzina o è demoralizzato, rispetto a una partita al meglio dei tre set”.  

Ho fatto quindi un’ulteriore analisi sulle oscillazioni in quella categoria di partite. Si può dire che la competitività di una partita subisce variazioni su base regolare? Esiste evidenza che i set conclusivi di una partita sono più appannaggio del vincitore? Inoltre, con il progredire della partita, è possibile prevedere chi è avvantaggiato per la vittoria finale? Le considerazioni che seguono cercano di trovare risposte a questi interrogativi.  

Ai fini di quest’analisi, il campione statistico considerato è composto da tutte le partite Slam terminate per il periodo dal 2000 al 2016, a eccezione dei ritiri precedenti e durante la partita. Si tratta di 8253 partite per complessivi 30.455 set e 298.207 game. Occorre ricordare che in quegli anni gli Slam non avevano il tiebreak all’ultimo set, tranne gli US Open. Questo si traduce in un leggero aumento delle medie relative ai game del quinto set, quando la partita ha richiesto di andare al quinto set.

Medie complessive

IMMAGINE 1 – Punteggio medio in termini di game per set in funzione del numero di set giocati per il periodo dal 2000 al 2016 

Note:

  • il punteggio medio per set non distingue tra chi vince e chi perde la partita, ma è una misura della competitività aggregata di un set medio
  • utilizzando il Differenziale di Punteggio come criterio, si osserva una maggiore disparità nella competitività tra le partite in tre set e quelle in quattro set, rispetto a quella esistente tra le partite in quattro set e quelle in cinque set.

Partite in tre set

IMMAGINE 2 – Punteggio medio in termini di game per partite terminate in tre set per il periodo dal 2000 al 2016

Note:

  • i primi due set mostrano un livello di competitività simile. Il terzo set invece è più dominato dal vincitore della partita. Lo si può dedurre dal salto del Differenziale di Punteggio nel terzo set e dalla continua diminuzione del numero di tiebreak.

Partite in quattro set

IMMAGINE 3 – Punteggio medio in termini di game per partite terminate in quattro set per il periodo dal 2000 al 2016

Note:

  • il punteggio medio per set non distingue tra chi vince e chi perde la partita, ma è una misura della competitività aggregata di un set medio
  • si assiste a una graduale diminuzione della competitività fino al quarto set, che invece mostra, rispetto agli altri set, un maggiore aumento nel Differenziale di Punteggio e una maggiore diminuzione dei tiebreak. 

IMMAGINE 4 – Punteggio medio in termini di game per le possibili combinazioni con cui una partita in quattro set può essere vinta   

Note:

  • a prescindere dall’andamento dei set, il vincitore della partita ha vinto ognuno dei tre set vinti in maniera più risoluta del singolo set vinto dal giocatore che ha perso la partita
  • la combinazione in cui il vincitore della partita ha dominato di più è quella in cui perde il primo set vincendo poi i tre successivi. Ne è conferma il fatto che il Differenziale di Punteggio complessivo pari a 6.10 è il più alto di qualsiasi possibile scenario. Come visto nella precedente analisi sul punteggio, questa è anche la sequenza più frequente tra quelle di una partita in quattro set.  

Partite in cinque set

IMMAGINE 5 – Punteggio medio in termini di game per partite terminate in cinque set per il periodo dal 2000 al 2016

*Nel periodo considerato, a eccezione degli US Open nessuno degli altri Slam aveva il tiebreak al quinto set. Per lo scopo di questa sola analisi, un quinto set che supera il punteggio di 6-6 è classificato come un set al tiebreak.

Note:

  • il punteggio medio per set non distingue tra chi vince e chi perde la partita, ma è una misura della competitività aggregata di un set medio
  • come per le partite in tre e quattro set, si assiste a una diminuzione del livello competitivo al progredire della partita. Lo testimonia il graduale incremento del Differenziale di Punteggio. A prescindere dal set, non si osserva una chiara tendenza relativamente alla probabilità che si arrivi al tiebreak.

IMMAGINE 6 – Punteggio medio in termini di game per le possibili combinazioni con cui una partita in cinque set può essere vinta  

Note:

  • il vincitore della partita ha vinto i suoi tre set in maniera più risoluta con il progredire della partita, giocando meglio nell’ultimo set
  • ci sono tre scenari in cui il vincitore della partita ha vinto gli ultimi due set e sono anche le vittorie più dominanti e quelle in cui il quinto set ha un Differenziale di Punteggio più alto.

Indicatori predittivi

Quando la partita arriva a una situazione di punteggio di due set pari, il rendimento dei giocatori nei primi quattro set è in qualche modo indicativo di chi vincerà il quinto set? Vale a dire, se uno dei giocatori ha vinto più game dell’avversario all’inizio del quinto set, ha storicamente un vantaggio per la vittoria finale?  

IMMAGINE 7 – Probabilità di vincere la partita all’inizio del quinto set in funzione Differenziale di Game per il periodo dal 2000 al 2016

Note:

  • se un giocatore ha vinto più game dell’avversario all’inizio del quinto set, vince il 55% di quelle partite, con percentuali specifiche indicate nel grafico in funzione del numero di game in più rispetto all’avversario. Ad esempio, se dopo quattro set il punteggio è di 6-2 4-6 6-1 3-6 e un giocatore è avanti 19–15 nei game, storicamente vincerà poi quella partita il 61% delle volte
  • nel 15.1% delle partite al quinto set, i giocatori hanno vinto lo stesso numero di game e non si è quindi nella possibilità di fare una previsione 
  • il punteggio di una partita consente di aver vinto nove o dieci game in più dopo quattro set, ma nel periodo temporale considerato per l’analisi non è mai accaduto.

Cosa succede quando i giocatori hanno vinto un set per parte? Con un campione di due soli set, si può fare una previsione di vittoria sulla base del numero di game vinti fino a quel momento?

IMMAGINE 8 – Probabilità di vincere la partita sul punteggio di un set pari in funzione Differenziale di Game per il periodo dal 2000 al 2016

Note:

  • se un giocatore ha vinto più game dell’avversario dopo due set, vince il 58% di quelle partite, con percentuali specifiche indicate nel grafico in funzione del numero di game in più rispetto all’avversario
  • nel 24.6% delle partite sulla situazioni di un set pari, il numero di game vinti è identico e non si è quindi nella possibilità di fare una previsione
  • nonostante un campione di partite più ridotto, si tratta di un indicatore predittivo più accurato di chi vincerà la partita rispetto alla situazione vista in precedenza.

Distribuzione dei tiebreak

IMMAGINE 9 – Distribuzione dei tiebreak per il periodo dal 2000 al 2016

Note:

  • su un totale di 4915 tiebreak, il punteggio medio è stato 7,48—4,32.

Riconoscimenti

La fonte della maggior parte dei dati grezzi utilizzati nell’analisi è il database dei risultati delle partite del circuito maschile compilato e messo a disposizione da Jeff Sackmann. In caso di dati mancanti, ho fatto riferimento al sito ufficiale dell’ATP. Chi volesse approfondire, può scaricare il file Microsoft Excel con i dati grezzi che ho raccolto. 

Measuring the Competitiveness at Tennis Majors from 2000-2016

Chi vince e chi perde in caso di sospensione della classifica

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 13 marzo 2020 – Traduzione di Edoardo Salvati

L’annuncio di una sospensione di sei settimane del circuito maschile è solo l’ultimo di una serie di sconvolgimenti del calendario tennistico causati dalla pandemia COVID-19. In assenza di decisioni in merito alla possibilità per i giocatori di conservare la classifica attuale, cerco di capire il possibile impatto di un eventuale scenario in cui, per entrambi i circuiti, la classifica rimane inalterata per un periodo di tempo prolungato.

Con il continuo aumento dei casi di contagio in tutto il mondo e con le drastiche misure necessarie per contenere la diffusione del virus, era inevitabile che le conseguenze ricadessero anche sul tennis. Con la sospensione del circuito maschile che dovrebbe terminare pochi giorni prima dell’avvio del Roland Garros, in programma il 24 maggio 2020, potrebbe essere proprio lo Slam di Parigi il prossimo grande evento sportivo di tennis vittima dell’emergenza.

Raziocinio?

Sia gli organizzatori dell’Indian Wells Master che l’ATP hanno definito queste scelte una “sospensione”, invece di considerarla un’immediata cancellazione. Da un punto di vista finanziario, ha senso mantenere aperta la possibilità dello svolgimento del torneo in altra data, prima di rinunciare definitivamente al potenziale indotto economico associato. Con il passare del tempo però, e con il rinvio di altri tornei, la fattibilità di un deferimento si fa sempre più remota.

Di fronte a una situazione così drammatica, gli organismi decisionali dei due circuiti dovrebbero agire razionalmente e pianificare la gestione di un calendario fortemente accorciato. E uno dei temi più spinosi da affrontare è certamente la classifica dei giocatori.

Al momento sono solo congetture, ma sembra ragionevole ipotizzare che non ci saranno penalizzazioni per i tornei che sono stati cancellati (se così sarà perché non verranno effettivamente recuperati). In questo caso, l’impatto minore arriverebbe dal permettere ai giocatori di conservare la classifica alla viglia di Indian Wells.

Sarebbe una soluzione equa?

Un modo per valutare l’equità di una sospensione della classifica è di verificare quanto le posizioni in classifica variano in un periodo di tempo prolungato. L’immagine 1 mostra il cambiamento in un anno della classifica di quei giocatori che sono entrati almeno tra i primi 250 negli ultimi venti anni. I segmenti rappresentano lo scarto interquartile della variazione rispetto all’età dei giocatori. I grafici sono raggruppati per posizione massima in classifica.

Primi 10

Prendiamo la dinamica associata ai primi 10. Quando sono giovanissimi, il guadagno in classifica è normalmente di qualche centinaio di punti. Tra i venti e i venticinque anni raggiungono e si assestano sul livello di gioco più alto, rendendo quasi nulla la variazione anno su anno. Superati i trent’anni, inizia la fase discendente ed è più probabile assistere a una perdita più sostanziale di posizioni in classifica da un anno all’altro.

IMMAGINE 1 – Stabilità nella classifica maschile con la variazione su un anno delle posizioni dei giocatori, dal 2000 al 2020 (scarto interquartile)

Sono tutte tendenze che si può pensare di prevedere. E, in termini di generale crescita in classifica per fascia di età, l’andamento per i primi 10 è simile a quello di giocatori con una carriera meno ricca di successi: un maggior guadagno di posizioni nei primi anni sul circuito, una progressione stabile tra i venti e i trent’anni, seguita da una fase di declino nella parte finale. Per i giocatori che occupano le parti basse della classifica però, un avanzamento di posizioni nei primi anni non è mai altrettanto importante e nel periodo apicale è più probabile assistere a spostamenti minimi verso l’alto o verso il basso.

Donne

Nonostante parziali differenze nel sistema di assegnazione di punti per la classifica maschile e quella femminile, lo stesso meccanismo si ripete per le giocatrici.

IMMAGINE 2 – Stabilità nella classifica femminile con la variazione su un anno delle posizioni delle giocatrici, dal 2000 al 2020 (scarto interquartile)

Quali sono le implicazioni?

Abbiamo una chiave di lettura su quali giocatori trarrebbero probabilmente maggiori benefici o, viceversa, maggiori svantaggi dalla mancata opportunità di cambiare la loro classifica.

Djokovic e Federer

All’età di 32 anni, il numero 1 del mondo Novak Djokovic è in quell’intervallo della curva in cui rimanere al vertice per lunghi periodi vorrebbe dire andare contro pronostico. I giocatori tra i primi 10 a questo punto della carriera perdono tipicamente dieci di posizioni in un solo anno.

La situazione sarebbe ancora più precaria per i 38 anni di Roger Federer. A quell’età, non sono molti i giocatori a rimanere competitivi ad alto livello e quelli che riescono a non subire infortuni possono comunque attendersi di perdere quindici posizioni in un anno. In realtà, dopo aver compiuto trent’anni, Federer ha perso anche fino a quattordici posizioni in 52 settimane. Dovesse Federer tornare alla ribalta dopo l’operazione al ginocchio, sarebbe doppiamente fortunato in caso di sospensione della classifica.

IMMAGINE 3 – Variazione di classifica nell’arco di 52 settimane per quattro giocatori di vertice, con possibili guadagni e perdite attesi in caso di mancate opportunità nei prossimi mesi

Thiem e Auger-Aliassime

Quando riprenderanno le competizioni, saranno giocatori come Dominic Thiem che si trovano nel pieno della carriera ad aver avuto meno da perdere grazie al mantenimento della posizione attuale.

Sono invece giocatori in ascesa come Felix Auger-Aliassime, al momento il numero 20 del mondo a soli diciannove anni, che subiranno le conseguenze più negative di un’interruzione della classifica. Solitamente, in questo passaggio del loro percorso, giocatori destinati a entrare tra i primi 10 hanno guadagnato tra le 25 e le 150 posizioni della classifica in un solo anno. Ci si può fare un’idea nel grafico dal numero e dalla intensità degli incrementi che Auger-Aliassime ha collezionato, con guadagni annuali anche da 125 fino a 150 posizioni negli ultimi due anni.

Certezze e incertezze

La contrapposizione delle traiettorie di questo gruppo di giocatori obbliga a valutare se una stima della classifica non sarebbe un sistema più equo al momento della ripresa dei circuiti dopo una lunga sospensione. Se ad esempio non si torna a giocare prima di sei mesi, ci aspettiamo davvero che tutti i giocatori e le giocatrici siano in grado di mostrare lo stesso livello della loro attuale classifica?

Non credo che lo faremmo e sapremmo probabilmente chi dovrebbe trovarsi più in alto o più in basso rispetto all’età e alla forma più recente. Di sicuro però giocatori e appassionati non accetterebbero cambiamenti alla classifica che non siano legati a risultati effettivi. Ciò che è meno certo è quanto dovremo aspettare prima di vedere di nuovo delle partite su un campo da tennis.

Winners and Losers of a Rankings Hiatus

Gli effetti della riduzione del numero di teste di serie negli Slam

Adam Coti // PureFreedom

Pubblicato il 18 gennaio 2018 – Traduzione di Edoardo Salvati

Introduzione

Prima dell’inizio degli Australian Open 2019, sembrava che, dopo diciotto anni di stabilità, il numero di teste di serie negli Slam sarebbe stato ridotto della metà, da 32 a 16. In questo modo, le fasi iniziali del torneo avrebbero avuto partite più competitive. In prospettiva storica, sarebbe stato davvero così? Con un ritorno a tabelloni a 16 teste di serie, ci sarebbero state più vittorie a sorpresa nei primi turni? 

L’analisi che segue riguarda 30.408 partite maschili e femminili negli Slam nel periodo dal 1988 al 2017, nella volontà di trovare una risposta. Inoltre, sarebbe utile cercare di capire quanto spesso le teste di serie più alte o giocatori o giocatrici con classifica più alta riescono effettivamente a vincere in qualsiasi delle loro partite Slam. Sulla probabilità di un favorito di vincere incide il turno in cui si gioca la partite? I giocatori favoriti hanno più probabilità di vincere delle giocatrici favorite? Tre tabelle nella parte conclusiva dell’analisi forniscono qualche chiarimento al riguardo. 

La frequenza di vittoria delle teste di serie per turno di gioco

Dal 1988, quando gli Australian Open hanno allargato il tabellone principale a 128 giocatori, fino al Roland Garros 2001, ci sono stati 54 Slam con 16 teste di serie, rispetto ai 66 Slam fino a tutto il 2017 con 32 teste di serie. Per facilitare un confronto più immediato, i risultati di quest’ultimo gruppo sono stati suddivisi in due sottoinsiemi di teste di serie, 1—16 e 17—32.

È importante notare che questi dati rappresentano medie basate sull’esito di tutte le partite negli Slam. Non si considera come è stato ottenuto il passaggio del turno, se da una vittoria o con un ritiro prima o durante la partita. Si tratta semplicemente del calcolo di quanti giocatori di ciascuna categoria sono rimasti dopo ogni turno. 

Tabellone Maschile

IMMAGINE 1 – Prime 16 teste di serie del tabellone maschile rimaste dopo ciascun turno, dal 1988 al 2017

Note:

  • per gli Slam con 16 teste di serie, il campione è composto da 6858 partite, mentre per gli Slam con 32 teste di serie è di 8382 partite
  • in media, un tabellone di 16 teste di serie ha avuto circa una testa di serie vittoriosa in meno dopo il primo e il terzo turno 
  • la discrepanza più ampia è al secondo turno, come mostrato anche dalla distanza maggiore tra le due linee del grafico
  • dal quarto turno in avanti, l’impatto della riduzione delle teste di serie diminuisce gradualmente.

Tabellone Femminile

IMMAGINE 2 – Prime 16 teste di serie del tabellone femminile rimaste dopo ciascun turno, dal 1988 al 2017

Note:

  • per gli Slam con 16 teste di serie, il campione è composto da 6858 partite, mentre per gli Slam con 32 teste di serie è di 8382 partite
  • l’impatto complessivo del numero di teste di serie non è così rilevante come tra gli uomini, come mostrato da una distanza più ravvicinata tra le due linee del grafico 
  • le discrepanze più importanti, e quasi identiche, sono nel terzo e nel quarto turno.

La competitività delle partite degli Slam

In ogni partita di uno Slam, il favorito può essere determinato in modo oggettivo o tramite le teste di serie o in termini di classifica ufficiale. Vale a dire, se giocano due teste di serie, il giocatore con la testa di serie più alta è il favorito. Se invece giocano due giocatori fuori dalle teste di serie, il favorito è quello con la classifica più alta. In ultimo, se una testa di serie gioca contro un giocatore senza testa di serie, il favorito è la testa di serie. 

Sulla base di queste premesse, quanto spesso il giocatore favorito vince poi la partita in uno Slam? Le tabelle che seguono illustrano la tematica per anno, torneo e turno. 

Per Anno

IMMAGINE 3 – Percentuale di vittoria di favoriti e favorite negli Slam per anno, media mobile di tre anni dal 1988 al 2017

Note:

  • per ciascun anno il campione include tutti gli Slam per un totale di 508 partite per il tabellone maschile e per quello femminile 
  • la frequenza di vittoria del favorito e della favorita si è mossa, generalmente, in direzione opposta nell’ultimo decennio
  • per gli uomini, il punto di flesso si è verificato intorno alla fine degli anni ’90, quando a un declino costante del rendimento dei favoriti è seguito l’inizio di una tendenza di stabile risalita.
  • per le donne, nell’ultimo decennio la percentuale di vittoria delle favorite si è attestata su un declino costante.

Per Torneo

IMMAGINE 4 – Percentuale di vittoria di favoriti e favorite negli Slam per torneo, dal 1988 al 2017

Note:

  • per ciascuno Slam, il campione di partite è di 3810 per tabellone maschile e per tabellone femminile
  • per le donne, le favorite vincono più spesso agli US Open, mentre è al Roland Garros che si verifica il maggior numero di vittorie a sorpresa
  • per gli uomini, i favoriti vincono più spesso agli Australian Open, mentre è a Wimbledon che subiscono più sconfitte a sorpresa.

Per turno

IMMAGINE 5 – Percentuale di vittoria di favoriti e favorite negli Slam per turno, dal 1988 al 2017

Note:

  • le favorite vincono con più continuità nei primi turni rispetto agli uomini, anche se poi sono soggette a più sconfitte in semifinale e finale
  • il turno in cui i favoriti vincono più spesso è il quarto, mentre per le donne è il terzo.

Riconoscimenti

La fonte della maggior parte dei dati grezzi utilizzati nell’analisi è il database dei risultati delle partite del circuito maschile compilato e messo a disposizione da Jeff Sackmann. In caso di dati mancanti, ho fatto riferimento al sito ufficiale dell’ATP e della WTA. Chi volesse approfondire, può scaricare il file Microsoft Excel con i dati grezzi che ho raccolto. 

The Effect of Reducing the Number of Seeds at Tennis Majors

La corporatura dei primi 100 giocatori ATP nel confronto tra 2000 e 2020

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 22 febbraio 2020 – Traduzione di Edoardo Salvati

In un recente articolo sul Financial Times relativo al dominio del Liverpool nel campionato inglese, John Burn-Murdoch ha creato una visualizzazione dell’altezza e del peso dei giocatori di Premier League, della NBA e della NFL. Mi sono chiesta quindi come la corporatura dell’attuale gruppo di giocatori del circuito maschile si paragoni a quella di professionisti in altri sport e se c’è stato un cambiamento nella struttura fisica dei giocatori di vertice dagli anni 2000 a oggi.

Non ci si deve sorprendere se dall’analisi di Burn-Murdoch (disponibile sul sito del Financial Times a pagamento, n.d.t.) emerge che l’altezza e il peso dei calciatori della Premier League assumono valori decisamente medi rispetto a quelli degli atleti di punta della NBA e della NFL. Ci si può aspettare lo stesso riguardo ai migliori giocatori di tennis?

Una replica per il tennis

Grazie al prezioso aiuto di Martin Ingram, sono riuscita a recuperare i dati pubblicamente disponibili di altezza e peso dei giocatori di vertice di diversi decenni. Il grafico dell’immagine 1 è un tentativo di replicare il confronto fatto da Burn-Murdoch (nella versione originale, è possibile visualizzare il nome di ciascun giocatore puntando il mouse sul grafico, n.d.t.)

IMMAGINE 1 – Confronto tra corporature di una selezione dei primi 100 giocatori della classifica nel 2000 e nel 2020

Per facilitare il paragone, ho aggiunto in questo grafico anche i dati di Cristiano Ronaldo (in rosso), il cui fisico, per quanto un po’ più alto e pesante, sembra essere più in linea con quello dei tennisti moderni di quanto non lo sia con il calciatore medio della Premier League. Da questo unico punto di riferimento risulta chiaro che la costituzione dei tennisti è molto simile a quella dei calciatori e la più confrontabile tra i quattro sport in questione.

Accade spesso di vedere tennisti dare calci a una pallina come farebbe Salah. Pensandoci bene, questo gesto che suscita divertimento è in realtà indicazione della natura del tennis di élite. La maggior parte dei giocatori più forti arriva, e continua a emergere, dall’Europa. Molti sono cresciuti giocando a calcio e alcuni, come Federer, hanno valutato di farne una professione.

Dinamiche biomeccaniche simili

Nonostante quindi le differenze evidenti tra i due sport, la somiglianza della corporatura tra i più forti in entrambi i due mondi suggerisce che le dinamiche biomeccaniche sono più ravvicinate di quanto si possa immaginare. Tornano alla mente quei filmati in cui Novak Djokovic si allena con Ronaldo in preparazione alla nuova stagione, che probabilmente non sono stati solo una mossa di pubbliche relazioni.

Nel confronto tra i primi 100 del 2000 e del 2020, troviamo più somiglianze che differenze, anche se le differenze presenti meritano di essere evidenziate. In primo luogo, tra i migliori del 2000 non c’è traccia di giganti del servizio come John Isner o Ivo Karlovic. Un secondo aspetto che sembra esclusivo dell’era attuale è un numero rilevante di giocatori che mostrano una flessibilità inusuale per la loro altezza, come Andrey Rublev e Alexander Bublik.

Cambiamenti radicali negli stili di gioco possono favorire, per giungere all’apice di quello sport, determinate strutture corporee a scapito di altre. Considerando che l’agilità tende a essere inversamente proporzionale all’altezza, può il successo di giocatori molto alti suggerire che la diffusione del gioco da fondo è stata effettivamente per loro un vantaggio? O il serbatoio di talento dei passati decenni era troppo ridotto da risultare in una distribuzione fortemente sbilanciata verso l’altezza?

Già da una semplice grafico emergono diverse questioni di grande fascino. Sono convinta ora che aggiungere elementi riguardanti una tendenza a grafici antropometrici dei giocatori potrebbe rivelare molto di più sull’evoluzione di uno specifico sport. Spero di continuare a vedere analisi di questo tipo nell’approfondimento statistico sportivo.

Build of Top 100 ATP Players 2000 vs 2020

Le regole proposte da Charles Dodgson per i tornei di tennis

di Peter Ellis // FreeRangeStatistics

Pubblicato l’1 febbraio 2020 – Traduzione di Edoardo Salvati

In un precedente articolo, ho analizzato l’impatto dell’assegnazione delle teste di serie in un torneo di tennis. Le teste di serie sono uno dei modi per aumentare la probabilità che i giocatori più forti arrivino nelle fasi conclusive di una competizione a eliminazione diretta, portando a esiti più giusti e a maggiori possibilità di riservare gli scontri più entusiasmanti per la fine del torneo. In sostanza, l’obiettivo è ovviare a questo problema:

In un torneo di Lawn Tennis a cui, quasi per caso, mi capitò di assistere tempo fa, fu portato alla mia attenzione l’attuale metodo di assegnazione dei premi dalle lamentele di uno dei giocatori, che era stato battuto (e aveva conseguentemente perso ogni possibilità di vincere un premio) nei turni iniziali, e che aveva dovuto subire l’umiliazione di vedere conquistare il premio del secondo classificato da un altro giocatore, che lui sapeva essere ben inferiore.

L’episodio appena descritto portò Charles Dodgson, illustre matematico del diciannovesimo secolo dell’Università di Oxford, a proporre un’alternativa all’allora in voga sistema di eliminazione diretta senza teste di serie. Il suo trattato sul tema dal titolo “ LAWN TENNIS TOURNAMENTS: The True Method of Assigning Prizes with a Proof of the Fallacy of the Present Method” si trova alla pagina 1082 dell’opera omnia. Naturalmente, Dodgson è più conosciuto al mondo come autore a tempo perso di libri per bambini con lo pseudonimo di Lewis Carroll, le cui opere includono il capolavoro “Le avventure di Alice nel paese delle meraviglie”, “ Attraverso lo specchio e quel che Alice vi trovò”, “La caccia allo Snark” e il giustamente dimenticato “Sylvie e Bruno”.

Gli elementi di base

Ecco gli elementi di base del sistema elaborato da Dodgson, descritto per un torneo a 32 giocatori:

  • viene tenuto un elenco in cui alla fine di ciascuna partita, accanto a ogni nome si scrive il nome del giocatore o dei giocatori che gli sono stati superiori, o in virtù di una vittoria diretta, o perché hanno battuto qualcuno che a sua volta ci è riuscito (vale a dire se A batte B e B batte C, A e B sono entrambi superiori a C). Non appena accanto al nome di un giocatore ce ne sono altri tre a lui superiori, quel giocatore è cancellato dalla lista
  • nella prima giornata di competizioni, c’è solo una partita per giocatore, con i 32 giocatori che sono accoppiati a due a due a formare 16 coppie
  • per il secondo giorno […] i 16 giocatori che hanno vinto la prima partita sono accoppiati tra di loro, così come i 16 che hanno un superiore (coloro che perdono in quest’ultimo gruppo di coppie avranno 3 superiori ciascuno, e verranno quindi eliminati dalla lista). Per tutte le altre partite i giocatori sono accoppiati allo stesso modo, prima quelli che non hanno mai perso, poi quelli con un superiore e così via, cercando di evitare, quanto possibile, di accoppiare due giocatori che hanno un superiore in comune
  • alla metà del terzo giorno, sono rimasti solo due giocatori senza sconfitte […] e questi due hanno una partita da giocare per tutto il quarto giorno
  • alla fine del quarto giorno si conosce il nome del giocatore che ha vinto il primo premio (grazie allo stesso processo di eliminazione usato nel metodo in vigore): i restanti giocatori sono accoppiati secondo le medesime regole, per le due partite da disputare al quinto giorno.

Teoria contro realtà

L’essenza di questo procedimento è che nessun giocatore è eliminato fino a che non è certo che non sia tra i migliori tre, perché gli eliminati hanno almeno tre superiori da cui hanno perso direttamente o che hanno battuto qualcuno che li ha battuti. Così i migliori tre sono in grado di surclassare tutti gli altri.

Un’osservazione interessante è che, secondo le regole di Dodgson, non serve che il numero di giocatori sia in potenza di due, come nel caso di un classico torneo a eliminazione diretta in cui gli organizzatori vogliono evitare situazioni di bye a senso unico.

Dodgson sostiene che la sua proposta dà garanzia di assegnare con accuratezza il primo, secondo e terzo premio ai migliori tre giocatori. Questa si basa però su alcune ipotesi chiave:

  • la superiorità è transitiva, quindi se A è superiore a B e B a C, allora A è superiore a C
  • la superiorità è deterministica, coerente e costante.

Naturalmente, il mondo reale opera con altri canoni. Ci si interroga quindi sulla bontà del metodo di Dodgson nel momento in cui i risultati delle singole partite non sono costanti e sono incoerenti tra loro, in linea con quanto emerso dalle realistiche simulazioni con valutazioni Elo che ho usato in precedenza. Per scoprirlo, ho simulato tornei impostati secondo le regole di Dodgson con le stesse 128 giocatrici di vertice dal 1990 dei tornei più convenzionali della scorsa analisi. Il codice che ho scritto permette di scegliere l’esito di singoli scontri tra giocatrici, da un lato in senso deterministico (cioè la giocatrice con la valutazione più alta ha garanzia di vincere, come nella dimostrazione a 32 giocatori di Dodgson), dall’altro in senso realisticamente probabilistico (la probabilità di vittoria è casuale, ma legata comunque alla valutazione Elo delle due giocatrici).

Risultati

Se le vincitrici sono deterministici, si arriva a un risultato come quello illustrato da Dodgson

Non deve sorprendere che il suo metodo assegni correttamente i premi in un torneo a 32 giocatori con esiti deterministici delle partite, vista la notevole abilità matematica che possedeva. Ero curioso di vedere se avesse funzionato in presenza di molti più partecipanti, e ho trovato che le sue regole (con modifiche minime) identificano nel giusto ordine i tre giocatori, a cui assegnano i primi tre premi, 100 volte su 100 diverse simulazioni.

Anche un torneo a eliminazione diretta con esito deterministico delle partite e con una corretta attribuzione delle teste di serie farà emergere con precisione le quattro migliori giocatrici il 100% delle volte. Credo che Dodgson pensasse che non si potesse fare affidamento su una conoscenza aprioristica del livello dei giocatori, escludendo quindi la possibilità di un torneo con teste di serie. Di sicuro, l’unico confronto che ha fatto è tra il suo metodo e un tabellone senza teste di serie.

È da notare che nel torneo ipotizzato da Dodgson serviranno all’incirca il doppio delle partite (con variazione a seconda dell’efficienza del tabellone, anche se in media nelle mie simulazioni le partite sono state 240) di un torneo a eliminazione diretta (che ha bisogno di 127 partite per 128 giocatori).

I risultati non sono così puntuali nello scenario in cui le vittorie sono realisticamente probabilistiche

In presenza di esiti non deterministici ma dipendenti dal caso e legati alla differenza di bravura associata alle valutazioni Elo, il metodo di Dodgson non è valido quanto avrebbe sperato. Naturalmente, si tratta sempre di un modello realistico. Anche nel periodo di dominio totale, Steffi Graf (la giocatrice con la valutazione massima tra quelle prese in esame per gli anni ’90) poteva comunque avere qualche probabilità di perdere contro altre giocatrici di vertice in una qualsiasi partita, come visto nel grafico che qui ripropongo.

IMMAGINE 1 – Probabilità di alcune giocatrici tra le prime 128 di battere Graf alla fine del 1990 sulla base delle valutazioni Elo

Efficacia delle teste di serie_2 - settesei.it

Il grafico dell’immagine 2 mostra i risultati di una simulazione di 1000 tornei giocati secondo le regole di Dodgson, con realistiche probabilità di vittoria e sconfitta (quindi non solo 1 e 0). Alcune conclusioni che si possono derivare:

  • le giocatrici di vertice vincono il torneo il 57% delle volte
  • il 36% delle volte giocano la finale le prime due giocatrici e il 23% delle volte vince la testa di serie numero 1
  • le prime tre giocatrici vincono i primi tre premi partita nell’ordine giusto solo il 7% delle volte.

Nel modello deterministico di Dodgson, per queste tre casistiche la probabilità è del 100%.

IMMAGINE 2 – Rendimento delle regole proposte da Dodgson in termini di probabilità della prima, seconda e terza giocatrice di finire il torneo nella giusta posizione

L’efficacia delle valutazioni Elo

Nel modello probabilistico, gli esiti del torneo secondo le regole di Dodgson sono simili a quelli di uno a eliminazione diretta con teste di serie, come ho scritto in precedenza. Ad esempio, in un tabellone con teste di serie, Graf, la giocatrice più forte, vinceva il 60% dei tornei e le prime due giocatrici erano in finale il 42% delle volte. È un risultato marginalmente migliore, rispetto a quanto ottenuto con le regole di Dodgson, in circa la metà delle partite, a evidenza dell’efficacia dell’utilizzo di informazioni aprioristiche sulla bravura delle giocatrici per la determinazione delle teste di serie.

Attuazione

Metodologia

Applicare le regole di Dodgson in modo che fossero sostenibili su un più ampio campione di tornei, su esiti casuali di partite e su risultati non coerenti e non transitivi è stato tutt’altro che banale.

Alcune decisioni:

  • per le coppie iniziali di giocatrici (e gli scontri successivi) ho proceduto casualmente anziché in ordine alfabetico secondo il cognome
  • ho abbandonato l’idea di “turno”, concentrandomi invece sulla successiva partita individuale da giocare, mettendo insieme, ove possibile, giocatrici con lo stesso numero di game giocati e di sconfitte
  • ho introdotto un concetto di “giocatrice scomoda” per un qualsiasi momento, vale a dire una giocatrice che ha giocato meno game delle altre e ha il minor numero di avversarie legittime disponibili a parità di sconfitte, evitando rivincite, etc. Trovare una partita per la giocatrice scomoda è diventata la priorità in ogni iterazione della mia simulazione
  • in alcune circostanze, ho dovuto permettere partite tra giocatrici che avevano giocato, a quella data, un diverso numero di game. Esiste probabilmente una soluzione che non richiede di farlo, ma non ho avuto tempo di cercarla

E ancora:

  • non sono riuscito neanche a escogitare un sistema pratico per il requisito “cercando di evitare, quanto possibile, di accoppiare due giocatori che hanno un superiore in comune”. Tranne che per occorrenze insolite, ho escluso le rivincite così da evitare che l’algoritmo si bloccasse
  • con risultati non deterministici e consentendo le rivincite dove inevitabile, sono emerse alcune contraddizioni da gestire con cautela. Ad esempio, una giocatrice può diventare superiore a se stessa (se A è battuta da B e poi B è battuta da A in una rivincita, la futura A è ora superiore alla passata A, un caso che ho evitato di considerare nel conteggio)
  • è possibile che le ultime quattro giocatrici rimaste abbiano 3 superiori ciascuna come risultante di una singola partita verso la fine del torneo, rendendo il piazzamento non chiaro. Di fronte a questa evenienza, ho suddiviso il primo posto ex-aequo, anche se semifinali e finale sarebbero più realistiche
  • allo stesso modo, può succedere che la giocatrice 2 e 3 (delle tre rimanenti) siano eliminate in un solo passaggio. Questo significa nessuna finale e un play-off per definire il secondo posto.

Interessante e valido, ma di difficile adozione

In ogni caso, si è trattato di un esperimento divertente. Sono soddisfatto del buon funzionamento di questo metodo per lo svolgimento di un torneo, anche al costo di dover giocare quasi il doppio delle partite di un torneo a eliminazione diretta. E, tutto sommato, anche con esiti di partite realisticamente incerti e non costanti. Non è ovviamente perfetto come l’ideale mondo deterministico descritto nel trattato originario di Dodgson. Come il precedente elenco di decisioni e insidie mostra, l’analisi però può complicarsi molto facilmente. Ci sono parecchi casi insoliti e al limite su cui non mi sono soffermato in dettaglio.

A mia conoscenza, il metodo di Dodgson non è mai stato usato per determinare il tabellone di un effettivo torneo, anche se ci sono state alcune simulazioni simili a questa. Non sono sicuro di quanto le intenzioni dello stesso Dodgson fossero serie. Sempre nel trattato accenna alla possibilità di eliminare i set nel tennis a favore in un sistema più semplice come “il primo giocatore che vince 14 game, o che va avanti di 9, vince la partita”. Dubito però che si aspettasse ragionevolmente una calorosa accoglienza delle sue proposte. Vale comunque la pena notare che l’autore del trattato è la figura professionale Charles Dodgson, appassionato di matematica ricreativa, e non Lewis Carroll, autore di libri per bambini.

Diciamo che, come per molte altre sue opere, la pubblicazione ha un merito. Non mi sbilancerei però a suggerirne l’adozione integrale per i moderni tornei di tennis.

Analysing the effectiveness of tennis tournament seeding

Punteggi di set più probabili per combinazione di giocatrici al servizio

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 22 febbraio 2020 – Traduzione di Edoardo Salvati

Nel suo rientro al professionismo dopo quasi otto anni, Kim Clijsters ha impressionato per aver costretto Garbine Muguruza al tiebreak del secondo set, nel quale nessuna delle due vinceva più del 60% dei punti al servizio. Mi sono chiesta qual è la probabilità di un tiebreak in questi casi. Nell’analisi che segue, ho utilizzato un semplice modello Monte Carlo per verificare i punteggi di set più probabili per diverse combinazioni di giocatrici al servizio.

Nella prima partita giocata da Clijsters a livello professionistico al Dubai Championships, in molti si sono stupiti del punteggio ottenuto contro una giocatrice che aveva da poco disputato la finale agli Australian Open. Anche se spesso chi è al commento considera il tiebreak un esempio di due giocatrici che hanno avuto un rendimento sostanzialmente identico nel set, ci sono molte situazioni che possono portare a un tiebreak e non tutte soddisfano quella condizione.

Ad esempio, nel secondo set della partita in questione Clijsters e Muguruza sono riuscite in un break per parte, con Clijsters che ha vinto solo il 52% dei punti al servizio rispetto al 59% di Muguruza. Di fronte a quelle statistiche, ho cercato di capire se la fortuna ha in parte aiutato Clijsters a mantenere il set così in equilibrio.

Tutti i possibili punteggi

Mediante la simulazione di un set, ho esaminato la probabilità di tutti i possibili punteggi per diverse combinazioni di giocatrici. Per ciascuna occorrenza, ho ipotizzato una percentuale di punti al servizio costante durante il set. Si tratta di una semplificazione (nel gergo statistico del tennis, l’ipotesi indipendente e identicamente distribuita) che però fornisce una base di partenza utile, oltre a essersi rivelata ragionevolmente rappresentativa della prestazione della maggior parte delle giocatrici in un set qualsiasi.

Il grafico dell’immagine 1 è una mappa di calore dei risultati. Sull’asse dell’ordinate troviamo la bravura al servizio della giocatrice che ha vinto il set, mentre sull’asse delle ascisse il corrispondente livello della giocatrice che ha perso il set. Ciascun pannello corrisponde a un diverso punteggio finale per la giocatrice che perde il set, o alla probabilità di un tiebreak, se lo si raggiunge. La somma di tutte le celle nella stessa posizione della griglia per i sette i pannelli è uguale a 100.

IMMAGINE 1 – Possibile numero di game vinti dalla giocatrice che perde il set per ciascuna combinazione di punti vinti al servizio dalla vincitrice del set (ordinate) e dalla perdente del set (ascisse), in un intervallo dal 55 al 95%

Se incrociamo quindi il 55% sull’asse delle ascisse e il 60% su quello delle ordinate, la probabilità di un tiebreak nel secondo set tra Clijsters e Muguruza a Dubai era solo dell’11%. Con questi numeri era più probabile infatti che Muguruza avrebbe vinto il set per 6-4 6-3.

Come mai?

Spostandosi da sinistra verso destra, la probabilità di un tiebreak aumenta quando le giocatrici hanno un simile rendimento al servizio, quello che nella terminologia di Klaassen e Magnus è un piccolo “malus”. Nella tabella il malus è 0 lungo le diagonali e cresce all’aumentare della distanza dalle diagonali.

L’equilibrio nel rendimento al servizio però non è l’unico aspetto. Il fattore più importante anzi è la bravura complessiva al servizio tra le giocatrici, che può essere sintetizzata con la percentuale combinata di punti vinti al servizio. Sempre per Klaassen e Magnus, si tratta del concetto di “bonus”. Nel secondo set tra Clijsters e Muguruza il bonus era solo di 111, abbastanza basso per giocatrici di quella caratura. Nell’immagine 1, il bonus aumenta spostandosi verso l’alto (per la giocatrice che vince il set) e verso destra (per la giocatrice che lo perde).

A parità di qualsiasi riga del grafico, notiamo che la probabilità di un tiebreak, o in questo caso muoversi verso l’ultimo pannello di destra, aumenta all’aumentare del rendimento al servizio della giocatrice che perde il set. Sarebbe molto sorprendente per una giocatrice con il 95% dei punti vinti al servizio perdere il set ma, dovesse accadere, sarebbe quasi con certezza in un tiebreak.

Dedurre le probabilità dal punteggio

Si può anche procedere per punteggio invece che per prestazione al servizio delle giocatrici. Significa determinare la più probabile combinazione di percentuale di punti vinti al servizio con un punteggio dato del set, ad esempio 6-3. Nel caso di un tiebreak, osserviamo una maggiore concentrazione di probabilità negli alti valori dell’angolo superiore a destra. Le probabilità di quest’intervallo sembrano abbastanza uniformi, a enfasi del fatto che le giocatrici non devono avere un rendimento identico al servizio per arrivare al tiebreak.

IMMAGINE 2 – Possibile percentuale di punti al servizio delle due giocatrici dato un determinato punteggio finale del set. I pannelli da sinistra a destra mostrano i game vinti dalla giocatrice che perde il set

Uno dei motivi per i quali il tennis è uno sport che invita all’analisi statistica è il contenuto informativo che si può apprendere sul possibile risultato di una partita conoscendo solo il rendimento al servizio di una giocatrice contro un’altra. Un solo grafico è in grado di illustrare tutti i possibili esiti di set in una partita di tennis! Ovviamente, si potrebbe anche includere gli effetti generati da ipotesi non indipendenti e identicamente distribuite se sapessimo che alcune giocatrici, ad esempio, sistematicamente cedono alla pressione delle palle break. Spero comunque che sia un riferimento per chi vuole andare oltre il semplice punteggio di una partita.

Which Set Scores Are Most Likely for all Combinations of Servers?

Quantità di gioco e probabilità di vittoria all’avvio della seconda settimana di uno Slam

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 17 febbraio 2020 – Traduzione di Edoardo Salvati

Per raggiungere i quarti di finale agli Australian Open 2020, Dominic Thiem è rimasto in campo per 10 ore e 23 minuti, entrando così nel 20% di tempo più lungo prima di un quarto di finale di uno Slam negli ultimi dieci anni. Nei turni successivi ha accumulato altre ore di gioco, ponendosi all’estremo della distribuzione di questo speciale conteggio.

Nell’analisi che segue, cerco quindi di capire se l’intensità del percorso di Thiem ha contribuito a ridurre la sua probabilità di vittoria del titolo. Pochi giocatori riescono ad arrivare in fondo a uno Slam senza subire affaticamento, ma per alcuni la strada diventa molto più tortuosa.

Le fatiche di Thiem

Negli ultimi tre turni degli Australian Open 2020, Thiem si è trovato proprio in questa situazione. Alla vigilia della sua difficile partita contro Rafael Nadal, il tempo di gioco di Thiem era superiore di 1.3 ore rispetto alla media degli ultimi dieci anni tra i giocatori in un quarto di finale di uno Slam, come rappresentato nell’immagine 1. Alla conclusione della vittoriosa battaglia contro Nadal in quattro set, tra cui tre tiebreak, Thiem era a 14.6 ore, cioè 3.4 ore in più della media.

Un’altra vittoria in quattro set, in semifinale contro Alexander Zverev, ha portato il totale a 18.2 ore, o a 4.5 ore in più della media degli altri semifinalisti di uno Slam. Thiem si è ritrovato nel 3% del monte ore di gioco delle partite che precedono la finale, una posizione non certamente invidiabile contro il sette volte vincitore degli Australian Open Novak Djokovic, il quale invece aveva impiegato solo 12.5 ore.

IMMAGINE 1 – Distribuzione delle ore giocate prima degli ultimi turni di uno Slam maschile nel periodo dal 2011 al 2020. La linea rossa indica il tempo giocato da Thiem agli Australian Open 2020

Possibili conseguenze sull’esito della finale?

Proviamo a elaborare qualche idea con l’esempio fornito da altri giocatori che hanno avuto un percorso accidentato per entrare nella seconda settimana di uno Slam. La tabella a conclusione dell’articolo raccoglie alcune di queste situazioni, tra cui quella di Thiem. Il carico di gioco di Thiem agli Australian Open 2020 è simile a quello di Kevin Anderson a Wimbledon 2019 e di Nadal agli Australian Open 2017. Nessuno di questi giocatori è poi riuscito a vincere il torneo.

Sono però solo degli esempi. E anche se ci fossero molti esempi a mostrare analoga tendenza, staremmo ignorando un interrogativo di fondo. È un grande carico di gioco a contribuire alle sconfitte, o il grande carico di gioco è semplicemente un effetto collaterale di non essere un favorito?

Vogliamo sapere se la grande quantità di gioco incide sul risultato di una partita dopo aver tenuto conto della differenza di bravura tra due giocatori che si scontrano in un qualsiasi turno di uno Slam. Nel linguaggio della regressione, se wij è la probabilità che il giocatore i batte il giocatore j e caricoi è la somma complessiva di gioco del giocatore i, possiamo calcolare l’effetto della quantità di gioco con la seguente formula:

logit(wij) = β0 + β1logit(pij) + β2(caricoi − caricomedio)

dove pij è la previsione di vittoria pre-partita sulla base della bravura dei giocatori e di qualsiasi altro fattore a eccezione del carico di gioco sostenuto durante il torneo. Si tratta di un semplice modello di regressione logistica, in cui la difficoltà maggiore è la scelta di pij, che potrebbe essere data ad esempio dalle quote scommesse. In questo caso utilizzo le mie valutazioni dei giocatori.

Variazioni attese nella probabilità di vittoria

Con gli ultimi dieci anni di quarti di finale e turni successivi a disposizione, ho applicato il modello e osservato la variazione attesa nella probabilità di vittoria di Thiem in ciascuno dei tre turni conclusivi degli Australian Open 2020. La tendenza storica suggerisce che già ai quarti di finale la probabilità di Thiem si era ridotta (un calo in media del 12%) e che la maratona con Nadal l’aveva ulteriormente abbassata. Dalla semifinale in avanti, Thiem aveva una probabilità del 30-35% inferiore rispetto a quella che un giocatore con la sua valutazione avrebbe predetto.

IMMAGINE 2 – Riduzione attesa nella probabilità di vittoria di Thiem agli Australian Open 2020 per il carico di gioco sostenuto (e con un intervallo di confidenza del 90%)

Si può avere la tentazione di ignorare questi risultati pensando che i giocatori hanno poco controllo sulla durata di una partita. Vorrebbe però dire sottostimare la capacità decisionale del giocatore sul livello di offensività da tenere in campo e su come questo incida sul tempo trascorso. Per quei giocatori la cui bravura permette di pensare oltre alla partita successiva, aumentare il livello offensivo quando si arriva a una durata media potrebbe essere una strategia importante per la vittoria finale.

Does greater competition load going into the second week of a Grand Slam hurt a player’s win chances?

Chi può spezzare il monopolio dei Grandi Tre sul tennis mondiale?

di Stephanie Kovalchik // TheConversation

Pubblicato il 19 gennaio 2020 – Traduzione di Edoardo Salvati

Una delle questioni più pungenti per l’appassionato di tennis nel 2020 è vedere se si tratterà di un altro anno dominato dai Grandi Tre, cioè i giocatori più vincenti dell’era Open in Roger Federer, Rafael Nadal e Novak Djokovic. Il loro dominio è ben espresso dai risultati ottenuti nei tornei dello Slam. Dal 2003, anno del primo Slam assoluto di Federer a Wimbledon, se ne sono disputati 68. Di questi, i Grandi Tre ne hanno vinti 55, o circa l’80% (dopo la vittoria di Djokovic agli Australian Open 2020, la percentuale è ora dell’81%, n.d.t.). Federer è al primo posto con 20 Slam, e nessuno tra gli uomini ne ha per ora vinti di più, ma Nadal (19) e Djokovic (17) sono a ridosso. L’aspetto più rimarchevole è la presenza dei Grandi Tre in cima alla classifica del tennis mondiale, nonostante un’età complessiva di 104.8 anni.

Chi tra i Next Gen ha più probabilità di successo

Anche se in molti si aspettano un altro cappotto negli Slam da parte dei Grandi Tre, il finale di stagione 2019 ha lasciato pensare che il regno di Djokovic, Nadal e Federer potrebbe essersi avviato alla sua naturale conclusione. I principali segnali sono arrivati dai risultati di un gruppo di giovani giocatori. Sette di loro, nati dopo il 1990, sono riusciti a vincere contro almeno uno dei Grandi Tre: si parla di Stefanos Tsitsipas, Alexander Zverev, Andrey Rublev, Daniil Medvedev, Dominic Thiem, Nick Kyrgios e Grigor Dimitrov. Anche Matteo Berrettini può essere citato, visto l’ingresso nei primi 8 e la presenza alle Finali di stagione, seppur ancora senza vittorie contro uno dei Grandi Tre.

Uno dei risultati già interessanti dei Next Gen è il record aggregato di 3 vittorie e 2 sconfitte contro i Grandi Tre negli Slam del 2019. Djokovic ha infatti perso contro Thiem al Roland Garros, Federer contro Dimitrov agli US Open e contro Tsitsipas agli Australian Open. Le due sconfitte sono arrivate in altrettante finali e sempre per mano di Nadal: Thiem ha perso al Roland Garros e Medvedev agli US Open. Queste stelle emergenti hanno raggiunto l’apice nell’ultima parte della stagione. Tre Next Gen hanno eliminato i Grandi Tre prima delle semifinali dello Shanghai Masters, solo l’undicesima volta sui 72 Master giocati dal 2011. I semifinalisti a Shanghai, Thiem, Tsitsipas, Medvedev e Berrettini, erano anche i quattro più giovani delle Finali di stagione.

Fare una valutazione in termini di carriera

Vincere uno Slam è il passaggio conclusivo, e il più difficile, per la maturazione di un giocatore della Next Gen. Potrebbe il 2020 rappresentare l’anno della svolta per uno di loro? E chi si trova nella posizione migliore? Un’indicazione arriva dal percorso che ciascuno dei Grandi Tre ha compiuto prima di conquistare uno Slam. Possiamo in questo modo vedere quali dei nuovi campioni sta seguendo una direzione simile.

Le valutazioni dei giocatori, una misura statistica della bravura di un giocatore in qualsiasi momento, sono un ottimo strumento per tracciare l’andamento di una carriera perché sono aggiornate dopo ogni nuovo risultato e corrette per il livello dell’avversario, così da rendere possibile confronti tra generazioni. Attualmente, la maggior parte dei primi 100 ha una valutazione tra i 2000 e i 2300 punti, anche se i Grandi Tre sono decisamente distaccati dagli altri, con valutazioni tra i 2560 e i 2670 punti. All’inizio degli Australian Open, Djokovic aveva la valutazione più alta, anche grazie alla vittoria nell’ATP Cup.

C’è anche qualche elemento in comune

Costruendo un grafico delle valutazioni dei Grandi Tre dall’età di 18 anni fino alla vittoria del primo Slam, possiamo osservare i diversi percorsi intrapresi rispetto a quanto sanno facendo i giocatori della Next Gen (rappresentati dalle linee blu nell’immagine 1).

Nadal è esploso con il primo Roland Garros nel 2005, non avendo ancora compiuto i 19 anni. L’ascesa di Djokovic è stata la seconda più rapida, con il primo Slam agli Australian Open 2008 ad appena 20 anni. Federer è quello ad aver impiegato più tempo, con la vittoria a Wimbledon nel 2003 a due mesi dai 22 anni. Nonostante queste differenze, ci sono alcuni elementi che hanno accomunato le valutazioni dei Grandi Tre nell’avvicinamento al primo Slam. Sei mesi prima della vittoria infatti, avevano una valutazione tra i 2000 e i 2200 punti, cui ha seguito un aumento in quell’intervallo temporale di almeno 100 punti.

IMMAGINE 1 – Confronto tra valutazioni dei Next Gen e valutazioni dei Grandi Tre dal compimento dei 18 anni fino alla vittoria nel primo Slam

Quali sono tra i giovani i più promettenti per il grande salto?

Studiando le stesse traiettorie per i giocatori più promettenti tra quelli nati negli anni ’90, troviamo che tre di loro, Dimitrov, Kyrgios e Thiem, hanno già superato l’età alla quale i Grandi Tre hanno vinto il primo Slam. Tsitsipas e Rublev invece sono gli unici del gruppo ad avere ancora una possibilità di replicare la progressione di uno dei Grandi Tre. L’andamento della valutazione di Tsitsipas è più simile a quello di Djokovic, mentre quello di Rublev segue da vicino, almeno per ora, quello di Federer. Medvedev e Thiem hanno impiegato più tempo per avvicinarsi ai risultati dei Grandi Tre negli Slam, ma un’impennata nella traiettoria della loro valutazione indica che un risultato eclatante potrebbe essere imminente (Thiem ha sfiorato la prima vittoria di uno Slam arrivando in finale agli Australian Open 2020, dopo aver battuto Nadal nei quarti, n.d.t.)

Medvedev

Questo vale specialmente per Medvedev che è il più giovane dei due. Dopo che la sua valutazione si è stabilizzata all’età di 21 anni, come nel caso di Federer, Medvedev è riuscito ad accumulare centinaia di punti in breve tempo, raggiungendo anche la finale degli US Open 2019. Al momento è molto vicino ai 2500 punti, una valutazione simile a quella di Nadal e Djokovic quando hanno vinto il loro primo Slam. La traiettoria della sua valutazione sembra far pensare che la vittoria del primo Slam sia questione di poco tempo (Medvedev ha perso però contro Stanislas Wawrinka agli ottavi a Melbourne, e non può essere considerato il favorito per il Roland Garros, n.d.t.).

Thiem

È uno scenario che si applica anche a Thiem, l’unico altro giocatore tra i primi 8 con una valutazione superiore a 2400 punti. Il suo percorso relativamente più lungo verso il primo titolo Slam potrebbe essere dovuto anche al fatto di essersi trovato a giocare nella stessa epoca di Nadal, l’indiscusso “Re della Terra Battuta”. Their, che è uno specialista della terra, ha perso due finali a Parigi proprio contro Nadal nel 2018 e 2019.

Rublev e Berrettini

Solo di recente Rublev e Berrettini hanno superato la valutazione di 2250 punti, e la loro ascesa recente sorprende per velocità (Rublev ha però perso negli ottavi di finale agli Australian Open 2020 e Berrettini al secondo turno, n.d.t.). Fino a 21 anni, il percorso di Zverev e Kyrgios ha seguito in parallelo quello di Djokovic. Successivamente però, i risultati hanno subito una battuta d’arresto e la speranza di vittoria del primo Slam nel 2020 si è affievolita (in Australia, Zverev è riuscito a giocare per la prima volta una semifinale Slam, mentre Kyrgios ha perso contro Nadal negli ottavi, n.d.t.).

Naturalmente, non esistono percorsi di carriera identici, quindi per principio non si può escludere nessuno dei giocatori della Next Gen da grandezza futura. Se la storia è d’insegnamento, c’è ragione di attendersi un rendimento da vittoria di primo Slam nella stagione in corso anche da Tsitsipas, Medvevdev, Rublev e Berrettini.

Who can break up the ‘Big 3’ monopoly on men’s tennis? Here’s what the numbers say