Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Probabilmente il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

A proposito di quelle classifiche un po’ rafferme

ULTIMI ARTICOLI

ULTIMI ARTICOLI

Pubblicato l’8 marzo 2021 su TennisAbstract – Traduzione di Edoardo Salvati

// A causa della pandemia, entrambi i circuiti hanno dovuto modificare gli algoritmi di calcolo delle classifiche ufficiali. Visto che molti tornei sono stati cancellati lo scorso anno (e qualche altro subirà inevitabilmente la stessa sorte quest’anno) e visto che non si vuole penalizzare eccessivamente giocatori e giocatrici che decidono di limitare gli spostamenti, di fatto è stato adottato un meccanismo di classifica su due anni. A fini dell’analisi odierna, non serve soffermarsi sui dettagli, l’importante è tenere a mente che le classifiche spaziano su un orizzonte temporale più lungo del solito.

Beneficiano di questa nuova impostazione giocatori come Roger Federer, che ha saltato 14 mesi ma è ancora al numero 6. Lo stesso vale per Ashleigh Barty, che non ha giocato per 11 mesi ma è rientrata da testa di serie numero 1 agli Australian Open. Va male invece ai più giovani o altri che hanno vinto di recente molte partite. Sono vittorie che migliorano la classifica, ma che li fanno comunque rimanere dietro a giocatori che non hanno combinato molto ultimamente.

L’aggiustamento degli algoritmi riflette il doppio scopo del sistema di classifica. Da un lato, si cerca di mettere in ordine i più forti. Dall’altro, si cerca di garantire altre tipologie di “equità” e facilitare il raggiungimento degli obiettivi del circuito e di quelli degli organizzatori di alcuni specifici eventi. Per quanto ci siano algoritmi migliori, quelli usati dall’ATP e dalla WTA fanno un ottimo lavoro. Con le modifiche imposte dalla pandemia, è lecito pensare che le formule adottate non siano più così efficaci a svolgere quel compito.

Ipotesi

Siamo in grado di fare un test!

Ipotizziamo di essere in possesso di una graduatoria definitiva, consegnata direttamente dal dio del tennis (o da Martina Navratilova), in cui sono presenti i primi 100 in ordine di bravura. Nessuna equità, nessuna richiesta degli organizzatori da soddisfare, nessuna interpretazione: è la parola finale sull’argomento.

Quindi, più una classifica si avvicina alla graduatoria definitiva, più è corretta, giusto? Ci sono diverse statistiche per questo tipo d’indagine e ho scelto il tau o τ (dalla corrispondente lettera greca) di Kendall, detto anche coefficiente di correlazione Kendall, che misura forza e relazione tra due variabili quantitative. Se si confrontano elenchi di classifiche (le variabili quantitative) e due elenchi sono identici, allora il valore di tau è uguale a 1. Se non esiste correlazione, tau è uguale a 0. Maggiore è tau, più forte è il rapporto tra i due elenchi.

La mia ipotesi è che le classifiche ufficiali sono peggiorate, nel senso che le modifiche dettate dalla pandemia hanno portato a un elenco che si discosta maggiormente da quello definitivo emanato dal dio del tennis o da Navratilova. In altre parole, il valore tau è diminuito.

Non possediamo un elenco definitivo, ma abbiamo le valutazioni Elo, che hanno esattamente quell’unico obiettivo, e la mia versione dell’algoritmo Elo produce risultati ottimali. La pandemia non ha alterato la sostanza della mia formula Elo [1], che quindi funziona da punto di riferimento costante per una comparazione con la classifica ufficiale.

Tau e le classifiche

La tabella mostra i primi 10 della classifica attuale oltre ai primi 10 delle valutazioni Elo.

Giocatore      ATP  Elo  
Djokovic       1    1  
Nadal          2    2  
Medvedev       3    3  
Thiem          4    5  
Tsitsipas      5    6  
Federer        6    -  
Zverev         7    7  
Rublev         8    4  
Schwartzman    9   10  
Berrettini    10    8

Non ho assegnato una valutazione Elo a Federer perché è tornato a giocare per la prima volta dopo più di un anno. Se prendiamo l’ordine dei restanti nove giocatori e applichiamo la formula per il calcolo del tau di Kendall, otteniamo 0.778. È un valore che, in assenza di contesto, non dà grandi indicazioni, ma è un punto di partenza. Per quanto i due elenchi siano molto simili, con diversi giocatori dalla classifica identica, ci sono un paio di differenze, nella valutazione Elo più alta per Andrey Rublev e nello scambio di posizione tra Diego Schwartzman e Matteo Berrettini.

Proviamo a fare lo stesso esperimento su un numero più ampio di giocatori. Prendiamo i primi 100 giocatori della classifica ATP che superano la soglia minima di gioco tale da avere una valutazione Elo attuale. Applicando la formula per il tau, si ottiene il valore di 0.705. Ed è qui che la mia ipotesi crolla. Ho infatti calcolato gli stessi valori per le classifiche ufficiali e le valutazioni Elo di fine anno dal 1990. In media, il valore di tau su quel periodo di più di trent’anni è di 0.68. Cioè, se confidiamo nella capacità predittiva di Elo (che di fatto è rimasta inalterata), sembra che le classifiche ufficiali aggiustate per riflettere la pandemia funzionino meglio del solito, e non peggio.

L’immagine 1 mostra i valori di tau anno per anno, con il valore di tau relativo alla classifica attuale nel punto più a destra della curva.

IMMAGINE 1 – Valore di tau di Kendall, classifiche di fine anno ATP vs Elo, dal 1990 a oggi

Anche la classifica WTA conferma che il risultato non è dovuto solamente a una stranezza degli aggiustamenti sul circuito maschile, come mostra l’immagine 2.

IMMAGINE 2 – Valore di tau di Kendall, classifiche di fine anno WTA vs Elo, dal 1990 a oggi

La media di trent’anni di classifiche femminili è di 0.723, mentre il valore di tau attuale è di 0.764.

A proposito di…

Ci si chiede se la pandemia ha avuto effetti sul campione di dati che non riusciamo a vedere. Come ho detto, considero solo quei giocatori che hanno giocato un numero minimo di partite tale da garantirsi una valutazione Elo. Per il nostro scopo, si tratta di venti partite nell’arco di 52 settimane, e già questo esclude circa un terzo dei primi 100 della classifica maschile e circa la metà delle prime 100 del mondo. I calcoli fatti in precedenza includono comunque cento giocatori tra la classifica di fine anno 2020 e quella attuale, ma ho dovuto scorrere la classifica più in basso per trovarli. Questo a dire che la definizione di “primi 100” subisce variazioni tra la fine del 2019 e del 2020 fino a oggi.

Non è un problema di che si può risolvere integralmente, perché la pandemia ha reso le circostanze intricate sotto molteplici aspetti. Siamo molto lontani da un vero esperimento naturale, possiamo però concentrarci sui “veri” primi 100, anche se questo elenco è più corto del solito relativamente alle classifiche attuali. Quindi, invece di prendere i primi 100 che soddisfano i requisiti (numero minimo di partite giocate da cui una valutazione Elo), si selezionano meno giocatori, ma tutti all’interno dei primi 100 delle classifiche ufficiali.

Il risultato non cambia. Per gli uomini, il valore di tau basato sulla classifica ufficiale e sulle valutazioni Elo odierne è di 0.694 rispetto a una media storica di 0.678. Per le donne, è di 0.721 rispetto a 0.719. Eppure, le classifiche ufficiali danno l’impressione di essere davvero rafferme. Anche Elo non aiuta nel risolvere il problema principale. Fino a qui, abbiamo analizzato quei giocatori rimasti in attività. Ma i nomi andati oltre la data di scadenza nelle classifiche ufficiali appartengono a chi è rimasto a casa. Federer dovrebbe mantenere il numero 6? Non ne ho proprio idea! In passato, se un giocatore di vertice saltava 14 mesi, Elo scalava un centinaio di punti. Se facessimo così con Federer ora, il valore di tau diminuirebbe. Tuttavia, non esiste una risposta univoca su come i giocatori inattivi (o per la maggior parte inattivi) dovrebbero essere valutati.

Che cosa abbiamo imparato

Siamo arrivati a quel punto della disamina in cui dovrei spiegare perché questi risultati hanno senso e perché avremmo dovuto sospettarlo da subito. Stavolta però non credo di riuscirci. Un buon modo di vedere la cosa è pensare che ci sia una sorta di circuito nel circuito che continua a giocare regolarmente. Federer, Barty e molti altri non ne hanno fatto parte, mentre diverse decine di giocatori partecipano a tornei tutte le volte che riescono. La classifica di giocatori e giocatrici di questo secondo gruppo è decisamente buona.

Non sembra giusto che Clara Tauson sia ferma appena dentro le prime 100 con un Elo che la posiziona già tra le prime 50, o che Rublev, nonostante sei mesi di rendimento scintillante, sia dietro Federer, che invece è rimasto fuori dalle competizioni. E, in ottica storica come ad esempio le settimane tra i primi 50 o tra i primi 5 per Rublev, forse non è nemmeno giusto che siano dietro a colleghi che hanno scelto di non giocare o che si sono seduti sugli allori di vittorie di un anno e mezzo prima.

Ma per altri importanti motivi, le classifiche assolute spesso non contano. Se si escludono il Roland Garros, le Finali di stagione e gli Australian Open, Rublev è stato tra le prime cinque teste di serie in ogni torneo che ha giocato a partire da settembre 2020, pur non essendo mai andato oltre l’ottavo posto in classifica. Quando si gioca all’interno del circuito nel circuito, Rublev è tra i primi cinque. Simili giocatori e giocatrici continueranno a essere leggermente sfavoriti negli Slam, ma è uno svantaggio che tenderà a ridursi mantenendo questo livello di forma.

Da discepolo della scienza, farò tesoro di queste conclusioni. Significa cioè che andrò avanti a lamentarmi dei problemi relativi alle classifiche ufficiali, ma non più di quanto già non facessi prima della pandemia. ◼︎

Note:

[1] Non è del tutto corretto, nel senso che l’algoritmo che ho creato prevede una penalizzazione per assenza o infortunio dopo un paio di mesi in cui un giocatore è lontano dalle competizioni. Dato che la pandemia ha generato assenze varie per ragioni varie, ho sospeso lo scatto della penalizzazione fino a che la situazione non rientra un po’ più alla normalità.

So, About Those Stale Rankings

DELLO STESSO AUTORE