Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Il sempre meno pronosticabile circuito femminile

ULTIMI ARTICOLI

Prevedere l’esito dei prossimi cinque anni di Slam con la sfera di cristallo

Pubblicato il 16 ottobre 2020 su TennisAbstract - Traduzione di Edoardo Salvati // L’anno scorso, ho creato un modello...

È tornata la discesa a rete?

Pubblicato il 2 ottobre 2020 su StatsOnTheT - Traduzione di Edoardo Salvati // Se guardando il Roland Garros 2020...

Venti non vuol dire sempre venti

Pubblicato il 12 ottobre 2020 su TennisAbstract - Traduzione di Edoardo Salvati // C’è sempre più traffico in cima...

La fortuna del sorteggio: Roland Garros 2020 (donne)

Pubblicato il 25 settembre 2020 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Come per gli uomini, anche per...

La fortuna del sorteggio: Roland Garros 2020 (uomini)

Pubblicato il 25 settembre 2020 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Da diversi anni ormai eseguo simulazioni...

Cosa succede al ritmo di gioco con le nuove regole imposte dalla pandemia

Pubblicato il 31 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // La pandemia COVID-19 ha imposto agli...

Che valore assegnamo ai tornei Masters o Premier vinti nella bolla?

Pubblicato il 30 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Il tennis è ripartito, ma molti...

Mettere un asterisco accanto agli US Open è prematuro, e forse del tutto sbagliato

Pubblicato il 19 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Ci saranno diverse assenze di alto...

Il circuito femminile post COVID-19 sta rientrando alla normalità

Pubblicato il 17 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Negli ultimi due tornei femminili, abbiamo...

Il sospetto che Venus e Serena debbano giocare contro troppo spesso è fondato?

Pubblicato il 12 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Nel torneo di Lexington di questi...

ULTIMI ARTICOLI

Pubblicato il 28 maggio 2017 su TennisAbstract – Traduzione di Edoardo Salvati

// Aggiornamento: i numeri in questo articolo che riassumono l’efficacia di sElo sono eccessivamente alti, un errore nel mio codice ha portato a eseguire il calcolo con le valutazioni a fine partita anziché a inizio partita. I paragrafi che non parlano di sElo non subiscono modifiche, spero rimangano di interesse.    

Nel 2017, il circuito femminile è stato caratterizzato dall’imprevedibilità nei risultati delle giocatrici. In assenza di Serena Williams, Victoria Azarenka e – fino a poco tempo fa – di Petra Kvitova e Maria Sharapova, siamo di fronte a una penuria di giocatrici in grado di dominare con continuità. Tra le rimanenti giocatrici di vertice, molte sono state altalenanti, a causa di infortuni (Simona Halep), di preferenze marcate per una superficie (Johanna Konta), e della buona vecchia regressione verso la media (Angelique Kerber).

Nessuna delle teste di serie più alte ha ancora vinto un torneo almeno di livello Premier. In una recente analisi, Stephanie Kovalchik ha quantificato in dettaglio quante teste di serie hanno reso sotto le attese e suggerito che la classifica ufficiale della WTA – l’algoritmo che determina quali giocatrici ricevano appunto quelle teste di serie – non funziona bene.

La classifica WTA presenta numerosi problemi, specialmente se ci si aspetta che abbia valore predittivo, vale a dire che sia in grado di riflettere con cognizione il livello di rendimento delle giocatrici in un preciso istante.

Kovalchik ha ragione nell’affermare che la classifica WTA sia stata deficitaria nell’identificare le giocatrici migliori, ma c’è dell’altro da aggiungere: secondo algoritmi di calcolo molto più accurati di quello usato per la classifica, la situazione del circuito femminile è nella sua fase più caotica degli ultimi decenni.

Pronosticare la vincitrice

Iniziamo da una misurazione basilare: pronosticare la vincitrice. Comprese quelle agli Internazionali d’Italia, sono state completate più di 1100 partite nel corso del 2017. La giocatrice dalla classifica più elevata ne ha vinte il 62.4%. Dal 1990, il sistema di classifica ha selezionato correttamente la vincitrice nel 67.9% dei casi, arrivando anche oltre il 70% più di una volta negli anni ’90. Fino al 2014, non è mai andato sotto il 66% e il 62.4% del 2017 è il peggior risultato nei 28 anni presi in considerazione.

Il sistema di valutazione Elo ha ottenuto risultati leggermente migliori. Classifica le giocatrici secondo il livello di bravura delle loro avversarie – eliminando di fatto la componente fortuna associata al sorteggio – e fornisce stime più precise del livello di gioco di giocatrici come Serena e Sharapova, che per vari motivi sono state assenti per lunghi periodi di tempo. Dal 1990, Elo è riuscito a pronosticare la vincitrice nel 68.6% dei casi, raggiungendo il punto più basso, pari al 63.1%, proprio per la stagione 2017.

Elo specifico per superficie

Un miglioramento considerevole lo introduce sElo, cioè la valutazione Elo specifica per superficie. Un efficace sistema predittivo basato sulla superficie non è complicato quanto possa sembrare. Elaborando classifiche diverse in funzione di ciascuna superficie (considerando solo partite di quella specifica superficie), dal 1990 sElo è riuscito a pronosticare correttamente la vincitrice nel 76.2% dei casi, raggiungendo quasi l’80% nel 1992. E anche sElo è in difficoltà nel 2017, avendo per ora toccato il suo minimo storico al 71%.

L’immagine 1 mostra l’efficacia con cui i tre algoritmi pronostichino la vincitrice, con sElo chiaramente avanti. L’andamento del grafico rivela anche la presenza di fattori esterni che incidono sulla capacità predittiva dei tre algoritmi in misura analoga.

Il punteggio Brier

Si verifica un effetto della stessa portata anche se si utilizza una modalità di valutazione della classifica WTA rispetto a Elo e sElo ancora più complessa. Il punteggio Brier è una funzione che misura non solo l’accuratezza di un insieme di sistemi predittivi, ma anche il loro grado di calibrazione, cioè quando una previsione di vittoria del 90% per una giocatrice si traduce di fatto in nove vittorie su dieci partite, e non sei su dieci e viceversa.

Il punteggio Brier calcola una media del quadrato della differenza di ciascun pronostico e il relativo risultato. Proprio in virtù dell’elevamento al quadrato, pronostici decisamente sbagliati (ad esempio, una giocatrice che con il 95% di probabilità di vincere una partita finisce per perderla) assumono maggiore importanza di pronostici più scontati (una giocatrice con il 95% di probabilità che vince poi la partita).

Per la stagione 2017, la classifica ufficiale WTA ha un punteggio Brier di .237, Elo è a .226 e sElo a .187. In questa circostanza, il numero più basso è quello migliore, perché stiamo cercando un sistema che minimizzi la differenza tra i pronostici e gli esiti delle partite. Tutti e tre sono i valori più alti per qualsiasi stagione dal 1990. Le corrispondenti medie di periodo sono .207 (WTA), .202 (Elo) e .164 (sElo).

Fattori esterni causano variazioni anno su anno

Così come per i metodi meno sofisticati di sommatoria di pronostici corretti visti in precedenza, anche qui Elo è lievemente migliore della classifica ufficiale, ma entrambi – ignorando la superficie – sono demoliti da sElo, anche se va detto che le metodologie specifiche per superficie utilizzano decisamente meno dati (ad esempio, Elo specifico per la terra battuta ignora completamente i risultati del cemento e dell’erba).

Anche le differenze nel punteggio Brier per i tre metodi sono abbastanza costanti, vale a dire che sono fattori esterni a causare variazioni anno su anno, come mostrato nell’immagine 2.

Quali considerazioni si possono trarre

Pur con le sue pesanti limitazioni, i risultati insolitamente negativi ottenuti nella stagione in corso dal sistema di classifica WTA non hanno a che vedere con qualche stranezza dell’algoritmo di calcolo. Elo e sElo hanno una strutturazione totalmente diversa – l’unico aspetto in comune con la classifica ufficiale è usare l’esito delle partite del circuito femminile – e nonostante questo mostrano la stessa tendenza in entrambe le metriche considerate.

Uno dei fattori di incidenza sull’accuratezza delle previsioni negli ultimi due anni è stata l’assenza di giocatrici del livello di Serena, Sharapova e Azarenka. Se avessero giocato un calendario intero e vinto con la loro frequenza usuale, ci sarebbe stato qualche pronostico corretto in più da parte dei tre sistemi e forse qualche risultato a sorpresa in meno da parte delle giocatrici che hanno tentato di rimpiazzarle al vertice.

Ma non è tutto. Una manciata di pronostici ragionevoli non influisce più di tanto sul punteggio Brier, e con giocatrici estremamente favorite è più probabile che ci siano incredibili sconfitte a sorpresa, come quella di Serena contro Madison Brengle o la vittoria di Eugenie Bouchard su Sharapova. Molti risultati inattesi sono completamente indipendenti dalle prime 10, come il recente titolo a Beil di Marketa Vondrousova.

Un possibile cambio della guardia

Se alcune delle variazioni anno su anno nei grafici sono semplicemente dovute a rumore statistico, gli ultimi anni rappresentano una tendenza molto più significativa.

Potrebbe essere che stiamo assistendo a un cambio della guardia di vaste proporzioni, con giovani talenti (e la loro bassa classifica) che ottengono regolarmente vittorie a sorpresa contro le giocatrici più affermate, mentre le stelle assolute sono costrette a passare più tempo lontane dai campi.

Le vittorie contro pronostico poi potrebbero essere in qualche modo contagiose: una diciannovenne in ascesa che vede una giocatrice del suo livello battere una delle prime 10 può sentirsi più fiduciosa nel pensare di poter raggiungere lo stesso traguardo.

L’imprevedibilità del circuito non è un’illusione

Quali siano i fattori scatenanti dell’attuale stato di imprevedibilità del circuito femminile, possiamo osservare che non si tratta solo di un’illusione creata da un sistema di classifica fallato. I risultati a sorpresa sono più frequenti ora che in qualsiasi altro momento di recente memoria, indipendentemente dall’algoritmo scelto per pronosticare le giocatrici favorite. ◼︎

The Steadily Less Predictable WTA

DELLO STESSO AUTORE

Un colpo al cerchio e uno alla botte per i premi partita Slam

Pubblicato il 30 dicembre 2019 su TennisAbstract - Traduzione di Edoardo Salvati // L’occhio di falco del profilo Twitter...

Lo Slam che nessun giocatore salta – Gemme degli US Open

Pubblicato il 23 agosto 2012 su TennisAbstract - Traduzione di Edoardo Salvati // Il quinto articolo della serie Gemme degli...

Quanto è pericoloso truccare un singolo game di servizio?

Pubblicato il 28 gennaio 2016 su TennisAbstract - Traduzione di Edoardo Salvati // In un precedente articolo, ho...

Presente e futuro degli errori

Pubblicato il 13 gennaio 2017 su TennisAbstract - Traduzione di Edoardo Salvati // Quando un errore è forzato? Se, per...

Venti non vuol dire sempre venti

Pubblicato il 12 ottobre 2020 su TennisAbstract - Traduzione di Edoardo Salvati // C’è sempre più traffico in cima...

L’impareggiabile talento di Kei Nishikori nei set decisivi

Pubblicato il 29 aprile 2015 su TennisAbstract - Traduzione di Edoardo Salvati // La vittoria su Roberto Bautista Agut nei...

Dominic Thiem, specialista vecchia scuola della terra battuta

Pubblicato il 24 febbraio 2018 su TennisAbstract - Traduzione di Edoardo Salvati // Con un calendario pesantemente orientato ai tornei...

Un po’ di ironia con il rapporto nei punti al servizio

Pubblicato il 14 settembre 2017 su TennisAbstract - Traduzione di Edoardo Salvati // Nella vittoria a senso unico della finale...

Differenze fra sessi nell’assegnazione delle penalità

Pubblicato il 10 settembre 2018 su TennisAbstract - Traduzione di Edoardo Salvati // Gli episodi arbitrali della finale femminile degli...

Altro Slam, altro inutile cronometro al servizio

Pubblicato l’1 febbraio 2019 su TennisAbstract - Traduzione di Edoardo Salvati // Il cronometro al servizio per i 25 secondi...