Pubblicato il 10 agosto 2020 su TennisAbstract – Traduzione di Edoardo Salvati
// È più difficile fare previsioni sullo stato di forma di una giocatrice al rientro da un’interruzione che l’ha tenuta lontana da partite ufficiali per quasi sei mesi? Un ritorno del circuito femminile alla quasi normalità con il torneo di Palermo fornisce degli spunti per una possibile risposta.
In un recente articolo ho ipotizzato che fare pronostici sui risultati sarà, per un certo periodo, più complicato del solito, richiedendo degli aggiustamenti al mio algoritmo per le valutazioni Elo. Le 31 partite di tabellone principale che arrivano dalla Sicilia permettono alcune elaborazioni preliminari.
A uno sguardo veloce, i risultati sembrano un po’ strani. Solo due delle otto teste di serie sono arrivate in semifinale, ed è emersa vincitrice Fiona Ferro. Due wild card hanno raggiunto i quarti di finale. Sono circostanze chiaramente anomale per un evento del livello International? In realtà non così tanto, quindi proviamo a stabilire una linea di demarcazione.
L’imprevedibile Palermo
In termini di “prevedibilità”, il mio riferimento è l’indice Brier, che misura l’accuratezza dei pronostici espressi in percentuale. Va bene ipotizzare una vincitrice, più importante è assegnare una corretta probabilità. Se per 100 partite si afferma che una giocatrice ha il 60% di probabilità di vittoria, dovrebbe allora vincere 60 di quelle cento partite. Se ne vince 90, non si è stati sufficientemente sicuri della sua forma; se ne vince 50, sarebbe stato meglio fare un pronostico lanciando una moneta. L’indice Brier sintetizza questi concetti con un solo numero, che è più preciso quanto è inferiore. Approssimativamente, le mie previsioni Elo per il circuito maschile e femminile si assestano poco sopra allo 0.2.
Dal 2017 fino a marzo 2020, le 975 partite femminili terminate regolarmente in tornei sulla terra di livello International avevano un indice Brier complessivo di 0.223. I primi turni erano leggermente più prevedibili, con un punteggio per i trentaduesimi di 0.219. Il torneo di Palermo ha avuto un andamento più altalenante. Le 31 partite di tabellone principale hanno ottenuto un indice Brier combinato di 0.286. Di altri 32 tornei che ho considerato, solo Praga 2019 aveva un valore più alto, pari a 0.277.
Con un valore di 0.295, il primo turno è stato ancora più imprevedibile. D’altro canto, se si mette insieme un numero più ridotto di partite da uno specifico tabellone con la grande varietà di giocatrici che approdano ai primi turni, molti tornei diventano nella fase iniziale un terno al lotto. 9 tornei su 32 avevano infatti un indice Brier per il primo turno superiore a 0.250, con quattro di questi con un valore più alto — quindi peggiore — rispetto a Palermo.
L’indice Brier della vergogna
Ho parlato del valore di 0.250 perché è una sorta di indice di Brier della vergogna. Diciamo che si è nella situazione di prevedere l’esito di una serie di lanci di moneta. La scelta più arguta è di assegnare il 50% di probabilità a ogni lancio. Per quanto noioso come esercizio, una previsione più estrema significa poi che, metà delle volte, ci si è sbagliati ancora di più. Se si fissa la previsione al 50% per una serie di eventi casuali che hanno il 50% di probabilità di accadere, l’indice Brier sarà…esattamente 0.250.
Un altro modo per vederla è questo: se l’indice Brier è più alto di 0.250, sarebbe stato meglio prevedere che per ciascuna partita il vincitore aveva il 50% di probabilità di vittoria. Ogni altra previsione più elaborata era inutile.
A Palermo, 17 partite su 31 si sono risolte a favore della giocatrice che la mia formula Elo considerava sfavorita. L’indice Brier si è piazzato dalla parte della vergogna. E anche il suggerimento del precedente articolo, in cui dicevo di fare previsioni, almeno in parte, più moderate, non ha fatto molta strada. Almeno fino a qui, la migliore strategia sarebbe stata di ignorare del tutto l’algoritmo e iniziare a lanciare la moneta.
Moderare la moderazione
Ciò detto, non sono ancora pronto a buttare via le mie valutazioni Elo (che hanno correttamente previsto la vittoria di Simona Halep a Praga, ma si sono poi sbagliate sul torneo di Lexington, vinto da Jennifer Brady invece che da Aryna Sabalenka). 31 partite sono un campione ridotto e decisamente inadeguato a valutare l’accuratezza di un sistema creato per prevedere l’esito di migliaia di partite in ogni stagione.
Come riferito, Elo ha fatto ancora peggio a Praga nel 2019 ma, siccome non era un torneo che arrivava dopo diversi mesi di interruzione del tennis mondiale, non avrei mai pensato di considerarlo più che una svista.
Questa volta, un’intera settimana di sorprese contro pronostico potrebbe essere ben più di una svista. Pensare che giocatrici e giocatori abbiano l’esatto livello di forma mostrato a marzo probabilmente non è una buona idea, anzi potrebbe essere una pessima idea. L’insieme di partite triplicherà a breve per poi espandersi oltre. Ora come ora, non sarà di aiuto nella scelta dei vincitori, ma avremo presto una rappresentazione migliore di quanto davvero è imprevedibile il tennis post COVID-19. ◼︎