Che valore assegnamo ai tornei Masters o Premier vinti nella bolla?

di Jeff Sackmann // TennisAbstract

Pubblicato il 30 agosto 2020 – Traduzione di Edoardo Salvati

Il tennis è ripartito, ma molti dei più forti sono ancora a casa o vengono eliminati nei turni iniziali del loro primo torneo ufficiale dopo mesi di interruzione. Pur avendo conquistato il titolo da favorito nel Cincinnati Masters (che si è giocato nella sede degli US Open a New York, n.d.t.), Novak Djokovic non ha dovuto affrontare nessun giocatore dei primi 10. Lo stesso è stato per Victoria Azarenka, che ha vinto il Cincinnati Premier grazie anche al ritiro di Naomi Osaka in finale e al fatto di non aver avuto giocatrici tra le prime 10 sul suo cammino.

Dato che la maggior parte delle persone s’interessa solo degli Slam e null’altro, il dibattito sulla necessità di avere un asterisco accanto alle vittorie di questo periodo si è focalizzato sugli US Open. Vista però la facilità del cammino ai due titoli, dovremmo usare un asterisco anche per Cincinnati?

Il numero 35 per Novak, ma non (esattamente) il più facile

In un precedente articolo, ho spiegato perché parlare di asterisco è prematuro, se non del tutto sbagliato. Il campo partecipanti non è ciò che conta, perché il vincitore affronta solo una manciata di giocatori. La presenza di Rafael Nadal, per fare un nome, non ha molto a che fare con la difficoltà della vittoria del titolo a meno che chi vince non ha dovuto battere anche lui. Se gli avversari del vincitore sono molto forti, la strada per il titolo è stata tortuosa. Con avversari relativamente deboli, il percorso è facile. Sottolineo che sto usando “forte” e “debole” in termini teorici. Djokovic ha avuto fortuna a trovare in semifinale e in finale rispettivamente il dodicesimo e trentesimo in classifica. Sulla carta, quindi, il suo percorso sembrava “facile”. In realtà, ha dovuto guadagnarsi con fatica entrambe le vittorie.

Ora sappiamo che i campioni di Cincinnati hanno avuto vita relativamente comoda. Quanto è stato semplice però il loro percorso?

Il campione Masters medio

Ho calcolato la difficoltà della strada al titolo determinando la probabilità che un campione Masters medio su quella superficie batta gli avversari che il vincitore ha dovuto affrontare. Utilizzando il concetto di “campione Masters medio” si smette di considerare il livello di bravura del giocatore che ha effettivamente vinto il torneo per concentrarsi sulla qualità degli avversari.

I numeri che ne emergono variano sensibilmente, dal 2.5% — cioè la probabilità che un campione Masters medio battesse i giocatori affrontati da Jo Wilfried Tsonga per vincere il Canada Masters 2014 — fino al 61.2%, cioè la probabilità che un campione Masters medio battesse i giocatori affrontati da Nikolay Davydenko al Masters di Parigi Bercy 2006.

Per Djokovic, nel Cincinnati Masters il numero è stato del 40.5%. In altre parole, un campione Masters medio sul cemento avrebbe avuto 4 probabilità su 10 di battere i cinque giocatori che Djokovic si è trovato di fronte. Come mostra la tabella, è l’undicesimo titolo Masters per facilità dal 1990.

(P) Titolo   Torneo                Vincitore             
61.2%        2006 Parigi           Davydenko  
50.5%        2012 Parigi           Ferrer       
49.8%        2000 Parigi           Safin        
48.3%        2004 Parigi           Safin        
47.0%        1999 Parigi           Agassi       
44.5%        2013 Shanghai         Djokovic     
43.3%        2002 Madrid           Agassi       
42.9%        2005 Parigi           Berdych      
41.4%        2009 Canada           Murray        
41.3%        2017 Parigi           Sock          
40.5%        2020 Cincinnati       Djokovic     
39.6%        2011 Shanghai         Murray        
39.1%        2019 Canada           Nadal       
37.9%        2008 Inter. d'Italia  Djokovic     
36.2%        2007 Cincinnati       Federer

A meno di non voler mettere in modo permanente un asterisco accanto al Masters di Parigi Bercy, dovremmo smettere di sminuire il titolo di Cincinnati. Sorprende la maggiore facilità del titolo per Djokovic allo Shanghai Masters 2018. Pur avendo dovuto battere due dei primi 10 nei turni conclusivi (Tsonga e Juan Martin del Potro), a quel tempo Elo non li considerava così in forma.

Azarenka: asterisco al quadrato

Fare una valutazione del titolo femminile è più complicato. Parte del problema è nel ridotto numero di tornei della categoria Premier Mandatory, e nel fatto che due tra questi (Indian Wells e Miami) hanno tabelloni decisamente più ampi, diventando molto più difficili da vincere. Un aspetto ancora più rilevante è il ritiro in finale di Osaka, l’avversaria contro cui Azarenka avrebbe dovuto giocare.

Iniziamo dai numeri. Se prendiamo le cinque giocatrici che Azarenka ha battuto e calcoliamo la probabilità che una campionessa Premier media (non solo Premier Mandatory quindi) le batterebbe, il numero è di 20.7%. Se aggiungiamo Osaka, nell’ipotesi in cui Azarenka ha il merito di averla battuta, il numero diventa 7.4%.

Rispetto a quanto visto per gli uomini, si tratta di un buon numero. Ma c’è lo zampino del diavolo, perché la categoria Premier per le donne è in media decisamente più debole di un evento di punta come Cincinnati. La tabella riepiloga la probabilità per il torneo di Cincinnati negli ultimi dodici anni.

20.7%       2020  Azarenka  (rit. Osaka)  
7.4%        2020  Azarenka  (b. Osaka)   
7.3%        2016  Kar. Pliskova             
5.5%        2010  Clijsters                 
5.5%        2012  Na                         
5.3%        2015  S. Williams               
4.5%        2011  Sharapova               
4.3%        2014  S. Williams               
4.2%        2017  Muguruza              
3.9%        2019  Keys                  
2.9%        2013  Azarenka             
2.0%        2009  Jankovic               
1.3%        2018  Bertens

Il 20.7% di probabilità è un numero rispettabile per un tipico evento Premier, e la vittoria di Azarenka a Brisbane 2016 ad esempio, con il 20.8%, aveva un valore praticamente identico. Cincinnati però offre un tabellone costantemente più ostico. Anche tenendo conto della difficoltà di battere Osaka, il cammino di Azarenka è stato il più facile (anche se di poco) a Cincinnati da quando è stata creata la categoria Premier.

Si, no, forse

Voglio ribadire una delle principali conclusioni dall’articolo sull’asterisco accanto agli US Open. Quando si vuole stabilire se un titolo “conta”, non c’è mai una semplice risposta si o no (e questo nell’ipotesi in cui si prende anche solo in considerazione l’idea che un titolo non possa contare). Ben prima che la pandemia creasse enorme scompiglio, c’erano titoli — e anche gli Slam — molto più facili da vincere di altri.

Il titolo di Djokovic si inserisce nel mezzo del tipico intervallo di difficoltà, anche se rimarrà alla storia come uno dei più facili che ha vinto. Per Azarenka, la valutazione non è così immediata, più per il ritiro di Osaka che per la debolezza del campo partecipanti. Nonostante numerose assenze importanti, il livello è stato sufficientemente competitivo da riservare ad Azarenka un percorso al titolo paragonabile con almeno una recente edizione a Cincinnati e molti altri tornei di prima fascia.

Tenendo tutto questo a mente, vi lascio con due previsioni. La prima, è che i vincitori degli US Open avranno un cammino relativamente facile al titolo ma, come per Djokovic, si tratterà di un livello di difficoltà tipico. La seconda: alla fine delle due settimane, desidererete non sentire ma più la parola “asterisco”.

How Should We Value the Masters and Premier Titles in the Bubble?

Mettere un asterisco accanto agli US Open è prematuro, e forse del tutto sbagliato

di Jeff Sackmann // TennisAbstract

Pubblicato il 19 agosto 2020 – Traduzione di Edoardo Salvati

Ci saranno diverse assenze di alto profilo agli US Open 2020. Rafael Nadal ha deciso di non giocare la trasferta in nord America, quest’anno più breve, e Roger Federer non rientrerà prima del 2021 per via dell’infortunio al ginocchio. Anche tra le donne, più della metà delle prime 10 non si presenterà a New York. Un campo partecipanti privo di alcuni dei più forti aumenta la probabilità che i pochi favoriti rimasti, come Novak Djokovic e Serena Williams, aggiungano un altro trofeo Slam alla loro collezione (per Djokovic non sarà più possibile, vista la squalifica ricevuta per aver lanciato la pallina contro la giudice di linea, n.d.t.).

La necessità di assegnare un “asterisco” a questa edizione del torneo è diventato quindi un argomento di conversazione tra opinionisti e per i tifosi più accalorati. L’idea è che, per via di tutte le assenze illustri, questo Slam valga meno degli altri, al punto che la cronistoria dovrebbe riportare la relativa insignificanza del titolo assegnato (nessuno si occupa più delle cronistorie, quindi si parla in effetti di una pagina nel sito degli US Open o un aggiornamento infinito della pagina Wikipedia).

Per quello che ho visto, c’è un errore di fondo. Certamente un campo partecipanti debole rende più facile, sulla carta, la vittoria del torneo. E chi alzerà la coppa non avrà dovuto affrontare Nadal o Ashleigh Barty lungo il percorso. Ma non è il campo partecipanti ciò che conta.

Il campo partecipanti non è ciò che conta

La ripetizione della frase non è casuale, perché è davvero così importante. Il vincitore di uno Slam deve superare sette partite. La difficoltà di aggiudicarsi il titolo dipende quasi interamente dagli avversari in quelle sette partite. Ogni tabellone è composto da 128 giocatori (e giocatrici), ma 120 di loro sono quasi irrilevanti.

Dico quasi perché prevedo varie obiezioni. Ci sono volte in cui una vittoria è cosi dura per la resistenza dell’avversario da indebolire il vincitore nel turno successivo. Prendiamo ad esempio l’edizione 2009 del Madrid Masters, in cui a Nadal sono servite quattro ore per battere Djokovic in semifinale, per poi perdere contro Federer in finale. Potremmo dire che la presenza di Djokovic ha avuto rilevanza, anche se Federer ha vinto il torneo senza giocarci contro.

Sono combinazioni di eventi che accadono, per quanto forse non così tanto come si crede. E anche quando succede, può non necessariamente essere un giocatore di vertice a sfiancare l’avversario in uno dei primi turni.

Distribuzione delle teste di serie

Un altro aspetto è che l’assenza di giocatori ha conseguenze sulla distribuzione delle teste di serie. Ad esempio, Serena è attualmente la numero nove del mondo, una posizione poco invidiabile all’inizio di uno Slam. La testa di serie numero 9 infatti ha in programma un quarto turno con una delle prime otto, e potrebbe dover giocare contro quattro delle prime otto prima di vincere il titolo. Con tutte le assenze, Serena è la testa di serie numero 3, dietro solo a Karolina Pliskova (che però ha perso al secondo turno, n.d.t) e Sofia Kenin (che ha perso al quarto turno, n.d.t.).

Non sono tematiche da escludere a priori. Hanno la loro importanza, limitata però a incidere nel modo in cui il tabellone si riduce fino ai due finalisti. La differenza nell’impegno richiesto da una partita contro la testa di serie numero 3 o la numero 9 potrebbe essere enorme…o potrebbe essere nulla, specialmente se si verificano molte sconfitte pesanti nei primi turni.

La difficoltà è un continuum

Pur dando credito ad alcune delle precedenti obiezioni (o ad altre che non mi sono venute in mente), spero si possa essere d’accordo sul fatto che l’ostacolo più rilevante per un giocatore nella conquista del torneo sono i sette avversari davanti al suo cammino.

Se in media sono giocatori molto forti, diremo che il giocatore ha vinto con un percorso decisamente duro. È il caso di Stanislas Wawrinka agli Australian Open 2014, quando ha battuto sia Djokovic che Nadal all’apice del loro dominio. Se, complessivamente, il livello dei sette avversari non è da far girare la testa, almeno per gli standard previsti da uno Slam, diremo allora che il percorso è stato facile. Ad esempio, sempre agli Australian Open Federer ha vinto il titolo nel 2006 affrontando solo un giocatore dei primi 20 e nessuno dei primi 4.

Siamo in grado di quantificare la difficoltà del percorso in diversi modi. Una metodologia utile è quella di calcolare la probabilità che un campione Slam medio batta quei sette avversari. La differenza tra titolo facile e molto impegnativo è abissale. Tipicamente, un campione Slam medio (vale a dire un giocatore con una valutazione Elo intorno a 2100), avrebbe una probabilità del 3.3% di battere i sette giocatori affrontati da Wawrinka a Melbourne l’anno in cui ha vinto. Solo due percorsi Slam sono stati più difficili nella storia, entrambi di Mats Wilander al Roland Garros, nel 1982 e 1985. A confronto, un campione medio Slam avrebbe avuto il 51% di probabilità di 7 vittorie e 0 sconfitte con il tabellone di Federer agli Australian Open 2006.

Quindici volte più facile!

Il tabellone più facile di uno Slam è quindici volte più facile del tabellone più difficile di uno Slam. Quindici volte! Tra questi due estremi, si possono trovare molti campioni Slam per ogni possibile livello di difficoltà. Il campione Slam medio avrebbe avuto il 10% di probabilità di vincere gli US Open 2011 come ha fatto Djokovic. Lo stesso vale per gli US Open 2012. Il cammino di Andy Murray alla vittoria di Wimbledon 2016 avrebbe dato al campione Slam medio una probabilità del 20%. Il Roland Garros 2018 è stato gestibile per Nadal, perché un campione Slam medio aveva una probabilità del 30% di assicurarsi quelle sette vittorie.

Nulla toglie che tutti quei giocatori meritassero o “non” meritassero il titolo. Federer non ha scelto i suoi avversari nel 2006 a Melbourne più di quanto non potesse fare Wawrinka otto anni dopo. Il trofeo è identico e, in molti importanti dettagli, anche il risultato è identico. Entrambi i campioni svizzeri hanno eliminato tutti gli avversari, che si sono rivelati i giocatori con il rendimento migliore (almeno durante quelle due settimane) tra tutti quelli iscritti al torneo.

Un asterisco per tutti gli Slam

Un altro elemento in comune tra la vittoria di Federer nel 2006 e quella di Wawrinka nel 2014: quasi tutti i più forti del mondo erano in tabellone (con l’eccezione del campione uscente Marat Safin, assente per infortunio nel 2006). Di fatto, il campo partecipanti era lo stesso, ma per vincere il titolo un giocatore ha passeggiato per due settimane, l’altro ha dovuto compiere una delle cavalcate più straordinarie nella seconda settimana di uno Slam nell’era moderna.

C’è un intendimento collettivo tra tifosi che ogni vittoria Slam vale “un punto”. Non deve essere per forza così. Si potrebbero cioè assegnare più “punti Slam” per imprese come quelle di Wawrinka e assegnarne meno a vittorie più facili. La maggior parte delle persone rifiuta questa ipotesi, e ammetto che suona un po’ strana. Non ne sto spingendo un uso generalizzato, per quanto sia un concetto che ho illustrato in precedenza, facendo vedere che gli Slam di Djokovic sono, in media, più impressionanti di quelli di Nadal, che a loro volta sono stati più duri di quelli di Federer.

Una ponderazione degli Slam per il grado di difficoltà determina cambiamenti nella classifica dei più grandi di sempre, insieme alla certezza per me di essere odiato dai tifosi di ciascun giocatore perché ho scritto del codice e riempito di numeri dei file Excel (con premeditazione, lo ammetto). In un certo senso, modificare il conteggio degli Slam in funzione della loro difficoltà significa mettere un asterisco accanto a ognuno di essi. Ai tabelloni più complicati viene riconosciuto il fatto di essere stati difficili, mentre quelli che nel corso del torneo si sono semplificati ricevono un punteggio inferiore, vista la loro facilità. Si tratta di un intervallo di continuità, non una semplice decisione dentro o fuori tra Slam “normali” e Slam “anomali”.

Sarà così anche per il 2020?

I campioni degli US Open 2020 avranno probabilmente avuto un percorso che si trova nella metà più facile di quell’intervallo di continuità. Ma anche un affermazione di questo tipo non è per nulla scontata.

Poniamo che Venus Williams riscopra la forma di una volta e vinca il titolo, battendo la testa di serie numero 3 Serena nei quarti di finale, la testa di serie numero 2 Kenin in semfinale e la testa di serie numero 1 Pliskova in finale (non importa che la vincitrice a sorpresa sia Venus, potrebbe essere anche una giocatrice con classifica inferiore, anche se Venus sembrerebbe la più accreditata) [Venus ha perso al primo turno, n.d.t.]. Una campionessa Slam media batterebbe quelle tre giocatrici in successione circa il 37% delle volte. Il 37% è già una probabilità più bassa di quasi il 20% dei tabelloni Slam femminili degli ultimi 45 anni (la vittoria di Kenin agli Australian Open 2020 aveva una probabilità del 39%).

Il 37% per l’ipotetico titolo di Venus non rappresenta nemmeno l’immagine completa. La probabilità scenderebbe al 26% mettendoci dentro altri quattro turni contro tenniste di esperienza, facendolo diventare più difficile di un terzo dei tabelloni Slam femminili. Se aggiungiamo una o due avversarie delicate tipo Cori Gauff (che ha perso al primo turno, n.d.t.) o Petra Kvitova (che ha perso al quarto turno, n.d.t.), all’improvviso il cammino per la vittoria degli US Open 2020 diventa difficile come un qualsiasi altro Slam.

Le cose sono più semplici quando non si deve battere Djokovic

Lo stesso ragionamento si può applicare al titolo maschile. Stando i numeri, la semplice vittoria a sorpresa contro Djokovic (come se fosse così davvero semplice) è più difficile di quanto sia stato sconfiggere tutti e sette gli avversari di Federer negli Australian Open 2006. Avete letto bene: sei ritiri e una vittoria contro Djokovic non sarebbe comunque lo Slam più facile negli ultimi quindici anni. Aggiungeteci sei vittorie effettive, tra cui un paio contro avversari di spessore, e ottenete un cammino di sette partite che regge il confronto con un tipico Slam non affetto da pandemia.

Ironicamente, il giocatore che potrebbe vincere il titolo con il percorso più debole è proprio Djokovic (che appunto è stato squalificato al quarto turno, n.d.t.). Sarebbe quantomeno inusuale dover mettere un asterisco accanto a qualunque vittoria di Djokovic, ma le cose sono molto più semplici quando non deve battere un giocatore come sé stesso.

Competitività mascherata

Vale la pena ripeterlo, il campo partecipanti non è ciò che conta. Se ci concentriamo sui giocatori presenti a New York invece degli assenti, vediamo che ci sono gli ingredienti necessari per un percorso rispettabile alla vittoria del titolo. Quasi certamente Wilander e Wawrinka possono stare tranquilli, ma è assolutamente possibile che i vincitori avranno affrontato un livello competitivo equivalente a quello di uno Slam medio. Non ne sapremo di più se non verso la fine della seconda settimana. Parlare di asterischi è quindi come minimo prematuro. Poi, sarà probabilmente una questione di opinioni.

US Open Asterisk Talk is Premature. It Might be Flat-Out Wrong

Il circuito femminile post COVID-19 sta rientrando alla normalità

di Jeff Sackmann // TennisAbstract

Pubblicato il 17 agosto 2020 – Traduzione di Edoardo Salvati

Negli ultimi due tornei femminili, abbiamo assistito a risultati attesi, oltre a qualche sorpresa. Simona Halep, la chiara favorita a Praga, ha portato a casa il titolo nonostante due partite di primo e secondo turno al terzo set. Nell’altro torneo della settimana a Lexington, le cose sono andate diversamente. Serena Williams e Aryna Sabalenka, le più forti nelle rispettive metà del tabellone, hanno raccolto insieme solo tre vittorie, con le quattro semifinaliste fuori dalle teste di serie.

In un precedente articolo ho sottolineato come Palermo, il primo torneo alla ripresa dell’interruzione, era così imprevedibile che per fare pronostici sarebbe stato meglio lanciare una moneta invece che affidarsi a valutazioni (come Elo) sulla bravura delle giocatrici aggiornate a prima della pandemia. Non è la prima volta di un evento con così tante vittorie insolite, ma è indicazione del fatto che il circuito femminile non è ancora tornato alle dinamiche di dominio più classiche.

Con Praga e Lexington abbiamo ora il triplo dei dati con cui lavorare. Inoltre, si potrebbe teorizzare una maggiore prevedibilità, seppur contenuta, per Praga visto che molte delle giocatrici erano impegnate anche a Palermo, vale a dire in possesso di fresca condizione di partita. Pur rimanendo con un campione risicato di 93 partite, ci avviciniamo a una migliore comprensione di come il tradizionale metodo previsionale operi in tempi di incertezza.

Una sequenza Brier altalenante

La statistica che uso per quantificare la prevedibilità — detta in altro modo, la validità delle valutazioni relative allo stato di forma delle giocatrici prima dell’interruzione — si chiama indice di Brier, e tiene conto sia dell’accuratezza grezza (il pronostico ha indovinato la vincitrice) che del livello di confidenza (il pronostico ha ecceduto in sicurezza, ha mancato in fiducia, o è stato semplicemente giusto). Indici di Brier complessivi per il circuito solitamente si aggirano intorno allo 0.21, mentre un valore di 0.25 indica che la previsione non era meglio di un lancio della moneta. Un punteggio più basso segnala una previsione più precisa.

La tabella riepiloga l’indice di Brier per Palermo, Lexington e Praga, insieme alla media dei tre tornei, alla media di tutti i tornei della categoria International (a prescindere dalla superficie) dal 2017 (i valori sono ottenuti sulla base delle mie valutazioni Elo). Ci potremmo aspettare un primo turno diverso, proprio perché le giocatrici sono più “arrugginite”, quindi ho calcolato anche l’indice per i primi turni (Brier R32) per ciascun torneo e le rispettive medie.

Torneo          Brier   Brier R32   
Palermo         0.268   0.295   
Lexington       0.226   0.170   
Praga           0.212   0.247   
Media rientro   0.235   0.237   
Media Intern.   0.217   0.213

Palermo fa eccezione

Come già visto, i risultati di Palermo disattendono le aspettative. Più della metà delle partite si è conclusa con una vittoria a sorpresa (stando alle mie valutazioni Elo), con un primo turno davvero difficile da pronosticare. Poi però non è durata a lungo. Il primo turno di Praga aveva un valore di 0.247, di niente superiore al lancio della moneta, ma la confusione non è andata oltre i primi due giorni. L’indice di Brier totale per il torneo è stato di 0.212, di poco meglio della media degli International. In altre parole, questo gruppo di 32 giocatrici al rientro da una pausa di diversi mesi, ha generato risultati in sostanza esattamente prevedibili come quanto ci saremmo attesi nel mezzo di una stagione regolare.

Più difficile è dare un senso ai numeri di Lexington ma, come per Praga, puntano a un mondo post COVID-19 che non è poi così surreale. Il primo turno ha replicato il copione, con un indice di Brier di 0.170. Degli ultimi 115 tornei International, solo 22 sono stati più prevedibili. L’accuratezza non ha avuto vita lunga, principalmente per la sconfitta di Serena Williams contro Shelby Rogers. Il valore per l’intero torneo è stato di 0.266, meno pronosticabile del solito, ma molto meglio di una previsione casuale e più vicino alla media del circuito di quanto non lo fosse Palermo.

Stime riviste

Sono ancora le prime fasi nel processo valutativo delle attese risposte sulle giocatrici dopo un’interruzione così lunga. Più si giocano tornei, più siamo in grado di vedere se la prevedibilità dei risultati aumenta all’aumentare del numero di partite (forse a Praga era più difficile prevedere il comportamento delle giocatrici che hanno saltato Palermo, con l’ovvia eccezione di Halep).

In questo particolare momento, può succedere qualsiasi cosa. Da un lato, potremmo tornare alle dinamiche di sempre. Dall’altro, le nuove regole che impongono il distanziamento fisico — tra cui l’assenza di pubblico, la vita serale limitata a Netflix, gli asciugamani da andarsi a prendere in autonomia, e modalità di coaching in campo differenti — potrebbero andare a detrimento di alcune e favorire altre. Se così fosse, le valutazioni Elo passeranno per un periodo inedito di aggiustamento per riflettere chi è stata abile a fiorire dopo l’interruzione.

È troppo presto per affermazioni più perentorie su un argomento così importante. Nell’ultima settimana, abbiamo visto pronostici essere palesemente errati (Palermo) o una via di mezzo (Lexington e Praga). Siamo diventati più esperti in merito a tanti cambiamenti accaduti da marzo, ma la metodologia di valutazione delle giocatrici potrebbe rimanere identica in quasi tutto e per tutto.

The Post-Covid WTA is Drifting Back to Normal

Effetti della pandemia nel torneo di Palermo?

di Jeff Sackmann // TennisAbstract

Pubblicato il 10 agosto 2020 – Traduzione di Edoardo Salvati

È più difficile fare previsioni sullo stato di forma di una giocatrice al rientro da un’interruzione che l’ha tenuta lontana da partite ufficiali per quasi sei mesi? Un ritorno del circuito femminile alla quasi normalità con il torneo di Palermo fornisce degli spunti per una possibile risposta.

In un recente articolo ho ipotizzato che fare pronostici sui risultati sarà, per un certo periodo, più complicato del solito, richiedendo degli aggiustamenti al mio algoritmo per le valutazioni Elo. Le 31 partite di tabellone principale che arrivano dalla Sicilia permettono alcune elaborazioni preliminari.

A uno sguardo veloce, i risultati sembrano un po’ strani. Solo due delle otto teste di serie sono arrivate in semifinale, ed è emersa vincitrice Fiona Ferro. Due wild card hanno raggiunto i quarti di finale. Sono circostanze chiaramente anomale per un evento del livello International? In realtà non così tanto, quindi proviamo a stabilire una linea di demarcazione.

L’imprevedibile Palermo

In termini di “prevedibilità”, il mio riferimento è l’indice di Brier, che misura l’accuratezza dei pronostici espressi in percentuale. Va bene ipotizzare una vincitrice, più importante è assegnare una corretta probabilità. Se per 100 partite si afferma che una giocatrice ha il 60% di probabilità di vittoria, dovrebbe allora vincere 60 di quelle cento partite. Se ne vince 90, non si è stati sufficientemente sicuri della sua forma; se ne vince 50, sarebbe stato meglio fare un pronostico lanciando una moneta. L’indice di Brier sintetizza questi concetti con un solo numero, che è più preciso quanto è inferiore. Approssimativamente, le mie previsioni Elo per il circuito maschile e femminile si assestano poco sopra allo 0.2.

Dal 2017 fino a marzo 2020, le 975 partite femminili terminate regolarmente in tornei sulla terra di livello International avevano un indice di Brier complessivo di 0.223. I primi turni erano leggermente più prevedibili, con un punteggio per i trentaduesimi di 0.219. Il torneo di Palermo ha avuto un andamento più altalenante. Le 31 partite di tabellone principale hanno ottenuto un indice di Brier combinato di 0.286. Di altri 32 tornei che ho considerato, solo Praga 2019 aveva un valore più alto, pari a 0.277.

Con un valore di 0.295, il primo turno è stato ancora più imprevedibile. D’altro canto, se si mette insieme un numero più ridotto di partite da uno specifico tabellone con la grande varietà di giocatrici che approdano ai primi turni, molti tornei diventano nella fase iniziale un terno al lotto. 9 tornei su 32 avevano infatti un indice di Brier per il primo turno superiore a 0.250, con quattro di questi con un valore più alto — quindi peggiore — rispetto a Palermo.

L’indice di Brier della vergogna

Ho parlato del valore di 0.250 perché è una sorta di indice di Brier della vergogna. Diciamo che si è nella situazione di prevedere l’esito di una serie di lanci di moneta. La scelta più arguta è di assegnare il 50% di probabilità a ogni lancio. Per quanto noioso come esercizio, una previsione più estrema significa poi che, metà delle volte, ci si è sbagliati ancora di più. Se si fissa la previsione al 50% per una serie di eventi casuali che hanno il 50% di probabilità di accadere, l’indice di Brier sarà…esattamente 0.250.

Un altro modo per vederla è questo: se l’indice di Brier è più alto di 0.250, sarebbe stato meglio prevedere che per ciascuna partita il vincitore aveva il 50% di probabilità di vittoria. Ogni altra previsione più elaborata era inutile.

A Palermo, 17 partite su 31 si sono risolte a favore della giocatrice che la mia formula Elo considerava sfavorita. L’indice di Brier si è piazzato dalla parte della vergogna. E anche il suggerimento del precedente articolo, in cui dicevo di fare previsioni, almeno in parte, più moderate, non ha fatto molta strada. Almeno fino a qui, la migliore strategia sarebbe stata di ignorare del tutto l’algoritmo e iniziare a lanciare la moneta.

Moderare la moderazione

Ciò detto, non sono ancora pronto a buttare via le mie valutazioni Elo (che hanno correttamente previsto la vittoria di Simona Halep a Praga, ma si sono poi sbagliate sul torneo di Lexington, vinto da Jennifer Brady invece che da Aryna Sabalenka). 31 partite sono un campione ridotto e decisamente inadeguato a valutare l’accuratezza di un sistema creato per prevedere l’esito di migliaia di partite in ogni stagione.

Come riferito, Elo ha fatto ancora peggio a Praga nel 2019 ma, siccome non era un torneo che arrivava dopo diversi mesi di interruzione del tennis mondiale, non avrei mai pensato di considerarlo più che una svista.

Questa volta, un’intera settimana di sorprese contro pronostico potrebbe essere ben più di una svista. Pensare che giocatrici e giocatori abbiano l’esatto livello di forma mostrato a marzo probabilmente non è una buona idea, anzi potrebbe essere una pessima idea. L’insieme di partite triplicherà a breve per poi espandersi oltre. Ora come ora, non sarà di aiuto nella scelta dei vincitori, ma avremo presto una rappresentazione migliore di quanto davvero è imprevedibile il tennis post COVID-19.

Did Palermo Show the Signs of a Five-Month Pandemic Layoff?

La fortuna del sorteggio: Australian Open 2020 (donne)

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 19 gennaio 2020 – Traduzione di Edoardo Salvati

Come per gli uomini, anche per le donne ho eseguito una simulazione (con la mia variante Elo) di 100.000 configurazioni del tabellone principale, utilizzando lo stesso metodo che gli organizzatori usano per assegnare ai giocatori la loro posizione. L’ho poi confrontata con la previsione per il torneo su base Elo rispetto al tabellone effettivo.

La tabella mette a confronto la previsione effettiva del tabellone con i risultati dalle simulazioni di rimescolamento, in modo da avere alcune indicazioni sull’accessibilità del tabellone effettivo rispetto alle altre configurazioni. Tonalità di rosso (e arancione) evidenziano la sfortuna del giocatore. Al contrario, tonalità di verde rappresentano la fortuna ricevuta nel tabellone effettivo, in riferimento a un particolare turno. Il giallo simboleggia neutralità, e si può di fatto ignorare qualsiasi valore superiore o inferiore allo 0.2%.

Per una presentazione più compatta rispetto al passato, ho riportato nella tabella solo le teste di serie, e organizzato nella tabella successiva quei giocatori fuori dalle teste di serie per i quali c’è stata un’incidenza degna di nota (almeno l’1.0% di segno positivo o negativo).

Tabellone effettivo e simulato a confronto per le teste di serie

Generalmente, si vedono un po’ di tonalità di rosso e di verde nei numeri relativi ai quarti di finale, ma da li in avanti è quasi tutto giallo o sui toni dell’arancione. In questo senso la riga di Naomi Osaka appare particolarmente negativa (che ha superato il primo turno, n.d.t.), all’opposto quella di Serena Williams decisamente positiva (anche lei vincitrice al primo turno, n.d.t.). Forse è la volta buona per Williams di raggiungere il record di Slam di Margaret Court.

IMMAGINE 1 – Confronto tra tabellone effettivo e simulazioni per le teste di serie

Effetti di rilievo su una selezione di giocatrici fuori dalle teste di serie

A Maria Sharapova non era andata bene agli US Open 2019, forse in Australia la fortuna sta cercando di recuperare (ha però perso subito al primo turno, n.d.t.). Caroline Wozniacki invece non ha ricevuto nessun regalo di addio alle competizioni (ma ha superato il primo turno, n.d.t.).

IMMAGINE 2 – Effetti della casualità del sorteggio su alcune non teste di serie

Luck of the Draw: Australian Open 2020 (Women)

La fortuna del sorteggio: Australian Open 2020 (uomini)

di Chapel Heel // HiddenGameOfTennis

Pubblicato il 19 gennaio 2020 – Traduzione di Edoardo Salvati

Come d’abitudine per gli Slam, ho eseguito una simulazione (con la mia variante Elo) di 100.000 configurazioni del tabellone principale, utilizzando lo stesso metodo che gli organizzatori usano per assegnare ai giocatori la loro posizione. L’ho poi confrontata con la previsione per il torneo su base Elo rispetto al tabellone effettivo.

La tabella mette a confronto la previsione effettiva del tabellone con i risultati dalle simulazioni di rimescolamento, in modo da avere alcune indicazioni sull’accessibilità del tabellone effettivo rispetto alle altre configurazioni. Tonalità di rosso (e arancione) evidenziano la sfortuna del giocatore. Al contrario, tonalità di verde rappresentano la fortuna ricevuta nel tabellone effettivo, in riferimento a un particolare turno. Il giallo simboleggia neutralità, e si può di fatto ignorare qualsiasi valore superiore o inferiore allo 0.3%.

Per una presentazione più compatta rispetto al passato, ho riportato nella tabella solo le teste di serie, e organizzato nella tabella successiva quei giocatori fuori dalle teste di serie per i quali c’è stata un’incidenza degna di nota (almeno lo 0.5% di segno positivo o negativo).

Tabellone effettivo e simulato a confronto per le teste di serie

Rispetto a tabelloni casuali, la parte bassa del tabellone principale è più difficile di quella alta. A David Goffin non è andata proprio bene essendo finito nella sezione del giocatore più in forma del momento, Andrey Rublev, che invece è tra i più fortunati, come Matteo Berrettini. Pensavo che la testa di serie numero 8 per Berrettini fosse eccessiva, perché non mi sembra tra i primi otto favoriti, ma so che le teste di serie procedono in automatico. Comunque, ha il tabellone più fortunato tra tutte le teste di serie.

IMMAGINE 1 – Confronto tra tabellone effettivo e simulazioni per le teste di serie

Effetti di rilievo su una selezione di giocatori fuori dalle teste di serie

Kevin Anderson ha giocato abbastanza bene all’ATP Cup. Con un pò di fortuna potrebbe superare un po’ di turni, magari fino agli ottavi. I quarti di finale sembrano troppo ambiziosi. Fresco vincitore del primo torneo, Ugo Humbert non è stato ricompensato con un percorso semplice. Ma non credo farà troppa differenza perché, anche scarico di adrenalina, dovrebbe perdere da John Millman al primo turno.

IMMAGINE 2 – Effetti della casualità del sorteggio su alcune non teste di serie

Luck of the Draw: Australian Open 2020 (Men)

I favoriti agli Australian Open 2020

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 17 gennaio 2020 – Traduzione di Edoardo Salvati

Dopo aver visto le favorite per gli Australian Open 2020, a tabellone maschile completo quali sono le probabilità di vittoria dei Grandi Tre per il primo Slam dell’anno? E ci sono altri seri contendenti al titolo?

Con l’avvio delle competizioni, tutti si chiedono quale dei Grandi Tre sarà il primo a vincere uno Slam nel 2020. Sulla base delle mie valutazioni, Novak Djokovic e Rafael Nadal hanno la probabilità più alta, con un leggero margine per Djokovic dopo il solido livello di gioco mostrato durante l’ATP Cup.

I soliti noti

Djokovic ha quasi una probabilità su tre di titolo, Nadal quasi una su quattro, e la finale tra i due è l’esito più probabile. I molti appassionati di tennis che si sono entusiasmati per il secondo set della loro partita all’ATP Cup sono certamente in trepidante attesa a Melbourne per un altro episodio della saga.

La terza posizione di Roger Federer non dovrebbe rappresentare una sorpresa, almeno per i più attenti. Più sorprendente potrebbe invece essere il fatto che la distanza di Federer da Djokovic e Nadal sia così ampia, visto che entrambi hanno più del doppio della probabilità di vincere il torneo. Questo dipende solo in parte dalla valutazione attuale della forma di Federer. Dal lato di Djokovic e con giovani pericolosi come Filip Krajinovic, Hubert Hurkacz, Denis Shapovalov e Matteo Berrettini, la strada di Federer per il titolo è particolarmente in salita.

Alle spalle dei Grandi Tre, la probabilità di vittoria diminuisce vertiginosamente. Non si possono però ignorare le possibilità di un gruppo di giocatori che si sono messi in luce nel 2019, primi fra tutti Daniil Medvedev e Stefanos Tsitsipas che, pur non avendo ancora vinto uno Slam, hanno la probabilità più alta di detronizzare uno dei Grandi Tre.

Non possiamo poi dimenticare di menzionare diversi altri giovani per un risultato di prestigio. Dall’alto verso il basso troviamo Andrey Rublev, Denis Shapovalov (che però ha perso al primo turno, n.d.t.) e Berrettini. Anche Dominic Thiem e Roberto Bautista Agut rientrano tra i favoriti, ma sono convinta che i più giovani tra i possibili primi vincitori di Slam abbiano il vantaggio dell’età dalla loro parte.

Giocatore       Prob. titolo
Djokovic        29.6%
Nadal           26.9%
Federer         12.8%
Medvedev        6.9%
Tsitsipas       5.0%
Rublev          3.9%
Thiem           1.9%
Shapovalov      1.9%
Berrettini      1.3%
Bautista Agut   1.2%

La gioventù che avanza

È incredibile pensare che una probabilità cumulata di quasi il 50% per la vittoria finale tra Djokovic e Nadal sia inferiore a quella che i due avevano lo scorso anno. E non dipende da un loro calo vistoso, quanto dalla crescita degli altri, per alcuni in modo drammatico.

Lo si può osservare nell’andamento delle valutazioni dell’ultimo anno dei primi dieci favoriti. L’aspetto che più colpisce è l’incredibile ascesa dei più giovani dietro ai Grandi Tre, la maggior parte di quali ha guadagnato almeno 100 punti nel corso della passata stagione.

IMMAGINE 1 – Andamento della valutazione dei giocatori nell’ultimo anno

Se davvero esiste un vantaggio psicologico derivante dallo stato di forma, il grafico suggerisce che le aspettative su giocatori come Medvedev, Shapovalov, Berrettini e Rublev dovrebbero essere ancora più alte dell’effettiva previsione di titolo. Perché, tra i primi 10, hanno fatto siglare i miglioramenti più significativi. Anche Tsitsipas è cresciuto naturalmente, solo che un incremento stabile rende la sua evoluzione più insolita rispetto a quella degli altri appartenenti alla Next Gen.

Nonostante abbiano 105 anni insieme, i Grandi Tre continuano a sfidare la ragione e rimanere al vertice del tennis mondiale. Ancora una volta, sono loro a ottenere i favori del pronostico, ma è il primo Slam da qualche tempo a questa parte in cui la probabilità di altri giocatori per la vittoria finale non è un concetto puramente teorico.

Men’s Title Chances for the 2020 Australian Open

Le favorite agli Australian Open 2020

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 17 gennaio 2020 – Traduzione di Edoardo Salvati

Le speranze di una nazione saranno sulle spalle di Ashleigh Barty al via degli Australian Open 2020. Il pronostico suggerisce però che dopo quattro finali Slam consecutive perse, potrebbe essere la volta di Serena Williams.

Con la testa di serie numero uno per lo Slam di casa, Barty sarà probabilmente la giocatrice a sentire la pressione maggiore per la vittoria a Melbourne. Dovrà sfidare anche le previsioni basate su diversi sistemi di valutazione che, nonostante un tabellone teorico più abbordabile da prima della classifica, le assegnano solo una possibilità di titolo su dieci, visto che occupa il quarto posto tra le favorite. Con una probabilità su cinque, Williams non ha il trofeo assicurato, ma è comunque avanti rispetto alle altre contendenti. Queste previsioni non tengono però in considerazione il possibile “effetto finale” che sembra aver colpito Williams, che appunto non ha più vinto uno Slam dagli Australian Open 2017, e dopo aver avuto una figlia.

Serena e poi le altre

La forma di Williams è cresciuta di Slam in Slam, con dimostrazioni di potenza fino alla finale di Wimbledon e degli US Open. Ha inoltre vinto il suo torneo di preparazione a Auckland, un’altra iniezione di fiducia alla vigilia del primo Slam dell’anno. Potremmo assistere a una possibile sfida tra Barty e Williams in semifinale, l’ostacolo più duro per Barty per l’eventuale titolo. La testa di serie numero 8 assegnata a Williams ne sottostima il livello di forma, e la mette in rotta di collisione nei quarti di finale con Naomi Osaka, contro cui ha giocato l’ultima volta nella controversa finale degli US Open 2018.

Karolina Pliskova, anche lei non esente da polemiche, potrebbe essere la giocatrice tra le prime quattro favorite a passare meno osservata. Il fatto però di ritrovarsi dalla parte opposta del tabellone rispetto alle altre tre le ha sicuramente offerto la dose più alta di fortuna.

Giocatrice       Prob. titolo
S. Williams      20.4%
Osaka            13.7%
Kar. Pliskova    11.6%
Barty            9.9%
Sabalenka        4.5%
Halep            4.3%
Keys             4.3%
Kvitova          3.7%
Svitolina        3.7%
Bertens          3.0%

Ci siamo abituati a pensare che, sul circuito femminile, la competizione è così serrata da garantire possibilità di vittoria a chiunque in qualunque torneo. Anche se, rispetto a quanto succede per gli uomini, la probabilità di vittoria si distribuisce in modo più uniforme tra le giocatrici, è interessante vedere quanto abbiano oscillato le loro valutazioni nell’ultimo anno. Per le favorite all’inizio degli Australian Open 2020, si è trattato di un anno movimentato. Williams si è migliorata più di tutte, avendo aggiunto 200 punti alla valutazione del 2019.

Pericolose inversioni di forma

Per le altre, l’andamento più tipico è consistito in una curva piatta nella parte iniziale della stagione, seguita da un incremento deciso a partire da agosto. Barty, Simona Halep ed Elina Svitolina sono le uniche del gruppo ad affacciarsi al primo Slam con una chiara inversione negativa di forma.

IMMAGINE 1 – Andamento della valutazione delle giocatrici nell’ultimo anno

Williams gode dei favori delle statistiche e del livello di gioco più alto dopo la maternità. Se i riflettori puntati su Barty l’aiuteranno a superare la pressione subita nelle finali Slam che ha giocato al rientro sul circuito, potrebbe finalmente raggiungere il record di Margaret Court proprio in Australia.

Women’s Title Chances for the 2020 Australian Open

Quanto raccoglierà l’ATP Cup a favore delle vittime degli incendi in Australia?

di Jeff Sackmann // TennisAbstract

Pubblicato il 3 gennaio 2020 – Traduzione di Edoardo Salvati

L’ATP ha annunciato che effettuerà una donazione sostanziosa alla Croce Rossa Australiana:

Molti giocatori, tra cui Nick Kyrgios, hanno promesso di continuare a fare donazioni personali durante tutta l’estate di tornei in Australia (l’impegno di Kyrgios in questo senso ha incentivato le donazioni altrui, una rara circostanza in cui il circuito ha seguito l’esempio della sua stella più controversa).

Quanto esattamente?

L’ATP ha stimato di raggiungere i 1500 ace. È la prima edizione dell’ATP Cup a Perth, oltre a essere il primo torneo del circuito maschile, quindi non possiamo fare un confronto con l’anno passato. A ulteriore complicazione, non sappiamo chi giocherà per la propria nazione a ogni giornata del torneo, o quali paesi avanzeranno alla fase finale. In altre parole, qualsiasi previsione di ace è inevitabilmente approssimativa.

Iniziamo dalle basi. Ci saranno 129 partite durante la ATP Cup, equivalenti a 43 sfide con due partite di singolare e un doppio ciascuna. Come per le nuove Finali di Coppa Davis, è probabile che molti dei doppi saranno ininfluenti, quindi non verranno giocate tutte le 43 sfide. A Madrid si sono giocate 21 delle 25 partite di doppio (una delle quattro escluse è stato un ritiro sull’1-0 che per il conteggio degli ace, e per il buon senso, non ha di fatto creato gioco). Diciamo quindi che anche in Australia non verranno giocati dei doppi con la stessa frequenza di Madrid, facendo salire il totale a 36 partite di doppio.

Nelle partite al meglio dei tre set dell’intera passata stagione si sono contati in media 12 ace per il singolare e 7 per il doppio. Si arriva a un totale di 1284 ace per le 122 partite che ci aspettiamo vengano giocate nell’ATP Cup.

Possiamo fare di meglio

Sul cemento ci sono notoriamente più ace, e con un margine abbondante. Durante il 2019, nelle partite al meglio dei tre set sul cemento ci sono stati in media 15 ace, rispetto alla metà per le partite di doppio. Il totale previsionale sale a 1542 ace, il 20% in più del numero di partenza, e abbastanza simile ai calcoli dell’ATP.

Pur non avendo molti dati relativi alla superficie di Perth, abbiamo risultati di anni per i tornei di Brisbane e Sydney. Brisbane è stata una delle superfici del circuito più accomodanti in termini di ace, mentre Sydney si è posizionata dalla parte opposta. I numeri variano poi da un anno all’altro, anche tenendo in considerazione la diversa combinazione di giocatori. Da una prospettiva di un solo anno o di un intervallo più lungo, la frequenza media di ace a Brisbane e Sydney arriva a una cifra simile alla media osservata sul resto del circuito.

Elementi che rendono più difficile l’analisi

È probabile che il caldo record australiano contribuirà a incrementare la frequenza di ace. La combinazione dei giocatori invece rende considerevolmente molto più complesso fare previsioni. Un ostacolo è dato dalla variazione estrema tra i migliori giocatori del torneo (Rafael Nadal e Novak Djokovic) e i più deboli, come il moldavo Alexander Cozbinov, numero 818 del mondo.

Un primo ostacolo

Non solo la tipica frequenza di ace di giocatori senza i favori del pronostico come Cozbinov è destinata a ridursi drasticamente contro avversari di livello, ma è probabile che troveranno difficoltà a mantenere la partita competitiva. Più corta è la partita, minore il numero di ace. Ironicamente, Cozbinov ha combattuto per tre ore contro Steve Darcis nella prima giornata, ma anche in una partita così lunga solo 2 su 116 punti al servizio sono stati ace. Insieme, hanno ottenuto un totale di 10 ace, al di sotto della media.

E un secondo

Un secondo problema è comune alle previsioni sul numero di ace per qualsiasi torneo. Il conteggio complessivo degli ace è strettamente legato a quali giocatori arrivano ai turni finali. La Spagna di Nadal, Roberto Bautista AgutPablo Carreno Busta farà probabilmente bene anche con relativamente poche esplosioni sulla prima di servizio.

Se però il Canada replica il successo nelle Finali di Coppa Davis, la combinazione scintillante di Denis ShapovalovFelix Auger Aliassime potrebbe regalare sei turni di statistiche stratosferiche al servizio. Il duo americano formato da John Isner e Taylor Fritz potrebbe fare lo stesso, anche se le probabilità per gli Stati Uniti di andare avanti sono diminuite sensibilmente dopo la sconfitta iniziale contro la Norvegia. Quantomeno Isner ha già fatto la sua parte con 33 ace nella partita persa in tre set contro Casper Ruud.

Nelle prime dieci partite di singolare al momento della stesura ci sono stati in media 16 ace, leggermente sopra il tipico numero sul cemento durante la stagione. Grazie a Inser e Kyrgios, agli estremi dell’intervallo il conteggio è salito, con rispettivamente 37 e 35 ace totali dalle partite contro Ruud e Jan Lennard Struff. I tre doppi terminati hanno avuto una media di 6 ace ciascuno, appena sotto il tipico numero sul cemento durante la stagione (dopo il terzo giorno, gli ace totali sono 559, per un ammontare di 55.900 dollari, n.d.t.).

Si tifa per il massimo degli ace

Manca ancora molto, ma si potrebbe dire “sorpresa”! La stima dell’ATP in fondo sembra abbastanza accurata. Una simulazione integrale di ogni partita e dell’intero torneo permetterebbe ancora maggiore precisione ma, senza arrivare a tanto, 1500 ace e 150.000 dollari sono un’ottima approssimazione. La filantropia di tutto il mondo dovrebbe mettersi alle spalle dei grandi servitori dell’Australia, del Canada e degli Stati Uniti, o almeno tifare per più ace della media da parte di Nadal.

How Much Will the ATP Cup Raise for Australian Bushfire Relief?

Ripensare il risultato di una partita in termini di probabilità

di Jeff Sackmann // TennisAbstract

Pubblicato il 28 dicembre 2019 – Traduzione di Edoardo Salvati

Non serve aspettare la conclusione di una partita per sentire durante la telecronaca che le vittorie possono essere decise dal margine più risicato. È frequente per il vincitore raccogliere solo il 51% o il 52% dei punti totali. In decine di occasioni nel corso dell’anno capita di andare anche oltre, quando un giocatore trionfa avendo ottenuto meno della metà dei punti. Così è riuscito a fare Novak Djokovic nella finale di Wimbledon 2019, con 204 punti a suo favore rispetto ai 218 di Roger Federer.

Ha senso dedurre da risultati come quello tra Djokovic e Federer che molte partite sono decise da margini davvero ridotti o che il rendimento su determinati punti è cruciale. Ci sono addirittura situazioni di vittoria con non più del 47% dei punti giocati.

Può capitare però di attribuire al margine ridotto importanza eccessiva. Il 51% richiama effettivamente l’idea di un margine minimo, così come il 53%. In molte attività, sportive e non, il 55% rappresenta quasi una parità, e anche il 60% o il 65% suggerisce che non ci sia molto spazio a separare i contendenti. Nel tennis è diverso, specialmente sul circuito maschile che è dominato dal servizio. Quale ne sia l’interpretazione, il 60% dei punti vinti segnalano una partita a senso unico, il 65% una demolizione quasi imbarazzante. Nel 2019, in sole tre partite il vincitore ha raccolto più del 70% dei punti.

La domanda è un’altra

Per molte ragioni i punti vinti totali sono una misura imperfetta della superiorità di un giocatore, anche all’interno della singola partita. Un primo difetto è che di solito il valore si dispone nell’intervallo tra il 35% e il 65%, portando all’errata convinzione che tutte le partite siano relativamente equilibrate. Un secondo difetto è che non tutti i 55% (o i 51%, o i 62%) sono identici tra loro. Più è lunga la partita, più informazioni accumuliamo sui giocatori.

Per uno specifico formato di gioco, come le partite al meglio dei tre set, una partita più lunga mediamente richiede giocatori tra loro simili per andare al tiebreak o al terzo set. Se vogliamo però paragonare partite di formati diversi (come quelle al meglio dei tre set e dei cinque set), non necessariamente la durata fornisce indicazioni utili. Le partite al meglio dei cinque set sono più lunghe per via del regolamento, non per qualche caratteristica dei giocatori.

La soluzione risiede nel pensare in termini di probabilità

Data la durata di una partita, e la percentuale di punti vinti da ciascun giocatore, qual è la probabilità che il vincitore sia stato anche il giocatore migliore quel giorno?

Per rispondere, usiamo la distribuzione binomiale, considerando la probabilità che un giocatore vinca un numero di punti uguale a quelli che vincerebbe a parità di bravura fra giocatori. Se lanciamo una moneta 100 volte, ci aspetteremmo che esca testa circa 50 volte, senza però che siano sempre esattamente 50 volte. La distribuzione binomiale serve per sapere quanto spesso attendersi un particolare numero di testa su cento lanci: 49, 50 o 51 sono comuni, 53 un po’ meno, 55 ancora meno, 40 o 60 rari e così via. Esiste una probabilità che un qualsiasi numero di testa sia dovuto unicamente al caso, come esiste una probabilità che si verifichi perché la moneta è truccata.

Come si rapporta tutto questo a una partita di tennis?

Quando inizia la partita, facciamo finta di non sapere nulla della bravura dei giocatori e ipotizziamo che siano dello stesso livello. Il numero di punti è equivalente al numero di lanci della moneta, più sono i punti più è probabile che il giocatore che ne vince di più è realmente il migliore dei due. Il numero di punti del vincitore corrisponde al numero di testa nei lanci. Se il vincitore vince il 60% dei punti, possiamo stare certi che è il migliore, allo stesso modo in cui il 60% di testa su cento o più lanci farebbe supporre che probabilmente la moneta è truccata.

Più del solo 59%

La distribuzione binomiale aiuta a convertire queste intuizioni in probabilità. Facciamo un esempio. La finale del Roland Garros 2019 è stata abbastanza a senso unico. Rafael Nadal ha vinto il 58.6% del totale dei punti (116 su 198) contro Dominic Thiem, pur avendo perso il secondo set. Se Nadal e Thiem fossero allo stesso livello, la probabilità che Nadal vinca così tanti punti è poco meno dell’1%. Possiamo quindi dire che c’è una probabilità del 99% che Nadal sia stato — in quel giorno e con quelle condizioni — il giocatore migliore. Non è una sorpresa, e non dovrebbe esserlo.

Il ragionamento si fa più interessante modificando la durata della partita. Le altre due finali maschili del 2019 in cui un giocatore ha vinto circa il 58.6% dei punti sono state vinte da Djokovic. Al Masters di Parigi Bercy ha vinto il 58.7% dei punti (61 su 104) contro Denis Shapovalov, e a Tokyo il 58.3% (56 su 96) contro John Millman.

Vista la differenza di formato, al meglio dei tre set in questo caso, Djokovic ha impiegato la metà del tempo di Nadal, quindi la certezza che sia stato un giocatore migliore, per quanto comunque alta, non dovrebbe essere così vicina al 100%. La distribuzione binomiale assegna a quelle vittorie una probabilità rispettivamente del 95% e 94%.

Considerare anche la durata

In media, il vincitore di una partita del circuito maschile nella stagione 2019 ha vinto il 55% dei punti totali, un numero che può indicare un distacco minimo, anche se gli appassionati più attenti sanno che non è così. Una volta trasformato ogni risultato in probabilità, la probabilità media che il vincitore è anche il giocatore più forte è dell’80%.

Non solo è un numero che, intuitivamente, dà un’interpretazione superiore — sono meno infatti i risultati raggruppati intorno al 55%, con i numeri che si distribuiscono tra il 15% e il 100% — ma considera anche la durata della partita, un aspetto invece ignorato dalla vecchia maniera dei punti vinti totali.

Perché è importante?

Si potrebbe giustamente credere che chiunque interessato a quantificare i risultati delle partite abbia già avuto questo tipo di intuizioni. Si sa ad esempio che il 55% dei punti vinti corrisponde a una vittoria di misura, il 60% a una più facile, e che la durata della partita implica la necessità di leggere questi numeri in funzione del contesto. I punti validi per la classifica e i premi partita vengono assegnati senza tenere conto di queste particolarità, perché quindi cercare un’alternativa?

Per me ha un valore potenziale come modalità rappresentativa del margine di vittoria. Risponde a logica il fatto che qualsiasi sistema di valutazione, come le mie valutazioni Elo, incorpori il margine di vittoria, perché è più difficile vincere demolendo l’avversario di quanto non lo sia in una partita equilibrata. In altre parole, un giocatore che vince il 59% dei punti contro Thiem è probabilmente più forte di uno che ne vince il 51%, sempre contro Thiem. I sistemi di valutazione dovrebbero darne credito.

Ce ne sono già alcuni che lo fanno, tra cui quello introdotto recentemente da Martin Ingram e di cui abbiamo parlato in un podcast. Molti sistemi però non tengono in considerazione il margine di vittoria, tra cui le mie valutazioni Elo. Mi sono cimentato negli anni a provare tutti i possibili modi di integrare il margine di vittoria, non riuscendo a trovarne uno che riesca ad accrescere con continuità il potere predittivo delle valutazioni. Magari è la volta giusta.

Leva e partite lotteria

Ho già accennato a una limitazione di questo approccio, che riguarda la maggior parte degli altri indici sul margine di vittoria. Nella finale di Wimbledon 2019 Djokovic ha vinto solo il 48.3% dei punti totali, riuscendo ad alzare il trofeo grazie a una prestazione superiore a quella di Federer nei momenti più importanti. L’interpretazione del margine di vittoria in termini di probabilità restituisce più risultati all’80% che al 55%, ma anche più risultati al 25% che al 48%. Secondo questa metodologia, esiste solo una probabilità del 24% che Djokovic fosse il giocatore migliore quel giorno a Londra. Seppur una posizione non priva di fondamento, non dimentichiamo il divario di punti a favore di Federer, è però un po’ scomoda.

Con la distribuzione binomiale come descritta in precedenza, tralasciamo completamente la leva, il concetto cioè per il quale alcuni punti hanno più rilevanza di altri. Per quanto la maggior parte dei giocatori non produce un rendimento sempre ottimo o sempre pessimo in circostanze di alta leva, molte partite sono decise esclusivamente da come un giocatore si comporta in quei momenti chiave.

Indice di Leva e Indice di Dominio

Una soluzione potrebbe essere l’inserimento della mia nozione di Indice di Leva, che mette a confronto l’importanza dei punti vinti da ciascun giocatore. Sono poi andato avanti unendo l’Indice di Leva all’Indice di Dominio, una statistica molto vicina ai punti vinti totali, in un solo numero che chiamo DR+, o Indice di Dominio corretto.

È possibile vincere una partita con un Indice di Dominio inferiore a 1.0, che significa vincere meno punti alla risposta di quelli vinti dall’avversario, un’occorrenza che si verifica spesso quanto i punti vinti totali sono meno del 50%. Quando però il DR è corretto per la leva, è estremamente raro per un vincitore terminare con un DR+ inferiore a 1.0. L’Indice di Dominio di Djokovic nella finale di Wimbledon è stato dello 0.87, mentre il suo DR+ dello 0.97, una delle pochissime volte in cui il valore corretto del vincitore è rimasto sotto l’1.0.

Sarebbe impossibile aggiustare il metodo della distribuzione binomiale allo stesso modo in cui ho “sistemato” l’Indice di Dominio. Non si può semplicemente moltiplicare il 65%, l’80% o qualsiasi altro numero, per l’Indice di Leva e aspettarsi un risultato che abba senso. E potrebbe non essere così interessante. Il calcolo dell’Indice di Leva richiede accesso alla sequenza punto per punto della partita, senza poi considerare la complessità del codice per la probabilità di vittoria, che lo rende estremamente lungo, anche in presenza dei dati necessari.

Per il momento, la leva non è qualcosa che si riesce a sistemare, ma solo qualcosa di cui possiamo essere consapevoli, come per i numeri sul margine di vittoria che confondono, ad esempio il 24% di Djokovic nella finale di Wimbledon.

Nuove interpretazioni

Al pari di altre statistiche di mia ideazione, non mi aspetto che vi sia di questa un’adozione diffusa. Se, nella migliore delle ipotesi, diventasse un elemento accrescitivo delle valutazioni Elo, sarebbe un utile passo avanti, anche senza dover approfondire ulteriormente. L’obiettivo ultimo è quello di creare indici che raccolgano più dettagli delle nostre intuizioni. Anche se ci siamo abituati alle stranezze del punteggio tennistico, un universo in cui il 52% dei punti vinti totali segnala una partita equilibrata e il 54% non lo fa, non significa che non possiamo fare meglio di così. Pensare in termini di probabilità richiede uno sforzo aggiuntivo, ma quasi sempre fornisce preziosa conoscenza.

Rethinking Match Results as Probabilities