Il sospetto che Venus e Serena debbano giocare contro troppo spesso è fondato?

di Jeff Sackmann // TennisAbstract

Pubblicato il 12 agosto 2020 – Traduzione di Edoardo Salvati

Nel torneo di Lexington di questi giorni, la testa di serie numero 1 Serena Williams affronterà al secondo turno la sorella, Venus Williams (Serena ha vinto con il punteggio di 3-6 6-3 6-4, n.d.t.). Sono due delle giocatrici più forti di ogni epoca e si sono ritrovate contro in ben nove finali Slam. Suscita inevitabilmente scalpore quindi vederle dalla stessa parte del tabellone a giocare in un martedì qualsiasi.

Sembra però che ultimamente le loro strade si incontrino sempre molto prima delle fasi finali di un torneo. Le tre partite dalla finale degli Australian Open 2017 a oggi sono state nei trentaduesimi, tra cui quella agli Internazionali d’Italia nel 2019 che non si è giocata per il ritiro di Serena. Non più una forza dominante, Venus è spesso anche fuori dalle teste di serie, quindi, almeno sulla carta, può capitare in qualsiasi torneo che le sorelle siano vicine di tabellone.

È normale che succeda così spesso?

L’irruzione di Serena e Venus sulla scena mondiale del tennis non è stata accolta con favore universale, per usare un eufemismo. Se si ha un debole per le teorie complottistiche, ogni sorteggio di tabellone rappresenta un’opportunità per mettere in atto scorrettezze più o meno velate. È possibile che all’inizio dell’era Williams, organizzatori razzisti o in altro modo fuorviati volessero evitare una finale tutta in famiglia. O, in periodo più recente, i grandi capi di un torneo, consapevoli che Venus difficilmente arriverà in finale, manipolano il tabellone in modo da rendere più probabile una partita tra sorelle che faccia notizia. 

Sono sicuro che la maggior parte dei sorteggi è condotta nella massima trasparenza, ma è anche un processo sufficientemente opaco da esporsi a facili sospetti. Altrettanto facile è cadere in generalizzazioni errate che si basano su dati insufficienti. Vediamo cosa ci dicono i numeri.

150 tornei!

Quello di Lexington è il 150esimo torneo con la partecipazione sia di Serena che di Venus [1]. Si tratta della partita numero 31, oltre a un ritiro per parte. In 13 tornei su 150, le sorelle erano le prime due teste di serie o la numero 3 e la numero 4. Questo esclude qualsiasi trucco nel tabellone, perché un’eventuale partita tra loro poteva accadere solo in finale. E così è stato 4 volte su quei 13 tornei. 

Qual è la probabilità? Ho analizzato i rimanenti 137 tornei per vedere il turno in cui hanno effettivamente giocato contro o avrebbero potuto farlo. Ai fini dell’analisi di un tabellone, fondamentalmente non c’è differenza. Ad esempio, Serena e Venus sono finite nella stessa metà del tabellone 73 volte su 137, un po’ più delle 68 o 69 volte che ci saremmo aspettati. 

Viste le rispettive teste di serie, avevano la possibilità di finire nello stesso quarto 116 volte, e così è successo per 28 volte, solo una in meno delle 29 volte previste da una frequenza esatta di una volta su quattro. Più piccola la sezione di tabellone, minore il numero di tornei in cui la testa di serie di Serena e Venus poteva farle incontrare.

Ho conteggiato il numero di tornei con una possibile partita in uno specifico turno o prima di quel turno, e poi il numero di tornei in cui il tabellone ha effettivamente portato a quella partita, a prescindere dalla presenza di una o entrambe le sorelle in quel turno. La tabella riepiloga i risultati, insieme alla probabilità associata alle partite concretamente giocate. 

Sezione         Possibile  Effettivo  Probabilità 
Stessa metà     137        73         25%  
Quarti          116        28         62%  
Ottavi          85         17         3%  
Sedicesimi      64         5          37%  
Trentaduesimi   42         1          74%

C’è il 25% di probabilità che Serena e Venus sarebbero state nella stessa metà di tabellone rispetto a tutte le volte in carriera in cui sono state nella stessa metà. C’è un po’ di sfortuna, ma niente di trascendentale. Identico ragionamento per lo stesso quarto, così come per partite nelle fasi di avvio del torneo che le avrebbe fatte scontrare nei trentaduesimi o nei sessantaquattresimi di finale.   

Dubbi sugli ottavi?

Rimane un solo numero di cui parlare, uno che fa alzare il sopracciglio. Su 85 occasioni, almeno una delle due era fuori dalle prime otto teste di serie, così da rendere possibile una partita nei sedicesimi o anche prima. In una simulazione di tabelloni casuali, ci aspetteremmo 10 o 11 sezioni in cui si sarebbero potute scontrare così presto nel torneo. Invece, è successo ben 17 volte!

Una probabilità del 3% di tante partite “anticipate” non è così malvagia come sembra. Ho cercato di illustrarvi il procedimento nel modo in cui l’ho concepito. Mi sono chiesto se Serena e Venus si fossero incontrate più spesso di quanto affidato alla casualità, ma non avevo un turno specifico in mente. Come abbiamo visto, sono arrivato a un po’ di numeri, e uno su cinque desta sospetti. Si potrebbe concepire una teoria a spiegazione del fatto che per loro i sedicesimi sono diversi dagli altri turni (come la mia sulla partita infrasettimanale che cattura l’attenzione dei media). Di fronte a così tanti numeri però, era molto più probabile che arrivassimo a una percentuale estrema semplicemente per caso.

Una pallottola spuntata

Abbiamo fatto vedere che esiste la possibilità di tabelloni non del tutto casuali, ma a fatica riusciamo a dimostrarlo. Un problema, che si sarebbe potuto ipotizzare già da subito, è legato al fatto che alcuni tabelloni non sono sicuramente manipolati, probabilmente la maggior parte. Anche se lo fossero, non ci sarebbe ragione per gli organizzatori di alterare la posizione di Serena o Venus. E se proprio lo facessero, preferirebbero una finale interamente Williams, modificando quindi il loro piazzamento in senso opposto a quello che stiamo cercando di far emergere.  

Se siete alla ricerca della teoria complottistica, ho per voi un piccolo campione. Dall’inizio del 2018, Venus e Serena hanno giocato nello stesso torneo 15 volte, e la testa di serie (o sua la mancanza) ha fatto sì che capitassero nello stesso ottavo 14 volte. Di queste 14, cinque volte erano posizionate in modo da potersi incontrare nei sedicesimi o prima ancora. Esiste solo il 2% di probabilità che questo accada…senza nemmeno considerare che sto analizzando qualsiasi sottoinsieme di partite per trovare una qualche tendenza (probabilmente fittizia). Se non altro, il dato di 5 volte su 14 spiega perché sembra che Serena e Venus continuino a finire nella stessa sezione del tabellone, almeno ultimamente. È perché così succede! 

Per arrivare a una conclusione generale, si è trattato di molto rumore per nulla (non so neanche se queste teorie esistono, forse ne ho inventata una per poi passare un intero pomeriggio a smontarla). È possibile che ci siano alcuni organizzatori impegnati a manipolare i sorteggi…servirebbe un’attività investigativa di tutt’altro tipo per darne credito a questa ipotesi. 

Nel peggiore degli scenari, avremo altre partite tra Serena e Venus. Non un buon affare per la più grande delle due sorelle, certamente un trattamento di lusso per gli appassionati di tennis.

Note:

[1] O così credo. Non ho dei dati super precisi per i primi anni di carriera delle Williams, e ho dovuto integrare con un lavoro da amanuense. La loro pagina su Tennis Abstract non riposta la Grand Slam Cup 1999, che ho comunque considerato in questo articolo. Ai fini di considerazioni statistiche, non ha troppa importanza se il totale è 148 o 151, ma se serve un’ufficializzazione o una torta di festeggiamento, sarebbe meglio controllare due volte. 

Are Tournament Draws Giving Us Suspiciously Many Venus-Serena Clashes?

Elo ai tempi del COVID-19

di Jeff Sackmann // TennisAbstract

Pubblicato il 2 agosto 2020 – Traduzione di Edoardo Salvati

Il tennis è ripartito, ma nessuno sa bene cosa attendersi. Sarà l’imprevedibilità il nuovo paradigma? E questo sia su larga scala — gli US Open 2020 verranno martoriati dal virus? — che nelle situazioni individuali, come ad esempio quali giocatori rientreranno più forti o meno in forma di prima? Lascio agli esperti le considerazioni sul primo aspetto e mi concentro sulla stima del livello di gioco che potranno esprimere giocatori e giocatrici.

Per via delle restrizioni imposte in molti paesi, non c’è professionista che non abbia trascorso almeno cinque mesi lontano da un torneo ufficialmente organizzato dalla ATP, WTA e Federazione internazionale. Per alcuni, come chi non ha giocato nelle settimane precedenti alla chiusura totale o chi ha deciso di non giocare immediatamente alla riapertura, saranno passati sette o otto mesi prima di una partita vera. Le esibizioni hanno in parte colmato quel vuoto, ma non per tutti i giocatori. Stare fermi per metà anno senza competizioni ufficiali rappresenta una lunga interruzione. Dal punto di vista di un analista, è difficile prevedere il rendimento di un giocatore in assenza di dati dagli ultimi sei mesi.

Aumento dell’incertezza

Iniziamo dagli aspetti più evidenti. L’assenza prolungata dal circuito significa che si conosce meno dello stato di forma attuale di un giocatore di quanto non lo si facesse prima della chiusura, quando la maggior parte dei professionisti era impegnata ogni settimana o due. A marzo, le mie valutazioni Elo assegnavano a Dominic Thiem il quinto posto, con un punteggio di circa 2050, mentre David Goffin era al quindicesimo, con circa 1900 punti. Sulla base di quei numeri, in uno scontro diretto Thiem avrebbe avuto una probabilità di vittoria del 70%.

Adesso? Entrambi hanno giocato esibizioni, ma possiamo essere certi che il loro livello sia simile a quello che avevano a marzo? O che sono migliorati o peggiorati nella stessa misura? Penso sia ovvio che non possediamo le stesse certezze. Le previsioni dovrebbero quindi riflettere una diminuzione del grado di confidenza, indirizzandosi su una più candida probabilità da lancio della moneta, vale a dire sul 50%. Sei mesi di sospensione a causa del COVID-19 non sono così drastici, non significa cioè che Thiem non è più il favorito contro Goffin, ma che, rispetto al periodo precedente, il pronostico dovrebbe essere più vicino al 50% di probabilità di vittoria. Magari un 60%? 65%? O 69%? Non riesco a rispondere, almeno, non ancora.

Penalizzazione legata all’assenza (per infortunio)

Le mie valutazioni Elo scontano già una penalizzazione legata all’assenza, di cui ho parlato in questo articolo. L’idea è quella per cui se un giocatore resta lontano dal circuito molto a lungo (di solito per infortunio, ma anche per eventualità come una squalifica, una maternità o altre ragioni), al rientro mostra, nella maggior parte dei casi, un livello di gioco peggiore. È difficile però prevedere di quanto, e ogni giocatore ha un percorso diverso di ritorno alla piena forma.

Ho introdotto quindi una modifica alla formula, sulla base di due componenti:

  • una penalizzazione una tantum in funzione della lunghezza dell’assenza (maggiore la durata, più grande la penalizzazione)
  • un aumento temporaneo del valore del fattore k (l’elemento della formula che determina quanto ciascuna partita incida sulla variazione positiva o negativa del livello di gioco di un giocatore), per riflettere l’incertezza iniziale. Dopo un infortunio, il fattore k aumenta di poco di più del 50%, per poi regredire al valore tipico nell’arco delle venti successive partite.

Non è un infortunio

Fermarsi per sei mesi a causa del coronavirus non è equiparabile a un infortunio (almeno, non per quei giocatori che sono comunque riusciti ad allenarsi per aver evitato il COVID-19 o altre problematiche di salute collegate). L’algoritmo di penalizzazione per infortunio non può quindi essere applicato così come è pensato, ma se ne possono trarre due considerazioni:

  • se generiamo previsioni più vicine al 50% di probabilità abbassando la valutazione di alcuni giocatori, la penalizzazione dovrebbe essere inferiore alla penalizzazione per infortunio (normalmente, per un assenza durante la stagione di otto o nove settimane, la penalizzazione minima per infortunio è di 100 punti Elo).
  • l’aumento temporaneo del fattore k è uno strumento utile per gestire l’incertezza che si accompagna allo stato di forma di un giocatore dopo una lunga interruzione.

Il metodo della penalizzazione per assenza funziona perché è supportato dai dati. Siamo in grado di analizzare centinaia di assenze per infortunio (o per altri fattori) nella storia del tennis moderno e capire come hanno reso i giocatori al loro rientro sul circuito. I numeri che utilizzo nella formula per le valutazioni Elo si basano proprio su questo. Purtroppo però non abbiamo la stessa disponibilità per gli ultimi sei mesi, perché quello che è successo non ha precedenti.

Non la pausa di fine stagione, ma…

La situazione che più si avvicina a un blocco di sei mesi nel flusso di dati relativi al tennis è la pausa di fine stagione a dicembre. Per quanto decisamente più breve e non uguale per tutti, presenta alcune dinamiche molto simili: ci sono giocatori che si cimentano in esibizioni, altri che si riposano in spiaggia, alcuni che approfittano per guarire da infortuni, altri ancora che si allenano duramente per migliorarsi, e così via.

Verifichiamo questa teoria: le prime settimane di ogni stagione dovrebbero essere meno pronosticabili della media. Controllo: è falso! Per gli anni dal 2010 al 2019, ho assegnato un’etichetta a ogni partita rispetto a quante partite i due giocatori avevano giocato fino a quel momento della stagione. Se si trattava della prima partita per entrambi, l’etichetta era il numero 1. Se era la quindicesima per uno e la ventunesima per l’altro, il numero era la media, quindi 18. Ho poi calcolato l’indice di Brier — una misura dell’accuratezza delle previsioni — per le previsioni generate da Elo di tutte le partite con un’etichetta. Minore il valore dell’indice, migliore la previsione. Se avessi ragione, dovremmo vedere l’indice di Brier più alto per le prime partite della stagione, seguito da una diminuzione. Non è esattamente così!

IMMAGINE 1 – Indice di Brier per singola partita del circuito maschile nel periodo dal 2010 al 2019

La linea blu irregolare del grafico mostra l’indice di Brier per ogni partita con etichetta (partita 1, partita 2, partita 23, etc), mentre la linea arancione è una media mobile di cinque partite che punta a rappresentare la tendenza complessiva. Non c’è una differenza enorme durante la stagione (ed è confortante), ma la dinamica di inizio stagione è opposta alla mia ipotesi. Magari per le donne il risultato è più in linea con le mie attese?

IMMAGINE 2 – Indice di Brier per singola partita del circuito femminile nel periodo dal 2010 al 2019

Non sono fortunato nemmeno in questo caso. Anche per le donne la variazione partita per partita nell’accuratezza delle previsioni è abbastanza ridotta, e non ci sono segnali di incertezza di inizio stagione.

Ma non mi fermo qui

Anche se la mia stessa teoria non regge l’evidenza dei fatti, mi aspetto comunque di assistere, alla ripresa successiva alla pandemia, a un paio di mesi imprevedibili. I giocatori sono abituati a gestire la normale interruzione di fine stagione e generalmente efficienti nel usare al meglio il tempo libero. E poi sono due mesi e non cinque o sette. Inoltre, molti altri fattori richiederanno adattamento sul circuito — quantomeno per la conclusione del 2020 — come i pochi spettatori (se ce ne saranno), il protocollo di distanziamento e un calendario in continuo aggiustamento. Alcuni giocatori gestiranno la pressione meglio di altri, ma non è detto che tra questi ci siano necessariamente i più forti.

Per il momento quindi le mie valutazioni Elo terranno conto di una piccola penalizzazione, aumentando temporaneamente il fattore k (più vicino al 69% per Thiem contro Goffin, che al 60%). Non ho ancora finito di scrivere il codice completo, principalmente perché devo considerare due diversi tipi di assenze, COVID-19 da una parte e i canonici infortuni dall’altra, ed è più complesso. Per chi è più interessato, farò qualche modifica prima dell’inizio previsto per il Cincinnati Masters

C’è una risposta giusta

Non ci sono dubbi da queste parole che il mio tentativo di sistemare le valutazioni Elo in modo da riflettere l’interruzione dovuta al COVID-19 procede un po’ al buio. Ma non sarà sempre così! Verso la fine dell’anno, conosceremo la risposta, cioè quanta imprevedibilità avrà caratterizzato i risultati delle prime partite al rientro dalla chiusura. Così come sono riuscito a calcolare gli aggiustamenti da apportare per penalizzazioni e fattore k grazie ai dati storici, potrò fare la stessa cosa per i risultati della seconda parte del 2020.

Più precisamente, sarà possibile creare insiemi di risposte giuste, perché una correzione alla formula Elo restituirà il miglior valore dell’indice di Brier, mentre un’altra rappresenterà con più esattezza il divario tra Novak Djokovic e Rafael Nadal, e così via per i vari spunti d’indagine.
L’aggiustamento finale per la formula Elo ai tempi del COVID-19 non vi aiuterà a vincere più soldi scommettendo sul tennis, ma fornirà una maggiore comprensione di come l’interruzione ha inciso sul livello dei giocatori, e su quanto velocemente sono ritornati alla forma di inizio anno. Ne sapremo un po’ di più sul tennis, anche se la speranza assoluta è di non dover mai più fare uso di questa nuova conoscenza.

Elo, Meet COVID-19

Vincere due finali nella stessa edizione è un evento raro

di Peter Wetz // TennisAbstract

Pubblicato il 13 luglio 2020 – Traduzione di Edoardo Salvati

Nel paradosso di un dibattito comunque acceso nel mondo del tennis anche in assenza di risultati da partite ufficiali, ho pensato che fosse una buona opportunità approfittare dell’isolamento forzato per una secca analisi statistica dalla lista degli articoli che voglio ancora scrivere.

Nel giugno 2019, Feliciano Lopez ha dovuto terminare cinque partite in due giorni. Non perché è passato da un torneo all’altro come fece un appena ventiduenne Jo Wilfried Tsonga nel 2007, ma perché è riuscito ad arrivare in fondo sia nel tabellone di singolare che in quello di doppio, sull’erba del Queen’s Club. E ha poi vinto entrambi i titoli.

Le quattro partite di singolare sono andate tutte al terzo set, e Lopez non ha avuto troppo tempo per festeggiare dopo la finale, visto l’immediato successivo impegno nel doppio. La scelta di giocare con un Andy Murray in recupero dal lungo infortunio sembra essere stata azzeccata, visto che il record migliore di Murray negli scontri diretti è di 11-0 proprio contro Lopez. In questo modo, Lopez si è garantito di evitare di incontrare Murray in doppio dall’altra parte del campo. Una strategia inusuale, e probabilmente non la prima considerazione alla base di quella decisione, ma che comunque ha funzionato.

Non ci sono i più i McEnroe di una volta

Vincere due finali nella stessa edizione di un torneo è abbastanza frequente sul circuito Challenger. Non è così per il circuito maggiore, visto anche che i giocatori più forti spesso non prendono nemmeno in considerazione il doppio. Ma quanto è davvero un evento raro? E la tendenza è cambiata nel corso degli anni? Gli appassionati di lungo corso ricordano sicuramente che John McEnroe ha vinto in doppio (77 titoli) praticamente quanto in singolare (78). Un totale più modesto per Roger Federer (6 titoli) e Rafael Nadal (11) impallidisce al confronto, anche se Nadal è un doppista eccezionale (e Federer ha vinto la medaglia d’oro alle Olimpiadi di Pechino 2008 in coppia con Stanislas Wawrinka, n.d.t.).

La tabella riepiloga le vittorie in singolare e in doppio allo stesso torneo dal 2005.

Anno  Torneo           Giocatore     (Compagno)
2005  Dusseldorf       Haas          (Waske)
2005  Halle            Federer       (Allegro)
2005  Basilea          Gonzalez      (Calleri)
2006  Vina del Mar     Acasuso       (Prieto)
2007  Chennai          Malisse       (D. Norman)
2007  Delray Beach     Malisse       (Armando)
2007  Monaco           Kohlschreiber (Youzhny)
2007  Dusseldorf       Calleri       (Chela)
2008  Monte Carlo      Nadal         (Robredo)
2008  Dusseldorf       Soderling     (Lindstedt)
2009  Costa Do Sauipe  Robredo       (Granollers)
2009  San Jose         Stepanek      (Haas)
2009  Newport          Ram           (Kerr)
2010  Memphis          Querrey       (Isner)
2010  Marsiglia        Llodra        (Benneteau)
2010  Bucharest        Chela         (Kubot)
2011  Tokyo            A.Murray      (J. Murray)
2012  Zagabria         Youzhny       (Baghdatis)
2013  Newport          Mahut         (Roger Vasselin)
2014  Newport          Hewitt        (Guccione)
2017  Montpellier      A. Zverev     (M. Zverev)
2018  Gstaad           Berrettini    (Bracciali)
2019  Londra           Lopez         (A. Murray)

Colpiscono due aspetti. Per prima cosa, dal 2011 la doppietta si è verificata poco meno di una volta a stagione. Negli anni precedenti invece, è successo in diversi tornei, tranne che nel 2006. In secondo luogo, l’unico giocatore a vincere entrambi i tabelloni a un torneo Masters è Nadal a Monte Carlo, nel 2008.

È ovvio, e non a caso anche un argomento frequente tra patiti di tennis, che ormai i singolaristi di vertice degnano il doppio di scarsa attenzione, certamente all’opposto di quanto facessero McEnroe e colleghi. Una spiegazione è che il doppio moderno si è evoluto al punto da aver assunto caratteristiche molto diverse dal singolare. E, per riuscire a tenere il passo, i singolaristi dovrebbero modificare le tecniche di allenamento, elemento che potrebbe danneggiare i risultati in singolare. In poche parole, la tesi è che il doppio è diventato per i singolaristi troppo “difficile”.

Guardiamo un po’ di numeri

I grafici che seguono mostrano la composizione dei tabelloni dalla stagione 2000, con la percentuale di giocatori iscritti al singolare e al doppio dello stesso torneo per tre diverse categorie (T = tutti, M = Masters 1000, S = Slam). L’immagine 1 riporta i dati per i primi 50 giocatori di singolare, mentre l’immagine 2 per i primi 10 singolaristi.

IMMAGINE 1 – Giocatori tra i primi 50 di singolare iscritti al singolare e al doppio nello stesso torneo

Dal primo grafico non emergono considerazioni sconvolgenti, ma si confermano abitudini abbastanza consolidate per i primi 50 singolaristi negli ultimi 20 anni, per tutte le categorie di tornei. Dal 2000, a prescindere dalla categoria, tra il 41% e il 47% dei primi 50 del mondo ha giocato sia il singolare che il doppio allo stesso torneo [1].

Una storia diversa

IMMAGINE 2 – Giocatori tra i primi 10 di singolare iscritti al singolare e al doppio nello stesso torneo

I numeri del secondo grafico per i primi 10 singolaristi raccontano una storia completamente diversa. Senza tener conto della categoria, i giocatori tra i primi 10 iscritti anche al doppio sono scesi nel periodo di riferimento dal 35% al 22%. Così si è verificato anche nel caso specifico dei Masters 1000, per quanto è interessante notare che la percentuale è comunque più alta del numero complessivo. La spiegazione più probabile arriva dai premi partita per il doppio negli eventi Masters, il cui ammontare è considerevolmente più alto di quello degli altri tornei del circuito. Spesso poi gli organizzatori hanno disponibilità finanziarie per convincere i più forti a giocare anche al doppio in modo da, ma è solo una mia ipotesi, vendere più biglietti o aumentare gli spettatori anche nei turni iniziali. Esempio tipico è l’Indian Wells Masters, noto per avere ogni anno un doppio costellato di campioni.

È negli Slam però in cui si registra la diminuzione più drastica di partecipazione dei primi 10. Se tra il 2000 e il 2004 almeno un quinto dei giocatori di vertice si impegnava anche nel doppio, negli ultimi cinque anni solo uno su 183 giocatori tra i primi 10 si è iscritto al doppio. Quel giocatore è proprio il mio connazionale Dominic Thiem, che ha giocato il doppio agli US Open 2016 da numero 10 in singolare, in coppia con l’altro austriaco Tristan Samuel Weissborn.

Non ci sono risposte definitive

Come per molte analisi, anche in questa è difficile arrivare a una risposta definitiva. I numeri però aiutano a comprendere la dimensione del fenomeno e teorizzare sulle possibili cause. Che il doppio sia diventato una competizione sempre più specializzata è sicuramente vero. Allo stesso tempo, i numeri suggeriscono che i singolaristi di vertice ricercano il massimo guadagno, quindi si orientano sul singolare, non sul doppio. Se oggi ci fosse in circolazione un giocatore in stile McEnroe (come potrebbe essere Nadal), non riuscirebbe a giocare doppi a sufficienza per arrivare a circa 80 tornei vinti.

Tuttavia, è difficile dire cosa è arrivato prima: il declino dei singolaristi che si dedicano al doppio per ragioni di natura principalmente finanziaria o la consapevolezza che è molto complicato arrivare al livello dei più forti specialisti di doppio?

Rimane una certezza: se TennisTV fosse esistita a quel tempo, avrebbe trasmesso molte più partite di doppio di quanto non faccia ora.

Note:

[1] Esiste la possibilità che alcuni giocatori avrebbero voluto iscriversi anche al tabellone del doppio di un torneo, ma non hanno potuto per diversi motivi tra cui una classifica troppo bassa. Penso però che, ai fini dell’analisi, sia un’occorrenza marginale, se non nulla.

The Rarity of Winning Two Titles at One Tournament

Il valore delle carte nella UTS

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 21 giugno 2020 – Traduzione di Edoardo Salvati

La UTS, o Ultimate Tennis Showdown, è una nuova competizione creata da Patrick Mouratoglou con l’intento di rendere il tennis appassionante anche per i giovanissimi. Al suo debutto nel mese di giugno, è stato da subito chiaro che la principale fonte d’ispirazione sono gli e-sport, vista la presenza di elementi tipici dei videogiochi come le carte UTS.

Si tratta di opportunità a disposizione del singolo giocatore per modificare il valore di alcuni punti, aumentando la possibilità di acquisire un vantaggio strategico. Non sembra però che, almeno finora, i giocatori abbiano imparato a usare le carte nel migliore dei modi. In questa analisi, introduco un metodo per la stima del valore atteso di ciascuna carta UTS, oltre a una classifica sulla base dei risultati ottenuti.

Valore aggiunto atteso

Tra i cambiamenti radicali alle regole tradizionali del tennis, ci sono due delle quattro possibili carte UTS che i giocatori ricevono e che possono usare in qualsiasi quarto (cioè il set di questo formato). Le carte sono assegnate arbitrariamente prima dell’inizio di ogni quarto e allo stesso modo l’algoritmo decide per quanti punti possono essere giocate. Di seguito, ipotizzo una durata di due punti, in linea con la durata che si è verificata più frequentemente nelle partite.

Le quattro carte hanno il potere di cambiare il numero di punti che un giocatore può guadagnare, da un lato associando una ricompensa più alta alla vittoria di determinati scambi, dall’altro modificando il vantaggio di aver vinto il punto. Anche se ogni carta ha regole differenti, è possibile determinarne la resa con valutazione analoga, richiamando il concetto di valore aggiunto atteso (VAA). Il valore atteso è in questo caso definito come i punti attesi che un giocatore guadagnerà alla fine dei due punti in cui viene utilizzata la carta. Il valore aggiunto atteso è dato semplicemente dalla differenza di valore tra lo scenario in cui la carta è giocata e quello in cui non è giocata.

Steal Serve

La prima carta in esame è Steal Serve. Di solito, nella UTS il quarto si gioca come un tiebreak, con l’alternanza di due punti al servizio. Grazie alla carta Steal Serve, un giocatore può servire quattro volte consecutivamente, vale a dire il doppio delle volte rispetto a quando è alla risposta. È quindi la carta a stabilire chi serve e chi riceve. Il VAA si traduce qui nella differenza della vittoria del punto, P(Vittoria), tra quando si è al servizio e quando si è alla risposta:

VAA = 2 * P(Vittoria|Servizio) – 2 * P(Vittoria|Risposta)

Naturalmente, è un valore che oscilla in funzione dalla specifica bravura al servizio e alla risposta dei giocatori. Nel circuito maggiore, in media un giocatore vince il 65% dei punti al servizio. Se si trovano di fronte due giocatori che ben si combinano tra loro, la Steal Serve avrebbe un VAA di +0.60.

-1 Serve

C’è un’altra carta che incide direttamente sul servizio e si chiama -1 Serve, o senza la seconda di servizio. Usando questa carta si costringe l’avversario a giocare senza la protezione aggiuntiva fornita da un’eventuale seconda di servizio. Assegnare un valore a questa carta richiede tenere in considerazione il comportamento dell’avversario. Se adotta una posizione del tutto razionale (e si tratta di un’ipotesi non di poco conto all’interno di un’esibizione), gioca il servizio alla stregua di una seconda. In questo caso, il VAA della carta si riduce alla differenza tra la vittoria del punto alla risposta di fronte a una seconda di servizio e la vittoria del punto nella situazione canonica di due servizi:

VAA = 2 * P(Vittoria|Risposta seconda) – 2 * P(Vittoria|Risposta)

Guardando le statistiche dei punti vinti alla risposta sulla seconda di servizio, possiamo farci un’idea del vantaggio che potrebbe avere il giocatore medio. Sul circuito maggiore, la percentuale è del 48%. Rispetto a un valore medio del 35% di vittoria del punto alla risposta in presenza di due servizi, arriviamo a un VAA di +0.26.

Win In 3 Shots Max

Le altre due carte si distinguono perché non danno indicazione su quale sia il giocatore al servizio o alla risposta, aumentando il livello di complicazione della strategia. Consideriamo per prima la carta Win In 3 Shots Max. Con questa carta, la pressione si sposta sull’avversario, che è costretto a vincere i successivi due punti in non più di tre colpi. Il vantaggio deriva dal quel sottoinsieme di punti che l’avversario vince ma solo dopo uno scambio lungo. Se ipotizziamo che il numero di colpi è di fatto indipendente dal giocatore al servizio, il VAA può essere calcolato come segue:

VAA = 2(1-P(Vittoria|Risposta))* P(termina in > 3 colpi)

Se invece la carta è giocata con l’avversario alla risposta (e quindi chi serve gioca la carta), la formula diventa:

VAA = 2(1-P(Vittoria|Servizio))* P(termina in > 3 colpi)

Nonostante i proclami di alcuni sedicenti esperti di numeri, la maggior parte dei punti nel tennis termina dopo non più di tre colpi. Anzi, quasi il 70% dei punti è così corto. Questo suggerisce un VAA di +0.39 quando è al servizio l’avversario e di +0.21 quando è alla risposta. È un vantaggio in entrambi i casi, ma sarebbe meglio giocare la carta quando l’avversario è al servizio, perché è un modo efficace per annullare parte del vantaggio che ha un giocatore in quella situazione.

Winners Count x 3

Questa forse è la carta più interessante. Si chiama Winners Count x 3, ed è l’unica delle quattro in grado di alterare il valore di un punto nel sistema di punteggio. Il valore però cambia solo quando un giocatore vince il punto con un colpo che è chiaramente un vincente. Se ci poniamo nella stessa assunzione, cioè di una probabilità di chiusura del punto con un vincente che è indipendente da chi è al servizio, allora una ragionevole stima del VAA della carta è data da:

VAA = 2*3*P(Vittoria|Servizio)* P(vincente)

nel caso in cui la carta è usata dal giocatore al servizio. Nel caso in cui invece la carta è usata da chi è alla risposta, il calcolo è:

VAA = 2*3*P(Vittoria|Risposta)* P(vincente)

Negli Slam, i tornei di cui abbiamo più statistiche riguardo ai vincenti, il 30% dei punti termina in modo chiaro con un vincente. Questo suggerisce un VAA in media di +1.17 quando il giocatore è al servizio e di +0.63 quando è alla risposta.

Classifica

Grazie a quesi numeri di riepilogo legati a statistiche medie per giocatori professionisti, siamo in grado di disporre le quattro carte UTS considerate in ordine di importanza in funzione della contesto di gioco.

Carta UTS             Quando?       VAA
Winners Count x 3     Servizio      +1.17
Winners Count x 3     Risposta      +0.63
Steal Serve           Servizio      +0.60
Win in 3 Shots Max    Risposta      +0.39
-1 Serve              Risposta      +0.26
Win in 3 Shots Max    Servizio      +0.21

La carta Winners Count x 3 è quella con il valore maggiore, a prescindere dallo scenario, anche se come l’ha giocata Matteo Berrettini contro David Goffin, quando Berrettini era alla risposta, è stato evidentemente un errore strategico (e Goffin non si è fatto mancare l’occasione di prenderlo un po’ in giro nel collegamento in cuffia).

Al secondo posto per capacità di indirizzare il punteggio in favore del giocatore che ne ha disposizione c’è la carta Steal Serve. Da qui in avanti, la differenza si riduce sensibilmente. Visto che però le carte hanno tutte un valore aggiunto positivo, avrebbe comunque senso per i giocatori usarle sempre nel singolo quarto.

È ragionevole pensare che sono numeri che vanno bene in media per qualsiasi accostamento di giocatori. Per una partita specifica servirebbero invece statistiche relative agli scontri diretti per poter stimare con precisione il valore aggiunto delle carte. Per quanto, anche in presenza di variabilità da partita a partita, sarei sorpresa se la classifica di queste carte cambiasse in modo radicale.

Dovesse la UTS farsi strada tra gli appassionati, sarà materiale interessante per analisi future.

How to Game the UTS Cards

Alcune tra le imprese più sorprendenti nella storia recente degli Slam

di Stephanie Kovalchik // StatsOnTheT

Pubblicato il 18 aprile 2020 – Traduzione di Edoardo Salvati

Con molto tempo a disposizione per indugiare nei ricordi legati al tennis, ho pensato che sarebbe stato divertente fare una classifica delle imprese più incredibili negli Slam. A questo proposito, il guadagno ottenuto dal singolo giocatore in termini di valutazione del suo livello di bravura nel corso di un torneo è utile all’identificazione di risultati a sorpresa, in questo caso dagli anni 1990 a oggi.

Effetto sorpresa

Uno degli aspetti più interessanti dei sistemi di valutazione come Elo, basati cioè sulle probabilità, è che incorporano l’effetto sorpresa. L’aggiornamento della valutazione di un giocatore segue temporalmente i suoi risultati ed è di fatto una misura ponderata della prevedibilità o imprevedibilità del risultato. Quando Kevin Anderson ha sconfitto Roger Federer a Wimbledon 2018, alla vigilia della partita aveva solo una probabilità di vittoria su cinque. Si è trattato quindi di una sorpresa che ha dato una grande spinta alla sua valutazione. I sistemi di valutazione operano questi calcoli a ogni partita e per ogni risultato, fornendo così un’istantanea dell’effetto sorpresa consultabile in qualsiasi momento.

Sono variazioni parte del processo di auto-correzione di questo tipo di sistemi di valutazione. In generale, se un sistema è efficace non si lascia sorprendere troppo spesso. Ci sono però occasioni in cui una vittoria fa saltare il banco, pensiamo ad esempio a quella di Lukas Rosol contro Rafael Nadal a Wimbledon 2012. Non capita di frequente di assistere a vittorie a sorpresa di fila perché, se succede, significa che probabilmente si è verificato qualcosa di straordinario.

Possiamo provare a isolare quelle occasioni osservando il guadagno complessivo di punti validi per le valutazioni in un torneo (secondo il mio sistema di valutazioni Elo), dalla prima all’ultima partita giocata. Con le mie valutazioni storiche, che attualmente tornano indietro fino al 1990 per gli uomini e al 1997 per le donne, ho trovato che incrementi di almeno 160 punti rappresentano il 5% superiore dei risultati che sono andati oltre le attese negli Slam. Ci concentriamo quindi su questo 5%.

Uomini

Nel periodo considerato, solo due giocatori a fine di un torneo Slam sono riusciti a far aumentare la propria valutazione di più di 200 punti rispetto a quella iniziale. Il maggior guadagno in assoluto è stato di Gustavo Kuerten con la vittoria del primo Slam al Roland Garros 1997. Fuori dalle teste di serie, ha sorpreso davvero tutti. Anche con i punti guadagnati dopo ogni turno, era comunque il giocatore sfavorito in tutte le partite tranne una che, curiosamente, è stata la semifinale contro Filip Dewulf, sulla carta la partita più facile.

Il secondo posto è occupato da Andrei Medvedev (che non ha parentele con Daniil Medvedev), che ha raggiunto la finale del Roland Garros 1999, che si è poi rivelato anche il miglior risultato in uno Slam. Quella sconfitta è stata la sesta di fila contro Andre Agassi, e deve aver spento definitivamente la volontà di Medvedev nella conquista di un altro Slam.

IMMAGINE 1 – Primo 5% delle imprese più sorprendenti negli Slam maschili dal 1993 al 2020 sulla base del guadagno totale di punti del sistema di valutazione Elo

Nadal al Roland Garros

Prima del dominio di Nadal, ho sempre avuto l’impressione che il Roland Garros fosse tra i quattro Slam quello con i risultati più “strani”. E credo che questa ne sia una conferma. Non solo i due più sorprendenti sono in cima all’elenco, ma ben 8 dei 23 risultati che rientrano nel primo 5% sono di imprese avvenute sulla terra battuta di Parigi. Poi, dal 2005 al 2013, Nadal ha normalizzato la situazione a suo favore. Mi ha incuriosito quindi vedere che la sua vittoria al Roland Garros 2014 rientra tra le sorprese. Anche se Nadal non ha praticamente ottenuto punti dai primi quattro turni, la difficoltà delle vittorie contro David Ferrer, Andy Murray e Novak Djokovic (il quale aveva in quel momento una valutazione complessiva più alta) è stata sufficiente per un guadagno di 166 punti rispetto alla valutazione di inizio torneo.

Anche i nomi più prestigiosi

Ci sono poi anche alcuni dei nomi più prestigiosi del tennis maschile, e si può pensare che siano le loro prime vittorie di uno Slam. Non è così. C’è l’ultima vittoria agli US Open 2002 di Pete Sampras, dopo due anni di assenza dall’albo d’oro negli Slam. Per certi versi simile, c’è la vittoria di Djokovic a Wimbledon 2018, la prima dal Roland Garros 2016, in cui era riuscito a completare tutti i tornei Slam. Sono presenti anche Andre Agassi e Federer, in fasi diverse di rinascita della loro carriera.

Come qualche volta accade, la mancanza di dati può generare storie altrettanto interessanti. Nel caso delle sorprese negli Slam, i dati mancati si riferiscono alla lunga sequenza di risultati secondo pronostico tra la semifinale di Rainer Schuettler a Wimbledon 2008 e la vittoria di Nadal al Roland Garros 2014. Solo il titolo conquistato da Juan Martin Del Potro agli US Open 2009 ha interrotto brevemente le vittorie dei favoriti negli Slam, dando vita al periodo più continuo di risultati prevedibili negli Slam degli ultimi tre decenni.

La storia di Vladimir Voltchkov merita una nota finale. Nel 2000, Voltchkov, un giocatore juniores con poche sortite sul circuito maggiore, arrivò a Wimbledon con una valutazione appena superiore a 1600. Anche ispirato dall’epica del film Il Gladiatore di quello stesso anno, Voltchkov riuscì incredibilmente a sopravvivere ai primi 5 avversari per poi essere eliminato senza patemi da Pete Sampras nella sua unica semifinale Slam.

Donne

Purtroppo le mie valutazioni storiche per il tennis femminile non coprono un periodo così ampio. Però, anche dai soli risultati negli anni 2000 è chiaro che le imprese più sorprendenti hanno seguito dinamiche decisamente diverse da quelle degli uomini. In primo luogo, il Roland Garros compare solo una volta, quando Jelena Ostapenko ha vinto nel 2017 diventando la prima dopo Kuerten ha vincere uno Slam come primo torneo in assoluto del circuito maggiore.

Inoltre, la maggior parte delle sorprese più recenti si sono verificate agli Australian Open (8 delle 22 del grafico). La più inaspettata di questo gruppo è stata la vittoria di Serena Williams nel 2007, a seguito di una serie di infortuni che nel 2006 le avevano fatto saltare gran parte della stagione e retrocedere al numero 139 in classifica.

IMMAGINE 2 – Primo 5% delle imprese più sorprendenti negli Slam femminili dal 1999 al 2020 sulla base del guadagno totale di punti del sistema di valutazione Elo

Kim

Sembra quasi scritto che la vittoria agli US Open 2009 di Kim Clijsters dopo il rientro alle competizioni superi per sorpresa anche la vittoria di Serena nel 2007. Sono infatti le due giocatrici che meglio di tutte hanno gestito maternità e professionismo in momenti diversi della carriera. Se in molti erano convinti che Serena avrebbe vinto uno Slam poco dopo aver partorito, è in realtà Clijsters l’unica a raggiungere quel traguardo. E c’erano buone possibilità che almeno una delle sorelle Williams avrebbe interrotto il cammino di Clijsters, prima Venus negli ottavi di finale, con il 90% di probabilità di vittoria, e poi Serena in semifinale. Dopo solo un mese nel circuito maggiore, con un altro Slam vinto e 300 punti aggiunti alla sua valutazione, è Clijsters a ricevere il premio di impresa più sorprendete negli Slam degli ultimi trent’anni.

Some of the Most Surprising Runs in Recent Grand Slam History

La giornata storta di Aleksandre Metreveli non è stata così terribile

di Jeff Sackmann // TennisAbstract

Pubblicato il 5 gennaio 2020 – Traduzione di Edoardo Salvati

La stagione 2020 di Roberto Bautista Agut è iniziata sotto il migliore degli auspici quando, alla ATP Cup, ha sconfitto il numero 2 georgiano Aleksandre Metreveli con l’imbarazzante punteggio di 6-0 6-0. Le vittorie senza game per l’avversario sono estremamente rare sul circuito maschile, con meno di 100 negli ultimi tre decenni.

Circa il 25% di quei 6-0 6-0 arrivano da partite della Coppa Davis, la competizione in cui è più probabile che questo accada. L’incrocio dei singolaristi, la parte della sfida in cui si affrontano il miglior giocatore di una nazione e il secondo migliore dell’altra (ormai praticamente defunta con il nuovo formato), genera risultati particolarmente a senso unico.

Così non è per l’ATP Cup, ma Bautista Augut è più forte di molti numeri 1 nazionali, e Metreveli è in quella manciata di giocatori questa settimana che altrimenti non troverebbe posto in un torneo del circuito maggiore. Eppure, non è stata una demolizione così catastrofica. La partita è durata 72 minuti, più di tutte le altre 59 con lo stesso punteggio di cui possiedo le statistiche. È stato solo il quarto 6-0 6-0 ha superare l’ora di gioco. Il precedente record apparteneva a Guillermo Canas che agli Internazionali d’Italia nel 2005 aveva annientato in 65 minuti Juan Monaco. Delle 120 partite per 6-0 6-0 sul circuito femminile di cui possiedo le statistiche, nessuna è mai andata oltre i 67 minuti.

Un po’ di contesto

Sulla durata di una partita possono incidere la routine dei giocatori o il comportamento del pubblico, ma non il numero dei punti giocati. Anche sulla base di questa statistica Metreveli ha fatto meglio di quanto il punteggio indichi. Ha tenuto in campo Bautista Agut per 97 punti, più a lungo di tutte le altre partite tranne tre. In media, servono solo 74 punti per un doppio 6-0. Più di 150 partite della scorsa stagione non hanno superato i 97 punti, tra cui diverse finali e un paio con un set terminato 7-5.

Un altro modo per considerare l’equilibrio di una partita è dato dalle palle break salvate. Il punteggio prevede che Metreveli non abbia mai fatto un break e che Bautista Agut ci sia riuscito sei volte. Metreveli però si è difeso duramente dalla risposta di Bautista Agut, salvando otto palle break. Solo quattro giocatori tra i 59 che hanno perso per 0-6 0-6 erano riusciti a salvare così tante palle break.

Opportunità di doppio 6-0

Bautista Agut ha vinto l’83% dei punti al servizio, rispetto al solo 40% di Metreveli. Se nessuna striscia inusuale di punti vinti o persi avesse interrotto queste frequenze di conversione, Bautista Agut avrebbe tenuto il 98.9% dei servizi a fronte del 26.4% di Metreveli. Per vincere i dodici game, Bautista Agut doveva tenere il servizio sei volte e fare altrettanti break. Sulla base di quella frequenza di tenuta del servizio, la probabilità di riuscirci era del 14.8%. Detto in altro modo, se questi due giocatori avessero continuato a tenere quel livello su un campione più ampio di partite (perdonami, Aleksandre!), ci sarebbe stato un doppio 6-0 solo all’incirca in una partita su sei.

Vale la pena ribadirlo, la prestazione di Metreveli si fa notare per essere una delle più solide in un punteggio di 6-0 6-0. Solo cinque tra le precedenti 59 partite di questo gruppo avevano una probabilità così ridotta di terminare con uno dei due giocatori senza game sul tabellone.

In funzione della probabilità di doppio 6-0, otto partite del 2019 sono state più a senso unico di questa, e solo una è terminata con dodici game di fila. Tre dei giocatori sconfitti hanno evitato lo zero in entrambi i set.

Torneo         Vincitore    Sconfitto    Punteggio    Prob 6-0 6-0 
Winston Salem  Fratangelo   Weintraub    6-0 6-0      63.5%  
Los Cabos      Granollers   Gomez        6-0 6-1      24.6%  
Us Open        Federer      Goffin       6-2 6-2 6-0  19.9%  
Estoril        Dav. Fokina  Chardy       6-1 6-2      18.5%  
Acapulco       Millman      Gojowczyk    6-0 6-2      17.2%  
Internaz. It   Nadal        Basilashvili 6-1 6-0      16.6%  
Miami          Car. Baena   Kudla        6-1 6-2      16.6%  
Tokyo          Djokovic     Pouille      6-1 6-2      15.5%

(E Metreveli è stato più valoroso contro Bautista Agut di quanto abbia fatto Nikoloz Basilashvili contro Nadal a Roma, anche se poi la vittoria di Nadal per 6-3 7-5 all’ ATP Cup è stata un po’ più equilibrata.)

Con questo non si può certo sostenere che Metreveli abbia avuto un debutto positivo all’ATP Cup. I doppi 6-0 sono però così rari che tendono a generare notizia, mettendo in secondo piano le specificità. Per il modo in cui ha giocato, Metreveli meritava una sconfitta più consona, con almeno uno o due game a suo favore.

Aleksandre Metreveli’s Bad Day Wasn’t Double-Bagel Bad

C’è sempre una possibilità, anche per Marie Bouzkova

di Jeff Sackmann // TennisAbstract

Pubblicato il 10 agosto 2019 – Traduzione di Edoardo Salvati

Marie Bouzkova, numero 91 del mondo e passata dalle qualificazioni, ha battuto ai quarti di finale di Toronto la numero 4 Simona Halep, che si è dovuta ritirare per un infortunio alla gamba dopo aver perso il primo set. C’è quindi un asterisco: anche se fossimo pronti ad attribuire più importanza a una singola partita di quella che richiede, non daremmo grande significato a questa.

Si tratta comunque di un risultato di prestigio per la ventunenne della Repubblica Ceca, che ha eliminato la seconda giocatrice tra le prime 10 della settimana, arrivando alla prima semifinale in carriera in un torneo Premier, contro niente di meno che Serena Williams (perdendo però in tre set, dopo aver vinto il primo per 6-1, n.d.t.)

Qualcosa di strano

Era la partita numero 62 del 2019 per Bouzkova, la numero 61 contro una giocatrice in possesso di classifica ufficiale. Ha vinto contro la più forte che abbia incontrato quest’anno, Halep, ma ha perso appena la settimana scorsa contro CoCo Vandeweghe, la numero 636 e l’avversaria con la classifica più bassa.

C’è un altro asterisco: Vandeweghe è al rientro da un infortunio, è sicuramente a un livello più alto di quello attuale e le stranezze del circuito Transition della federazione internazionale non hanno consentito al sistema di classifica di riflettere nel 2019 lo stato dell’arte come in passato. Alcune giocatrici che avrebbero normalmente una classifica molto bassa, come ad esempio la wild card del Kazakistan che Bouzkova ha demolito un paio di settimane fa, non contano.

Rimangono in ogni caso 61 partite, di cui una vittoria contro la giocatrice dalla classifica più alta e una sconfitta contro quella dalla classifica più bassa. Una ricerca nel mio database ha rivelato molte altre simili sorprese. Tornando indietro per meno di dieci anni, fino al 2010, ho trovato 127 giocatrici che hanno ottenuto una combinazione identica di risultati all’interno della stessa stagione, con almeno trenta partite giocate (per coerenza, ho incluso i ritiri quando si era concluso almeno un set).

Se alcune non sono di grande interesse — è il caso ad esempio di Mira Antonitsch che l’anno scorso non ha giocato contro avversarie tra le prime 400 — 63 delle 127 hanno battuto una tra le prime 100, 44 hanno battuto una delle prime 50 e 25 hanno avuto il lusso di una vittoria a sorpresa contro una delle prime 10. Halep è stata la vittima delle prime 10 in ben tre occasioni!

Le limitazioni del sistema ufficiale

Questo fa di Bouzkova la quarta giocatrice in una stagione (quantomeno di otto mesi) ad aver battuto Halep, a non aver giocato contro una giocatrice dalla classifica più alta e ad aver anche perso con la giocatrice più bassa in classifica. Halep non deve rimanerci troppo male, visto che Angelique Kerber è stata dalla parte della sconfitta più alta per cinque volte, di cui quattro nel 2017. Non bene!

La tabella elenca le 25 giocatrici-stagione tra il 2010 e il 2018 che hanno battuto la più alta in classifica e perso dall’avversaria più bassa.

Anno  Giocatrice   Più alta    Class  Più bassa    Class       
2017  Kasatkina    Kerber      1      Kanepi       418      
2018  Hsieh        Halep       1      Gasparyan    410      
2010  Jankovic     Serena      1      Diyas        268      
2010  Clijsters    Wozniacki   1      G-Vidagany   258   *  
2014  Cornet       Serena      1      Townsend     205      
2010  Yakimova     Jankovic    2      Dellacqua    980      
2017  Bouchard     Kerber      2      Duval        896   *  
2017  Vesnina      Kerber      2      Azarenka     683      
2016  Bencic       Kerber      2      Boserup      225      
2014  Rybarikova   Halep       2      Eguchi       183      
2017  Mladenovic   Kerber      2      Andreescu    167   *  
2018  Goerges      Wozniacki   3      Serena       451      
2014  Tomljanovic  Radwanska   3      A Bogdan     308      
2015  Mladenovic   Halep       3      Savchuk      262      
2017  Kerber       Pliskova    4      Stephens     934      
2014  Pavlyu'ova   Radwanska   4      Wozniak      241      
2017  Dodin        Cibulkova   5      Rybarikova   453      
2017  Bellis       Radwanska   6      Azarenka     683      
2018  Buyukakcay   Ostapenko   6      Di Sarra     555      
2017  Sakkari      Wozniacki   6      Potapova     454      
2015  L Davis      Bouchard    7      E Bogdan     527      
2015  Ostapenko    S-Navarro   9      Dushevina    1100  *  
2016  KC Chang     Vinci       10     S Murray     862      
2018  Pera         Konta       10     Hlavackova   825      
2018  Danilovic    Goerges     10     Pegula       620

* 1 avversaria senza classifica

Basta poco per accorgersi che Vandeweghe non è la prima giocatrice con bassa classifica a suscitare una reazione del tipo “si, ma…”. Questo gruppo di avversarie apparentemente deboli è in realtà molto forte visto che contenere giocatrici con una classifica media fuori dalle prime 500. Ci sono stelle come Victoria Azarenka (per due volte) e Serena, oltre a promesse come Bianca Andreescu e Victoria Duval.

Consideriamolo il richiamo quotidiano alle limitazioni della classifica generata dalla WTA, che indica quali giocatrici hanno vinto molte partite nelle ultime 52 settimane, ma non necessariamente chi stia giocando bene.

Divergenze estreme ma non troppo rilevanti

Siamo di fronte ad alcune delle divergenze più estreme tra le posizioni espresse dal sistema ufficiale e la bravura sul campo in uno specifico momento. Non credo che essere in questo elenco abbia particolare rilevanza, tranne forse che le molte presenze di Keber (sia da giocatrice che da scalpo!) siano una sintesi efficace della delusione della sua stagione 2017.

Bouzkova rimarrà in elenco per almeno ancora altri due giorni, visto che Serena è fuori dalle prime 10 e le altre due semifinaliste hanno una classifica più bassa, facendo sì che Halep sia stata l’avversaria più “difficile” (nell’altra semifinale Andreescu ha battuto Sofia Kenin per 6-4 7-6, n.d.t.). E, nonostante la settimana di ottimo tennis, è comprensibile che Bouzkova possa sentirsi disorientata quando dalla parte opposta della rete c’è una giocatrice che ha vinto 23 Slam (per quanto, come visto, pur nella sconfitta Bouzkova ha dominato il primo set, n.d.t.). Una cosa è certa: Bouzkova è indifferente al numero che compare accanto al nome dell’avversaria.

There’s Always a Chance: Marie Bouzkova Edition

Lasciate che Bernie si tenga i soldi

di Jeff Sackmann // TennisAbstract

Pubblicato il 4 luglio 2019 – Traduzione di Edoardo Salvati

L’altro giorno, Bernard Tomic ha perso al primo turno di Wimbledon contro Jo-Wilfried Tsonga. Non mi sorprende: avevo previsto per Tsonga un 64% di probabilità di vittoria, senza nemmeno tener conto della salute non proprio ferrea di Tomic, costretto a ritirarsi a partita in corso per due volte nelle ultime sei settimane.

La partita tra i due ha immediatamente fatto notizia, ma per le ragioni sbagliate. Tomic è caduto in disonore raccogliendo solo sette game in una partita che è durata 58 minuti, la più breve a Wimbledon da quando nel 2004 Roger Federer ha battuto Alejandro Falla in 54 minuti.

L’All England Club ha reagito annunciando che Tomic perderà il premio partita a lui spettante, ufficialmente perché “non ha reso al livello dello standard professionale richiesto”.

Veloce ma non sufficientemente furioso

Non so se Tomic abbia reso al livello dello standard professionale richiesto, perché non esiste una definizione precisa di “standard professionale”. Ho l’impressione che sia una combinazione dei seguenti elementi:

  • il giocatore ha perso malamente
  • il giocatore ha la reputazione di perdere di proposito
  • la partita ha ricevuto molta attenzione e quindi dobbiamo far vedere di prendere provvedimenti.

Quello che so invece è che gli organizzatori di Wimbledon si sono fissati sul numero sbagliato. Vero, 58 minuti sono una partita in tre set incredibilmente veloce. Ma Tomic — anche quando è in palla ed esprime il meglio — è probabilmente il giocatore più veloce sul circuito, spesso iniziando a servire non appena ha ricevuto la pallina dal raccattapalle. Anche Tsonga ha un ritmo veloce. Nessuno dei due è particolarmente forte alla risposta e su una superficie veloce quello di Tsonga è un servizio devastante, quindi i punti sarebbero stati comunque brevi.

Una statistica più appropriata è rappresentata dal numero dei punti giocati, in questo caso 125, che, rispetto alla durata, non generano scalpore da prima pagina.

Ovunque, multe!

A un tratto, la partita tra Tomic e Tsonga non è più così speciale. Dal 2000, ci sono state altre 77 partite di Slam che hanno richiesto non più di 125 punti, quasi esattamente una partita per Slam. Nell’elenco troviamo due quarti di finale, tre semifinali e la finale degli Australian Open 2003, nella quale Andre Agassi si è sbarazzato di Rainer Schuettler in 76 minuti e dopo 123 punti. Se allarghiamo l’analisi a partite con non più di 130 punti, ne aggiungiamo altre 45, tra cui entrambe le semifinali degli Australian Open 2019.

Più semplicemente, non è inusuale per una partita Slam maschile essere decisa nell’arco di 125 punti. E anche giocatori molto forti a volte perdono così rapidamente. Ma non lo si nota più di tanto perché, in genere, per fare 125 punti occorre un’ora e 21 minuti di gioco.

Ci sono ovviamente molte partite a senso unico anche in campo femminile. 125 punti totali sono più o meno 42 a set, quindi la “linea Tomic” è a circa 83 o 84 punti nelle partite al meglio dei 3 set. Dal 2003, ci sono state 235 partite di singolare femminile con non più di 83 punti, tra cui cinque solo al Roland Garros 2019 (ironicamente, la sconfitta di Anna Tatishvili contro Maria Sakkari, che aveva comportato a sua volta la prima multa di questo genere, era durata 93 punti e 56 minuti, 28 a set).  

Reazionario

Queste considerazioni non implicano che Tomic abbia fatto il massimo nel primo turno, o che “meriti” le 45.000 sterline da un punto di vista etico. Se i giudici arbitro del torneo avessero l’abitudine di visionare tutte le partite di primo turno e togliere il premio partita al giocatore che si è mostrato più apatico, è chiaro che Tomic diventa probabilmente il candidato numero uno a Wimbledon 2019.

Ma non funziona così. La regola dello “standard professionale” non è quasi mai chiamata in causa. Se Tomic avesse sprecato più tempo tra un punto e l’altro per far andare la partita sopra all’ora di gioco, o se il colpevole fosse stato un giocatore dal passato con meno alti e bassi, non saremmo qui a discuterne.

E se l’All England Club si concentrassero sulla giusta statistica, cioè la quantità di tennis giocato e non quanto tempo è servito, lo stile rapido e distaccato di Tomic passerebbe inosservato. Dopo tutto, c’è un altro australiano distaccato, volubile e con un gioco alla risposta scadente che merita la nostra attenzione (e cioè Nick Kyrgios, che ha poi perso al secondo turno in appena più di tre ore di gioco contro Rafael Nadal, n.d.t.).

Let Bernie Keep His Money

Roger Federer, vincitore della lotteria

di Jeff Sackmann // TennisAbstract

Pubblicato il 16 maggio 2019 – Traduzione di Edoardo Salvati

Battendo Borna Coric nel terzo turno degli Internazionali d’Italia a Roma con il punteggio di 2-6 6-4 7-6(7), Roger Federer ha generato statistiche davvero insolite. I suoi 95 punti vinti contro i 107 di Coric equivalgono a un percentuale di punti vinti sul totale (PVT) del 47%, non inedita per il giocatore che vince, ma ai limiti delle effettive possibilità. L’indice di dominio (Dominance Ratio o DR) di Federer – cioè il rapporto tra i punti vinti alla risposta e quelli persi al servizio – è di 0.78, con 1.0 che rappresenta una situazione in cui i punti sono equamente distribuiti. Ha vinto solo 24 volte in carriera con un DR inferiore a 1.0, ed era la prima dal 2015. Occorrenze di questo tipo vengono spesso definite come “partite lotteria”, perché sul risultato incide più fortuna del solito.

Non solo Federer ha vinto con una PVT minore del 50% e un DR inferiore a 1.0, ma in ciascuno dei set ha ottenuto numeri ancora più bassi. Ha vinto 23 punti su 55 (41.8%) nel primo, 31 su 64 (48.4%) nel secondo e 41 su 83 (49.4%) nel terzo. Avendo perso malamente il primo set, c’è da aspettarsi un totale così ridotto. Spesso però, numeri scadenti per un’intera partita arrivano da un rendimento mediocre in un set, come può essere per un punteggio di 7-6 1-6 7-6. Coric ha giocato meglio di Federer, almeno in parte, in tutti e tre i set.

Un evento raro

Il vostro sospetto di essere di fronte a un evento raro è fondato. Solo il 4.5% delle partite del circuito maggiore finisce a favore del giocatore che ha vinto meno punti, e solo il 7.2% di quelle in cui il vincitore ha un DR inferiore a 1.0. Solitamente c’è sovrapposizione, ma non sempre. Circa il 4% delle partite sono vinte da un giocatore con una PVT minore al 50% e un DR inferiore a 1.0. Ed è ancora più facile che i singoli set siano vinti dal giocatore che ha fatto più punti. Solo il 2.4% dei set è vinto dal giocatore che ha perso più punti. La frequenza con cui il DR è minore di 1.0 è del 7.4%, circa la stessa che dell’intera partita.

Esiste però un precedente – esattamente uno! – dell’impresa di Federer, vale a dire vincere una partita con una PVT minore del 50% e un DR inferiore a 1.0 in ognuno dei tre set. Stiamo parlando di un singolo episodio in un database con più di 17.000 partite punto per punto del circuito maggiore dal 2010. Inevitabilmente, c’è lo zampino di John Isner.

Ma c’è Isner, come sempre

Nel torneo di Memphis 2017, Isner ha perso il quarto di finale contro Donald Young per 7-6 3-6 7-6. Young ha vinto solo il 46.9% dei punti totali, con un DR di 0.66, entrambi valori che un giocatore che vince la partita difficilmente potrà mai abbassare. Come Federer, Young è andato vicino nei set che ha vinto, con un 49.3% dei punti totali sia nel primo che nel terzo set. Salvando otto palle break su nove e resistendo al servizio di Isner nel tiebreak, Young ha avuto la meglio di un avversario statisticamente superiore.

La vittoria di Federer contro Coric non ha fatto grande leva sul rendimento sulle palle break, anche se i tifosi apprezzeranno la confortante trasformazione di due opportunità su quattro. Si è detto molto della ridotta efficacia di Federer in quel tipo di partite: a fronte di 24 vittorie con un DR inferiore a 1.0, ha subito 49 sconfitte con un DR superiore a 1.0. E spesso la colpa ricade sulle palle break sprecate. Se i giocatori dal servizio dominante tendono a giocare spesso partite equilibrate, Federer è riuscito a vincerne molte senza fare affidamento su quelle in cui la fortuna ha un ruolo preponderante.

Con un posto assicurato nelle pagine più illustri del libro dei record, Federer si sta mettendo in mostra anche nei capitoli più oscuri. Dopo averci deliziato con vittorie a senso unico, finalmente ha portato a casa una partita in cui le statistiche puntavano nella direzione opposta.

Roger Federer, Lottery Winner

Questi giocatori sono simili tra loro?

di Chapel Heel // FirstBallIn

Pubblicato il 10 ottobre 2018 – Traduzione di Edoardo Salvati

Mentre ero alle prese con un’altra indagine che ha richiesto l’estrazione di statistiche cumulate per il circuito maschile, mi sono fermato a riflettere sull’esistenza di due giocatori simili tra loro, o se tutti invece sono diversi nel loro talento, distinguendosi cioè per bravura in determinate aree di gioco. Ci saranno sicuramente molti modi per scoprirlo ma, non essendo l’obiettivo di partenza, volevo comunque usare i dati che avevo già raccolto.

Si tratta di statistiche aggregate dei primi 200 giocatori (alla data del 10 luglio 2018) sul cemento negli ultimi due anni e mezzo, contro avversari la cui classifica non supera il numero 300. Ho eliminato 11 giocatori con meno di 150 game al servizio, perché non sufficientemente rappresentativi in quel tipo d’intervallo.

La costruzione dei sottoinsiemi

Ho suddiviso i giocatori in sottoinsiemi rispetto a ciascuna delle sette seguenti statistiche espresse in percentuale: ace, doppi falli, prime in campo, punti vinti con la prima, punti vinti con la seconda, punti vinti alla risposta sulla prima, punti vinti alla risposta sulla seconda. Ho denominato i sottoinsiemi con lettere comprese tra la A la F e ripartito i giocatori in funzione del loro rendimento rispetto alle statistiche considerate:

  • il sottoinsieme A per giocatori con una deviazione standard dalla media maggiore di 1.5
  • il B con una tra 1.5 e 0.5
  • il C con una tra 0.5 e -0.5
  • il D con una tra -0.5 e -1.5
  • e il sottoinsieme F per giocatori con una deviazione standard dalla media maggiore di -1.5

(in molti dei sottoinsiemi, le statistiche dei giocatori non sono distribuite secondo una normale, quindi non abbiamo una gaussiana dalla forma simmetrica. In particolare, la percentuale di ace, di doppi falli, di prime in campo e di punti vinti alla risposta sulla seconda sono decisamente non lineari. Quello della percentuale di ace è un caso limite vista la presenza di un numero straordinario di artisti dell’ace, e solo Yoshihito Nishioka è incredibilmente peggiore della media).

In tutte le categorie tranne la percentuale di doppi falli, i valori più alti hanno determinato una A e quelli più bassi una F.

L’associazione dei sottoinsiemi

Con un metodo decisamente elementare, ho accostato le lettere che definiscono i sottoinsiemi per verificare eventuali somiglianze tra giocatori in termini di stile o rendimento. Ad esempio, John Isner rientra nella A per tutte le categorie relative al servizio, tranne le B nella percentuale di doppi falli, e nella F per le due categorie alla risposta. Seguendo il precedente ordine, Isner diventa ABAAAFF. Ci sono altri giocatori tra i primi 200 con una sequenza di ABAAAFF sul cemento? Nessuno!

Anzi, di 189 giocatori, solo 10 hanno la stessa sequenza di un altro giocatore e non ci sono tre giocatori che ne condividano una. La tabella elenca i giocatori con una sequenza in comune (tra parentesi).

Fritz - Bedene (BBDBCCC)
Tiafoe - Mayer (CCCCBCC)
Munar - Medvedev (CCCCCBB)
Mahut - Cuevas (CCCCCCD)
Millman - Nishikori (DBCCBBB)
Kohlschreiber - Kecmanovic (DBCCBCC)
Maden - Simon (DBCDCBA)
Jung - Ito (DCBDDBC)
Fabbiano - Albot (DCBFCBB)
Schwartzman - Majchrzak (DCCDCBA)

Degli strani accoppiamenti, eh? Se si includessero parametri come l’altezza o l’età, la maggior parte di questi giocatori verrebbe immediatamente separata. Non penso che quello di John Millman e Kei Nishikori sia un accostamento terribile in termini di stile, anche se è chiaro che non possiedono lo stesso talento (o, almeno, lo stesso rendimento). La coppia formata da Jaume Munar e Daniil Medvedev è assurda.

Parte della ragione di accoppiamenti così inusuali è legata alla presenza di soli cinque sottoinsiemi. Questo determina che un giocatore possa condividere il sottoinsieme di una determinata statistica con un altro giocatore, rispetto al quale però abbia poi un rendimento significativamente migliore, o peggiore. È un circuito dai margini ridotti. Ad esempio, Aljaz Bedene e Taylor Fritz sono molto ravvicinati in tutte le statistiche tranne una, i punti vinti alla risposta sulla prima, nella quale Bedene ha un valore più alto di 1.3% (pur rimanendo nello stesso sottoinsieme). Può sembrare poco, ma è una differenza importante dal punto di vista dei risultati. Non lo è però nello stile, anche se si trovano in due momenti della carriera decisamente diversi.

Normalizzare per il livello di competizione

Un aspetto più importante che spiega la stranezza di questi accoppiamenti è la differenza nel tipo di competizione affrontata. In altre parole, le statistiche della partita sono modellate non solo dalla bravura di un giocatore ma anche da quella dell’avversario. Prendiamo di nuovo Bedene e Fritz. Per quanto abbiano in ogni sottoinsieme un rendimento simile (solitamente, molto simile) la classifica media degli avversari di Bedene sul cemento negli ultimi due anni e mezzo è circa 88, contro 114 per gli avversari di Fritz. La classifica non è la definizione ultima della qualità di un avversario, ma tra 88 e 114 c’è una differenza notevole. Tranne che per Jung – Ito, il divario tra classifiche degli avversari in ciascuna coppia è enorme, con la massima distanza in Schwartzman – Majchrzak e Kohlschreiber – Kecmanovic.

Sarebbe interessante poter normalizzare le statistiche per verificarne il valore contro un avversario comune, per poi ricreare i sottoinsiemi e ripartire nuovamente i giocatori. Nessuno dei modi in cui ipotizzo si possa fare questo passaggio è di facile applicazione, ma ho proceduto ai fini di quest’analisi come segue.

Tipicamente, quando si vuole normalizzare una statistica nello sport, si considera il contesto di riferimento (nel baseball ad esempio, è il caso degli stadi o dei campionati, specialmente nel confronto fra epoche). Nel tennis, estrapolare il contesto è abbastanza difficile. Si può iniziare considerando solo una specifica superficie, sorge poi però il problema del “campionato” inteso in senso più ampio. Sulla carta, le partite riguardano avversari dell’intero universo tennistico.

Combinazioni uniche di giocatori

Nella realtà, per ciascuna finestra temporale, ogni giocatore affronta una combinazione unica di colleghi. Un campione di dati che include le partite dei primi 200 solo contro i primi 300 è di aiuto, ma in due anni e mezzo sul cemento, ogni giocatore dei primi 200 con un numero di partite rilevanti su questa superficie gioca all’incirca contro 50 giocatori dei primi 300, spesso molti di meno. Detto altrimenti, ogni giocatore fa un campionato a sé con un livello di qualità differente.

Il metodo di normalizzazione quindi (almeno per ora) è di stabilire gli avversari di un giocatore nei due anni e mezzo di partite sul cemento, calcolare la loro media cumulata (ponderata) in ciascuna statistica contro i primi 300 e confrontarla con la relativa media complessiva per i primi 200. Dovremmo così arrivare a conoscere il grado di bravura dell’universo di avversari di un giocatore – relativamente alla media per ciascuna statistica dei primi 200 – le cui variazioni positive o negative dalla media complessiva servono per correggere i valori della specifica statistica per il giocatore che stiamo studiando.

Ad esempio, se l’universo di avversari di Fritz è migliore della media nella percentuale di punti vinti alla risposta sulla prima di servizio, possiamo aumentare la sua percentuale di punti vinti sulla prima (la corrispondente statistica) a simulazione di quanto avrebbe ottenuto contro un avversario medio.

Opposizione tra statistiche

In questa sede ho tralasciato la percentuale di doppi falli e le prime in campo. Sono infatti entrambe statistiche su cui dovrebbe incidere la bravura alla risposta dell’avversario ma, a differenza degli altri cinque sottoinsiemi, non esiste una statistica direttamente opposta da rendere il calcolo relativamente agile. Alla percentuale di ace si oppone la percentuale di ace dell’avversario, alla percentuale di punti vinti sulla prima o sulla seconda si oppone la percentuale di punti vinti alla risposta sulla prima o sulla seconda dell’avversario, alla percentuale di punti vinti alla risposta sulla prima o sulla seconda si oppone la percentuale di punti vinti sulla prima o sulla seconda dell’avversario. Non so dire quantitativamente quanto la bravura dell’avversario alla risposta incida sulla percentuale di doppi falli e di prime in campo.

Dopo aver ricostruito i sottoinsiemi con le statistiche normalizzate, si ottengono 11 accoppiamenti di giocatori simili, tra cui un’occorrenza di tre giocatori simili tra loro, come mostrato nella tabella (tra parentesi, la sequenza).

Kecmanovic - Donskoy (CBCCBDC)
Smyczek - Fratangelo (CBCDCCC)
Fritz - Lacko - Seppi (CBDBCCC)
Kudla - Munar (CCCCCCB)
Tiafoe - Mayer (CCCCCCC)
Rosol - Barrere (CCCCDDC)
Novak - Mmoh (CDBDDCC)
Carreno Busta - Pella (DBBDBCB)
Maden - Mannarino (DBCDCBB)
Dzumhur - Albot (DCBFCBB)
Basilashvili - Koepfer (DDCDCCC)

Ammetto di non conoscere così bene tutti questi giocatori da poter dire ad esempio se Barrere ha uno stile in realtà dissimile a quello di Rosol ma, generalmente, la normalizzazione restituisce un elenco molto più ragionevole del precedente. Anzi, ci sono un paio di accostamenti davvero validi, tra cui Smyczek – Fratangelo, Fritz – Lacko – Seppi, Kudla – Munar e Novak – Mmoh. Non sembrano esserci coppie apertamente prive di senso, anche se Basilashvili è indirizzato verso il divorzio da Koepfer.

Noterete che solo una coppia sopravvive alla normalizzazione, cioè quella formata da Frances Tiafoe e Leonardo Mayer. Continua a essere strano saperli accostati in questo modo, ma le loro statistiche normalizzate sono più vicine di quelle non normalizzate, quindi non dipende solo dal fatto che rientrano nel sottoinsieme medio in tutte le statistiche considerate.

Indici di somiglianza

Spesso ho desiderato creare indici di somiglianza alla Bill James, trovando la difficoltà scoraggiante. Quelli di James per i giocatori baseball erano abbastanza chiari perché basati su statistiche non normalizzate. Lo stesso metodo nel tennis richiederebbe solo un aggiustamento dei punti associati alle differenze tra giocatori in varie statistiche. Ritengo però che non sia un sistema efficace. Ricordo di aver generato (molti anni fa) un foglio di calcolo che usava statistiche dei giocatori di baseball normalizzate per epoca e stadio, per poi applicare gli indici di somiglianza.

È invitante fare lo stesso nel tennis, ma la parte relativa alla normalizzazione è ben più complicata, per le ragioni di cui ho parlato. Essenzialmente, ogni giocatore è nel suo personale campionato. E il procedimento qui usato, molto noioso nonostante la semplicità, si riferisce solo a due anni e mezzo di partite, non alla durata di una carriera. Ma si può continuare a sognare.

Are these ATP players similar?