Fare previsioni sul migliore di sempre con l’aiuto di una scimmia

di Jeff Sackmann // TennisAbstract

Pubblicato il 3 agosto 2019 – Traduzione di Edoardo Salvati

Dopo la vittoria di Novak Djokovic a Wimbledon, l’attenzione al primato negli Slam è salita alle stelle. Roger Federer è a 20, Rafael Nadal a 18 e Djokovic, ora a 16, è di gran lunga il più forte del mondo sulla superficie dei prossimi due, gli US Open e gli Australian Open. La corsa è assolutamente aperta.

Fare previsioni nel tennis è difficile, anche cercando di pronosticare i risultati delle partite del giorno dopo. Sembra che i giocatori migliorino e peggiorino in modo del tutto casuale, rendendo difficile capire quale sarà la classifica anche a pochi mesi di distanza. Appassionati e tifosi amano perdersi in congetture su chi dei Grandi Tre s’impossesserà della vetta degli Slam, ma troppa incertezza non permette conclusioni definitive.

Si può pensare di costruire una sfera di cristallo con cui analizzare la problematica in modo rigoroso. Prendiamo ad esempio l’età di un giocatore, la probabile durata della carriera, gli eventuali infortuni, il rendimento negli ultimi quattro Slam, la classifica attuale, la bravura degli altri giocatori su ciascuna superficie e altri possibili parametri. Forse si riesce a determinare qualche numero che abbia un senso. E se invece ignorassimo tutto questo, adottando il modello più semplice in assoluto?

Vi presento la scimmia

I patiti di statistiche di baseball hanno familiarità con il sistema di proiezioni Marcel, così chiamato in onore della scimmia nella famosa serie televisiva “Friends”, perché “utilizza meno intelligenza possibile”. Nel caso del baseball, appena tre anni di risultati e una correzione per il fattore età. Non è immune da lacune, e sono evidenti i molti miglioramenti che si potrebbero apportare. Ma, come nel tennis, anche nel baseball le statistiche producono rumore. Per la maggior parte degli scopi, un sistema previsionale “di base” funziona tanto quanto uno più complesso. E, nel corso degli anni, Marcel ha fatto meglio di molti modelli considerevolmente più evoluti.

Applichiamo la logica del mammifero alle previsioni per gli Slam. Per prima cosa, riformulo leggermente la domanda alla ricerca di una risposta più diretta. Invece di prevedere i risultati Slam “in carriera”, mi concentro sulle vittorie per i prossimi cinque anni (includendo, quantomeno a occhio, il cammino completo dei Grandi Tre). Inoltre, nello spirito di Marcel, limito i dati a semifinali, finali e titoli Slam per gli ultimi tre anni, e l’età dei giocatori. Anzi, spengo subito una parte del cervello da scimmia, perché i risultati relativi agli Slam di tre anni fa possiedono scarso potere predittivo. Quindi l’elenco si riduce a due anni di semifinali, finali e titoli Slam, più l’età.

Una buona approssimazione

Il modello che ne consegue è molto valido! Per quei giocatori che hanno raggiunto una semifinale degli ultimi otto Slam, è in grado di prevedere il 40% della variazione nei titoli Slam dei prossimi cinque anni. In assenza di un modello iper-complesso e ottimale, non so esattamente dire dove si posizioni, ma per un orizzonte così lungo prevedere quasi la metà della variazione di risultati Slam giocatore per giocatore è, per me, una buona approssimazione.

Si pensi a tutto ciò che si ignora degli Slam per il 2022, ancor più per il 2024: chi è in attività, chi si è infortunato, chi è migliorato a sufficienza per essere considerato un favorito, quali promesse sono emerse dal nulla, e così via. Voglio dire che anche il modello più perfetto avrebbe molte carenze, quindi non serve stabilire uno standard troppo alto.

Andare dietro alla scimmia

L’algoritmo dei due anni più l’età è così semplice da poter essere eseguito sul retro di una scatola di sigarette (in omaggio al grande fisico Ettore Majorana, n.d.t.). Per il singolo giocatore, si contano le semifinali (vinte o perse), le finali (vinte o perse) e i titoli degli ultimi quattro Slam, e si fa lo stesso per i precedenti quattro. Si considera poi l’età all’inizio dello Slam successivo. Si parte con zero punti e si procede come segue:

  • si aggiungono 15 punti per ogni semifinale degli ultimi quattro Slam
  • si aggiungono 30 punti per ogni finale degli ultimi quattro Slam
  • si aggiungono 90 punti per ogni titolo degli ultimi quattro Slam
  • si aggiungono 6 punti per ogni semifinale dei precedenti quattro Slam
  • si aggiungono 12 punti per ogni finale dei precedenti quattro Slam
  • si aggiungono 36 punti per ogni titolo dei precedenti quattro Slam
  • se il giocatore ha più di 27 anni, si sottraggono 8 punti per ogni anno dopo il 27esimo
  • se il giocatore ha meno di 27 anni, si aggiungono 8 punti per ogni anno fino al 27esimo
  • si divide la somma per 100.

Un test con Djokovic

Finito! Proviamo con Djokovic. Negli ultimi quattro Slam (fino a Wimbledon 2019 incluso), ha vinto tre titoli e raggiunto una semifinale. Dei quattro precedenti, ne ha vinto uno. Agli US Open 2019 avrà 32 anni. Quindi:

  • +60 (15 punti per ognuna delle semifinali negli ultimi quattro Slam)
  • +90 (30 punti per ognuna delle tre finali negli ultimi quattro Slam)
  • +270 (90 punti per ognuno dei tre titoli negli ultimi quattro Slam)
  • +6 (6 punti per la semifinale a Wimbledon 2017)
  • +12 (12 punti per la finale a Wimbledon 2017)
  • +36 (36 punti per il titolo a Wimbledon 2017)
  • -40 (Djokovic ha 32 anni, si sottraggono 8 punti per ognuno dei cinque sopra ai 27).

Sommando, si ottiene 434 che, diviso per 100, genera una previsione di altri 4.34 Slam per Djokovic.

Un nuovo livello di provocazione nella discussione sul più forte di sempre

Avete la mia parola che si tratta di un’analisi totalmente disinteressata. Voglio solo sapere quanto un’accurata previsione Slam di lungo periodo, seppur ridotta all’osso, riesca a essere precisa. Non ho l’intento di farvi perdere i capelli che, temo di dovervi confessare, perderete comunque prima o poi.

Questo è il numero di Slam che il modello prevede per i Grandi Tre tra gli US Open 2019 e Wimbledon 2024:

  • Djokovic, 4.34
  • Nadal, 2.22
  • Federer, 0.26.

Non serve che mostri i calcoli per il passo successivo, ma sapete che non posso esimermi dal farli. Questa è la previsione per il totale in carriera:

  • Djokovic, 20.34
  • Federer, 20.26
  • Nadal, 20.22.

Siccome viviamo in un mondo dove non si vincono frazioni di Slam, abbiamo:

  • Djokovic, 20
  • Federer, 20
  • Nadal, 20

Molto bene…

Torniamo al modello

La previsione di 4.34 Slam per Djokovic è decisamente alta, in linea con un giocatore che ne ha vinti tre degli ultimi quattro. Per ogni anno dal 1971, ho calcolato le previsioni Slam di ciascun giocatore che ha raggiunto una semifinale nei due anni precedenti, un totale di più di 800 previsioni. Solo 14 sono superiori a 4.34, e molte riguardano i Grandi Tre. La tabella riepiloga le prime dieci.

Anno  Giocatore   Età   Previsione   Effettivo     
2008  Federer     26    6.38         5     
2007  Federer     25    5.86         7     
2016  Djokovic    28    5.20         6 *  
2005  Federer     23    4.91         11     
2011  Nadal       24    4.89         5     
2006  Federer     24    4.86         10     
2017  Djokovic    29    4.79         4 *  
2012  Djokovic    24    4.68         8     
1989  Wilander    24    4.65         0     
1988  Lendl       27    4.56         2

* conteggio che potrebbe ancora aumentare

Sono previsioni basate sui dati disponibili all’inizio dell’anno che compare nell’elenco. La prima riga, Federer 2008, si riferisce alla previsione per Federer dei titoli Slam per il periodo dal 2008 al 2012, in funzione del rendimento nel 2006 e 2007 e sull’età agli Australian Open 2008. Se avessi concepito il modello a quel tempo, la previsione si sarebbe attestata intorno alla mezza dozzina di Slam. Federer ne ha vinti cinque.

Ci sarà sempre molto rumore statistico agli estremi di modelli come questi. All’inizio del 2005, l’algoritmo avrebbe assegnato a Federer “solo” cinque dei successivi venti Slam. Invece, ne vinse ben 11. Faccio fatica però a credere che ci fosse stato anche un modello talmente ottimistico da indovinare la doppia cifra. L’edizione 1989 del modello invece sarebbe stata generosa in senso opposto con Mats Wilander, che nel 1988 aveva fatto tre quarti di Slam. Tristemente per lo svedese, un gruppetto di giovanissimi gli passò avanti e non raggiunse più nemmeno una finale.

Diamo uno sguardo anche alle successive dieci previsioni più rosee, e alla stima attuale per Djokovic.

Anno  Giocatore   Età   Previsione   Effettivo     
2010  Federer     28    4.48         2     
1981  Borg        24    4.47         1     
1996  Sampras     24    4.47         6     
1975  Connors     22    4.45         2     

Att.  Djokovic    32    4.34         0 *  

1980  Borg        23    4.28         3     
2013  Djokovic    25    4.24         7     
2009  Federer     27    4.20         4     
1995  Sampras     23    4.16         7     
2009  Nadal       22    4.12         8     
1979  Borg        22    4.09         5

* conteggio che potrebbe ancora aumentare

Di nuovo molto rumore, con risultati tra 0 e 8 Slam. Però, la media delle altre dieci previsioni in elenco è di 4.5 Slam, esattamente in linea con la precedente previsione per Djokovic.

Slam che mancano…

Il modello prevede che i Grandi Tre vincano circa sette dei prossimi venti Slam. Giustamente vi chiederete: e gli altri tredici? La scimmia considera solo i giocatori con una semifinale negli ultimi otto Slam, quindi la somma complessiva non dovrebbe fare venti. Esiste la possibilità che vincitori del 2023 e 2024 non siano ancora nel radar, e molti dei giovani sulla bocca degli opinionisti —come Alexander Zverev, Felix Auger-Aliassime e Daniil Medvedev — non hanno ancora raggiunto una finale Slam. La tabella riepiloga i giocatori per i quali è possibile fare una previsione.

Giocatore         Previsione Slam  
Djokovic          4.34  
Nadal             2.22  
Thiem             0.71  
Tsitsipas         0.63  
H. Chung          0.38  
Pouille           0.31  
Edmund            0.30  
Federer           0.26  
Del Potro         0.19  
Cecchinato        0.06  
----------------  ----  
TOTALE            9.40

* Per gli altri cinque giocatori con una semifinale 
dagli US Open 2017 la previsione di titoli Slam è zero

Sono consapevole che Lucas Pouille e Hyeon Chung non hanno più probabilità di vincere uno Slam di quante ne abbia Federer. Ma sono (relativamente) giovani e il modello riconosce a molti giocatori che hanno raggiunto una semifinale Slam all’inizio della carriera la capacità di gettare le basi sul quel successo.

Oltretutto, ci stiamo perdendo molti Slam. Se la previsione complessiva è corretta, quei giocatori vinceranno meno della metà dei prossimi venti Slam, lasciando almeno dieci titoli a giocatori che ancora devono arrivare a un quarto di finale Slam.

…e il fattore età

Se vi ricordate, ho proceduto a ritroso nelle previsioni per ciascun intervallo di cinque anni fino al 1971-1975. Su 44 anni dall’avvio delle stagioni tra il 1971 e il 2014, il modello tipicamente ha previsto che i giocatori di cui aveva dati — vale a dire quelli con semifinali Slam nei precedenti due anni — avrebbero vinto 13 dei successivi 20 Slam. In realtà, i giocatori nel radar hanno vinto in media 12 Slam nei cinque anni a venire.

È solamente negli ultimi anni che il numero totale di Slam previsti è sceso sotto i 10. La colpa è dell’età: come detto, per correggere per l’età si sottraggono 8 punti (0.08 Slam) per ogni anno oltre i 27. Per Djokovic e Nadal si tratta di una penalizzazione di 0.4 Slam, mentre sono 0.8 gli Slam cancellati dalla futura bacheca di Federer. Accade che il modello prevede il calo di rendimento dei Grandi Tre, e al contempo non ci sono molti giovani (come Pouille e Chung) nell’elenco in grado di compensarlo.

Nuove curve d’invecchiamento

L’interpretazione delle previsioni per i Grandi Tre alla luce degli Slam “mancanti” dipende da un paio di elementi:

  • la curva d’invecchiamento per le mega stelle è cambiata? I 30 sono i nuovi 25, o i 32 i nuovi 27?
  • la nuova generazione di giocatori riuscirà a essere forte abbastanza in fretta da scardinare la presa dei Grandi Tre?

C’è abbondanza di prove a dimostrazione di una modifica della curva d’invecchiamento, dovremmo cioè aspettarci risultati migliori dai trentenni di questa epoca rispetto a quanto accadeva negli anni ’80 e ’90. Questo ridurrebbe gran parte del divario. Ipotizziamo di spostare l’età di massimo picco a 31 anni, quattro in più rispetto alla media maschile di 27 per l’era Open. Così facendo aggiungiamo 0.32 Slam alla previsione di ogni giocatore, probabilmente aumentando di uno il computo previsto per i Grandi Tre. Complessivamente, vorrebbe dire portare il totale della precedente tabella a un po’ più di tre Slam addizionali, avvicinandosi alla media storica di 13 Slam. La variazione di età non sbroglia però la matassa dei Grandi Tre, perché li riguarda allo stesso modo. Solo, essere in parità a 21 Slam diventa leggermente più probabile che esserlo a 20 Slam.

La difficoltà di prevedere il livello di competizione

La seconda domanda è quella più importante, ma anche la meno pronosticabile. Pur risolvendo l’ostica incombenza di arrivare a conoscere il rendimento del singolo giocatore tra tre, quattro o cinque anni (e a volte, come nel caso di Nick Kyrgios, anche domani), rimarremmo comunque con l’ancora più difficile questione di prevedere il livello della competizione.

Nel 2003, la scimmia sarebbe stata convinta che i giocatori di vertice del momento, quelli che avevano raggiunto semifinali Slam nel 2001 e 2002, avrebbero raccolto 13 Slam tra il 2003 e il 2007. Erano 2.5 per Lleyton Hewitt, più uno a testa per Thomas JohanssonAlbert CostaPete SamprasMarat SafinDavid NalbandianJuan Carlos Ferrero. Questi sette giocatori ne hanno poi vinti solo due. L’intero gruppo di venti giocatori meritevoli di previsioni alla vigilia degli Australian Open 2003 ne ha vinti solo 3.

Non riusciremo probabilmente mai a stabilire con esattezza la bravura di quel gruppo rispetto ad altre epoche. La certezza che abbiamo è che nessuno è stato forte quanto Federer tra il 2003 e il 2005 e che, alla fine del periodo di cinque anni, anche Nadal è entrato a dominare la scena (solo Nalbandian era tra i primi 10 in classifica alla fine del 2007). La generazione degli Zverev/Tsitsipas/Auger-Aliassime/etc non raggiungerà l’apice toccato dai Fantastici Quattro, ma l’andamento dei prossimi venti Slam dipenderà più da loro che dalla (relativamente) più prevedibile traiettoria di carriera di Djokovic, Federer e Nadal.

Non ci rimane che un mucchio di incertezze già note ed errori con una parabola più ampia di un rovescio steccato di Federer. Però, rispetto a quanto sappiamo, la vetta della classifica Slam di tutti i tempi diventerà ancora più affollata.

Così parlo la scimmia.

GOAT Races: Forecasting Future Slams With a Monkey