Bravura al servizio e alla risposta rispetto alla superficie per il circuito maschile dal 1991

di Martin Ingram // Martin Ingram’s Blog

Pubblicato il 25 aprile 2020 su Martin Ingram’s Blog – Traduzione di Edoardo Salvati

In un precedente articolo, ho scritto della possibilità di costruire un modello di analisi e stima della bravura al servizio e alla risposta dei giocatori a partire dal 1991, ipotizzando che rimanesse costante a prescindere dalla superficie. Andava bene come primo approccio, ma gli appassionati sanno che la superficie ha un ruolo determinante nel tennis. Ad esempio, Rafael Nadal, per quanto comunque in grado di dominare su qualsiasi campo, è particolarmente letale sulla terra battuta, avendo vinto 12 dei 19 Slam al Roland Garros. Pete Sampras invece ha vinto 7 dei 14 Slam a Wimbledon, e non è mai andato oltre la semifinale al Roland Garros.

Differenze rilevanti

Per analizzare l’incidenza della superficie sulla bravura al servizio e alla risposta dei giocatori, ho deciso di adattare un altro modello, che è simile al precedente, ma considera anche la variazione della bravura in funzione della superficie. Prendo quindi il cemento come superficie di riferimento per poi stimare il maggiore o minore rendimento al servizio e alla risposta sull’erba e sulla terra. Manca all’appello il sintetico, che era molto diffuso negli anni ’90, ma sul quale dal 2010 non si è praticamente più giocato. Non l’ho quindi considerato, anche se sarebbe interessarne farne oggetto d’indagine dettagliata in futuro.

Gli specialisti

Possiamo partire dal vedere quanto diversi giocatori riescono a migliorare sulle varie superfici. Ho sommato il miglioramento al servizio e alla risposta sulla terra e sull’erba e l’ho confrontato con quello sul cemento, per poi rappresentarli nello stesso grafico.

IMMAGINE 1 – Variazione complessiva al servizio e alla risposta rispetto al cemento per i primi 50 giocatori dal 1991

Un modo per interpretare il grafico è dividerlo in quattro quadranti, come ho indicato agli angoli di ciascuno. Che significato ha la scala riportata sui due assi? Per vincere una partita sono cruciali sia la bravura al servizio che quella alla risposta. Fare meglio al servizio si traduce in maggiore difficoltà dell’avversario a ottenere un break, e fare meglio alla risposta si traduce in maggiori possibilità di strappare il servizio all’avversario. Un giocatore potrebbe servire meglio sull’erba che sul cemento, ma se rimane indietro nella risposta più di quanto migliori al servizio, complessivamente il suo rendimento diminuisce. La somma dei due fattori esprime dunque una sorta di miglioramento netto, che considera sia il servizio che la risposta.

Preferenza per l’erba

Il quadrante in alto a sinistra contiene quei giocatori che giocano meglio sull’erba che sul cemento, ma che fanno peggio sulla terra. Si distingue tra tutti Sampras, la cui efficacia al servizio e alla risposta è tra le più enfatizzate dall’erba (più del 2.5%), ma anche la più sfavorita sulla terra (-0.05). Troviamo qui molte leggende sull’erba, tra cui Boris Becker e Stefan Edberg, con insieme cinque titoli a Wimbledon.

Preferenza per la terra

Il quadrante in basso a destra è invece quello degli specialisti della terra. Sono giocatori che giocano meglio sulla terra che sul cemento, ma che fanno peggio sull’erba. Spiccano Guillermo Coria e Dominic Thiem. Nadal è un caso interessante: come si sapeva, la terra lo favorisce nettamente, ma non è altrettanto svantaggiato sull’erba come, ad esempio, Coria. Forse non è poi così sorprendente visto che Nadal ha vinto due volte Wimbledon, anche se in un paio di occasioni è uscito nei primi turni.

Preferenza per il cemento

C’è più varietà rispetto alle attese negli altri due quadranti. Il quadrante in basso a sinistra contiene i giocatori che il modello presuppone abbiano giocato meglio sul cemento. È un po’ curioso quindi trovare tre vincitori del Roland Garros, Andre Agassi, Michael Chang e Ivan Lendl. Credo che Agassi possa avere un senso: ha vinto 6 degli 8 Slam sul cemento. Lendl è un caso più intrigante. Anche se ha dominato nel corso degli anni ’80 al Roland Garros, con 3 titoli su 5 finali, ha però saltato l’edizione del 1990 e 1991 nel tentativo di vincere Wimbledon. Poi ha perso al secondo turno nel 1992 e al primo turno nel 1993 e 1994. Sembra che avesse smarrito del tutto la motivazione. Più difficile è trovare una spiegazione per Chang, che è poi arrivato di nuovo in finale nel 1995, ma che il modello considera più efficace sul cemento.

Preferenza per erba e terra

Infine, i giocatori del quadrante in alto a destra hanno avuto maggiore preferenza per la terra e per l’erba rispetto al cemento. Si tratta di effetti relativamente ridotti di quelli associati agli specialisti della terra e dell’erba e sembra che siano Richard Gasquet e Philipp Kohlschreiber a posizionarsi meglio in questo quadrante.

Servizio e risposta in termini di singola superficie

Come intervengono queste preferenze sui grafici relativi alla singola superficie? Per non eccedere in lunghezza, lascio spazio ad alcune considerazioni riepilogative, a seguire.

IMMAGINE 2 – Stima della somma di bravura al servizio e alla risposta sul cemento per i primi 50 giocatori dal 1991

IMMAGINE 3 – Stima della somma di bravura al servizio e alla risposta sulla terra per i primi 50 giocatori dal 1991

IMMAGINE 4 – Stima della somma di bravura al servizio e alla risposta sull’erba per i primi 50 giocatori dal 1991

Alcune considerazioni

Per Sampras l’erba faceva davvero la differenza. Se fosse in attività in questi anni, sarebbe uno dei favoriti per vincere Wimbledon, con una bravura complessiva appena inferiore a quella di Roger Federer e Novak Djokovic e in linea con Andy Murray. Non entra però nemmeno tra i primi 50 sulla terra, è proprio una superficie che non gli va a genio!

All’opposto, Nadal è uno schiacciasassi sulla terra, come risaputo. In modo particolare, si apprezza la sua bravura alla risposta, nessuno riesce a reggere il passo neanche lontanamente.

L’erba sembra essere la superficie elettiva dei giocatori degli anni ’90. Oltre a Sampras, Edberg raggiunge valori stimati alti, nonostante si stesse avviando verso la fine della carriera, e nei primi 50 figurano diversi giocatori al massimo della forma negli anni ’90. Pochi tra loro però compaiono tra gli specialisti della terra, e ho l’impressione che sia dovuto anche all’evoluzione tecnologica di corde e racchette.

I Fantastici Quattro si distanziano dagli altri su tutte le superfici. Nadal ha un margine evidente sulla terra rispetto agli altri tre, e Murray è più competitivo sull’erba. Federer e Djokovic sono ravvicinati, con Djokovic ad avere un leggero vantaggio sulla terra e sul cemento, ma lasciando forse a Federer un vantaggio sull’erba. Nadal è appena dietro sia sul cemento che sull’erba.

Cum grano salis

Come ho precisato già nella prima analisi, è importante sempre muoversi con raziocinio. Ad esempio, il confronto tra gli anni ’90 e il decennio scorso può non essere omogeneo per via dello sviluppo dei materiali. Inoltre, la bravura al servizio e alla risposta è valutata in termini di media in carriera, e i valori di picco potrebbero far emergere altri risultati, come Djokovic che al suo massimo è in grado di creare problemi o battere Nadal sulla terra.

ATP Serve & Return skills by surface since 1991

Bravura al servizio e alla risposta per il circuito maschile

di Martin Ingram // Martin Ingram’s Blog

Pubblicato il 12 aprile 2020 – Traduzione di Edoardo Salvati

Sono rimasto sorpreso di scoprire che su Tennis Abstract di Jeff Sackmann le statistiche al servizio di ogni giocatore, come i punti vinti sulla prima, sulla seconda e così via, risalgono agli inizi degli anni ’90. È così possibile conoscere i dati relativi a Pete Sampras ad esempio. La sorpresa nasce dal fatto che la fonte che consulto abitualmente, OnCourt, arriva fino a circa il 2003.

Mi ha incuriosito quindi l’idea di adattare una metodologia classica di analisi a questi dati, prendendo spunto dal lavoro Tristan Barnett e Stephen Clarke della School of Mathematic Science, Swinburne University, Australia, forse i primi ad averne parlato in questo senso. Ogni giocatore è interpretato sulla base della bravura al servizio e alla risposta. La probabilità di vincere un punto al servizio diventa una funzione di quel tipo di abilità:

p(vittoria_punto_servizio) = bravura_servizio – bravura_risposta + intercetto

L’intercetto serve a modellare la probabilità media di vincere il punto al servizio, che sul circuito maschile è di circa il 62%. Nella pratica, il calcolo è più complicato perché la probabilità deve avere un valore compreso tra zero e uno, e l’equazione non lo garantisce. Per ovviare al problema, serve applicare all’elemento di destra dell’equazione una funzione chiamata logit inversa. Conosciuta anche come funzione sigmoide, assicura che il valore finale sia tra zero e uno. È lo stesso concetto di fondo della regressione logistica, nel caso vi sia più familiare, ma non è comunque fondamentale alla comprensione del resto dell’articolo.

Categorie di giocatori

Conta di più invece il fatto che bravura al servizio e alla risposta sono due indicatori generali per creare categorie di giocatori. A un estremo troviamo il giocatore eccezionale al servizio ma scadente alla risposta, come Ivo Karlovic. All’opposto, un giocatore come David Goffin, che è bravissimo alla risposta ma limitatamente efficace al servizio. La maggior parte dei giocatori si posiziona all’interno di questo intervallo. Quello che importa per la vittoria delle partite è la somma della bravura al servizio e alla risposta. Se entrambe sono alte, è probabile che il giocatore riesca a fare il break all’avversario e a tenere il suo servizio, cioè una combinazione vincente.

Per una stima dell’abilità al servizio e alla risposta serve conoscere, per ogni partita, quanti punti ciascun giocatore ha giocato al servizio e quanti ne ha vinti. A questo proposito, i dati su Tennis Abstract sono estremamente preziosi perché permettono di tornare indietro fino agli anni ’90. Ma quanto indietro? L’immagine 1 mostra il numero di partite disponibili per anno.

IMMAGINE 1 – Partite del circuito maschile per anno con dati a disposizione su Tennis Abstract

Una manciata di partite è del 1990, poi per gli anni a seguire ci sono in media tra le 2500 e le 3500 partite. È interessante notare come il numero diminuisca nel tempo. Non sono sicuro del motivo, ma cercherò di capirlo in un’altra occasione. La caduta verticale nel 2020 è invece facilmente spiegabile con il fatto che l’anno non è ancora terminato e che molti tornei sono stati cancellati.

In questo modo dovremmo essere in grado di arrivare a stime piuttosto attendibili per i giocatori attivi dal 1991 in avanti. Questo ci permette di farlo per giocatori come Sampras e Andre Agassi, sfortunatamente non per Bjorn Borg e John McEnroe, ad esempio.

I 50 giocatori più bravi dal 1991

Il modello adattato al campione di dati disponibile è abbastanza semplice. Utilizzo un singolo parametro di bravura al servizio e alla risposta per giocatore, che determina una media su tutta la carriera oltre che su tutte le superfici. Dovremmo ottenere un’indicazione generale ma non necessariamente una rappresentazione della bravura dei giocatori nel picco massimo. Tenendo a mente questo aspetto, ecco i risultati.

IMMAGINE 2 – Stima della somma di bravura al servizio e alla risposta per il circuito maschile dal 1991

Il grafico mostra i 50 giocatori con la stima più alta della somma tra bravura al servizio e alla risposta, che dovrebbe dare indicazione dei giocatori più forti in assoluto. Per rendere gli assi più interpretabili, ho convertito la bravura in rendimento atteso contro un avversario medio, vale a dire un giocatore con bravura al servizio e alla risposta uguale a zero.

Emergono molti spunti interessanti, ed è il bello di questo tipo di grafici, come sottolineava sempre il mio relatore per la tesi del Master, Will Knottenbelt. Per prima cosa, osserviamo gli estremi. Milos Raonic possiede la stima più alta di bravura al servizio tra questi giocatori di vertice, mentre è Guillermo Coria ad avere la più bassa. Ci si attende che Raonic vinca almeno il 75% dei punti al servizio contro un giocatore medio, rispetto al 65% di Coria. È curioso anche, come rovescio della medaglia, che Coria è tra i migliori alla risposta, mentre Raonic è tra i peggiori. Alla fine, si trovano sulla stessa linea tratteggiata, perché hanno quasi la stesso totale di bravura al servizio e alla risposta.

Incertezze sulla correlazione

Complessivamente, c’è una forte correlazione negativa. È una correlazione che emerge solo rispetto ai giocatori di vertice. Se si considerano tutti i giocatori, la bravura sui due fronti non presenta correlazione sostanziale. Non mi sono ancora fatto un’opinione precisa. Qualcuno mi ha suggerito analogie con il pensiero di Vilfredo Pareto sull’efficienza allocativa: forse è difficile migliorare un aspetto del gioco senza peggiorarne un altro. Ad esempio, l’altezza di Raonic probabilmente facilita un servizio così dominante; se fosse più basso, magari avrebbe una risposta migliore, ma poi anche il servizio ne soffrirebbe. È comunque qualcosa su cui riflettere.

La maggior parte dei giocatori si trova al di sotto della linea che unisce idealmente, per somma di bravura al servizio e alla risposta, Ranoic e Coria. Alcuni, come Stefan Edberg e certamente Ivan Lendl, sono stati con probabilità penalizzati, visto che il massimo rendimento è arrivato prima del 1991. Ad esempio, mi sarei aspettato che Edberg fosse più forte al servizio rispetto alla posizione nel grafico. Il gruppo più esclusivo di giocatori si posiziona al di sopra della linea tra Raonic e David Ferrer. Si inizia con un’altra linea ideale in cui figurano Andre Agassi, Juan Martin Del Potro, Sampras e Andy Roddick, e poi Andy Murray un po’ più in alto. Sampras e Raonic sono dal lato del servizio potente, mentre Murray e Agassi da quello della risposta, come ci si poteva aspettare.

Lassù sulla vetta, i soliti noti

Infine, molto in alto e lontano, ci sono i Grandi Tre: Roger Federer, Novak Djokovic e Rafael Nadal. Djokovic e Nadal condividono quasi lo stesso punto del grafico. Sono i migliori alla risposta, con una percentuale attesa di punti vinti contro un giocatore medio di quasi il 50%, e non sono troppo distanti dall’esserlo anche al servizio. Chiariamo meglio il concetto: è evidente che Nadal e Djokovic non hanno il servizio più incisivo del circuito. Eppure, il modello suggerisce che la loro efficacia nel vincere punti al servizio è molto simile a quella di Richard Krajicek, probabilmente per come sanno condurre lo scambio una volta che la palla è in gioco. La somma complessiva della bravura di Federer raggiunge il livello di Nadal e Djokovic, con un servizio più efficace ma una risposta non altrettanto solida.

Viene da commiserare Roddick, Del Potro e Murray i quali, pur con una stima di bravura complessiva del calibro di Agassi e Sampras, hanno vinto “solo” uno Slam (Roddick e Del Potro) o tre (Murray), contro gli otto di Agassi e i quattordici di Sampras. È importante però sottolineare le limitazioni del modello. Le componenti della bravura di un giocatore potrebbero essere cambiate nel corso del tempo, rendendo più complesso confrontare diversi periodi. O forse Agassi e Sampras hanno avuto una carriera più altalenante, non riflettendo con precisione il valore della loro bravura. Inoltre, Nadal, Federer e Djokovic non si sono ancora ritirati e prestazioni future potrebbero abbassarne la media. D’altro canto, può essere anche che Federer, Djokovic e Nadal sono effettivamente di un’altra dimensione e Roddick, Del Potro e Murray sono stati semplicemente sfortunati a doverli affrontare.

Quale sia il verdetto finale, spero che abbiate gradito quest’analisi di alcuni dei giocatori più forti degli ultimi decenni.

Historical ATP Serve & Return skills

Le partite Slam al quinto set da non perdere

di Martin Ingram // Martin Ingram’s Blog

Pubblicato il 29 marzo 2020 – Traduzione di Edoardo Salvati

Prendendo spunto da una precedente analisi di Stephanie Kovalchik, mi sono chiesto, in assenza di tennis giocato, quali sono le partite storiche da riguardare. Anche io ho elaborato un metodo per classificare le più interessanti e, visto che il mio risultato è diverso, vale la pena dedicare un approfondimento specifico.

Ho deciso di classificare le partite sulla base della somma delle valutazioni Elo dei due giocatori, con un modello Elo che considera il diverso rendimento a seconda della superficie e il margine di vittoria inteso come differenziale di game. Ogni partita è poi espressa in termini di valutazione totale ottenuta. Un dettaglio tecnico: siccome l’intervallo di valutazioni varia da superficie a superficie tra quelle della mia versione Elo, un valore di 2400 sulla terra battuta è meno significativo dello stesso valore sul cemento. Per questo il criterio adottato è l’indice-z del valore Elo complessivo della partita, indice che tiene conto della variazione dei valori per superficie. Ad esempio, se un giocatore ha una valutazione Elo di 2400 e l’altro di 2200 e la deviazione standard delle valutazioni è 100, l’indice-z viene calcolato come:

(2400−1500) + (2200−1500) / √ (1002 + 1002) = 11.3

mentre con una deviazione standard di 200 si otterrebbe un indice-z di 5.7. Ho considerato solo le partite Slam andate al quinto e solo quelle dal 1980, visto che trovare video per partite più vecchie può essere difficile (o, se esistono, sono spesso poco fruibili).

Che partite emergono con questo metodo?

Il valore totale Elo dovrebbe essere garanzia di una partita di qualità. Se il valore Elo di entrambi i giocatori è molto alto, significa che, almeno in linea teorica, hanno un rendimento considerevolmente superiore a quello di un giocatore medio, generando un indice-z altrettanto elevato. Concentrarsi solo sulle partite che hanno raggiunto il quinto set dovrebbe favorire la presenza di sfide equilibrate. Con il senno di poi però, non sono sicuro che questo sia abbastanza, perché per alcune partite il risultato sembrava già indirizzato nonostante la necessità di un quinto set. Ho anche provato a limitare la selezione a quelle partite con una differenza minima nelle valutazioni pre-partita, ma ci sto ancora lavorando. In ogni caso, senza ulteriori indugi, a voi la lista!

IMMAGINE 1 – Elenco delle migliori partite Slam al quinto set dal 1980 a oggi in ordine decrescente per indice-z

Mi colpisce questa selezione. Alcune riflessioni:

  • se siete dei tifosi di John McEnroe, vi rallegrerete, perché è protagonista di 7 delle prime quindici partite! C’è anche la famosa finale di Wimbledon 1980 contro Bjorn Borg, ma è curioso che abbia una valutazione superiore un’altra finale contro Borg sempre nello stesso anno, quella degli US Open 1980, questa volta vinta da McEnroe.
  • con cinque apparizioni, anche Novak Djokovic è ben rappresentato. Sono contento che tra queste ci sia la finale del Roland Garros 2013 contro Rafael Nadal. Ricordo, mentre la guardavo, di essere rimasto in ammirazione totale del livello di tennis
  • tutte le partite sono alternativamente dei primi anni ’80 o degli anni 2010, evidenziando la preferenza di questo metodo per quei due periodi
  • il metodo considera Borg imbattibile sulla terra nel 1981. La sua valutazione Elo prima della finale contro Ivan Lendl era di 2901! In confronto, quella di Nadal contro Djokovic nel 2013 era “solo” di 2534. Se si considera il record di Borg sulla terra, non è poi così privo di senso. La formula tiene conto del margine di vittoria e Borg raramente perdeva un set, vincendo spesso per 6-0. Alla vigilia di quella partita doveva sembrare inavvicinabile, anche se poi Lendl ha perso solo al quinto set. E quella sarà l’ultima partita di Borg a Parigi
  • penso che non ci siano dubbi che le partite dell’elenco sono tutte avvincenti. Sorprende forse di più l’assenza di altre che ci si sarebbe aspettato di trovare, come la finale di Wimbledon 2008 tra Nadal e Roger Federer. È utile ribadire che è uno dei vari metodi possibili e che ciascun metodo implica scelte soggettive che determinano quali partite rientrano nella selezione.

Personalmente, vorrei rivedere le sfide tra McEnroe e Jimmy Connors, ma spero che ci siano partite d’interesse per ognuno.

Grand Slam five-setters to watch

Il tennis è diventato più prevedibile? Un’indagine con un modello tematico

di Martin Ingram // Martin Ingram’s Blog

Pubblicato il 23 marzo 2020 – Traduzione di Edoardo Salvati

Visto che il tennis è sospeso, ho pensato che fosse interessante cercare di individuare alcune tendenze nell’evoluzione degli stili di gioco. È da tempo che avevo intenzione di applicare un modello diffuso nel campo dell’apprendimento automatico, il Latent Dirichlet Allocation (LDA), ai dati derivanti dal Match Charting Project. Per chi non lo conoscesse, il Match Charting Project è uno sforzo colossale di diversi volontari che codificano con minuzia la sequenza dei colpi di ciascuno scambio di un’intera partita di tennis. Rappresenta di gran lunga la più completa risorsa informativa sulle partite. Gli altri database pubblicamente disponibili infatti si limitano, nei casi migliori, a descrivere la sequenza dei colpi senza fornire altri dettagli sullo scambio.

Il modello LDA nell’apprendimento automatico

Che cos’è il Latent Dirichlet Allocation? Si tratta di un modello inizialmente concepito per trovare specifici temi o categorie in un insieme di documenti scritti in linguaggio naturale. Costituisce la base di analisi del LDA una serie di documenti, come potrebbero essere degli articoli del New York Times. Ciascun documento è identificato dalla frequenza con cui ogni parola, o termine, è citata. Ad esempio, se un documento consiste solo nella frase “ciao ciao arrivederci”, viene identificato con (ciao, 2), (arrivederci, 1), perché ciao compare due volte e arrivederci una.

L’idea centrale del LDA è il tema. Un tema definisce quanto ogni termine è probabile. Negli articoli del New York Times, si può pensare che ricorra un tema “politica” che assegna un’alta probabilità a parole come “politico”, “congresso”, “elezione”, e così via.

Si può naturalmente pensare che ogni documento è generato da un singolo tema. È una modalità legittima, e darebbe luogo a un modello combinato. Tuttavia, molti documenti contengono molti temi. Ad esempio, è ipotizzabile che il tema “politica” appaia spesso in articoli che hanno a che fare anche con l’economia. Il LDA ne tiene conto modellando ogni articolo come un misto di temi: un documento potrebbe essere 60% economia e 40% politica. Questo significa che ogni parola arriva al 60% probabilmente dal tema economia e al 40% dal tema politica.

Come si comporta il LDA nella pratica?

In presenza di un insieme di documenti con il rispettivo conteggio delle parole e con il numero di temi da cercare, il LDA è in grado di trovare quei temi – come sono distribuiti rispetto alle parole – e quanto è probabile che ogni documento vada ricollegato a un tema, quindi come sono distribuiti rispetto ai temi.

Il LDA per il Match Charting Project

In che modo il LDA può essere applicato al Match Charting Project? L’interrogativo primario riguarda a quali elementi del tennis corrispondono le “parole” e i “documenti”. La risposta non è così scontata, e ho considerato diverse possibilità. Quella da cui alla fine sono partito, principalmente perché era la più facile grazie al preciso lavoro di riordino dei dati da parte di Jeff Sackmann, è la seguente:

  • una parola equivale a un tipo di colpo. Il Match Charting Project prevede 17 tipi di colpi base, come dritto e rovescio a rimbalzo piatto o in topspin, dritto e rovescio tagliato, volée di dritto e così via, per citarne alcuni (di più su questo a breve)
  • ogni documento equivale a una combinazione giocatore-partita. Ad esempio, una partita tra Roger Federer e Rafael Nadal determina due documenti, uno per Federer, identificato da quanto spesso colpisce ogni colpo, e un altro per Nadal.

Pur nella convinzione che sia un punto di partenza ragionevole, ci sono ovvi margini di miglioramento. Un’aggiunta relativamente semplice è quella di procedere a un’ulteriore categorizzazione di tutti i colpi in funzione della direzione in cui sono stati colpiti. Un’altra idea può essere quella di raggruppare i colpi in sequenze di due colpi consecutivi: ad esempio (dritto a rimbalzo incrociato piatto o in topspin, dritto a rimbalzo incrociato piatto in topspin) indica che il giocatore ha ricevuto un dritto a rimbalzo incrociato piatto o in topspin e ha risposto con lo stesso tipo di dritto. Si potrebbero integrare così informazioni sullo sviluppo di uno scambio. In ogni caso, era il sistema più facile da applicare e, come spero sarete d’accordo, produce già dei risultati piuttosto interessanti.

La finale di Wimbledon 2008

Per illustrare l’idea, quale migliore esempio se non la rappresentazione dell’incredibile finale di Wimbledon 2008 tra Federer e Nadal?

IMMAGINE 1 – Rappresentazione secondo il metodo LDA della finale di Wimbledon 2008

Ogni colonna rappresenta qui un “documento” e ogni fila una “parola”. Come ci si poteva aspettare, la maggior parte dei colpi sono stati colpi a rimbalzo, e la maggior parte di questi dal lato del dritto. Federer ha colpito più rovesci tagliati ed è venuto a rete più spesso, mentre Nadal ha colpito più dritti. Tornerò su questo esempio più avanti nel riepilogo dei risultati ottenuti con il LDA.

Complessivamente, al momento della stesura, ci sono 4938 documenti partite-giocatore, relativi quindi al circuito maschile. Non stupisce che i giocatori più famosi sono anche quelli con più occorrenze, il solo Federer ne ha ben 417, ma si tratta comunque di una risorsa fondamentale. E il mio vivo ringraziamento va a tutti i volontari che hanno contribuito!

Aggiustamento del LDA

Nell’utilizzo del LDA, una scelta obbligata è quella del numero di temi da cercare. Non mi sono soffermato a lungo su questo aspetto. Come prima scelta, ho cercato di prendere il numero di elementi con la minore “perplessità”, un numero che ho facilmente calcolato con l’implementazione scikit-learn di Python che stavo usando. È emerso che quattro temi valutati sull’insieme di dati completo restituiscono il risultato migliore. Mi aspettavo un numero più alto, e non mi sento del tutto sicuro del mio metodo di selezione dei temi. Il timore è che quattro temi rischiano di essere una semplificazione eccessiva, anche se un numero ridotto ha il vantaggio di una maggiore immediatezza interpretativa contro, ad esempio, a dieci temi. Per ora quindi mantengo i quattro temi.

Temi

Questi sono i quattro temi che ho trovato, insieme alla loro distribuzione di probabilità rispetto ai colpi. Per facilitare la lettura, ho assegnato un nome a ciascuno. Per evitare eccessiva confusione, ho elencato solo i colpi con la probabilità più alta.

Tema 1, “Colpi da fondo”

54% rovesci a rimbalzo piatti o in topspin, 38% dritti a rimbalzo piatti o in topspin

Tema 2, “Colpi a rete”

28% volée di rovescio, 24% volée di dritto, 18% rovesci a rimbalzo piatti o in topspin, 10% dritti a rimbalzo piatti o in topspin, 6% smash normali, 4% demi-volée di rovescio, 3% rovesci tagliati, 3% demi-volée di dritto, 3% pallonetti di rovescio

Tema 3, “Scambio di dritto”

84% dritti a rimbalzo piatti o in topspin, 7% rovesci a rimbalzo piatti o in topspin, 4% rovesci tagliati

Tema 4, “Rovescio tagliato”

68% rovesci tagliati, 17% dritti a rimbalzo piatti o in topspin, 6% dritti tagliati, 3% rovesci a rimbalzo piatti o in topspin.

Cosa ne è di Federer e Nadal a Wimbledon 2008?

IMMAGINE 2 – Distribuzione di probabilità rispetto ai colpi per i quattro temi individuati per la finale di Wimbledon 2008

Osserviamo che il 54% dei colpi di Federer e Nadal rientrano nel tema Colpi da fondo, senza che vi sia in questo caso differenza tra i due. Federer è ricorso al tema Colpi a rete il 6% delle volte, mentre Nadal non lo ha mai praticamente fatto, con la probabilità di quel tema arrotondata a zero. Federer ha anche fatto più uso del tema Rovescio tagliato di Nadal. È interessante come Nadal è stato capace di fare intenso ricorso al tema dello Scambio di dritto. Infine, Federer ha usato il tema Rovescio tagliato più spesso di Nadal.

Giocatori rappresentativi di ciascun tema

Per una maggiore comprensione, l’immagine 3 mostra i giocatori con la più alta probabilità media di utilizzo di ciascun tema. Sono considerati solo i giocatori con almeno 20 partite nel database del Match Charting Project.

IMMAGINE 3 – Giocatori con la più alta probabilità media per tema

Quattro dei primi cinque giocatori nel tema Colpi da fondo hanno avuto i loro periodo più redditizio negli anni 2000 e negli anni 2010, come era pensabile considerato il dominio del gioco da fondo nel tennis contemporaneo. Per questi giocatori la maggior parte della distribuzione dei colpi è nel tema Colpi da fondo, con qualche colpo nel tema Scambio di dritto.

Una vera testimonianza che il gioco al volo è un retaggio del passato arriva dai giocatori in cima all’elenco del tema Colpi a rete. Tutti e cinque hanno vinto Wimbledon almeno una volta. Patrick Rafter si mette in evidenza per un uso cospicuo del rovescio tagliato, mentre sembra che Boris Becker e Goran Ivanisevic fossero più disposti a scambiare anche da fondo rispetto agli altri tre.

I primi cinque nel tema Scambio di dritto sono tutti in attività. Milos Raonic appare come il più prone a colpire di dritto. Feliciano Lopez si fa notare per tagliare i colpi più degli altri, con Grigor Dimitrov al secondo posto in questo senso. Nadal usa quasi esclusivamente i temi Colpi da fondo e Scambio di dritto.

Ivo Karlovic è in cima al tema Rovescio tagliato. Hai mai colpito un rovescio a rimbalzo piatto o in topspin? Da quanto si vede in partita, non ne fa certamente un’abitudine. I prime cinque nel tema hanno tutti il rovescio a una mano, come ci si poteva aspettare.

Evoluzione dei temi nel tempo

Come sono cambiati gli stili nel corso degli anni? Per avere un’idea, ho deciso di inserire nello stesso grafico le probabilità medie dei temi di ogni anno dal 1980, regolarizzando poi il risultato

IMMAGINE 4 – Evoluzione dei temi nel tempo

Il cambiamento più drastico a mio modo di vedere è il drammatico declino del gioco a rete. Per certi versi, sto dicendo un’ovvietà, tutti sanno che il servizio è volée è una tattica ormai superata. Ero però curioso di capire quando e quanto tempo fa è iniziato il declino. Nella versione regolarizzata, il tema Colpi a rete ha raggiunto l’apice nel 1986 per poi avviarsi alla ritirata intorno al 1990, fino a raggiungere il valore attuale del 5% verso il 2008. Contestualmente, come prevedibile, il tema Colpi da fondo è diventato più frequente, dal punto più basso del 45% nella metà degli anni ’80 fino al valore attuale del 60%.

Inoltre, è anche interessante che il tema Scambio di dritto, per quanto sempre presente, sia aumentato da un valore del 14% dei colpi intorno al 2000 fino a un valore attuale del 23%. Potrebbe essere indicazione che la tattica di colpire più dritti possibili si è diffusa da quel momento in avanti.

Mi piacerebbe sapere anche quanta parte di questi cambiamenti è legata ai diversi fattori di cui piace tanto dibattere agli appassionati. Gustavo Kuerten ha vinto il Roland Garros 1997 usando le famose corde in poliestere, anche se pare non fosse l’unico ad averle. Erano corde che consentivano di imprimere una maggiore rotazione alla palla e facilitare i passanti. Di sicuro il tema Colpi a rete era in fase calante in quel periodo, arrivato al 15% da un periodo d’oro del 25%, quindi era già successo qualcosa. In molti sostengono anche che le differenze tra superfici si sono livellate nel tempo. Non mi sembra così ovvio dal grafico visto che credo (forse erroneamente) che sia iniziato già nei primi anni 2000, ma può aver contribuito al continuo declino del gioco a rete in quel decennio.

Entropia

Sebbene il Match Charting Project sia la fonte più granulare che abbiamo, le partite in esso contenute non sono necessariamente un insieme rappresentativo. Non ho verificato le situazioni di squilibrio, ma è possibile che vi siano più dati per partite sull’erba negli anni ’80 che in quelli a seguire, che potrebbe spiegare parte del calo iniziale. È altresì possibile che i giocatori che compaiono nel database siano una specifica selezione, e che i giocatori che hanno continuato a portare avanti la causa del servizio è volée negli anni ’90 riscuotano meno fascino tra i volontari che raccolgono i dati. Fondamentale quindi leggere questi risultati con il beneficio del dubbio.

Per arrivare in ultimo alla domanda del titolo dell’articolo, ovvero se il tennis è diventato più prevedibile, ho analizzato l’entropia media delle partite per anno. A grandi linee, l’entropia in questo caso è solo una misura dell’ampiezza distributiva delle probabilità. Ad esempio, se tutte le partite hanno usato un unico tema, l’entropia sarebbe vicina allo zero, mentre con un uso uguale di tutti i temi, l’entropia sarebbe di circa 1.39.

IMMAGINE 5 – Entropia come misura dell’imprevedibilità del tennis

Il grafico suggerisce che l’entropia è diminuita e che i giocatori sono diventati più prevedibili nell’uso dei temi. Un possibile inizio del declino è nei primi anni ’90, con un’accelerazione sostenuta verso la fine del decennio. Questo però non deve far pensare che il tennis sia meno interessante: anche nel tema dei Colpi da fondo ricorrono molte sfumature che questo semplice modello non incorpora.

Conclusioni

Spero di avere la vostra approvazione sul fatto che un primo esame dei dati del Match Charting Project con il metodo Latent Dirichlet Allocation ha prodotto risultati interessanti. Ci sono molte estensioni del LDA che potrebbero essere applicate, come il LDA dinamico, che elabora un modello dell’evoluzione dei temi nel tempo e cerca anche di indagare quali documenti hanno cambiato temi. Come ho detto, vorrei procedere a usare più temi nel LDA o forse definirne un numero automatico con modelli gerarchici di temi, oltre a includere più dettagli sugli scambi. C’è ancora molto da fare!

Has tennis become more predictable? An initial look with a topic model

L’evoluzione del rovescio di Del Potro

di Martin Ingram // OnTheT

Pubblicato l’1 aprile 2018 – Traduzione di Edoardo Salvati

Con le vittorie ad Acapulco e all’Indian Wells Masters e la semifinale al Miami Masters, si può finalmente affermare che Juan Martin Del Potro è tornato a pieno titolo tra i favoriti del circuito.

Mi ha incuriosito un commento di Roger Federer, suo avversario nella finale di Indian Wells, in cui ha detto di ammirare Del Potro perché è sufficientemente contento di poter affrontare le partite quasi senza il rovescio a due mani, usando il rovescio tagliato. Anche se questo magari comporta perderne qualcuna in più contro determinati giocatori.

Federer si riferisce al rientro di Del Potro nel 2016, dopo la seconda operazione al polso, quando era evidente che ricorresse a molti più rovesci tagliati a una mano rispetto al passato.

Di quanto è cambiata la scelta dei colpi di Del Potro? È tornato a giocare come faceva prima dell’infortunio?

Grazie al prezioso lavoro di raccolta dati del Match Charting Project, in questo articolo cerco di trovare una risposta analizzando la variazione del rovescio di Del Potro nel tempo.

Vista la quantità di informazioni a disposizione, l’analisi è abbastanza agevole. Una delle indicazioni fornite è la tipologia di colpo (Shot Types).

Prendendo ad esempio i dati relativi alla finale di Indian Wells, vediamo che Del Potro ha colpito 172 rovesci (Backhand side), di cui 52 tagliati (BH slice/chip), che equivalgono al 30.2%.

Nel database aggregato del Match Charting Project le partite di Del Potro si fermano alla finale di Basilea 2017. Ho aggiunto manualmente le 4 partite della stagione 2018 di cui sono stati raccolti i dati.

IMMAGINE 1 – Porzione dei rovesci tagliati giocati da Del Potro nelle partite con a disposizione dati punto per punto

Il grafico mostra la porzione dei rovesci tagliati da Del Potro nel corso degli anni. Sembra che ci sia una discontinuità dal 2014, periodo dal quale ha iniziato improvvisamente a usare molto più spesso il rovescio tagliato di quanto non facesse precedentemente.

È stata un po’ una sorpresa per me, perché associo mentalmente questo cambiamento al suo rientro nel 2016 ma, stando ai dati del Match Charting Project, già a partire dalla vittoria nel torneo di Sydney 2014 Del Potro faceva largo uso del rovescio tagliato.

È tornato a colpire il rovescio come in passato?

Per provare a rispondere ho pensato di adattare un processo gaussiano ai dati del campione. Il processo gaussiano ipotizza che si verifichi un lieve cambiamento nel tempo e cerca di trovare una tendenza di lungo periodo.

Considerando che si tratta di una conta – nella quale cioè le osservazioni possono assumere solo valori interi non negativi e sono frutto di un conteggio invece che di ordinamento sulla base di una classifica – e che gli infortuni possono comportare brusche variazioni, il processo gaussiano non è necessariamente il modello ideale, ma fornisce una ragionevole approssimazione.

IMMAGINE 2 – Evoluzione del rovescio di Del Potro

Sono partito imputando manualmente i dati relativi a Indian Wells 2018, e il processo gaussiano è sembrato mostrare un leggero declino. Sono però poi le partite di Acapulco a cambiare l’andamento. In Messico, Del Potro ha usato il rovescio tagliato il 65% delle volte contro Alexander Zverev e il 64% contro Kevin Anderson.

Come visto in precedenza, a Indian Wells contro Federer ha invece usato solo 30% di rovesci tagliati. Sembra che in media Del Potro continui a giocare più tagliati, anche se il contrasto fra una partita e l’altra è ancora molto alto.

Anche se la porzione del 30.2% fatta vedere ultimamente è comunque superiore a qualsiasi altra prima del 2014 (con il 23.9%, la più alta era nella partita di Coppa Davis 2012 contro Ivo Karlovic).

L’impressione è che, complessivamente, Del Potro stia usando il rovescio in modo molto diverso dal periodo antecedente il 2014. Non è per forza però una circostanza negativa: forse il suo gioco ha raggiunto una completezza che non possedeva, anche grazie al rovescio tagliato.

Dopotutto, ha vinto entrambe le partite contro Anderson e Zverev senza particolari problemi, anche tagliando il rovescio quasi due volte su tre. In aggiunta, la percentuale relativamente bassa contro Federer lascia intendere che, dovesse averne bisogno, è in grado di ridurne l’utilizzo.

Un cambiamento evidente

È un’analisi parziale: il Match Charing Project ha un numero ridotto di partite di Del Potro, forse solo le più importanti e comunque con possibili altre limitazioni meno ovvie di questa.

Ciononostante, è interessante notare l’evidente cambiamento nel rovescio di Del Potro a partire dal 2014. Così come intrigante sarà vedere come giocherà il rovescio in futuro e se continuerà a ottenere risultati vincenti come quelli degli ultimi mesi.

The Evolution of Del Potro’s Backhand

Le strisce vincenti più sorprendenti nell’era Open del tennis maschile

di Martin Ingram // OnTheT

Pubblicato il 20 agosto 2017 – Traduzione di Edoardo Salvati

Denis Shapovalov, tra i giocatori della Next Gen ATP, ha sorpreso tutti raggiungendo la semifinale al Canada Masters 2017 con convincenti vittorie consecutive su Juan Martin Del Potro e Rafael Nadal.

Mi sono quindi chiesto: è stata una delle strisce vincenti più sorprendenti di sempre?

Per cercare di trovare una risposta, ho analizzato la probabilità delle strisce vincenti di un giocatore in funzione della valutazione Elo. In generale, la probabilità finale è semplicemente il prodotto tra probabilità di eventi multipli.

Ad esempio, la probabilità di ottenere 6 tre volte di fila lanciando un tradizionale dado a sei facce (con la medesima probabilità per ciascuna faccia) è 1/6 × 1/6 ×1/6 ≈ 0.005. Minore la probabilità, più sorprendente la stringa di eventi.

Per applicare questo concetto al tennis, ho moltiplicato le probabilità di vittoria associate alla valutazione Elo di un giocatore nel corso di una striscia vincente. La probabilità di vittoria si riduce con l’allungarsi della striscia e quando le singole vittorie di una striscia sono più inaspettate.

Le prime 10 strisce vincenti più sorprendenti nel circuito maschile

Questi sono i criteri che ho applicato per arrivare alla classifica:

  • almeno una partita deve essere stata giocata in un torneo Master o Slam. Questo perché non è chiaro se sconfitte a sorpresa in tornei di categoria inferiore dovrebbero avere lo stesso peso di quelle nei tornei più importanti
  • non sono state considerate le partite di Coppa Davis e delle Olimpiadi
  • non si è tenuto conto dei ritiri pre e durante la partita.

E queste sono le 10 strisce vincenti più improbabili dell’era Open (e – per derivazione – di sempre):

  1. Thomas Muster, 1995 – Muster ha vinto 35 partite di fila nel 1995 – il periodo di massima forma – con cui ha conquistato il (suo unico) Roland Garros, il Monte Carlo Masters e gli Internazionali d’Italia. Ha sconfitto giocatori di qualità, rendendo la probabilità della striscia vincente pari a 0.000002
  2. John Marks, 1979 – Marks ha raggiunto la finale degli Australian Open 1979, battendo, tra gli altri, Arthur Ashe. Pur trattandosi di una striscia di sole 4 partite, Marks è partito da un pessimo Elo di 1337 punti, che ha portato la probabilità della striscia vincente a essere pari a 0.000012.
  3. Goran Ivanisevic, 2001 – La striscia che ha portato Ivanisevic a vincere Wimbledon 2001 si classifica al terzo posto. Ha vinto 9 partite di fila, battendo tra gli altri Marat Safin, Patrick Rafter, Andy Roddick e Tim Henman, prima di perdere negli ottavi di finale a Cincinnati. Probabilità della striscia vincente pari a 0.000038.
  4. Thomas Enqvist, 1993 – Enqvist ha vinto il torneo di Schenectady nel 1993, battendo Ivan Lendl, prima di vincere a sorpresa contro Andre Agassi nel primo turno degli US Open e perdere per mano di Pete Sampras negli ottavi di finale. Con un Elo iniziale di soli 1643 punti, la sua striscia si posiziona al quarto posto, con una probabilità pari a 0.000053.
  5. Alex Obrien, 1996 – Obrien ha vinto il torneo di New Haven e raggiunto i quarti di finale al Canada Masters. Ha battuto giocatori come Yevgeny Kafelnikov e Mark Philippoussis, vincendo 9 partite di fila. Probabilità della striscia vincente pari a 0.000053.
  6. Novak Djokovic, 2011 – La famosa striscia di Djokovic si classifica al sesto posto. Ha vinto 38 partite di fila, battendo Roger Federer tre volte e Rafael Nadal quattro volte. Sebbene avesse una valutazione Elo già inizialmente molto alta (2236 punti), questa striscia incredibile aveva una probabilità pari a solo 0.000055.
  7. Vladimir Voltchkov, 2000 – Voltchkov ha raggiunto la semifinale a Wimbledon 2000 con un Elo di partenza di soli 1499 punti. Stando alla sua pagina Wikipedia, ha tratto ispirazione in quel periodo dal film Il Gladiatore, che ha guardato per quattro volte, ottenendo dalla stampa inglese il soprannome di “Vladiator” e il ruolo di idolo personale. Probabilità della striscia vincente pari a 0.000065.
  8. Jerzy Janowicz, 2012 – Janowicz ha raggiunto la finale al Master di Parigi Bercy 2012. Partendo da una valutazione Elo di soli 1549 punti, ha battuto Philipp Kohlschreiber, Marin Cilic, Andy Murray e Gilles Simon, perdendo da David Ferrer. Probabilità della striscia vincente pari a 0.000107.
  9. Marat Safin, 2000 – Safin ha conseguito una striscia di 12 partite nel 2000, vincendo i tornei di Barcellona e Maiorca prima di perdere al secondo turno degli Internazionali d’Italia. Probabilità della striscia vincente pari a 0.000107.
  10. Guillermo Vilas, 1977 – Vilas ha collezionato una striscia impensabile di 73 vittorie nel 1977, vincendo 12 tornei di fila. Tuttavia, si posiziona solamente al decimo posto perché ci si attendeva che vincesse molte di quelle partite. Probabilità della striscia vincente pari a 0.000120.

Come si valuta la striscia di Shapovalov?

La striscia vincente di Shapovalov ha avuto una probabilità pari a 0.00046, valida per il 32esimo posto dalla classifica di sempre. Si tratta di un risultato già di per sé sorprendente, lo diventa ulteriormente nel momento in cui si considera che Shapovalov aveva giocato solamente otto partite sul circuito maggiore all’inizio della sua striscia.

Se limitiamo l’analisi alle strisce vincenti ottenute da giocatori con meno di 30 partite in carriera, Shapovalov entra nei primi 10, al settimo posto. Solo Voltchkov (Wimbledon 2000), Janowicz (Parigi Bercy 2012), Alexander Popp (Wimbledon 2000), John Andrews (Roland Garros 1975), Mark Vines (Parigi Bercy 1982), e Nick Kyrgios (Wimbledon 2014) hanno avuto strisce più sorprendenti nelle fasi iniziali della loro carriera.

Una curiosità finale: se Shapovalov avesse battuto Alexander Zverev – il suo avversario in semifinale – si sarebbe piazzato al sesto posto. Pur con quella sconfitta, l’ascesa di Shapovalov è una delle più rapide di sempre, rendendolo un giocatore, per il futuro, su cui puntare i riflettori.

Most Surprising Runs in Men’s Open Era