Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Il più grande archivio italiano di analisi statistiche sul tennis professionistico. Parte di Tennis Abstract

Questi giocatori sono simili tra loro?

ULTIMI ARTICOLI

Prevedere l’esito dei prossimi cinque anni di Slam con la sfera di cristallo

Pubblicato il 16 ottobre 2020 su TennisAbstract - Traduzione di Edoardo Salvati // L’anno scorso, ho creato un modello...

È tornata la discesa a rete?

Pubblicato il 2 ottobre 2020 su StatsOnTheT - Traduzione di Edoardo Salvati // Se guardando il Roland Garros 2020...

Venti non vuol dire sempre venti

Pubblicato il 12 ottobre 2020 su TennisAbstract - Traduzione di Edoardo Salvati // C’è sempre più traffico in cima...

La fortuna del sorteggio: Roland Garros 2020 (donne)

Pubblicato il 25 settembre 2020 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Come per gli uomini, anche per...

La fortuna del sorteggio: Roland Garros 2020 (uomini)

Pubblicato il 25 settembre 2020 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Da diversi anni ormai eseguo simulazioni...

Cosa succede al ritmo di gioco con le nuove regole imposte dalla pandemia

Pubblicato il 31 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // La pandemia COVID-19 ha imposto agli...

Che valore assegnamo ai tornei Masters o Premier vinti nella bolla?

Pubblicato il 30 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Il tennis è ripartito, ma molti...

Mettere un asterisco accanto agli US Open è prematuro, e forse del tutto sbagliato

Pubblicato il 19 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Ci saranno diverse assenze di alto...

Il circuito femminile post COVID-19 sta rientrando alla normalità

Pubblicato il 17 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Negli ultimi due tornei femminili, abbiamo...

Il sospetto che Venus e Serena debbano giocare contro troppo spesso è fondato?

Pubblicato il 12 agosto 2020 su TennisAbstract - Traduzione di Edoardo Salvati // Nel torneo di Lexington di questi...

ULTIMI ARTICOLI

Pubblicato il 10 ottobre 2018 su HiddenGameOfTennis – Traduzione di Edoardo Salvati

// Mentre ero alle prese con un’altra indagine che ha richiesto l’estrazione di statistiche cumulate per il circuito maschile, mi sono fermato a riflettere sull’esistenza di due giocatori simili tra loro, o se tutti invece sono diversi nel loro talento, distinguendosi cioè per bravura in determinate aree di gioco. Ci saranno sicuramente molti modi per scoprirlo ma, non essendo l’obiettivo di partenza, volevo comunque usare i dati che avevo già raccolto.

Si tratta di statistiche aggregate dei primi 200 giocatori (alla data del 10 luglio 2018) sul cemento negli ultimi due anni e mezzo, contro avversari la cui classifica non supera il numero 300. Ho eliminato 11 giocatori con meno di 150 game al servizio, perché non sufficientemente rappresentativi in quel tipo d’intervallo.

La costruzione dei sottoinsiemi

Ho suddiviso i giocatori in sottoinsiemi rispetto a ciascuna delle sette seguenti statistiche espresse in percentuale: ace, doppi falli, prime in campo, punti vinti con la prima, punti vinti con la seconda, punti vinti alla risposta sulla prima, punti vinti alla risposta sulla seconda. Ho denominato i sottoinsiemi con lettere comprese tra la A la F e ripartito i giocatori in funzione del loro rendimento rispetto alle statistiche considerate:

  • il sottoinsieme A per giocatori con una deviazione standard dalla media maggiore di 1.5
  • il B con una tra 1.5 e 0.5
  • il C con una tra 0.5 e -0.5
  • il D con una tra -0.5 e -1.5
  • e il sottoinsieme F per giocatori con una deviazione standard dalla media maggiore di -1.5

(in molti dei sottoinsiemi, le statistiche dei giocatori non sono distribuite secondo una normale, quindi non abbiamo una gaussiana dalla forma simmetrica. In particolare, la percentuale di ace, di doppi falli, di prime in campo e di punti vinti alla risposta sulla seconda sono decisamente non lineari. Quello della percentuale di ace è un caso limite vista la presenza di un numero straordinario di artisti dell’ace, e solo Yoshihito Nishioka è incredibilmente peggiore della media).

In tutte le categorie tranne la percentuale di doppi falli, i valori più alti hanno determinato una A e quelli più bassi una F.

L’associazione dei sottoinsiemi

Con un metodo decisamente elementare, ho accostato le lettere che definiscono i sottoinsiemi per verificare eventuali somiglianze tra giocatori in termini di stile o rendimento. Ad esempio, John Isner rientra nella A per tutte le categorie relative al servizio, tranne le B nella percentuale di doppi falli, e nella F per le due categorie alla risposta. Seguendo il precedente ordine, Isner diventa ABAAAFF. Ci sono altri giocatori tra i primi 200 con una sequenza di ABAAAFF sul cemento? Nessuno!

Anzi, di 189 giocatori, solo 10 hanno la stessa sequenza di un altro giocatore e non ci sono tre giocatori che ne condividano una. La tabella elenca i giocatori con una sequenza in comune (tra parentesi).

Fritz - Bedene (BBDBCCC)
Tiafoe - Mayer (CCCCBCC)
Munar - Medvedev (CCCCCBB)
Mahut - Cuevas (CCCCCCD)
Millman - Nishikori (DBCCBBB)
Kohlschreiber - Kecmanovic (DBCCBCC)
Maden - Simon (DBCDCBA)
Jung - Ito (DCBDDBC)
Fabbiano - Albot (DCBFCBB)
Schwartzman - Majchrzak (DCCDCBA)

Degli strani accoppiamenti, eh? Se si includessero parametri come l’altezza o l’età, la maggior parte di questi giocatori verrebbe immediatamente separata. Non penso che quello di John Millman e Kei Nishikori sia un accostamento terribile in termini di stile, anche se è chiaro che non possiedono lo stesso talento (o, almeno, lo stesso rendimento). La coppia formata da Jaume Munar e Daniil Medvedev è assurda.

Parte della ragione di accoppiamenti così inusuali è legata alla presenza di soli cinque sottoinsiemi. Questo determina che un giocatore possa condividere il sottoinsieme di una determinata statistica con un altro giocatore, rispetto al quale però abbia poi un rendimento significativamente migliore, o peggiore. È un circuito dai margini ridotti. Ad esempio, Aljaz Bedene e Taylor Fritz sono molto ravvicinati in tutte le statistiche tranne una, i punti vinti alla risposta sulla prima, nella quale Bedene ha un valore più alto di 1.3% (pur rimanendo nello stesso sottoinsieme). Può sembrare poco, ma è una differenza importante dal punto di vista dei risultati. Non lo è però nello stile, anche se si trovano in due momenti della carriera decisamente diversi.

Normalizzare per il livello di competizione

Un aspetto più importante che spiega la stranezza di questi accoppiamenti è la differenza nel tipo di competizione affrontata. In altre parole, le statistiche della partita sono modellate non solo dalla bravura di un giocatore ma anche da quella dell’avversario. Prendiamo di nuovo Bedene e Fritz. Per quanto abbiano in ogni sottoinsieme un rendimento simile (solitamente, molto simile) la classifica media degli avversari di Bedene sul cemento negli ultimi due anni e mezzo è circa 88, contro 114 per gli avversari di Fritz. La classifica non è la definizione ultima della qualità di un avversario, ma tra 88 e 114 c’è una differenza notevole. Tranne che per Jung – Ito, il divario tra classifiche degli avversari in ciascuna coppia è enorme, con la massima distanza in Schwartzman – Majchrzak e Kohlschreiber – Kecmanovic.

Sarebbe interessante poter normalizzare le statistiche per verificarne il valore contro un avversario comune, per poi ricreare i sottoinsiemi e ripartire nuovamente i giocatori. Nessuno dei modi in cui ipotizzo si possa fare questo passaggio è di facile applicazione, ma ho proceduto ai fini di quest’analisi come segue.

Tipicamente, quando si vuole normalizzare una statistica nello sport, si considera il contesto di riferimento (nel baseball ad esempio, è il caso degli stadi o dei campionati, specialmente nel confronto fra epoche). Nel tennis, estrapolare il contesto è abbastanza difficile. Si può iniziare considerando solo una specifica superficie, sorge poi però il problema del “campionato” inteso in senso più ampio. Sulla carta, le partite riguardano avversari dell’intero universo tennistico.

Combinazioni uniche di giocatori

Nella realtà, per ciascuna finestra temporale, ogni giocatore affronta una combinazione unica di colleghi. Un campione di dati che include le partite dei primi 200 solo contro i primi 300 è di aiuto, ma in due anni e mezzo sul cemento, ogni giocatore dei primi 200 con un numero di partite rilevanti su questa superficie gioca all’incirca contro 50 giocatori dei primi 300, spesso molti di meno. Detto altrimenti, ogni giocatore fa un campionato a sé con un livello di qualità differente.

Il metodo di normalizzazione quindi (almeno per ora) è di stabilire gli avversari di un giocatore nei due anni e mezzo di partite sul cemento, calcolare la loro media cumulata (ponderata) in ciascuna statistica contro i primi 300 e confrontarla con la relativa media complessiva per i primi 200. Dovremmo così arrivare a conoscere il grado di bravura dell’universo di avversari di un giocatore – relativamente alla media per ciascuna statistica dei primi 200 – le cui variazioni positive o negative dalla media complessiva servono per correggere i valori della specifica statistica per il giocatore che stiamo studiando.

Ad esempio, se l’universo di avversari di Fritz è migliore della media nella percentuale di punti vinti alla risposta sulla prima di servizio, possiamo aumentare la sua percentuale di punti vinti sulla prima (la corrispondente statistica) a simulazione di quanto avrebbe ottenuto contro un avversario medio.

Opposizione tra statistiche

In questa sede ho tralasciato la percentuale di doppi falli e le prime in campo. Sono infatti entrambe statistiche su cui dovrebbe incidere la bravura alla risposta dell’avversario ma, a differenza degli altri cinque sottoinsiemi, non esiste una statistica direttamente opposta da rendere il calcolo relativamente agile. Alla percentuale di ace si oppone la percentuale di ace dell’avversario, alla percentuale di punti vinti sulla prima o sulla seconda si oppone la percentuale di punti vinti alla risposta sulla prima o sulla seconda dell’avversario, alla percentuale di punti vinti alla risposta sulla prima o sulla seconda si oppone la percentuale di punti vinti sulla prima o sulla seconda dell’avversario. Non so dire quantitativamente quanto la bravura dell’avversario alla risposta incida sulla percentuale di doppi falli e di prime in campo.

Dopo aver ricostruito i sottoinsiemi con le statistiche normalizzate, si ottengono 11 accoppiamenti di giocatori simili, tra cui un’occorrenza di tre giocatori simili tra loro, come mostrato nella tabella (tra parentesi, la sequenza).

Kecmanovic - Donskoy (CBCCBDC)
Smyczek - Fratangelo (CBCDCCC)
Fritz - Lacko - Seppi (CBDBCCC)
Kudla - Munar (CCCCCCB)
Tiafoe - Mayer (CCCCCCC)
Rosol - Barrere (CCCCDDC)
Novak - Mmoh (CDBDDCC)
Carreno Busta - Pella (DBBDBCB)
Maden - Mannarino (DBCDCBB)
Dzumhur - Albot (DCBFCBB)
Basilashvili - Koepfer (DDCDCCC)

Ammetto di non conoscere così bene tutti questi giocatori da poter dire ad esempio se Barrere ha uno stile in realtà dissimile a quello di Rosol ma, generalmente, la normalizzazione restituisce un elenco molto più ragionevole del precedente. Anzi, ci sono un paio di accostamenti davvero validi, tra cui Smyczek – Fratangelo, Fritz – Lacko – Seppi, Kudla – Munar e Novak – Mmoh. Non sembrano esserci coppie apertamente prive di senso, anche se Basilashvili è indirizzato verso il divorzio da Koepfer.

Noterete che solo una coppia sopravvive alla normalizzazione, cioè quella formata da Frances Tiafoe e Leonardo Mayer. Continua a essere strano saperli accostati in questo modo, ma le loro statistiche normalizzate sono più vicine di quelle non normalizzate, quindi non dipende solo dal fatto che rientrano nel sottoinsieme medio in tutte le statistiche considerate.

Indici di somiglianza

Spesso ho desiderato creare indici di somiglianza alla Bill James, trovando la difficoltà scoraggiante. Quelli di James per i giocatori baseball erano abbastanza chiari perché basati su statistiche non normalizzate. Lo stesso metodo nel tennis richiederebbe solo un aggiustamento dei punti associati alle differenze tra giocatori in varie statistiche. Ritengo però che non sia un sistema efficace. Ricordo di aver generato (molti anni fa) un foglio di calcolo che usava statistiche dei giocatori di baseball normalizzate per epoca e stadio, per poi applicare gli indici di somiglianza.

È invitante fare lo stesso nel tennis, ma la parte relativa alla normalizzazione è ben più complicata, per le ragioni di cui ho parlato. Essenzialmente, ogni giocatore è nel suo personale campionato. E il procedimento qui usato, molto noioso nonostante la semplicità, si riferisce solo a due anni e mezzo di partite, non alla durata di una carriera. Ma si può continuare a sognare. ◼︎

Are these ATP players similar?

DELLO STESSO AUTORE

La corsa agli ace, parte 1

Pubblicato il 23 luglio 2015 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Quest’anno, Ivo Karlovic ha la possibilità di...

Jiri Vesely è molto forte al servizio (o è simile a Gilles Muller)?

Pubblicato il 9 luglio 2018 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Per due volte oggi ho sentito parlare...

La fortuna del sorteggio: Wimbledon 2019 (uomini)

Pubblicato l’1 luglio 2019 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Come d’abitudine per gli Slam, ho eseguito una...

La difficoltà di accorciare le partite di tennis – Parte II – Donne

Pubblicato il 21 settembre 2019 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Nella Parte I di questa...

La strada che porta a 110 titoli

Pubblicato l’8 marzo 2019 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Come ormai noto, la vittoria di Roger...

Quale giocatore ha il tabellone “davvero” più duro al Roland Garros?

Pubblicato il 25 maggio 2018 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Dopo aver letto che per...

Finali di stagione Gruppo Kuerten, le probabilità delle semifinali

Pubblicato il 15 novembre 2018 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // A differenza delle Finali Next Gen a...

La difficoltà di accorciare le partite di tennis – Parte I

Pubblicato il 18 settembre 2019 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Anche il tennis, come altri...

Il fattore campo nel tennis, parte 3 (le conclusioni)

Pubblicato il 26 settembre 2015 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Nella parte 1 di questa serie, ho...

La fortuna del sorteggio: US Open 2019 (donne)

Pubblicato il 26 agosto 2019 su HiddenGameOfTennis - Traduzione di Edoardo Salvati // Come per gli uomini, anche per...