Le regole proposte da Charles Dodgson per i tornei di tennis

di Peter Ellis // FreeRangeStatistics

Pubblicato l’1 febbraio 2020 – Traduzione di Edoardo Salvati

In un precedente articolo, ho analizzato l’impatto dell’assegnazione delle teste di serie in un torneo di tennis. Le teste di serie sono uno dei modi per aumentare la probabilità che i giocatori più forti arrivino nelle fasi conclusive di una competizione a eliminazione diretta, portando a esiti più giusti e a maggiori possibilità di riservare gli scontri più entusiasmanti per la fine del torneo. In sostanza, l’obiettivo è ovviare a questo problema:

In un torneo di Lawn Tennis a cui, quasi per caso, mi capitò di assistere tempo fa, fu portato alla mia attenzione l’attuale metodo di assegnazione dei premi dalle lamentele di uno dei giocatori, che era stato battuto (e aveva conseguentemente perso ogni possibilità di vincere un premio) nei turni iniziali, e che aveva dovuto subire l’umiliazione di vedere conquistare il premio del secondo classificato da un altro giocatore, che lui sapeva essere ben inferiore.

L’episodio appena descritto portò Charles Dodgson, illustre matematico del diciannovesimo secolo dell’Università di Oxford, a proporre un’alternativa all’allora in voga sistema di eliminazione diretta senza teste di serie. Il suo trattato sul tema dal titolo “ LAWN TENNIS TOURNAMENTS: The True Method of Assigning Prizes with a Proof of the Fallacy of the Present Method” si trova alla pagina 1082 dell’opera omnia. Naturalmente, Dodgson è più conosciuto al mondo come autore a tempo perso di libri per bambini con lo pseudonimo di Lewis Carroll, le cui opere includono il capolavoro “Le avventure di Alice nel paese delle meraviglie”, “ Attraverso lo specchio e quel che Alice vi trovò”, “La caccia allo Snark” e il giustamente dimenticato “Sylvie e Bruno”.

Gli elementi di base

Ecco gli elementi di base del sistema elaborato da Dodgson, descritto per un torneo a 32 giocatori:

  • viene tenuto un elenco in cui alla fine di ciascuna partita, accanto a ogni nome si scrive il nome del giocatore o dei giocatori che gli sono stati superiori, o in virtù di una vittoria diretta, o perché hanno battuto qualcuno che a sua volta ci è riuscito (vale a dire se A batte B e B batte C, A e B sono entrambi superiori a C). Non appena accanto al nome di un giocatore ce ne sono altri tre a lui superiori, quel giocatore è cancellato dalla lista
  • nella prima giornata di competizioni, c’è solo una partita per giocatore, con i 32 giocatori che sono accoppiati a due a due a formare 16 coppie
  • per il secondo giorno […] i 16 giocatori che hanno vinto la prima partita sono accoppiati tra di loro, così come i 16 che hanno un superiore (coloro che perdono in quest’ultimo gruppo di coppie avranno 3 superiori ciascuno, e verranno quindi eliminati dalla lista). Per tutte le altre partite i giocatori sono accoppiati allo stesso modo, prima quelli che non hanno mai perso, poi quelli con un superiore e così via, cercando di evitare, quanto possibile, di accoppiare due giocatori che hanno un superiore in comune
  • alla metà del terzo giorno, sono rimasti solo due giocatori senza sconfitte […] e questi due hanno una partita da giocare per tutto il quarto giorno
  • alla fine del quarto giorno si conosce il nome del giocatore che ha vinto il primo premio (grazie allo stesso processo di eliminazione usato nel metodo in vigore): i restanti giocatori sono accoppiati secondo le medesime regole, per le due partite da disputare al quinto giorno.

Teoria contro realtà

L’essenza di questo procedimento è che nessun giocatore è eliminato fino a che non è certo che non sia tra i migliori tre, perché gli eliminati hanno almeno tre superiori da cui hanno perso direttamente o che hanno battuto qualcuno che li ha battuti. Così i migliori tre sono in grado di surclassare tutti gli altri.

Un’osservazione interessante è che, secondo le regole di Dodgson, non serve che il numero di giocatori sia in potenza di due, come nel caso di un classico torneo a eliminazione diretta in cui gli organizzatori vogliono evitare situazioni di bye a senso unico.

Dodgson sostiene che la sua proposta dà garanzia di assegnare con accuratezza il primo, secondo e terzo premio ai migliori tre giocatori. Questa si basa però su alcune ipotesi chiave:

  • la superiorità è transitiva, quindi se A è superiore a B e B a C, allora A è superiore a C
  • la superiorità è deterministica, coerente e costante.

Naturalmente, il mondo reale opera con altri canoni. Ci si interroga quindi sulla bontà del metodo di Dodgson nel momento in cui i risultati delle singole partite non sono costanti e sono incoerenti tra loro, in linea con quanto emerso dalle realistiche simulazioni con valutazioni Elo che ho usato in precedenza. Per scoprirlo, ho simulato tornei impostati secondo le regole di Dodgson con le stesse 128 giocatrici di vertice dal 1990 dei tornei più convenzionali della scorsa analisi. Il codice che ho scritto permette di scegliere l’esito di singoli scontri tra giocatrici, da un lato in senso deterministico (cioè la giocatrice con la valutazione più alta ha garanzia di vincere, come nella dimostrazione a 32 giocatori di Dodgson), dall’altro in senso realisticamente probabilistico (la probabilità di vittoria è casuale, ma legata comunque alla valutazione Elo delle due giocatrici).

Risultati

Se le vincitrici sono deterministici, si arriva a un risultato come quello illustrato da Dodgson

Non deve sorprendere che il suo metodo assegni correttamente i premi in un torneo a 32 giocatori con esiti deterministici delle partite, vista la notevole abilità matematica che possedeva. Ero curioso di vedere se avesse funzionato in presenza di molti più partecipanti, e ho trovato che le sue regole (con modifiche minime) identificano nel giusto ordine i tre giocatori, a cui assegnano i primi tre premi, 100 volte su 100 diverse simulazioni.

Anche un torneo a eliminazione diretta con esito deterministico delle partite e con una corretta attribuzione delle teste di serie farà emergere con precisione le quattro migliori giocatrici il 100% delle volte. Credo che Dodgson pensasse che non si potesse fare affidamento su una conoscenza aprioristica del livello dei giocatori, escludendo quindi la possibilità di un torneo con teste di serie. Di sicuro, l’unico confronto che ha fatto è tra il suo metodo e un tabellone senza teste di serie.

È da notare che nel torneo ipotizzato da Dodgson serviranno all’incirca il doppio delle partite (con variazione a seconda dell’efficienza del tabellone, anche se in media nelle mie simulazioni le partite sono state 240) di un torneo a eliminazione diretta (che ha bisogno di 127 partite per 128 giocatori).

I risultati non sono così puntuali nello scenario in cui le vittorie sono realisticamente probabilistiche

In presenza di esiti non deterministici ma dipendenti dal caso e legati alla differenza di bravura associata alle valutazioni Elo, il metodo di Dodgson non è valido quanto avrebbe sperato. Naturalmente, si tratta sempre di un modello realistico. Anche nel periodo di dominio totale, Steffi Graf (la giocatrice con la valutazione massima tra quelle prese in esame per gli anni ’90) poteva comunque avere qualche probabilità di perdere contro altre giocatrici di vertice in una qualsiasi partita, come visto nel grafico che qui ripropongo.

IMMAGINE 1 – Probabilità di alcune giocatrici tra le prime 128 di battere Graf alla fine del 1990 sulla base delle valutazioni Elo

Efficacia delle teste di serie_2 - settesei.it

Il grafico dell’immagine 2 mostra i risultati di una simulazione di 1000 tornei giocati secondo le regole di Dodgson, con realistiche probabilità di vittoria e sconfitta (quindi non solo 1 e 0). Alcune conclusioni che si possono derivare:

  • le giocatrici di vertice vincono il torneo il 57% delle volte
  • il 36% delle volte giocano la finale le prime due giocatrici e il 23% delle volte vince la testa di serie numero 1
  • le prime tre giocatrici vincono i primi tre premi partita nell’ordine giusto solo il 7% delle volte.

Nel modello deterministico di Dodgson, per queste tre casistiche la probabilità è del 100%.

IMMAGINE 2 – Rendimento delle regole proposte da Dodgson in termini di probabilità della prima, seconda e terza giocatrice di finire il torneo nella giusta posizione

L’efficacia delle valutazioni Elo

Nel modello probabilistico, gli esiti del torneo secondo le regole di Dodgson sono simili a quelli di uno a eliminazione diretta con teste di serie, come ho scritto in precedenza. Ad esempio, in un tabellone con teste di serie, Graf, la giocatrice più forte, vinceva il 60% dei tornei e le prime due giocatrici erano in finale il 42% delle volte. È un risultato marginalmente migliore, rispetto a quanto ottenuto con le regole di Dodgson, in circa la metà delle partite, a evidenza dell’efficacia dell’utilizzo di informazioni aprioristiche sulla bravura delle giocatrici per la determinazione delle teste di serie.

Attuazione

Metodologia

Applicare le regole di Dodgson in modo che fossero sostenibili su un più ampio campione di tornei, su esiti casuali di partite e su risultati non coerenti e non transitivi è stato tutt’altro che banale.

Alcune decisioni:

  • per le coppie iniziali di giocatrici (e gli scontri successivi) ho proceduto casualmente anziché in ordine alfabetico secondo il cognome
  • ho abbandonato l’idea di “turno”, concentrandomi invece sulla successiva partita individuale da giocare, mettendo insieme, ove possibile, giocatrici con lo stesso numero di game giocati e di sconfitte
  • ho introdotto un concetto di “giocatrice scomoda” per un qualsiasi momento, vale a dire una giocatrice che ha giocato meno game delle altre e ha il minor numero di avversarie legittime disponibili a parità di sconfitte, evitando rivincite, etc. Trovare una partita per la giocatrice scomoda è diventata la priorità in ogni iterazione della mia simulazione
  • in alcune circostanze, ho dovuto permettere partite tra giocatrici che avevano giocato, a quella data, un diverso numero di game. Esiste probabilmente una soluzione che non richiede di farlo, ma non ho avuto tempo di cercarla

E ancora:

  • non sono riuscito neanche a escogitare un sistema pratico per il requisito “cercando di evitare, quanto possibile, di accoppiare due giocatori che hanno un superiore in comune”. Tranne che per occorrenze insolite, ho escluso le rivincite così da evitare che l’algoritmo si bloccasse
  • con risultati non deterministici e consentendo le rivincite dove inevitabile, sono emerse alcune contraddizioni da gestire con cautela. Ad esempio, una giocatrice può diventare superiore a se stessa (se A è battuta da B e poi B è battuta da A in una rivincita, la futura A è ora superiore alla passata A, un caso che ho evitato di considerare nel conteggio)
  • è possibile che le ultime quattro giocatrici rimaste abbiano 3 superiori ciascuna come risultante di una singola partita verso la fine del torneo, rendendo il piazzamento non chiaro. Di fronte a questa evenienza, ho suddiviso il primo posto ex-aequo, anche se semifinali e finale sarebbero più realistiche
  • allo stesso modo, può succedere che la giocatrice 2 e 3 (delle tre rimanenti) siano eliminate in un solo passaggio. Questo significa nessuna finale e un play-off per definire il secondo posto.

Interessante e valido, ma di difficile adozione

In ogni caso, si è trattato di un esperimento divertente. Sono soddisfatto del buon funzionamento di questo metodo per lo svolgimento di un torneo, anche al costo di dover giocare quasi il doppio delle partite di un torneo a eliminazione diretta. E, tutto sommato, anche con esiti di partite realisticamente incerti e non costanti. Non è ovviamente perfetto come l’ideale mondo deterministico descritto nel trattato originario di Dodgson. Come il precedente elenco di decisioni e insidie mostra, l’analisi però può complicarsi molto facilmente. Ci sono parecchi casi insoliti e al limite su cui non mi sono soffermato in dettaglio.

A mia conoscenza, il metodo di Dodgson non è mai stato usato per determinare il tabellone di un effettivo torneo, anche se ci sono state alcune simulazioni simili a questa. Non sono sicuro di quanto le intenzioni dello stesso Dodgson fossero serie. Sempre nel trattato accenna alla possibilità di eliminare i set nel tennis a favore in un sistema più semplice come “il primo giocatore che vince 14 game, o che va avanti di 9, vince la partita”. Dubito però che si aspettasse ragionevolmente una calorosa accoglienza delle sue proposte. Vale comunque la pena notare che l’autore del trattato è la figura professionale Charles Dodgson, appassionato di matematica ricreativa, e non Lewis Carroll, autore di libri per bambini.

Diciamo che, come per molte altre sue opere, la pubblicazione ha un merito. Non mi sbilancerei però a suggerirne l’adozione integrale per i moderni tornei di tennis.

Analysing the effectiveness of tennis tournament seeding

Un’analisi dell’efficacia del sistema di teste di serie

di Peter Ellis // FreeRangeStatistics

Pubblicato il 26 gennaio 2020 – Traduzione di Edoardo Salvati

Ispirato dagli Australian Open 2020, ho deciso di indagare in che modo il sistema di teste di serie e la distribuzione dei giocatori nel tabellone principale incidono sul risultato finale di un torneo. Probabilmente ritornerò sull’argomento, ma l’obiettivo odierno è di analizzare l’impatto dell’assegnazione delle teste di serie sulla probabilità per i più forti di vincere, arrivare in finale, in semifinale o nei quarti di finale.

Metto a confronto i risultati di simulazioni di tornei a eliminazione diretta tra questi giocatori in due tipologie di scenari, da un lato un posizionamento del tutto casuale nel tabellone in assenza di teste di serie, dall’altro l’introduzione di 32 teste di serie come accade nei tornei dello Slam.

L’immagine 1 mostra che la scelta della metodologia determina conseguenze differenti: l’adozione delle teste di serie comporta un aumento concreto della probabilità del migliore di vincere o dei due più forti di arrivare in finale, e ha rilevanza ancora maggiore ai fini della determinazione delle semifinali e dei quarti di finale.

IMMAGINE 1 – Impatto del sistema a teste di serie sul risultato che i migliori possono raggiungere

Distribuzione della bravura dei giocatori

Questo significa che, ad esempio, con 32 giocatori che ricevono una posizione speciale in tabellone grazie alla testa di serie, esiste una probabilità del 22% che in semifinale arriveranno i migliori quattro, rispetto una probabilità di solo il 2% con un tabellone casuale. In una assegnazione casuale, la probabilità di vedere i migliori otto nei quarti di finale è di fatto prossima allo zero, mentre in un tabellone con teste di serie succederà il 3% delle volte (che non è comunque molto spesso, aspetto che però non dovrebbe destare stupore tra coloro che seguono il tennis regolarmente). Di contro, la probabilità che le prime due teste di serie siano in finale è del 42% in un tabellone con teste di serie e solo del 20% in uno casuale.

Va sottolineato che questi risultati dipenderanno dalla distribuzione della bravura dei giocatori nello specifico torneo. All’estremo, se il più forte è in grado di dominare tutti gli altri, la presenza delle teste di serie non farà alcuna differenza per la vittoria finale.

Valori teorici di riferimento

Possiamo calcolare altri valori teorici come limiti di riferimento. Ad esempio, se i primi due giocatori fossero effettivamente invincibili contro chiunque tranne che l’altro, si incontrerebbero in finale il 100% delle volte in un tabellone con teste di serie e il 50% delle volte in un tabellone casuale. Qualsiasi valore inferiore (il 42% e il 20% nel nostro caso) identifica il divario tra un livello “decisamente” alto di questi due giocatori nei confronti degli altri e un livello “infinitamente” alto.

Stephanie Kovalchik ha scritto sulle conseguenze dell’ipotesi di riduzione da 32 a 16 teste di serie negli Slam (che non ha poi avuto seguito), in cui ha mostrato che i risultati sarebbero stati meno esatti rispetto a un sistema a 32 teste di serie, dove per esatto s’intende il raggiungimento del turno atteso da parte del giocatore in funzione della sua classifica.

Serie storica di risultati

Per procedere con l’analisi, ho utilizzato dati sulla bravura effettiva relativa dei giocatori ottenuti grazie al pacchetto {deuce} R codificato da Kovalchik. Mi serviva un intervallo realistico di valori sulla bravura che potessero essere applicati a scontri diretti come in un torneo reale. Ho scelto di concentrarmi su un preciso momento temporale invece di una sfida tra ere che, per esempio, avrebbe messo di fronte Margaret Court e Serena Williams. Onde evitare confusione con l’attualità, ho scelto la stagione femminile del 1990. L’immagine 2 riepiloga le prime 10 a fine 1990 sulla base della loro valutazione Elo.

IMMAGINE 2 – Prime 10 giocatrici per valutazione Elo a fine 1990

Tramite dati raccolti da Jeff Sackmann, Kovalchik fornisce le valutazioni Elo per ciascuna giocatrice per specifico momento temporale. Avevo già parlato di Elo in merito al Backgammon e al calcio australiano. Si tratta di un metodo molto efficace per fare valutazioni di giocatori rispetto all’effettivo rendimento, con il grande vantaggio di poterne derivare probabilità per un qualsiasi ipotetico scontro diretto.

La valutazione è oggetto di aggiustamenti incrementali in funzione della rispondenza tra situazione effettiva e probabilità derivate dalle valutazione Elo alla vigilia della partita. Questo ne fa un’indice utile e con capacità di correzione automatica, e facilmente integrabile in un modello statistico.

Per essere sicuro della corretta conversione delle valutazioni Elo di Kovalchik in probabilità, mi affido alla sua funzione elo_prediction() per la stima della probabilità di vittoria in ciascun accoppiamento. L’immagine 3 illustra mostra la probabilità di battere Steffi Graf da parte di una selezione di giocatrici classificate tra la posizione 2 e la 128 in termini di valutazioni Elo (Graf che, dall’inizio dell’era Open, è la giocatrice che la più alta valutazione assoluta).

IMMAGINE 3 – Probabilità di alcune tra le prime 128 di battere Graf alla fine del 1990

La simulazione dei tabelloni e risultati

Per completare la laboriosa attività di simulazione di tornei tra queste 128 giocatrici, ho scritto una funzione simulate_tournament() il cui principale argomento è una struttura dati di 128 righe di fila che rappresentano il tabellone, come nell’immagine 4.

IMMAGINE 4 – Funzione simulate_tournament()

Questo indica ad esempio che nel primo turno giocato (“round of 128”) Dianne Van Rensburg giocherà contro Carling Basset Seguso nella partita 1 (match 1). L’immagine 5 mostra il risultato filtrando per la partita 1 del secondo turno (“round of 64”)

IMMAGINE 5 – Partite del secondo turno della simulazione

Troviamo quattro giocatrici nella partita 1. Però una tra Van Resnburg e Seguso avrà perso nel primo turno, così come una tra Elna Reinach e Wiltrud Probst. Con un po’ di attenzione, l’oggetto brackets riesce a contenere l’intero tabellone principale, e può essere disegnato in modo che le prime 32 teste di serie siano allocate nei singoli quarti come richiesto da un tabellone a 32 teste di serie. Il resto del codice che ho scritto esegue questa simulazione per i due scenari di tabellone che ho individuato in precedenza.

Arriviamo ai risultati

La tabella riepiloga la distribuzione delle vincitrici. Non sorprende che Graf vinca più simulazioni di torneo di qualsiasi altra, 5454 su 10.000 con un tabellone casuale, e 5913 su 10.000 con un tabellone a 32 teste di serie. Anche in un periodo di dominio totale di Graf, ci sono comunque giocatrici (e non solo alcune tra quelle di vertice) con una probabilità di vittoria diversa da zero. Ed è questo che attrae le persone a seguire il tennis. È interessante come da Monica Seles (a quel tempo al terzo posto delle valutazioni Elo) a scendere, è più probabile che una giocatrice vinca il torneo simulato in un tabellone casuale invece che in uno con le teste di serie.

Vincitrice         Class.  No t.d.s.  32 t.d.s.
Graf               1       5454       5913
Navratilova        2       2089       2219
Seles              3       1064       1018
Sabatini           4       510        418
M.J. Fernandez     5       213        132
Martinez           7       110        66
Sanchez Vicario    6       113        63
Capriati           8       89         42
Maleeva Fragniere  9       66         34
Garrison           10      58         26 

Questo rimanda ai risultati evidenziati dal grafico dell’immagine 1 di inizio articolo. Spero presto di riprendere questa tematica e confrontare i due metodi con l’alternativa proposta da Charles Dodgson in “Lawn Tennis Tournaments. The True Method of Assigning Prizes with a Proof of the Fallacy of the Present Method”. Dodgson, che oltre a essere un matematico e logico trovò il tempo di dare vita a uno dei più importanti personaggi della letteratura inglese (in Alice nel paese delle meraviglie con lo pseudonimo di Lewis Carrol, n.d.t.), scriveva prima della diffusione del concetto di teste di serie. Propose un’alternativa al torneo a eliminazione diretta che a suo dire garantiva l’assegnazione esatta dei primi tre premi ai tre giocatori più forti. Il suo ragionamento però poggiava su una visione non probabilistica del significato di migliore. Certamente meritevole di approfondimento, ma per un’altra occasione.

Analysing the effectiveness of tennis tournament seeding