Ci hanno provato in molti, non ultima Goldman Sachs. Ma davvero si può prevedere l’andamento dei Mondiali di calcio ormai alle porte? Un’analisi alternativa combina variabili calcistiche e quotazioni dei bookmakers. Comunque, non lascia speranze agli azzurri.

di  e , 10.06.14, lavoce.info

Il modello per prevedere chi vince

Chi alzerà la coppa del mondo? In questi giorni si affollano le predizioni di molti centri di ricerca, tra cui spicca Goldman Sachs che prevede una vittoria del Brasile e l’eliminazione dell’Italia ai quarti di finale, proprio a opera dei verde-oro.

Noi abbiamo lavorato a un modello statistico basato sull’analisi fattoriale di un insieme di variabili che descriveremo nel prossimo paragrafo, combinando i dati con le quote delle principali agenzie di bookies per introdurre un elemento di incertezza nella fase a gironi.
Lo studio si avvale di un dataset che, per avere informazioni utili su tutte e trentadue le nazionali partecipanti, si è concentrato sul periodo 2000-2014, con più di 130 match analizzati per ogni squadra.
Su questo arco di tempo, abbiamo raccolto informazioni rispetto a un gran numero divariabili: il numero di partite giocate (amichevoli e non), il numero di punti fatti relativo alle stesse partite, dei goal fatti e subiti, quello di ammoniti ed espulsi, il ranking Fifa di ogni nazionale, la media dei goal fatti dagli attaccanti, dai centrocampisti e dai difensori convocati per partita giocata; l’età media della rosa; il valore di mercato in milioni di euro della squadra; e, infine, la media delle quotazioni finali delle principali agenzie di bookies. (1)
La tecnica di analisi utilizzata si serve di un tipico strumento della statistica multivariata: l’analisi fattoriale. Si procede, di fatto, all’aggregazione di dati multi-dimensionali per la costruzione di un indicatore sintetico. L’idea è che un insieme di variabili facenti riferimento alle performance calcistiche condividano un fattore latente, nel nostro caso la forza e le potenzialità di una squadra.

L’analisi fattoriale consente di calcolare il peso di ciascuna delle variabili aggregate nel contribuire al fattore latente. In questo caso, l’indicatore che emerge dall’analisi è un unico numero (per ciascuna squadra) a valori crescenti, dalla squadra meno forte a quella più forte.
Il primo fattore latente contribuisce a spiegare quasi il 40 per cento della variabilità complessiva di tutti i dati aggregati, il che rappresenta un risultato soddisfacente, data la costruzione di un indicatore sintetico. Nella tabella seguente sono riportate le variabili con i relativi pesi.

Tabella 1 – Pesi risultanti dall’analisi fattoriale

 Ciascun peso va interpretato come il contributo relativo della variabile alla forza di una squadra: tutti i segni delle variabili corrispondono alle attese.

Interessante il peso più alto dei goal segnati dai centrocampisti, in media, rispetto a quello dei goal degli attaccanti, e anche il valore elevato del valore di mercato della squadra.
Abbiamo simulato, poi, l’andamento del mondiale servendoci degli scores ottenuti per ciascuna nazionale dall’analisi fattoriale, introducendo una seconda variabile nella fase a gironi.
Oltre all’indicatore dell’analisi fattoriale, infatti, abbiamo utilizzato non soltanto le quotazioni ufficiali dei bookies per la vittoria finale, ma anche quelle per la vittoria del girone e per il passaggio ai sedicesimi di finale.
Abbiamo poi combinato i risultati dell’analisi fattoriale con le quotazioni, dando ai primi un peso del 70 per cento e alle seconde un peso del 30 per cento:  in parole povere, a quel che dicono i numeri abbiamo aggiunto un coefficiente ‘fortuna e incertezza’ catturato proprio dalle scommesse dei bookies.

Il risultato

Sulla base dell’analisi, ecco dunque il tabellone con i vari passaggi:

Figura 1 – Il tabellone

Insomma, purtroppo il nostro modello non dà speranze agli azzurri, addirittura eliminati da un sorprendente Giappone.

Dalle semifinali in poi, invece, niente di particolarmente sorprendente: stesse squadre individuate da Goldman Sachs ma con la Spagna vittoriosa.
Va detto che il nostro risultato dà un punteggio, per le due finaliste, davvero vicino, il che ci porta ad azzardare: sfida all’ultimo rigore?
Mai come in questo caso, speriamo di sbagliarci.

 (1) Sono tutti dati ricostruibili attraverso il web. I punti sono così assegnati: vittoria: 3 punti; pareggio: 1 punto; sconfitta: 0 punti. Per calcolare i goal fatti secondo il ruolo, abbiamo considerato la rosa ufficiale di 23 giocatori di ciascuna nazionale e utilizzato la fonte transfermrkt.it e soccerway.it. Per il valore della squadra la fonte è sempre transfermrkt.it. Bwin, Bet365, Sisal MatchPoint, Eurobet, Better, BetClick, PaddyPower e William Hill sono le agenzie di scommesse da cui abbiamo ricavato le quotazioni.