ANALISI DELLE PRESTAZIONI E PREVISIONE DEL
RISULTATO DI UNA COMPETIZIONE CALCISTICA


"Gli italiani perdono le partite di calcio come se fossero guerre e perdono le guerre come se fossero partite di calcio." Winston Churchill

Il presente lavoro ha come oggetto l’analisi delle competizioni calcistiche attraverso i dati storici dei cinque campionati principali Europei per 22 anni, ovvero dalla stagione 1993-1994 fino al 20152016, per riuscire a mettere a punto un modello di previsione dei risultati sulla base delle stime delle probabilità delle singole squadre.

Il primo passo per impostare un’indagine statistica consiste nell’individuare la popolazione, l’unità statistica e l’unità di rilevazione, dove con il termine di unità statistiche si intende le unità sulle quali si analizza un certo fenomeno, mentre con il termine unità di rilevazione si intende l’elemento o gli elementi che si analizza durante l’indagine. Lo studio svolto ha avuto come riferimento le “squadre di calcio”. Tuttavia, si può notare come queste varino nel tempo e la stessa squadra di calcio di un determinato anno, si differenzi dalla medesima dell’anno successivo. Tale variazione si può comprendere pensando alla recente tendenza di un “calciomercato” molto attivo e capace di differenziare la squadra e le prestazioni dei giocatori da un anno ad un altro. Per tale ragione, è stata posta come ipotesi di base di questa ricerca l’assunzione che ogni squadra sia una popolazione diversa di anno in anno, ma omogenea all’interno del singolo anno. Le unità statistiche che si è voluto prendere in considerazione sono le squadre presenti nei cinque principali campionati europei: Serie A, Premier League, Bundesliga, La Liga e Ligue 1. Come carattere di rilevazione questa indagine analizza i goal subiti e quelli realizzati dalle squadre. I mezzi tecnici per raccogliere le informazioni su tali caratteri sono tecniche di webscrapng dai principali siti del settore.

La misura della dispersione indica la misura con cui le osservazioni sono disperse o diffuse intorno al centro. L'indice di dispersione (o coefficiente di dispersione) è una misura comunemente utilizzata nelle statistiche (e nella teoria della probabilità); consiste nel rapporto tra varianza e media (VMR) o coefficiente di dispersione. Proprio come il coefficiente di variazione, il rapporto tra la deviazione standard (σ) e il valore assoluto della media aritmetica (μ), ovvero l'indice di dispersione, è anch’esso una misura relativa della dispersione di una determinata distribuzione, evidenziando se le osservazioni sono disperse o raggruppate. L'indice di dispersione è la misura della grandezza della dispersione per una distribuzione e può essere utilizzato per confrontare la, cosiddetta, volatilità delle diverse attività. Se il suo valore è uguale a zero, si dice che i dati sono "non dispersi"; se, invece, risulta maggiore uguale di uno, i dati vengono chiamati "over dispersed"; infine se è compreso tra zero e uno, i dati si dicono "under dispersed ".

Questo procedimento di calcolo dell’indice di dispersione è stato fatto per tutto il set di dati, dalla stagione 1993-1994 fino alla stagione 2015-2016 e si è potuto notare che i dati avevano dendenza ad avere un indice di dispersione prossimo all'1, quindi una media uguale alla varianza. Per avere un ulteriore conferma ho studiato la relazione tra Y=varianza delle squadre e X=media delle squadre ponderate per un coefficiente β. Stimato questo modello e verifica che l'intercetta sia prossima allo zero e che la stima del coefficente β sia circa 1 abbiamo la conferma che il Per valutare le potenzialità delle singole squadre si è deciso di prendere in considerazione la distribuzione dei risultati delle competizioni, in particolare si è stabilito di studiare le distribuzioni (discrete) dei “goal realizzati” e dei “goal subiti”. Con riferimento ai meccanismi generatori delle osservazioni “goal subiti” e “goal realizzati”, si può ipotizzare che questi seguano la distribuzione di Poisson (grazie al calcolo dellindice di dispersione fatto il precedenza). La distribuzione di Poisson è una distribuzione di probabilità discreta che esprime le probabilità del presentarsi di un numero di eventi, accadono in maniera indipendente in un dato intervallo di tempo.

Sfruttando questa ipotesi che il modello si distribuisca come una Poisson calcoliamo la sua coniugata che sappiamo, grazie alla sua appartenenza alla famiglia esponenziale, essere una distribuzione Gamma di conseguenze possiamo ipotizzare un modello bayesiano. La distribuzione Poisson-Gamma è la distribuzione di probabilità associata a una variabile casuale poissoniana, Poiss(λ), in cui il parametro λ non è costante ma varia come una variabile casuale Gamma; in altre parole è una mistura di Poisson in cui il parametro λ ha distribuzione Gamma. Si tratta di una generalizzazione della distribuzione casuale binomiale negativa al caso di parametri non interi.
Per la scelta degli iperparametri si è deciso di stimare tramite un double bootstrap la varianza e la media della v.c. λ e confrontarli con i momenti teorici della distribuzione Gamma per trovare α e β.

Una volta stimati tutti i valori e calcolate le probabilità di ogni partita si è deciso di correggere determinati errori attraverso algoritmi di Machine Learning e tecniche di Ensemble Learning per ottenere un risultato più accurato possibile

LINK DELLA APPLICAZIONE