Il previsore ottimo

La previsione puntuale nell’ambito delle serie storiche mira a fornire un valore futuro di Y sulla base dei regressori \(X_1,...,X_m\).

\[Y|X_1, ...,X_m\]

L’errore di previsione è definito come:

\[E = Y - P(X_1, ... , X_m)\] cioè la differenza tra il vero valore e la sua previsione \(P\) basata sui regressori quindi è una funzione misurabile delle esplicative \(X_1, ..., X_m\)

\(E\) è l’errore di previsione se io sottoprevedo errore positivo se sopraprevedo errore negativo.

L’errore di per se non ci dicono quanto costa fare un errore per far questo interviene il concetto di funzione di perdita: La funzione di persita (loss funcion) \(l(e)\) può essere di diversi tipi:

Quadratica \(l(e)=e^2\): penalizza gli errori “grandi” in maniera più che proporzionale rispetto a quelli “piccoli”. Si utilizza spesso perché è matematicamente comoda.

- Assoluta \(l(e)=|e|\): penalizza meno gli errori “grandi”.

- Asimmetrica: nel caso in cui i costi di perdita siano diversi per errori in positivo piuttosto che in negativo, ades. nel caso in cui si produca troppo poco, si dovrà costruire una funzione di perdita che penalizzi in modo asimmetrico errori di sotto-previsione o di sovra-previsione.

Per esempio: \[l(e) = \begin{cases} 19e, & \mbox{if } e>0 \\ -2e, & \mbox{if } e<0 \end{cases} \]

Se ne potrebbero considerare anche altre, dipende dall’obiettivo che ci si pone.

Definizione

Il previsore ottimo è la funzione di P che risolve il seguente problema di minimo:

\[\min_{P}{E[l(Y-P(X_1,...,X_m))]}\]

Potrebbero esserci più funzioni che lo risolvono e vengono chiamate tutte previsore ottimo.

Nel caso della funzione quadratica \(l(e)=e^2\) il previsore ottimo è:

\[E[Y|X_1, ...,X_m]\]

Dimostrazione:

\[\begin{array} {lcl} E[l(Y-P(X_1,...,X_m))] & = & E[(Y-P(X_1,...,X_m))^2] \\ & = & E[(Y-E[Y|X]+E[Y|X]-P(X_1,...,X_m))] \\ & = & E[(Y-E[Y|X])^2]+E[(E[Y|X]-P(X_1,...,X_m))^2]\\ & + &2\space E[Y-E[Y|X]]\space E[E[Y|X]-P(X_1,...,X_m)] \\ & = & E[(Y-E[Y|X])^2]+E[(E[Y|X]-P(X_1,...,X_m))^2]\end{array}\]

Commento:

Il primo elemento \(E[(Y-E[Y|X])^2]\) non dipende da \(P\) quindi non rientra nel problema di minimo e di fatto costtituisce la conponente irriducibile del modello. Il secondo elemento, invece, dipende da \(P\) ed è minimo quando \(P(X_1,...,X_m)=E[Y|X]\)

Proprietà

Linearità: \(E(aY +bZ +c|\underline{X}) = aE(Y|\underline{X}) +bE(Z|\underline{X}) +c\), con \(a,b,c\) costanti.
Legge delle aspettative iterate: \(E(Y) = E[E(Y|\underline{X})]\)
Dim. (nel caso di v.c. continue): \[E(Y) =\int_yf(y)dy =\int_y\int_x f(x,y)dx dy = \\ =\int_y\int_x f(y|x)f(x)dxdy =\int_x f(x)\int_yf(y|x)dydx =\int_xE(Y|X = x)f(x)dx = E[E(Y|\underline{X})]\]
Ortogonalità dell’errore di previsione: \(E{[Y-E(Y|\underline{X})]g(\underline{X})} = 0\), cioè la covarianza tra l’errore e una qualsiasi funzione dei regressori è 0.
Dim. \[E{[Y-E(Y|\underline{X})]g(X)} = E{E[(Y-E(Y|\underline{X})) g(\underline{X})|\underline{X}]} = E{g(\underline{X})[E(Y|\underline{X})-E(Y|\underline{X})]} = 0 \]
Funzioni di variabili condizionanti: \(E(Yg(\underline{X})|\underline{X}) = g(\underline{X})E(Y|\underline{X})\).
Indipendenza dalle variabili condizionanti: \(E(Y|\underline{X}) = E(Y)\) se \(Y \bot \underline{X}\).
Legge della varianza totale: \(Var(Y) = E[Var(Y|\underline{X})] + Var[E(Y|\underline{X})]\).

Il previsore ottimo lineare

Definizione

Se consideriamo solo un insieme \(P\) di funzioni lineari allora si parla di previsore ottimo lineare.

\[L = \{ \beta_0 + \beta_1 \space X_1 + \space ... \space + \beta_m X_m \space | \space \beta_i \in \mathbb{R} \}\]

Considerando quindi per esempio una funzione di perdita lineare il problema di minimo diventa:

\[\min_{P \in L}{MSE}=\min_{P \in L}{E[(Y-P(X_1,...,X_m))^2]}\]

Il problema è più semplice perché invece di cercare in uno spazio di funzioni si cerca un vettore di numeri reali \(\beta_1,...,\beta_m\). Si deve dimostrare che il seguente previsore lineare è ottimo:

\[P(Y|\underline{X}) =\mu_Y + \Sigma_{Y \underline{X}} \Sigma_{\underline{X} \underline{X}}^{-1} \space (\underline{X} - \underline{\mu}_X)\]

Questo problema di minimo presuppone la conoscenza solo dei primi due momenti (se \(\Sigma_{\underline{X} \underline{X}}\) non ha rango pieno non è invertibile, ma non è un problema perchè l’inversa generalizzata può sostituire quella propria e anche se non è unica il previsore ottimo resta unico).

Andiamo a guardare i singoli elementi di \(P(Y|X)\):

\[ \mu_Y=E[Y]\] \[ \Sigma_{YX}=Cov(Y,X)=E[YX]-E[Y]E[X]\] \[ \Sigma_{XX}=Var(X)=E[(X - E[X])^2]\] \[ \mu_X=E[X]\]

In alcuni modelli, come la regressione lineare, si assume che la media condizionata della v.c. dipendente \(Y\) sia una funzione lineare delle variabili esplicative condizionanti, quindi il previsore ottimo e il previsore lineare ottimo coincidono. Un’altra classe di modelli per cui i due previsori coincidono è quella della normale congiunta dove la media condizionata coincide con \(P(Y|X)\) e la varianza condizionata coincide con \(MSE_{lin}\).

Proprietà

Linearità: \(P(aY +bZ +c|\underline{X}) = aP(Y|\underline{X}) +bP(Z|\underline{X}) +c\), con \(a,b,c\) costanti.
Ortogonalità dell’errore di previsione: \(E{[Y-P(Y|\underline{X})\underline{X}^T]} = 0\),
Dim. \[E[(Y-\mu_y-\beta_{YX}(X-\mu_X))X^T] = E[(Y-\mu_y-\beta_{YX}(X-\mu_X))(X-\mu_X)T] = \\ = E(Y-\mu_y)(X-\mu_X)T -\beta_{YX}E(X-\mu_X)(X-\mu_X)T = \Sigma_{YX} -\Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XX} = \\ = \Sigma_{YX} -\Sigma_{YX}= 0\]
Legge delle proiezioni iterate: \(P(Y|X) = P[P(Y|Z,X)|X]\),
Dim.
Non distorsione: \(E[Y-P(Y|X)] = 0\),
Dim. \[E[Y-\mu_Y-\beta_{YX}(X-\mu_X)] = E[Y-\mu_Y]-\beta_{YX}E[X-\mu_X] = 0\]
MSE della previsione: \(MSE_{lin} = \Sigma_{YY}-\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}\)
Dim. \[E[(Y-P(Y|X))(Y-P(Y|X))T] = E[(Y-\mu_Y-\beta_{YX}(X-\mu_X))(\%)^T] = \\ = E[(Y-\mu_Y)(\%)^T] + \beta_{YX}E[(X-\mu_X)(\%)^T]B^T_{YX} -E[(Y-\mu_Y)(X-\mu_X)T]B^T_{YX}- \\ -\beta_{YX}E[(X-\mu_X)(Y-\mu_Y)T] = \\ = \Sigma_{YY} +\Sigma_{YX}\Sigma_{XX}^{-1} \Sigma_{XX} \Sigma_{XX}^{-1}\Sigma_{XY} -\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY} - \\ - \Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY} = \Sigma_{YY}-\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}\]
Proiezione su variabili ortogonali (previsione lineare per mezzo di variabili \(X,Z\) incorrelate): \(se \space E(X-\mu_X)(Z-\mu_Z)^T = 0 \space allora \space P(Y|X,Z) = \mu_Y + P(Y-\mu_Y|X) + P(Y-\mu_Y|Z)\)
Dim. \[P(Y|X,Z) = \mu_Y + \left( \begin{array}{cc} \Sigma_{YX} & \Sigma_{YZ}\end{array}\right) \left(\begin{array}{cc} \Sigma_{XX} & 0 \\ 0 & \Sigma_{ZZ}\end{array}\right)^{-1} \left( \begin{array}{cc} X-\mu_X & Z-\mu_Z\end{array}\right)= \\ = \mu_Y +\left( \begin{array}{cc}\Sigma_{YX} & \Sigma_{YZ}\end{array}\right) \left( \begin{array}{cc}\Sigma_{XX}^{-1}(X-\mu_X) \\ \Sigma_{ZZ}^{-1}(Z-\mu_Z)\end{array}\right)= \\ =\mu_Y +\Sigma_{YX}\Sigma_{XX}^{-1}(X-\mu_X) +\Sigma_{YZ}\Sigma_{ZZ}^{-1}(Z-\mu_Z) = \\ = \mu_Y + P(Y-\mu_Y|X) + P(Y-\mu_Y|Z)\] (si tiene conto solo una volta della media della Y).
Updating (aggiornamento della previsione sulla base della nuova conoscenza di Z): \[P(Y|Z,X) = P(Y|X) + P[Y-P(Y|X)|Z-P(Z|X)] = \\ = P(Y|X) + \Sigma_{YZ|X}\Sigma_{ZZ|X }^{-1} \Sigma_{ZY|X} \space (Z-P(Z|X)) \\ t.c. \space \Sigma_{YZ|X }= E[(Y-P(Y|X))(Z-P(Z|X))^T] \\ t.c. \space \Sigma_{ZZ|X} = E[(Z-P(Z|X))(Z-P(Z|X))^T]\]

Esercizio

Siano \(X, \space Z\) variabili casuali normali standard indipendenti.

Sia \(Y =|X|+Z\), calcolare:

il previsore ottimo \(E[Y|X]\) e il rispettivo MSE,
il previsore lineare \(P[Y|X]\) e il rispettivo MSE,
il previsore lineare \(P[Y|X^2]\) e il rispettivo MSE.

\[N.B. \\ E[|X|]=\sqrt{2/\pi}, \\ Var(|X|)=1- 2 / \pi \\ Cov(|X|,X^2)=\sqrt{2/ \pi} \]

Sia \(Y = X \space Z^2\), calcolare:

\(E[Y|X]\)

\(E[Y|X,Z]\)

\(P[Y|X]\)

\(P[Y|X,Z]\)

Soluzione

Domanda a.

\[i. \\ E[Y|X]=E[(|X|+Z)|X]=E[(|X|)|X]+E[Z|X]=|X| \\ ii. \\ MSE=E[(Y-|X|)^2]=E[(|X|+Z-|X|)^2]=E[Z^2]=Var(Z)=1\]

Domanda b.

\[i. \\ \mu_Y=E[Y]=E[(|X|+Z)]=E[(|X|)]+E[(Z)]= \sqrt{2/\pi} + 0 = \sqrt{2/\pi} \\\Sigma_{YX}= E[YX]-E[Y]E[X]=E[(|X|+Z)X]-E[(|X|+Z)]E[X]=\\=E[(|X|X)]+E[ZX]-(E[|X|]+E[Z])E[X] = \\=P(x<0)E[(X^2)]-P(x<0)E[(X^2)]+E[ZX]-(E[|X|]+E[Z])E[X] = \\ = 0.5 \space 0-0.5 \space 0 + 0 -(\sqrt{2/\pi}+0) \space 0=0 \\ non \space calcoliamo \space il \space resto \\ P(Y|X)=\sqrt{2/\pi} \approx 0.798, \\ ii. \\ MSE=E[(Y-\sqrt{2/\pi})^2]=E[(|X|-\sqrt{2/\pi}+Z)^2] = \\ = E[(|X|-\sqrt{2/\pi})^2]+E[Z^2]+2 E[(|X|-\sqrt{2/\pi})] E[Z] = \\ = E[(|X|-\sqrt{2/\pi})^2]+E[Z^2]= \\ = Var(|X|)+1 = 1- 2 / \pi +1 \approx 1.36 \]
Domanda c.

\[i. \\ \mu_Y=E[Y]=E[(|X|+Z)]=E[(|X|)]+E[(Z)]= \sqrt{2/\pi} + 0 = \sqrt{2/\pi} \\\Sigma_{YX^2}= E[YX^2]-E[Y]E[X^2]=E[(|X|+Z)X^2]-E[(|X|+Z)]E[X^2]=\\=E[(|X|X^2)]+E[ZX^2]-(E[|X|]+E[Z])E[X^2] = \\=Cov(|X|,X^2)+E[ZX^2]-(E[|X|]+E[Z])E[X^2] = \\ = \sqrt{2/ \pi} + 0 -(\sqrt{2/\pi}+0) \space 0=\sqrt{2/ \pi} \\ \\ \Sigma_{X^2X^2}=E[X^4]=Var(X^2)=2k=2 \space->Chi-quadro \\ \mu_{X^2}=E[X^2]=k=1 \space->Chi-quadro \\ P(Y|X)=\sqrt{2/\pi}+\sqrt{2/\pi} \space 2(X^2-1) \approx -0.798+1.596\space X^2, \\ ii. \\ MSE=E[(Y-\sqrt{2/\pi}-\sqrt{2/\pi} \space 2(X^2-1))^2]= \\ = E[(|X|-\sqrt{2/\pi}-\sqrt{2/\pi} \space 2(X^2-1)+Z)^2] = \\ =E[(|X|-\sqrt{2/\pi})^2]+2/\pi \space 4 \space E[(X^2-1)^2]+E[Z^2]- \\ -E[ \sqrt{2/\pi} (|X|-\sqrt{2/\pi}) (X^2-1)] = \\ = 1-\sqrt{2/\pi}+\sqrt{1/\pi}+1-\sqrt{2/\pi} \approx 1.05 \]

Domanda d.

\[i. \\ E[Y|X]=E[(XZ^2)|X]=E[(X)|X]+E[Z|X]=X \\ ii. \\ MSE=E[(Y-X)^2]=E[(XZ^2-X)^2]=\\=E[X^2Z^4]+E[X^2]-2E[(XZ^2)]E[X]=\\=E[X^2](E[Z^4]+1-2E[Z^2])=\\=Var(X)(Var(Z^2)+1-2Var(Z))=\\=1 (2+1-2)=1\]

Domanda e.

\[i. \\ E[Y|X,Z]=E[(XZ^2)|X,Z]=XZ^2 \\ ii. \\ MSE=E[(Y-XZ^2)^2]=E[(XZ^2-XZ^2)^2]=0\]

Domanda f.

\[i. \\ \mu_Y=E[Y]=E[(XZ^2)]=0 \\Sigma_{YX}= Cov(Y,X)=Cov(XZ^2,X)= \\=Cov(X,X) = Var(X)=1 \\ \Sigma_{XX}=E[X^2]=Var(X)=1 \\ \mu_{X}=E[X]=0 \\ P(Y|X)=0+1*1(X-0) = 0+1\space X, \\ ii. \\ MSE=E[(Y-X)^2]=E[(XZ^2-X)^2]=\\=E[X^2Z^4]+E[X^2]-2E[(XZ^2)]E[X]=\\=E[X^2](E[Z^4]+1-2E[Z^2])=\\=Var(X)(Var(Z^2)+1-2Var(Z))=\\=1 (2+1-2)=1 \]

Domanda g.

\[i. \\ \mu_Y=E[Y]=E[(XZ^2)]=0 \\ \Sigma_{YX}= Cov(Y,X)=Cov(XZ^2,X)= \\=Cov(X,X) = Var(X)=1 \\ \Sigma_{XX}=E[X^2]=Var(X)=1 \\ \mu_{X}=E[X]=0 \\ \Sigma_{YZ}= Cov(Y,Z)=Cov(XZ^2,Z)= \\=Cov(Z^2,Z) = E[Z^3]=0 \\ \Sigma_{ZZ}=E[Z^2]=Var(Z)=1 \\ \mu_{Z}=E[Z]=0 \\ P(Y|X)= \mu_Y +\left( \begin{array}{cc}\Sigma_{YX} & \Sigma_{YZ}\end{array}\right) \left( \begin{array}{cc}\Sigma_{XX}^{-1}(X-\mu_X) \\ \Sigma_{ZZ}^{-1}(Z-\mu_Z)\end{array}\right)= \\ =\mu_Y +\Sigma_{YX}\Sigma_{XX}^{-1}(X-\mu_X) +\Sigma_{YZ}\Sigma_{ZZ}^{-1}(Z-\mu_Z) = \\ = 0+1\space 1 \space (X-0)+0 \space 1 \space (Z-0) = X, \\ ii. \\ MSE=E[(Y-X)^2]=E[(XZ^2-X)^2]=\\=E[X^2Z^4]+E[X^2]-2E[(XZ^2)]E[X]=\\=E[X^2](E[Z^4]+1-2E[Z^2])=\\=Var(X)(Var(Z^2)+1-2Var(Z))=\\=1 (2+1-2)=1 \]

Teoria della previsione

Articoli di approfondimento

Il previsore ottimo

Definizione

Proprietà

Il previsore ottimo lineare

Definizione

Proprietà

Esercizio

Soluzione