La previsione puntuale nell’ambito delle serie storiche mira a fornire un valore futuro di Y sulla base dei regressori \(X_1,...,X_m\).
\[Y|X_1, ...,X_m\]
L’errore di previsione è definito come:
\[E = Y - P(X_1, ... , X_m)\] cioè la differenza tra il vero valore e la sua previsione \(P\) basata sui regressori quindi è una funzione misurabile delle esplicative \(X_1, ..., X_m\)
\(E\) è l’errore di previsione se io sottoprevedo errore positivo se sopraprevedo errore negativo.
L’errore di per se non ci dicono quanto costa fare un errore per far questo interviene il concetto di funzione di perdita: La funzione di persita (loss funcion) \(l(e)\) può essere di diversi tipi:
- Assoluta \(l(e)=|e|\): penalizza meno gli errori “grandi”.
- Asimmetrica: nel caso in cui i costi di perdita siano diversi per errori in positivo piuttosto che in negativo, ades. nel caso in cui si produca troppo poco, si dovrà costruire una funzione di perdita che penalizzi in modo asimmetrico errori di sotto-previsione o di sovra-previsione.
Per esempio: \[l(e) = \begin{cases} 19e, & \mbox{if } e>0 \\ -2e, & \mbox{if } e<0 \end{cases} \]
Il previsore ottimo è la funzione di P che risolve il seguente problema di minimo:
\[\min_{P}{E[l(Y-P(X_1,...,X_m))]}\]
Potrebbero esserci più funzioni che lo risolvono e vengono chiamate tutte previsore ottimo.
Nel caso della funzione quadratica \(l(e)=e^2\) il previsore ottimo è:
\[E[Y|X_1, ...,X_m]\]
Dimostrazione:
\[\begin{array} {lcl} E[l(Y-P(X_1,...,X_m))] & = & E[(Y-P(X_1,...,X_m))^2] \\ & = & E[(Y-E[Y|X]+E[Y|X]-P(X_1,...,X_m))] \\ & = & E[(Y-E[Y|X])^2]+E[(E[Y|X]-P(X_1,...,X_m))^2]\\ & + &2\space E[Y-E[Y|X]]\space E[E[Y|X]-P(X_1,...,X_m)] \\ & = & E[(Y-E[Y|X])^2]+E[(E[Y|X]-P(X_1,...,X_m))^2]\end{array}\]
Commento:
Il primo elemento \(E[(Y-E[Y|X])^2]\) non dipende da \(P\) quindi non rientra nel problema di minimo e di fatto costtituisce la conponente irriducibile del modello. Il secondo elemento, invece, dipende da \(P\) ed è minimo quando \(P(X_1,...,X_m)=E[Y|X]\)Se consideriamo solo un insieme \(P\) di funzioni lineari allora si parla di previsore ottimo lineare.
\[L = \{ \beta_0 + \beta_1 \space X_1 + \space ... \space + \beta_m X_m \space | \space \beta_i \in \mathbb{R} \}\]
Considerando quindi per esempio una funzione di perdita lineare il problema di minimo diventa:
\[\min_{P \in L}{MSE}=\min_{P \in L}{E[(Y-P(X_1,...,X_m))^2]}\]
Il problema è più semplice perché invece di cercare in uno spazio di funzioni si cerca un vettore di numeri reali \(\beta_1,...,\beta_m\). Si deve dimostrare che il seguente previsore lineare è ottimo:
\[P(Y|\underline{X}) =\mu_Y + \Sigma_{Y \underline{X}} \Sigma_{\underline{X} \underline{X}}^{-1} \space (\underline{X} - \underline{\mu}_X)\]
Questo problema di minimo presuppone la conoscenza solo dei primi due momenti (se \(\Sigma_{\underline{X} \underline{X}}\) non ha rango pieno non è invertibile, ma non è un problema perchè l’inversa generalizzata può sostituire quella propria e anche se non è unica il previsore ottimo resta unico).
Andiamo a guardare i singoli elementi di \(P(Y|X)\):
\[ \mu_Y=E[Y]\] \[ \Sigma_{YX}=Cov(Y,X)=E[YX]-E[Y]E[X]\] \[ \Sigma_{XX}=Var(X)=E[(X - E[X])^2]\] \[ \mu_X=E[X]\]
In alcuni modelli, come la regressione lineare, si assume che la media condizionata della v.c. dipendente \(Y\) sia una funzione lineare delle variabili esplicative condizionanti, quindi il previsore ottimo e il previsore lineare ottimo coincidono. Un’altra classe di modelli per cui i due previsori coincidono è quella della normale congiunta dove la media condizionata coincide con \(P(Y|X)\) e la varianza condizionata coincide con \(MSE_{lin}\).
Siano \(X, \space Z\) variabili casuali normali standard indipendenti.
Sia \(Y =|X|+Z\), calcolare:
\[N.B. \\ E[|X|]=\sqrt{2/\pi}, \\ Var(|X|)=1- 2 / \pi \\ Cov(|X|,X^2)=\sqrt{2/ \pi} \]
Sia \(Y = X \space Z^2\), calcolare:
Domanda a.
\[i. \\ E[Y|X]=E[(|X|+Z)|X]=E[(|X|)|X]+E[Z|X]=|X| \\ ii. \\ MSE=E[(Y-|X|)^2]=E[(|X|+Z-|X|)^2]=E[Z^2]=Var(Z)=1\]
Domanda b.
\[i. \\ \mu_Y=E[Y]=E[(|X|+Z)]=E[(|X|)]+E[(Z)]= \sqrt{2/\pi} + 0 = \sqrt{2/\pi} \\\Sigma_{YX}= E[YX]-E[Y]E[X]=E[(|X|+Z)X]-E[(|X|+Z)]E[X]=\\=E[(|X|X)]+E[ZX]-(E[|X|]+E[Z])E[X] = \\=P(x<0)E[(X^2)]-P(x<0)E[(X^2)]+E[ZX]-(E[|X|]+E[Z])E[X] = \\ = 0.5 \space 0-0.5 \space 0 + 0 -(\sqrt{2/\pi}+0) \space 0=0 \\ non \space calcoliamo \space il \space resto \\ P(Y|X)=\sqrt{2/\pi} \approx 0.798, \\ ii. \\ MSE=E[(Y-\sqrt{2/\pi})^2]=E[(|X|-\sqrt{2/\pi}+Z)^2] = \\ = E[(|X|-\sqrt{2/\pi})^2]+E[Z^2]+2 E[(|X|-\sqrt{2/\pi})] E[Z] = \\ = E[(|X|-\sqrt{2/\pi})^2]+E[Z^2]= \\ = Var(|X|)+1 = 1- 2 / \pi +1 \approx 1.36 \]
Domanda c.
\[i. \\ \mu_Y=E[Y]=E[(|X|+Z)]=E[(|X|)]+E[(Z)]= \sqrt{2/\pi} + 0 = \sqrt{2/\pi} \\\Sigma_{YX^2}= E[YX^2]-E[Y]E[X^2]=E[(|X|+Z)X^2]-E[(|X|+Z)]E[X^2]=\\=E[(|X|X^2)]+E[ZX^2]-(E[|X|]+E[Z])E[X^2] = \\=Cov(|X|,X^2)+E[ZX^2]-(E[|X|]+E[Z])E[X^2] = \\ = \sqrt{2/ \pi} + 0 -(\sqrt{2/\pi}+0) \space 0=\sqrt{2/ \pi} \\ \\ \Sigma_{X^2X^2}=E[X^4]=Var(X^2)=2k=2 \space->Chi-quadro \\ \mu_{X^2}=E[X^2]=k=1 \space->Chi-quadro \\ P(Y|X)=\sqrt{2/\pi}+\sqrt{2/\pi} \space 2(X^2-1) \approx -0.798+1.596\space X^2, \\ ii. \\ MSE=E[(Y-\sqrt{2/\pi}-\sqrt{2/\pi} \space 2(X^2-1))^2]= \\ = E[(|X|-\sqrt{2/\pi}-\sqrt{2/\pi} \space 2(X^2-1)+Z)^2] = \\ =E[(|X|-\sqrt{2/\pi})^2]+2/\pi \space 4 \space E[(X^2-1)^2]+E[Z^2]- \\ -E[ \sqrt{2/\pi} (|X|-\sqrt{2/\pi}) (X^2-1)] = \\ = 1-\sqrt{2/\pi}+\sqrt{1/\pi}+1-\sqrt{2/\pi} \approx 1.05 \]
Domanda d.
\[i. \\ E[Y|X]=E[(XZ^2)|X]=E[(X)|X]+E[Z|X]=X \\ ii. \\ MSE=E[(Y-X)^2]=E[(XZ^2-X)^2]=\\=E[X^2Z^4]+E[X^2]-2E[(XZ^2)]E[X]=\\=E[X^2](E[Z^4]+1-2E[Z^2])=\\=Var(X)(Var(Z^2)+1-2Var(Z))=\\=1 (2+1-2)=1\]
Domanda e.
\[i. \\ E[Y|X,Z]=E[(XZ^2)|X,Z]=XZ^2 \\ ii. \\ MSE=E[(Y-XZ^2)^2]=E[(XZ^2-XZ^2)^2]=0\]
Domanda f.
\[i. \\ \mu_Y=E[Y]=E[(XZ^2)]=0 \\Sigma_{YX}= Cov(Y,X)=Cov(XZ^2,X)= \\=Cov(X,X) = Var(X)=1 \\ \Sigma_{XX}=E[X^2]=Var(X)=1 \\ \mu_{X}=E[X]=0 \\ P(Y|X)=0+1*1(X-0) = 0+1\space X, \\ ii. \\ MSE=E[(Y-X)^2]=E[(XZ^2-X)^2]=\\=E[X^2Z^4]+E[X^2]-2E[(XZ^2)]E[X]=\\=E[X^2](E[Z^4]+1-2E[Z^2])=\\=Var(X)(Var(Z^2)+1-2Var(Z))=\\=1 (2+1-2)=1 \]
Domanda g.
\[i. \\ \mu_Y=E[Y]=E[(XZ^2)]=0 \\ \Sigma_{YX}= Cov(Y,X)=Cov(XZ^2,X)= \\=Cov(X,X) = Var(X)=1 \\ \Sigma_{XX}=E[X^2]=Var(X)=1 \\ \mu_{X}=E[X]=0 \\ \Sigma_{YZ}= Cov(Y,Z)=Cov(XZ^2,Z)= \\=Cov(Z^2,Z) = E[Z^3]=0 \\ \Sigma_{ZZ}=E[Z^2]=Var(Z)=1 \\ \mu_{Z}=E[Z]=0 \\ P(Y|X)= \mu_Y +\left( \begin{array}{cc}\Sigma_{YX} & \Sigma_{YZ}\end{array}\right) \left( \begin{array}{cc}\Sigma_{XX}^{-1}(X-\mu_X) \\ \Sigma_{ZZ}^{-1}(Z-\mu_Z)\end{array}\right)= \\ =\mu_Y +\Sigma_{YX}\Sigma_{XX}^{-1}(X-\mu_X) +\Sigma_{YZ}\Sigma_{ZZ}^{-1}(Z-\mu_Z) = \\ = 0+1\space 1 \space (X-0)+0 \space 1 \space (Z-0) = X, \\ ii. \\ MSE=E[(Y-X)^2]=E[(XZ^2-X)^2]=\\=E[X^2Z^4]+E[X^2]-2E[(XZ^2)]E[X]=\\=E[X^2](E[Z^4]+1-2E[Z^2])=\\=Var(X)(Var(Z^2)+1-2Var(Z))=\\=1 (2+1-2)=1 \]