Prior non informative

Un altra possibilità per scegliere la prior discende da meccanismi automatici che non inseriscono soggettività, Queste sono anche conosciute come prior oggettive, convenzionali o di default.

In questo articolo si andranno ad analizzare

la prior di Laplace;
la prior di Jeffreys;
la prior di Vague.

Prior di Laplace

La prior di Laplace si basa sulla distribuzione Uniforme, infatti:

Se \(\Theta = \{ \theta_1, ..., \theta_k \}\) è “limitato e discreto” posso ipotizzare una prior nel seguente modo:

\(\rightarrow \pi_L(\theta_i) = \frac{1}{k} \space \space \space \space \space \forall i = 1,2, ... , k\) ossia una prior costante

Ma cosa succede se il supporto di \(\theta\) non è discreto o è illimitato?

In questi casi essendo che abbiamo ipotizzato la prior costante possiamo ipotizzare una costante qualsiasi e per comodità si suppone che sia 1

\[ \pi_L(\theta)= c \propto 1\]

Quindi in definitiva secondo questo metodo posso ipotizzare una prior costante uguale a 1.

Problematicità 1: Prior impropria

Questa prior ovviamente è impropria in quanto:

condizione 1: \[ \lim_{\theta \rightarrow \Theta_-} \int_{\Theta_-}^{\theta} \pi_l(\theta) \space \space d \theta \ne 0 \]
condizione 2: \[ \lim_{\theta \rightarrow \Theta_+} \int_{\Theta_-}^{\theta} \pi_l(\theta) \space \space d \theta \ne 1 \]

Ma in realtà non importa che la prior sia impropria perchè la posterior deve essere propria e se utilizzando questa prior la posterior risulta propria allora si può utilizzare la prior di Laplace.

Esempio

Ipotiziamo: \[f(x|\theta) \propto \theta^4 x^3 e^{-\theta x }\] t.c. \(x>0; \theta >0\)

Si vuole utilizzare la prior di Laplace per costruire la posterior:

\[ \pi_L(\theta) \propto 1\]

\[ \pi(\theta | \underline x )\propto f(\underline x|\theta) \space \space \pi_L(\theta) \propto \prod_{i=1}^n \theta^4 x_i^3 e^{-\theta x_i } = \\= \theta^{4 \space n} \bigg(\prod_{i=1}^n x_i \bigg)^3 e^{-\theta \sum x_i } \propto \\ \propto \theta^{4 \space n} e^{-\theta \sum x_i }\]

Si riconosce il nucle di una \(Gamma(4n+1, \space \space \sum x_i)\)

Problematicità 2: Può essere non invariante

La prior di Laplace oltre al problema di essere impropria può presentare un secondo incoveniente: può essere invariante.

Se nella situazione spiegata nell’esempio appena sopra al posto di stimare \(\theta\) avessi dovuto stimare \(\lambda = g(\theta)\), possiamo usare la stessa prior e riparametrizzarla?

SI, solo se:

Modello 1	Modello 2
Passo1a: creo modello indotto \[ (S_x , f(\underline x ; \theta), \Theta) \]	Passo1b: riparametrizzo \[\lambda = g(\theta)\]
Passo2a: elicitazione \[ Trovo \space \space \pi(\theta)\]	Passo 2b: creo modello indotto \[ (S_x , f_1(\underline x ; \lambda), \Lambda) \]
Passo3a: riparametrizzo \[\lambda = g(\theta) \\ \theta = g^{-1}(\lambda) \\ \pi^*(\lambda) = \pi(g^{-1}(\lambda)) \space \space \mid \space \frac{\partial g^{-1}(\lambda)}{ \partial \lambda} \space\mid \]	Passo3b: elicitazione \[ Trovo \space \space \pi^{**}(\lambda)\]

Se le posterior derivanti da questi metodi \((\space \pi^{*}(\lambda) \space e \space \pi^{**}(\lambda)\space)\) sono uguali allora la prior di Laplace è dotata di invarianza.

Prior di Jeffreys

Questa seconda metodologia associa una regola di elicitazione non soggettiva utilizzando l’informazione attesa di Fisher:

\[ \pi_j(\theta) \propto \sqrt{I_A(\theta)} \]

L’informazione di Fisher può essere interpretata come l’ammontare dei informazione contenuta da una variabile casuale osservabile \(X\), concernente un parametro non osservabile \(\theta\) da cui dipende la distribuzione di probabilità di una chi-quadro.L’informazione di Fisher può essere dunque letta come una misura della curvatura della verosimiglianza in corrispondenza della stima di massima verosimiglianza per \(\theta\). Una verosimiglianza piatta con una derivata seconda modesta comporterà minore informazione, laddove una maggior curva apporterà una maggiore quantità di informazione. Informazione di Fisher attesa:

\[ I_A(\theta) = E \bigg[\space \bigg( \frac{\partial log(f(\underline x ; \theta))}{ \partial \theta} \bigg)^2\space \bigg] = - E \bigg[\space \bigg( \frac{\partial^2 log(f(\underline x ; \theta))}{ \partial \theta^2} \bigg)\space \bigg] \]

Informazione di Fisher osservata:

\[\mathscr{I}_A(\theta) = - \bigg( \frac{\partial^2 log(f(\underline x ; \theta))}{ \partial \theta^2} \bigg) \]

A livello interpretativo si può dire che l’informazione attesa, che dipende dal parametro ma non dal campione, è una misura dell’informazione portata da un generico campione per il dato esperimento, mentre l’informazione osservata, che dipende solo dal campione, misura l’informazione portata dal campione osservato, l’informazione osservata può essere una buona stima per l’informazione attesa di Fisher.

Questa prior risulta sempre invariante ma non sempre propria.

Esempio

Ipotiziamo:

\[ X \sim Pois(\theta)\]

\(hp. \space n=1 \rightarrow f(\underline x;\theta)= \frac{e^{-\theta}\space \theta^x}{x!}\)

calcola la prior di Jeffreys

INFORMAZIONE ATTESA

\[ I_A(\theta) = - E \bigg[\space \bigg( \frac{\partial^2 log(f(\underline x ; \theta))}{ \partial \theta^2} \bigg)\space \bigg] = \\ = - E \bigg[\space \bigg( \frac{\partial^2 (-\theta+x \space \log \theta - \log{x!})}{ \partial \theta^2} \bigg)\space \bigg]= \\ = - E \bigg[\space - \frac{x}{\theta^2}\space \bigg] = \frac{E[x]}{\theta^2} = \\ = \frac{\theta}{\theta^2} = \frac{1}{\theta}\]

Quindi la PRIOR DI JEFFREYS:

\[ \pi_j(\theta) \propto \sqrt{I_A(\theta)}=\sqrt{\frac{1}{\theta}}=\bigg(\frac{1}{\theta}\bigg)^{-\frac{1}{2}}\]

Prior di Vague

Questa ultima tecnica (a mio parere un po’ meno fine rispetto alle altre) utilizza una qualsiasi forma funzionale nota definita in \(\Theta\) imponendo una varianza molto elevata.

Ad esempio si può scegliere una Normale centrata sulla media a priori (ma in raltà non è necessaria) e una varianza molto elevata: \[ Normale(\theta_{\space 0}, \space \space 10^5) \]