Distribuzioni coniugate al modello

Dato un modello \(\{S_x \space ; \space \Psi (\underline x | \theta ) \space ; \space S_\theta = \Theta \}\) allora la classe parametrica \(D\) di distribuzione per \(\theta\) si dice coniugata al modello se, scelta in \(D\) la prior, anche la posterior vi appartiene per ogni valori di \(\underline{x}\).

In termini formali si dice che:

\(\underline{x} \sim f(\underline{x}; \theta)\) con N prove i.i.d.

abbaimo un modello indotto:

\[ \{S_x \space ; \space \Psi (\underline x | \theta ) \space ; \space S_\theta = \Theta \} \]

Se \(f(\underline{x}; \theta)\) appartiene alla famiglia esponenziale:

\[ f(\underline{x} | \theta) = D(\underline{x}) \space \exp{ \{b\space(\theta)\space \space g\space(\underline{x}) - c \space( \theta) \} } \]

Allora la prior avra’ una funzione di densità “standard” (appartenente alla famiglia esponenziale: ad es. Normale, Gamma, Poisson, …):

\[ \pi(\theta) \propto \exp{ \{\eta_{\space 1} \space \space b \space ( \theta) - \eta_{\space 2} \space \space c \space ( \theta) \}} \space | \partial \space b \space ( \theta) / \partial \space \theta | \sim_{il \space nucleo} funzione \space di \space densità \space standard \] Allora se la posterior avrà anch’essa una funzione di densità “standard” uguale a quella della prior ma con parametri differenti:

\[\pi(\underline{x} | \theta) = \frac{ f(\underline{x} | \theta) \pi(\theta)}{\int_{\Theta}{f(\underline{x} | \theta) \pi(\theta)}} \propto \space f(\underline{x} | \theta) \pi(\theta) \sim_{il \space nucleo} funzione \space di \space densità \space standard\]

Abbiamo così trovato la distribuzione coniugata al modello.

Alcune delle più comuni distriuzioni coniugate:

Nome distribuzione	Modello base \(\space f(\underline{x} \| \theta)\)	Classe coniugata \(\pi(\theta)\)	Aggiornamento iper-parametri \(\pi(\underline{x} \| \theta)\)
Uniforme	\(Uniforme(0 , \theta)\)	\(Pareto(\alpha, \beta)\)	\(Pareto(\alpha+ n, max\{\beta, x_{(n)} \})\)
Bernoulli	\(\space Be(\theta)\)	\(Beta(\alpha, \beta)\)	\(Beta(\alpha + \sum x_i, \beta + n - \sum x_i)\)
Poisson	\(Pois(\alpha , \beta)\)	\(Gamma(\alpha , \beta)\)	\(Gamma(\alpha + \sum x_i , \beta + n)\)
Esponenziale	\(Exp(\theta)\)	\(Gamma(\alpha , \beta)\)	\(Gamma(\alpha + n , \beta + \sum x_i )\)
Esponenziale	\(Exp(\frac{1}{\theta})\)	\(GammaInv(\alpha , \beta)\)	\(GammaInv(\alpha + n , \beta + \sum x_i )\)
Normale	\(Normale( \mu , \sigma^2 = NOTA)\)	\(Normale( \mu_0, \sigma^2_0)\)	\(Normale( \frac{\mu_0 + \sum x_i \space \sigma^2_0}{ \sigma^2_0 \space n + \sigma^2}, \frac{\sigma^2 \space \sigma^2_0}{ \sigma^2_0 \space n + \sigma^2})\)
Normale	\(Normale( \mu = NOTA , \sigma^2)\)	\(GammaInv(\alpha , \beta)\)	\(GammaInv(\alpha + \frac{n}{2} , \beta + \frac{\sum (x_i - \mu)^2}{2})\)

Vediamo alcune dimostrazioni di queste relazioni:

Esempio facile: Modello Bernoulli-Beta

\(X \sim Be(\theta)\) con n prove indipendenti dove: \[ f(x; \theta) = \theta^x \space ( 1 - \theta)^x \] Quindi il modello indotto diventa:

\[\big\{ x=\{0,1\}^{(n)} \space \space ; \space \space \theta^{\sum_{i=1}^{n}x_i} \space (1-\theta)^{n-\sum_{i=1}^{n}x_i} \space \space ; \space \space \Theta = (0,1) \big\}\]

La stima di massima verosimiglianza è:

\[SMV =\hat\theta = \frac{\sum_{i=1}^{n}x_i}{n}\]

E la prior collegata a questo modelo è una \(Beta(\alpha,\beta)\)

Dimostrazione

Per prima cosa dobbiamo riscrivere la funzione di densità della Bernoulli in modo tale da poter riconoscere i diversi componenti della formula della famiglia esponenziale:

\[f(x; \theta) = \theta^x \space ( 1 - \theta)^x \\ f(x; \theta) = \exp{\{\log(\theta^x \space ( 1 - \theta)^x)\}} \\ f(x; \theta) = \exp{\{x \space \log(\frac{\theta}{ 1 - \theta}) + \space \log( 1 - \theta)\}}\]

Ripasso sulla famiglia esponenziale:

\[X \sim Famgilia \space esponenziale \\ \\ f(x; \theta) = D\space(x) \space \space \exp{\{b\space(\theta)\space \space g\space(x) + \space c\space(\theta)\}}\]

Allora la Prior coniugata alla distribuzione risulta in questo caso:

Infatti:

\[b(\theta) = \log \bigg( \frac{\theta}{1-\theta} \bigg) \space\space\space\space\space (ossia \space il \space logit \space di \space \theta)\\ c(\theta) = - \log(1 - \theta) \\ \bigg{|} \frac{\partial \space b \space ( \theta) }{ \partial \space \theta } \bigg{|}= \frac{1}{\theta \space (1-\theta)}\]

Creiamo la prior coniugata:

\[\pi(\theta) \propto \exp{ \{\eta_{\space 1} \space \space b \space ( \theta) - \eta_{\space 2} \space \space c \space ( \theta) \}} \space | \partial \space b \space ( \theta) / \partial \space \theta | = \\ = \exp{ \{\eta_{\space 1} \space \space \log \bigg( \frac{\theta}{1-\theta} \bigg) + \eta_{\space 2} \space \space \log(1 - \theta) \}} \space \frac{1}{\theta \space (1-\theta)} = \\ = \exp{ \{ \space \space \log \bigg( \frac{\theta}{1-\theta} \bigg)^{\eta_{\space 1}} \}} \space \space \exp{ \{ \space \space \log(1 - \theta)^{\eta_{\space 2}} \}} \space \frac{1}{\theta \space (1-\theta)} = \\= \bigg( \frac{\theta}{1-\theta} \bigg)^{\eta_{\space 1}} \space \space (1 - \theta)^{\eta_{\space 2}} \space \frac{1}{\theta \space (1-\theta)} = \\ = \theta^{ \space \eta_{\space 1}} \space \space (1-\theta)^{-\eta_{\space 1}} \space \space (1 - \theta)^{\space \eta_{\space 2}} \space \space \theta^ {\space -1} \space \space (1-\theta)^ {\space -1} = \\ = \theta^{ \space \eta_{\space 1} -1} \space \space (1-\theta)^{\eta_{\space 2}-\eta_{\space 1}-1}\]

Questo è il nucleo di una \(Beta(\eta_{\space 1}, \eta_{\space 2}-\eta_{\space 1})\)

Adesso calcoliamo la posterior applicando il teorema di Bayes visto nell’introduzione:

\[\pi(\underline{x} | \theta) = \frac{ f(\underline{x} | \theta) \pi(\theta)}{\int_{\Theta}{f(\underline{x} | \theta) \pi(\theta)}} \propto \space f(\underline{x} | \theta) \pi(\theta) = \\= \space \space \theta^{\sum_{i=1}^{n}x_i \space + \alpha -1} \space (1-\theta)^{n-\sum_{i=1}^{n}x_i \space + \beta - 1}\]

Questo è il nucleo di una \(Beta( \alpha+\sum_{i=1}^{n}x_i \space , \space \space n+ \beta-\sum_{i=1}^{n}x_i \space )\)

Quindi essendo che la distribuzione di probabilità della prior ha la stessa forma funzionale della posterior allora la distribuzione coniugata alla Bernoulli è la Beta

Esempio un po’ più ostico: Modello Normale-Gamma Inversa

\(X \sim N(\mu= m,\theta= \sigma^2)\) (m = nota) con n prove indipendenti dove: \[ f(x; \theta) = \frac{1}{\sqrt{2 \space \pi \space \sigma^2 }}\space \exp{\bigg\{-\frac{(x-m)^2}{2 \space \sigma^2}\bigg\}} \] Quindi il modello indotto diventa:

\[\biggl\{ x=R_+^{(n)} \space \space ; \space \space \bigg( \frac{1}{\sqrt{2 \space \pi \space \sigma^2 }}\bigg)^n\space \exp{\bigg\{-\frac{\sum_{i=1}^{n}(x-m)^2}{2 \space \sigma^2}\bigg\}} \space \space ; \space \space \Theta = R_+ \biggl\}\]

La stima di massima verosimiglianza è:

\[SMV =\hat{\sigma^2} = \frac{\sum_{i=1}^{n}(x_i- \hat\mu)^2}{n}\]

E la prior collegata a questo modelo è una \(GammaInv(\alpha,\beta)\)

Dimostrazione

Per prima cosa dobbiamo riscrivere la funzione di densità della Bernoulli in modo tale da poter riconoscere i diversi componenti della formula della famiglia esponenziale:

\[f(x; \theta) \propto \frac{1}{\sqrt{\sigma^2 }}\space \exp{\bigg\{-\frac{(x-m)^2}{2 \space \sigma^2}\bigg\}} = \\=\exp{\bigg\{-\frac{(x-m)^2}{2 \space \sigma^2}-\frac{1}{2} \space \log(\sigma^2)\bigg\}} \]

Ripasso sulla famiglia esponenziale:

\[X \sim Famgilia \space esponenziale \\ \\ f(x; \theta) = D\space(x) \space \space \exp{\{b\space(\theta)\space \space g\space(x) + \space c\space(\theta)\}}\]

Allora la Prior coniugata alla distribuzione risulta in questo caso:

Infatti:

\[b(\sigma^2) = -\frac{1}{2 \space \sigma^2}\\ c(\sigma^2) = \frac{1}{2} \log(\sigma^2) \\ \bigg{|} \frac{\partial \space b \space ( \sigma^2) }{ \partial \space \sigma^2 } \bigg{|}= \frac{1}{(\sigma^2)^2}\]

Creiamo la prior coniugata:

\[\pi(\sigma^2) \propto \exp{ \{\eta_{\space 1} \space \space b \space ( \sigma^2) - \eta_{\space 2} \space \space c \space ( \sigma^2) \}} \space | \partial \space b \space ( \sigma^2) / \partial \space \sigma^2 | = \\ = \exp{ \{-\eta_{\space 1} \space \space \frac{1}{2 \space \sigma^2} - \eta_{\space 2} \space \space \frac{1}{2} \log(\sigma^2) \}} \space \frac{1}{(\sigma^2)^2} = \\ = (\sigma^2)^{- \frac{1}{2} \eta_{\space 2}} \space (\sigma^2)^{-2}\exp{ \{- \space \space \frac{\eta_{\space 1}}{2 \space \sigma^2}}\} = \\ = (\sigma^2)^{-2- \frac{1}{2} \eta_{\space 2}}\exp{ \{- \space \space \frac{\eta_{\space 1}}{2 \space \sigma^2}}\}\]

Questo è il nucleo di una \(GammaInv(1+ \frac{1}{2} \eta_{\space 2}, \space \space \space \frac{\eta_{\space 1}}{2})\)

Adesso calcoliamo la posterior applicando il teorema di Bayes visto nell’introduzione:

\[\pi(\underline{x} | \sigma^2) = \frac{ f(\underline{x} | \sigma^2) \pi(\sigma^2)}{\int_{\sigma^2}{f(\underline{x} | \sigma^2) \pi(\sigma^2)}} \propto \space f(\underline{x} | \sigma^2) \pi(\sigma^2) = \\= \bigg( \frac{1}{\sqrt{2 \space \pi \space \sigma^2 }}\bigg)^n\space \exp{\bigg\{-\frac{\sum_{i=1}^{n}(x-m)^2}{2 \space \sigma^2}\bigg\}} \space \space (\sigma^2)^{-(\alpha +1)} \space \exp{\bigg\{-\frac{\beta}{\sigma^2}\bigg\}} \propto \\ \propto (\sigma^2)^{\frac{n}{2}}\space \exp{\bigg\{-\frac{\sum_{i=1}^{n}(x-m)^2}{2 \space \sigma^2}\bigg\}} \space \space (\sigma^2)^{-(\alpha +1)} \space \exp{\bigg\{-\frac{\beta}{\sigma^2}\bigg\}} = \\ = (\sigma^2)^{(-\alpha - \frac{n}{2} -1)} \space \space \exp{\bigg\{-\frac{\beta +\sum_{i=1}^{n}(x-m)^2}{2 \space \sigma^2}\bigg\}} \]

Questo è il nucleo di una \(GammaInv \bigg(\alpha + \frac{n}{2}, \space \space \space \beta +\frac{\sum_{i=1}^{n}(x-m)^2}{2} \bigg)\)

Quindi essendo che la distribuzione di probabilità della prior ha la stessa forma funzionale della posterior allora la distribuzione coniugata alla Normale con media nota e varianza ignota è la Gamma Inversa