6
l'informazione disponibile su un dato evento possono modificare le probabilità che l'evento stesso si realizzi. 
Questi due aspetti non trovano spazio nell'approccio classico.  
E' prevista una distribuzione "a priori" p(q ) sul parametro q  che rispecchia l'opinione che se ne ha fino a quel 
momento, questa viene aggiornata, grazie al teorema di Bayes, usando la verosimiglianza del campione p(Y/q ); 
ora, se si indica l'aggiornamento con p(q /Y), la formula è: 
p q Y( )=
p Y q( )p q( )
p Y( )
; 
questo è il fulcro dell'analisi bayesiana.  
 Nell'ambito di questo lavoro è proprio la presenza di dati censurati che costituisce l'informazione a priori 
su cui basare l'aggiornamento. Un'osservazione che si può fare è che se si dà luogo ad una equiripartizione 
rettangolare delle probabilità a priori allora aggiornamento e verosimiglianza coincidono. 
 7
CAPITOLO 1 - DATI MANCANTI 
 
1.1 - DATI MANCANTI 
 
 Si possono distinguere due casi in base al motivo per cui i dati mancano: 
  - i dati non sono disponibili per motivi sconosciuti a chi li elabora e indipendentemente dal fatto che altre 
osservazioni nel campione sono complete; in tal caso queste ultime costituiscono l'insieme dei dati utilizzabili e, se 
non si è interessati all'efficienza delle stime, il fatto che manchino delle osservazioni non crea alcun problema, 
viene semplicemente ignorato. 
  - la presenza di dati mancanti è strettamente collegata al fenomeno oggetto di studio e bisogna tenerne 
conto nell'elaborazione. 
Il secondo è il caso affrontato in questo studio. 
 
1.2 - VARIABILI CENSURATE E TRONCATE 
 
 L'evidenza empirica genera dati in modo differente da quello con cui essi sono successivamente usati nei 
modelli (per esempio si utilizza la spesa, discreta, per rappresentare il consumo, continuo), quindi nell'analisi dei 
dati disponibili è il fenomeno il centro del problema. La teoria non fornisce indicazioni su come misurare i 
fenomeni, quindi teorie diverse possono presupporre criteri diversi non solo relativamente alle conclusioni ma 
anche per la "partenza", vale a dire per la misurazione, cioè, nel caso specifico, in come scegliere il tipo di 
imputazione, come assegnare i valori di censura; questi generalmente sono forniti dal fenomeno stesso ma il modo 
in cui devono essere trattati è deciso da chi elabora la teoria. 
 Il criterio più generale per descrivere il meccanismo di generazione dei dati è di supporre l'esistenza di un 
processo di selezione (censura, inosservabilità, troncamento) per poter usare informazioni che provengono da 
campioni non probabilistici, così il problema dei dati mancanti ha più facile trattazione e la selezione è più 
strettamente legata al fenomeno. Il valore di censura non è nel modello ma nell'osservabilità, nella misura che si 
può fare del fenomeno; se si ha un troncamento nell'insieme delle variabilili osservate cadono le ipotesi classiche 
sul termine d'errore, infatti esso diventa funzione delle specifiche caratteristiche dell'oggetto misurato e si crea una 
relazione con la formulazione del modello (l'errore non è più "white noise"), la conseguenza è che la stima fatta coi 
minimi quadrati ordinari è distorta. 
 Il trattamento dei dati troncati e censurati non è affrontato nello stesso modo in ambito bayesiano e 
classico, viste le differenze di fondo delle due teorie. In ambito econometrico i dati mancanti vengono "introdotti" 
nel modello tramite una variabile latente atta a descrivere il fenomeno di censura o troncamento, però essa non ha 
influenza dal punto di vista calcolatorio, resta inosservata e i dati usati per le stime sono quelli effettivamente 
 8
disponibili, tale variabile consente di descrivere adeguatamente il processo censorio che modifica il modello di 
regressione trasformandolo da solo continuo in discreto e continuo congiuntamente.  
 In ambito bayesiano invece il trattamento di dati mancanti, censurati o troncati, è fatto generando le 
imputazioni con algoritmi specifici per la generazione di numeri casuali che andranno a coprire i valori mancanti. 
Lo scopo, in questo caso, non è solo la stima dei parametri d'interesse, ma, più che altro, l'individuazione di una 
nuova distribuzione degli stessi determinata dalla struttura censurata delle informazioni, senza che la forma 
originaria della distribuzione venga completamente snaturata. 
 
 
1.2.1 - Variabili troncate 
 
 Quando i dati sono estratti da una sottopopolazione e si vuole utilizzarli per fare inferenza su 
caratteristiche dell'intera popolazione ci si trova nell'ambito delle variabili troncate. La distribuzione troncata è la 
parte della distribuzione originaria che sta sopra (o sotto) il valore di troncamento specificato. Se la distribuzione 
non troncata è normale con parametri µ e σ si ha:  
 P(y >a) =1-Φ((a-µ)/σ)=1-Φ(α), dove Φ(.) è la funzione di ripartizione normale standardizzata. 
 La distribuzione normale troncata al punto a è quindi: 
f y y > a( )=
f y( )
1− Φ a( )
=
=
1
s
 
 
 
 
 
 f
y − m
s
 
 
 
 
 
 
1− Φ a( )
 
 
perciò si tratta di correggere la densità con un fattore di scala in modo che l'integrale per y>a sia pari a 1; φ(.) è 
la densità della normale standardizzata. 
 I momenti della distribuzione troncata si definiscono generalmente come segue: 
E y y > a( )= y f y y > a( )dy
a
∞
∫ . 
 Si possono fare due osservazioni relative ai valori che i momenti assumono a seconda che il troncamento 
sia dall'alto o dal basso: nel primo caso infatti la media è più piccola dell'originale, nel secondo più grande e le 
varianze sono, in entrambi i casi, inferiori. 
 Nel caso di normalità distributiva si definiscono:  
E(y  / troncamento) = µ + σλ(α) 
Var (y  / troncamento) = s 2  (1 - δ(α )) 
 9
 
dove:  
l a( ) =
f a( )
1− Φ a( )
l a( ) =
−f a( )
Φ a( )
d a( ) = l a( ) l a( )− a( )
 
 
Il primo λ(α) (hazard function), si usa se y>a , il secondo se y<a , δ(α ) assume sempre valori compresi fra 0 e 
1, estremi esclusi. 
L'analisi della regressione con i criteri classici non si può fare quando sono coinvolte variabili troncate. 
 
 
1.2.2 - Variabili censurate 
  
 Sono quelle i cui valori compresi in un certo intervallo oppure al di sotto (sopra) di una certa soglia sono 
ridotti ad un unico valore: per esempio, i redditi che non superano la soglia di povertà sono registrati al livello della 
soglia. Sostanzialmente il processo di censura è una "mancanza" nel campionamento; se i dati non fossero 
censurati il campione sarebbe, probabilmente, rappresentativo. Il difetto delle tecniche classiche di regressione è 
che non distinguono tra gli "zeri" dovuti alla censura e quelli che rappresentano valori osservati pari al livello limite 
ed è questo a rendere distorte le stime. Per lo studio di dati censurati si definisce una nuova variabile y che è una 
trasformata della y* originale: 
 
y = 0se y ∗ ≤0,
y = y ∗ se y ∗ > 0.
 
 
Se y* è distribuita come una normale con parametri µ e σ la y  sarà normale per y*>0 e pari a 1-Φ(µ/σ) per 
y=0 , quindi la distribuzione della variabile censurata modificata è un misto di una parte continua e una discreta, 
questo perché tutta la probabilità della regione censurata è assegnata al valore di censura (qui lo zero). I momenti 
della normale censurata sono: 
 
E y( )= Φ a( ) + 1− Φ( ) m + sl( )
Var y( )= s 2 1− Φ( ) 1− d( )+ a − l( )2Φ[ ]
 
 10
con: 
Φ((α−µ)/σ) = Φ(α) = Prob(y* a) = Φ, λ = φ/(1−Φ) e δ = λ(λ−α). 
 
 
 
1.3 - ANALISI DELLA REGRESSIONE 
 
 L'analisi della regressione con i criteri classici non si può fare quando sono coinvolte variabili troncate o 
censurate perché l'ambito nel quale si opera è limitato, il dominio della variabile dipendente è un sottinsieme (una 
restrizione) di quello originale. 
Nel modello di regressione censurato le variabili esogene -X - sono osservate anche per le unità in cui la variabile 
dipendente assume valori superiori (o inferiori) alla soglia, mentre nel modello di regressione troncato queste 
osservazioni sono completamente eliminate dal campione. 
 Un modo per affrontare la questione senza perdere di vista i presupposti dell'approccio classico è 
descrivere i modelli di Tobin, che risultano efficaci soprattutto per l'analisi di piccoli campioni, nei quali la variabile 
dipendente è limitata; essi sono detti TOBIT (Goldberger 1964) perché presentano caratteristiche simili ai modelli 
Probit. La classificazione dei modelli Tobit può seguire due criteri: in base alla forma della funzione di 
verosimiglianza oppure in base alla funzione media condizionata utilizzata nel modello di regressione. 
 Analizzando brevemente il secondo tipo di classificazione si può dire che il modello è sostanzialmente una 
regressione fatta sui valori attesi definiti sopra; a seconda del tipo di indagine da fare si usa una diversa forma 
della media condizionata. In generale si ha: 
 
y
i
∗ = b T x
i
+ e
i
y
i
= 0 se y
i
∗ ≤ 0
y
i
= y
i
∗
se y
i
∗ > 0.
 
 
 -per la variabile indice (indicatrice) detta anche variabile latente E y
i
∗
( ) é b
T
x
i
 (1) 
 -se si considerano solo le osservazioni non censurate, il che non significa eliminare le osservazioni limite, 
dato che in tal modo si otterrebbe semplicemente il modello di regressione troncato, si torna nell’ambito classico. 
 -per una osservazione estratta casualmente dalla popolazione che può o meno essere censurata si ha: (2) 
 
 11
E y
i
x
i
( )= Φ b
T
x
i
s
 
 
 
 
 
 b
T
x
i
+ sl
i
( )
con l
i
=
f b T x
i
s( )
Φ b T x
i
s( )
 
 
Per esempio se si vuole fare una previsione sul numero di biglietti venduti ad uno spettacolo la grandezza da usare 
è la media censurata (2), invece se lo scopo è analizzare la necessità di nuove apparecchiature per un'impresa è 
più utile la media della variabile latente (1). Nei due modelli ci sono differenze anche a livello degli effetti 
marginali, infatti nel primo (1) si ha: 
�E y
i
∗
x
i
( )
�x
i
= b  
mentre nel secondo (2):
�E y
i
x
i( )
�x
i
= bΦ b
T
x i
s
 
 
 
 
 
  
ovviamente la scelta fra i due dipende dal tipo di problema. 
 12
CAPITOLO 2 - L'APPROCCIO BAYESIANO 
 
2.1 - ANALISI BAYESIANA DI DATI INCOMPLETI  
  
 Lo studio di dati incompleti porta a stime e valutazioni distorte se fatto con i criteri classici perché cadono 
le ipotesi sulla distribuzione del termine d'errore; si è voluto quindi esaminare il problema con strumenti diversi e 
precisamente quelli che hanno come fondamento l'approccio Bayesiano.  
 Il criterio di rilevazione dei dati troncati o censurati genera zeri dovuti al processo di censura; una 
soluzione numerica si ottiene applicando gli algoritmi iterativi, in base ai quali il processo continua finché non è 
soddisfatto un qualche criterio di convergenza o stabilità. Tali algoritmi sono gli strumenti per l'analisi bayesiana di 
fenomeni descritti da campioni non casuali e che presentano particolarità dovute al "selection bias" : questa 
espressione indica la distorsione generata dal fatto che i dati sono in un certo senso "selezionati" a causa dei 
fenomeni di censura e troncamento, perciò non completi, questo genera campioni non casuali ed ha effetti negativi 
sulle proprietà degli stimatori convenzionali. 
 
 
2.1.1 - Il teorema di Bayes 
  
 La conoscenza a priori di una distribuzione sul parametro consente di aggiornare la valutazione della 
probabilità del fenomeno in esame. Il teorema di Bayes analizza la questione partendo dall'ipotesi che il parametro 
è una variabile casuale e che è nota una distribuzione su questo (a priori), inoltre deve essere specificato anche un 
"modello" (verosimiglianza), che è definito partendo dai dati; la formula di Bayes pone in relazione queste due 
quantità con la distribuzione a posteriori, cioè con il valore aggiornato della probabilità del parametro alla luce 
delle nuove informazioni. Il processo di stima quindi non è una mera derivazione dei valori di parametri prefissati, 
quanto piuttosto un continuo aggiornamento di convinzioni soggettive, personali sullo stato del mondo. Nel caso 
studiato le informazioni a priori sono i fenomeni di censura dei dati che, come già detto, rendono improprio 
l'utilizzo delle tecniche di stima classiche .  
 Condizionando rispetto ai dati osservati la formula di Bayes è il fulcro di tale metodologia e permette di 
trovare la distribuzione a posteriori del parametro, che è: 
 
p q Y( )=
p Y q( )p q( )
p Y( )
 
 
 13
tale distribuzione può essere vista come la a priori che si realizza quando diventa disponibile un nuovo gruppo di 
dati. Il principio basilare dell'approccio bayesiano è che la conoscenza delle caratteristiche della distribuzione dei 
parametri viene continuamente aggiornata. 
 
 
2.1.2 - La distribuzione a priori 
 
 E' utile ricordare che la scelta della distribuzione a priori da utilizzare nelle analisi non è mai banale, spesso 
infatti condiziona i risultati. Capita che i dati sperimentali siano molto più informativi di qualunque informazione a 
priori, perciò la specificazione di tutti i dettagli necessari a definirla, sebbene possano sembrare la cosa migliore 
da fare, in realtà portano ad un incremento del peso calcolatorio, senza fornire efficace aiuto per il lavoro. 
 Una seconda osservazione relativa alla specificazione della a priori è la seguente: si può supporre che se 
si sceglie una distribuzione non appropriata, "improper prior", oppure se non la si usa affatto, si ottengano gli 
stessi risultati, ma nella realtà ciò non accade. Questo fatto, lungi dall'indicare l'inconsistenza dei metodi bayesiani, 
mostra anzi che solo attenendosi fedelmente ad essi si riesce ad evitare il paradosso che è generato da una 
violazione anche minima. Solo l'utilizzo di una "improper prior" non informativa fa sì che i risultati dell'analisi 
bayesiana coincidano, spesso esattamente, con quelli dell'analisi fatta con gli strumenti usuali; ciò mostra come 
non sia possibile rifiutare la "improper prior" senza dover contemporaneamente rifiutare i metodi ormai acquisiti 
che portano agli stessi risultati. 
 
 
 
2.2 - ANALISI BAYESIANA DEL MODELLO DI REGRESSIONE LINEARE CON LE IPOTESI 
CLASSICHE 
 
 Il modello di regressione classico è costruito attorno alla distribuzione condizionata: 
 
f y b ,s,X( )= N X b,s 2I[ ]=
= 2ps 2( )
−n 2
e
− 1 2s 2( )( )y− Xb( )T y −X b( )
 
 
 L'analisi bayesiana parte dalla specificazione di una distribuzione a priori sui parametri. Se in un primo 
tempo si suppone che tale "a priori" sia non informativa, cioè non si hanno informazioni di nessun tipo inizialmente 
sui parametri, si ha un effetto nullo sulle stime che sono uguali a quelle ottenute con le tecniche classiche, ciò è 
 14
dovuto al fatto che la combinazione della "mancanza" di informazioni a priori sui parametri e dei dati campionari fa 
sì che le stime siano strettamente definite da questi ultimi, perciò sono identiche a quelle classiche. La differenza 
in questo caso non è percepibile tanto a livello di risultati, quanto piuttosto in relazione all'interpretazione che se 
ne può dare, e, visto che l'unico apporto informativo è dato dal campione, è logico che le conclusioni dipendano 
solo da esso e che coincidano con quelle classiche. 
 L'ipotesi alternativa è che la densità a priori del parametro sia informativa e che il suo influsso sulle stime 
non sia trascurabile, ma anzi fortemente incisivo. La "a priori" informativa è fonte di complicazioni in termini di 
calcolo, soprattutto quando si tratta di ottenere le marginali; per ovviare a tale complessità si introduce la 
distribuzione a priori coniugata, ovvero la distribuzione predictive di cui si parlerà in modo approfondito più 
avanti, che può essere vista come la densità a posteriori risultante da un'analisi precedente, e che, avendo la 
stessa forma della densità condizionata, è più facile da integrare. Se si suppone che la densità a priori di β è 
normale k-variata e σ è nota allora la posteriori è normale; invece se σ è incognita e anche per essa è definita una 
distribuzione a priori allora la distribuzione a posteriori risultante diventa davvero complessa. La distribuzione a 
priori coniugata per β e σ è: 
f (β,σ)=f (β/σ)f (σ) 
che è una gamma inversa. 
 
 
2.2.1 - La distribuzione predictive 
 
 A questo punto conviene definire una funzione che avrà ampio uso nella trattazione seguente: la 
distribuzione predictive. 
 Sia Y = y 1,...,y n( ) l'insieme dei dati osservati e y f  indichi un'osservazione futura (oppure mancante o 
censurata o troncata); la distribuzione "prevista" per y
f
 (predictive distribution) è: 
 
p y
f
Y( )= p y
f
Y ,q( )∫ p q Y( )dq  
Una sua approssimazione si calcola col metodo Monte Carlo e da essa si ottiene un campione col metodo della 
composizione. 
 Quando i dati a disposizione sono molti il processo inferenziale o decisionale è sostanzialmente 
indifferente alla specificazione di una distribuzione a priori, mentre questa assume sempre maggiore peso se 
l'informazione fornita dal campione diminuisce. A volte l'informazione a priori è disponibile in forma campionaria, 
ma più spesso è soggettiva e demandata ad esperti che devono quindi pronunciarsi su caratteristiche di parametri 
a loro per lo più sconosciuti. Le distribuzioni predictive hanno la funzione di ovviare a tale inconveniente, esse, 
 15
infatti, si basano sui campioni e coinvolgono variabili osservabili anziché parametri non osservabili e vengono 
utilizzate per definire le distribuzioni a priori; inoltre non sono specifiche per un particolare modello, quindi si può 
considerare uno stesso insieme di predictive al variare del modello scelto per descrivere il processo generatore 
dei dati o della a priori. Dato come prima il vettore di osservazioni Y = y 1,...,y n( ), la distribuzione 
campionaria f(y|θ) è nota con θ vettore dei parametri; l'inferenza classica si fonda su f(y|θ) vista come 
distribuzione campionaria di y con θ fissato oppure come funzione di verosimiglianza di θ per valori fissati di y. 
Nel processo inferenziale bayesiano su θ f(y|θ) è la verosimiglianza ed è un input per l'inferenza insieme con la 
distribuzione a priori g(θ); per applicare il teorema di Bayes è necessario conoscere queste due distribuzioni e, 
mentre la verosimiglianza, di solito, è nota, così non è per la a priori, soprattutto quando la dimensione dello 
spazio dei parametri è elevata o i parametri non si possono supporre indipendenti a priori. 
 Sia t
i
= t
i1
,...,t
ip( ) un generico vettore di statistiche di cui si vuole conoscere la distribuzione. Per i 
Bayesiani tale distribuzione, che è marginale rispetto a θ, è la predictive h t
i
( ) che è in relazione con la a priori e 
con la verosimiglianza come segue: 
h t
i
( )= f t
i
q( )
Θ
∫ g q( )dq  
La distribuzione predictive è quindi una media pesata delle distribuzioni campionarie f t
i
q( ) con g(θ) che è la 
funzione peso. Ora, dato che sia h t
i
( ) che f t
i
q( ) sono note, l'unico elemento incognito è la a priori; il 
problema però non è più cercare una funzione alla cieca, quanto piuttosto trovare quella che rende il valore 
dell'integrale il più possibile vicino alla predictive stimata. La scelta è certamente non facile e si complica se 
l'ambito preso in considerazione è molto ampio, perciò è consigliabile porre dei vincoli restrittivi come, per 
esempio, scegliere g che appartenga alla famiglia delle distribuzioni coniugate (come detto precedentemente) al 
modello che descrive il processo generatore dei dati. 
 
 
2.2.2 - Verosimiglianza nel caso di dati mancanti 
 
 Quando non tutte le unità presentano un valore della variabile in esame si prevede l'insieme completo delle 
misure sempre tramite la formula di Bayes come segue:  
 
f Y X( )= f Y q( )
f X q( )f q( )
f X q( )f q( )dq
Θ
∫Θ
∫ dq = f Y q( )f q X( )
Θ
∫   
 
 16
dove però la verosimiglianza f(X|θ) usata per l'aggiornamento non è semplicemente quella ottenuta sull'insieme dei 
dati disponibili. Infatti, se è possibile avere un modello che descrive i dati completi e se si pone per ipotesi 
l'indipendenza fra l'insieme dei dati completi e quello dei dati censurati, allora f(X|θ) si ottiene marginalizzando il 
modello completo rispetto ai dati mancanti. Perciò per un generico dato x
i , j1
,...,x
i ,j
t
 dell'i-esimo individuo che 
ha solo t caratteristiche si ha: 
 
f x
i , j1
,...,x
i , j
t
q( )= .. f X 1 ,...,X k q( )dx j
t +1
...dx
jk∫∫  
 
l'integrale si ripete k-(t+1) volte. Tramite produttorie su tutti gli individui, i gruppi e su tutte le variabili si ottiene 
V(X|θ) che è la verosimiglianza da usare nella formula per la previsione dei dati mancanti.  
 
 
 
2.3-GLI ALGORITMI 
 
 Quelli descritti e utilizzati nel presente studio sono specifici per i dati a disposizione e per il tipo di analisi 
che se ne vuole fare, infatti permettono di determinare la distribuzione di uno stimatore e di calcolare una statistica 
test come il rapporto di verosimiglianza. 
 Specificamente gli algoritmi qui considerati sono quelli in cui i dati disponibili, che sono censurati, vengono 
"aumentati" con dati mancanti, valori dei parametri, o statistiche sufficienti. Tale procedimento permette di 
ottenere una forma più semplice della distribuzione a posteriori aumentata p(θ/Y,Z) e questa poi è il punto di 
partenza per calcolare la p(θ/Y), cioè la distribuzione a posteriori su θ. 
Si possono ricordare: 
- algoritmo con aggiunta di dati (daa) 
- algoritmi "del povero" (pmdaa) 
- SIR (sampling / importance resampling) 
- metodi di imputazione generali 
- Gibbs sampling e algoritmo Metropolis  
Tutti questi sono algoritmi Monte Carlo, usano numeri pseudo casuali e sono iterativi, inoltre consentono di 
ottenere un campione di valori del parametro o una marginale dalla funzione di verosimiglianza o dalla 
distribuzione a posteriori. 
 
 
 17
2.3.1 - DAA ( data augmentation algorithm) 
 
 Lo scopo di questo algoritmo è di ottenere la verosimiglianza o la distribuzione a posteriori di θ completa. 
L'idea di fondo è aumentare i dati osservati (incompleti) Y con una quantità Z (dati latenti); si suppone che, dati Y 
e Z, si possa campionare o fare calcoli dalla posteriori aumentata p(θ/Y,Z). Le imputazioni multiple di Z sono 
generate dalla distribuzione predictive p(Z/Y), poi, per ottenere la posteriori su θ, si calcola la media delle 
p(θ/Y,Z) sui valori imputati; poiché p(Z/Y) dipende dalla posteriori su θ, l'algoritmo con cui si trova la posteriori 
è iterativo. 
Ci sono due identità alla base del daa: 
- posterior identity: 
 
p q Y( )= p q Y ,Z( )
Z
∫ p Z Y( )dZ  
 
- predictive identity: 
 
p Z Y( )= p Z f ,Y( )p f Y( )
Θ
∫ df  
 
 Sostituendo la seconda nella prima e scambiando l'ordine d'integrazione si ha che la distribuzione a 
posteriori soddisfa la seguente equazione integrale: 
 
g q( )= K q ,f( )∫ g f( )df  
 
dove: 
K q,f( )= p q Z ,Y( )∫ p Z f ,Y( )dZ         (1) 
 
e  g q( )= p q Y( ). Per risolvere la (1) si può usare il metodo delle sostituzioni successive oppure si può 
applicare il metodo Monte Carlo alla posterior identity; quest'ultimo si sviluppa come segue:  
a) (imputation step) genera un campione z 1,...,z m  dall'attuale approssimazione alla predictive p(Z /Y). 
b) (posterior step) aggiorna l'approssimazione corrente alla posteriori su θ in modo che sia una media delle 
distribuzioni a posteriori aumentate su θ, dato il campione generato al punto precedente,cioè: 
 
 18
g
i+1 q( ) =
1
m p q z j ,Y( )j=1
m
∑ . 
 
Data la valutazione corrente sulla posteriori, g
i
q( )( ), si applica il metodo di composizione alla predictive 
identity per ottenere un campione di dati latenti. 
 a1 - generaq ∗ da g
i
q( ). 
 a2 - genera z da p Z q ∗ , Y( ), dove q
∗
 è il valore generato in a1. 
I due punti sono ripetuti m volte fino ad ottenere z 1,...,z m , note come "imputazioni multiple". Il daa consiste 
nell'iterazione dei due passi -a - e -b-. 
Due problemi importanti sono il controllo della convergenza dell'algoritmo e il calcolo del numero ottimo (m) delle 
imputazioni. In generale si può fermare l'algoritmo in qualunque punto e realizzare un campione da p(θ/Y) invece 
che da g(θ), pesando i valori campionari con pesi w
j
 proporzionali a
p q
j
Y( )
g
i
q
j
( )
. 
Ci sono più strumenti per la valutazione della convergenza (si ricorda l'analisi grafica di percentili selezionati o 
della distribuzione a posteriori stimata). Si descrivono qui i tre metodi basati sulla distribuzione dei pesi w
j
 visti 
prima: 
-primo - data l'approssimazione corrente alla posteriori g, se la stima corrente della distribuzione a posteriori è 
buona, la distribuzione dei w
j
 sarà degenere su una costante (pari a 1/m se i pesi sono normalizzati con 
 w
j
=1); 
-secondo - si può costruire una serie di diagrammi che rappresentano la distribuzione dei pesi a una data 
iterazione; 
-terzo - si può calcolare un parametro che descrive la distribuzione dei pesi (per es. la deviazione standard) e 
analizzare il suo andamento al crescere delle iterazioni, quando tale parametro comincia a fluttuare attorno a un 
certo valore si può decidere di aumentare m o di terminare l'algoritmo in funzione del grado di precisione 
richiesto. 
 Per precisione sembra utile descrivere brevemente il metodo della composizione su cui si basa l'algoritmo 
daa: 
sia f(y/x) una densità dove x e y possono essere vettori, il metodo permette di ottenere un campione 
y 1 ,...,y m ≈
iid
J y( ) = f y x( )∫ g x( )dx  e si sviluppa come segue: 
a) si estrae x*~g(x) 
b) si estrae y*~f(y/x*) 
 19
Questi due punti si ripetono m volte e il campione costituito dalle coppie x
i
,y
i
( ) è estratto dalla densità 
congiunta h(x,y)= f(y/x)g(x), mentre le y 1 ,...,y m  sono estrazioni iid da J(y). 
Se x è una variabile casuale discreta si sceglie un intero (i) con probabilità g(i) e si estrae y* da f
i
y( ); il 
campione risultante è estratto dalla distribuzione la cui densità è: f
j
y( )
j=1
∞
∑ g j( ).  
Se x assume un numero finito n di valori si sceglie (i) con probabilità 1/n, si estrae y* da f
i
y( ) e ad esso si 
assegna massa g(i); in questo caso il campione è estratto dalla stessa distribuzione, ma la sommatoria va solo fino 
a n. 
 
2.3.2 - Algoritmi daa del povero (PMDA) 
 
 Sono tre e sono utilizzati come buoni punti di partenza per l'analisi completa dei dati "aumentati" o per una 
sua approssimazione. Sono detti "del povero" perché sono usati da chi non si può permettere direttamente 
l'analisi daa completa. 
 
-pmda 1 
 Avendo ottenuto con gli strumenti precedenti la moda ˆ q  di p(θ/Y) l'algoritmo è il seguente: 
- genero z 1,...,z m ≈ p Z Y ,
ˆ q ( ) 
- approssimo la distribuzione a posteriori con  1m p q z i ,Y( )i=1
m
∑ . 
L'algoritmo è non iterativo e fornisce un'approssimazione che vale per forme non normali della posteriori. 
 
 - pmda exact 
 In questa versione il campione viene estratto dalla predictive esatta p(Z/Y) invece che da p(Z/Y,θ): 
- genero z 1,...,z m ≈ p Z Y ,
ˆ q ( )  
- calcolo w
j
=
p z
j
Y( )
p z
j
Y , ˆ q ( )
j = 1,...,m  
- calcolo la posteriori come 
w
j
p q z
j
,Y( )
j=1
m
∑
w
j
j=1
m
∑
.