M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle...

26
Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari F. Vantaggi B. (Università di Roma ‘La Sapienza’) 24 giugno 2014

Transcript of M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle...

Page 1: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute

Marco Di Zio

Di Consiglio L., Falorsi S., Solari F.

Vantaggi B. (Università di Roma ‘La Sapienza’)

24 giugno 2014

Page 2: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Indice

1. Contesto informativo: peculiarità e opportunità per integrazione

2. Contesto metodologico: statistical matching

3. Statistical matching con variabili misclassificate

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Page 3: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Nelle 2 fonti non vengono osservate le stesse unità statistiche

La fonte HS è un campione non aleatorio

Unità rispondenti diverse:

• IS gli individui della famiglia (soggetto dell’inferenza),

• HS i medici di base.

Possono esserci degli effetti sulla risposta dovuti a questa differenza.

Per esempio nel caso degli individui si può avere un effetto ‘percezione’ della malattia che non è invece presente nel medico che basa la sua classificazione su dati oggettivi

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Contesto informativo - Elementi per integrazione

Page 4: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Valutazione e trattamento della misclassificazione derivante da ‘percezione’ della malattia

Analisi di variabili osservate rispettivamente in due fonti informative differenti

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Potenzialità metodi di integrazione fra IS-HS

Page 5: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

La non osservazione di unità in comune e la presenza di variabili in comune Statistical Matching

Si sfruttano le informazioni delle variabili in comune per fare inferenza sulle variabili osservate separatamente nelle due fonti di dati

- e.g., previsione del dato micro

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Integrazione: statistical matching

z~

Page 6: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Nelle procedure classiche di matching (per es. imputazione con media della Y per profilo di unità dato dalle X) si sta assumendo l’indipendenza di Y (osservata in IS) e Z (in HS) dato X

Assumiamo che la conoscenza di X sia fortemente esplicativa del comportamento congiunto di Y e Z

Problema: ipotesi non testabile con i dati a disposizione

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Statistical matching sotto indipendenza condizionale

Page 7: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Esempio: supponiamo che Y sia livello di educazione osservata solo in IS, Z = spesa per farmaci, X=classe di età, sesso, ripartizione geografica.

Prediciamo in IS la spesa per farmaci tramite la media della spesa osservata in una determinata X stimata su HS

Quando andiamo ad analizzare congiuntamente Y e Z è evidente che stiamo assumendo che ogni individuo in X (stesso sesso, età,…) abbia la stessa spesa per ogni livello di educazione.

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Statistical matching sotto indipendenza condizionale

Page 8: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Analisi dell'incertezza, i.e., analisi dello spazio di identificabilità delmodello

Nel caso di variabili categoriali consiste nel calcolare gli estremi superiori ed inferiori delle frequenze di ogni singola (Y,Z) cella compatibili con le frequenze osservate in IS di (Y,X) e (Z,X) in HS

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Un metodo per fare inferenza oltre indipendenza condizionata (IC)

Page 9: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica

? ? 0.8

? ? 0.2

0.9 0.1 1

Page 10: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica

0.8 ? 0.8

? ? 0.2

0.9 0.1 1

Page 11: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica

0.8 0 0.8

0.1 0.1 0.2

0.9 0.1 1

Page 12: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica

? ? 0.8

? ? 0.2

0.9 0.1 1

Page 13: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica

0.7 ? 0.8

? ? 0.2

0.9 0.1 1

Page 14: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica

0.7 0.1 0.8

0.2 0 0.2

0.9 0.1 1

Page 15: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica

[0.7, 0.8] [0, 0.1] 0.8

[0.1, 0.2] [0, 0.1] 0.2

0.9 0.1 1

Page 16: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Esempio. Tab Y,Z dicotomica sotto indipendenza

0.72 0.08 0.8

0.18 0.02 0.2

0.9 0.1 1

Page 17: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Calcolo diretto (anche in presenza di X) dell’intervallo di incertezza [pmin , pmax] tramite disuguaglianza di Fréchet

max{0, p(y) + p(z) – 1} ≤ p(y,z) ≤ min {p(y), p(z)}

Sfruttando l’informazione X

≤ p(y,z) ≤

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Un metodo per fare inferenza oltre Indipendenza condizionata (IC)

Page 18: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

L’ampiezza media dell’incertezza da un indicazione sulla incertezza insita nel processo di matching

La distribuzione ottenuta con IC è sempre interna agli intervalli, quindi valutazione indiretta dell’applicazione di matching basata su IC

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Analisi dell’incertezza del matching

Page 19: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

HS campione non aleatorio

Possibile misclassificazione dovuta alla percezione dell’individuo

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Peculiarità dell’integrazione tra IS e HS

Page 20: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

È stato adottato un approccio basato sul calcolo di “pseudo design-based weight”.

Il calcolo di questo peso si basa sulla interpretazione euristica che ogni unità rappresenti le altre unità non campionate.

I pesi sono ottenuti tramite post-stratificazione rispetto ai totali noti della numerosità della popolazione per classe di età, sesso, ripartizione geografica.

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Campione non probabilistico

Page 21: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

La post-stratificazione elimina il bias dovuto a problemi di selezione se, all’interno di ciascuna cella di aggiustamento, la probabilità che ogni unità risponda è indipendente dal valore assunto dall’unità per ciò che concerne le variabili oggetto di interesse.

Un altro modo di spiegare questa ipotesi è che i rispondenti ed i non-rispondenti in una data cella hanno la stessa distribuzione riguardo la variabile di interesse

In letteratura nota come ipotesi MAR

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Assunzioni

Page 22: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Sviluppo di metodi sotto IC e analisi incertezza che tengano conto della misclassificazione di alcune X

Si ipotizza un modello classico per trattare variabili misclassificate

Due contesti

1. Integrazione sotto IC avendo osservato (Y,X), (Z,X*)

2. Analisi dell’incertezza relativamente ai modelli compatibili con le distribuzioni osservate (Y,X), (Z,X*)

Ipotesi: si prende come variabile X* di riferimento quella osservata in HS

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Matching con variabili misclassificate

Page 23: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Sia X la prevalenza osservata con misclassificazione e X* quella osservata correttamente, le ipotesi sono

1. P(X=0|X*=0)=12. P(X=1|X*=1,W=w) = λw

Nel caso di variabili dicotomiche si ottiene che la probabilità di misclassificazione

λw =P(X=1|W=w)/P(X*=1|W=w)

La stima è stata ottenuta sostituendo le frequenze pesate

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Contesto 1 – Modello di misclassificazione

Page 24: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Tramite P(X*=i|X=i,W=w), i=0,1 è stato previsto in IS la prevalenza condizionatamente al dato osservato X=i e w.

Con questa variabile corretta è stato poi condotto il matching sotto IC

Metodo : hot-deck per celle di imputazione.

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Contesto 1 – Statistical Matching sotto IC

Page 25: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Si risolve il sistema tramite l’algoritmo sviluppato in [1]

che fornisce gli estremi di ogni singola cella

pmin<= p(Y=y,Z=z)<=pmax per ogni y,z

[1] Capotorti Vantaggi, Locally strong coherence in inferential processes (2002) Annals of Mathematics and Artificial Intelligence, vol. 35  pp. 125-149

Contesto 2 - Analisi incertezza con misclassificazione

Page 26: M. Di Zio - Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute”

Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014

Ulteriori sviluppi

Approfondimento su metodi alternativi per utilizzo di un campione non aleatorio (propensity score matching, inferenza da modello)

Approfondimento su come combinare stime ottenute da un campione probabilistico e non-probabilistico

Analisi incertezza senza assumere alcun modello di misclassificazione