Metodi statistici per l’integrazione di dati provenienti da fonti diverse

25
Metodi statistici per l’integrazione di dati provenienti da fonti diverse Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto

description

Metodi statistici per l’integrazione di dati provenienti da fonti diverse. Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto. Sommario. Cosa vuol dire integrazione Record linkage: perché Il metodo di Fellegi e Sunter Come risolvere il problema con RELAIS. Cosa vuol dire integrazione. - PowerPoint PPT Presentation

Transcript of Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Page 1: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Metodi statistici per l’integrazione di dati provenienti

da fonti diverse  

Nicoletta Cibella, Mauro Scanu, Tiziana Tuoto

Page 2: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Sommario

1) Cosa vuol dire integrazione2) Record linkage: perché3) Il metodo di Fellegi e Sunter4) Come risolvere il problema con RELAIS

Page 3: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Cosa vuol dire integrazione

Integrare i dati: non è solo un problema informatico: ma sono necessarie analisi e procedure statistiche!

La procedura di integrazione può essere soggetta a errore: bisogna misurarlo 

Diversi tipi di integrazione a seconda delle caratteristiche dei data set

Page 4: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Primo problema di integrazioneNome età reddito

Aldo Bianchi 30 25000

Giulia Rossi 20 14500

Carlo Verdi 45 38000

… … …

Nome età spese

Aldo Bianchi 30 30000

Pino Bianchi 30 27000

Carlo Rossi 45 20000

… … …

Questo problema prende il nome di record linkage (abbinamento esatto)

Bisogna cercare i record che appartengono allo stesso individuo

Page 5: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Secondo problema di integrazioneNome età reddito

Aldo Bianchi 30 25000

Giulia Rossi 20 14500

Carlo Verdi 45 38000

… … …

Nome età spese

Anna Gialli 30 32000

Pino Bianchi 30 27000

Carlo Rossi 45 20000

… … …Questi data set non hanno unità in comune, ma hanno variabili che è interessante studiare insieme

Le tecniche da usare vanno sotto il nome di statistical matching, o abbinamento statistico

Page 6: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Abbinamento statisticoL’abbinamento statistico può essere svolto anche su dati 

aggregati. Esempio: elezioni 1990, OhioDem. Rep. Asten.

Neri ? ? ? 55 054

Bianchi ? ? ? 25 760

19896 10936 49928 80760

Possibile ottenere informazioni sul legame fra gruppo etnico e voto?

Dem. Rep. Asten.

Neri

Bianchi

Dem. Rep. Asten.

Neri 55 054

Bianchi 25 760

80760

Dem. Rep. Asten.

Neri 55 054

Bianchi 25 760

19896 10936 49928 80760

Disponibiledalle liste elettorali

Disponibile al terminedelle elezioni

Page 7: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Abbinamento statistico: esempi

Abbinamento fra indagine sui consumi e quella sui redditiAbbinamento fra indagine sui redditi e campione anonimo 

di record fiscaliData set per microsimulazione

Page 8: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Abbinamento statistico

Dem. Rep. Asten.

Neri 0-25% 0-14% 30-61% 69%

Bianchi 0-25% 0-14% 0-31% 31%

25% 14% 61% 100%

Abbinamento statistico = “spremere” i dati!Riprendiamo l’esempio delle elezioni in Ohio

Dem. Rep. Asten.

Neri 69%

Bianchi 31%

25% 14% 61% 100%

Questa è una informazionein più rispetto alle marginali!

Page 9: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

BibliografiaKadane, J.B. (1978), Some statistical problems in merging data files. In 

Compendium of tax research, Department of Treasury, U.S. Gov- ernement Printing Office, Washington D.C., 159-179 (Reprinted in 2001, Journal of Official Statistics,17,423-433).

King, G. (1997), A Solution to the Ecological Inference Problem, Princeton University Press, Princeton.

D’Orazio, M., Di Zio, M., Scanu, M. (2006b), Statistical Matching: Theory and Practice, Wiley

Conti, P.L., Marella, D., Scanu M. (2012) Uncertainty Analysis in Statistical Matching, Journal of Official Statistics, pp. 69–88

Page 10: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Abbinamento esatto“Il libro della vita”

Dunn (1946)* descrive il record linkage in questi termini

…each person in the world creates a book of life. The book starts with the birth and ends with the death. Its pages are made up of all the principal events of life. Record linkage is the name given to the process of assembling the pages of this book into one volume. The person retains the same identity throughout the book. Except for advancing age, he is the same person…

*Dunn (1946) "Record Linkage". American Journal of Public Health 36 (12): 1412–1416. 

Page 11: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Le motivazioni

1. informazione congiunta su due o più variabili osservate su fonti diverse

2. “contare” una popolazione3. sostituire parti di indagini con archivi4. creazione di una “lista” di una popolazione5. altri obiettivi di statistica ufficiale 

(imputazione ed editing/migliorare la qualità del micro dato; studio del rischio di identificazione dei microdati rilasciati)

Page 12: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Record Linkage - caso sempliceANome Cognome CAP Data di

nascitaLuogo di nascita

Codice fiscale

Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T

BNome Cognome CAP Data di

nascitaLuogo di nascita

Codice fiscale

RSSMRA70E18H501T

I due record si agganciano tramite il codice fiscale!

Page 13: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Record Linkage - caso meno sempliceANome Cognome CAP Data di

nascitaLuogo di nascita

Codice fiscale

Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T

BNome Cognome CAP Data di

nascitaLuogo di nascita

Codice fiscale

Mario Rossi 00125 18/05/70 Roma ---

I due record si agganciano tramite un insieme di variabilicomuni che identificano i record

Page 14: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Record Linkage - caso più complicatoANome Cognome CAP Data di

nascitaLuogo di nascita

Codice fiscale

Mario Rossi 00125 18/05/70 Roma RSSMRA70E18H501T

BNome Cognome CAP Data di

nascitaLuogo di nascita

Codice fiscale

M. Russi 00152 18 maggio 1970

Ostia

I due record si agganciano tramite un insieme di variabilicomuni che identificano i record e sono affetti da errori o “problemi”

Page 15: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Record Linkage - caratteristiche

• Se esiste un codice identificativo o un insieme di variabili che può svolgere il compito di un codice identificativo, il problema del ricongiungimento dei record di due data set è banale.

• I metodi per il record linkage si occupano del caso in cui un unico codice identificativo non c’è, e le restanti variabili sono in grado di identificare le unità ma sono riportate con errore.

Page 16: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Schema delle operazioniSelezione delle

variabili di matchinge blocking

Editing dellevariabili blocking

Metododeterministico

Metodoprobabilistico

Definizioneregole

Modello/stimavalutazione

Soglie perle decisioni

Output: 1:1 o molti a molti

Revisionemanuale

Valutazione errorinegli

abbinamenti

Preelaborazioni

Recordlinkage

Analisi

Page 17: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Dati due file A e B di numerosità NA e NB  , si consideri l’insieme di cardinalità N=NANB Ω = {(a,b), a A e b B}. ∈ ∈

Si vogliono classificare le coppie in Ω nei due insiemi M e U tali che:

M = insieme delle coppieU = insieme delle non coppie

    con  M  U = Ω ,      M  U =  .

Formalizzazione del problema

Page 18: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Le variabili di confrontoSi selezionano le k variabili di matching (tra quelle comuni ai due data sets e identificative dell’unità)

Per ogni coppia (a,b) Ω , si definisce un vettore i cui K elementi sono il risultato

del confronto tra le variabili di matching.

Ad esempio

AK

AA XXX ...21

altrimenti0

se1,

Bk

Ak

kbaXX

BK

BB XXX ...21

K ,...,, 21

Page 19: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

1...1...11......1...1...01......1...0...10......0...0...00

......21 Kk XXXX

Frequenze

La Tabella di Contingenza

Page 20: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

(a,b)M

(a,b)U

Il modello mistura

Page 21: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Il “peso” di abbinamento

UPMP

r

Fellegi e Sunter (1969) introducono una funzione costituita dal rapporto di verosimiglianza

sulla base del quale le coppie (a,b) possono essere ordinate e sottoposte ad un processo di classificazione negli insiemi M e U 

Page 22: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

La regola di decisioneIl criterio di classificazione è basato su due livelli di soglia scelti in modo opportuno che assegnano le coppie a tre possibili sottoinsiemi M*, Q , U*

UbaTrQbaTrTMbaTr

uba

ubam

mba

,,,

,

,

,

Page 23: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

(a,b)M

(a,b)U

f

rQU* M*

TmLa regola di decisione

Tu

Page 24: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

Le Fasi di un progetto di Record Linkage come proposte in RELAISPreparazione dei files di input (pre-processing);Riduzione dello spazio di ricerca delle coppie candidate;Selezione degli attributi identificativi comuni (variabili di matching);Scelta della funzione di confronto;Scelta del modello di decisione;

Stima delle probabilità di abbinamento (1)Valutazione dell’adattamento del modello ai dati (1)Assegnazione delle coppie (a,b) allo stato di “abbinato” o “non abbinato”

Selezione degli abbinamenti univociValutazione dei risultati del Record linkage.

(1) fase caratteristica dei metodi probabilistici

Page 25: Metodi statistici per l’integrazione di dati provenienti da fonti diverse

BibliografiaScanu M. (2003) Metodi Statistici per il record linkage, Metodi e Norme - 

n.16, IstatBatini C., Scannapieco M. (2006) Data Quality: Concepts, Methods, and 

Techniques, Springer.Herzog T.N., Scheuren F.J., Winler E.W. (2007) Data quality and record linkage 

techniques, Springer.RELAIS: http://www.istat.it/it/strumenti/metodi-e-software/software/relais

        https://joinup.ec.europa.eu/software/relais/description