Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del...

35
Metodologie e strumenti per l’analisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi sulla base dell’esperienza Unioncamere F. Vernaci, P. Aimetti

Transcript of Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del...

Page 1: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Metodologie e strumenti per l’analisi delle qualità dei dati

Roma, 12 marzo 2001

Obiettivi del progetto RAE

e qualità dei dati negli archivi amministrativi sulla base

dell’esperienza Unioncamere

F. Vernaci, P. Aimetti

Page 2: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Si tratta di un progetto promosso dall'AIPA nell’ambito delle iniziative tese:

Il “Repertorio Integrato degli Agenti Economici - RAE”

• alla semplificazione degli adempimenti amministrativi a carico degli operatori economici;

• al miglioramento qualitativo e quantitativo dei servizi offerti alle cittadini;

• alla razionalizzazione degli scambi informativi tra le amministrazioni.

Page 3: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

migliorare l’interazione degli operatori economici (“Agenti”) con gli enti che offrono loro servizi amministrativi aumentare la qualità e la coerenza delle informazioni sulle imprese tramite un sistema informativo cooperativo tra gli enti con impatto minimo sulle procedure esistenticontribuire al progressivo allineamento dei dati comuni contenuti negli archivi amministrativi

Obiettivi del progetto RAE

Page 4: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Gli Enti interessati nella prima fase

AIPA Unioncamere Inps Inail

Page 5: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

• per le Camere di commercio:- il Registro Imprese- il Repertorio delle notizie economico-amministrative (REA)

• per l'Istituto Nazionale della Previdenza Sociale:- l'archivio delle imprese non agricole con dipendenti- l'archivio delle imprese agricole con dipendenti- l'archivio dei committenti di collaborazioni coord. e continuative- l'archivio dei lavoratori autonomi "commercianti"- l'archivio dei lavoratori autonomi "artigiani"

• per l'INAIL:- l'archivio delle imprese aventi assicurati per infortuni sul lavoro.

Le fonti amministrative:

Page 6: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Agenti Economici RI REA INPS(DL)

INPS(ALTRI)

INAIL AT

A1 Imprese Agricole X X X

A2 Imprese non agric. con dipendenti (artigiane e non) X X X X X X

A3 Imprese artigiane senza dipendenti X X X X X

A4 Imprese non agric non artigiane senza dipendenti X X X X

B1 Enti non commerciali con dipendenti X X X X

B2 Enti non commerciali senza dipendenti X X

C1 Liberi professionisti con dipendenti X X X

C2 Liberi professionisti senza dipendenti X X

I “soggetti” interessati: gli Agenti Economici

Page 7: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Il progetto RAE: le componenti principali

L’analisi preliminare delle fontiLa costruzione dello stock iniziale degli

Agenti economiciLa creazione di un sistema di gestione degli

eventi

Page 8: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Gli Agenti di interesse del RAE possono essere individuati e descritti mediante un insieme di codici identificativi. .Ogni AE è infatti identificato in modo univoco dal suo codice fiscale .

La complessità della sua struttura e delle sue relazioni con gli ENTI è rappresentabile da un “grappolo” di codici identificativi: il codice fiscale (identificativo unico), i codici delle unità locali (RI/REA), i codici delle posizioni contributive (INPS) e i codici delle posizioni assicurative (Posizioni Assicurative Territoriali- INAIL)

IMPRESA(codice fiscale)

Unità Locali(codici UL)

Posizioni Contributive(matricole INPS)

Posizioni Assicurative(PAT- INAIL)

Le caratteristiche delle fonti utilizzate

Page 9: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Caratteri costitutivi ecodici identificativid’IMPRESACodice Fiscaleragione soc.,…(CODICI UL, MI, PAT)Foglio_1

Unità LocaleCodice Unità LocalCaratteri costitutivi

Caratteri di stato

Caratteri classificat

Foglio ULn

Unità LocaleCodice Unità LocaleCaratteri costitutivi

Caratteri di stato

Caratteri classificator

Foglio UL2

Unità Locale

Codice Unità LocaleCaratteri costitutivi

Caratteri di stato

Caratteri classificatori

Foglio UL1

Unità LocaleCodice Unità LocalCaratteri costitutivi

Caratteri di stato

Caratteri classificat

Foglio MIm

Unità LocaleCodice Unità LocaleCaratteri costitutivi

Caratteri di stato

Caratteri classificator

Foglio MI2

Posizione contributiva

Matricola INPS (MI)

Caratteri costitutivi

Caratteri di stato

Caratteri classificatori

Foglio MI1

Unità LocaleCodice Unità LocalCaratteri costitutivi

Caratteri di stato

Caratteri classificat

Foglio PATk

Unità LocaleCodice Unità LocaleCaratteri costitutivi

Caratteri di stato

Caratteri classificatori

Foglio PAT2

Posizione assicurativa

PATCaratteri costitutivi

Caratteri di stato

Caratteri classificatori

Foglio PAT1

Caratteri riassuntivid’IMPRESA (RI/REA)Caratteri di statoCaratteri classificatori

Foglio_1RI/REA

Caratteri riassuntivid’IMPRESA (INPS)Caratteri di statoCaratteri classificatori

Foglio_1INPS

Caratteri riassuntivid’IMPRESA (INAIL)Caratteri di statoCaratteri classificatori

Foglio_1INAIL

I caratteri anagrafici di impresa

Page 10: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

La ricostruzione dello stock degli Agenti economici si ottiene secondo le seguenti fasi principali:il pre-trattamento delle fonti attraverso una serie di procedure di standardizzazione e normalizzazione delle informazioni;l’abbinamento delle fonti collegando tra loro tutti i record presenti nei diversi archivi e riconducibili a una stesso agente economico; l’analisi dei residui e attività di data cleaning;la produzione dello stock degli agenti economici.

Sistema di gestione del pregresso: la costruzione dello Stock iniziale

Page 11: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

La creazione dello stock: le singole operazioni

1. Acquisizione e standardizzazione dei dati - costruzione dell’archivio con l’integrazione di tutte le informazioni relative ad ogni singolo record con dati INPS, INAIL, Registro Imprese; - i tracciati vengono resi il più possibile omogenei e confrontabili tra di loro.

2. Check e normalizzazione dei caratteri - monitoraggio della qualità e della copertura proprie di ciascuna fonte su una serie di campi ritenuti rilevanti; - ricodifica dei caratteri in modo univoco

3. Preclassificazione delle fonti - classificazione di ciascun record di ogni archivio in relazione al suo stato di attività, al settore di attività svolta e alla sua rilevanza economica o giuridica.

Pretrattamento delle fonti

Page 12: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

La creazione dello stock: le singole operazioni

4. Ricostruzione degli abbinamenti noti- individuazione delle posizioni compresenti e invariate rispetto alle chiavi di abbinamento (codice fiscale, partita IVA, codici e matricole proprie degli archivi), creando per queste gli abbinamenti già ottenuti per il passato.

5. Linkage per chiavi certe (Codice Esatto)- l’operazione comprende tre distinte applicazioni per la ricerca di abbinamenti: - ricerca infrarchivi per codice esatto - ricerca interarchivi per codice esatto - ricerca interarchivi per codice fiscale parzialmente coincidente.

6. Linkage per codice a meno di un carattere- si cercano abbinamenti per codice fiscale e/o partita IVA coincidente per n-1 caratteri (nel caso del codice fiscale di persone fisiche si considerano solo i primi 11 caratteri) tra posizioni appartenenti ad archivi differenti.

Abbinamento delle fonti (1)

Page 13: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

La creazione dello stock: le singole operazioni

7. Linkage probabilistico- ricorso a tecniche probabilistiche analizzando la somiglianza o coincidenza di una serie di indizi indipendenti quali la ragione sociale, la forma giuridica, l’indirizzo, l’attività economica svolta, le date di inizio e cessazione attività.

8. Trattamento grappoli complessi (tipo n-1)- la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo n-1, se all’interno di uno stesso grappolo (e quindi per una stessa impresa) vi sono più codici di impresa

differenti

9. Trattamento grappoli complessi (tipo 1-n)- la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo 1-n, quando avviene che uno stesso codice di impresa sia presente in più grappoli

Abbinamento delle fonti (2)

Page 14: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

La creazione dello stock: le singole operazioni

10. Analisi dei residui non abbinati- valutazione della completezza del processo di abbinamento delle fonti analizzando i residui non abbinati per “spiegare” le cause del mancato abbinamento.

11. Analisi casistiche dubbie e definizione delle regole da seguire nella produzione del Repertorio integrato- riscontro di una serie di casistiche di non coerenza o apparente non compatibilità i cui

criteri di soluzione non appaiono scontati.

12. Restituzione agli enti fornitori del risultato delle procedure di abbinamento- ad ogni singolo ente fornitore sarà restituita la base dati di propria pertinenza arricchita dall’esito del processo di integrazione.

13. Produzione del Repertorio integrato degli agenti economici (stock)

Analisi dei residui e produzione del Repertorio integrato

Page 15: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

Valutazioni sulla qualità degli archivi

amministrativi sulla base della

creazione dell’archivio

“Excelsior-REA” nel 1998

Page 16: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 1 - Consistenze delle fonti di input al 31.12.1997

Registro Imprese INPS INAIL TotaleUnità locali Pos. contributive Pos. assicurate

Attiva 5.200.045 1.671.315 2.976.527 9.847.887Inattiva 312.382 0 0 312.382Nuova nata 439.057 98.159 280.371 817.587Stato particolare (sospesa) 60.275 131.737 0 192.012Cessata (1) 275.920 39.802 381.884 697.606

Totale posizioni (record) trattate 6.287.679 1.941.013 3.638.782 11.867.474

NoteLa presenza di cessate serve a garantire una profondità storica a copertura dei disallineamenti tra le fonti

(1) Escluse cessate al 31-12

Page 17: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 2 - Copertura dei caratteri nelle forniture trattate: localizzazione

Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate

(1)Codice regione ISTAT 6.285.447 0 0 0Codice provincia ISTAT 0 0 543.794 3.637.895Sigla provincia 6.285.505 1.394.981 0 3.637.895Codice comune ISTAT 6.285.458 0 546.026 3.637.895Descrizione comune 6.285.447 1.394.986 0 3.638.227CAP 6.285.467 1.394.987 546.026 3.635.763

Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782

Localizzazione completa dopo normalizzazione

6.287.299 1.394.980 546.022 3.638.020

(1) La fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997

Page 18: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 3 - Copertura dei caratteri nelle forniture trattate: indirizzo

Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate

Prefisso 6.071.686 1.333.300 0 0Toponimo 6.272.546 1.392.102 544.936 3.636.550Civico 5.590.925 1.214.860 0 0

Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782

NotaINPS Agricoltura e INAIL presentano un unico campo descrittivo dell'indirizzo

Page 19: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 4 - Copertura dei caratteri nelle forniture trattate: indirizzoDopo processo di standardizzazione degli indirizzi e normalizzazione del campo "prefisso"secondo la codifica del Registro Imprese

INPS Agricoltura INAILRegistro Imprese INPS standardizzata standardizzata

Unità locali Pos. contributive Pos. contributive Pos. assicurate

Prefisso 6.071.686 1.333.300 435.164 3.456.636Toponimo 6.272.546 1.392.102 544.936 3.636.550Civico 5.590.925 1.214.860 376.305 3.225.176

Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782

Page 20: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 5 - Copertura dei caratteri nelle forniture trattate: forma giuridica

Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate

Numero forme usate 60 162 0 0

Con forma giuridica 6.287.675 1.382.904 0 0di cui ditta individuale 3.967.871 496.427 s.r.l. 759.101 276.759 s.n.c. 728.804 247.555 s.a.s 444.747 99.282 s.p.a. 129.421 40.680 s.c.a.r.l. 128.565 20.333 altro 129.170 213.951

Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782

NotaIl campo forma giuridica della fonte INPS si esprime come stringa secondo più di 3.700 modalità diversenon sempre espressione di reali forme giuridiche; tra le 162 modalità con frequenza >= 50, solo 74 sono riconducibilia una forma giuridica secondo la codifica del Registro ImpreseINPS Agricoltura e INAIL non presentano una codifica propria della forma giuridica

Page 21: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 6 - Copertura dei caratteri nelle forniture trattate: forma giuridicaDopo trattamento della ragione sociale per l'assegnazione della forma giuridica secondo codificastandardizzata sulla base della classificazione del Registro Imprese

Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate

Numero forme usate 60 10 10 10

Con forma giuridica 6.287.679 1.394.987 546.026 3.638.782di cui ditta individuale 3.967.871 576.234 437.434 2.064.133 s.r.l. 759.101 278.575 540.505 s.n.c. 728.804 248.624 517.015 s.a.s 444.747 99.709 209.769 s.p.a. 129.421 40.936 103.589 s.c.a.r.l. 128.565 29.393 50.087 altro 129.170 121.516 108.592 153.684

Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782

Page 22: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 7 - Copertura dei caratteri nelle forniture trattate: date

Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate

Data iscrizione 6.247.349Data inizio 5.434.290 1.394.981 3.628.218Data cessazione (1) 572.733 261.213 534.543Data fallimento 37.390Data liquidazione 114.400Data iscrizione Albo Artigiani 1.651.446Data cessazione Albo Artigiani 180.411

Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782

NotaLa fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997 e non prevedevala presenza di date di inizio o cessazione dell'attività

(1) Per INPS cessazione o sospensione di attività

Page 23: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.
Page 24: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.
Page 25: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.
Page 26: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 15 - Esito delle procedure di abbinamento

Fase 1 Fase 2 Fase 3 Fase 4 Fase 5

Abbinamento delle tre fonti 952.845 1.088.902 1.089.092 1.090.986 1.096.144Abbinamento di due fonti 1.483.816 1.698.325 1.699.297 1.701.442 1.702.461Fonti non abbinate 4.777.983 3.285.766 3.282.643 3.271.578 3.237.592 di cui residui RI 3.411.893 2.883.347 2.881.953 2.876.571 2.864.821 residui INPS 749.378 110.609 109.327 106.081 100.557 residui INAIL 616.712 291.810 291.363 288.926 272.214

Totale grappoli creati 7.214.644 6.072.993 6.071.032 6.064.006 6.036.197

NotaFase 1: recupero degli abbinamenti storici derivanti dalle precedenti annualitàFase 2: ricerca di abbinamenti su codici chiave (codice fiscale e/o partita IVA) esattamente coincidentiFase 3: ricerca di abbinamenti su codici chiave coincidenti a meno di 1 carattere la cui validazione è stata confermata da circa 4.400 controlli puntualiFase 4: ricerca di abbinamenti su criteri probabilistici di coincidenza di attributi la cui validazione è stata confermata da circa 14.000 controlli puntualiFase 5: controllo puntuale di circa 45.000 grappoli complessi individuati per la presenza chiavi diverse (codice fiscale, numero di iscrizione al Registro Imprese) nello stesso grappolo

Page 27: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 16 - Analisi dei residui non abbinati

Registro Imprese INPS INPS Agricoltura INAILUnità locali Pos. contributive Pos. contributive Pos. assicurate

Residui spiegati 2.756.131 4.306 0 144.869 non attivi 634.103 4.306 0 144.869

fuori campo osserv. altre fonti 2.122.028

Residui non spiegati 108.690 24.816 71.435 127.345

Totale residui 2.864.821 29.122 71.435 272.214

NotaI residui "non attivi" (posizioni cessate, inattive o nuove iscrizioni) si considerano "spiegati" in quanto potrebberoriflettere un disallineamento temporale tra le fontiTra i residui sicuramente attivi del Registro Imprese si considerano "spiegati" in quanto esclusi dal campo diosservazione delle fonti INPS e INAIL i grappoli privi di addetti dipendenti e non artigiani

Page 28: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 17 - Confronto tra i caratteri delle diverse fonti: localizzazioneSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

Coincidenza degli indizi Uguale per Uguale per Diverso Totalele 3 fonti 2 fonti grappoli

Copertura delle fonti

Indizio presente in tutte le fonti 576.369 27.175 466 604.010

Indizio presente in 2 fonti 128 5 133 Registro Imprese assente 125 5 130

INPS assente 2 2

INAIL assente 1 1

Totale grappoli (imprese) 576.369 27.303 471 604.143

Page 29: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 18 - Confronto tra i caratteri delle diverse fonti: indirizzoSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

Coincidenza degli indizi Uguale per Uguale per Diverso Non Totalele 3 fonti 2 fonti confrontabile grappoli

Copertura delle fonti

Indizio presente in tutte le fonti 286.331 209.896 105.218 601.445

Indizio presente in 2 fonti 1.339 1.114 2.453 Registro Imprese assente 519 618 1.137

INPS assente 110 113 223

INAIL assente 710 383 1.093

Indizio presente in 1 fonte 144 144 solo Registro Imprese 69 69

solo INPS 32 32

solo INAIL 43 43

Indizio assente in tutte le fonti 101 101

Totale grappoli (imprese) 286.331 211.235 106.332 245 604.143

NotaIl confronto di presenza viene fatto sul toponimo che risulta essere il campo più completoIl confronto di coincidenza viene fatto valutando l'uguaglianza di stringhe, naturalmente in presenza di unprocesso di normalizzazione dei toponimi tra le fonti migliorerebbe i risultati ottenuti

Page 30: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 19 - Confronto tra i caratteri delle diverse fonti: forma giuridicaSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

Coincidenza degli indizi Uguale per Uguale per Diverso Non Totalele 3 fonti 2 fonti confrontabile grappoli

Copertura delle fonti

Indizio significativo per tutte le fonti 232.250 18.524 518 251.292

Indizio significativo per 2 fonti 343.901 3.762 347.663 INPS generica 1.209 400 1.609

INAIL generica 342.692 3.362 346.054

Indizio significativo solo per RI 5.188 5.188

Totale grappoli (imprese) 232.250 362.425 4.280 5.188 604.143

NotaDurante la normalizzazione della forma giuridica di INPS e INAIL quando questa non è riconducibile a unformato specifico viene assegnata alla classe residuale altre forme; in questi casi il confronto di coincidenzadell'indizio non avrebbe senso, pertanto la classe residuale altre forme è stata considerata non confrontabile

Page 31: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 20 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizioneSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

Confronto per Confronto perdata inizio RI data iscrizione RI

Copertura delle fonti

Indizio presente in tutte le fonti 517.620 603.370

Indizio presente in 2 fonti 86.520 773 Registro Imprese assente 86.491 741

INPS assente 3 3

INAIL assente 26 29

Indizio presente in 1 fonte 3 solo INPS 3

Totale grappoli (imprese) 604.143 604.143

Page 32: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 21 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizioneSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

Confronto per Confronto perConfronto degli indizi per coppia di data inizio RI data iscrizione RIfonte (RI = base)

Data inizio INPS precede RI 83.834 131.923Data inizio INPS segue RI 433.812 471.476Non confrontabile 86.497 744 data RI assente 86.494 741

data INPS assente 3 3

Data inizio INAIL precede RI 131.889 252.542Data inizio INAIL segue RI 385.734 350.831Non confrontabile 86.520 770 data RI assente 86.491 741

data INAIL assente 26 29

date assenti entrambe 3

Page 33: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 22 - Confronto tra i caratteri delle diverse fonti: attività economicaSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

TotaleCopertura delle fonti grappoli

Indizio presente in tutte le fonti 582.270

Indizio presente in 2 fonti 21.873 Registro Imprese assente 21.826

INAIL assente 47

Totale grappoli (imprese) 604.143

Page 34: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 23 - Confronto tra i caratteri delle diverse fonti: attività economicaSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

TotaleCoincidenza degli indizi grappoli

Codice RI confermato da INPS e/o INAIL 531.693Codice INPS e INAIL diverso da codice RI 21.087Codice INPS e/o INAIL con codice RI assente 21.826Codice RI, INPS e INAIL diversi tra loro 29.537

Totale grappoli (imprese) 604.143

Page 35: Metodologie e strumenti per lanalisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi.

TAV. 24 - Confronto tra i caratteri delle diverse fonti: codice fiscaleSi considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte

Coincidenza degli indizi Uguale per Uguale per Diverso Non Totalele 3 fonti 2 fonti confrontabile grappoli

Copertura delle fonti

Indizio presente in tutte le fonti 533.220 29.480 428 563.128

Indizio presente in 2 fonti 39.639 1.290 40.929 Registro Imprese assente 33.597 1.120 34.717

INPS assente 81 3 84

INAIL assente 5.961 167 6.128

Indizio presente in 1 fonte 86 86 solo Registro Imprese 1 1

solo INPS 84 84

solo INAIL 1 1

Totale grappoli (imprese) 533.220 69.119 1.718 86 604.143

NotaPoiché INPS non differenzia in due campi il codice fiscale e la partita IVA il confronto viene fatto sul codice fiscale