1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova...

Post on 01-May-2015

218 views 5 download

Transcript of 1 La qualità dellinformazione statistica nellera digitale Luigi Fabbris Università di Padova...

1

La qualità dell’informazione statistica nell’era digitale

Luigi FabbrisUniversità di PadovaComstat

ISTITUTO NAZIONALEDI STATISTICA

2

Schema della Schema della presentazionepresentazione

1. Premesse: big data; censimenti continui e anagrafi

2. Qualità dei dati statistici e qualità dei processi di formazione dei dati

3. Le competenze necessarie e la competenza da riconoscere agli statistici

4. Big data vs. big brother: riservatezza vs. democrazia nell’uso dei dati

5. Alcune conclusioni

3

Big dataBig data Tanti dati, grazie all’informatizzazione dei servizi

sociali e degli scambi economici: dati amministrativi utilizzati a fini statistici (es: comunicazioni obbligatorie del Ministero del Lavoro)

Collegamento tra archivi per relazionare informazioni (es: censimento istituzioni non-profit: unite quasi 30 fonti amministrative o statistiche) o per fare archivi più grandi (es: anagrafe nazionale della popolazione)

Sistemi informativi invece di indagini statistiche (es: censimento continuo della popolazione)

Cambio epocale nella gestione dei dati statistici Nuovi rapporti tra cittadino/impresa/istituzione e informazione pubblica sistemi informativi e SISTAN

4

Qualità dei dati statisticiQualità dei dati statistici Dimensioni: Validità del processo produttivo delle statistiche:

◦ Tempestività◦ Economicità

Affidabilità del processo: fornire informazioni attendibili Utilità: i dati prodotti devono essere coerenti con le attese

degli stakeholder (es: CNUIS)

Oppure, semplificando, Efficienza tecnico-economica del processo produttivo

(tempestività, economicità, affidabilità) Efficacia dei dati prodotti (utilità)

5

Attendibilità dei dati Attendibilità dei dati Copertura dell’insieme atteso

◦ Completezza unitaria: tutti i record devono essere presenti◦ Copertura informativa: tutte le variabili inerenti ad un record

devono essere presenti◦ Copertura del fenomeno atteso: i dati registrati corrispondono

agli obiettivi conoscitivi Corrispondenza al vero delle informazioni riportate:

◦ Precisione campionaria: il campione deve essere selezionato secondo metodologia e sufficientemente ampio (si applica alle indagini statistiche)

◦ Accuratezza del microdato: i singoli dati registrati devono corrispondere al vero

◦ Accuratezza del macrodato: le statistiche pubblicate devono corrispondere al valore atteso (verosimili)

Completezza Completezza Affermazione: se i dati sono contenuti in una base

di dati informatica, sono perfetti. Niente di più sbagliato.

Esempio: nel 1981 si confrontarono i risultati del censimento della popolazione con i dati anagrafici: circa 1.500.000 italiani erano sfuggiti al censimento e all’anagrafe ne mancavano circa 930.000; dopo gli aggiustamenti, 2,7% mancava al censimento e un altro 2,7% mancava all’anagrafe.

Da 1991, l’Istat non ha più pubblicato i dati sul confronto anagrafe-censimento

Ogni statistica è affetta da errore, si può solo cercare di padroneggiare l’errore.

6

7

Il Sistan: sistema glocalIl Sistan: sistema glocal Tanti produttori di dati: se i dati derivano dall’ambito locale,

devono transitare dall’Ufficio di statistica per una “certificazione” (validation)

Rete di utilizzatori, ad ogni livello, locale e nazionale, inserita in reti internazionali (UE, OECD, ….)

Ruolo fondamentale dell’Istat: ◦ Codifica dei processi di produzione: passare da record di eventi a record di

unità statistiche (es: occupati nelle CO)◦ Metadati, definizioni per analizzare e confrontare◦ Formazione dei certificatori di dati che passano attraverso il Sistan

Ruolo nuovo anche per l’accademia◦ Rimodellare le competenze degli statistici per i nuovi processi di produzione

dei dati, cultura della qualità del dato

8

Progetto PLUG_INProgetto PLUG_IN PLUG_IN: Professional Life of University Graduates INformation system

OBIETTIVO Creare un prototipo di sistema informativo-statistico che

descrive carriera universitaria, storia lavorativa (CO) ed economica (UNIEMENS-INPS) dei laureati

Sistema informativo = sistema di indicatori statistici

OBIETTIVI Informare, ogni anno, sull’efficacia della formazione

acquisita dai laureati (valutazione corsi di studio) Misurare il valore sociale restituito dai laureati al mondo

del lavoro e della produzione (”quanto vale una laurea?”: orientamento “strategico”)

9

Come è stato creato Come è stato creato Plug_InPlug_In

1. Convenzioni tra Università di Padova e Veneto Lavoro, tra UdP e Ministero del Lavoro, tra MinLavoro e INPS (problema di privacy nell’abbinamento dei record: record anonimizzati)

2. Estrazione dagli archivi universitari dell’annata 2008 di laureati dell’Università di Padova (N=11.770). Collegamento di archivi mediante il Codice Fiscale. È possibile che i laureati siano solo nell’archivio universitario, in questo archivio e in UNIEMENS-INPS, in questi due archivi e tra le CO.

3. Collegamento tra il campione di laureati dell’indagine Agorà dell’Università di Padova (n=4.500) e gli archivi delle CO e dell’INPS, al fine di stimare (per campione) l’attendibilità degli archivi amministrativi (CO e INPS)

Plug_In è formato da archivi Plug_In è formato da archivi amministrativiamministrativi

Dati universitari, 2008 CO – MinLavoro, 2008 Versamenti INPS, 2008

Versamenti INPS, 2009CO – MinLavoro, 2009

CO – MinLavoro, 2010 Versamenti INPS, 2010

Versamenti INPS, 2011CO – MinLavoro, 2010

CO – MinLavoro, 2017 Versamenti INPS, 2017

10 anni di linkagetra archiviper ognilaureato

::

11

Alcune verifiche di Alcune verifiche di coperturacopertura

Gli 11.770 laureati sono stati identificati negli archivi delle CO, di UNIEMENS-INPS e Università:

CO+INPS: 6.823 Solo CO 555 Solo INPS 1.539 Né CO né INPS 2.853 Nessun archivio 832

(17,1%) Re-iscritti Università di PadovaCercano lavoro

(13,1%)Dipendenti INPS e altroLavoratori autonomiCollaboratori agricoliCollab. parasubordinati

(58,0%)Lavoratori dipendentiTirocinanti /stagiaires

(4,7%) Lavorava prima della laurea

(7,1%) Studenti iscritti a altra universitàLavorano in nero, all’estero per l’esteroMorti, usciti dal mercato, suore, ecc.Errori di sistema, rifiuto a collaborare

12

Commenti all’esperimentoCommenti all’esperimento1. Nella migliore delle ipotesi, utilizzando tutte le basi

informative elementari, anche private, manca 7-9% dei laureati. È un angolo buio degli archivi da spiegare.

2. I database nascono come archivi amministrativi: ogni archivio ha proprie terminologie e classificazioni. L’unità statistica non è la persona, ma un atto amministrativo (es.: Come si definisce un occupato? Notevole differenza tra rilevazioni delle forze di lavoro e CO). È necessario trovare nuove definizioni.

3. All’università interessa sapere se i lavori sono “da laureati”. Non ce lo dicono le CO (a meno che….), si può saperlo dallo stipendio INPS (tuttavia……). Non è ancora possibile sostituire del tutto i dati statistici con quelli amministrativi.

13

Le statistiche privateLe statistiche private La produzione di statistiche private si sta orientando

in modo simile a quello pubblico. Princìpi: Utilizzare in modo efficiente le informazioni interne

(sistemi informativi); Procurarsi le informazioni sul mercato attraverso la rete

di vendita e della distribuzione (osservazione indiretta); Va svolto solo un numero limitato di interventi mirati per

acquisire conoscenza diretta. Imperano, quindi, i princìpi che:

le informazioni devono costare tra poco e niente; Bisogna bilanciare osservazione diretta ed indiretta della

realtà che interessa.

Quindi….

15

Professionalità dello Professionalità dello statisticostatistico

Il Sistan ha bisogno di disporre di produttori qualificati di dati (statistici) i quali devono essere in grado di garantire il sistema delle statistiche pubbliche:

Devono saper riconoscere la qualità dei dati (abitudine ad elaborare dati anche a livello periferico)

Devono aver interiorizzato la razionalità dei metadati. Una statistica è di qualità se è stata prodotta da un

sistema “in qualità” La formazione dei componenti gli Uffici di statistica può

essere la forma di certificazione della qualità del processo di produzione a livello locale

Per le statistiche “private” e per quelle “terze”, necessità di certificare i produttori: statistici certificati?

Il rischio Il rischio dell’autoreferenzialitàdell’autoreferenzialità

16

L’Istat ha saldamente in mano l’informazione statistica italiana e, giustamente, reclama l’indipendenza dell’informazione dall’uso.

Per questo, è necessario il contatto continuo con gli utenti (CNUIS) e con l’ente di vigilanza (COGIS)

La formazione universitaria degli statistici non si è riformata tenendo in conto il cambiamento epocale. Nelle università non s’insegna il metodo dell’indagine e quello dell’utilizzazione statistica di grandi basi di dati. Non si insegna ad utilizzare sia l’informazione diretta che quella indiretta.

Bisogno di riflettere, dialogando, con la società che utilizza i dati statistici.

Grazieper l’attenzione