S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e...
-
Upload
istituto-nazionale-di-statistica -
Category
Education
-
view
24.641 -
download
3
description
Transcript of S. Montagna E. Manna L. Brondi - Le integrazioni delle fonti per il sistema dell’istruzione e...
Le integrazioni delle fonti per il sistema dell’istruzione e formazione:
I risultati conseguiti con le prime sperimentazioni
DCSE/1 Progetto: Integrazione delle fonti campionarie e amministrative per l'analisi del sistema formativo
Silvia MontagnaEnrico Manna
Lidia BrondiRoma – 20 maggio 2014
1
Il percorso
La collaborazione inter-istituzionale tra MIUR e ISTAT
sancita da uno specifico protocollo di intesa tra le parti per allargare l’acquisizione delle basi di dati anche alle fonti amministrative
L’analisi, a priori, del potenziale informativo delle fonti amministrative e del livello di qualità
con approccio ispirato a principi base di certificazione di qualità totale
La certificazione, a posteriori, del potenziale valore aggiunto offerto della integrazione delle fonti amministrative
con la produzione della QRCA per ciascun nuovo archivio
2
Il percorso
La costruzione e l’analisi degli archivi integrati
Al minimo livello di disaggregazione possibile e per le popolazioni confrontabili
II feedback verso il produttore per concordare le iniziative di miglioramento
per accrescere la conoscenza sui processi e la qualità dei prodotti rilasciati
La innovazione di processo e di prodotto: dalla sola rilevazione statistica all’utilizzo congiunto delle fonti statistico-amministrative
con il supporto a decisioni politiche, gestionali, normative e organizzative
La formazione statistica «continua» anche degli addetti ai processi amministrativi
per accrescere la consapevolezza sull’uso statistico e sui criteri di qualità dei processi e prodotti statistici 3
Il percorso
Non privo di ostacoli dovuti a:
I diversi punti di vista dei vari attori
coinvolti nelle decisioni e nei processi di produzione
Rischio di incidenti istituzionali nazionali e internazionali
Scelta di strade talvolta senza una destinazione certa per la scarsa
visibilità sui processi produttivi a monte
Qualche miraggio da illusione ottica sulla vicinanza del risultato finale
Qualche dubbio sullo sforzo da erogare commisurato al risultato atteso
4
Prove muscolari…
per riuscire ad avere i dati e per la prima volta siamo riusciti ad ottenere, ad esempio • Anagrafe nazionale degli Studenti• Rilevazione sul personale scuola privata• Demo sul sistema di gestione dei Dottori di ricerca
Per condividere metodi e modi per la presentazione dei risultati
Nel percorso non è mancato nulla…
5
prove muscolari,qualche imbarazzo,
Intraprendere strade impercorribili illusione di essere giunti velocemente alla fine
l dubbio di aver fatto un grande sforzo inutile
E poi … il sollievo ad obiettivo raggiunto!!
Nel percorso non è mancato nulla…
6
Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
Conclusioni: dalle sperimentazioni condotte emerge che le fasi del processo di produzione statistica (tradizionale) si possono avvantaggiare della integrazione di dati provenienti da più fonti, purché siano rispettate determinate condizioni.
I casi di studio hanno affrontato come avvalersi della integrazione, ad esempio nel processo di produzione «tradizionale» (SDI):
•prima della raccolta dei dati;
•durante le operazioni sul campo;
•durante le elaborazioni dei dati;
•ai fini della diffusione dei dati.
Mentre nel processo SDA la descrizione del fenomeno può cogliere sfaccettature inattese (es.: assicurati INPDAP).
7
Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
Prospettive:
•Accompagnare l’archivio rilasciato
con una «certificazione»
•Agevolare l’accesso al SIM per evitare duplicazioni e disallineamenti rispetto alle azioni di aggiornamento/miglioramento di dati
•Integrare i metadati secondo le varie loro declinazioni
8
Processo di integrazione delle fonti: primi risultati
L’analisi (a cura Sistan et al.) degli archivi amministrativi per l’uso statistico ha messo a disposizione le istruttorie sugli archivi della scuola e degli studenti universitari che il MIUR può al momento rilasciare.
La costituzione (a cura DCCR et al. ) delle basi informative amministrative integrate è stata mirata al supporto:
-delle indagini e delle analisi delle transizioni formazione-lavoro
-della stima del personale per le istituzioni scolastiche con gestori privati
L’innovazione di processo per la produzione di statistica ufficiale si è concretizzata nella produzione (a cura MIUR et al.) di statistiche sui laureati a partire dalla ANS 2012 e di cruscotti a supporto delle decisore istituzionale.
La cooperazione applicativa tra sistemi statistici mirata (ad esempio) all’orientamento dà valore aggiunto alla diffusione delle singole informazioni amministrative o statistiche 9
Processo di integrazione delle fonti: primi risultatiAlcune delle criticità incontrate
10
• Chiave di abbinamento
• Matching tra domanda e offerta (es.: variabile richiesta e variabile fornita)
• Uso di variabili proxy in assenza di altre variabiliEs.: L’indagine condotta dal Miur rileva il personale distinguendolo tra personale docente e personale non docente (il primo è l’aggregato richiesto da Eurostat).
Una variabile che descrive la Posizione nella professione presente per una parte dei lavoratori della Base informativa integrata può fornire delle informazioni di proxy per distinguere il personale tra docente e non docente.
• Discontinuità temporale di talune basi informative
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Nei casi di studio trattati e riferiti alle tre popolazioni campionarie totali (diplomati, laureati e dottori), è stata sperimentata l’integrazione:
•Per chiave univoca: Codice Fiscale dell’individuo (exact matching)
•Per variabili parziali di composizione della chiave univoca Codice Fiscale (nome, cognome, anno di nascita, comune di nascita) (senza gg e mm di nascita)
E nel caso riferito ai lavoratori del mondo scuola
•Mediante variabili indirette
Tra i motivi di mancato abbinamento:
•Chiave univoca totalmente mancante
•Chiave errata (errore di registrazione o di trasformazione)
•Variabili comuni rilevate in tempi distanti e sensibili a variazioni di stato
E CODIFICHE E CLASSIFICAZIONI DIVERSE 11
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Record linkageMediante Codice Fiscale:
•Costruite le liste di campionamento complete di variabili aggiuntive (es.: dati anagrafici per il reperimento dell’individuo a fini di comunicazioni ufficiali e per la conduzione della rilevazione)
•Completata la popolazione con unità mancanti
•Corretti dati errati (es.: Genere, età, territorio, etc…)
Ma soprattutto ….riprogettare la rilevazione statistica per
•Contenere il numero della fasi
•Utilizzare nel disegno del questionario le variabili disponibili dalle fonti amministrative:
– Eliminazione di domande (riduzione del response burden)– Precaricare valore di variabili da visualizzazione (senza richiesta di
conferma)– Precaricare valore da sottoporre a controllo e aggiornamento– Usare informazioni nelle fasi post rilevazione per controlli e correzioni 12
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
•E’ mediabile anche per la Popolazione l’esperienza ormai pluriennale maturata in ambito economico (ASIA)?
•Ripercorrere la storia dell’individuo sembra
semplice per la presenza del CF che accompagna
ogni evento (amministrativo) della nostra vita?
•La ricerca della ricostruzione si risolve nella
sola risposta dicotomica trovato/non trovato?
La costruzione dell’integrazione e l’interpretazione del risultato sono talvolta più complessi e richiedono una conoscenza
approfondita degli eventi che determinano
le registrazioni amministrative
13
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
I casi trattati
•La complessità del linkage è, in generale, dell’ordine di grandezza del prodotto cartesiano dei due insiemi;
•Se il risultato dell’abbinamento è di tipo n:m per migliorare l’individuazione degli abbinamenti “corretti” si possono adottare altre tecniche (es.: riduzione di distanza mediante l’uso di funzioni di controllo)
•Poiché le scelte che si fanno ad ogni passo della procedura di linkage possono introdurre errori di linkage (falsi abbinamenti o mancati abbinamenti), la accuratezza della documentazione è fondamentale: chi esegue il linkage deve fornire il maggior numero possibile di informazioni sul linkage, così che l’analisi possa essere fatta a sua volta di scelte consapevoli (le variabili usate per il linkage, l’esito della eventuale revisione manuale, etc…)
14
SIM: realizzazioni e lavori in corso
A carico DCCR/ADA:
(…)
•Costruzione della chiave univoca di identificazione per la navigazione
all’interno del SIM
•Caricamento dei Metadati in apposite tabelle e ricodifica di (alcune)
variabili di classificazione a livello centralizzato.
•E’ in corso di implementazione la produzione della documentazione
dei contenuti del SIM e una specifica documentazione della qualità dei
dati e dei processi di integrazione (Quality Report Card dei dati
Amministrativi – QRCA)
(da presentazioni DCCR/ADA)
15
Processo di integrazione delle fonti: primi risultati
Sistema integrato sull’istruzione e sulla formazione
Strutture scolasticheFonti: MIUR – ASIA, etc.
Personale scolasticoFonti: MIUR-AT-INPS-INPDAP-etc..
Studenti scolasticiFonti: MIUR – LAC-etc..
Studenti UniversitariFonti: MIUR, LAC, AT, INPS, INPDAP, etc.
Personale universitarioFonti: MIUR
Strutture UniversitarieFonti: MIUR, ASIA
Formazione professionale Fonti MIUR, LAC
16
E per DCSE…
SIM: realizzazioni e lavori in corso
esempio di trasmissione di metadati da SIM
17
ID Nome colonna Tipo Significato Note
1 CODICE_FISCALE "Testo" codice fiscale (cf)
2 CODICE_UNITA "Numero" codice unità (cu)
3 NSCUOLE "Numero" numero scuole numero scuole (calcolato sulle tipologie)
4 FLAG_STESSOTIPO_DIVERSOTIPO "Testo" flag stesso tipo o diverso tipo di scuola Se '1' ha la medesima tipologia di scuola, se '2' ha tipologia differente, se '3' ha almeno un caso di TIPOLOGIA='TUTTE' .
5 TUTTE "Numero" contatore tipologia TUTTESe Desc_Tipologia in (Centro Territoriale - Convitto Annesso - Convitto Nazionale - Educandato - Istituto Comprensivo)
6 INFANZIA "Numero" contatore tipologia INFANZIA Se Desc_Tipologia in (SCUOLA INFANZIA - SCUOLA INFANZIA NON STATALE)
7 PRIMARIE "Numero" contatore tipologia PRIMARIE Se Desc_Tipologia in (SCUOLA PRIMARIA" , "SCUOLA PRIMARIA NON STATALE)
8 SECONDARIE_DI_PRIMO_GRADO "Numero"contatore tipologia SECONDARIE_DI_PRIMO_GRADO
Se Desc_Tipologia in (SCUOLA PRIMO GRADO" , "SCUOLA SEC. PRIMO GRADO NON STATALE")
9 SECONDARIE_DI_SECONDO_GRADO "Numero"contatore tipologia SECONDARIE_DI_SECONDO_GRADO
Se Desc_Tipologia in (tutte le restanti tipologie)
10 ANNO "Numero" ANNO
11 DESC_ENTE_GESTORE "Testo" descrizione ente gestore
12 FLAG_STATALI "Testo" flag scuola statale e non Se '1' è una scuola statale, se '0' allora è una scuola non statale, se ' ' ha associate sia scuole non statali che statali
13 NumStatali "Numero" numero scuole statali associate
14 NumNoStatali "Numero" numero scuole non statali associate
15 FLAG_MIUR_NOPROFIT "Testo" flag presenza in Miur e NoProfitSe '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte
16 NADDETTIUL "Numero" numero addetti per tutte le UL Variabile proveniente dalla fonte NoProfit
17 NVOLONTARIUL "Numero" numero volontari per tutte le UL Variabile proveniente dalla fonte NoProfit
18 FLAG_MIUR_ASIAUL "Testo" flag presenza in Miur e in AsiaUlSe '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte
19 FLAG_MIUR_EMENS "Testo" flag presenza in Miur e in EmensSe '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte
20 DIPEMENS "Numero" numero dipendenti da Emens
21 FLAG_MIUR_COLLINPS "Testo" flag presenza in Miur e in CollInpsSe '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte
22 DIPCOLLINPS "Numero" numero dipendenti da CollInps
23 FLAG_MIUR_INPDAP "Testo" flag presenza in Miur e in InpdapSe '10' allora è presente solo in Miur, se '11' è presente sia nella fonte Miur che nell'altra fonte
24 DIPINPDAP "Numero" numero dipendenti da Inpdap
Tracciato record ScuoleMiur11 (chiave CODICE_FISCALE E CODICE_UNITA)
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Aspettative dal Record linkage
Integrazione trasversale:
•Arricchire la conoscenza di una popolazione con un maggiore numero di variabili provenienti da più fonti e caratterizzate da uno stesso riferimento temporale
Integrazione longitudinale:
•“seguire” nel tempo le storie professionali di differenti coorti di popolazione, nel nostro caso:
– popolazioni di studenti, – popolazioni di addetti al mondo istruzione
18
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Integrazione trasversale:
•La conoscenza iniziale sulle popolazioni campionarie per le interviste da condurre nel 2014 si arricchisce, ad esempio, con quanto disponibile dalle LAC e dall’archivio telefonia fissa:
Elaborazioni: E. Manna
Ricerca riferimenti telefonici\
Fonte Popolazionenumerosità
iniziale CF distinti reperiti in LAC
arricchite % con CF distinti
con almeno un telefono
valore aggiunto rispetto al già
noto Atenei Dottori di ricerca 2008 e 2010 22.630 22.553 20.469 100,0% 20.441 8.412 276 casi Italiani 20.003 97,7% 8.366 stranieri 466 2,3% 46 ANS cineca Laureati 2011 289.661 289.631 283.579 100,0% 283.332 154.895 100% Italiani 286.011 279.508 98,6% 154.369 1,00 stranieri 3.620 4.071 1,4% 526 0,003
ANS MiurDiplomati 2011 (campione50% scuole) 192.506 192.241 188.395 100,0% 188.295 98.298 (in corso)
italiani - 182.332 96,8% 97.424 0,99 stranieri - 5.563 3,0% 750 0,01
19
Focus n.0: Laureati 2011
La popolazione del 2011 è stata oggetto di analisi di benchmark:
La nuova fonte amministrativa ANS 2011 è stata messa direttamente a
confronto con la fonte rilevazione statistica:
-È stato accelerato l’uso di ANS 2012
-È stato focalizzato il tema dell’offerta telematica
-È stato individuato il nuovo bacino informativo amministrativo
(OF.F Offerta Formativa, Dottorati e Dottori di ricerca, Docenti, etc…)
20
Focus n.0: Laureati 2011
21
Dai valori %
Ai valori assoluti
Focus n.1: Laureati 2007
La popolazione del 2007 è stata oggetto nel 2009 di una rilevazione
sull’esito professionale a tre anni dalla laurea.
L’analisi per l’integrazione è stata articolata principalmente in:
“Ricostruzione” del Codice Fiscale, non raccolto a suo tempo;
Ricerca negli archivi amministrativi della evidenza lavorativa del laureato;
•Confronto con il corrispondente dato di fonte rilevazione (in corso);
22
Focus n.2: Rilevazioni statistiche del 2014
Le popolazioni campionarie:
•Dottori di ricerca di vari anni (solari)
•Laureati dell’anno solare 2011
•Diplomati dell’anno scolastico 2011/12
Per le rilevazione sull’esito professionale a tre anni (o più)
dal conseguimento del titolo.
L’analisi è articolata principalmente in:
Completamento delle liste campionarie con le variabili non presenti in ANS
Ricerca negli archivi amministrativi della evidenza lavorativa dell’individuo
Confronto con il dato da rilevazione;
23
Focus n.3: Istituzioni private – (non statale)
Sono state condotte in parallelo due attività con l’obiettivo di colmare lacune
informative e per rispettare la deadline del regolamento europeo (EC) No
452/2008 (e.g. : Number of classroom teachers (by isced levels 0-4) by sex, age
group, employment status and type of institution (private))
•Analisi dei dati relativi all’a.s. 2011/2012 per il supporto alla produzione delle stime
per il personale (docente e non docente) delle istituzioni private
•Analisi preliminare all’utilizzo dei dati relativi all’a.s. 2012/2013 concentrata sulle
variabili utili per il «linkage amministrativo» e per l’eventuale confronto con il dato
statistico storico (da fonte rilevazione):
– “spoglio” dell’archivio anagrafico delle scuole private e
pubbliche_non_statali a.s. 2012/2013;
– arricchimento delle definizioni (anche ai fini di un glossario) attraverso la
ricostruzione del complesso quadro legislativo vigente per il sistema
scolastico.24
Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private – (non statali)
Anno scolastico 2011/2012
Ai fini del supporto richiesto dal MIUR per la produzione delle statistiche sul
personale docente e non docente delle scuole private per ordine scolastico, per
classe di età, genere e orario di lavoro a livello nazionale, (Regolamento (EC) No
452/2008)
•Le informazioni su ciascuna Scuola si ottengono tramite il relativo Ente gestore
(CF);
•È stato concettualizzato il contenuto di una apposita estrazione dal SIM e
costituzione della base informativa che tramite approccio LEED individua gli addetti
degli Enti gestori delle scuole;
•Mediante variabili proxy sono stati «selezionati» gli addetti che hanno evidenza di
appartenenza al mondo della scuola (con gradi di certezza crescenti);
25
Focus 3: Enti gestori - Istituzioni scolastiche pubbliche e private – (non statali)
Anno scolastico 2011/2012 ( a cura DCSE-1)
Es.: L’indagine condotta dal Miur rileva il personale distinguendolo tra personale
docente e personale non docente (il primo è l’aggregato richiesto da Eurostat).
Nella base informativa estratta da SIM la variabile che descrive la Posizione nella
professione del lavoratore (valorizzata in diversi archivi che concorrono al
popolamento della base informativa integrata) può fornire delle informazioni di proxy
per distinguere il personale tra docente e non docente.
26
Focus n.3: Istituzioni scolastiche pubbliche e private – (non statali)- segue
Controllo ed analisi dei dati - Anno scolastico 2012/2013
L’analisi condotta ha riguardato da un lato il controllo delle chiavi di linkage dei dati, dall’altro l’elaborazione di alcune tabelle con la distribuzione delle Istituzioni scolastiche non statali secondo le caratteristiche della scuola e dell’Ente Gestore.
A) INFORMAZIONI RELATIVE ALLA SCUOLA (O ISTITUZIONE SCOLASTICA)
Codice e Denominazione della scuola;
Indirizzo, Località, Comune e CAP;
Regione, Provincia e Sigla della Provincia;
Tipologia della scuola;
Tipologia della scuola secondaria di II grado.
B) INFORMAZIONI RELATIVE ALL’ENTE GESTORE
Codice Fiscale e Descrizione dell’Ente gestore;
Indirizzo, Comune di residenza e CAP;
Comune di nascita;
Tipo di Ente;
Nome e Cognome del Rappresentante legale.
I controlli di qualità sono stati finalizzati a verificare la completezza e la correttezza delle informazioni contenute nel file e la coerenza delle classificazioni adottate con le corrispondenti classificazioni utilizzate dall’Istat.
27
L’analisi della distribuzione degli Enti gestori secondo il numero di Istituzioni scolastiche gestite conferma anche per a.s.2012/2013 che circa l’80% degli Enti gestori (pari a 6.297 unità) gestisce una sola istituzione scolastica, circa il 10% ne gestisce 2 e circa il 2% gestisce almeno 10 scuole.
Elaborazioni e analisi: L. Brondi
Focus 3: Istituzioni private – (non statale) (segue)
NUMERO DI ISTITUZIONI SCOLASTICHE NON
STATALI
NUMERO ENTI GESTORI
Valori assoluti
Valori in %Frequenze cumulate
%
1 6.297 79,27 6.297 79,272 789 9,93 7.086 89,203 296 3,73 7.382 92,934 155 1,95 7.537 94,885 88 1,11 7.625 95,986 67 0,84 7.692 96,837 52 0,65 7.744 97,488 27 0,34 7.771 97,829 17 0,21 7.788 98,04
10-15 86 1,08 7.874 99,1216 e più 70 0,88 7.944 100,00
Totale 7.944 100,00
28
29
a.s. 2011/12
Fonte N.record
Cod scuola e CF gestore
SoloCod scuola(unico)
SoloCF
gestore(unico)
Anagrafe delle scuoleMiur_anag_scuole
67.278*
24905§
42373 -
Rilevazione IntegrativaPersonaleNonStatali
15.350 - 15.350di cui 15214
distinti
-
Estratto SIMContadipscuolemiur11_dic11
18.141 - - 18.141distinti
Esito Record Linkage:
Chiave ricostruita% 91% 1% -
Chiave ricostruita 14.983 13969#
1014di cui1011
distinti
-
*Di cui 14522 scuole non statali e 13.986 non statali paritarie. N.B.: Manca Bolzano in anagrafe scuole, ~, 367 istituti scolastici per i quali manca quindi l’informazione sulla tipologia !!!§Di cui 18.283 codici fiscali distinti.
Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti
30
Flag Miur Inpdap
ENTE GESTOREVal.
assoluti Valori in
%Infanzia Primaria
Secondaria di I grado
Secondaria di II grado
REGIONE - - 15 0 0 2 -
PROVINCIA - - 0 0 0 3 -
COMUNE - - 100 7 2 14 -
ALTRO GESTORE PUBBLICO - - 228 2 1 15 -
ALTRO GESTORE PRIVATO - - 2.739 247 110 986 -
ENTE O PERSONA PRIVATA - - 296 35 11 87 -
GESTORE PRIVATO RELIGIOSO - - 2.629 197 166 274 -
SUBTOTALE - - 6.007 488 290 1.381 -
REGIONE 9.914 4,45 169 28 0 0 49
PROVINCIA 21.555 9,67 1 0 0 14 1
COMUNE 158.393 71,05 1.449 6 1 2 2
ALTRO GESTORE PUBBLICO 1.203 0,54 141 12 2 0 2
ALTRO GESTORE PRIVATO 28.015 12,57 744 211 58 66 1
ENTE O PERSONA PRIVATA 80 0,04 12 7 4 2 0
GESTORE PRIVATO RELIGIOSO 3.780 1,70 1.574 836 340 313 4
SUBTOTALE 222.940 100,00 4.090 1.100 405 397 59
222.940 100,00 10.097 1.588 695 1.778 59Elaborazioni a cura: L.Brondi
11
TOTALE
Distribuzione della presenza di addetti Inpdap e delle istituzioni scolastiche per Ente gestore (a.s. 2011/2012)
TIPO ENTE GESTORE E PRESENZE ADDETTI INPDAP
Numero dipendenti
InpdapTipologia Istituzioni scolastiche
Altre tipologie
10
31
Prospetto 1: Ricostruzione della chiave di abbinamento tra fonti
The FREQ Procedure Analisi della differenza tra dato fonte sim e fonte rilevazione miur
Cumulative Cumulative class_diff Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ -999 3 0.05 3 0.05 -99 6 0.10 9 0.15 -49 1040 17.48 1049 17.63 -9 1258 21.14 2307 38.77 -1 239 4.02 2546 42.79 0 165 2.77 2711 45.56 1 105 1.76 2816 47.33 9 435 7.31 3251 54.64 49 1103 18.54 4354 73.18 99 608 10.22 4962 83.39 999 988 16.61 5950 100.0 The MEANS Procedure Analysis Variable : diff_dip_sim_ril N Mean Maximum Minimum Range Std Dev ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 5950 34.8963025 324.0000000 -132.0000000 456.0000000 62.8744276 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ condotta sulle sole osservazioni con ente gestore con unica scuola
Processo di integrazione delle fonti: primi risultati
Il percorso non è completato …
Control and editing/cleanig of the data is a never ending activity
In ciascuna fonte ci si deve attendere che la qualità sia maggiore per le informazioni più strettamente necessarie per la finalità istituzionale che ha originato quella fonte presso l’ente produttore (soggetto titolare)
La qualità dell’informazione amministrativa e dell’informazione statistica è un concetto multidimensionale
Quale qualità?
•Qualità attesa, qualità misurabile, qualità migliorabile
•Valore aggiunto delle integrazioni
Es.: uso forme contrattuali
Incrocio con variabili demosociali della famiglia
•Gestione degli scarti e dei residui dagli abbinamenti
32
Processo di integrazione delle fonti: primi risultati
Integrazione in statistica
L’introduzione di innovazioni di processo e di prodotto comporta la assunzione di alcuni nuovi rischi.
Aiuta a contenerli:
• La scelta di metodologie di trattamento adatte alla nuova natura mista dei dati
• La gestione dei dati, condivisa tra i vari produttori e utilizzatori, orientata alla qualità (secondo i principi declinati per la statistica ufficiale e per gli archivi amministrativi utili a fini statistici).
• Etc…
33
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
La fonte amministrativa, per la sua natura, potrebbe avere un ciclo di vita (inserimento, aggiornamento e cancellazione delle informazioni) molto diverso da quello di una base dati statistica.
La trasformazione dell’input nel processo di produzione statistico: il passaggio da SDI a SDA
Investire sulla innovazione dei prodotti per contenere la proliferazione di «manufatti».
34
Processo di integrazione delle fonti: primi risultati
Obiettivo: INTEGRAZIONE (di microdati)
Alcuni dei problemi incontrati
Protezione della identificazione dell’individuo:
•Sostituzione della chiave identificativa con chiave anonima
•Verifica dell’efficacia dell’intervento di anonimizzazione
Problema della corretta interpretazione:
•Carenza di memoria storica della registrazione amministrativa
•Utilizzo nel disegno del questionario delle variabili disponibili presso le varie fonti
Problema del riferimento temporale e dell’esito dell’abbinamento
Problema della veridicità dei big data
… 35
e per migliorare il nostro restauro…
Continuare ad investire:
•sul miglioramento del protocollo di comunicazione tra
soggetti Sistan per agevolare la fornitura dei dati
Es.: normalizzare la struttura dei data base
•sulla maggiore condivisione del sistema di
classificazione e codifica dei dati
Es.: Ovviare alla criticità legata alle “variazioni amministrative” aggiornate
periodicamente dall’Istat
•sulla maggiore linkabilità diretta dei dati
Es.: Ovviare alla criticità della mancanza o correttezza delle di chiavi di linkage
36
Grazie dell’attenzione
37