F. della Ratta - Rinaldi, M. Tibaldi - Sperimentazione di un sistema di controllo e correzione per...
-
Upload
istituto-nazionale-di-statistica -
Category
Education
-
view
1.201 -
download
0
description
Transcript of F. della Ratta - Rinaldi, M. Tibaldi - Sperimentazione di un sistema di controllo e correzione per...
SESSIONE IIPREVENZIONE, VALUTAZIONE E TRATTAMENTODEGLI ERRORI NON CAMPIONARI
Sperimentazione di un sistema di controllo e correzione per la codifica dell’attività economica nell’indagine
sulle Forze di lavoro
Francesca della Ratta-Rinaldi, Mauro Tibaldi
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
1. Caratteristiche e obiettivi della procedura
2. Risultati e loro ricadute sulla prevenzione dell’errore
3. Sviluppi futuri
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
• Adozione nuova classificazione dell’attività economica Ateco2007 (Nace Rev. 2) nella RFL
• Verifiche di congruenza sulle codifiche Ateco a seguito di andamenti anomali nei dati
• Necessità di intervenire sui dati in fase di correzione
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
L’antefatto
L’attività economica principale svolta nella sede/unità locale presso cui lavora l’intervistato viene registrata in un campo aperto e poi ricondotta dal rilevatore al codice Ateco a 6 digit
• C15: Cosa fa l’azienda o l’Ente presso la quale lavora? (Indichi i principali beni e/o servizi prodotti)
I rilevatori si avvalgono di un sistema di codifica assistita che li guida nell’attribuzione dei codici della classificazione (navigatore)
L’attività economica nella RFL
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Informazioni supplementari
Nella fase di correzione utilizziamo anche la descrizione della professione, perché spesso i rilevatori inseriscono in questo campo informazioni utili per la codifica dell’attività economica
C11 - Può dirmi il nome della sua professione e in che cosa consiste il suo lavoro?
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Una correzione mirata
Considerati i vincoli di tempestività (rilascio dei dati a 60 giorni dalla conclusione del trimestre) e l’elevata numerosità campionaria dell’indagine (circa 150 mila record individuali a trimestre), in seguito ad analisi preliminari si è deciso di limitare la fase di correzione ai settori più critici:
Agricoltura Costruzioni Servizi generali della PA Istruzione Sanità
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
La procedura di correzione codifica Ateco
Due corpus a confronto
Il linguaggio della classificazione Ateco
organizzato per specifiche divisioni
(agricoltura, industria, commercio, servizi…)
Il linguaggio degli intervistati
(organizzato per divisioni di codifica)
La procedura si basa sull’analisi della congruenza tra il linguaggio ufficiale della classificazione e quello dei rispondenti
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Due linguaggi a confronto
B:B: linguaggio comune
C:C: termini utilizzati esclusivamente dai rispondenti c1:c1: terminologia «pertinente» (utile per arricchire vocabolario Ateco) c2: c2: terminologia «non pertinente» indizio errore
A:A: linguaggio specifico Ateco che non viene utilizzato dagli intervistati o non finisce nel campione
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
A BC2
C1
A: linguaggio della classificazione
B: linguaggio degli intervistati
C1= terminologia pertinente
C2= terminologia non pertinente
Esempio: Agricoltura
coltivazione, agricolo,
allevamento, cereali, ortaggi
Aragoste, barbabietole, piscicoltura, amarene, bozzoli….
acquisti, imbottigliamento, edili, motorista,
Parmalat
mandorlo, asparago, albicocco, mais/grano,
vendemmia, painte
I record che contengono questi vocaboli devono
essere controllati
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Record aggiunti al vocabolario Ateco
chiave_individuo sesso eta …
c12_f (professione)
C16_F (ateco) DUBBIO errore testo
201304303100055103 1 43 81450 841110 VERIFICA 81 manutenzione e pulizia di giardini, cimitero del comune operatore ecologico201405809101232202 2 53 24130 841110 86 asl presidio sanitario regionale medico asl201404701100009102 1 51 81450 841110 VERIFICA 381100 comune di montecatini terme operatore ecologico presso comune di montecatini terme201402104700013102 2 41 81510 841110 VERIFICA 853209 amministrazione provinciale bidella di scuola201405900800041101 1 40 32111 841110 VERIFICA 862202 azienda regionale emergenza sanitaria infermiere professionale201408304800149202 2 51 43230 841120 7219 ente di ricerca cnr impiegato amministrativo rendicontazione progettio e finanziamenti201307000600134201 2 53 44220 842300 910100 servizio biblioteca amministrazione pubblica addetta alla biblioteca della polizia di stato201408006300205101 1 60 25111 841110 CONTROLLA amministrazione provinciale gestione corsi professionali funzionario amministrativo
La procedura di correzione
È stata utilizzata la funzione di ricerca entità (RE) disponibile in TaLTaC2
ricercare combinazioni di parole (entità) nell’intero frammento, scrivendo il risultato in una nuova variabile personalizzata aggiunta al dataset originario
Nuove variabili aggiunte al data set
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
La strategia di correzione si affina nel tempo
1. Le sessioni di correzione successive alla prima “apprendono” dalle operazioni effettuate in precedenza
2. Si amplia il vocabolario Ateco di partenza (A) riducendo la numerosità delle parole da controllare
3. Si individuano in automatico gli errori già corretti in precedenza: circa il 60% delle correzioni
4. Si applica la procedura soltanto ai record non interessati da correzione automatica
5. Con un unico comando si etichettano tutti i record con parole anomale
6. Nella fase di verifica finale si controlla l’effettiva esattezza della codifica inserita dal rilevatore per tutti i record con parole anomali
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Fino ad oggi la nuova procedura di correzione ha consentito di assegnare una nuova codifica a oltre 3.600 record, pari all’1,6% del totale di quelli controllati
.Le correzioni effettuate (IV trim 2011-III trim2014)
Divisioni Codifiche errateRecord controllati % su controllati
Agricoltura 370 29,192 1.3
Costruzioni 521 49,957 1.0
PA 1,737 44,799 3.9
Istruzione 503 48,832 1.0
Sanità 526 57,485 0.9
Totale 3,657 230,265 1.6
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
La sperimentazione è importante sia per la correzione del dato sia soprattutto per la sua prevenzione
Individuazione di una casistica di errori più frequenti per ciascuna divisione, utile per ritorni formativi
Emerso un problema a monte: la qualità delle stringhe descrittive, spesso troppo brevi e generiche
L’analisi di tutti i descrittivi brevi (<13 caratteri) alimenta una lista attraverso cui si invia un warning automatico quotidiano a tutti i rilevatori
. Ricadute sulla prevenzione dell’errore
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Il valore aggiunto: la prevenzione La fase di correzione ha permesso di costruire
progressivamente un sistema organico e strutturato orientato a prevenire l’errore di codifica attraverso:
1. formazione generale sull’Ateco e sulle regole di codifica a tutti i soggetti coinvolti (rilevatori Capi, Cati, Astat, responsabili uffici regionali, supervisori Capi)
2. ritorni formativi specifici sull’Ateco a tutti i rilevatori dell’indagine (Capi e Cati), tra cui formazione frontale ai 310 rilevatori Capi a dicembre 2013
3. warning automatico quotidiano a tutti i rilevatori che inseriscono un descrittivo generico
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Il valore aggiunto: la prevenzione
4. invio trimestrale personalizzato a ciascun rilevatore delle codifiche errate con spiegazioni
5. esercitazioni periodiche di codifica per tutti i rilevatori
- creazione indirizzo mail ([email protected])
6. costruzione di una rete di “qualità” condivisa da tutti gli attori coinvolti
Risultato: diminuzione del tasso di errore e riduzione dei descrittivi generici (da circa 2.000 segnalazioni
a inizio 2013 a 949 a fine 2013)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Punti di forza La procedura di correzione si è rivelata utile per
correggere materiali complessi riducendo notevolmente i tempi di operazioni che a mano avrebbero richiesto più tempo
La procedura presenta il vantaggio di concorrere al miglioramento progressivo della qualità dei dati dell’indagine sulle forze di lavoro, eliminando un numero significativo di record mal classificati
Le procedure messe in atto hanno consentito anche la definizione di strategie preventive (formazione, warning automatico) per la sua riduzione ex-ante
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Sviluppi futuri La sperimentazione ha evidenziato anche un limite dello
strumento di codifica
Il linguaggio ufficiale della classificazione è distantedistante dal modo di esprimersi degli intervistati e può essere fonte di errore
Il rilevatore non riesce a codificare bene se i termini utilizzati dai rispondenti non sono presenti nel vocabolario del navigatore (ipercoop, esercito, ater, acli, etc.)
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
L’aggiunta di termini tratti dal linguaggio degli intervistati potrebbe migliorare le performances del navigatore
Sviluppi futuri Un nuovo navigatore che integri le esperienze già
realizzate in Istituto e l’amplissima fonte rappresentata dai testi liberi inseriti dai rispondenti potrebbe facilitare il processo di codifica e ridurre l’impatto dell’errore e delle correzioni
Uno strumento di codifica assistita potrebbe rivelarsi inoltre indispensabile nel caso delle indagini CAWI
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi
Si tratterebbe dell’anello mancante di questo percorso, che potrebbe tornare utile a tutte le indagini sulle famiglie
Grazie per l’attenzione Grazie per l’attenzione Versione più estesa in Istat working papers n. 4/2014
http://www.istat.it/it/archivio/134852
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Sistema di controllo e correzione per la codifica dell’attività economica | della Ratta, Tibaldi