L’impianto metodologico dell’Indagine longitudinale sulle...
Transcript of L’impianto metodologico dell’Indagine longitudinale sulle...
L’impianto metodologico dell’Indagine longitudinale sulle transizioni scuola-lavoro
Strumenti_10
Marco Centra - Isfol Piero Demetrio Falorsi - Istat Valentina Gualtieri - Isfol Giovanna Linfante - Isfol
ISSN 2037-2582
collana strumenti isfol | numero 2011/10 - giugno | www.isfol.it | occupazione
L’Isfol, Istituto per lo sviluppo della formazione
professionale dei lavoratori, è stato istituito con DPR n.
478 del 30 giugno 1973, e riconosciuto Ente di ricerca
nel 1999 ed è sottoposto alla vigilanza del Ministero del
lavoro e delle politiche sociali. L’Istituto opera nel
campo della formazione, delle politiche sociali e del
lavoro al fine di contribuire alla crescita dell’occupazione
ed al miglioramento delle risorse umane. L'Isfol svolge
e promuove attività di studio, ricerca, sperimentazione,
documentazione, informazione e valutazione,
consulenza e assistenza tecnica. Fornisce un supporto
tecnico-scientifico al Ministero del lavoro, ad altri
Ministeri, al Parlamento, alle Regioni e Province
autonome, agli Enti locali, alle Istituzioni nazionali,
pubbliche e private, sulle politiche e sui sistemi della
formazione ed apprendimento lungo tutto l’arco della
vita, del mercato del lavoro e dell’inclusione sociale. Fa
parte del Sistema Statistico Nazionale. Svolge inoltre il
ruolo di assistenza metodologica e scientifica per le
azioni di sistema del Fondo sociale europeo, è Agenzia
nazionale Lifelong Lerning Programme – Programma
settoriale Leonardo da Vinci.
Presidente: Sergio Trevisanato Direttore: Aviana Bulgarelli Riferimenti: Corso d’Italia, 33 00198 Roma Tel. +39.06.85447.1 web: www.isfol.it
Strumenti Isfol è la collana elettronica che raccoglie tutti i contributi che l’Isfol realizza con specifiche finalità operative, come strumentazione a disposizione degli operatori e dei non-specialisti, anche nell’ambito di committenze esterne vincolanti. La collana ha l’obiettivo di rendere disponibili non solo particolari elaborati teorici per la comunità scientifica ma anche una vasta tipologia di prodotti (quali kit, manuali, dispositivi operativi e opuscoli a fini divulgativi, atti di convegni, ecc.) per un target di utenti più ampio.
Il paper raccoglie i risultati di una ricerca realizzata dall’area Analisi e Valutazione delle Politiche per l’Occupazione.
Il prodotto è stato finanziato dal Fondo sociale europeo nell’ambito dei Programmi operativi nazionali a titolarità del Ministero del lavoro e delle politiche sociali “Azioni di Sistema” (Ob. Competitività Regionale e Occupazione) e “Governance e Azioni di Sistema” (Ob. Convergenza), Asse Capitale Umano, Obiettivo specifico 3.1, progetto “Indagine longitudinale sulle transizioni scuola-lavoro”, in attuazione dei Piani Isfol 2011-2012 di competenza della Direzione generale per le politiche per l’orientamento e la formazione.
Sono autori del paper: Marco Centra Piero Demetrio Falorsi Valentina Gualtieri Giovanna Linfante
La presente pubblicazione costituisce la versione cartacea
dell'edizione consultabile sul portale www.isfol.it all'interno della
collana elettronica Strumenti.
La Collana Strumenti Isfol è curata da Claudio Bensi Responsabile della Struttura Comunicazione web e multimediale. Coordinamento editoriale: Paola Piras, Aurelia Tirelli, Matilde Tobia Redazione: Paola Piras, Costanza Romano, Aurelia Tirelli, Matilde Tobia, Daniela Verdino
Contatti: [email protected]
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
ABSTRACT L’indagine longitudinale sulle transizioni scuola lavoro (TSL) è un progetto dell’Isfol che ha l’ambizione di soddisfare, in maniera organica, gran parte delle domande di informazione statistica sulla condizione giovanile. Le tematiche principali toccate dall’indagine riguardano le scelte formative, gli esiti scolastici, le competenze sviluppate tramite gli anni di studio, la redditività della formazione, le transizione verso il mondo del lavoro, la formazione delle competenze nei primi anni di lavoro e i profili di carriera. Il progetto prevede di affrontare tali temi, considerati cruciali della identificazione della persona, tramite una rilevazione continua nel tempo, che, una volta a regime, produrrà una base di dati e informazioni, di valido supporto agli operatori del settore, dai policy maker alle scuole, dal sistema di formazione professionale alle imprese.
La struttura longitudinale permette di stimare correttamente le carriere scolastiche, i percorsi formativi, gli esiti occupazionali, i percorsi di inserimento nel mercato del lavoro e di avanzamento professionale fino a diversi anni dal primo ingresso nell’occupazione. Un panel particolarmente esteso consente, inoltre, di tenere conto di tutti gli aspetti che determinano, direttamente o indirettamente, sia i percorsi di istruzione-formazione che gli esiti occupazionali e i profili di carriera, permettendo in ultima analisi di pervenire ad una stima del rendimento dell’investimento in formazione e in capitale umano da parte delle famiglie.
Nelle sue linee generali l’indagine ha cadenza annuale. A regine, coprirà una popolazione di età compresa tra 16 e 25 anni e permetterà di studiare sia fenomeni di tipo trasversale (riferiti ad un determinato periodo temporale), sia fenomeni aventi natura longitudinale (riferiti a più periodi temporali) connessi principalmente ai cambiamenti di stato (o transizioni).
Una importante caratteristica della rilevazione è data dal raccordo con l’indagine OCSE-PISA (Programme for International Student Assessment) condotta in Italia dall’Invalsi (Istituto nazionale per la valutazione del sistema scolastico) che ha l’obiettivo di studiare, tramite test cognitivi, le competenze acquisite, dagli studenti 15enni, in lettura, matematica e scienza. Il raccordo TSL-PISA consiste nell’inserire all’interno del campione TSL, un sottocampione dell’indagine PISA. In tal modo sarà quindi possibile mettere in relazione gli esiti formativi e lavorativi degli individui, misurati tramite l’indagine TSL, con le loro competenze misurate dall’indagine PISA tramite test cognitivi.
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
ABSTRACT The longitudinal school-work transition survey (TSL, from the Italian Transizione Scuola Lavoro), is aiming to provide a response to most of the typical statistical questions regarding the condition of the youth population. The main themes covered by the survey concern educational paths, performance at school, skills developed during the years of study, return on education, transition to the labour market, skill-based training during the initial years at work, and career paths. These topics are addressed by the project through a panel survey that will generate data and information useful for sector operators, school-related policy-making and vocational training programs.
The longitudinal structure of the survey will allow accurate estimates of scholastic records, educational paths, occupational outcomes, entryways to the labour market, and career progressions over time. A particularly lasting panel will also make it possible to account for every aspect that directly or indirectly determines educational and training paths, occupational outcomes and career profiles. Finally, this will lead to estimates the return on households’ educational and human capital investments.
The general form of the survey is conducted on annual basis. The complete panel will cover a population aged 16-25 and enables the study of cross-sectional (for single time periods) and longitudinal (for multiple time periods) phenomena that are closely associated to status changes (or transitions).
An important dimension of this study concerns its connection to the OECD-PISA survey (Programme for International Student Assessment) conducted for Italy by Invalsi (National Institute for the Evaluation of the Educational System), which employed cognitive testing to study the skills acquired by 15 year old students in reading, mathematics and the sciences. The TSL- OECD-PISA survey linkage involves the transposition of a sub-sample from the OECD-PISA survey into the TSL sample. This makes it possible to relate the individual educational and work outcomes measured in the TSL survey to the individual competences measured in the cognitive tests of the PISA survey.
INDICE PAG.
INTRODUZIONE 1
1. LA STRUTTURA DELL’INDAGINE TSL 3
2. POPOLAZIONE DI RIFERIMENTO E PARAMETRI DI INTERESSE 5
2.1. Definizione logica delle popolazioni di riferimento e dei domini di interesse 5
2.2. Simbologia e parametri di interesse 5
3. DESCRIZIONE GENERALE DEL DISEGNO DI CAMPIONAMENTO 8
3.1. Individui di 16 anni 11
3.2. Individui di 19 e 22 anni 12
4. CAMPIONE DI COMUNI 13
5. CAMPIONE DI ISTITUTI SECONDARI 16
5.1. Descrizione generale 16
5.2. Descrizione formale 17
6. SELEZIONE DEGLI INDIVIDUI 19
6.1. Individui di 19 e 22 anni 19
6.2. Individui di 16 anni 19
7. DETERMINAZIONE DELLE PROBABILITÀ DI INCLUSIONE E DELLE NUMEROSITÀ CAMPIONARIE AI VARI STADI E FASI DI SELEZIONE
20
RIFERIMENTI BIBLIOGRAFICI 25
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
1
INTRODUZIONE L’ indagine longitudinale sulle transizioni scuola lavoro (TSL) è un progetto dell’ Isfol (Istituto per
lo Sviluppo della Formazione Professionale dei Lavoratori) che ha l’ambizione di soddisfare, in
maniera organica, gran parte delle domande di informazione statistica sulla condizione giovanile.
Le tematiche principali toccate dall’indagine riguardano le scelte formative, gli esiti scolastici, le
competenze sviluppate tramite gli anni di studio, la redditività della formazione, le transizione
verso il mondo del lavoro, la formazione delle competenze nei primi anni di lavoro e i profili di
carriera. Il progetto prevede di affrontare tali temi, considerati cruciali della identificazione della
persona, tramite una rilevazione continua nel tempo, che, una volta a regime, produrrà una base
di dati e informazioni, di valido supporto agli operatori del settore, dai policy maker alle scuole, dal
sistema di formazione professionale alle imprese.
Tale progetto riveste un ruolo cruciale poiché, mentre in altri Paesi esperienze di indagini simili
sono particolarmente estese1, in Italia a tutt’oggi manca una fonte di dati longitudinali sulla
componente giovanile della popolazione.
La struttura longitudinale permetterà di stimare correttamente le carriere scolastiche, i percorsi
formativi, gli esiti occupazionali, i percorsi di inserimento nel mercato del lavoro e di avanzamento
professionale fino a diversi anni dal primo ingresso nell’occupazione. Un panel particolarmente
esteso consentirà, inoltre, di tenere conto di tutti gli aspetti che determinano, direttamente o
indirettamente, sia i percorsi di istruzione-formazione che gli esiti occupazionali e i profili di
carriera, permettendo in ultima analisi di pervenire ad una stima del rendimento dell’investimento
in formazione e in capitale umano da parte delle famiglie. Nelle sue linee generali l’indagine ha
cadenza annuale. A regine, coprirà una popolazione di età compresa tra 16 e 25 anni e permetterà
di studiare sia fenomeni di tipo trasversale (riferiti ad un determinato periodo temporale), sia
fenomeni aventi natura longitudinale (riferiti a più periodi temporali) connessi principalmente ai
cambiamenti di stato (o transizioni).
Una importante caratteristica della rilevazione è data dal raccordo con l’indagine OCSE-PISA
(Programme for International Student Assessment) condotta in Italia dall’Invalsi (Istituto nazionale
per la valutazione del sistema scolastico) che ha l’obiettivo di studiare, tramite test cognitivi, le
competenze acquisite, dagli studenti 15enni, in lettura, matematica e scienza. Il raccordo TSL-
PISA consiste nell’inserire all’interno del campione TSL, un sottocampione dell’indagine PISA. In tal
modo sarà quindi possibile mettere in relazione gli esiti formativi e lavorativi degli individui,
misurati tramite l’indagine TSL, con le loro competenze misurate dall’indagine PISA tramite test
cognitivi.
Il presente articolo ha essenzialmente l’obbiettivo di descrivere i principali aspetti della strategia di
campionamento adottata nella prima wave dell’indagine TSL. Il contributo presentato è rilevante
1 Ricordiamo qui la National Longitudinal Surveys of Youth curata negli Stati Uniti dal Bureau of Labor Statistics; la National longitudinal survey of children and youth, effettuata in Canada; la National Education Longitudinal Study, curata dal Department of Education degli Stati Uniti.
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
poiché mostra in concreto una possibile strategia di ricerca che, in maniera rigorosa, ha permesso
di affrontare e risolvere una serie di esigenze quali:
a. il raccordo tra due indagini con disegni di campionamento e finalità differenti
b. la possibilità di costruire stime corrette basate sugli schemi di campionamento adottati
c. la praticabilità in termini di costi e vincoli organizzativi e logistici.
La presentazione di questo tema è articolata nel modo seguente. Nel paragrafo 1 si esplicita la
struttura complessiva dell’indagine, nel paragrafo 2 si illustra la definizione della popolazione di
riferimento e dei parametri di interesse (che nella prima occasione d’indagine avranno unicamente
natura trasversale). Nel paragrafo 3 si descrive sinteticamente il disegno di campionamento
adottato. I successivi paragrafi 4, 5 e 6 sono dedicati ad approfondire particolari aspetti del
disegno; in particolare, il paragrafo 4 è dedicato al disegno di campionamento dei comuni; il
paragrafo 5 a quello delle scuole e il paragrafo 6 allo schema di selezione degli individui. Infine, nel
paragrafo 7 si descrivono gli algoritmi utilizzati per la determinazione delle numerosità campionarie
e delle probabilità di inclusione ai vari stadi e fasi di selezione.
2
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
1. LA STRUTTURA DELL’INDAGINE TSL L’osservazione dei fenomeni di interesse avviene con cadenza annuale e a regime, gli individui sono intervistati la prima volta a 16 anni; sono quindi rilevati in tutte le successive occasioni di indagine fino al compimento dei 25 anni di età. In ciascuna occasione d’indagine è effettuata uno studio retrospettivo finalizzato a rilevare tutti i cambiamenti di stato, con le relative informazioni di contorno, avvenuti dopo l’occasione d’indagine precedente. Il questionario è articolato in moduli distinti ciascuno dei quali finalizzato ad approfondire le caratteristiche di specifiche transizioni. Per il singolo individuo coinvolto nel campione, la prima intervista sarà effettuata con tecnica CAPI (Computer Assisted Personal Interview), mentre le successive interviste saranno realizzate con tecnica CATI (Computer-Assisted Telephone Interviewing).
La prima occasione d’indagine, che si realizzerà nei mesi di aprile-giugno 2010, sarà rivolta ad indagare le coorti di individui nati negli anni solari 1993, 1990, e 1987; questi individui saranno rilevati nelle successive occasioni d’indagine fino al compimento dei 25 anni. Nella seconda occasione d’indagine (anno 2011) saranno rilevati anche gli individui nati negli anni 1994, 1991, e 1988 e così via. L’indagine entrerà progressivamente a regime e nell’anno 2013 saranno osservate tutte le 10 coorti di interesse degli individui tra 16 e 25 anni.
Schema 1 - Schema di indagine per età dell’intervistato, tecnica di rilevazione
Anno di indagine
2010 2011 2012 2013 Età
intervistato Tecnica di rilevazione
16 Capi Capi Capi Capi
17 Cati Cati Cati
18 Cati Cati
19 Capi Capi Capi Cati
20 Cati Cati Cati
21 Cati Cati
22 Capi Capi Capi Cati
23 Cati Cati Cati
24 Cati Cati
25 Cati
Con riferimento alla rilevazione Isfol del 2010 si procederà a intervistare un sottocampione di individui nati nel 1993 che nel 2009 hanno partecipato all’indagine OCSE-PISA. In questo modo la Rilevazione sulle transizioni scuola lavoro, ogni tre anni, si arricchirà del bagaglio informativo relativo alle capacità cognitive di ciascun intervistato, misurate attraverso i questionari Pisa. In un’ottica di analisi longitudinale, sarà, quindi, possibile sia valutare la capacità predittiva di tali indicatori di capitale umano sia mettere in relazione questi con gli esiti formativi e lavorativi degli individui. Gli individui nati nel 1990 e nel 1987, non ricavati dal campione OCSE-PISA, verranno, invece, selezionati dalle anagrafi comunali.
L’indagine prevede inoltre interviste distinte, sia nel luogo sia nei contenuti, a seconda dell’età degli individui: nella prima occasione d’indagine i nati nel 1993 verranno intervistati nelle scuole/centri di formazione, le restanti coorti saranno intervistate presso le loro abitazioni.
3
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
Tutte le prime interviste (ogni volta che una nuova coorte entra nel campione) saranno realizzate con tecnica CAPI. Le reinterviste negli anni successivi saranno effettuate con tecnica mista, utilizzando a seconda delle circostanze una delle modalità seguenti: l’intervista telefonica assistita da computer (comunemente nota come tecnica CATI), l’intervista via web autocompilata assistita da computer, l’intervista postale, l’intervista diretta. L’utilizzo di una tecnica mista nasce dalla necessità di garantire che un individuo intervistato una prima volta sia rilevato anche nelle successive occasioni d’indagine. L’utilizzo di modalità differenti permette infatti di ottenere l’intervista anche da persone che non sarebbero raggiungibili con un’unica modalità di indagine.
Per ogni coorte, dopo 4 anni dalla prima intervista, si effettuerà una valutazione dell’attrition e si prenderà in considerazione la possibilità di integrare il campione.
4
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
2. POPOLAZIONE DI RIFERIMENTO E PARAMETRI DI INTERESSE
2.1 Definizione logica delle popolazioni di riferimento e dei domini di interesse
Con il termine di popolazione di riferimento si denota l’insieme degli individui a cui sono riferite le stime campionarie. La prima occasione d’indagine ha tre distinte popolazioni di riferimento (o coorti) indicate successivamente come popolazioni per classi di età, costituite rispettivamente dagli individui eleggibili per la rilevazione che sono nati negli anni solari 1993, 1990, e 1987 e che nel seguito saranno indicati sinteticamente come individui aventi rispettivamente 16 , 19 e 22 anni.
La definizione di individuo eleggibile è la seguente:
un individuo di 19 o 22 anni è eleggibile se appartiene alla popolazione residente presente
un individuo di 16 anni è eleggibile se, oltre ad appartenere alla popolazione residente presente, è stato incluso nel sistema di istruzione (ossia iscritto a una scuola di vario tipo) o di formazione (ossia iscritto ad un corso di formazione) nell’anno 2009.
Oltre alle tre popolazioni suindicate costituiscono oggetto di interesse anche: (i) la popolazione unione delle tre popolazioni per classe di età (ii) vari sottoinsiemi, indicati nel seguito come domini, sia della popolazioni unione sia delle popolazioni per classi di età. Si sottolinea che dal punto di vista definitorio le popolazioni per classe di età costituiscono tre domini della popolazione unione.
I domini sono definiti in base alle modalità delle 5 variabili:
(i) regione geografica (20 modalità)
(ii) tipologia di comune (3 modalità: comune metropolitano o appartenente all’area metropolitana, comune non metropolitano con più di 10.000 abitanti, comune sino a 10.000 abitanti)
(iii) genere (2 modalità: femmina e maschio)
(iv) forma giuridica dell’istituto (2 modalità: istituto statale e non statale)
(v) tipologia istituto (5 modalità: liceo, istituto tecnico, istituto professionale, centro di formazione, e scuola secondaria di primo grado).
Ciascuna delle 5 variabili appena elencate definisce una specifica tipologia di dominio. Per ciascuna delle popolazioni di interesse, ogni tipologia di dominio identifica una partizione della popolazione suddividendola in un numero di domini (o sottoinsiemi) pari alle modalità della variabile che definisce la tipologia del dominio. Infine, si precisa che le tipologie di dominio (i) e (ii) definiscono domini sulla popolazione unione; le tipologie di dominio (iv) e (v) identificano domini sulla popolazione dei 16enni; mentre, la tipologia di dominio (iii) definisce domini sulla popolazione unione dei 19enni e dei 22enni.
2.2 Simbologia e parametri di interesse
Si denoti con: r, la singola coorte (o classe) di età (con r=1 per i 16 anni, con r=2 per i 19 anni e con r=3 per i 22 anni); rQ , la popolazione per classe di età r, costituita da rM , individui;
3
1
r rQQ , la popolazione unione, costituita da M individui.
5
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
6
Si denoti, inoltre, con: U l’insieme, di dimensione N, dei comuni italiani; i l’identificativo del comune; riQ , insieme, di dimensione degli riM , , di individui eleggibili nella corte di età r nel
comune i; ,.iQ insieme, di dimensione degli ,.iM , di individui eleggibili nella popolazione unione
nel comune i.
Si indica con: d (d=1,…,5) la generica tipologia di dominio di interesse; j ( dJj ,...,1 ), il pedice
che identifica lo specifico dominio della tipologia d; djQ , il dominio j della tipologia d costituito da
djM individui; djiQ , l’insieme, di dimensione djiM , , degli individui nel comune i appartenenti al
dominio j della tipologia d; rdjiQ , il sottoinsieme, di dimensione rdjiM , , del dominio djiQ , , costituito
dagli individui appartenenti alla classe di età r.
Nel seguito è riportato lo schema riassuntivo contenente la descrizione, per ciascuna tipologia di dominio delle quantità sopra riportate. I domini la cui tipologia viene denotata con un valore dell’indice d inferiore a 3, sono di tipo geografico, in quanto essi sono identificabili in base alle caratteristiche del comune.
Schema 2. Simbologia dell’informazione per dominio
Dominio d dJ djM Dominio Geografico*
Regione 1 20 Numero di individui di 16, 19 e 22 anni nella regione j X
Tipo comune (metropolitano e area, più di 10.000 abitanti, sino a 10.000 abitanti)
2 3 Numero di individui di 16, 19 e 22 anni nel tipo di comune j
X
Genere (maschile e femminile)
3 2 Numero di individui di 19 e 22 anni di sesso j
Forma giuridica istituto (statale e non)
4 2 Numero di individui di 16 anni che a 15 anni erano iscritti a una scuola di forma giuridica j
Tipo istituto (licei, tecnici, professionali, formazione, scuole secondarie di primo grado)
5 5 Numero di individui di 16 anni che a 15 anni erano iscritti a una scuola di tipo j
Totale domini 32
* La x indica se il dominio è di tipo geografico
Considerando, quindi, le tre popolazioni per classi di età, che costituiscono, una partizione della popolazione unione, vi sono quindi 35 domini di interesse.
Si indichi con k , il generico individuo appartenente a una delle popolazioni di riferimento e con ky
il corrispondente valore della variabile di interesse y; ad esempio se la variabile di interesse y è l’occupazione, ky assume valore 1 se l’individuo è occupato e valore 0 altrimenti. Con riferimento
alla generica variabile y, nella prima occasione di indagine costituiscono parametri di interesse le
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
7
seguenti 36 tipologie di totali: il totale della popolazione per classe di età (3 totali), il totale della popolazione unione (1 totale) e il totale per dominio (32 totali), definiti rispettivamente come:
- rQ kr yY (r =1,2,3),
- 321 YYYyY Q k
- djQ kdj yY (d=1,…,5; dJj ,...,1 ),
in cui denotando con A un generico insieme di individui, il simbolo A ky indica la somma dei
ti ad A
valori assunti dalla variabile di interesse su tutti gli individui appartenen .
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
8
3. DESCRIZIONE GENERALE DEL DISEGNO DI CAMPIONAMENTO
Per stimare i parametri di interesse viene selezionato un campione casuale di individui, mediante
un disegno di campionamento di tipo complesso che prevede più stadi e più fasi di selezione.
Nello specifico si sono utilizzati due tipi di disegno campionario. Uno per la popolazione di individui
di 16 anni e l’altro per le popolazioni di individui di 19 e 22 anni.
La complessità della tecnica campionaria adottata è stata in parte dovuta alla necessità di
rispettare alcuni requisiti, statistici e di tipo economico-operativo, di seguito riportati:
- il numero complessivo m di individui campione è fissato ad un valore pari a 10.500 individui
- il numero di individui campione, rm (r=1,2,3), per ciascuna delle popolazioni per classi di età è
pari a 3.500
- il numero di individui campione djm (d=1,…,5; dJj ,...,1 ) per lo specifico dominio j della tipologia
d e fissato in modo da ottenere una sufficiente affidabilità delle stime riferite al dominio stesso. Le
numerosità così determinate per ciascuno dei 32 domini sono riportate a seguire nella tabella 2
- gli individui campione devono essere intervistati in 100 comuni. I 21 capoluoghi di regione o
provincia autonoma entrano con certezza nel campione e sono detti comuni Auto
Rappresentativi (AR). I rimanenti 79 comuni sono selezionati con campionamento casuale
dall’insieme dei comuni, detti comuni Non Auto Rappresentativi (NAR), che non costituiscono
capoluogo di regione o provincia autonoma
- gli individui campione di 16 anni devono costituire un sottoinsieme di quelli intervistati
nell’indagine OCSE-PISA 2009 dell’anno precedente, di seguito indicata come indagine PISA
20092. Ad esclusione di quelli iscritti nel 2009 in una scuola secondaria di primo grado, i
rimanenti 16-enni inclusi nel campione devono essere rilevati in 120 istituti (scuole secondarie
di secondo grado o centri di formazione) che rappresentano un sottoinsieme degli istituti
coinvolti nell’indagine PISA 2009
- il campionamento adottato è di tipo strettamente probabilistico. Ciò consente di costruire le
inferenze con sufficiente robustezza e rigore scientifico, senza essere legati alle scelte
soggettive del campionista e permette di ottenere una successiva valutazione, sia pure
approssimativa, dell’errore di campionamento.
Nella tabella seguente si riportano le numerosità della popolazioni e del campione per le
popolazioni di riferimento e per ciascuno dei domini di stima.
2 INVALSI (2009)
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
Tabella 1. Popolazione e campione per dominio di studio
Numero di individui nella popolazione Popolazioni di
riferimento e Dominio
Totale Parte AR Parte NAR
16enni 591.155 88.048 503.107
16enni Pisa* 130.364 33.344 97.020
19enni 605.507 89.838 515.669
22enni 619.622 92.635 526.987
16,19,22 enni 1.816.621 271.590 1.545.031
16enni Pisa, 1.355.493 215.817 1.139.676
19,22 enni 1.225.129 182.473 1.042.656
Regioni Piemonte 113.508 21.917 91.591
Valle d’Aosta 3.240 906 2.334
Lombardia 259.384 28.712 230.672
Trentino alto Adige 31.209 5.830 25.379
Veneto 134.426 6.174 128.252
Friuli Venezia Giulia 30.145 4.586 25.559
Liguria 37.692 14.390 23.302
Emilia Romagna 103.847 7.496 96.351
Toscana 94.038 8.159 85.879
Umbria 24.463 4.483 19.980
Marche 44.155 2.601 41.554
Lazio 163.922 72.792 91.130
Abruzzo 42.027 3.615 38.412
Molise 10.704 1.769 8.935
Campania 231.409 37.484 193.925
Puglia 148.967 10.335 138.632
Basilicata 21.136 2.284 18.852
Calabria 77.207 6.741 70.466
Sicilia 191.244 27.069 164.175
Sardegna 53.898 4.247 49.651
Tipo di comune Comune area 477.934 238.775 239.159
Fino a 10.000 abitanti 541.714 0 541.714
Oltre 10.000 abitanti 796.973 32.815 764.158
Genere Donne 598.001 88.825 509.176
Uomini 627.128 93.648 533.480
Forma giuridica Statale 127.188 32.091 95.097
Non statale 3.176 1.253 1.923
Tipo scuola Licei 66.715 19.331 47.384
Tecnici 37.294 7.294 30.000
Professionali 22.403 5.563 16.840
Secondaria di primo grado 178 17 161
Formazione 3.783 1.120 2.663
9
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
Numero di individui Campione Popolazioni di
riferimento e tipologia Dominio
Totale Parte AR Parte NAR
16enni
16enni Pisa*
3.500 990 2.510
19enni 3.500 616 2.884
22enni 3.500 619 2.881
16,19,22enni
16 enni Pisa, 10.500 2.225 8.275
19,22enni 7.000 1.235 5.765
Regioni Piemonte 623 137 486
Valle d’A. 145 65 80
Lombardia 1.255 156 1.099
Trentino alto A. 266 157 109
Veneto 714 65 649
Friuli V. G. 262 65 197
Liguria 295 114 181
Emilia R. 581 65 516
Toscana 539 72 467
Umbria 238 81 157
Marche 323 65 258
Lazio 842 390 452
Abruzzo 313 86 227
Molise 178 65 113
Campania 1.134 195 939
Puglia 777 75 702
Basilicata 223 72 151
Calabria 466 65 401
Sicilia 960 156 804
Sardegna 365 79 286
Tipo di comune Comune area 2.947 1.504 1.443
Fino a 10.000 abitanti 3.223 0 3.223
Oltre 10.000 abitanti 4.330 721 3.609
Genere Donne 3.438 605 2.833
Uomini 3.562 630 2.932
Forma giuridica scuola Statale 2.999 879 2.120
Non statale 501 111 390
Tipo scuola Licei 1.518 501 1.017
Tecnici 926 252 674
Professionali 626 173 453
Secondaria di primo 178 17 161
Formazione 252 47 205
Fonte: elaborazione Isfol su dati Istat-Demo e Invalsi-PISA
* Numero individui rilevati nell’indagine OCSE‐PISA 2009
10
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
3.1. Simbologia e parametri di interesse
Gli individui di sedici anni sono rilevati tramite un disegno di campionamento in più fasi.
Prima fase di campionamento: Indagine PISA 2009. La prima fase di campionamento è quella dell’indagine PISA 2009. Il disegno di campionamento di PISA 2009 è a due stadi di selezione, in cui nel primo stadio sono selezionati le scuole e i centri di formazione e nel secondo stadio gli individui.
Primo stadio: il campione di primo stadio è di tipo stratificato con selezione negli strati a probabilità variabile e senza reimmissione. Gli strati sono definiti dalla concatenazione delle variabili regione e tipo di istituto. Nell’ambito di ciascuno strato, gli istituti sono dapprima ordinati per la dimensione definita in base al numero di studenti eleggibili (ossia nati nel 1993) nell’istituto; successivamente, mediante campionamento sistematico, viene selezionato un numero prefissato di istituti con probabilità proporzionale alla dimensione dell’istituto stesso.
Secondo stadio: il secondo stadio di selezione si basa sul campionamento sistematico a probabilità uguali di individui nati nel 1993. Come regola di base, in ciascun istituto si seleziona un numero di individui pari a 35; qualora nell’istituto campione, il numero di iscritti nati nel 1993 sia inferiore a 35, essi sono tutti inclusi nel campione dell’indagine.
Seconda fase di campionamento: Campione di Comuni. Nella seconda fase sono selezionati i comuni nel cui territorio comunale di pertinenza vi sono una o più delle scuole coinvolte nell’indagine PISA 2009. I comuni sono suddivisi in due sottoinsiemi:
- i 21 comuni AR entrano con certezza a far parte del campione; ognuno di questi comuni è sede di una o più delle scuole coinvolte nell’indagine PISA 2009
- i rimanenti comuni NAR sono selezionati, con probabilità variabile e senza reimmissione, mediante un disegno di campionamento di tipo bilanciato (Deville e Tille (2004); Falorsi e Righi (2008)).
Come illustrato in dettaglio nel paragrafo 4, il campione di comuni è definito in modo da assicurare le seguenti caratteristiche:
- i comuni campione sono selezionati in modo da costituire la base di campionamento sia per la rilevazione sulla popolazione dei 16enni sia per le due rimanenti rilevazioni riferite alle popolazioni dei 19enni e dei 22enni
- entra a far parte del campione, per la popolazione dei 16enni, solo il sottoinsieme dei comuni campione che sono sede di uno o più degli istituti coinvolti nell’indagine PISA 2009
- il sottoinsieme dei comuni campione che costituiscono la base di campionamento della popolazione dei 16enni è selezionato in modo da assicurare la dimensione campionaria prevista (vedi tabella 1) per il campione finale di individui di 16 anni.
Terza fase di campionamento: Campione di Istituti. Nella terza fase si adotta un disegno a due stadi di campionamento in cui nel primo stadio sono selezionati gli istituti scolastici (tra quelli
11
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
selezionati nelle prime due fasi di campionamento) e nel secondo stadio sono selezionati gli individui da includere nel campione.
Primo stadio: gli istituti selezionati nei comuni campione, si suddividono in due strati:
- le scuole secondarie di primo grado, che entrano tutte nel campione di secondo stadio - i rimanenti istituti - che nel seguito indicheremo sinteticamente con il termine istituti secondari,
includendo le scuole secondarie di secondo grado e i centri di formazione -, che sono selezionati, con probabilità variabile e senza reimmissione, mediante un disegno di campionamento di tipo bilanciato, descritto in dettaglio nel paragrafo 5. Tale campione è selezionato in modo da assicurare la dimensione campionaria prevista (vedi tabella 1) per il campione finale di individui di sedici anni. Secondo stadio: gli individui selezionati nell’indagine PISA 2009 negli istituti secondari di primo grado appartenenti ai comuni selezionati nella prima fase di campionamento sono tutti inclusi nel campione. Le interviste sono effettuate al domicilio di residenza, desumendo gli indirizzi dall’Anagrafe degli studenti del Ministero della Pubblica istruzione. In ciascuno dei rimanenti istituiti secondari, si seleziona un numero prefissato di individui mediante campionamento casuale semplice senza reimmissione. Le interviste vengono effettuate nell’istituto per gli individui che nell’anno 2010 si sono iscritti allo stesso istituto dell’anno 2009. Per i rimanenti individui (che hanno cambiato istituto tra l’anno 2009 e il 2010), le interviste vengono effettuate al domicilio di residenza desumendo gli indirizzi dall’Anagrafe degli studenti del Ministero della Pubblica istruzione.
3.2. Individui di 19 e 22 anni
Gli individui di 19 e 22 anni sono rilevati mediante un disegno di campionamento a due stadi di selezione, in cui le unità primarie di campionamento sono i comuni e le unità secondarie sono gli individui.
Primo stadio di campionamento
I comuni sono suddivisi in due sottoinsiemi:
- i comuni AR che entrano con certezza a far parte del campione - i rimanenti comuni NAR sono selezionati, con probabilità variabile e senza reimmissione,
mediante un disegno di campionamento di tipo bilanciato.
Secondo stadio di campionamento
In ciascun comune campione, separatamente per ognuna delle due classi di età in esame (i 19enni e i 22enni) si seleziona, dalle liste anagrafiche, un numero prefissato di individui mediante campionamento sistematico, i cui dettagli operativi sono riportati nel paragrafo 6.
Le interviste sono effettuate al domicilio di residenza.
12
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
4. CAMPIONE DI COMUNI Prima di illustrare in dettaglio le caratteristiche del disegno di campionamento adottato è utile introdurre la seguente notazione simbolica.
Si indica quindi con:
- n (n=100) il numero complessivo di comuni campione - ).,.,.(),,()( 500350035003z 321 mmmr il vettore con tre componenti ciascuna delle quali
indica il numero di individui campione per classe di età - )...,,( 11z
ddJdd mm (d=1,…,5) il vettore, di 1dJ componenti, contenente il numero
prefissato di individui campione (vedi le numerosità riportate in tabella 1) per tutti i domini della tipologia d, ad eccezione dell’ultimo
- ),...,,,( )( 51 zzzz rn il vettore di 32 elementi contenente il numero di comuni campione e le
numerosità campionarie per classe di età e dominio.
Inoltre, con riferimento al comune i, si denota con:
- 1,iM il numero di alunni rilevati nell’indagine PISA 2009
- djiM 1, il numero di alunni rilevati nell’indagine PISA 2009 appartenenti al dominio j della
tipologia d (d=1,…,5; dJj ,...,1 )
- 321 ,,,,. iiii MMMM
- djidjidjidji MMMM 321 ,,,,
- rim , il numero teorico, fissato a priori (vedi paragrafo 7), di individui campione da rilevare per
la classe di età (r =1,2,3), essendo 11 ,, ii Mm e riri Mm ,, (per r=2,3)
- djim , il numero teorico, fissato a priori (vedi paragrafo 7), di individui campione da rilevare per il
dominio di interesse j della tipologia d (d=1,…,5; dJj ,...,1 ) essendo djidji Mm ,,
- ),,( ,,,)(, 321z iiiri mmm il vettore di tre componenti con le numerosità campionarie per classi
di età - )...,,( ,,, 11z
ddJididi mm il vettore con 1dJ componenti, contenente le numerosità
campionarie - fissate a priori (vedi paragrafo 7) - per tutti i domini della tipologia d, ad eccezione dell’ultimo
- ),...,,,( ,,)(, 51 zzz1z iirii il vettore di 32 elementi contenente il valore 1 e le numerosità
campionarie per classe di età e dominio.
Dagli N comuni di U è selezionato un campione s di dimensione n, dove il singolo comune è selezionato senza reimmissione con probabilità di inclusione variabile pari a i , (determinata
secondo la metodologia definita al paragrafo 7).
I comuni di U si suddividono in due sottoinsiemi, quelli AR, in cui 1i , che sono inclusi con
certezza nel campione ed i rimanenti comuni NAR, in cui 1i . L’insieme U viene quindi
partizionato in due sottoinsiemi: NARAR UUU in cui ARU denota l’insieme di dimensione
13
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
21ARN dei comuni AR, in cui 1i e NARU denota l’insieme di dimensione NARN dei comuni
NAR, in cui 1i . Coerentemente con quanto sopra, il campione s viene partizionato nei due
sottoinsiemi, NARAR sUs , in cui NARs ha dimensione NARn pari a 79.
Si definiscono quindi i vettore di 32 elementi ARz e NARz , ottenuti come:
ARU iAR zz ; NARNAR zzz (1)
i cui primi elementi sono pari rispettivamente a ARn e NARn .
Le probabilità di inclusione i sono determinate attraverso una procedura iterativa di calibrazione,
descritta in dettaglio nel paragrafo 7 (fase 6), riassumibile come segue.
Si definiscono probabilità di inclusione iniziali,
NARNAR
iNAR
AR
i UiM
Mn
Ui
se
se1
,. (2)
approssimativamente proporzionali all’ampiezza del comune rispetto alla popolazione unione,
essendo NARU iNAR MM ,. . Si determinano, quindi, le probabilità d’inclusione i , il più possibile
vicine – secondo una determinata metrica – a quelle iniziali, e tali da garantire che, in valore atteso, il campionamento dei comuni rispetti le numerosità campionarie prefissate. Dal punto di vista analitico, le probabilità di inclusione, i , sono ottenute mediante la soluzione del seguente
problema di minimizzazione vincolata
NARi
ARii
Ui NARii
Ui ii
Ui
Ui
D
NAR
se 10
se 1
zz
min
),(
(3)
in cui ),( iiD rappresenta una funzione di distanza tra le probabilità i e i . Nel problema
(3), l’espressione
Ui iiD min),( rappresenta la funzione obiettivo; mentre, le ultime 3
espressioni rappresentano un sistema di sistema 32+N vincoli, NARN dei quali sono espressi in
forma di disequazione.
Considerando in modo congiunto la (1) e la seconda espressione del sistema (3), è facilmente dimostrabile il fatto che, in valore atteso, il campionamento dei comuni rispetta le numerosità campionarie prefissate. Infatti, si ha:
NARAR Ui NARARiiUi iUi ii zzzzzz . (4)
14
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
15
Il campione s viene quindi selezionato, mediante la procedura CUBE (INSEE, 2009), rispettando, almeno approssimativamente, le seguenti equazioni di bilanciamento, che garantiscono che il campione selezionato di comuni rispetta le numerosità campionarie prefissate:
s i
i
zx1
,
(5)
in cui iii z . Dalla (5) si deriva facilmente il rispetto delle numerosità campionarie prefissate,
essendo
x
s i zz .
a successiva fase di campionamento, dai 269 istituti ne vengono selezionati 120 in 40 comuni.
Tra i 100 comuni estratti ve ne sono 53 in cui sono presenti istituti che hanno partecipato all'indagine PISA 2009. Di questi 53 comuni, tuttavia 5 hanno solo scuole secondarie di primo grado, di cui non si effettua il campionamento, ma di cui si procede direttamente alla rilevazione degli individui. In definitiva, quindi, i comuni sui quali si procede al campionamento degli istituti secondari (scuole secondarie di secondo grado e centri di formazione) sono 48. Nel complesso dei 48 comuni, la numerosità totale degli istituti secondari che hanno partecipato all’indagine PISA 2009 è pari a 269. Come illustrato nel paragrafo seguente, nell
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
5. CAMPIONE DI ISTITUTI SECONDARI 5.1 Descrizione generale
Indichiamo con F l’insieme di numerosità FN (con FN =269) degli istituti secondari, da cui si
estrae il campione Fs di numerosità Fn (con Fn =120).
Per selezionare il campione Fs si è proceduto per passi successivi:
- Si è dapprima determinato il numero medio 1m di alunni da rilevare in ciascun istituto
campione. In base a quanto determinato nella precedenti fasi di allocazione (vedi tabella 1), il numero di alunni da intervistare negli istituti superiori è pari a 3.332 (3.500 meno i 178 alunni da rilevare nelle scuole secondarie di primo grado). Il numero medio 1m è stato quindi posto
uguale a 28, risultato della divisione tra 3.332 e 120. - La numerosità campionaria Fn è stato quindi allocata separatamente in 14 domini appartenenti a tre
tipologie di dominio di stima, definite rispettivamente dalla ripartizione geografica, il tipo di comune e il tipo di istituto, ottenendo le numerosità campionarie descritte in tabella 2. In ciascun dominio si è definito un numero di scuole campione proporzionale al numero di alunni campione del dominio.
- Per ciascuna scuola dell’insieme F si sono quindi determinate probabilità di inclusione tali da assicurare in valore atteso le numerosità definite in tabella 2.
- Si è quindi proceduto alla selezione di un campione bilanciato di scuole, i cui vincoli sono determinati dalle numerosità campionarie riportate in tabella 2.
Tabella 2. Campione di istituti secondari: numero di individui e istituti campione per dominio di stima
Tipologia di dominio Numero di 16‐enni campione
negli istituti secondari
Numero di 16enni da campionare in
istituti secondari
Numero di scuole da campionare
Nord‐ovest 506 18
Nord‐est 708 26
Centro 729 26
Sud 880 32
Ripartizione territoriale
Isole 508 18
Comune area metropolitana 1.029 37
Fino a 10.000 abitanti 167 6Tipo di comune
Oltre 10.000 abitanti 2.135 77
Statali 2.826 102Forma Giuridica istituto
Non Statali 505 18
Licei 1.517 55
Tecnici 925 33
Professionali 627 23
Tipo di istituto
Formazione 262 9
Totale 3.331 120
Fonte: Elaborazione Isfol
16
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
E’ opportuno notare i due seguenti aspetti:
- mentre il numero di individui campione dei domini delle tipologie forma giuridica istituto e tipologia istituto è uguale a quello riportato in tabella 1, il numero di individui campione di ciascuno dei domini delle tipologie ripartizione territoriale e tipo di comune (in cui d )3 è
ottenuto come si djim 1, , ossia mediante la somma delle numerosità djim 1, estesa a tutti i
comuni selezionati nel campione ed appartenenti al dominio dato. - in fase di pianificazione del campione, si è deciso di considerare come dettaglio geografico la
ripartizione geografica (con 5 modalità) al posto della regione (con 20 modalità) per una ragione essenzialmente tecnica. Infatti, la scarsa numerosità dell’insieme F (269 istituti), ha reso necessario la diminuzione del numero di vincoli per individuare soluzioni, ammissibili.
5.2 Descrizione formale
Al fine di illustrare in modo formale i disegno di campionamento adottato, è opportuno introdurre, in aggiunta a quella già data, la seguente notazione simbolica. Si indica con:
- d ( d =1,…,4) la generica tipologia di dominio di interesse per gli istituti secondari (vedi tabella
2) - con d =1 per la ripartizione territoriale (con 5 domini) , d =2 per il tipo comune (con 3
domini), d =3 per la forma giuridica di istituto (con 2 domini), d =4 per il tipo di istituto (con 4 domini)
- j (d
Jj ,...,1 ), il pedice che identifica lo specifico dominio della tipologia d
- ),...,...,,( 11z
dJdjdddmmm
(con d =1,…,4) il vettore, di 1
dJ componenti, contenente il
numero prefissato di istituti secondari campione (vedi le numerosità riportate in tabella 2) per
tutti i domini della tipologia d , ad eccezione dell’ultimo
- ),...,,,( 41 zzz Fn il vettore di 11 elementi contenente il numero di istituti secondari campione
nel complesso e per ciascuno dei domini di interesse - k il pedice identificativo del generico istituto secondario di F selezionato nell’indagine Pisa 2009
e ubicato in uno dei 48 comuni selezionati nella prima fase di campionamento (con
FNk ,...,1 ).
Con riferimento all’istituto secondario k, si denota con:
- kM il numero di alunni rilevati nell’indagine PISA 2009
- jdk , una variabile indicatrice che assume valore 1 se l’istituto k appartiene al dominio j della
tipologia d e valore 0 altrimenti
- )...,,(,,,
11z
dJdkdkdk il vettore, con 1
dJ componenti, contenente le variabili indicatrici
jdk , per tutti i domini della tipologia d , ad eccezione dell’ultimo
- ),...,,( ,, 41 zz1z kkk il vettore di 11 elementi contenente il valore 1 e le variabili indicatrici per
dominio.
17
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
Dagli FN istituti di F è selezionato un campione Fs di dimensione Fn con probabilità di inclusione
variabile pari a k determinate attraverso una procedura iterativa di calibrazione come soluzione
del seguente sistema di minimizzazione vincolata
Fk
Fk kk
Fk kk
Nk
D
,...,
),(
110
zz
min
(6)
in cui ),( kkD rappresenta una funzione di distanza tra le probabilità k , soluzione del
problema (6) e quelle iniziali FFk Nn / di tipo uniforme. Nel problema (6), l’espressione
Fk kkD min),( denota la funzione obiettivo; mentre le ultime 2 espressioni rappresentano
un sistema di 11+ FN vincoli, dei quali FN sono espressi in forma di disequazione.
Il campione Fs viene quindi selezionato, mediante la procedura CUBE (INSEE, 2009), rispettando,
almeno approssimativamente, le seguenti equazioni di bilanciamento, che garantiscono che il campione selezionato di istituti rispetta le numerosità campionarie prefissate:
Fs k
k
zx1
, (7)
in cui kkk zx .
18
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
6. SELEZIONE DEGLI INDIVIDUI 6.1 Individui di 19 e 21 anni
Per selezionare gli rim , (r=2,3) individui della classe di età r nel comune i , dei quali 31,im maschi e
3132 ,,, irii mmm femmine, si è proceduto con procedure di tipo differente, illustrate in dettaglio
nella specifica documentazione tecnica inviata ai comuni, a seconda dello stato di informatizzazione dell’archivio comunale. In questa nota descriviamo la procedura base di tipo sistematico utilizzata per la maggior parte dei casi.
Gli jim 3, individui di sesso j del comune i sono selezionati dalla corrispondente popolazione di
jiM 3, individui mediante la seguente procedura:
1. gli individui della popolazione sono ordinati in modo casuale 2. si calcola il passo di estrazione, jiK 3, , arrotondando al numero intero inferiore il risultato del
rapporto jijiji mMK 333 ,,, /
3. si seleziona un numero casuale, jiD 3, , compreso tra 1 e jiK 3,
4. sono inclusi nel campione gli individui che nell’ordinamento di cui al punto 1 occupano le posizioni jiD 3, , jiji KD 33 ,, , jiji KD 33 2 ,, , jijiji KmD 333 1 ,,, )( .
6.2 Individui di 19 e 21 anni
Campionamento negli istituti secondari
Tranne che in 4 istituti della Valle d’Aosta, in ciascun istituto secondario selezionato nel campione sono inclusi nel campione tutti gli individui già sottoposti all’indagine PISA 2009.
In 4 degli degli 8 istituti campione della Valle d’Aosta si seleziona un campione sistematico di 35 individui, mediante una procedura analoga a quella illustrata nel precedente paragrafo.
Campionamento negli istituti secondari di primo grado
Gli individui selezionati nell’indagine PISA 2009 negli istituti secondari di primo grado appartenenti agli n comuni del campione s sono tutti inclusi nel campione.
19
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
7. DETERMINAZIONE DELLE PROBABILITÀ DI INCLUSIONE E DELLE NUMEROSITÀ CAMPIONARIE AI VARI STADI E FASI DI SELEZIONE
La determinazioni delle quantità rim , , djim , , i e k viene definita mediante una procedura
articolata nelle seguenti fasi:
1. determinazione delle dimensioni complessive campione rm (r=1,…,3) e djm (d=1,…,4;
dJj ,...1 )
2. partizione dell’insieme U nelle due parti ARU e NARU e determinazione delle probabilità iniziali
di inclusione dei comuni i
3. determinazione delle dimensioni campionarie rARm , , djARm , , rNARm , e djNARm , che ripartiscono
le dimensioni campionarie complessive rm e djm nella parte AR e nella parte NAR
4. determinazione delle dimensioni campionarie rim , e djim , per i comuni appartenenti a ARU
5. determinazione delle dimensioni campionarie rim ,e djim , per i comuni appartenenti a NARU
6. determinazione delle probabilità di inclusione finali i , per i comuni appartenenti a NARU ,
mediante una procedura di calibrazione
7. selezione del campione bilanciato di comuni
8. determinazione delle probabilità di inclusione finali k , per gli istituti secondari appartenenti
all’insieme F, mediante una procedura di calibrazione.
Ad eccezione della fase 7, descritta con sufficiente dettaglio nel testo precedente, le fasi in parola sono illustrate nei paragrafi seguenti.
Fase 1
Il campione rm (r=1,2,3) è fissato pari a 3.500. Il campione complessivo m è posto uguale a
10.50033.500m .
Il campione per dominio viene fissato mediante la relazione:
54per1
321per1
1
1
11 ,)(
,,)(
dJ
m
M
Mm
dJ
m
M
Mm
m
dd
jd
dd
djd
dj
(8)
in cui 10 d (d=1,…,5).
Dopo una serie di analisi empiriche finalizzate a verificare la bontà delle numerosità campionarie risultanti si è scelto di porre 750,d .
20
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
Fase 2
L’insieme ARU è costituito da tutti i comuni capoluogo di regione; l’insieme NARU dai rimanenti
comuni. Pertanto i comuni capoluogo di regione una probabilità iniziale pari a 1i , mentre i
rimanenti comuni hanno probabilità di inclusione iniziale pari a
NAR
iARi M
MNn ,.)( . (9)
Fase 3
Le dimensioni campionarie rARm , , djARm , , rNARm , e djNARm , sono determinate mediante le
seguenti espressioni:
r
rARrrAR M
Mmm ,
,
dj
djARdjdjAR M
Mmm ,
,
rARrr
rNARrrNAR mm
M
Mmm ,
,, , djARdj
dj
djNARdjdjNAR mm
M
Mmm ,
,, . (10)
Fase 4
La determinazione delle dimensioni campionarie rim , e djim , per i comuni appartenenti a ARU ,
viene determinata nel modo seguente
r
rirri M
Mmm ,
, , dj
dji
djdji M
Mmm
,
, per ARUi . (11)
Fase 5
Per la singola classe di età r, la determinazione delle dimensioni campionarie rim , e djim , per i
comuni appartenenti a NARU viene ottenuta mediante la procedura iterativa di seguito illustrata.
- Inizializzazione Si denoti con ,...,, 210 la generica iterazione.
Alla iterazione iniziale, ,0 si pone:
21
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
22
rA
NARr UB ,
NAR
rr n
mm .
- Calcolo A seconda del valore di r, alle iterazioni successive a quella iniziale, ,...,21 , si effettuano i
seguenti calcoli:
11
11
1
11
111 se
se
,
,,,
i
iii Mmm
MmMm
,
32se
se11
1
,,
,,, r
Mmm
MmMm
rirr
rirriri
(12)
ti gli insiemVengono quindi determina i rA e
rB (r=1,2,3). L’insieme r include tutti i comuni di A
NARU per cui risulta 1 rri mM ,
. L’insieme complementare rB viene determinato come
rNARr AUB .
E’ infine calcolato
iBiiriAiNARrrr
Mmm
/)( , .
- Indicando con Uscita
una quantità piccola a piacere, se si verifica la condizione
NARUi riri mm 1,, (13)
allora le iterazioni si concludono e si pone
riri mm ,, (r=1,2,3). (14a)
Qualora la condizione (13) non è verificata si itera il passo di calcolo a 1 fino al suo rispetto.
pena descritta è giunta a convergenza, per tutte e tre le sottopopolazioni, in 3 passi iterativi.
chiusa la procedura iterativa per tutte e tre le classi di età si calcolano le seguenti quantità
La procedura ap
Una volta
321 ,,, iiii mmmm (14b)
21altrimenti0
comuneilse,, d
djimm i
dji (15)
3
33
33 1J
m
M
Mmm i
i
jiiji )(
,.
,,
(16)
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
54per 1 1
11 ,)(
,
,
,
,,, d
J
m
M
Mmm
di
id
i
djiiddji
(17)
dove diJ , denota il numero di domini presenti nel comune
i per la tipologia di dominio d .
Fase 6
Le probabilità i finali sono determinate risolvendo il seguente sistema di calibrazione
10
zz
min
i
Ui NARii
Ui ii
NAR
NARD
),(
(18)
mediante successivi passi iterativi di seguito illustrati.
- Inizializzazione Si denoti con ,...,, 210 la generica iterazione.
Alla iterazione iniziale, ,0 si pone:
A , NARUB , NARzz , ii .
- Calcolo
Alle iterazioni successive, utilizzando il software Geneeses (Istat, 2009), si trovano le probabilità i come soluzione del seguente problema di minimo vincolato
i
Bi ii
Bi iiD
0
zz
min
1
1
1
1 ),(
(19)
in cui distanza ),( 1 iiD è espressa secondo la funzione logaritmica
111 iiiiiii lnD /),( che assicura il rispetto della condizione i0 .
Vengono quindi determinati gli insiemi A e B nel modo seguente: 1AA e ABB 1 dove è l’insieme che include tutti i comuni di 1B per cui risulta 1 i .
Si calcola quindi
Ai iNAR zzz .
- Uscita
23
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
Se si verifica la condizione
0 , (20)
allora le iterazioni finiscono e le probabilità di inclusione sono definite come
Bi
Ai
i
i se
se1 (21)
Altrimenti si continua ad iterare il passo di calcolo fino al rispetto della condizione (20).
La procedura appena descritta è giunta a convergenza in 5 passi iterativi.
Fase 7
Le probabilità, k , di inclusione degli istituti secondari dall’insieme F sono determinate mediante la
soluzione del problema di minimo vincolato (6) adottando la medesima procedura iterativa descritta nel precedente paragrafo, che è giunta a convergenza in 3 iterazioni.
24
L’IMPIANTO METODOLOGICO DELL’INDAGINE LONGITUDINALE SULLE TRANSIZIONI SCUOLA-LAVORO
25
RIFERIMENTI BIBLIOGRAFICI DEVILLE JC., TILLÉ Y., Efficient balanced sampling : the cube method, “Biometrika”, n.4, 2004, pp.893-912
DEVILLE JC., TILLÉ Y., Variance approximation under balanced sampling, “Journal of Statistical Planning and Inference”, n.2, 2005, pp. 569-591
FALORSI P.D., RIGHI P., A Balanced Sampling Approach for Multi-way Stratification Designs for Small Area Estimation, “Survey Methodology”, n.2, 2008, pp. 223-234
SITI Pagina del sito Insee da cui è possibile scaricare la macro-CUBE http://www.insee.fr/fr/methodes/default.asp?page=outils/cube/accueil_cube.htm <consultato a giugno 2011> Siti inerenti l’indagine OCSE-PISA 2009. http://www.pisa.oecd.org http://www.invalsi.it/invalsi/ri/pisa2009.php?page=pisa2009_it_00 <consultato a giugno 2011> Pagina del sito Istat da cui è possibile scaricare il software Genesees http://www.istat.it/strumenti/metodi/software/produzione_stime/genesees/index.html <consultato a giugno 2011>