SESSIONE I CAMPIONAMENTO E STIMA
Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design
Relatore: Paolo Righi
Claudia De Vitiis, Paolo Righi, Marco Dionisio Terribili
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014
Indice
1. Obiettivo del lavoro
2. Introduzione al problema
3. Criterio di allocazione: problema di ottimizzazione
4. La sperimentazione: la progettazione del disegno campionario per l’indagine sull’inserimento professionale dei laureati
5. Conclusioni
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
1. Analizzare il metodo di allocazione del campione nel disegno stratificato (utilizzato in Istat):• Nota nel frame di selezioni l’appartenenza delle unità ai domini di
interesse il metodo alloca il campione (minimizzando la dimensione - ottimizzazione) in modo tale da rispettare delle soglie massime di precisione delle stime attese nei domini di interesse (domini pianificati);
• I domini pianificati sono aggregazione di strati.
2. Evidenziare alcune criticità del disegno stratificato dal punto di vista dell’allocazione
3. Introdurre il disegno a stratificazione incompleta per risolvere i problemi di allocazione:• il disegno a stratificazione incompleta definisce delle probabilità dii
inclusione ma alloca solo in valore atteso unità nello strato h;
• L’allocazione campionaria nei domini di interesse è pianificata.
Obiettivo del lavoro
hnhhh Nn /
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Il disegno di campionamento
• Il disegno di campionamento è una distribuzione di probabilità p(.) che assegna a tutti i sottoinsiemi, s, di una popolazione U una probabilità di estrazione p(s)
• Nei disegni di tipo stratificato (semplice), le p(s) sono ottenute definendo le probabilità di inclusione di ciascuna unità
• Fissare le fissare le (allocazione del campione) disegno
• Criteri per fissare le :a) Allocazione proporzionaleb) Allocazione uniformec) Allocazione di compromesso: combinazione convessa di a) e b) –
metodi basati su funzioni obiettivo.
Introduzione al problema
hhhk Nn /
h hn
hn
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Criterio di allocazione: problema di ottimizzazione
),...,1(10
),...,1;,...,1()ˆ(
)(
)()(
Hh
RrDdVtV
cMin
h
drdr
Uk hh
interonumerounesseredeve
2quando2
1con1
hh
hhh
hh
N
NN
N
Funzione obiettivo
Vincoli indotti dal disegno
Stratificato A stratificazione incompleta
);,()ˆ( 2)()()( dhSYftV hrhrdr
interonumerounesseredeve
2quando2
1con1
dh
dh
dh
UU hh
dUU hh
dUU h
N
NN
N
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
• L’indagine produce stime sull’inserimento professionale dei laureati a tre anni dal conseguimento del titolo.
• Le stime sono prodotte a livello Nazionale, per tipologie di corso, ecc.
• I domini di stima di maggior dettaglio sono (edizione 2011) • DOM1: Ateneo × Area (aggregazione di Corsi) – 448 domini;• DOM2: Corso (di studio) × Sesso - 86 domini.
• Tutte le altre tipologie di dominio si ottengono per aggregazione.
• Per controllare le dimensioni campionarie dei domini di interesse l’indagine (edizione 2011) ha utilizzato una stratificazione a due vie:
Ateneo × (Corso × Sesso) – 2,981 strati
La sperimentazione: la progettazione del disegno campionario per l’indagine sull’inserimento professionale dei laureati (triennali)
Ateneo
Corso × Sesso
Strati
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
• Nella sperimentazione il processo di allocazione ha considerato come stime obiettivo i totali dei laureati (per i DOM1 e DOM2) che:
• LAVORANO;• CERCANO una occupazione;• STUDIANO.
• Il problema di ottimizzazione:• richiede la definizione delle soglie massime di precisione
delle stime (espresse in CV)
• I parametri e (che sono ignoti!).
• Possiamo sostituire i valori con delle stime
Indagine sull’inserimento professionale dei laureati (triennali)
)(drV
Tipo di Dominio CV- Lavora CV-Cerca CV-Studia
Ateneo × Area 13% 25% 20%
Corso (di studio) × Sesso 13% 25% 15%
)(hrY2)(hrS
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
• I cinque modelli sono detti: modelli di lavoro• Il modello di lavoro è (molto probabilmente) diverso dal modello che
determina i parametri di input
Modello Strati del disegno
Dimensione del campione per il disegno stratificato
Dimensione del campione per il disegno a stratificazione incompleta
1: Total average (intercept) 2,981 26,419 24,845
2: Gender 2,981 26,673 25,232
3: Group 2,981 31,539 30,061
4: Gender + Group + Group * Gender 2,981 31,345 29,879
5: (Gender*Area) + University 2,981 36,624 35,027
Indagine sull’inserimento professionale dei laureati (triennali)
• La stima dei parametri avviene mediante un modello di predizione logistico (stimato con i dati dell’indagine precedente)
• I parametri (stimati) del logistico sono utilizzati per predire i valori delle variabili di interesse per le unità nel frame di selezione
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Quali effetti produce?
Esempio:
• Modello di lavoro Gruppo × Sesso (Modello 4)
• Modello di riferimento University+ Group+ Age class+Region+ Gender+ Final grades class
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Indagine sull’inserimento professionale dei laureati (triennali)
• La predizione dei parametri si può ottenere con modelli più complessi
• Ad esempio
6: University+ Group +Age class+Region+Gender+Final grades class 7: University+ Course +Age class+Region+Gender+Final grades class
• Le predizioni sulle unità nel frame sono omogenee per sottopopolazioni incluse negli strati incrocio (University × Course × Gender)
• Queste sottopopolazioni rappresentano degli strati
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Confronto tra modelliDistribuzione dei residui
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Modello Strati del disegno
Dimensione del campione per il disegno stratificato
Dimensione del campione per il disegno a stratificazione incompleta
6: University+ Group+Age class+Region+Gender+Final grades class
8,743 63,246 34,620
7: University+Course+Age class+Region+Gender+Final grades class
31,486 63,168 34,622
Indagine sull’inserimento professionale dei laureati (triennali)
• Se consideriamo la stratificazione indotta dal modello di lavoro
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Effetto dei vincoli indotti dal disegno nella allocazione del campione
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Conclusioni
A. L’allocazione del campione è parte integrante della strategia di stima
B. Per allocare il campione è fondamentale sfruttare l’informazione ausiliaria sui principali fenomeni di interesse attraverso strumenti statistici (modelli)
C. L’allocazione finale dipende tuttavia anche dallo schema di selezione (del disegno) che rende il disegno più o meno efficiente (a parità di informazione)
D. Il lavoro confronta le allocazioni del disegno stratificato standard ed a stratificazione incompleta per l’indagine sull’integrazione de laureati
E. Il secondo disegno si è dimostrato:1- più efficiente (campioni più piccoli);2- più flessibile nell’utilizzo delle informazione ausiliarie
F. Il disegno sarà implementato nella prossima edizione dell’indagine
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Bibliografia essenziale Allocazione del campioneCochran W.G. (1977). Sampling Techniques. Wiley. New York.Deville J.-C., Tillé Y. (2005). Variance approximation under balanced sampling, Journal of Statistical Planning and Inference, 128, 569-591.Khan, M. G. M., T. Mati, and M. J. Ahsan (2010). An optimal Multivariate stratified sampling design using auxiliary information: An integer solution using goal programming approach. Journal of Official Statistics 26, 695-708.
Disegni con stratificazione a più vie (standard e a stratificazione incompleta)Deville J.-C., Tillé Y. (2004). Efficient Balanced Sampling: the Cube Method, Biometrika, 91, 893-912. Falorsi P. D., Righi P. (2008). A Balanced Sampling Approach for Multi-way Stratification Designs for Small Area Estimation, Survey Methodology, 34, 223-234.Winkler, W. E. (2001). Multi-Way Survey Stratification and Sampling, Research Report Series, Statistics #2001-01. Statistical Research Division U.S. Bureau of the Census Washington D.C. 20233
Algoritmi per l’allocazione Choudhry, G. H., J. N. K. Rao, and M. A. Hidiroglou (2012). On sample allocation for efficient domain estimation. Survey Methodology 18, 23-29.Chromy J. (1987). Design Optimization with Multiple Objectives, Proceedings of the Survey Research Methods Section. American Statistical Association, 194-199.Falorsi P. D., Righi P. (2012). A Unified Approach for Defining Optimal Multivariate and Multi-Domains Sampling Designs, 46th Scientific Meeting of the Italian Statistical Society
GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi
Top Related