C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random...

15
SESSIONE I CAMPIONAMENTO E STIMA Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design Relatore: Paolo Righi Claudia De Vitiis, Paolo Righi, Marco Dionisio Terribili GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014

description

Sessione I Campionamento e stima

Transcript of C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random...

Page 1: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

SESSIONE I CAMPIONAMENTO E STIMA

Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Relatore: Paolo Righi

Claudia De Vitiis, Paolo Righi, Marco Dionisio Terribili

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014

Page 2: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Indice

1. Obiettivo del lavoro

2. Introduzione al problema

3. Criterio di allocazione: problema di ottimizzazione

4. La sperimentazione: la progettazione del disegno campionario per l’indagine sull’inserimento professionale dei laureati

5. Conclusioni

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 3: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

1. Analizzare il metodo di allocazione del campione nel disegno stratificato (utilizzato in Istat):• Nota nel frame di selezioni l’appartenenza delle unità ai domini di

interesse il metodo alloca il campione (minimizzando la dimensione - ottimizzazione) in modo tale da rispettare delle soglie massime di precisione delle stime attese nei domini di interesse (domini pianificati);

• I domini pianificati sono aggregazione di strati.

2. Evidenziare alcune criticità del disegno stratificato dal punto di vista dell’allocazione

3. Introdurre il disegno a stratificazione incompleta per risolvere i problemi di allocazione:• il disegno a stratificazione incompleta definisce delle probabilità dii

inclusione ma alloca solo in valore atteso unità nello strato h;

• L’allocazione campionaria nei domini di interesse è pianificata.

Obiettivo del lavoro

hnhhh Nn /

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 4: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Il disegno di campionamento

• Il disegno di campionamento è una distribuzione di probabilità p(.) che assegna a tutti i sottoinsiemi, s, di una popolazione U una probabilità di estrazione p(s)

• Nei disegni di tipo stratificato (semplice), le p(s) sono ottenute definendo le probabilità di inclusione di ciascuna unità

• Fissare le fissare le (allocazione del campione) disegno

• Criteri per fissare le :a) Allocazione proporzionaleb) Allocazione uniformec) Allocazione di compromesso: combinazione convessa di a) e b) –

metodi basati su funzioni obiettivo.

Introduzione al problema

hhhk Nn /

h hn

hn

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 5: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Criterio di allocazione: problema di ottimizzazione

),...,1(10

),...,1;,...,1()ˆ(

)(

)()(

Hh

RrDdVtV

cMin

h

drdr

Uk hh

interonumerounesseredeve

2quando2

1con1

hh

hhh

hh

N

NN

N

Funzione obiettivo

Vincoli indotti dal disegno

Stratificato A stratificazione incompleta

);,()ˆ( 2)()()( dhSYftV hrhrdr

interonumerounesseredeve

2quando2

1con1

dh

dh

dh

UU hh

dUU hh

dUU h

N

NN

N

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 6: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

• L’indagine produce stime sull’inserimento professionale dei laureati a tre anni dal conseguimento del titolo.

• Le stime sono prodotte a livello Nazionale, per tipologie di corso, ecc.

• I domini di stima di maggior dettaglio sono (edizione 2011) • DOM1: Ateneo × Area (aggregazione di Corsi) – 448 domini;• DOM2: Corso (di studio) × Sesso - 86 domini.

• Tutte le altre tipologie di dominio si ottengono per aggregazione.

• Per controllare le dimensioni campionarie dei domini di interesse l’indagine (edizione 2011) ha utilizzato una stratificazione a due vie:

Ateneo × (Corso × Sesso) – 2,981 strati

La sperimentazione: la progettazione del disegno campionario per l’indagine sull’inserimento professionale dei laureati (triennali)

Ateneo

Corso × Sesso

Strati

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 7: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

• Nella sperimentazione il processo di allocazione ha considerato come stime obiettivo i totali dei laureati (per i DOM1 e DOM2) che:

• LAVORANO;• CERCANO una occupazione;• STUDIANO.

• Il problema di ottimizzazione:• richiede la definizione delle soglie massime di precisione

delle stime (espresse in CV)

• I parametri e (che sono ignoti!).

• Possiamo sostituire i valori con delle stime

Indagine sull’inserimento professionale dei laureati (triennali)

)(drV

Tipo di Dominio CV- Lavora CV-Cerca CV-Studia

Ateneo × Area 13% 25% 20%

Corso (di studio) × Sesso 13% 25% 15%

)(hrY2)(hrS

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 8: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

• I cinque modelli sono detti: modelli di lavoro• Il modello di lavoro è (molto probabilmente) diverso dal modello che

determina i parametri di input

Modello Strati del disegno

Dimensione del campione per il disegno stratificato

Dimensione del campione per il disegno a stratificazione incompleta

1: Total average (intercept) 2,981 26,419 24,845

2: Gender 2,981 26,673 25,232

3: Group 2,981 31,539 30,061

4: Gender + Group + Group * Gender 2,981 31,345 29,879

5: (Gender*Area) + University 2,981 36,624 35,027

Indagine sull’inserimento professionale dei laureati (triennali)

• La stima dei parametri avviene mediante un modello di predizione logistico (stimato con i dati dell’indagine precedente)

• I parametri (stimati) del logistico sono utilizzati per predire i valori delle variabili di interesse per le unità nel frame di selezione

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 9: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Quali effetti produce?

Esempio:

• Modello di lavoro Gruppo × Sesso (Modello 4)

• Modello di riferimento University+ Group+ Age class+Region+ Gender+ Final grades class

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 10: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Indagine sull’inserimento professionale dei laureati (triennali)

• La predizione dei parametri si può ottenere con modelli più complessi

• Ad esempio

6: University+ Group +Age class+Region+Gender+Final grades class 7: University+ Course +Age class+Region+Gender+Final grades class

• Le predizioni sulle unità nel frame sono omogenee per sottopopolazioni incluse negli strati incrocio (University × Course × Gender)

• Queste sottopopolazioni rappresentano degli strati

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 11: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Confronto tra modelliDistribuzione dei residui

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 12: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Modello Strati del disegno

Dimensione del campione per il disegno stratificato

Dimensione del campione per il disegno a stratificazione incompleta

6: University+ Group+Age class+Region+Gender+Final grades class

8,743 63,246 34,620

7: University+Course+Age class+Region+Gender+Final grades class

31,486 63,168 34,622

Indagine sull’inserimento professionale dei laureati (triennali)

• Se consideriamo la stratificazione indotta dal modello di lavoro

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 13: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Effetto dei vincoli indotti dal disegno nella allocazione del campione

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 14: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Conclusioni

A. L’allocazione del campione è parte integrante della strategia di stima

B. Per allocare il campione è fondamentale sfruttare l’informazione ausiliaria sui principali fenomeni di interesse attraverso strumenti statistici (modelli)

C. L’allocazione finale dipende tuttavia anche dallo schema di selezione (del disegno) che rende il disegno più o meno efficiente (a parità di informazione)

D. Il lavoro confronta le allocazioni del disegno stratificato standard ed a stratificazione incompleta per l’indagine sull’integrazione de laureati

E. Il secondo disegno si è dimostrato:1- più efficiente (campioni più piccoli);2- più flessibile nell’utilizzo delle informazione ausiliarie

F. Il disegno sarà implementato nella prossima edizione dell’indagine

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi

Page 15: C. De Vitiis, P. Righi, M. D. Terribili - Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design

Bibliografia essenziale Allocazione del campioneCochran W.G. (1977). Sampling Techniques. Wiley. New York.Deville J.-C., Tillé Y. (2005). Variance approximation under balanced sampling, Journal of Statistical Planning and Inference, 128, 569-591.Khan, M. G. M., T. Mati, and M. J. Ahsan (2010). An optimal Multivariate stratified sampling design using auxiliary information: An integer solution using goal programming approach. Journal of Official Statistics 26, 695-708.

Disegni con stratificazione a più vie (standard e a stratificazione incompleta)Deville J.-C., Tillé Y. (2004). Efficient Balanced Sampling: the Cube Method, Biometrika, 91, 893-912. Falorsi P. D., Righi P. (2008). A Balanced Sampling Approach for Multi-way Stratification Designs for Small Area Estimation, Survey Methodology, 34, 223-234.Winkler, W. E. (2001). Multi-Way Survey Stratification and Sampling, Research Report Series, Statistics #2001-01. Statistical Research Division U.S. Bureau of the Census Washington D.C. 20233

Algoritmi per l’allocazione Choudhry, G. H., J. N. K. Rao, and M. A. Hidiroglou (2012). On sample allocation for efficient domain estimation. Survey Methodology 18, 23-29.Chromy J. (1987). Design Optimization with Multiple Objectives, Proceedings of the Survey Research Methods Section. American Statistical Association, 194-199.Falorsi P. D., Righi P. (2012). A Unified Approach for Defining Optimal Multivariate and Multi-Domains Sampling Designs, 46th Scientific Meeting of the Italian Statistical Society

GIORNATE DELLA RICERCA IN ISTAT | 10-11 NOVEMBRE 2014Optimal sample allocation for the Stratified Simple Random Sampling and the Incomplete Stratified Sampling design | Paolo Righi