B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è...

27
TIS 132 Campionamento a grappoli (one-stage cluster sampling) B. Cluster di dimensione diversa Stima: Differenza tra caso A e B: variazione tra i t i è verosimilmente più ampia se i gruppi hanno dimensioni diverse (anche in questo caso, w ij sempre = N/n, perché psu selezionate con probabilità uguale – in genere, CCS di n psu) Stimatore può anche essere scritto anche come: ˆ t unb = w ij y ij j S i i S

Transcript of B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è...

Page 1: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 132

Campionamento a grappoli (one-stage cluster sampling)

B. Cluster di dimensione diversaStima:

Differenza tra caso A e B: variazione tra i ti è verosimilmente più ampia se i gruppi hanno dimensioni diverse

(anche in questo caso, wij sempre = N/n, perché psu selezionate con probabilità uguale – in genere, CCS di n psu)Stimatore può anche essere scritto anche come: t̂unb = wijyij

j∈Si

∑i∈S∑

Page 2: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS133

Campionamento a grappolo e a due stadi

Page 3: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 134

Campionamento a due stadi (two stage cluster sampling)

- elementi del cluster molto simili tra loro: spreco di risorse osservarli tutti- molto costosa l’osservazione delle ssu rispetto a psu

Campione su 2 stadi1. campione (CCS) di n unità di primo livello (o stadio) UP o PSU2. campione Si (CCS) di unità ssu (mi) entro le unità di primo stadio

Per ogni psu:

Stimatore corretto del totale della popolazione:

Peso di campionamento ssu j della psu i

pij = pi pj|i

pij =nNmi

Mi

ogni unità selezionata rappresenta sé stessa e (NMi) / [(nmi)-1] (in totale = (NMi) / (nmi))unità della popolazione (per EPSEM -EqualProbability of SElection Method sampling: miproporzionale a Mi così mi /Mi circa costante

Page 4: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 135

Campionamento a due stadi (two stage cluster sampling)

Varianza stimatore: come one stage ma con termine in più che tiene conto del fatto che i totali di cluster sono ora delle stime

da campionamento entro psu

Se N grande, secondo termine trascurabile e, tralasciando anche fcp

WR = With Replacement variance

Page 5: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 136

Scelte per formare un campione su più stadiINDIVIDUAZIONE DEL NUMERO

APPROPRIATO DI STADI

DETERMINAZIONE DELLA NUMEROSITÀ

DEL CAMPIONE (precisione)

INDIVIDUAZIONE DELLE CARATTERISTICHE PER

STRATIFICARE LE UNITÀ DI PRIMO STADIO

QUANTE UNITÀ SELEZIONARE AL PRIMO E AI SUCCESSIVI (secondo) STADI: numerosità psu e ssu (conoscenza di costi di campionamento per psu e ssu e ICC)

ASSEGNAZIONE DI PROBABILITÀ DI INCLUSIONE ALLE UNITÀ

COME SELEZIONARE LE UNITÀ AL PRIMO E AI SUCCESSIVI STADI

Dimensione psu(aree)

Page 6: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 137

Probabilità di inclusione delle unità

su due stadiijiij ppp |=

su tre stadiijkijijkijiijk pppppp ||| ==

Se campione autoponderante (probabilità di selezione uguale per ogni unità):

jipppp ijiij ,| "==

A. probabilità costanti ad ogni stadio

pij =nN⋅mi

Mi

= p

(se UP circa di dimensione costante M, nessun problema) Molto spesso si cerca autoponderazione anche entro psu

Page 7: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 138

Comuni Popolazione MiA 20.000B 2.000C 8.000

30.000 M0

– selezione di un comune (1°stadio)– selezione di un campione di individui dal

comune estratto di 100 unità (2°stadio)

campione a due stadi:

1001

31

3001

×==ijp

Se si estrae 1 UP: n = 1

A⇒ 1100

⋅ 20.000 = 200 = nc1

B⇒ 1100

⋅ 2.000 = 20 = nc2

C⇒1100

⋅ 8.000 = 80 = nc3

Esempio

campione autoponderante con

fc =1300

2001

32

3001

×==ijp

100ÞA

10ÞB

40ÞC€

AB =110 = ncAB

AC =140 = ncAC

BC = 50 = ncBC

Se si estraggono 2 UP: n = 2

Page 8: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 139

Campionamento psu con probabilità variabili

Deliberatamente, le psu sono selezionate con probabilità diverse (che eventualmente saranno compensate con pesi opportuni nella fase di stima)

Sono note le probabilità con cui è selezionata una data unità:

P (unità i è selezionata alla prima estrazione) = ψi

P (unità i è nel campione) = πi

(probabilità distinte poiché, essendo la probabilità di selezione diversa, l’estrazione –fatta senza replicazione- o meno al primo giro può influenzare le probabilità di selezione delle altre unità)

In molti casi, la selezione di psu con probabilità variabili produce un campione che “rappresenta” meglio la popolazione di uno analogo selezionato con probabilità uguali.

Page 9: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 140

Campionamento con probabilità variabili/1selezione di n=1 psu (da N psu in totale)

Valore del totale psu i = tiObiettivo: stima del totale tEsempio (con popolazione nota): stima del totale delle vendite

Ci si attende che:1. in un “big” store le vendite siano maggiori che in “small” store2. variabilità vendite totali > in “big” che “small”

In questo caso, poiché n=1: ψi = πi = P(store i è selezionato) = proporzionale alla dimensione (size)

Page 10: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 141

Campionamento con probabilità variabili/2selezione di n=1 psu (da N psu in totale)

Esempio per selezione 1 negozio:

estrazione da 16 biglietti numerati da 1-16. Se estratto 1: A2-3: B4-6: C7-16: D

Peso di campionamento da usare (per compensazione) nella stima:wi = 1 / P(i è selezionato nel campione) = ψi

Page 11: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 142

Campionamento psu con probabilità variabili/3selezione di n=1 psu (da N psu in totale)

Stimatore del totale(one-stage cluster)

4 possibili campioni di ampiezza 1 (totale t =300):

11*16= 176 (176-300)^2 = 15.376

Page 12: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 143

Campionamento con probabilità variabili/4selezione di n=1 psu (da N psu in totale)

Varianza dello stimatore del totale(4 campioni di ampiezza 1)

Page 13: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 144

Campionamento con probabilità variabili/5selezione di n=1 psu (da N psu in totale)

Confronto con CCS

Con CCS: ψi = ¼, 1/ψi = 4 =N

Stimatore non distorto ma varianza molto più grande (nel primo caso è usata più informazione - dimensione negozio - sempre che l’ipotesi di base sia ragionevole)

Nb: SRS = Simple Random Sample (o CCS = Campione Casuale Semplice)

Page 14: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 145

Campionamento con probabilità variabili/6selezione di n=1 psu (da N psu in totale)

Selezione unica psu non è così inusuale:- se stratificazione psu, ogni strato può contenere poche psu- possono essere definiti un grande numero di strati per aumentare la precisioneOvviamente, con una psu non è possibile ottenere stime della variabilità tra psu entro lo strato: procedure specifiche per stimare la varianza

In generale, con probabilità variabili di selezione per le psu:

§ è favorita in termini probabilistici l’entrata nel campione delle unità di grandi dimensioni

§ le unità finali sono estratte da blocchi mediamente più estesi, e quindi sono più disperse e la stima è più efficiente di un campione selezionato con probabilità costanti ad ogni stadio

Page 15: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 146

Campionamento con probabilità variabili/7selezione di n > 1 psu (da N psu in totale)Caso semplice: selezione con replicazione

P (unità i è selezionata alla prima estrazione) = ψi= P (unità i è selezionata alla seconda estrazione) = P (terza) …

Idea sottostante:

- selezione di n psu con replicazione- stimare il totale per ciascuna psu come caso precedente (cioè con n=1) - se psu replicate, il totale sarà incluso tante volte quante la psu è stata selezionata - stima totale popolazione = media delle n stime ti indipendenti - stima varianza = varianza campionaria delle n stime indipendenti diviso n

Page 16: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 147

Campionamento con probabilità variabiliselezione di n > 1 psu (da N psu in totale)

Metodi per selezione con replicazione

I vari metodi presuppongono la conoscenza di una misura di dimensione (measure of size) per tutte le psu nella popolazione

1. Metodo della cumulata (vedi esempio dei negozi con generazione di numeri casuali e inserite psucorrispondenti a tali valori)

2. Metodo di Lahiri (particolarmente utile quando il n.ro di psu è grande)

Page 17: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 148

Metodo della cumulata/1Esempio: 647 studenti in 15 classi, campione di 5 classi con replicazione e prob. proporzionale a Mi (= n.ro studenti per classe)

Ψi = Mi / 647

1. Generazione di 5 numeri casuali : 487, 369, 221, 326, 2822. Classi nel campione: 13, 9, 6, 8, 7

(se n.c.= 553, 082, 245, 594, 150, campione: 14, 3, 6, 14, 5 con classe 14 inserita 2 volte)

Si utilizza anche selezione sistematica (che produce campioni non replicati ma in grandi pop.ni, differenza minima)

Page 18: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 149

(che produce campioni non replicati ma in grandi pop.ni, risultati molto simili) Esempio: 647 studenti in 15 classi, campione di 5 classi: - lista degli elementi per la prima psu, poi la seconda e così via.- selezione sistematica dalla lista1 < x < 129 (647/5 ≈ 129.4), psu nel campione: x, x+129, …

se x= 112 N.B.:Non vero campione con replicazione, poiché classi <= 129 non entrano più di una volta nel campione e classi > 129 hanno P = 1 di far parte del campione ma facile da fare !

(se psu organizzate geograficamente, campione ottenuto è più sparso con risultati migliori)

Selezione sistematica /1

Page 19: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 150

Metodo della cumulata e sistematica /2

A 20 20

B 100 120

C 50 170

D 15 185

E 18 203

F 43 246

G 20 266

H 36 302

I 13 315

M=315

Tavola di numeri casuali: 3 cifre

0 - 20 gruppo A;

21 - 120 gruppo B;

121 - 170 gruppo C;

Estrazione di una UP: 1 numero casuale

Estrazione di due UP: 2 numeri casuali

con

reinserimento

Selezione sistematica per avere un’estrazione senza reinserimento:

es. 3 estrazioni: 315/3= 105

M j = Mj=1

I

UPprima1051 Þ££ xUPseconda 105 Þ+x

UPterza105Þ+

Gruppo Mi

Page 20: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 151

Metodo di Lahiri (rejective method)

N = n.ro psu, max (Mi) = dimensione massima psu

1. selezione numero casuale (n.c.) tra 1 e N (psu da considere)

2. selezione n.c. tra 1 e max (Mi):

• n.c. <= Mi , psu i è inclusa nel campione

• altrimenti si torna al punto 1

3. ripetere fino a ottenere il numero di psu (ampiezza campionaria 1^ stadio) desiderato.

Esempio classi: max (studenti) = 100, generazioni di coppie di n.c.:

1^: 1, …15; 2^: 1,…100

Page 21: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 152

Metodo di Lahiri: esempio

15 classi: max (studenti) = 100, generazioni di coppie di n.c., 1^: 1, …,15 (psu); 2^: 1,…,100 (per decidere se tenere psu)

Page 22: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 153

Stima campionamento a due stadi con probabilità variabili e con replicazione

1. Qualunque sia la psu i selezionata, si utilizza sempre lo stesso disegno per selezionare al suo interno le ssu (campioni indipendenti di ssu se la psu è replicata - stimatore non distorto della varianza)es.: campione di 5 ssu da psu X se selezionata. Se X selezionata 2 volte: estratti 2 campioni diversi

2. Estrazione del j-esimo campione (j = 1, …Qi = n.ro di replicazioni psui nel campione)

Page 23: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 154

Passi per campionamento a due stadi con probabilità variabili e replicazione

1. Determinare: Ψi , n = n.ro psu da estrarre, metodo selezione ssu entro psu

2. Selezionare con probabilità ψi e con replicazione n psu (metodo cumulata o Lahiri)

3. Selezionare ssu come definito in 1. Selezionare tanti campioni di ssu quante volte è estratta la psu

4. Stimare il totale di popolazione da ogni psu per ogni campione di ssu (n stime t^ij / ψi)

5. Calcolare t^ = media delle n stime punto 4.

6. Calcolare SE= (1/ √ n) (deviazione standard campionaria delle n stime punto 4.)

Page 24: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 155

Stima campionamento a due stadi con probabilità variabili e senza replicazione:

Maggiori complicazioni poiché la probabilità di selezione di una unità (psu) cambia se è selezionata come prima, seconda, terza, … Necessaria conoscenza di Prob inclusione 1^ e 2^ ordine (πi e πik).Stimatore di Horvitz-Thompson (HT) (non distorto)

Zi = 1 se psu iè nel campione, 0 altrimenti

Page 25: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 156

Campionamento a due stadi con probabilità variabili e senza replicazione

Pesi di campionamento e stimatore HT

Probabilità che la ssu j della psu i sia nel campione è πi πj/i , il peso di campionamento di (i,j)-esima ssu è:

Stimatore rapporto

Page 26: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 157

Campione autoponderante da disegno su due stadiSelezione con probabilità proporzionali alla dimensione

PPS (Probability Proportional to Size)

000300008)(;

000300002)(;

0003000020)( .

.

.

.

.

.

=== CPBPAP

P( j | A) = 10020.000

;P( j | B) = 1002.000

;P( j |C) = 1008.000

3001

00020100

0003000020

..

.=×=Ajp 300

10002100

000300002

..

.=×=Bjp 300

10008100

000300008

..

.=×=Cjp

pppp ijiij =×= |

Equazione di selezione con PPS per campione autoponderantedi ampiezza fissa nm

pij =nMi

M0

⋅bMi

=nbM 0

1° STADIO

Attenzione a bilanciamento tra dispersione del campione e guadagno in Deff

m = 100 (# ssu selezionate al 2^ stadio)

Page 27: B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è selezionata una data unit ... 487, 369, 221, 326, 282 2.Classi nel campione: 13, 9,

TIS 158

Modello di costo per determinare m ottimo in funzione dei costi

C = nCi + nbc min)var(con =y

C costo totaleCi costo per psu/UPc costo per elemento (unità di 2° livello)

b* ≈ Ci

c(1− ICC)ICC

Poiché campione = nm, fissata dimensione e m* si trova n

a parità di altre condizioni, più l’omogeneità interna è elevata, più alti i costi per unità e più bassi i costi per gruppo

più il campione sarà sparpagliato tra le UP

N.B. indagini multiscopo usuali considerazioni