B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è...
Transcript of B. Cluster di dimensione diversa Stima · 2020. 12. 15. · Sono note le probabilità con cui è...
TIS 132
Campionamento a grappoli (one-stage cluster sampling)
B. Cluster di dimensione diversaStima:
Differenza tra caso A e B: variazione tra i ti è verosimilmente più ampia se i gruppi hanno dimensioni diverse
(anche in questo caso, wij sempre = N/n, perché psu selezionate con probabilità uguale – in genere, CCS di n psu)Stimatore può anche essere scritto anche come: t̂unb = wijyij
j∈Si
∑i∈S∑
TIS133
Campionamento a grappolo e a due stadi
TIS 134
Campionamento a due stadi (two stage cluster sampling)
- elementi del cluster molto simili tra loro: spreco di risorse osservarli tutti- molto costosa l’osservazione delle ssu rispetto a psu
Campione su 2 stadi1. campione (CCS) di n unità di primo livello (o stadio) UP o PSU2. campione Si (CCS) di unità ssu (mi) entro le unità di primo stadio
Per ogni psu:
Stimatore corretto del totale della popolazione:
Peso di campionamento ssu j della psu i
pij = pi pj|i
€
pij =nNmi
Mi
ogni unità selezionata rappresenta sé stessa e (NMi) / [(nmi)-1] (in totale = (NMi) / (nmi))unità della popolazione (per EPSEM -EqualProbability of SElection Method sampling: miproporzionale a Mi così mi /Mi circa costante
TIS 135
Campionamento a due stadi (two stage cluster sampling)
Varianza stimatore: come one stage ma con termine in più che tiene conto del fatto che i totali di cluster sono ora delle stime
da campionamento entro psu
Se N grande, secondo termine trascurabile e, tralasciando anche fcp
WR = With Replacement variance
TIS 136
Scelte per formare un campione su più stadiINDIVIDUAZIONE DEL NUMERO
APPROPRIATO DI STADI
DETERMINAZIONE DELLA NUMEROSITÀ
DEL CAMPIONE (precisione)
INDIVIDUAZIONE DELLE CARATTERISTICHE PER
STRATIFICARE LE UNITÀ DI PRIMO STADIO
QUANTE UNITÀ SELEZIONARE AL PRIMO E AI SUCCESSIVI (secondo) STADI: numerosità psu e ssu (conoscenza di costi di campionamento per psu e ssu e ICC)
ASSEGNAZIONE DI PROBABILITÀ DI INCLUSIONE ALLE UNITÀ
COME SELEZIONARE LE UNITÀ AL PRIMO E AI SUCCESSIVI STADI
Dimensione psu(aree)
TIS 137
Probabilità di inclusione delle unità
su due stadiijiij ppp |=
su tre stadiijkijijkijiijk pppppp ||| ==
Se campione autoponderante (probabilità di selezione uguale per ogni unità):
jipppp ijiij ,| "==
A. probabilità costanti ad ogni stadio
€
pij =nN⋅mi
Mi
= p
(se UP circa di dimensione costante M, nessun problema) Molto spesso si cerca autoponderazione anche entro psu
TIS 138
Comuni Popolazione MiA 20.000B 2.000C 8.000
30.000 M0
– selezione di un comune (1°stadio)– selezione di un campione di individui dal
comune estratto di 100 unità (2°stadio)
campione a due stadi:
1001
31
3001
×==ijp
Se si estrae 1 UP: n = 1
€
A⇒ 1100
⋅ 20.000 = 200 = nc1
€
B⇒ 1100
⋅ 2.000 = 20 = nc2
€
C⇒1100
⋅ 8.000 = 80 = nc3
Esempio
campione autoponderante con
€
fc =1300
2001
32
3001
×==ijp
100ÞA
10ÞB
40ÞC€
AB =110 = ncAB
€
AC =140 = ncAC
€
BC = 50 = ncBC
Se si estraggono 2 UP: n = 2
TIS 139
Campionamento psu con probabilità variabili
Deliberatamente, le psu sono selezionate con probabilità diverse (che eventualmente saranno compensate con pesi opportuni nella fase di stima)
Sono note le probabilità con cui è selezionata una data unità:
P (unità i è selezionata alla prima estrazione) = ψi
P (unità i è nel campione) = πi
(probabilità distinte poiché, essendo la probabilità di selezione diversa, l’estrazione –fatta senza replicazione- o meno al primo giro può influenzare le probabilità di selezione delle altre unità)
In molti casi, la selezione di psu con probabilità variabili produce un campione che “rappresenta” meglio la popolazione di uno analogo selezionato con probabilità uguali.
TIS 140
Campionamento con probabilità variabili/1selezione di n=1 psu (da N psu in totale)
Valore del totale psu i = tiObiettivo: stima del totale tEsempio (con popolazione nota): stima del totale delle vendite
Ci si attende che:1. in un “big” store le vendite siano maggiori che in “small” store2. variabilità vendite totali > in “big” che “small”
In questo caso, poiché n=1: ψi = πi = P(store i è selezionato) = proporzionale alla dimensione (size)
TIS 141
Campionamento con probabilità variabili/2selezione di n=1 psu (da N psu in totale)
Esempio per selezione 1 negozio:
estrazione da 16 biglietti numerati da 1-16. Se estratto 1: A2-3: B4-6: C7-16: D
Peso di campionamento da usare (per compensazione) nella stima:wi = 1 / P(i è selezionato nel campione) = ψi
TIS 142
Campionamento psu con probabilità variabili/3selezione di n=1 psu (da N psu in totale)
Stimatore del totale(one-stage cluster)
4 possibili campioni di ampiezza 1 (totale t =300):
11*16= 176 (176-300)^2 = 15.376
TIS 143
Campionamento con probabilità variabili/4selezione di n=1 psu (da N psu in totale)
Varianza dello stimatore del totale(4 campioni di ampiezza 1)
TIS 144
Campionamento con probabilità variabili/5selezione di n=1 psu (da N psu in totale)
Confronto con CCS
Con CCS: ψi = ¼, 1/ψi = 4 =N
Stimatore non distorto ma varianza molto più grande (nel primo caso è usata più informazione - dimensione negozio - sempre che l’ipotesi di base sia ragionevole)
Nb: SRS = Simple Random Sample (o CCS = Campione Casuale Semplice)
TIS 145
Campionamento con probabilità variabili/6selezione di n=1 psu (da N psu in totale)
Selezione unica psu non è così inusuale:- se stratificazione psu, ogni strato può contenere poche psu- possono essere definiti un grande numero di strati per aumentare la precisioneOvviamente, con una psu non è possibile ottenere stime della variabilità tra psu entro lo strato: procedure specifiche per stimare la varianza
In generale, con probabilità variabili di selezione per le psu:
§ è favorita in termini probabilistici l’entrata nel campione delle unità di grandi dimensioni
§ le unità finali sono estratte da blocchi mediamente più estesi, e quindi sono più disperse e la stima è più efficiente di un campione selezionato con probabilità costanti ad ogni stadio
TIS 146
Campionamento con probabilità variabili/7selezione di n > 1 psu (da N psu in totale)Caso semplice: selezione con replicazione
P (unità i è selezionata alla prima estrazione) = ψi= P (unità i è selezionata alla seconda estrazione) = P (terza) …
Idea sottostante:
- selezione di n psu con replicazione- stimare il totale per ciascuna psu come caso precedente (cioè con n=1) - se psu replicate, il totale sarà incluso tante volte quante la psu è stata selezionata - stima totale popolazione = media delle n stime ti indipendenti - stima varianza = varianza campionaria delle n stime indipendenti diviso n
TIS 147
Campionamento con probabilità variabiliselezione di n > 1 psu (da N psu in totale)
Metodi per selezione con replicazione
I vari metodi presuppongono la conoscenza di una misura di dimensione (measure of size) per tutte le psu nella popolazione
1. Metodo della cumulata (vedi esempio dei negozi con generazione di numeri casuali e inserite psucorrispondenti a tali valori)
2. Metodo di Lahiri (particolarmente utile quando il n.ro di psu è grande)
TIS 148
Metodo della cumulata/1Esempio: 647 studenti in 15 classi, campione di 5 classi con replicazione e prob. proporzionale a Mi (= n.ro studenti per classe)
Ψi = Mi / 647
1. Generazione di 5 numeri casuali : 487, 369, 221, 326, 2822. Classi nel campione: 13, 9, 6, 8, 7
(se n.c.= 553, 082, 245, 594, 150, campione: 14, 3, 6, 14, 5 con classe 14 inserita 2 volte)
Si utilizza anche selezione sistematica (che produce campioni non replicati ma in grandi pop.ni, differenza minima)
TIS 149
(che produce campioni non replicati ma in grandi pop.ni, risultati molto simili) Esempio: 647 studenti in 15 classi, campione di 5 classi: - lista degli elementi per la prima psu, poi la seconda e così via.- selezione sistematica dalla lista1 < x < 129 (647/5 ≈ 129.4), psu nel campione: x, x+129, …
se x= 112 N.B.:Non vero campione con replicazione, poiché classi <= 129 non entrano più di una volta nel campione e classi > 129 hanno P = 1 di far parte del campione ma facile da fare !
(se psu organizzate geograficamente, campione ottenuto è più sparso con risultati migliori)
Selezione sistematica /1
TIS 150
Metodo della cumulata e sistematica /2
A 20 20
B 100 120
C 50 170
D 15 185
E 18 203
F 43 246
G 20 266
H 36 302
I 13 315
M=315
Tavola di numeri casuali: 3 cifre
0 - 20 gruppo A;
21 - 120 gruppo B;
121 - 170 gruppo C;
…
Estrazione di una UP: 1 numero casuale
Estrazione di due UP: 2 numeri casuali
…
con
reinserimento
Selezione sistematica per avere un’estrazione senza reinserimento:
es. 3 estrazioni: 315/3= 105
€
M j = Mj=1
I
∑
UPprima1051 Þ££ xUPseconda 105 Þ+x
UPterza105Þ+
Gruppo Mi
TIS 151
Metodo di Lahiri (rejective method)
N = n.ro psu, max (Mi) = dimensione massima psu
1. selezione numero casuale (n.c.) tra 1 e N (psu da considere)
2. selezione n.c. tra 1 e max (Mi):
• n.c. <= Mi , psu i è inclusa nel campione
• altrimenti si torna al punto 1
3. ripetere fino a ottenere il numero di psu (ampiezza campionaria 1^ stadio) desiderato.
Esempio classi: max (studenti) = 100, generazioni di coppie di n.c.:
1^: 1, …15; 2^: 1,…100
TIS 152
Metodo di Lahiri: esempio
15 classi: max (studenti) = 100, generazioni di coppie di n.c., 1^: 1, …,15 (psu); 2^: 1,…,100 (per decidere se tenere psu)
TIS 153
Stima campionamento a due stadi con probabilità variabili e con replicazione
1. Qualunque sia la psu i selezionata, si utilizza sempre lo stesso disegno per selezionare al suo interno le ssu (campioni indipendenti di ssu se la psu è replicata - stimatore non distorto della varianza)es.: campione di 5 ssu da psu X se selezionata. Se X selezionata 2 volte: estratti 2 campioni diversi
2. Estrazione del j-esimo campione (j = 1, …Qi = n.ro di replicazioni psui nel campione)
TIS 154
Passi per campionamento a due stadi con probabilità variabili e replicazione
1. Determinare: Ψi , n = n.ro psu da estrarre, metodo selezione ssu entro psu
2. Selezionare con probabilità ψi e con replicazione n psu (metodo cumulata o Lahiri)
3. Selezionare ssu come definito in 1. Selezionare tanti campioni di ssu quante volte è estratta la psu
4. Stimare il totale di popolazione da ogni psu per ogni campione di ssu (n stime t^ij / ψi)
5. Calcolare t^ = media delle n stime punto 4.
6. Calcolare SE= (1/ √ n) (deviazione standard campionaria delle n stime punto 4.)
TIS 155
Stima campionamento a due stadi con probabilità variabili e senza replicazione:
Maggiori complicazioni poiché la probabilità di selezione di una unità (psu) cambia se è selezionata come prima, seconda, terza, … Necessaria conoscenza di Prob inclusione 1^ e 2^ ordine (πi e πik).Stimatore di Horvitz-Thompson (HT) (non distorto)
Zi = 1 se psu iè nel campione, 0 altrimenti
TIS 156
Campionamento a due stadi con probabilità variabili e senza replicazione
Pesi di campionamento e stimatore HT
Probabilità che la ssu j della psu i sia nel campione è πi πj/i , il peso di campionamento di (i,j)-esima ssu è:
Stimatore rapporto
TIS 157
Campione autoponderante da disegno su due stadiSelezione con probabilità proporzionali alla dimensione
PPS (Probability Proportional to Size)
000300008)(;
000300002)(;
0003000020)( .
.
.
.
.
.
=== CPBPAP
P( j | A) = 10020.000
;P( j | B) = 1002.000
;P( j |C) = 1008.000
3001
00020100
0003000020
..
.=×=Ajp 300
10002100
000300002
..
.=×=Bjp 300
10008100
000300008
..
.=×=Cjp
pppp ijiij =×= |
Equazione di selezione con PPS per campione autoponderantedi ampiezza fissa nm
€
pij =nMi
M0
⋅bMi
=nbM 0
1° STADIO
Attenzione a bilanciamento tra dispersione del campione e guadagno in Deff
m = 100 (# ssu selezionate al 2^ stadio)
TIS 158
Modello di costo per determinare m ottimo in funzione dei costi
€
C = nCi + nbc min)var(con =y
C costo totaleCi costo per psu/UPc costo per elemento (unità di 2° livello)
€
b* ≈ Ci
c(1− ICC)ICC
Poiché campione = nm, fissata dimensione e m* si trova n
a parità di altre condizioni, più l’omogeneità interna è elevata, più alti i costi per unità e più bassi i costi per gruppo
più il campione sarà sparpagliato tra le UP
N.B. indagini multiscopo usuali considerazioni