M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale...

25
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni Monica Russo 27 giugno 2014

description

La misurazione della qualità del 15° Censimento generale della popolazione e delle abitazioni: i risultati dell’indagine di copertura (PES)

Transcript of M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale...

Page 1: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento

dell’Indagine di copertura

del 15° Censimento generale della

Popolazione e delle Abitazioni

Monica Russo

27 giugno 2014

Page 2: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Obiettivi dell’indagine e parametri di interesse

L’indagine di copertura – o Post Enumeration Survey (PES) – è

un’indagine condotta in connessione con il 15° Censimento generale

della Popolazione e delle Abitazioni ed è volta alla determinazione degli

errori per eccesso (sovracopertura) o per difetto (sottocopertura)

intervenuti nel conteggio censuario.

Per i fini sopra delineati i parametri di popolazione oggetto di stima più

importanti sono:

• il tasso di copertura, espresso come rapporto tra il numero di unità

enumerate al Censimento (al netto della sovracopertura) e la

dimensione effettiva della popolazione,

• il tasso di sottocopertura, dato dal rapporto tra il numero di unità

sfuggite all’enumerazione censuaria (al netto della sovracopertura) e

la dimensione effettiva della popolazione.

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

1

Page 3: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La popolazione obiettivo e i domini di interesse

La popolazione obiettivo della PES 2011 è costituita dagli individui

residenti in abitazioni esistenti nel territorio nazionale (escluse le

convivenze) alla data del 9 ottobre 2011.

La finalità primaria dell’indagine in esame è l’ottenimento delle stime dei

predetti parametri con riferimento ai seguenti ambiti territoriali:

• l’intero territorio nazionale,

• le regioni geografiche e le Province autonome di Trento e Bolzano.

Inoltre, è prevista la determinazione delle suddette stime relativamente a:

(i) domini territoriali sub-regionali (le province) e sub-provinciali (i tredici

comuni metropolitani); (ii) domini di studio costituiti da individui classificati

secondo l’età (in classi) e la nazionalità. Essendo questi ultimi domini non

pianificati, la precisione delle stime ad essi inerenti può essere migliorata

sia introducendo una post-stratificazione nello stimatore studiato per

l’indagine, sia attraverso l’adozione di stimatori speciali per piccole aree.

Questi domini di studio rappresentano comunque un obiettivo secondario.

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

2

Page 4: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Il disegno di campionamento

() La PES 2011 adotta un disegno di campionamento di tipo areale a due

stadi di selezione:

il primo stadio è costituito dai comuni, stratificati in base al

concatenamento delle regioni geografiche (le Province autonome di

Trento e Bolzano sono trattate come regioni a sé) e delle 5 classi di

dimensione demografica dei comuni secondo le modalità:

- meno di 5.000 ab.

- tra 5.000 e 10.000 ab.

- tra 10.000 e 20.000 ab.

- tra 20.000 e 100.000 ab.

- oltre 100.000 ab. e i 13 comuni metropolitani (Torino, Genova, Milano,

Venezia, Bologna, Firenze, Roma, Napoli, Bari, Palermo, Catania,

Cagliari e Messina);

le unità di secondo stadio sono invece rappresentate dalle sezioni di

Censimento, stratificate in base alla dimensione demografica delle

sezioni in 3 modalità definite dai terzili della distribuzione della

popolazione di sezione; tutti gli individui appartenenti alle sezioni

campione vengono enumerati.

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

3

Page 5: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Il disegno di campionamento

() Determinato il n° totale e per strato di individui campione, 𝑛 e 𝑛ℎ, in funzione

degli errori attesi delle stime del tasso di copertura, si definisce il n° di

comuni campione per strato ℎ (ℎ = 1, … ,𝐻), 𝑚ℎ, in modo da rispettare la

condizione che il valore atteso del n° di individui campione relativo al

generico strato ℎ sia uguale al n° programmato; in simboli

𝑁ℎ𝑐𝑗 𝜋ℎ𝑐𝑗𝑗∈𝑐

= 𝑛ℎ𝑐∈ℎ

in cui: 𝑐 ed 𝑗 denotano rispettivamente gli indici di comune e sezione; 𝑁ℎ𝑐𝑗 è

il n° di individui residenti nella generica sezione 𝑗 del comune 𝑐 dello strato

ℎ; 𝜋ℎ𝑐𝑗 è la probabilità di inclusione della sezione 𝑗 del comune 𝑐 dello strato

ℎ; 𝑠ℎ𝑐 = 𝑠ℎ = 𝑛 ℎ 𝑁ℎ 𝑆ℎ è il n° minimo di sezioni campione per comune

campione, determinato attraverso una procedura di tipo iterativo, facendo

variare il n° minimo di individui da intervistare in ciascun comune campione,

𝑛 ℎ, in modo da rispettare il n° complessivo desiderato di comuni che si

intende far partecipare all’indagine; 𝑁ℎ 𝑆ℎ è il n° medio di individui per

sezione riferito ad ℎ; inoltre, si ha 𝜋ℎ𝑐𝑗= 𝜋ℎ𝑐 poiché tutte le sezioni del

comune 𝑐 hanno la stessa probabilità di essere incluse nel campione.

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

4

Page 6: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Il disegno di campionamento

() Risolvendo l’equazione rispetto all’incognita 𝑚ℎ si ottiene:

𝑚ℎ =𝑛ℎ𝑠ℎ

1

𝑁ℎ 𝑁ℎ𝑐

1

𝑆ℎ 𝑁ℎ𝑐𝑖𝑖∈𝑐𝑐∈ℎ

−1

dove: 𝑁ℎ𝑐 e 𝑁ℎ denotano il n° di individui residenti rispettivamente nel

comune 𝑐 dello strato ℎ e nello strato ℎ; 𝑆ℎ è il n° di sezioni nello strato ℎ.

Il meccanismo probabilistico di formazione del campione prevede

l’estrazione delle unità primarie con probabilità variabili senza ripetizione e

l’estrazione delle unità secondarie con probabilità uguali senza ripetizione.

L’indagine ha coinvolto 255 comuni campione e 2.507 sezioni, per un totale

di 332.710 individui intervistati.

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

5

Page 7: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Quando si verifica un errore di copertura?

L’operazione di enumerazione censuaria può essere affetta da:

• errore di sovracopertura:

tipo 1: si verifica quando per lo stesso individuo esistono due o

più ritorni censuari nella stessa sezione di censimento

tipo 2: si verifica quando per lo stesso individuo si hanno due ritorni censuari

ma in sezioni di censimento diverse

tipo 3: si verifica quando un individuo viene enumerato solo all’indirizzo

errato; quindi, è presente solo la metà errata della duplicazione nei

ritorni censuari

tipo 4: è un ritorno censuario che non avrebbe mai dovuto verificarsi poiché

fittizio o perché non facente parte della popolazione di riferimento.

N.B. In fase di stima si considerano gli errori di tipo 2 e 3. Gli errori di tipo 1 sono corretti

attraverso il processamento dei dati censuari, quelli di tipo 4 sono identificati con

ulteriore lavoro sul campo.

• errore di sottocopertura: si verifica quando una unità residente in Italia alla

data del 9 ottobre 2011 non viene rilevata dal censimento.

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

6

Page 8: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Il processo di stima

Fasi in cui si articola il processo di stima:

Determinazione del Dual-System Estimator (DSE) corretto per

sovracopertura:

– Stima della sovracopertura

– Calcolo del DSE

Regression Estimator (RE)

Sample Balance Adjustment (SBA)

Determinazione delle stime del totale “vero” (incognito) della

popolazione residente a livello regionale e nazionale

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

7

Page 9: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Flowchart del processo di stima

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

8

Censimento

2011 PES

Ricerca del n° di duplicazioni

Stima

Sovracopertura

Matching tra

Censimento e PES

DSE corretto per

sovracopertura

Regression Estimator

(stima la popolazione a

livello di regione)

Sample Balance

Adjustment

Stime della

popolazione a

livello regionale

Aggregazione delle

stime regionali

(stima la popolazione a

livello nazionale)

Stima della

popolazione a

livello nazionale

Page 10: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Stima della sovracopertura

(a) La sovracopertura è una mistura di:

Duplicazioni

Conteggi nel posto sbagliato

Enumerazioni errate.

La nostra strategia di stima è di operare degli aggiustamenti netti:

riducendo le stime Dual-System attraverso una stima della

sovracopertura

imputando il minor numero di individui

non rimuovendo i duplicati

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

9

Page 11: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Stima della sovracopertura

(b) La metodologia di stima della sovracopertura si articola in 3 punti:

i) stima del numero di duplicazioni attraverso la PES

ii) stima dei conteggi nel posto sbagliato attraverso la PES

iii) calibrazione di i) mediante il numero di duplicazioni rilevate al

Censimento (il campione PES non è disegnato per ottenere stime

del numero di duplicazioni)

Assunzione chiave: la PES definisce la corretta localizzazione

dell’individuo alla data del 9 ottobre 2011

attraverso la risposta dell’intervistato alla

domanda 1.5 del questionario PES

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

10

Page 12: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Flowchart della stima della sovracopertura

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

11

Abbinati

Censimento-PES

nello stesso luogo

Abbinati

Censimento-PES

in luoghi diversi

Stima delle

duplicazioni nei

conteggi censuari

attraverso la PES

Stima dei

conteggi esatti

del Censimento

Stima dei

conteggi errati

del Censimento

Tasso di

duplicazione

Stima calibrata dei

conteggi errati del

Censimento attraverso

uno stimatore rapporto

Propensione alla

sovracopertura

Duplicazioni

individuate al

Censimento

Page 13: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

Stima della sovracopertura

(d) La propensione alla sovracopertura è calcolata per ripartizione, modalità

dell’indice Hard to Count (HtC) e classi di età; è data dal rapporto

𝛾𝑎𝑤,𝑔 =𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑡𝑜𝑡𝑎𝑙𝑒

𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑣𝑒𝑟𝑎=𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖 + 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑟𝑟𝑎𝑡𝑖

𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖=𝑌𝑎𝑤,𝑔 + 𝐸𝑎𝑤,𝑔

𝑌𝑎𝑤,𝑔

1

𝛾𝑎𝑤,𝑔 = fattore di sovracopertura: riduce il contributo di ogni

individuo alla DSE,

in cui:

𝑔 indica la ripartizione geografica (Nord-Ovest, Nord-Est, Centro, Sud,

Isole) incrociata con le modalità dell’indice HtC: p=1 (‘enumerazione

facile’), p=2 (‘enumerazione di media difficoltà’) e p=3 (‘enumerazione

difficile’)

𝑎𝑤 è la classe di età (0-2 e 25-60 anni, 3-17 anni, 18-24 anni, 61 e più anni)

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

12

Page 14: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Stima della sovracopertura

(e) La stima della propensione alla sovracopertura è fornita da

𝛾 𝑎𝑤,𝑔 =𝑌 𝑎𝑤,𝑔 + 𝐸 𝑎𝑤,𝑔

𝑌 𝑎𝑤,𝑔=

𝑤𝑗𝑔 𝑐𝑎𝑤,𝑖,𝑗𝑔𝑖∈𝑗 + 𝑃

𝐷 𝑤𝑘𝑏𝑘∈𝑆𝑏

𝑘≠𝑗𝑏 𝑜𝑎𝑤,𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘𝑗∈𝑆𝑔𝑗∈𝑠𝑔

𝑤𝑗𝑔 𝑐𝑎𝑤,𝑖,𝑗𝑔𝑖∈𝑗𝑗∈𝑠𝑔

in cui: 𝑖 indice di individuo

𝑏 indica la ripartizione geografica incrociata con le modalità dell’indice HtC

𝑘 indice di sezione

𝑤𝑗𝑔, 𝑤𝑘𝑏 pesi campionari assegnati rispettivamente alla sezione 𝑗 appartenente a 𝑔 e

alla sezione 𝑘 appartenente a 𝑏

𝑐𝑎𝑤,𝑖,𝑗𝑔 variabile che assume il valore 1 se l’individuo 𝑖 è correttamente conteggiato dal

Censimento nella sezione 𝑗 dell’area 𝑔 e 0 altrimenti

𝑜𝑎𝑤,𝑖,𝑘𝑏,𝑗𝑔 variabile che assume il valore 1 se l’individuo è conteggiato erroneamente dal

Censimento nella sezione 𝑗 dell’area 𝑔 poiché la sua corretta enumerazione è

la sezione 𝑘 dell’area 𝑏, con 𝑘 ≠ 𝑗 e 𝑏 che può anche coincidere con 𝑔 𝑃

𝐷 = 𝑤𝑗𝑔 𝑤𝑘𝑏𝑘∈𝑆𝑏

𝑘≠𝑗𝑏 𝑜𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘 𝑐𝑖,𝑗𝑔𝑗∈𝑠𝑔𝑔

13

tasso di duplicazione, dato dal rapporto tra

il n° di duplicazioni individuate nei conteggi

censuari e la stima PES dello stesso

Page 15: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Calcolo del DSE

Stimato il fattore di sovracopertura, 1 𝛾𝑎𝑤𝑔 , si determina per ciascuno degli 𝑚𝑟 𝑎𝑝

comuni campione 𝑐 il DSE corretto per sovracopertura in base all’espressione

𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 = 𝑁 𝑎𝑝𝑐𝑜𝐶 =

𝑁 +1,𝑎𝑝𝑐 + 1 𝑁1+,𝑎𝑝𝑐 𝛾 𝑎𝑤𝑔 + 1

𝑁 11,𝑎𝑝𝑐 + 1− 1

dove:

𝑎 sono le classi di età: 0-2, 3-7, 8-17, 18-24, 25-29, 30-34, 35-39, 40-44, 45-49,

50-54, 55-59, 60-64, 65-69, 70-74, 75-79, 80-84, 85 e più, separatamente per i

due sessi

𝑝 è l’indice HtC 𝑝 = 1,2,3

𝑟 è l’indice di regione geografica (𝑟 = 1,… , 21, Trento e Bolzano sono tenute distinte)

𝑐 è l’indice di comune 𝑐 = 1,… , 𝑚𝑟 𝑎𝑝 .

Tale modello rappresenta una variante del modello di Petersen (o di omogeneità

entro le liste), in cui il totale censuario 𝑁1+,𝑎𝑝𝑐 è corretto per la stima della

propensione alla sovracopertura ed è stata apportata la correzione di Chapman per

applicazioni del DSE a piccole popolazioni.

14

Page 16: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Calcolo del DSE

Punto di partenza: Modello di Petersen (o di omogeneità entro le liste).

Si suppone che la PES ripeta le operazioni di Censimento su tutto il territorio

nazionale.

Si indichi con C la lista ottenuta con il Censimento e con I quella ottenuta con

l’indagine. Le ipotesi alla base del modello sono:

1. la popolazione di riferimento è chiusa e di dimensione fissata pari a 𝑁

2. le probabilità che l’unità 𝑖 appartenga o meno alla lista C e che appartenga o meno alla

lista I possono essere espresse mediante una distribuzione multinomiale in cui le

probabilità congiunte e quelle marginali sono riportate nel prospetto seguente:

15

Lista C

Si No

Si 𝑝𝑖,11 𝑝𝑖,12 𝑝𝑖,1+

No 𝑝𝑖,21 𝑝𝑖,22 𝑝𝑖,2+

𝑝𝑖,+1 𝑝𝑖,+2 1

Lista I

Page 17: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Calcolo del DSE

3. le due liste, C e I, possono essere considerate il risultato di N prove mutualmente

indipendenti usando le distribuzioni multinomiali descritte al punto 2; per ogni singola unità

𝑖 si definisce una variabile 𝑥𝑖𝑎𝑏 pari ad 1 se l’unità 𝑖 cade nella cella ab e 0 altrimenti

𝑎, 𝑏 = 1,2 ; per le unità della popolazione la situazione può essere rappresentata come

segue:

dove 𝑁𝑎𝑏 = 𝑥𝑖𝑎𝑏𝑁𝑖=1 è il n° di unità nella cella ab 𝑎, 𝑏 = 1,2 , 𝑁𝑎+ = 𝑥𝑖𝑎𝑏

2𝑏=1

𝑁𝑖=1

𝑎 = 1,2 e 𝑁+𝑏 = 𝑥𝑖𝑎𝑏2𝑎=1

𝑁𝑖=1 𝑏 = 1,2 ; ovviamente le quantità 𝑁22 e N non sono

osservabili

4. è possibile determinare senza errore quali unità registrate nella lista I sono presenti nella

lista C e quali no (ossia, non sono presenti errori di abbinamento)

5. entrambe le liste sono depurate da errori di registrazione e duplicazione

16

Lista C

Si No

Si 𝑁11 𝑁12 𝑁1+

No 𝑁21 𝑁22 𝑁2+

𝑁+1 𝑁+2 N

Lista I

Page 18: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Calcolo del DSE

6. le probabilità che le unità siano incluse nella lista C, 𝑝𝑖1+ 𝑖 = 1, … ,𝑁 , e le probabilità

che le unità siano incluse nella lista I, 𝑝𝑖+1 𝑖 = 1, … ,𝑁 , sono costanti per ciascuna

lista, ossia soddisfano le condizioni 𝑝𝑖1+ = 𝑝1+ e 𝑝𝑖+1 = 𝑝+1 ; d’altra parte le due

probabilità 𝑝1+ e 𝑝+1 sono generalmente differenti.

In assenza di sovracopertura, avendo assunto l’indipendenza delle due

rilevazioni, una stima della numerosità della popolazione è data da

𝑁 =𝑁+1 𝑁1+𝑁11

Poiché con la PES non si effettua un’enumerazione completa su tutte le sezioni

censuarie ma solo su un campione di esse, le quantità 𝑁+1 e 𝑁11 sono stimabili

sulla base delle osservazioni campionarie.

Pertanto, la stima di N è ottenibile nel seguente modo

𝑁 =𝑁 +1 𝑁1+

𝑁 11

17

Page 19: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Regression Estimator (RE)

Per la regione geografica 𝑟 e il gruppo di popolazione 𝑎, sono date le 𝑚𝑟 𝑎

coppie di valori 𝑥𝑎𝑝𝑐 , 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 , in cui 𝑚𝑟 𝑎 = 𝑚𝑟 𝑎𝑝𝑝 e 𝑥𝑎𝑝𝑐 è il totale

censuario nei comuni campione della regione 𝑟 per il gruppo di popolazione 𝑎,

mentre 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 è il DSE calcolato nel modo su descritto.

Dopo aver stimato con il metodo dei minimi quadrati il coefficiente angolare 𝛽𝑟 𝑎

della retta di regressione interpolante la nuvola di punti definiti dalle 𝑚𝑟 𝑎 coppie

di valori, si determina una stima della popolazione a livello di regione geografica

𝑟, gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC moltiplicando 𝛽 𝑟 𝑎 per

𝑋𝑟 𝑎𝑝 , che rappresenta il totale censuario inerente a tutti i comuni della regione 𝑟

per il gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC:

𝑁 𝑎𝑝𝑟 = 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝

18

Page 20: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Sample Balance Adjustment (SBA)

Questa prima stima di 𝑁𝑎𝑝𝑟 è poi corretta per un fattore di aggiustamento, 𝐹𝑝

𝑝 = 1,2,3 , che serve per bilanciare il campione qualora esso risulti un outlier.

In circostanze normali, il campione estratto per la PES è rappresentativo della

copertura del Censimento, poiché esso è stato disegnato a tal fine. Tuttavia, in

ogni selezione campionaria esiste il rischio che il campione estratto sia un

outlier (ossia, appartenga alle code della distribuzione) tra tutti i possibili

campioni; in altri termini, il campione PES potrebbe, per puro effetto del caso,

individuare sezioni di censimento in cui, ad esempio, il censimento ha

conteggiato l’intera popolazione e presentare, pertanto, sottocopertura zero.

Il procedimento SBA si prefigge l’obiettivo di valutare se il campione PES è

sufficientemente rappresentativo comparandolo con tutti gli altri possibili

campioni che potevano essere selezionati (se non lo è, le stime dei tassi di

copertura avrebbero una distribuzione asimmetrica, troppo alti o troppo bassi) e

correggere eventualmente la stima 𝑁 𝑎𝑝𝑟 attraverso un bilanciamento del

campione stesso.

19

Page 21: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Sample Balance Adjustment (SBA)

A tal fine, sono stati utilizzati i questionari censuari dummy corrispondenti alle

famiglie per le quali non è stato ricevuto un ritorno censuario; essi sono ritenuti

essere la migliore proxy della copertura.

La procedura consta nei seguenti passi:

1. Si analizza la correlazione tra le 𝑚𝑟 𝑝 coppie 𝑞 𝑟 𝑝𝑐 , 𝑞 𝑟 𝑝𝑐 , in cui 𝑞 𝑟 𝑝𝑐 e 𝑞 𝑟 𝑝𝑐

rappresentano rispettivamente il non-response rate (ovvero, il rapporto tra il

n° di questionari censuari dummy e il n° complessivo di questionari censuari)

e la sua stima tramite la PES, al fine di stabilire se la variabile è una buona

proxy della non risposta (quindi della copertura) e, pertanto, può essere

usata se il campione relativo ad uno o più comuni risulta essere non

rappresentativo. In tal caso (ossia, se la correlazione è maggiore di 0.5), un

aggiustamento basato su di essi migliorerebbe lo stimatore regressione se il

campione non è bilanciato.

20

Page 22: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Sample Balance Adjustment (SBA)

2. Si confronta il n° di questionari censuari dummy nella regione 𝑟 e modalità 𝑝

dell’HtC, 𝑌𝑟 𝑝, noto da Censimento, e la sua stima, 𝑌 𝑟 𝑝, ottenuta attraverso la

PES utilizzando uno stimatore rapporto.

Se 𝑌 𝑟 𝑝 risulta significativamente diverso da 𝑌𝑟 𝑝, allora il campione PES

inerente alla regione 𝑟 e modalità 𝑝 dell’HtC è verosimilmente non bilanciato.

Tuttavia, per una ulteriore e più valida verifica di tale circostanza, è opportuno

ricorrere all’impiego del test seguente.

3. Essendo nota la distribuzione dei valori veri dei questionari censuari dummy

relativi a tutti i comuni della regione 𝑟 e aventi modalità 𝑝 dell’HtC, si

determina la varianza (e non la stima) di 𝑌 𝑟 𝑝, Var 𝑌 𝑟 𝑝 .

Si costruisce quindi l’intervallo di confidenza al 95% intorno al valore vero 𝑌𝑟 𝑝:

𝑌𝑟 𝑝 − 2 Var 𝑌 𝑟 𝑝 ≤ 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 + 2 Var 𝑌 𝑟 𝑝

Se la stima cade all’interno dell’intervallo allora non c’è evidenza che il

campione sia outlier; se invece cade in una delle due code, allora il campione

è un outlier. In quest’ultimo caso è opportuno applicare un fattore di

aggiustamento per migliorare il bilanciamento del campione.

21

Page 23: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Sample Balance Adjustment (SBA)

4. Si calcola il fattore:

𝐹𝑟 𝑝 =

𝑌𝑟 𝑝 + 𝑋𝑟 𝑝

𝑋𝑟 𝑝

𝑀𝑟 𝑝

𝑚𝑟 𝑝 𝑌𝑟 𝑝𝑐 + 𝑋𝑟 𝑝𝑐

𝑚𝑟 𝑝

𝑐=1

𝑀𝑟 𝑝

𝑚𝑟 𝑝 𝑋𝑟 𝑝𝑐

𝑚𝑟 𝑝

𝑐=1

N.B. Se il campione è esattamente bilanciato: 𝐹𝑟 𝑝 = 1

Se il campione sottostima: 𝐹𝑟 𝑝 > 1

Se il campione sovrastima: 𝐹𝑟 𝑝 < 1

Dato il fattore 𝐹𝑟 𝑝, si determina la stima bilanciata di 𝑁𝑎𝑝𝑟 :

𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝

22

Page 24: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Determinazione delle stime del totale “vero” (incognito) della

popolazione residente a livello regionale e nazionale

Le stime a livello regionale sono immediatamente ottenibili sommando rispetto

alle modalità 𝑝 dell’indice HtC e ai gruppi di popolazione 𝑎:

𝑁 𝑟 = 𝑁 𝑎𝑝𝑟

𝑝𝑎

= 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟

𝑝𝑎

= 𝐹𝑟 𝑝 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝

𝑝𝑎

Sommando poi su tutte le regioni si ottiene la stima a livello nazionale:

𝑁 = 𝑁 𝑟𝑟

= 𝑁 𝑎𝑝𝑟

𝑝𝑎

= 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟

𝑝𝑎

= 𝐹𝑟 𝑝 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝

𝑝𝑎

23

Page 25: M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle

Abitazioni, Monica Russo – Roma, 27 giugno 2014

Valutazione della precisione delle stime della PES

L’affidabilità delle stime dei parametri di interesse dell’indagine PES è stata

valutata attraverso il calcolo dei coefficienti di variazione percentuale e degli

intervalli di confidenza. Tali indicatori sono basati sulla stima della varianza delle

stime prodotte dall’indagine in oggetto calcolata applicando il metodo bootstrap.

I campioni bootstrap sono stati ottenuti a partire da una pseudo-popolazione

costruita replicando i comuni e le sezioni campione un numero di volte pari ai

loro corrispondenti pesi campionari.

Siano 𝜃 1, … , 𝜃 𝑎 , … , 𝜃 𝐴 le stime del parametro 𝜃 ottenute applicando agli A

campioni bootstrap uno stimatore avente una forma funzionale uguale a quella

dello stimatore 𝜃 utilizzato per l’ottenimento delle stime dell’indagine (basate

sull’utilizzo dei dati del disegno campionario originario).

La stima bootstrap della varianza dello stimatore 𝜃 è data da:

𝑉 𝐵𝑆 𝜃 =1

𝐴 − 1 𝜃 𝑎 −

1

𝐴 𝜃 𝑎

𝐴

𝑎=1

2𝐴

𝑎=1

24