A. Fasulo - Hard To Count Index

15
La misurazione della qualità del 15° Censimento generale della popolazione e delle abitazioni: i risultati dell’indagine di copertura Hard To Count Index Componenti sottogruppo: Antonella Bernardini Andrea Fasulo Fabrizio Solari Marco D. Terribili Roma, 27 Giugno 2014

Transcript of A. Fasulo - Hard To Count Index

La misurazione della qualità del 15°

Censimento generale della popolazione e

delle abitazioni: i risultati dell’indagine di

copertura

Hard To Count Index

Componenti sottogruppo:

Antonella Bernardini

Andrea Fasulo

Fabrizio Solari

Marco D. Terribili

Roma, 27 Giugno 2014

L’indagine di copertura del censimento

In fase di stima della popolazione nazionale, si è proceduto ad una post-

stratificazione delle unità campionarie.

Una delle variabili di post-stratificazione utilizzata è l’ Hard To Count

index (HTC), un indice di difficoltà di conteggio, che ha contribuito ad

individuare delle aree omogenee rispetto alla difficoltà di una popolazione

ad essere enumerata.

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

PES – Post Enumeration Survey

Seguendo l’esperienza dell’ONS sull’HTC applicato in occasione dei

censimenti della popolazione, del 2001 e 2011, è stato studiato un indice

sulla base del quale sono stati categorizzati tutti i comuni italiani.

L’idea alla base del metodo è quella di creare gruppi di aree, nel caso

specifico comuni, con un livello atteso omogeneo di corretta

enumerazione della popolazione.

Indice di difficoltà di conteggio

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio – Definizione del modello

Variabile dipendente: l’abbinamento

La variabile oggetto di studio è una variabile dicotomica che indica il

mancato abbinamento tra gli individui rilevati all’indagine di copertura con

quelli rilevati al censimento.

Essendo la variabile dipendente binaria, i modelli proposti sono modelli

logistici.

1 mancato abbinamento

0 abbinamento Y

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio – Definizione del modello

Modelli logistici a effetti fissi:

Modelli logistici a effetti misti (o multilevel):

dove:

1 1 2 2

( 1| )Logit ( 1| ) Log ...

1 ( 1| )

i ii i i i k ki

i i

P Y XP Y X X X X

P Y X

1 1 2 2

( 1| )Logit ( 1| ) Log ...

1 ( 1| )

id idid id id id k kid d

id id

P Y XP Y X X X X

P Y X

2

individuo -esimo

area

covariata

i.i.d. (0, )d

i i

d

k

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Livello Covariata

Individuale

Età continua

Classi d'età

Sesso

Famiglia monocomponente

Famiglia numerosa (7 o + individui)

Stranieri

Persone sole (separati, divorziati o vedovi)

Proxy studenti (19≤Età≤30, titolo di studio almeno diploma di maturità)

Comunale

Comune universitario

Comuni litoranei

Zona altimetrica (comuni distinti, in base all'altitudine, in cinque classi)

Densità (ab./km2)

Tasso di stranieri

Provinciale Tasso di disoccupazione

Interazioni fra variabili

Stranieri* Tasso di stranieri residenti nel comune

Monocomponente * Classe di età 10-29 anni

Comuni universitari * Proxy studenti

Variabile indipendenti

Indice di difficoltà di conteggio – Definizione del modello

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Studio del modello

Scelta della

migliore intercetta

casuale

Scelta del modello:

Effetti misti Vs. Effetti fissi

Valutazione

delle classi

costruite

CATEGORIZZAZIONE DEI COMUNI ITALIANI

Definizione di modelli

alternativi, e scelta

del migliore

Costruzione classi

dell’indicatore (per i

comuni campione)

Classificazion

e dei comuni

non campione

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Studio del modello

Scelta del modello: Effetti misti Vs. Effetti fissi

il test di rapporto tra verosimiglianze:

Modello -2 log verosimiglianza

A effetti fissi -579.870

A effetti misti (multilevel) -584.294

21 11 2 1 2 (1)

2 2

2log 2(log log ) 2log 2logV V

V V V VV V

2 4.423c

Il modello ad effetti misti risulta significativamente migliore di quello ad

effetti fissi, secondo la statistica test

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Studio del modello

Definizione di modelli ad effetti misti alternativi

sulla base del livello di dettaglio delle covariate inserite e studio dei

coefficienti regressivi.

Variabili

Modello

variabili

individuali

Modello var.

individuali +

var. di area

Modello

completo

Intercetta -5,711 -6,905 -7,067

Classe d’età 10-29 0,075 0,074 0,072

Classe d’età 30-49 0,048 0,046 0,041

Classe d’età 50-74 -0,555 -0,555 -0,564

Classe d’età 75 ed oltre -0,481 -0,480 -0,488

Sesso (donne) -0,164 -0,166 -0,168

Stranieri 2,395 2,395 2,848

Tasso di disoccupazione provinciale 10,411 10,489

Comune universitario 0,826 0,826

Densità di popolazione 9,505e-05 9,178e-05

Tasso di stranieri 4,594 6,817

Stranieri * Tasso di stranieri -5,795

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Studio del modello

Scelta del modello migliore

Tra i modelli proposti, è stato individuato il modello migliore sulla base di

criteri di valutazione della goodness of fit.

Criterio

Modello

variabili

individuali

Modello var. individuali

+ var. di area Modello completo

AIC 29381,37 29196,57 29174,67

BIC 29466,81 29324,74 29313,51

Log verosimiglianza -14682,69 -14586,29 -14574,33

Una volta scelto il modello migliore, sono stati mediati i valori individuali

predetti per ottenere valori comunali della difficoltà di conteggio.

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Categorizzazione

La distribuzione ordinata dei

valori predetti, relativi ai 252

comuni campione, è stata

ripartita, sulla base dei

percentili, in 3 modalità

seguendo la ripartizione

40% - 40% - 20%.

Classificazione dei comuni campione

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Valutazione

Distribuzione di frequenze

Comuni campione

HTC - valori predetti

modalità 1 modalità 2 modalità 3 TOT

HTC

-

valori

osservati

modalità 1 96 5 0 101

modalità 2 5 91 4 100

modalità 3 0 4 47 51

TOT 101 100 51 252

Le frequenze dei comuni campione, rispetto alle tre modalità dell’indice

HTC, sono state valutate sulla base dei valori predetti dal modello scelto

e sulla base dei tassi comunali osservati di mancata enumerazione.

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Costruzione

Per i comuni fuori dal campione, la sola parte fissa del modello migliore è

stata utilizzata per la predizione dei valori comunali.

1 1 2 2Logit ( 1| ) ...id id id id k kid dP Y X X X X

Classificazione dei comuni non campione

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

Indice di difficoltà di conteggio - Risultati

HTC 1: Comuni con

elevata propensione alla

corretta enumerazione

HTC 2: Situazione

intermedia

HTC 3: Comuni con scarsa

propensione alla corretta

enumerazione.

Hard To Count index → Categorizzazione dei comuni italiani

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14

• La ricchezza informativa dell’indagine di copertura ha permesso uno

studio approfondito sugli individui più difficili da raggiungere al

censimento

• I modelli multilevel tengono conto, oltre che delle covariate, anche del

livello territoriale definito dalle sezioni di censimento

• I modelli studiati per la definizione dell’indice di difficoltà di conteggio

presentano un buon adattamento ai dati

• La classificazione dell’indice HTC in 3 modalità rappresenta bene la

situazione, relativa alle difficoltà di conteggio, che si sono presentate nei

comuni italiani.

• L’indice ha permesso di stratificare la popolazione in sottopopolazioni

in cui le probabilità di cattura sono costanti per ognuna delle unità,

ipotesi alla base del modello di stima di Petersen.

Indice di difficoltà di conteggio - Conclusioni

Hard To Count Index

Andrea Fasulo – Roma, 27/06/14