Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori:...

32
Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza

Transcript of Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori:...

Page 1: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

Analisi Statistica del Reddito e delle Condizioni di Vita

Capitolo 7 La qualità degli indicatori:

stima della varianza

Page 2: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

2

Contenuto della lezione:- Introduzione - Metodi di stima della varianza in indagini

complesse - Linearizzazione di Taylor- Metodi di ricampionamento: - Jack-knife Repeated replication (JRR)- Balanced Repeated Replication (BRR)- Bootstrap

Page 3: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

3

Introduzione - 1

Qualsiasi dato statistico, indipendentemente dal modo in cui è collezionato e dal fenomeno al quale è relativo, è soggetto ad errori di vario tipo. Il fatto stesso di effettuare una indagine campionaria introduce fattori di incertezza che devono essere sempre tenuti presente per una corretta interpretazione dei risultati ottenuti. Per un corretto uso di un qualunque insieme di dati derivanti da un’indagine è necessario perciò fornire misure il più possibile accurate degli errori e, di conseguenza, della qualità dei risultati stessi.

Page 4: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

4

Introduzione - 2

• In letteratura, principalmente quella anglosassone, gli errori si possono suddividere in:

• - errori nella fase di misura• - errori nella fase di stima• Nella letteratura italiana, viene più

comunemente utilizzata la distinzione tra:• - errori non campionari• - errori campionariIn questo capitolo ci limiteremo a studiare gli errori

campionari.

Page 5: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

5

A description of errors in survey data • (a) Errors in measurement• These arise from the fact that what is measured on

the units included in the survey can depart from the actual (true) values for those units. Errors in measurement centre on substantive content of the survey: definition of the survey objectives and questions; ability and willingness of the respondent to provide the information sought; the quality of data collection, recording and processing.

• (b) Errors in estimation• These are errors in the process of extrapolation from

the particular units enumerated in the survey to the entire study population for which estimates or inferences are required. These centre on the process of sample design and implementation, and include errors of coverage, sample selection, sample implementation and non-response, as well as sampling errors and estimation bias.

Page 6: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

6

Errors in measurement• 1 Conceptual errors• errors in basic concepts, definitions, and classifications• errors in putting them into practice (questionnaire design, survey

manuals, training and supervision of interviewers and other survey workers)

• 2 Response (or ‘data collection’) errors• response bias• simple response variance• correlated response variance• 3 Processing errors• recording, data entry and coding errors• editing errors• errors in constructing target variables• other programming errors

Page 7: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

7

Mixed category

• 4 Item non-response• errors because only approximate or

partial information is sought in the survey

• respondents unable to provide the information sought (“don’t knows”)

• respondents not willing to provide the information (“refusals”)

• information suppressed (for confidentiality or whatever reason)

Page 8: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

8

Errors in estimation

• 5 Coverage and related errors• under-coverage• over-coverage• sample selection errors• 6 Unit non-response• unit not found or inaccessible• not-at-home• unable to respond• refusal (potentially ‘convertible’)• ‘hard core’ refusal• 7 Sampling error• sampling variance (scopo del presente capitolo)• estimation bias

Page 9: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

9

Introduzione - 3

• Parte dell’informazione circa i vari tipi di errori è costituita dalla variabilità delle stime prodotte nelle elaborazioni ed è ottenibile tramite il computo degli standard error degli stimatori utilizzati insieme con quello dell’eventuale loro distorsione: queste due misure, considerate simultaneamente, costituiscono il cosiddetto mean-squared-error e, nonostante questo non rappresenti sempre la componente più importante dell’errore statistico, è certamente l’informazione di base e più facilmente reperibile riguardante l’errore totale.

Page 10: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

10

Introduzione - 4

• La stima della varianza totale degli stimatori risulta infatti di importanza cruciale per tutta l’inferenza statistica e permette la costruzione di intervalli di confidenza per i parametri della popolazione indagata: sebbene valutazioni più utili dell’errore campionario siano ottenibili tramite la scomposizione della varianza stessa nelle varie componenti relative ai differenti aspetti e fasi delle procedure di indagine, tale operazione risulta spesso molto complessa.

Page 11: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

11

Introduzione - 5

• L’informazione sull’errore risulta essenziale anche per la valutazione e la costruzione stessa del disegno e dell’indagine in generale. Per un qualunque problema di stima, infatti, l’entità dell’errore campionario dipende, tra gli altri fattori, dalla numerosità e dal disegno campionari adottati, i quali, a loro volta, incidono sui costi e sui tempi di indagine.

Page 12: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

12

Metodi di stima della varianza in indagini complesse - 1

• Una parte fondamentale della teoria delle indagini campionarie tratta la derivazione di stimatori per la stima della varianza di statistiche utilizzati in indagini complesse. L'importanza del problema è cruciale in quanto la varianza di uno stimatore, insieme alla sua distorsione, è misura dell'incertezza e dell'accuratezza delle stime ed è quindi necessaria per una corretta interpretazione dei risultati di una qualunque ricerca oltre che essere indicativa dell'efficienza del disegno campionario utilizzato.

Page 13: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

13

Metodi di stima della varianza in indagini complesse - 2

• Il proposito di questo capitolo è quello di presentare alcuni metodi di stima della varianza nell'ambito di indagini complesse per le quali il classico approccio per la stima degli standard error risulta poco efficace, poco preciso o alle volte addirittura inapplicabile.

Page 14: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

14

Metodi di stima della varianza in indagini complesse - 3

• Generalmente con disegni complessi si intendono tutti quei campionamenti che, combinando varie tecniche di selezione delle unità quali campionamento senza ripetizione o con probabilità di selezione non uniforme, stratificazione e campionamenti multistadio, introducono una struttura non IID dei dati.

Page 15: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

15

Metodi di stima della varianza in indagini complesse - 4

• Inoltre, sebbene la parola complesso sia solitamente riferita allo schema campionario -ovvero alle regole secondo le quali le varie unità entrano a far parte del campione- questo non è in realtà l'unico elemento di complessità al quale il termine va riferito.

Page 16: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

16

Metodi di stima della varianza in indagini complesse - 5

• Spesso infatti, i parametri stessi indagati nella popolazione e gli stimatori a ciò designati sono complicati nella forma e nella derivazione, come anche le variabili coinvolte nell'ambito di una stessa ricerca possono essere di varia natura e da riferirsi a diverse e numerose sub-popolazioni, delle quali si intende studiare la consistenza,le differenze e le relazioni reciproche.

Page 17: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

17

Stima per misure lineari - 1

• Nella teoria classica di stima della varianza applicata ai problemi di stima riguardanti statistiche lineari in disegni complessi, è possibile eludere parte della scomposizione della varianza degli stimatori nelle sue varie componenti e considerare semplicemente le osservazioni aggregate a livello di estrazione cluster o PSU. Semplicemente assumendo che:

• La selezione campionaria dei cluster sia indipendente tra gli strati,

• Due o più estrazioni siano effettuate in ciascuno strato e• consistano in estrazioni casuali di individui, indipendenti e

con ripetizione,• La quantità di interesse è lineare.

Page 18: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

18

Stima per misure lineari - 2• La varianza delle singole stime di primary selection è

stimata allora da:

• e quella del loro totale da:

• dove rappresenta il fattore di correzione per popolazioni finite.

• Essendo poi il campionamento indipendente tra gli strati si ha che:

2

1

1)

a

y(y

a=]Var[y

h

hhi

hhi

2

11 )

a

y(y

a

a)f(=]Var[y

h

hhi

h

hhh

)f( h1

2

11 )

a

y(y

a

a)f(=]Var[y=]yVar[=Var[y]

h

hhi

h

hhhh

Page 19: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

19

Linearizzazione di Taylor - 1

Il metodo qui presentato prevede l'utilizzo della serie di Taylor per ottenere un'approssimazione lineare di funzioni non-lineari e una successiva stima della varianza su tale approssimazione in serie. Questa idea di stima della varianza è ricordata con molti nomi in letteratura, incluso metodo di linearizzazione, delta method (Kalton,1983) e propagation of variance (Kish, 1965).

Page 20: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

20

Linearizzazione di Taylor - 2

Supponendo che la quantità della quale si vuole stimare la varianza sia una funzione non-lineare stimata sul campione tramite una statistica z definita nella forma:

Applicando l’espansione di Taylor alla nostra statistica di interesse, almeno fino al primo termine, si ha che, in un intorno di Z:

s sss YZYyZz )/)((

)y ,,y ,f(y =z s....21

Page 21: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

21

Linearizzazione di Taylor - 3

Un inconveniente del metodo di linearizzazione è infatti che la valutazione delle derivate parziali potrebbe essere molto difficoltosa per determinati parametri, quali coefficienti di correlazione parziale o multipla; con l'aggiuntiva assunzione che tali costanti ignote siano sostituibili con una loro stima ds sul campione è possibile però ottenere una stima della varianza tramite un'approssimazione di z non-lineare con una funzione lineare delle ys.

Page 22: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

22

Linearizzazione di Taylor - 4

Con alcuni passaggi riportati in dispensa è possibile giungere alla formulazione seguente:

Si è giunti così ad una espressione della varianza di una statistica Z non-lineare analoga a quella ottenuta per le statistiche lineari e applicabile a qualsiasi caso non appena è possibile specificare la quantità al livello delle PSU. hiz

2

11 )

a

z(z

a

a)f(=]Var[z=]Var[z=Var[z]

h

hhi

h

hhhL

Page 23: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

23

Linearizzazione di Taylor - 5

E' importante però sottolineare come tale procedimento necessiti di un'assunzione aggiuntiva sul campionamento rispetto a quelle necessarie per la stima della varianza di statistiche lineari: affinché i restanti termini dell'espansione di Taylor possano essere trascurati è necessario, infatti, che si lavori su campioni di dimensione sufficientemente ampia da consentire l'approssimazione lineare coinvolta in tale espressione della varianza.

Page 24: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

24

Linearizzazione di Taylor - 6

Un problema che rimane inoltre irrisolto con l'utilizzo di questo metodo è quello di dover comunque approntare, per ogni differente statistica, una formula di derivazione dello standard error almeno al livello delle ; questo lo rende quindi non applicabile per gli stimatori dei quali non è possibile derivare un'espressione analitica della varianza, quali ad esempio statistiche non-funzionali come i quantili e la mediana.

zhi

Page 25: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

25

Metodi di Ricampionamento - 1

• Ai procedimenti appena presentati si affianca una seconda classe di metodi utilizzati in indagini complesse nella stima della varianza di stimatori, basati sul confronto tra misure ripetute di variabilità ottenute su repliche del campione, ovvero su aggregati di osservazioni ognuno dei quali riflette la struttura dell'intero campione padre, incluse eventuali stratificazioni e clusterizzazioni presenti nei vari stadi del campionamento: utilizzano procedure per la formazione di sub-campioni tali che una replica differisce dal campione originario solo nella dimensione ovvero per la numerosità di unità considerate.

Page 26: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

26

Metodi di Ricampionamento - 2

• Vari metodi di ricampionamento sono stati proposti negli anni più recenti, tra i quali il Jackknife,il Balanced Repeated Replication e il Bootstrap hanno ricevuto maggiore attenzione, e sono in generale tenuti in alta considerazione in quanto prescindono dalle teoriche e solitamente ignote distribuzioni degli stimatori coinvolti, ed anzi sono spesso utilizzati proprio nella stima di tali distribuzioni.

Page 27: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

27

Metodi di Ricampionamento - 3

• Tali metodi si basano tutti sull'utilizzazione ripetuta delle informazioni provenienti da un unico campione estratto, al fine di migliorare la precisione delle stime grazie all'aggiunta di variabilità artificiale ai dati presenti nell'unico campione osservato; differiscono tra loro unicamente per la procedura di estrazione dei sub-campioni replicati dall'unico campione padre originario.

Page 28: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

28

Jackknife Repeated Replication (JRR) - 1

• Il metodo Jackknife è stato introdotto inizialmente da Quenouille (1949), come procedimento non parametrico capace di ottenere una stima della distorsione di statistiche generiche, e successivamente Tukey (1958) suggerì come la stessa procedura potesse essere utilizzata nella stima della varianza[1].

•[1] Il termine jackknife indica in inglese il coltello serramanico e, per estensione, il coltello degli esploratori che contiene varie lame e numerosi altri strumenti. Secondo Garhwaite et al. (1995), questo 'coltellino svizzero' è funzionale in situazioni di emergenza mentre risulta inutile quando si dispone degli strumenti specifici, più solidi e funzionali. Il termine è stato scelto opportunamente poiché il metodo ha un'applicazione appropriata quando non è possibile utilizzare i metodi classici.

Page 29: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

29

Jackknife Repeated Replication (JRR) - 2

• L'idea generale sottesa dal Jackknife repeated replication, per la quale tale procedura è conosciuta anche come tecnica leave-one-out, è quella di formare diversi sub-campioni di un generico campione estratto eliminando di volta in volta una singola osservazione o -nel caso di disegni complessi e che prevedono un'elevata numerosità- una piccola parte del campione originario, quale ad esempio una singola PSU di uno strato di un campione multi-stadio. Ciascun sub-campione misurerà così il contributo alla variabilità totale fornita da tale piccola parte eliminata dalla stima: la procedura JRR calcola infatti le stime dei parametri di interesse su ciascuna replica ed utilizza la variabilità tra tali valori per ottenere una stima della variabilità campionaria totale.

Page 30: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

30

Jackknife Repeated Replication (JRR) - 3

• E' evidente come il vantaggio del ricampionamento sia quello di evitare la difficile e spesso impossibile derivazione di una formula analitica esplicita della varianza delle statistiche considerate: pur fornendo solitamente risultati molto simili a quelli ottenibili con l'approccio tradizionale, gli stimatori Jackknife sostituiscono tale derivazione teorica con un maggiore sforzo computazionale e, sebbene non sia teoricamente applicabile a statiche funzioni di statistiche ordinali -quali ad esempio i quantili - studi empirici dimostrano come esso rimanga metodo efficace, in caso di campionamenti complessi in cui si considerano PSU formate da gruppi consistenti di osservazioni, anche per stimatori di questo tipo.

Page 31: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

31

Balanced Repeated Replication (BRR) - 1

• Il BRR è stato proposto per la prima volta da McCarthy nel 1969 come tecnica di ricampionamento da applicare a campioni stratificati che prevedessero esattamente ak=2 cluster per strato estratti con ripetizione e solo successivamente è stato adattato al caso di un generico numero ak di cluster presenti in ciascuno strato.

Page 32: Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 7 La qualità degli indicatori: stima della varianza.

32

Balanced Repeated Replication (BRR) - 2

• Poiché infatti il metodo prevede l'utilizzazione di esattamente metà campione nella formazione di ciascuna replica mediante l'esclusione di uno dei due gruppi presenti in ciascun strato, se alcuni strati sono formati da più di due cluster è necessario o raggruppare quest'ultimi in due super-PSU o dividere gli strati stessi in più piccoli strati artificiali così da riportare la situazione a quella originariamente proposta.