Multilevel 1parte

13
INTRODUZIONE AI MODELLI MULTILIVELLO Trento, 2 novembre 2011 La logica dell’analisi multilivello Nadir Zanini IRVAPP – Istituto per la ricerca valutativa sulle Politiche Pubbliche –

description

multilevel analysis

Transcript of Multilevel 1parte

Page 1: Multilevel 1parte

INTRODUZIONE AI MODELLI MULTILIVELLO

Trento, 2 novembre 2011

La logica dell’analisi multilivello

Nadir Zanini IRVAPP

– Istituto per la ricerca valutativa sulle Politiche Pubbliche –

Page 2: Multilevel 1parte

Piano del modulo

2 lezioni teoriche: 2 e 9 novembre (NZ)

2 esercitazioni pratiche: 10 e 17 novembre (LV)

1 homework da svolgere a gruppi e presentare il 7 dicembre

Software: MLWin (Stata)

Testo di riferimento: qualsiasi testo introduttivo all’analisi multilivello. Ad esempio:

Joop Hox, Multilevel Analysis, Techniques and Applications, Lawrence Erlbaum Associates, 2002

2

Page 3: Multilevel 1parte

La logica dell’analisi multilivello Introduzione all’analisi multilivello:

quando ricorrere all’analisi multilivello? quali vantaggi offre rispetto ai metodi convenzionali?

‘Clustering’ e ‘design effect’: vantaggi e svantaggi

Il modello di regressione per l’analisi a 2 livelli: assunzioni e definizioni il modello multilivello

Generalizzazione per l’analisi a 3 e più livelli: stima e interpretazione dei parametri

Questioni operative: stima dei parametri e interpretazione residui, bontà di adattamento e confronto fra modelli strategia operativa 3

Page 4: Multilevel 1parte

Introduzione

L’analisi multilivello si applica quando esista una qualche forma di “interrelazione” (in senso lato) tra caratteristiche dell’individuo e del gruppo cui questo appartiene

Interrelazione dovuta ai dati a disposizione: dati organizzati secondo una struttura gerarchica campionamento a (due o) più stadi da una popolazione con

struttura gerarchica (clustering) misure ripetute per una stessa unità statistica (panel)

Diversi sono i campi di applicazione: scienze sociali (istruzione, mercato del lavoro, …) scienze “mediche” (medicina, psicologia, …) etc.

4

Page 5: Multilevel 1parte

Introduzione: un esempio (1)

Supponiamo di voler studiare se l’apprendimento scolastico sia “influenzato” da:

vivere stabilmente con entrambe i genitori dimensione della classe di appartenenza

Dati raccolti mediante campionamento a tre stadi: 1. seleziono un certo numero di scuole sul territorio nazionale 2. per ogni scuola seleziono alcune classi 3. intervisto tutti gli alunni di quelle classi

Variabili a disposizione: apprendimento scolastico -> punteggio PISA condizione familiare di ciascun studente-> dummy 0-1 dimensione della classe -> dagli archivi della scuola

5

Page 6: Multilevel 1parte

Introduzione: un esempio (2)

Non posso non considerare il “ processo generatore dei dati”, ossia la selezione di:

alunni nella stessa scuola provengono da località, contesti socio-economici, etc., tra loro simili

alunni della stessa classe oltre alla stesso numero di compagni di classe avranno anche gli stessi insegnanti, la stessa storia scolastica, gli stessi programmi, …

Tutte queste caratteristiche “simili” tra alunni nella stessa classe fanno si che l’apprendimento di questi alunni sia tra loro connesso

La struttura gerarchica dei dati induce una forma di dipendenza tra le osservazioni

6

Page 7: Multilevel 1parte

Introduzione: un esempio (3)

Le osservazioni non sono tra loro indipendenti: la correlazione (media) tra variabili misurate per alunni della

stessa classe (o scuola) sarà diversa (-> più alta) della correlazione (media) tra variabili misurate per alunni di

classi (o scuole) diverse

L’inferenza statistica “convenzionale” (test t su medie, sui beta, …) si basa sull’assunto di indipendenza tra le osservazioni

Se l’assunto di indipendenza non è rispettato, varianze (e standard error) dei test sono più piccoli di quanto dovrebbero

Si tende a rifiutare le ipotesi nulle anche quando si dovrebbero accettare, quindi si trovano “effetti” che in realtà non esistono

7

Page 8: Multilevel 1parte

‘Clustering’ e ‘design effect’ (1)

8

Il problema di dipendenza tra le osservazioni è tipico della “survey research”, quando il campionamento non è casuale semplice: area geografica, scuole, … -> “cluster”

Nella letteratura sul campionamento si parla di “design effect” (Kish 1965; Moulton 1986):

- : intra-class correlation (-> rate of homogeneity)

- : media della dimensione dei cluster

È dunque possibile campionare opportunamente:

Page 9: Multilevel 1parte

‘Clustering’ e ‘design effect’ (2)

9

Il “design effect” ha il pregio di non intaccare la struttura dei metodi convenzionali di stima (OLS) e di calcolare opportunamente la varianza (std. er. “robusti”) tenendo conto del clustering e quindi della intra-class correlation

Ma se le variabili di interesse sono più di una, magari rilevate su livelli diversi (condizione familiare individuale, dimensione della classe), correggere per il “design effect” non è più sufficiente, né fattibile

Occorre dunque una tecnica apposita per l’analisi di dati multilivello, che tenga in considerazione le forme di dipendenza fra i diversi livelli: l’analisi multilivello

Page 10: Multilevel 1parte

Si pensi a due livelli: 1. gruppi (classi, filiali, aree geografiche, …) -> j 2. individui (studenti, impiegati, comuni, …) -> i

Disponibilità di un dataset gerarchico: variabile risposta misurata a livello individuale variabili esplicative a tutti i livelli (X:individuale; Z: gruppo)

A livello individuale:

Il modello di regressione a 2 livelli (1)

10

si osservi che i parametri variano per ogni gruppo:

-> random coefficients model

Page 11: Multilevel 1parte

Sia l’intercetta che il coefficiente angolare dipendono dalle caratteristiche di gruppo:

1. Random intercept model:

2. Random slope model:

Il modello di regressione a 2 livelli (2)

11

Riarrangiando i termini, la forma esplicita del modello risulta:

parte deterministica

parte stocastica

interazione “cross-level”

eterosch.

Page 12: Multilevel 1parte

Il modello completo, dunque: ammette interazione fra le variabili individuali e di gruppo eteroschedasticità correlazione tra gli errori:

Il modello di regressione a 2 livelli (3)

12

Consente la stima della intra-class correlation, considerando il modello con la “sola intercetta”:

Var Tot = Var gruppo + Var indiv

=

Quindi:

Correlazione attesa tra due unità scelte a caso nello stesso gruppo

Page 13: Multilevel 1parte

Se la struttura gerarchica dei dati si sviluppa su tre o più livelli il modello si complica non poco, infatti aumentano:

il numero di variabili (e di parametri da stimare) ad ogni livello gli errori di previsione le interazioni cross-level -> inserite solo se motivate

Il modello di regressione a più livelli

13

L’intra-class correlation in un modello a tre livelli:

Vera correlazione all’interno di una classe (tiene conto di quella tra scuole)

Intra-class correlation

ad ogni livello