Multilevel 1parte
description
Transcript of Multilevel 1parte
INTRODUZIONE AI MODELLI MULTILIVELLO
Trento, 2 novembre 2011
La logica dell’analisi multilivello
Nadir Zanini IRVAPP
– Istituto per la ricerca valutativa sulle Politiche Pubbliche –
Piano del modulo
2 lezioni teoriche: 2 e 9 novembre (NZ)
2 esercitazioni pratiche: 10 e 17 novembre (LV)
1 homework da svolgere a gruppi e presentare il 7 dicembre
Software: MLWin (Stata)
Testo di riferimento: qualsiasi testo introduttivo all’analisi multilivello. Ad esempio:
Joop Hox, Multilevel Analysis, Techniques and Applications, Lawrence Erlbaum Associates, 2002
2
La logica dell’analisi multilivello Introduzione all’analisi multilivello:
quando ricorrere all’analisi multilivello? quali vantaggi offre rispetto ai metodi convenzionali?
‘Clustering’ e ‘design effect’: vantaggi e svantaggi
Il modello di regressione per l’analisi a 2 livelli: assunzioni e definizioni il modello multilivello
Generalizzazione per l’analisi a 3 e più livelli: stima e interpretazione dei parametri
Questioni operative: stima dei parametri e interpretazione residui, bontà di adattamento e confronto fra modelli strategia operativa 3
Introduzione
L’analisi multilivello si applica quando esista una qualche forma di “interrelazione” (in senso lato) tra caratteristiche dell’individuo e del gruppo cui questo appartiene
Interrelazione dovuta ai dati a disposizione: dati organizzati secondo una struttura gerarchica campionamento a (due o) più stadi da una popolazione con
struttura gerarchica (clustering) misure ripetute per una stessa unità statistica (panel)
Diversi sono i campi di applicazione: scienze sociali (istruzione, mercato del lavoro, …) scienze “mediche” (medicina, psicologia, …) etc.
4
Introduzione: un esempio (1)
Supponiamo di voler studiare se l’apprendimento scolastico sia “influenzato” da:
vivere stabilmente con entrambe i genitori dimensione della classe di appartenenza
Dati raccolti mediante campionamento a tre stadi: 1. seleziono un certo numero di scuole sul territorio nazionale 2. per ogni scuola seleziono alcune classi 3. intervisto tutti gli alunni di quelle classi
Variabili a disposizione: apprendimento scolastico -> punteggio PISA condizione familiare di ciascun studente-> dummy 0-1 dimensione della classe -> dagli archivi della scuola
5
Introduzione: un esempio (2)
Non posso non considerare il “ processo generatore dei dati”, ossia la selezione di:
alunni nella stessa scuola provengono da località, contesti socio-economici, etc., tra loro simili
alunni della stessa classe oltre alla stesso numero di compagni di classe avranno anche gli stessi insegnanti, la stessa storia scolastica, gli stessi programmi, …
Tutte queste caratteristiche “simili” tra alunni nella stessa classe fanno si che l’apprendimento di questi alunni sia tra loro connesso
La struttura gerarchica dei dati induce una forma di dipendenza tra le osservazioni
6
Introduzione: un esempio (3)
Le osservazioni non sono tra loro indipendenti: la correlazione (media) tra variabili misurate per alunni della
stessa classe (o scuola) sarà diversa (-> più alta) della correlazione (media) tra variabili misurate per alunni di
classi (o scuole) diverse
L’inferenza statistica “convenzionale” (test t su medie, sui beta, …) si basa sull’assunto di indipendenza tra le osservazioni
Se l’assunto di indipendenza non è rispettato, varianze (e standard error) dei test sono più piccoli di quanto dovrebbero
Si tende a rifiutare le ipotesi nulle anche quando si dovrebbero accettare, quindi si trovano “effetti” che in realtà non esistono
7
‘Clustering’ e ‘design effect’ (1)
8
Il problema di dipendenza tra le osservazioni è tipico della “survey research”, quando il campionamento non è casuale semplice: area geografica, scuole, … -> “cluster”
Nella letteratura sul campionamento si parla di “design effect” (Kish 1965; Moulton 1986):
- : intra-class correlation (-> rate of homogeneity)
- : media della dimensione dei cluster
È dunque possibile campionare opportunamente:
‘Clustering’ e ‘design effect’ (2)
9
Il “design effect” ha il pregio di non intaccare la struttura dei metodi convenzionali di stima (OLS) e di calcolare opportunamente la varianza (std. er. “robusti”) tenendo conto del clustering e quindi della intra-class correlation
Ma se le variabili di interesse sono più di una, magari rilevate su livelli diversi (condizione familiare individuale, dimensione della classe), correggere per il “design effect” non è più sufficiente, né fattibile
Occorre dunque una tecnica apposita per l’analisi di dati multilivello, che tenga in considerazione le forme di dipendenza fra i diversi livelli: l’analisi multilivello
Si pensi a due livelli: 1. gruppi (classi, filiali, aree geografiche, …) -> j 2. individui (studenti, impiegati, comuni, …) -> i
Disponibilità di un dataset gerarchico: variabile risposta misurata a livello individuale variabili esplicative a tutti i livelli (X:individuale; Z: gruppo)
A livello individuale:
Il modello di regressione a 2 livelli (1)
10
si osservi che i parametri variano per ogni gruppo:
-> random coefficients model
Sia l’intercetta che il coefficiente angolare dipendono dalle caratteristiche di gruppo:
1. Random intercept model:
2. Random slope model:
Il modello di regressione a 2 livelli (2)
11
Riarrangiando i termini, la forma esplicita del modello risulta:
parte deterministica
parte stocastica
interazione “cross-level”
eterosch.
Il modello completo, dunque: ammette interazione fra le variabili individuali e di gruppo eteroschedasticità correlazione tra gli errori:
Il modello di regressione a 2 livelli (3)
12
Consente la stima della intra-class correlation, considerando il modello con la “sola intercetta”:
Var Tot = Var gruppo + Var indiv
=
Quindi:
Correlazione attesa tra due unità scelte a caso nello stesso gruppo
Se la struttura gerarchica dei dati si sviluppa su tre o più livelli il modello si complica non poco, infatti aumentano:
il numero di variabili (e di parametri da stimare) ad ogni livello gli errori di previsione le interazioni cross-level -> inserite solo se motivate
Il modello di regressione a più livelli
13
L’intra-class correlation in un modello a tre livelli:
Vera correlazione all’interno di una classe (tiene conto di quella tra scuole)
Intra-class correlation
ad ogni livello