LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli [email protected] Sito web del corso...
-
Upload
bonfilia-spinelli -
Category
Documents
-
view
236 -
download
3
Transcript of LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli [email protected] Sito web del corso...
LABORATORIO DI ANALISI AVANZATA DEI DATI
Andrea [email protected]
Sito web del corso
ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE
MULTIPLAMetodi diagnostici
Limiti del modello lineare tipo
1. Osservazioni influenti/anomale: distorsione nelle stime
2. Errori correlati o eteroschedastici3. Distribuzione non normale degli errori:
la distribuzione t di Student NON è più valida in piccoli campioni
Metodi diagnostici: Utilizzano i residuiSi focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides)Sono un output standard del software (ad es. SPSS e Excel)
Analisi dei residui
Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante var = 1 – hii
Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria)
I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati.
Però i residui variano su una scala che dipende da Y
Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri)
Inconveniente: la stima s al denominatore è calcolata usando anche il residuo ei se ei è (molto) grande, ad es. perché yi è anomalo, anche s tenderà a essere grande (e quindi ri piccolo)
Esempio dati trade: log(Y) – log(X)
Per esercizio: v. output e commento risultati
Esempio dati trade: log(Y) – log(X)
Sembrerebbe tutto okQual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?
Esempio dati con outliers (v. sito del corso)
y = 0.5 + 4x + erroreN(0, 16)
y = 4.0322x - 0.3749
R2 = 0.9194
0.0
20.0
40.0
60.0
80.0
100.0
120.0
12 14 16 18 20 22 24 26 28
x
y
Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi
Modello y = 0.5 + 4x + erroreN(0, 16)
Tutti i residui (standard./stud.) sono compresi tra -3 e + 3
Modello y = 0.5 + 4x + erroreN(0, 16)1 valore y contaminato
Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato
y = 3.7161x + 7.0195
R2 = 0.6047
0.0
20.0
40.0
60.0
80.0
100.0
120.0
140.0
12 14 16 18 20 22 24 26 28
x
y
Modello y = 0.5 + 4x + erroreN(0, 16) 1 valore y contaminato
L’anomalia dell’unità contaminata è evidente
L’effetto sul residuo di cancellazione è maggiore (più che doppio)
Modello y = 0.5 + 4x + erroreN(0, 16)10 valori y contaminati
R2 comparabile a quello con 1 outlier
Cosa succede ai residui?
y = 22.532x - 321.11
R2 = 0.6168
-50.0
0.0
50.0
100.0
150.0
200.0
250.0
300.0
350.0
12 14 16 18 20 22 24 26 28
x
y
L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramentoConclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software)Soluzione: regressione robusta
Modello y = 0.5 + 4x + erroreN(0, 16)10 valori y contaminati
Statistica robusta
• Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici:– Min. somma dei valori assoluti dei residui
(MAD)– Min. mediana dei quadrati dei residui (LMS)– Min. la somma del 50% dei residui al
quadrato più piccoli (LTS)
Stimatori robusti
x1 2 3 4 5 6 7
12
34
56
Stimatore Minimi Quadrati (OLS)
Stimatore LMS
Stimatore LTS