LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli [email protected] Sito web del corso...

LABORATORIO DI ANALISI AVANZATA DEI DATI

Andrea [email protected]

Sito web del corso

ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE

MULTIPLAMetodi diagnostici

mailto:[email protected]

Limiti del modello lineare tipo

1. Osservazioni influenti/anomale: distorsione nelle stime

2. Errori correlati o eteroschedastici3. Distribuzione non normale degli errori:

la distribuzione t di Student NON è più valida in piccoli campioni

Metodi diagnostici: Utilizzano i residuiSi focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides)Sono un output standard del software (ad es. SPSS e Excel)

Analisi dei residui

Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante var = 1 – hii

Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria)

I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati.

Però i residui variano su una scala che dipende da Y

Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri)

Inconveniente: la stima s al denominatore è calcolata usando anche il residuo ei se ei è (molto) grande, ad es. perché yi è anomalo, anche s tenderà a essere grande (e quindi ri piccolo)

Esempio dati trade: log(Y) – log(X)

Per esercizio: v. output e commento risultati

Esempio dati trade: log(Y) – log(X)

Sembrerebbe tutto okQual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?

Esempio dati con outliers (v. sito del corso)

y = 0.5 + 4x + erroreN(0, 16)

y = 4.0322x - 0.3749

R2 = 0.9194

0.0

20.0

40.0

60.0

80.0

100.0

120.0

12 14 16 18 20 22 24 26 28

x

y

Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi

Modello y = 0.5 + 4x + erroreN(0, 16)

Tutti i residui (standard./stud.) sono compresi tra -3 e + 3

Modello y = 0.5 + 4x + erroreN(0, 16)1 valore y contaminato

Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato

y = 3.7161x + 7.0195

R2 = 0.6047

0.0

20.0

40.0

60.0

80.0

100.0

120.0

140.0

12 14 16 18 20 22 24 26 28

x

y

Modello y = 0.5 + 4x + erroreN(0, 16) 1 valore y contaminato

L’anomalia dell’unità contaminata è evidente

L’effetto sul residuo di cancellazione è maggiore (più che doppio)

Modello y = 0.5 + 4x + erroreN(0, 16)10 valori y contaminati

R2 comparabile a quello con 1 outlier

Cosa succede ai residui?

y = 22.532x - 321.11

R2 = 0.6168

-50.0

0.0

50.0

100.0

150.0

200.0

250.0

300.0

350.0

12 14 16 18 20 22 24 26 28

x

y

L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramentoConclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software)Soluzione: regressione robusta

Modello y = 0.5 + 4x + erroreN(0, 16)10 valori y contaminati

Statistica robusta

• Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici:– Min. somma dei valori assoluti dei residui

(MAD)– Min. mediana dei quadrati dei residui (LMS)– Min. la somma del 50% dei residui al

quadrato più piccoli (LTS)

Stimatori robusti

x1 2 3 4 5 6 7

12

34

56

Stimatore Minimi Quadrati (OLS)

Stimatore LMS

Stimatore LTS

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli [email protected] Sito web del corso...

Documents

Transcript of LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli [email protected] Sito web del corso...