ANALISI DEI RESIDUI E RELAZIONI NON...

11
1 Lezione del 5-6-2003 (IV canale, Dott.ssa P. Vicard) ANALISI DEI RESIDUI E RELAZIONI NON LINEARI ESEMPIO: consideriamo il seguente data set x y xy x 2 y* e 10 9,14 91,4 100 8,00 1,14 8 8,14 65,12 64 7,00 1,14 13 8,74 113,62 169 9,50 -0,76 9 8,77 78,93 81 7,50 1,27 11 9,26 101,86 121 8,50 0,76 14 8,1 113,4 196 10,00 -1,90 6 6,13 36,78 36 6,00 0,13 4 3,1 12,4 16 5,00 -1,90 12 9,13 109,56 144 9,00 0,13 7 7,26 50,82 49 6,50 0,76 5 4,74 23,7 25 5,50 -0,76 Totali 99 82,51 797,59 1001 82,51 0 Disegniamo il diagramma di dispersione Vediamo che la nuvola dei punti non presenta un andamento lineare; esso infatti sembra essere di tipo parabolico. Comunque calcoliamo la retta di regressione µ X = 99/11 = 9 µ Y = 82,51/11 = 7,50 5 50 , 7 9 11 1 11 1 = = = i i i XY y x σ 10 9 11 1 2 11 1 2 2 = = = i i X x σ 5 , 0 10 5 2 = = = X XY b σ σ 00 , 3 9 5 , 0 50 , 7 = = = X Y b a µ µ 0 1 2 3 4 5 6 7 8 9 10 0 5 10 15 X Y

Transcript of ANALISI DEI RESIDUI E RELAZIONI NON...

Page 1: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

1

Lezione del 5-6-2003 (IV canale, Dott.ssa P. Vicard)

ANALISI DEI RESIDUI E RELAZIONI NON LINEARI ESEMPIO: consideriamo il seguente data set

x y xy x2 y* e

10 9,14 91,4 100 8,00 1,14 8 8,14 65,12 64 7,00 1,14 13 8,74 113,62 169 9,50 -0,76 9 8,77 78,93 81 7,50 1,27 11 9,26 101,86 121 8,50 0,76 14 8,1 113,4 196 10,00 -1,90 6 6,13 36,78 36 6,00 0,13 4 3,1 12,4 16 5,00 -1,90 12 9,13 109,56 144 9,00 0,13 7 7,26 50,82 49 6,50 0,76 5 4,74 23,7 25 5,50 -0,76

Totali → 99 82,51 797,59 1001 82,51 0 Disegniamo il diagramma di dispersione

Vediamo che la nuvola dei punti non presenta un andamento lineare; esso infatti sembra essere di tipo parabolico. Comunque calcoliamo la retta di regressione µX = 99/11 = 9 µY = 82,51/11 = 7,50

550,7911

1 11

1=⋅−∑=

=iiiXY yxσ

10911

1 211

1

22 =−∑==i

iX xσ

5,010

52

===X

XYbσσ

00,395,050,7 =⋅−=⋅−= XY ba µµ

0123456789

10

0 5 10 15

X

Y

Page 2: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

2

Rappresentiamo la retta di regressione nel grafico

Vediamo che la retta non passa molto bene tra i punti ed infatti il coefficiente di determinazione ρ2 = 0,67 non è particolarmente elevato. ρ2 non è però neanche particolarmente basso visto che la relazione lineare tra X e Y spiega circa il 67% della variabilità totale della Y. E’ quindi opportuno analizzare in modo più approfondito la bontà di adattamento della retta ai dati. Passiamo ad esaminare i residui. Dal grafico sopra vediamo che gli y sono: − sotto la retta per valori piccoli di x e di y*, − sopra la retta per valori intermedi x e di y*, − sotto la retta per valori grandi di x e piccoli di y*. Di conseguenza se rappresentiamo i residui rispetto agli y* avremo prima residui negativi poi residui positivi e infine ancora residui negativi.

Vediamo il grafico dei residui (in asse delle ordinate) e dei valori teorici (in asse delle ascisse). E’ immediato notare che c’è una fortissima relazione quadratica tra i valori teorici y* ed i residui. Ciò vuol dire che la retta non spiega la relazione tra X e Y ma sicuramente è necessario usare una relazione del tipo Y = a+bX+cX2 in cui cioè si rappresenta la curvatura dei dati mediante l’aggiunta di un termine quadratico.

Y = 0,5X + 3,0009

0

2

4

6

8

10

12

0 5 10 15

X

Y

Residui rispetto alle y*

-2,50

-2,00

-1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

0,00 5,00 10,00 15,00

Y*

e

Page 3: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

3

Avremmo tirato la stessa conclusione se avessimo rappresentato i residui rispetto alle x.

Con questo esempio abbiamo visto come l’analisi dei residui consente di analizzare la bontà dell’adattamento. Nota: se abbiamo una serie storica è opportuno analizzare i residui rispetto al tempo per valutare la

bontà di adattamento del nostro modello ai dati osservati. Vediamo adesso che i residui consentono anche l’analisi, la ricerca e la visualizzazione dei valori particolarmente influenti e/o anomali. Le osservazioni influenti sono dati che influenzano marcatamente la posizione e inclinazione della retta di regressione; se queste osservazioni venissero eliminate dal data set, la retta cambierebbe considerevolmente. Le osservazioni influenti si presentano come dati molto diversi dal resto del data set, ovvero come dati che nel diagramma di dispersione sono distanti dalla nuvola di punti. Qualche volta le osservazioni influenti possono essere dati anomali e altre volte non lo sono. Abbiamo descritto i valori anomali come osservazioni inusuali o osservazioni lontane dal resto dei dati. Nell’ambito della regressione i valori anomali sono osservazioni singole che sono particolarmente lontane dalla retta di regressione. Pertanto ai valori anomali corrispondono residui molto grandi e quindi possono essere facilmente visualizzati attraverso i grafici dei residui. Ogni volta che si visualizza un valore influente è necessario fare ulteriori analisi per vedere se è un dato anomalo e per cercare, quindi, di capire perché si colloca lontano dal resto dei dati. Se il dato è anomalo, la sua anomalia può derivare da errori commessi nella fase di raccolta o di sistemazione dei dati; in tal caso o si corregge il dato oppure lo si elimina dal data set. Infatti se si tiene il dato si rischia di individuare una retta di regressione che non rappresenta correttamente la relazione lineare tra i caratteri. Ma se il dato non è anomalo allora potrebbe essere un’osservazione utilissima che non va assolutamente cancellata perché ci dà delle informazioni su ulteriori aspetti del fenomeno che studiamo. In ogni caso, come vedremo adesso con un esempio le osservazioni influenti hanno enorme peso nella posizione e inclinazione della retta di regressione.

Residui ripsetto alle x

-2,50-2,00-1,50-1,00-0,500,000,501,001,50

0 5 10 15

X

e

Page 4: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

4

ESEMPIO

x y xy x2 y* e

10 7,46 74,6 100 8,00 -0,54 8 6,77 54,16 64 7,00 -0,23 13 12,74 165,62 169 9,50 3,24 9 7,11 63,99 81 7,50 -0,39 11 7,81 85,91 121 8,50 -0,69 14 8,84 123,76 196 10,00 -1,16 6 6,08 36,48 36 6,00 0,08 4 5,39 21,56 16 5,00 0,39 12 8,15 97,8 144 9,00 -0,85 7 6,42 44,94 49 6,50 -0,08 5 5,73 28,65 25 5,50 0,23

Totali → 99 82,5 797,47 1001 82,50 0,00

Disegniamo lo scatterplot

E notiamo che l’osservazione corrispondente al punto di coordinate (x3, y3) = (13, 12,74) risulta differente dalle altre osservazioni; nonostante il valore della X sia coerente con quello delle altre osservazioni, il valore della Y è invece molto più grande. La retta di regressione è uguale a quella dell’esempio precedente ovvero Y = 0,5X + 3,0009 Vediamo il diagramma di dispersione con la retta di regressione.

0

2

4

6

8

10

12

14

0 4 8 12 16

X

Y

Page 5: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

5

Notiamo che tutti i punti della nuvola eccettuato il punto (13, 12,74) si disporrebbero lungo una retta ma purtroppo non sulla retta di regressione. Questo fenomeno è dovuto all’influenza del punto (13, 12,74) che fa sì che la retta di regressione che sia più inclinata. Calcoliamo i residui e rappresentiamoli

Osserviamo che i residui hanno un andamento sistematico e che è presente un residuo particolarmente grande corrisponde al dato (13, 12,74). Il fatto che il residuo sia molto grande ci induce a dire che (13, 12,74) è un dato anomalo. Esso va pertanto eliminato visto che con la sua influenza tende a trascinare verso se stesso (ovvero verso l’alto) la retta di regressione. Pertanto ora eliminiamo (13, 12,74) dal data set e ricalcoliamo la retta di regressione. Il data set diventa

y = 0,4997x + 3,0025

0

2

4

6

8

10

12

14

0 5 10 15

X

Y

Residui rispetto alle y*

-2,00

-1,00

0,00

1,00

2,00

3,00

4,00

0,00 5,00 10,00 15,00

Y*

e

Page 6: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

6

x y xy x2 y* e

10 7,46 74,6 100 7,46 0,0005 8 6,77 54,16 64 6,77 0,0012 9 7,11 63,99 81 7,11 -0,0042 11 7,81 85,91 121 7,80 0,0051 14 8,84 123,76 196 8,84 -0,0011 6 6,08 36,48 36 6,08 0,0020 4 5,39 21,56 16 5,39 0,0028 12 8,15 97,8 144 8,15 -0,0003 7 6,42 44,94 49 6,42 -0,0034 5 5,73 28,65 25 5,73 -0,0026

Totali → 86 69,76 631,85 832 69,76 0,0000 La retta di regressione è data da Y = 0,3454Y + 4,0056 e il grafico è

Come si vede, una volta eliminato il dato anomalo, i punti sono perfettamente allineati lungo la retta di regressione. Risulta pertanto estremamente evidente quanto fosse influente il dato anomalo nella posizione della retta.

0

1

2

3

4

5

6

7

8

9

10

0 5 10 15

X

Y

Page 7: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

7

E se Y non dipende linearmente da X che si fa? Come abbiamo più volte ripetuto può spesso capitare di osservare mediante il semplice scatterplot che Y non è legato ad X da una relazione lineare; la nuvola dei punti può però suggerirci che X e Y non sono indipendenti fra loro ma che Y è legato ad X da un altro tipo di relazione. In questo caso che succede? Possiamo continuare ad usare le tecniche viste per la regressione lineare? La risposta è: alcune volte sì. Vediamo più in dettaglio di capire questa affermazione e iniziamo con un esempio. ESEMPIO: consideriamo una catena di centri per fotocopie che opera in vari campus americani. Questa catena ha iniziato la sua attività con un solo centro nel 1983. Di seguito riportiamo quanti punti ha aperto a partire dal 1983 per 14 anni consecutivi. In sostanza abbiamo una serie storica e andiamo a vedere mediante il diagramma di dispersione come varia il numero di attività del centro copie al passare degli anni. Per comodità indicizziamo il tempo come segue: poniamo t =1 in corrispondenza del 1983, t = 2 in corrispondenza del 1984, …, t = 14 in corrispondenza del 1996.

Anno t y (=N° Attività)

ln y = z t2 tz

1983 1 1 0 1 0 1984 2 2 0,69 4 1,39 1985 3 2 0,69 9 2,08 1986 4 6 1,79 16 7,17 1987 5 10 2,30 25 11,51 1988 6 16 2,77 36 16,64 1989 7 25 3,22 49 22,53 1990 8 41 3,71 64 29,71 1991 9 60 4,09 81 36,85 1992 10 97 4,57 100 45,75 1993 11 150 5,01 121 55,12 1994 12 211 5,35 144 64,22 1995 13 382 5,95 169 77,29 1996 14 537 6,29 196 88,00

105 46,45 1015 458,25

Page 8: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

8

Dal grafico si vede chiaramente che il numero di punti vendita è cresciuto esponenzialmente al passare degli anni. Quindi non possiamo applicare la regressione lineare ai dati così come sono visto che il modello che ben si presta a rappresentare la crescita dei punti vendita è il modello esponenziale. In sostanza la curva che meglio passa per i punti è del tipo seguente

btaeY += e la regressione apparentemente non ci dà le formule per calcolare a e b. Ma analizziamo meglio la situazione. Possiamo applicare la trasformazione logaritmica alla relazione sopra; si ottiene

( ) btaelnYln bta +== + cioè si ottiene una espressione lineare per la relazione tra il logaritmo di Y e la variabile t. Per essere ancora più convinti di quanto affermato calcoliamo il logaritmo di Y in corrispondenza delle nostre osservazioni e rappresentiamo mediante lo scatterplot la variabile t e il logaritmo di Y.

Vediamo che adesso i punti così trasformati tendono a disporsi lungo una retta pertanto siamo in grado di applicare le regole della regressione lineare a

btaYln += In questo modo possiamo calcolare l’intercetta a e il coefficiente di regressione b. poi possiamo

sostituire questi due valori nell’espressione btaeY += . In termini formali, passando al logaritmo la relazione esponenziale, l’abbiamo linearizzata ovvero l’abbiamo ricondotta ad un problema che siamo in grado di risolvere.

0

100

200

300

400

500

600

0 5 10 15

t

Y

01234567

0 5 10 15

t

ln Y

Page 9: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

9

Calcoliamo la retta di regressione btaYln += . Il calcolo avviene come già visto; t è la variabile indipendente e ln y è la variabile risposta. Chiamiamo per comodità ln y = z. Troviamo

µt = 7,5 µz = 3,32

2tσ = =−∑

=

214

1i

2i 5,7t

141

16,25

tzσ = =⋅−∑=

32,35,7zt141 14

1iii 7,85

b = 0,483 a = -0,305

Pertanto la retta di regressione di ln y rispetto a t è

ln y = 0,483t - 0,305 Siamo quindi in grado di specificare anche i parametri della relazione esponenziale di Y rispetto a t

t483,0305,0eY ⋅+−=

In questo caso il coefficiente di regressione b = 0,483 non rappresenta di quanto varia il numero dei punti vendita in un anno ma solo di quanto varia il logaritmo del numero dei punti vendita.

Per calcolare il tasso di crescita è necessario calcolare ( ) 62,11001e 483,0 =− Supponiamo di volere fare una previsione: quale sarà il numero di punti vendita nel 1997? Innanzitutto traduciamo 1997 in termini di t, ovvero t = 15, poi sostituiamo t=15 nell’espressione sopra.

10338,1032eeY 94,615483,0305,0 ≅=== ⋅+−

Nel 1997 questa catena avrà un numero molto elevato di punti vendita; ovviamente ciò è vero solamente se anche nel 1997 questo modello di crescita esponenziale rimarrà valido. Infatti bisogna prestare molta attenzione quando si ha a che fare con un modello di questo tipo che rappresenta situazioni in cui il fenomeno (in questo caso il numero di punti vendita) cresce molto rapidamente. La crescita esponenziale non è a lungo sostenibile pertanto c’è da attendersi il raggiungimento di un cosiddetto livello di saturazione a cui segue un rallentamento della crescita o una diminuzione. Questo fenomeno si presenta molto di frequente in analisi aziendali: ad esempio le vendite di un prodotto nuovo e di successo crescono esponenzialmente nel primo periodo di vita del prodotto per poi rallentare o invertire questa tendenza. In sostanza con questo esempio abbiamo visto che è possibile linearizzare un problema esponenziale: la curva che rappresenta la crescita esponenziale infatti viene linearizzata semplicemente usando la trasformazione logaritmica. E’ possibile fare ancora di più. La possibilità di usare la regressione anche quando la dipendenza di Y da X non è lineare non si limita al solo caso in cui Y cresce esponenzialmente con X. La metodologia della regressione lineare può essere applicata in tutti i casi in cui ci si possa ricondurre ad avere una funzione lineare nei parametri. Se a e b sono i nostri parametri, una funzione è lineare nei parametri se può essere scritta così: Y = a + b f(X) .

Page 10: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

10

Quindi bXaY += è la più banale espressione lineare nei parametri dove f(X)=X

X1

baY += è lineare nei parametri e f(X)=1/X

kbXaY += è lineare nei parametri e f(X)=Xk XsinbaY += è lineare nei parametri e f(X)=sin X

Ad esempio nel caso precedente ci è bastato applicare la trasformazione logaritmica per ottenere l’espressione lineare nei parametri con f(X)=X. ESEMPIO:

Anno t Y 1/t = Z Z2 ZY 1992 1 3,45 1 1,000 3,450 1993 2 1,47 0,5 0,250 0,735 1994 3 1,05 0,33 0,111 0,350 1995 4 0,63 0,25 0,063 0,158 1996 5 0,71 0,2 0,040 0,142 1997 6 0,46 0,17 0,028 0,077 1998 7 0,43 0,14 0,020 0,061 1999 8 0,46 0,13 0,016 0,058 2000 9 0,34 0,11 0,012 0,038 2001 10 0,3 0,1 0,010 0,030

9,3 2,93 1,550 5,098 Innanzitutto disegniamo il grafico con t sull’asse delle ascisse e Y sull’asse delle ordinate. Vediamo che il valore di Y cresce rapidamente al passare degli anni. Un modello di questo tipo si presta bene a rappresentare ad esempio l’andamento del prezzo di un bene ad alto contenuto tecnologico. Il prezzo è elevato all’inizio ma ben presto il bene diventa tecnologicamente obsoleto e superato da prodotti tecnologicamente più avanzati e quindi il suo prezzo cala rapidamente.

Le nostre osservazioni non si dispongono in modo lineare ma piuttosto secondo una relazione di questo tipo

t1

baY +=

Questa relazione, come abbiamo visto è lineare nei parametri a e b e quindi siamo in grado di specificare questi parametri usando la regressione. A tal fine è necessario prima di tutto ricondursi ad un problema che sappiamo analizzare.

00,5

11,5

22,5

33,5

4

0 5 10 15

t

y

Page 11: ANALISI DEI RESIDUI E RELAZIONI NON LINEARIhost.uniroma3.it/facolta/economia/db/materiali/insegnamenti/157... · La retta di regressione è uguale a quella dell’esempio precedente

11

Si calcola la variabile t1

Z = e si applica il metodo della regressione alla relazione

bZat1

baY +=+=

Infatti possiamo vedere che la relazione tra 1/t e Y è lineare; ecco il grafico

In questo modo possiamo calcolare nel solito modo i due coefficienti della retta di regressione.

µZ = 0,293 µY = 0,93

2Zσ = =−∑

=

210

1i

2i 293,0z

101

0,069

ZYσ = 0,23793,0293,0yz

101 10

1iii =⋅−∑

=

b = 3,43 a = -0,07

La retta di regressione è Y = -0,07 + 3,43⋅Z E cioè, tornando alle variabili orginarie, il modello è

t1

43,307,0Y +−=

Possiamo quindi usare questo modello per fare delle previsioni. Quale sarà il valore di Y nel 2003? In corrispondenza del 2003, t = 12 quindi

22,0121

43,307,0Y =+−=

0

0,5

1

1,5

2

2,5

3

3,5

4

0 0,5 1 1,5

z=1/t

y