Regressione (modello lineare) - UniFI

16
Regressione (modello lineare) Cicchitelli Cap. 10 da integrare con Cap. 5 di D. Moore: Statistica di base. Apogeo (prima ed. 2005 oppure seconda ed. 2013) Argomenti Introduzione ai modelli statistici Regressione lineare semplice Metodo dei minimi quadrati Interpolazione ed estrapolazione Bontà di adattamento (indice R quadro) Formule per una distribuzione doppia di frequenze Curva di regressione Analisi dei residui e valori anomali Regressione con dati aggregati Regressione e relazioni causa‐effetto Modello statistico Modello: schema teorico che descrive un fenomeno ipotizzando le caratteristiche strutturali più rilevanti Modello statistico: modello di tipo matematico con due componenti Una componente deterministica (parte sistematica,o segnale) Una componente aleatoria (parte accidentale,o rumore) La componente aleatoria è necessaria per passare dalla teoria all’analisi dei dati: infatti, i dati non seguono mai una relazione matematica esatta, se non altro perché vi è l’errore di misurazione. Ad esempio, un corpo in moto rettilineo uniforme di velocità v percorre in un tempo t uno spazio s dato dalla relazione s=v*t. Questo è quanto afferma la teoria. Supponiamo ora di fare un esperimento, facendo muovere un corpo e misurando lo spazio percorso in 9 istanti successivi: se rappresentiamo le 9 osservazioni mettendo il tempo t in ascissa e lo spazio s in ordinata, sfortunatamente i 9 punti non stanno esattamente sulla retta s=v*t (intanto c’è l’errore di misurazione, e poi siamo proprio sicuri che il corpo ha viaggiato a velocità costante?) Le automobili si vendono a peso? Fonte: Gente Motori, febbraio 1993 PACE L. e SALVAN A., 1996, Introduzione alla Statistica ‐ I Statistica Descrittiva, CEDAM, Padova Peso e prezzo dei modelli base della FIAT, marzo 1993 0 5000 10000 15000 20000 25000 30000 0 200 400 600 800 1000 1200 1400 Prezzo (in migliaia di lire) Peso (in Kg) Autovettura PESO PREZZO (kg) (mil lire) Cinquecento 700 ED 690 9697 Panda 1.0 i.e. L. 715 11071 Uno Fire 1.0 i.e 3P 770 13041 Tipo 1.4 i.e. 990 17580 Tempra 1.4 e.e. 1040 20549 Croma 2.0 1250 29366

Transcript of Regressione (modello lineare) - UniFI

Page 1: Regressione (modello lineare) - UniFI

Regressione (modello lineare)

Cicchitelli Cap. 10

da integrare con Cap. 5 di D. Moore: Statistica di base. Apogeo (prima ed. 2005 oppure seconda ed. 2013)

Argomenti Introduzione ai modelli statistici

Regressione lineare semplice

Metodo dei minimi quadrati

Interpolazione ed estrapolazione

Bontà di adattamento (indice R quadro)

Formule per una distribuzione doppia di frequenze

Curva di regressione

Analisi dei residui e valori anomali

Regressione con dati aggregati

Regressione e relazioni causa‐effetto

Modello statistico Modello: schema teorico che descrive un fenomeno ipotizzando le caratteristiche strutturali più rilevanti

Modello statistico: modello di tipo matematico con due componenti• Una componente deterministica (parte sistematica, o segnale)• Una componente aleatoria (parte accidentale, o rumore)

La componente aleatoria è necessaria per passare dalla teoria all’analisi dei dati: infatti, i dati non seguono mai una relazione matematica esatta, se non altro perché vi è l’errore di misurazione. Ad esempio, un corpo in moto rettilineo uniforme di velocità vpercorre in un tempo t uno spazio s dato dalla relazione s=v*t. Questo è quanto afferma la teoria. Supponiamo ora di fare un esperimento, facendo muovere un corpo e misurando lo spazio percorso in 9 istanti successivi: se rappresentiamo le 9 osservazioni mettendo il tempo t in ascissa e lo spazio s in ordinata, sfortunatamente i 9 punti non stanno esattamente sulla retta s=v*t (intanto c’è l’errore di misurazione, e poi siamo proprio sicuri che il corpo ha viaggiato a velocità costante?)

Le automobili si vendono a peso? 

Fonte: Gente Motori, febbraio 1993PACE L. e SALVAN A., 1996, Introduzione alla Statistica ‐ I Statistica Descrittiva, CEDAM, Padova

Peso e prezzo dei modelli base della FIAT, marzo 1993

0

5000

10000

15000

20000

25000

30000

35000

0 200 400 600 800 1000 1200 1400

Prezzo (in migliaia di lire

)

Peso (in Kg)

Autovettura PESO  PREZZO (kg) (mil lire)

Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366

Page 2: Regressione (modello lineare) - UniFI

Le automobili si vendono a peso?/cont.prezzo = 12919 + 32.78peso + errore

parte sistematica (relazione tra prezzo e peso)

parte accidentale (scostamento dovuto ad 

altri fattori)

0

5000

10000

15000

20000

25000

30000

35000

0 200 400 600 800 1000 1200 1400

Prezzo (in migliaia di lire

)

Peso (in Kg)

Parte sistematica: per ogni Kg in più il prezzo aumenta mediamente di 32.78 migliaia di lire

Esempi di funzioni analitiche per la parte sistematica

La relazione tra due variabili numeriche può essere espressa da una funzione analitica y=f(x), ad es. retta, parabola, logaritmo …

La retta è la funzione più semplice da adattare ai dati e da interpretare

Esempio di relazione lineare crescente

0 è l’intercetta, cioè il punto in cui la retta interseca l’asse di y (valore di y quando x=0)

1 è la pendenza o coefficiente angolare o rapporto incrementale (variazione di y quando x aumenta di 1)

1

yx

Equazione della retta: y = 0+1x

Dati per la regressione

1 1 1 1

i i i i

n n n n

y x w z

y x w z

y x w z

1,2, ,i n

Popolazione o campione di nunità statistiche

unità statistiche

Variabile di risposta

Variabili esplicative

Page 3: Regressione (modello lineare) - UniFI

Regressione lineare semplice   /1

REGRESSIONE: metodo per studiare come 

una variabile di risposta (detta anche variabile dipendente) 

dipende 

da alcune variabili esplicative (dette anche variabili indipendenti o regressori)

• Esempio: studio dei fattori che influenzano la spesa annuale per consumi di una famiglia,  variabile di risposta: spesa annuale per consumi,  variabili esplicative: reddito annuale complessivo, numero di 

componenti della famiglia, tipo di lavoro svolto dal capofamiglia … 

Regressione lineare semplice   /2 REGRESSIONE SEMPLICE: è il caso in cui vi è una sola variabile esplicativa  si tratta di un metodo bivariato perché riguarda due variabili: una variabile di risposta y e una variabile esplicativa x

REGRESSIONE LINEARE: si assume che la relazione tra la variabile di risposta y e la variabile esplicativa x sia di tipo lineare, cioè una retta; più precisamente, si assume che la media aritmetica di y condizionata a x, in simboli Y(xi), sia una funzione lineare di x

La regressione lineare semplice è un metodo per studiare la dipendenza di una variabile quantitativa y da una variabile x che può essere sia quantitativa che qualitativa (anche se in questo corso trattiamo solo il caso di x quantitativa); quando la risposta y è qualitativa occorrono modelli di regressione di altro tipo.

Regressione lineare semplice   /3

0 1i i iy x Variabile dipendente (risposta)

Variabile indipendente (esplicativa)

Parte sistematica

(segnale)

Parte accidentale

(rumore)

Questo modello ipotizza che la risposta y sia generata dalla somma di 

• una parte sistematica (che è funzione lineare di x) 

• una parte accidentale (che è puramente casuale e quindi non dipende da x)

Cfr. Nate Silver: Il segnale e il rumore. Arte e scienza della previsione. Fandango 2013.http://fivethirtyeight.com

Regressione lineare semplice   /4

Ipotesi fondamentale del modello di regressione: la parte accidentale non dipende da x per cui la media dell’errore è 0 per ogni valore di x:

Da ciò segue che 

cioè la media di y condizionata a x è una funzione lineare di x 

0 1

0 1

( ) ( )Y i i i

i

x x xx

( ) 0ix

Page 4: Regressione (modello lineare) - UniFI

Regressione lineare semplice   /5Riassumendo, il modello di regressione lineare può essere scritto in due modi equivalenti

Sia y = “spesa per consumi” e x = “reddito”; ad ogni valore del reddito x appartenente all’intervallo osservato corrisponde un insieme di famiglie con una certa distribuzione della spesa per consumi e quindi con una certa spesa media per consumi Y(x). La teoria economica (supportata dall’evidenza empirica) sostiene che al crescere del reddito cresce la spesa per consumi, cioè Y(x) è funzione crescente di x; se si usa la regressione lineare semplice si assume che tale funzione sia lineare

0

10

20

30

0 5 10 15 20 25

Consum

o

Reddito

0 1

0 1( )i i i

Y i i

y xx x

Interpretazione della pendenzaSupponiamo che il regressore x assuma un certo valore x* in corrispondenza del quale la media condizionata di y è

Supponiamo poi che il regressore x aumenti di 1 e quindi assuma il valore x*+1, in corrispondenza del quale la media condizionata di yè

Sottraendo si ottiene

Pertanto 1 è la variazione della media condizionata di yconseguente all’aumento di 1 di x, qualunque sia il valore x* di partenza

* *0 1( )Y x x

* *0 1( 1) ( 1)Y x x

* *1( 1) ( )Y Yx x

Interpretazione della pendenza   /cont.

L’interpretazione di 1 dipende dall’unità di misura delle due variabili

Esempio x altezza in cmy peso in kg

allora 1 è espresso in kg/cm perché rappresenta la variazione in kg del peso quando l’altezza aumenta di 1 cm

Determinare la retta di regressione:

il metodo dei minimi quadrati

Page 5: Regressione (modello lineare) - UniFI

Dati e retta di regressione stimata

0 1

retta stimataˆi iy b b x

.

..

.

. ..

..

..

. ... .

.

xix

ie

y

0 1b b x

ˆiy

iy

0 0

1 1

stimabb

dati

Retta di regressione stimata

In termini geometrici: dato un diagramma di dispersione (che rappresenta n osservazioni della coppia di variabili in esame), qual è la retta che si adatta meglio ai punti, che passa più “vicina” all’insieme dei punti?

In termini algebrici: come si calcolano l’intercetta b0 e la pendenza b1 della retta di regressione stimata in modo che l’errore di previsione che si commette con la retta sia il più piccolo possibile?

Retta di regressione stimata Occorre stabilire una misura di 

• distanza tra retta e insieme di punti (punto di vista geometrico)• errore di previsione complessivo (punto di vista algebrico)

I valori x sono considerati quantità date per cui il problema della previsione riguarda i valori y

0 1

valore di per l'unità ˆ valore di per l'unità

ˆ errore di previsione ( )

i

i i

i i i

y osservato y iy b b x previsto y ie y y residuo

2 2

1 1

ˆ( )n n

i i ii i

e y y

Il criterio più usato per definire la distanza tra retta e insieme di punti o, equivalentemente, per definire l’errore di previsione totale è quello della somma dei quadrati degli errori (di previsione)

Minimi Quadrati (MQ)

La retta che rende minimo l’errore di previsione quadratico è chiamata retta dei minimi quadrati

Le rette del piano sono infinite, ognuna individuata in modo univoco da una coppia di valori (intercetta, pendenza): determinare la retta dei minimi quadrati significa determinare la coppia di valori (intercetta, pendenza) per cui la somma dei quadrati degli errori è minima

Da un punto di vista matematico si tratta di un problema di minimizzazione di una funzione in due variabili; per fortuna, la soluzione è unica ed è esprimibile con due semplici formule

Page 6: Regressione (modello lineare) - UniFI

Retta di MQ

11 2

2

1

0 1

( )( )( , )( )( )

n

i X i Yi XY XY

nX X

i Xi

Y X

x yC Cov X YbD Var Xx

b b

Per determinare i coefficienti della retta di MQ sono sufficienti 4 indici: media di Y, media di X, devianza di X, codevianza tra X e Y (nota: questi 4 indici rappresentano una sintesi esaustiva dei dati indipendentemente dal numero di unità statistiche)

0 1y b b x

CXY CODEVIANZA XY COVARIANZA

Esempio: statura fratello‐sorella   /1

Nella tabella a lato sono riportate le stature (in centimetri) di dieci coppie di fratelli e sorelle. Vogliamo stabilire se la retta è una funzione adatta a esprimere il legame di associativo tra la statura della fratello e quella della sorella. In altri termini, si tratta di vedere se siamo in grado di effettuare una buona previsione della statura delle sorelle a partire dalla statura dei fratelli.

Statura fratello 

(cm)

Statura sorella (cm)

173 164178 172169 163170 160177 166178 165180 165185 170165 152168 156

Esempio: statura fratello‐sorella   /2

L’andamento dei punti suggerisce che la relazione statistica che lega la statura della sorella a quella del fratello può essere ben approssimata da una retta

Statura fratello 

(cm)

Statura sorella (cm)

173 164178 172169 163170 160177 166178 165180 165185 170165 152168 156

150

160

170

180

190

150 160 170 180 190

Statura sorella (cm)

Statura fratello (cm)

150

160

170

180

190

150 160 170 180 190

Statura sorella (cm)

Statura fratello (cm)

Esempio: statura fratello‐sorella   /3

xi yi xi ‐ μX yi ‐ μY (xi ‐ μX)2

173 164 ‐1.30 0.70 1.69 ‐0.91178 172 3.70 8.70 13.69 32.19169 163 ‐5.30 ‐0.30 28.09 1.59170 160 ‐4.30 ‐3.30 18.49 14.19177 166 2.70 2.70 7.29 7.29178 165 3.70 1.70 13.69 6.29180 165 5.70 1.70 32.49 9,69185 170 10.70 6.70 114.49 71.69165 152 ‐9.30 ‐11.30 86.49 105.09168 156 ‐6.30 ‐7.30 39,69 45.99

Totale 356.10 293.10

(xi – μX)(yi ‐ μY)μX = 174.30μY = 163.30

1293.10 0.823356.10

XY

X

CbD

0 1

163.30 0.823 174.30 19.851Y Xb b

y

x

ˆ 19.851 0.823y x

DX CXY

Page 7: Regressione (modello lineare) - UniFI

Proprietà delle stime di MQ 1

1 0 12

1

( )( )

( )

n

i X i YiXY

Y XnX

i Xi

x yCb b bD x

0 1 1 1

(la retta passa per il baricentro)ˆ ˆ:

X Y

X Y X X Y

x yInfatti y b b b b

ˆ

0 1 1 1

1

(da cui segue )ˆ

ˆ:

i i YYi i

i i Y X ii i i

Y i X ii i i

y y

Infatti y b b x b b x

b x y

1

(la somma dei residui è nulla)

:

0

ˆ ˆ 0

n

ii

i i i i ii i i iInfatti

e

e y y y y

Stime di MQ: traslazione Consideriamo una traslazione a della x

0 1 1( ) ' ay b b b x ePendenza invariata

Caso speciale: , cioè ' Pendenza invariata Nuova intercetta ben interpretabile:

è il valore previsto di quando

X X

X

x x

y x

a

' 'ax x ax x

0 1 0 1( ' ) y b b x e x ab b eda cui si ottiene

Nuova intercetta

Stime di MQ: traslazione   /esempio

Nelle serie storiche la variabile esplicativa x rappresenta il tempo, ad esempio l’anno solare Spesso si effettua una traslazione della x, che semplifica i calcoli lasciando invariata la pendenza

Numero di prime registrazioni di autovetture a gasolio (registro automobilistico italiano) – Dati in migliaia

ˆ 666 96.4y x

Il coefficiente di MQ è 96.4 (cioè 96.4 migliaia di registrazioni in più per anno).La stima 96.4 è la stessa usando x=(1999,…,2003) oppure x’=(0,…,4)

Anno Anno ‐ 1999N. prime 

registrazioni1999 0 6672000 1 7862001 2 8352002 3 9282003 4 1078

600

700

800

900

1'000

1'100

1'200

0 1 2 3 4

N. p

rime registrazion

i

Anno

Stime di MQ: cambiamento di scala

0 1' '

yy y

x

dy d b b x d e

d

' ' x yx d x y d y

• espansione della scala y (dy > 1) aumenta pendenza

• espansione della scala x (dx > 1) diminuisce pendenza

0 1 0 1' '

y x

y xy b b x e b b ed d

da cui si ottiene

Nuova pendenzaNuova intercetta

Page 8: Regressione (modello lineare) - UniFI

0

2

4

6

8

10

12

14

0 5 10 15

yx

Dataset originale

0

2

4

6

8

10

12

14

0 5 10 15 20 25 30

y

x

Espansione della X

0

2

4

6

8

10

12

14

16

18

20

22

24

26

28

0 5 10 15

y

x

Espansione della Y

' 2x x

' 2y y

Pendenza si dimezza

Pendenza raddoppia

Interpolazione

e

estrapolazione

InterpolazionePossiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X non osservato, ma interno all’intervallo osservato di X

Nel caso dell’altezza di fratelli e sorelle, l’intervallo osservato di altezze dei fratelli è [165,185]  un esempio di interpolazione è usare la retta stimata per prevedere l’altezza di una sorella il cui fratello ha un’altezza x=172 cm (anche se nei dati nessuno ha questo valore):

altezza sorella = 19.851+0.823172 = 161.4 cm

ˆ 19.851 0.823y x

EstrapolazionePossiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X esterno all’intervallo osservato di XNel caso dell’altezza di fratelli e sorelle, l’intervallo osservato di altezze dei fratelli è [165,185]  un esempio di estrapolazione è usare la retta stimata per prevedere l’altezza di una sorella il cui fratello ha un’altezza x=190 cm 

altezza sorella = 19.851+0.823190 = 176.2 cm

ˆ 19.851 0.823y x

Page 9: Regressione (modello lineare) - UniFI

Estrapolazione   /cont. L’accuratezza dell’estrapolazione dipende da:•quanto la retta si adatta bene ai dati•quanto il valore x è lontano dai valori osservati L’estrapolazione è calcolabile per ogni valore reale di x, ma se ci si allontana molto dall’intervallo osservato può diventare assurda: ad es. per un fratello di altezza x=500 cm la retta di regressione prevede una sorella di altezza di 431.4 cm !! L’intercetta è la previsione di Y per x=0  se l’intervallo osservato non include lo zero si tratta di una estrapolazione e, a seconda del contesto, può essere una previsione assurda Nel caso dell’altezza dei fratelli e sorelle, x=0 non ha senso la corrispondente previsione di 19.851 cm non ha senso e non va interpretata!

Esempio del tempo TV: datiI dati riportati nella tabella seguente si riferiscono all’età in anni(X) e al tempo in minuti passato davanti alla televisione nell’ultima settimana (Y) per un campione di 6 soggetti:

Età Tempo TV X Y

34 430 42 365 55 620 59 580 61 800 63 780

Somma 314 3575 Media 52.3 595.8

2

1

1

( ) 683.333

( )( ) 9118.333

n

i Xin

i X i Yi

x

x y

Esempio del tempo TV: regressione

0

100

200

300

400

500

600

700

800

900

0 10 20 30 40 50 60 70

tem

po T

V (Y

)

età (X)

11

2

1

( )( )9118.333 13.344683.333( )

n

i X i Yi

n

i Xi

x yb

x

0 1 595.8 13.344 52.3 102.498 Y Xb b

ˆ 102.498 13.344y x

Esempio del tempo TV: interpretazione

La pendenza b1 = 13.3 è la variazione media del tempo TV settimanale in minuticorrispondente ad un aumento di 1 anno dell’età• Poiché la pendenza è positiva, all’aumentare dell’età tende ad aumentare il tempo TV: 1 anno in più aumento medio di 13.3 minuti per settimana2 anni in più aumento medio di 26.6 minuti per settimana10 anni in più aumento medio di 133 minuti  per settimana1 anno in meno riduzione media di 13.3 minuti per settimana … ecc.

L’intercetta b0 = –102.5 è il tempo TV settimanale previsto per un soggetto di età zero (x=0)• In questa applicazione l’intercetta non è interpretabile perché non ha senso chiedersi qual è il valore previsto del tempo TV per un neonato!

L’intercetta è un caso speciale di valore previsto (è il valore previsto di Y quando x=0)

Page 10: Regressione (modello lineare) - UniFI

Esempio del tempo TV: previsioni La retta di regressione può essere usata per calcolare il valore previsto di Y in 

corrispondenza di un qualunque valore di X, sia un valore osservato nel campione che un valore non osservato

Usando la retta di regressione precedente si ottengono, ad esempio, i seguenti valori previsti (arrotondati all’intero) 

ˆ 102.498 13.344y x

x-10 -236

0 -10220 16430 29855 63160 69870 832

100 1232500 6570

y La retta, come funzione matematica, è definita sull’intero asse dei reali e quindi qualsiasi valore xdi X può essere usato per fare la previsione di Y

Tuttavia non tutti i valori di x hanno senso nel contesto applicativo: nell’esempio del tempo TV xè l’età e quindi non può essere negativa, ma non ha senso nemmeno prendere in considerazione valori di x vicini a 0 (perché i neonati non guardano la TV) e valori di x oltre 100 (perché gli esseri umani raramente superano tale età)

Intervallo di X per prevedere Y

In ogni applicazione si può determinare a priori (cioè indipendentemente dai dati effettivamente rilevati) un intervallo di valori di x che ha senso prendere in considerazione• nell’esempio del tempo TV l’intervallo di x che ha senso considerare non può essere definito in modo univoco, potremmo prendere ad es. da 3 a 100 anni

A posteriori, alla luce dei dati effettivamente rilevati, l’intervallo di valori di x che è opportuno utilizzare per prevedere la Ydovrebbe essere solo di poco più ampio dell’intervallo dei valori osservati di X (cosiddetto intervallo rilevante)• nell’esempio del tempo TV l’intervallo rilevante va da 34 a 63 anni

Interpolazione vs estrapolazione

Interpolazione: prevedere Y per un valore di X internoall’intervallo dei valori osservati 

Estrapolazione: prevedere Y per un valore X esternoall’intervallo dei valori osservati • nell’esempio del tempo TV l’intervallo dei valori osservati di X va da 34 a 63 anni la previsione per x=60 è una interpolazionela previsione per x=20 è una estrapolazione

Attenzione alle estrapolazioni Le estrapolazioni vanno evitate o, per lo meno, limitate a valori xappena fuori dall’intervallo rilevante. • Infatti la retta di regressione è stata determinata usando i valori x dell’intervallo rilevante e non vi è alcun modo di sapere come la retta si modificherebbe aggiungendo valori x esterni all’intervallo rilevante; facendo estrapolazioni si assume implicitamente che aggiungendo valori x esterni la retta rimarrebbe sostanzialmente invariata, ma tale ipotesi non è verificabile ed è tanto meno plausibile quanto più i punti considerati sono lontani dall’intervallo rilevante

Ad esempio, la crescita in altezza di un bambino fra i 3 e gli 8 anni è approssimativamente lineare. Tracciando la retta di regressione dell’altezza (y) rispetto all’età (x) e utilizzandola per prevedere l’altezza a 25 anni si otterrebbero valori enormi, nell’ordine di 240 cm (ovviamente lo sviluppo fisico rallenta e si ferma con la maturità!)

Page 11: Regressione (modello lineare) - UniFI

I pericoli dell’estrapolazioneDiagramma di dispersione e retta di regressione

0100200300400500600700800900

0 10 20 30 40 50 60 70

età (X)

tem

po T

V (Y

)Intervallo rilevante

La linea rossa rappresenta una possibile relazione tra Y e X nella popolazione, mentre la retta nera è la retta di regressione determinata con i dati campionari, in cui l’intervallo rilevante è [34,63]

logarithm

ic scale

Bontà di adattamento della retta di regressione:

il coefficiente di determinazione r2

Misure di variabilità nella regressione DY (Devianza totale di Y): misura la variabilità dei valori Y osservati attorno alla loro media

DSL (Devianza di Y Spiegata della regressione Lineare su X): misura la variabilità dei valori Yprevisti dalla retta dei minimi quadrati attorno alla loro media (la quale, per una proprietà del metodo dei minimi quadrati, coincide con la media dei valori osservati)

DRL (Devianza di Y Residua rispetto alla regressione Lineare su X): misura la variabilità degli errori di regressione attorno alla loro media

2

1( )

n

Y i Yi

D y

1

2

1

ˆ( )

ˆ( )

n

SL i Yin

i Yi

D y

y

2 2

1 1

2

1

( )

ˆ( )

n n

RL i E ii in

i ii

D e e

y y

Y SL RLD D D Pertanto la regressione lineare semplice scompone la varianza totale di Y in due parti, una spiegata dalla relazione lineare con X e l’altra residuale

Page 12: Regressione (modello lineare) - UniFI

Misure di variabilità nella regressione

2

1( )

n

Y i Yi

D y

2

1

ˆ( )n

RL i ii

D y y

2

1

ˆ( )

n

SL i Yi

D y

Regressione: spiegare la variabilità La regressione può essere vista come un metodo per spiegare la variabilità di una variabile (Y) tramite la relazione lineare con un’altra variabile (X)• La spesa per consumi (Y) varia molto da famiglia a famiglia e può essere misurata da SST (che è il numeratore della varianza). 

Perché le famiglie hanno consumi diversi? Risposta: i motivi sono molti, uno è perché le famiglie hanno redditi diversi e il consumo cresce al crescere del reddito. 

Quanto è importante il ruolo del reddito nello spiegare la variabilità dei consumi delle famiglie? Risposta: assumendo una relazione lineare tra consumi e reddito, la risposta è fornita dalla scomposizione di SST nelle due parti SSR (variabilità dei consumi spiegata dalla relazione lineare con il reddito) e SSE (variabilità residuale dei consumi)

Coefficiente di determinazione r2

Poiché DSL0 e DSLDY segue che r2 [0,1]. Dunque r2 è un indice normalizzato: per ogni insieme di dati r2 ha valore min 0 e max 1

Il coefficiente di determinazione misura la bontà di adattamento della retta di regressione; infatti da DSL = DY ‐ DRL segue che r2 si può scrivere così:

La retta di regressione si adatta ai dati tanto meglio quanto più piccola è la somma dei quadrati degli errori, DRL, ovvero quanto più grande è il coefficiente di determinazione r2 (ma r2 è più facilmente interpretabile perché è un indice normalizzato)

2 SL

Y

DrD

2 1 RL

Y

DrD

Il coefficiente di determinazione è la proporzione di variabilità totale di Yspiegata dalla relazione lineare con X

Coefficiente di determinazione r2

Misurare la bontà di adattamento è cruciale per l’interpretazione e l’utilizzo dei risultati della regressione

La retta di regressione è la retta che meglio si adatta ai dati, quella che minimizza l’errore di previsione complessivo (definito dalla somma dei quadrati degli errori)

Tuttavia la migliore retta potrebbe comunque fare un pessimo lavoro, cioè la regressione lineare potrebbe spiegare solo una piccola parte della variabilità di Y ( enormi errori di previsione)

Quando il coefficiente di determinazione r2 è piccolo l’adattamento della retta è scarso e quindi la regressione lineare è uno strumento inutile

Page 13: Regressione (modello lineare) - UniFI

Coefficiente di determinazione r2

Il metro di giudizio sul valore assunto da r2 dipende dal contesto applicativo: in alcuni campi r2 è solitamente su valori tra 0.15 e 0.30, in altri campi (ad es. serie temporali) r2 è spesso intorno a 0.90  non si può dire in generale quale sia la soglia al di sotto della quale r2 debba ritenersi insoddisfacente

Caso limite r2=1: accade quando DRL=0, il che significa che tutti gli errori di previsione sono nulli e quindi tutti i punti del diagramma di dispersione giacciono sulla retta di regressione (che può avere qualunque pendenza, positiva o negativa)

Caso limite r2=0: accade quando DSL=0, il che significa che i valori previsti      sono tutti uguali a     e quindi la retta di regressione è orizzontale (ha pendenza nulla)

ˆiy y

Attenzione: r2 non misura la vicinanza dei punti alla retta

0

1

2

3

4

5

0 1 2 3 4 50

1

2

3

4

5

0 1 2 3 4 5

r2 = 0.5 r2 = 0.067

Calcolo di r2 Per calcolare r2 occorre calcolare DY e, a scelta, uno dei due termini della scomposizione della devianza La via più veloce è quella di calcolare DSL perché

Pertanto r2 si può scrivere anche

2 20 1 0 1

1 1

2 2 2 21 1 1

1 1

ˆ ( ) ( )

( ) ( ) ( ) ( )

n n

SL i Y i Xi in n

i X i X Xi i

D y b b x b b

b x b x b D

2

2 22 1( )

XYX

XSL X XY

Y Y Y X Y

C DDD b D Cr

D D D D D

Questo è il quadrato del coefficiente di correlazione lineare(vedi più avanti)

Calcolo di r2: esempio Nell’esempio del tempo TV si ha 

• DY = 157220.833 • DX = 683.333  • b1 = 13.344. 

Pertanto, DSL = (13.344)2 683.333 = 121675.870

2 121675.870 0.7739157220.833

SL

Y

DrD

Il 77.39% della variabilità del tempo TV è spiegata dalla relazione lineare con l’età

Page 14: Regressione (modello lineare) - UniFI

Errore quadratico medio di previsione

La radice quadrata della varianza residua è interpretabile come l’errore medio che si commette prevedendo Y tramite il modello di regressione lineare su X

Nell’esempio del tempo TV

2

1

1 ˆ( )n

RLRL i i

i

D y yn n

157220.833 121675.87 35544.963

35544.963 76.969 (minuti)6

RL

RL

D

Media quadratica degli errori di previsione

A differenza di r2, l’errore di previsione ha unità di misura (quella di y)

La simmetria di r2

Guadiamo l’indice di determinazione nella forma

L’indice è simmetrico: rimane invariato cambiando l’ordine di X e Y cioè invertendo il ruolo di X e Y nella regressione: la regressione di Y su X e la regressione di X su Y producono lo stesso valore dell’indice di determinazione, cioè hanno la stessa bontà di adattamento

Dunque i risultati della regressione non forniscono alcuna indicazione in merito alla scelta di quale variabile usare come risposta e quale come esplicativa: tale scelta è necessariamente basata sulla conoscenza a priori di quale è la causa (= l’esplicativa) e quale l’effetto (la risposta); in mancanza di tale conoscenza la scelta è effettuata arbitrariamente dall’analista in base al punto di vista che vuole privilegiare

22 XY

X Y

CrD D

Esempio: l’indice r2 può cambiare molto se si ignorano gruppi rilevanti

Y su X | Z=0 r2 = 0.79Y su X | Z=1 r2 = 0.41

Y su X | tutti  r2 = 0.12

La rappresentazione grafica è importante per capire il legame tra X e Y nei gruppi individuati da Z!

Z=0

Z=1

Esempio con due gruppi individuati dalla variabile binaria Z

In questo esempio ignorare la variabile categorica Z (cioè ignorare i gruppi  e fare una regressione unica) comporta un «annacquamento» della relazione tra Y e X

Page 15: Regressione (modello lineare) - UniFI

Formule nel caso in cui i dati sono in forma di distribuzione doppia di

frequenze

Regressione con distribuzioni doppie   /1

Le formule per la regressione dipendono da indici di sintesi (medie, devianze, codevianza)  basta calcolare gli indici usando le frequenze

Considerando che (xi, yj) si presenta con una frequenza  nij e che alle modalità xi e yj vanno associate  le frequenze marginali ni0 e n0j, abbiamo:

1 1( )( )s t

XY i X j Y iji jC x y n

0 01 1

1 1;s tX i i Y j ji j

x n y nN N

Codevianza

Medie marginali di X e Y

201

( )sX i X ii

D x n

Devianza di X

Carattere X

Carattere Y Totaley1 y2 … yj … yt

x1 n11 n12

n1j…

n1t n10x2 n21 n22

n2j

n2t n20… … … … … … … …

xi ni1 ni 2…

nij

nit ni0… … … … … … … …

xs ns1 ns2…

nsj

nst ns0Totale n01 n02

n0j

n0t N

Regressione con distribuzioni doppie   /2

2

1 1

ˆ( )s t

RL j i iji j

D y y n

20

1

ˆ( )s

SL i Y ii

D y n

Devianza spiegata

Devianza residua

1

0 1

22

XY

X

Y X

SL XY

Y X Y

CbD

b b

D CrD D D

20

1( )

t

Y j Y jj

D y n

Devianza totale di Y

Per calcolare le stime di MQ e l’indice di determinazione lineare si applicano le usuali formule

Regressione con distribuzioni doppie  /3

Distribuzione doppia di frequenze di un gruppo di pazienti per età e massa muscolare: (file «massa muscolare.xls» libro Cicchitelli)

Età (X)Massa muscolare (Y)

Totale51‐6558

66‐8073

81‐9588

96‐120108

41‐51 46 0 0 2 13 15

51‐61 56 0 5 7 5 17

61‐71 66 2 8 4 0 14

71‐81 76 6 6 2 0 14

Totale 8 19 15 18 60

58∙8 73∙19 88∙15 108∙18 85.2560Y

46∙15 56∙17 66∙14 76∙14 60.5060X

2 2(46 60,50) ∙15 (56 60,50) ∙17XD

2 2(66 60.50) ∙14 (76 60.50) ∙147285.0

(46 60.50)(88 85.25)∙2 (46 60.50)(108 85.25)∙13 (76 60.50)(88 85.25)∙2] 9057.50XYC

1 09057.50 1.24; 85.25 ( 1.24∙60.50) 160.477285.0

b b

I due caratteri sono raggruppati in intervalli  si usano i valori centrali (in rosso)

Page 16: Regressione (modello lineare) - UniFI

Regressione con distribuzioni doppie  /4

Età (X)Massa muscolare (Y)

Totale51‐6558

66‐8073

81‐9588

96‐120108

41‐51 46 0 0 2 13 15

51‐61 56 0 5 7 5 17

61‐71 66 2 8 4 0 14

71‐81 76 6 6 2 0 14

Totale 8 19 15 18 60

I numeri in rosso sono i valori centrali 

22 ( 9057.50) 0.62

7285.0 18221.25r

2 2 2 2(58 84.58) ∙8 (73 84.58) ∙19 (88 84.58) ∙15 (108 84.58) ∙1818221.25

YD

L’indice di determinazione assume il valore

Dunque, la retta di regressione spiega il 62% della variabilità totale della massa muscolare

Curva di regressione

Curva di regressioneConsideriamo una distribuzione doppia di frequenze. Rappresentiamo su un piano cartesiano i punti che hanno come ascissa il valore xi e come ordinata la corrispondente media di Y condizionata a xi. Si tratta cioè di rappresentare gli s punti di coordinate

Si definisce curva di regressione la spezzata che unisce tali punti.

1 1 2 2, ( ) , , ( ) , , , ( )Y Y s Y sx x x x x x

Curva di regressione: adattamentoL’adattamento della curva di regressione, analogamente alla retta di regressione, può essere misurato dall’indice di determinazione

Nel caso della curva di regressione i valori previsti sono le medie condizionate, per cui DSL=DS e quindi l’indice di determinazione è identico al rapporto di correlazione

Chiaramente la curva di regressione di adatta meglio ai dati della retta di regressione (essendo una spezzata è più flessibile, al limite ha lo stesso adattamento se la spezzata è una retta). Pertanto

2 SL

Y

DrD

2 20 0

1 12 2curva di regressione

ˆ ˆ( ) ( ) ( ( ) )s s

i Y i SL i Y i Y i Y i Si i

Y

y x D y n x n D

r

2 2Y r