Regressione (modello lineare) - UniFI
Transcript of Regressione (modello lineare) - UniFI
Regressione (modello lineare)
Cicchitelli Cap. 10
da integrare con Cap. 5 di D. Moore: Statistica di base. Apogeo (prima ed. 2005 oppure seconda ed. 2013)
Argomenti Introduzione ai modelli statistici
Regressione lineare semplice
Metodo dei minimi quadrati
Interpolazione ed estrapolazione
Bontà di adattamento (indice R quadro)
Formule per una distribuzione doppia di frequenze
Curva di regressione
Analisi dei residui e valori anomali
Regressione con dati aggregati
Regressione e relazioni causa‐effetto
Modello statistico Modello: schema teorico che descrive un fenomeno ipotizzando le caratteristiche strutturali più rilevanti
Modello statistico: modello di tipo matematico con due componenti• Una componente deterministica (parte sistematica, o segnale)• Una componente aleatoria (parte accidentale, o rumore)
La componente aleatoria è necessaria per passare dalla teoria all’analisi dei dati: infatti, i dati non seguono mai una relazione matematica esatta, se non altro perché vi è l’errore di misurazione. Ad esempio, un corpo in moto rettilineo uniforme di velocità vpercorre in un tempo t uno spazio s dato dalla relazione s=v*t. Questo è quanto afferma la teoria. Supponiamo ora di fare un esperimento, facendo muovere un corpo e misurando lo spazio percorso in 9 istanti successivi: se rappresentiamo le 9 osservazioni mettendo il tempo t in ascissa e lo spazio s in ordinata, sfortunatamente i 9 punti non stanno esattamente sulla retta s=v*t (intanto c’è l’errore di misurazione, e poi siamo proprio sicuri che il corpo ha viaggiato a velocità costante?)
Le automobili si vendono a peso?
Fonte: Gente Motori, febbraio 1993PACE L. e SALVAN A., 1996, Introduzione alla Statistica ‐ I Statistica Descrittiva, CEDAM, Padova
Peso e prezzo dei modelli base della FIAT, marzo 1993
0
5000
10000
15000
20000
25000
30000
35000
0 200 400 600 800 1000 1200 1400
Prezzo (in migliaia di lire
)
Peso (in Kg)
Autovettura PESO PREZZO (kg) (mil lire)
Cinquecento 700 ED 690 9697Panda 1.0 i.e. L. 715 11071Uno Fire 1.0 i.e 3P 770 13041Tipo 1.4 i.e. 990 17580Tempra 1.4 e.e. 1040 20549Croma 2.0 1250 29366
Le automobili si vendono a peso?/cont.prezzo = 12919 + 32.78peso + errore
parte sistematica (relazione tra prezzo e peso)
parte accidentale (scostamento dovuto ad
altri fattori)
0
5000
10000
15000
20000
25000
30000
35000
0 200 400 600 800 1000 1200 1400
Prezzo (in migliaia di lire
)
Peso (in Kg)
Parte sistematica: per ogni Kg in più il prezzo aumenta mediamente di 32.78 migliaia di lire
Esempi di funzioni analitiche per la parte sistematica
La relazione tra due variabili numeriche può essere espressa da una funzione analitica y=f(x), ad es. retta, parabola, logaritmo …
La retta è la funzione più semplice da adattare ai dati e da interpretare
Esempio di relazione lineare crescente
0 è l’intercetta, cioè il punto in cui la retta interseca l’asse di y (valore di y quando x=0)
1 è la pendenza o coefficiente angolare o rapporto incrementale (variazione di y quando x aumenta di 1)
1
yx
Equazione della retta: y = 0+1x
Dati per la regressione
1 1 1 1
i i i i
n n n n
y x w z
y x w z
y x w z
1,2, ,i n
Popolazione o campione di nunità statistiche
unità statistiche
Variabile di risposta
Variabili esplicative
Regressione lineare semplice /1
REGRESSIONE: metodo per studiare come
una variabile di risposta (detta anche variabile dipendente)
dipende
da alcune variabili esplicative (dette anche variabili indipendenti o regressori)
• Esempio: studio dei fattori che influenzano la spesa annuale per consumi di una famiglia, variabile di risposta: spesa annuale per consumi, variabili esplicative: reddito annuale complessivo, numero di
componenti della famiglia, tipo di lavoro svolto dal capofamiglia …
Regressione lineare semplice /2 REGRESSIONE SEMPLICE: è il caso in cui vi è una sola variabile esplicativa si tratta di un metodo bivariato perché riguarda due variabili: una variabile di risposta y e una variabile esplicativa x
REGRESSIONE LINEARE: si assume che la relazione tra la variabile di risposta y e la variabile esplicativa x sia di tipo lineare, cioè una retta; più precisamente, si assume che la media aritmetica di y condizionata a x, in simboli Y(xi), sia una funzione lineare di x
La regressione lineare semplice è un metodo per studiare la dipendenza di una variabile quantitativa y da una variabile x che può essere sia quantitativa che qualitativa (anche se in questo corso trattiamo solo il caso di x quantitativa); quando la risposta y è qualitativa occorrono modelli di regressione di altro tipo.
Regressione lineare semplice /3
0 1i i iy x Variabile dipendente (risposta)
Variabile indipendente (esplicativa)
Parte sistematica
(segnale)
Parte accidentale
(rumore)
Questo modello ipotizza che la risposta y sia generata dalla somma di
• una parte sistematica (che è funzione lineare di x)
• una parte accidentale (che è puramente casuale e quindi non dipende da x)
Cfr. Nate Silver: Il segnale e il rumore. Arte e scienza della previsione. Fandango 2013.http://fivethirtyeight.com
Regressione lineare semplice /4
Ipotesi fondamentale del modello di regressione: la parte accidentale non dipende da x per cui la media dell’errore è 0 per ogni valore di x:
Da ciò segue che
cioè la media di y condizionata a x è una funzione lineare di x
0 1
0 1
( ) ( )Y i i i
i
x x xx
( ) 0ix
Regressione lineare semplice /5Riassumendo, il modello di regressione lineare può essere scritto in due modi equivalenti
Sia y = “spesa per consumi” e x = “reddito”; ad ogni valore del reddito x appartenente all’intervallo osservato corrisponde un insieme di famiglie con una certa distribuzione della spesa per consumi e quindi con una certa spesa media per consumi Y(x). La teoria economica (supportata dall’evidenza empirica) sostiene che al crescere del reddito cresce la spesa per consumi, cioè Y(x) è funzione crescente di x; se si usa la regressione lineare semplice si assume che tale funzione sia lineare
0
10
20
30
0 5 10 15 20 25
Consum
o
Reddito
0 1
0 1( )i i i
Y i i
y xx x
Interpretazione della pendenzaSupponiamo che il regressore x assuma un certo valore x* in corrispondenza del quale la media condizionata di y è
Supponiamo poi che il regressore x aumenti di 1 e quindi assuma il valore x*+1, in corrispondenza del quale la media condizionata di yè
Sottraendo si ottiene
Pertanto 1 è la variazione della media condizionata di yconseguente all’aumento di 1 di x, qualunque sia il valore x* di partenza
* *0 1( )Y x x
* *0 1( 1) ( 1)Y x x
* *1( 1) ( )Y Yx x
Interpretazione della pendenza /cont.
L’interpretazione di 1 dipende dall’unità di misura delle due variabili
Esempio x altezza in cmy peso in kg
allora 1 è espresso in kg/cm perché rappresenta la variazione in kg del peso quando l’altezza aumenta di 1 cm
Determinare la retta di regressione:
il metodo dei minimi quadrati
Dati e retta di regressione stimata
0 1
retta stimataˆi iy b b x
.
..
.
. ..
..
..
. ... .
.
xix
ie
y
0 1b b x
ˆiy
iy
0 0
1 1
stimabb
dati
Retta di regressione stimata
In termini geometrici: dato un diagramma di dispersione (che rappresenta n osservazioni della coppia di variabili in esame), qual è la retta che si adatta meglio ai punti, che passa più “vicina” all’insieme dei punti?
In termini algebrici: come si calcolano l’intercetta b0 e la pendenza b1 della retta di regressione stimata in modo che l’errore di previsione che si commette con la retta sia il più piccolo possibile?
Retta di regressione stimata Occorre stabilire una misura di
• distanza tra retta e insieme di punti (punto di vista geometrico)• errore di previsione complessivo (punto di vista algebrico)
I valori x sono considerati quantità date per cui il problema della previsione riguarda i valori y
0 1
valore di per l'unità ˆ valore di per l'unità
ˆ errore di previsione ( )
i
i i
i i i
y osservato y iy b b x previsto y ie y y residuo
2 2
1 1
ˆ( )n n
i i ii i
e y y
Il criterio più usato per definire la distanza tra retta e insieme di punti o, equivalentemente, per definire l’errore di previsione totale è quello della somma dei quadrati degli errori (di previsione)
Minimi Quadrati (MQ)
La retta che rende minimo l’errore di previsione quadratico è chiamata retta dei minimi quadrati
Le rette del piano sono infinite, ognuna individuata in modo univoco da una coppia di valori (intercetta, pendenza): determinare la retta dei minimi quadrati significa determinare la coppia di valori (intercetta, pendenza) per cui la somma dei quadrati degli errori è minima
Da un punto di vista matematico si tratta di un problema di minimizzazione di una funzione in due variabili; per fortuna, la soluzione è unica ed è esprimibile con due semplici formule
Retta di MQ
11 2
2
1
0 1
( )( )( , )( )( )
n
i X i Yi XY XY
nX X
i Xi
Y X
x yC Cov X YbD Var Xx
b b
Per determinare i coefficienti della retta di MQ sono sufficienti 4 indici: media di Y, media di X, devianza di X, codevianza tra X e Y (nota: questi 4 indici rappresentano una sintesi esaustiva dei dati indipendentemente dal numero di unità statistiche)
0 1y b b x
CXY CODEVIANZA XY COVARIANZA
Esempio: statura fratello‐sorella /1
Nella tabella a lato sono riportate le stature (in centimetri) di dieci coppie di fratelli e sorelle. Vogliamo stabilire se la retta è una funzione adatta a esprimere il legame di associativo tra la statura della fratello e quella della sorella. In altri termini, si tratta di vedere se siamo in grado di effettuare una buona previsione della statura delle sorelle a partire dalla statura dei fratelli.
Statura fratello
(cm)
Statura sorella (cm)
173 164178 172169 163170 160177 166178 165180 165185 170165 152168 156
Esempio: statura fratello‐sorella /2
L’andamento dei punti suggerisce che la relazione statistica che lega la statura della sorella a quella del fratello può essere ben approssimata da una retta
Statura fratello
(cm)
Statura sorella (cm)
173 164178 172169 163170 160177 166178 165180 165185 170165 152168 156
150
160
170
180
190
150 160 170 180 190
Statura sorella (cm)
Statura fratello (cm)
150
160
170
180
190
150 160 170 180 190
Statura sorella (cm)
Statura fratello (cm)
Esempio: statura fratello‐sorella /3
xi yi xi ‐ μX yi ‐ μY (xi ‐ μX)2
173 164 ‐1.30 0.70 1.69 ‐0.91178 172 3.70 8.70 13.69 32.19169 163 ‐5.30 ‐0.30 28.09 1.59170 160 ‐4.30 ‐3.30 18.49 14.19177 166 2.70 2.70 7.29 7.29178 165 3.70 1.70 13.69 6.29180 165 5.70 1.70 32.49 9,69185 170 10.70 6.70 114.49 71.69165 152 ‐9.30 ‐11.30 86.49 105.09168 156 ‐6.30 ‐7.30 39,69 45.99
Totale 356.10 293.10
(xi – μX)(yi ‐ μY)μX = 174.30μY = 163.30
1293.10 0.823356.10
XY
X
CbD
0 1
163.30 0.823 174.30 19.851Y Xb b
y
x
ˆ 19.851 0.823y x
DX CXY
Proprietà delle stime di MQ 1
1 0 12
1
( )( )
( )
n
i X i YiXY
Y XnX
i Xi
x yCb b bD x
0 1 1 1
(la retta passa per il baricentro)ˆ ˆ:
X Y
X Y X X Y
x yInfatti y b b b b
ˆ
0 1 1 1
1
(da cui segue )ˆ
ˆ:
i i YYi i
i i Y X ii i i
Y i X ii i i
y y
Infatti y b b x b b x
b x y
1
(la somma dei residui è nulla)
:
0
ˆ ˆ 0
n
ii
i i i i ii i i iInfatti
e
e y y y y
Stime di MQ: traslazione Consideriamo una traslazione a della x
0 1 1( ) ' ay b b b x ePendenza invariata
Caso speciale: , cioè ' Pendenza invariata Nuova intercetta ben interpretabile:
è il valore previsto di quando
X X
X
x x
y x
a
' 'ax x ax x
0 1 0 1( ' ) y b b x e x ab b eda cui si ottiene
Nuova intercetta
Stime di MQ: traslazione /esempio
Nelle serie storiche la variabile esplicativa x rappresenta il tempo, ad esempio l’anno solare Spesso si effettua una traslazione della x, che semplifica i calcoli lasciando invariata la pendenza
Numero di prime registrazioni di autovetture a gasolio (registro automobilistico italiano) – Dati in migliaia
ˆ 666 96.4y x
Il coefficiente di MQ è 96.4 (cioè 96.4 migliaia di registrazioni in più per anno).La stima 96.4 è la stessa usando x=(1999,…,2003) oppure x’=(0,…,4)
Anno Anno ‐ 1999N. prime
registrazioni1999 0 6672000 1 7862001 2 8352002 3 9282003 4 1078
600
700
800
900
1'000
1'100
1'200
0 1 2 3 4
N. p
rime registrazion
i
Anno
Stime di MQ: cambiamento di scala
0 1' '
yy y
x
dy d b b x d e
d
' ' x yx d x y d y
• espansione della scala y (dy > 1) aumenta pendenza
• espansione della scala x (dx > 1) diminuisce pendenza
0 1 0 1' '
y x
y xy b b x e b b ed d
da cui si ottiene
Nuova pendenzaNuova intercetta
0
2
4
6
8
10
12
14
0 5 10 15
yx
Dataset originale
0
2
4
6
8
10
12
14
0 5 10 15 20 25 30
y
x
Espansione della X
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
0 5 10 15
y
x
Espansione della Y
' 2x x
' 2y y
Pendenza si dimezza
Pendenza raddoppia
Interpolazione
e
estrapolazione
InterpolazionePossiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X non osservato, ma interno all’intervallo osservato di X
Nel caso dell’altezza di fratelli e sorelle, l’intervallo osservato di altezze dei fratelli è [165,185] un esempio di interpolazione è usare la retta stimata per prevedere l’altezza di una sorella il cui fratello ha un’altezza x=172 cm (anche se nei dati nessuno ha questo valore):
altezza sorella = 19.851+0.823172 = 161.4 cm
ˆ 19.851 0.823y x
EstrapolazionePossiamo utilizzare la retta di regressione per prevedere il valore di Y per un dato valore di X esterno all’intervallo osservato di XNel caso dell’altezza di fratelli e sorelle, l’intervallo osservato di altezze dei fratelli è [165,185] un esempio di estrapolazione è usare la retta stimata per prevedere l’altezza di una sorella il cui fratello ha un’altezza x=190 cm
altezza sorella = 19.851+0.823190 = 176.2 cm
ˆ 19.851 0.823y x
Estrapolazione /cont. L’accuratezza dell’estrapolazione dipende da:•quanto la retta si adatta bene ai dati•quanto il valore x è lontano dai valori osservati L’estrapolazione è calcolabile per ogni valore reale di x, ma se ci si allontana molto dall’intervallo osservato può diventare assurda: ad es. per un fratello di altezza x=500 cm la retta di regressione prevede una sorella di altezza di 431.4 cm !! L’intercetta è la previsione di Y per x=0 se l’intervallo osservato non include lo zero si tratta di una estrapolazione e, a seconda del contesto, può essere una previsione assurda Nel caso dell’altezza dei fratelli e sorelle, x=0 non ha senso la corrispondente previsione di 19.851 cm non ha senso e non va interpretata!
Esempio del tempo TV: datiI dati riportati nella tabella seguente si riferiscono all’età in anni(X) e al tempo in minuti passato davanti alla televisione nell’ultima settimana (Y) per un campione di 6 soggetti:
Età Tempo TV X Y
34 430 42 365 55 620 59 580 61 800 63 780
Somma 314 3575 Media 52.3 595.8
2
1
1
( ) 683.333
( )( ) 9118.333
n
i Xin
i X i Yi
x
x y
Esempio del tempo TV: regressione
0
100
200
300
400
500
600
700
800
900
0 10 20 30 40 50 60 70
tem
po T
V (Y
)
età (X)
11
2
1
( )( )9118.333 13.344683.333( )
n
i X i Yi
n
i Xi
x yb
x
0 1 595.8 13.344 52.3 102.498 Y Xb b
ˆ 102.498 13.344y x
Esempio del tempo TV: interpretazione
La pendenza b1 = 13.3 è la variazione media del tempo TV settimanale in minuticorrispondente ad un aumento di 1 anno dell’età• Poiché la pendenza è positiva, all’aumentare dell’età tende ad aumentare il tempo TV: 1 anno in più aumento medio di 13.3 minuti per settimana2 anni in più aumento medio di 26.6 minuti per settimana10 anni in più aumento medio di 133 minuti per settimana1 anno in meno riduzione media di 13.3 minuti per settimana … ecc.
L’intercetta b0 = –102.5 è il tempo TV settimanale previsto per un soggetto di età zero (x=0)• In questa applicazione l’intercetta non è interpretabile perché non ha senso chiedersi qual è il valore previsto del tempo TV per un neonato!
L’intercetta è un caso speciale di valore previsto (è il valore previsto di Y quando x=0)
Esempio del tempo TV: previsioni La retta di regressione può essere usata per calcolare il valore previsto di Y in
corrispondenza di un qualunque valore di X, sia un valore osservato nel campione che un valore non osservato
Usando la retta di regressione precedente si ottengono, ad esempio, i seguenti valori previsti (arrotondati all’intero)
ˆ 102.498 13.344y x
x-10 -236
0 -10220 16430 29855 63160 69870 832
100 1232500 6570
y La retta, come funzione matematica, è definita sull’intero asse dei reali e quindi qualsiasi valore xdi X può essere usato per fare la previsione di Y
Tuttavia non tutti i valori di x hanno senso nel contesto applicativo: nell’esempio del tempo TV xè l’età e quindi non può essere negativa, ma non ha senso nemmeno prendere in considerazione valori di x vicini a 0 (perché i neonati non guardano la TV) e valori di x oltre 100 (perché gli esseri umani raramente superano tale età)
Intervallo di X per prevedere Y
In ogni applicazione si può determinare a priori (cioè indipendentemente dai dati effettivamente rilevati) un intervallo di valori di x che ha senso prendere in considerazione• nell’esempio del tempo TV l’intervallo di x che ha senso considerare non può essere definito in modo univoco, potremmo prendere ad es. da 3 a 100 anni
A posteriori, alla luce dei dati effettivamente rilevati, l’intervallo di valori di x che è opportuno utilizzare per prevedere la Ydovrebbe essere solo di poco più ampio dell’intervallo dei valori osservati di X (cosiddetto intervallo rilevante)• nell’esempio del tempo TV l’intervallo rilevante va da 34 a 63 anni
Interpolazione vs estrapolazione
Interpolazione: prevedere Y per un valore di X internoall’intervallo dei valori osservati
Estrapolazione: prevedere Y per un valore X esternoall’intervallo dei valori osservati • nell’esempio del tempo TV l’intervallo dei valori osservati di X va da 34 a 63 anni la previsione per x=60 è una interpolazionela previsione per x=20 è una estrapolazione
Attenzione alle estrapolazioni Le estrapolazioni vanno evitate o, per lo meno, limitate a valori xappena fuori dall’intervallo rilevante. • Infatti la retta di regressione è stata determinata usando i valori x dell’intervallo rilevante e non vi è alcun modo di sapere come la retta si modificherebbe aggiungendo valori x esterni all’intervallo rilevante; facendo estrapolazioni si assume implicitamente che aggiungendo valori x esterni la retta rimarrebbe sostanzialmente invariata, ma tale ipotesi non è verificabile ed è tanto meno plausibile quanto più i punti considerati sono lontani dall’intervallo rilevante
Ad esempio, la crescita in altezza di un bambino fra i 3 e gli 8 anni è approssimativamente lineare. Tracciando la retta di regressione dell’altezza (y) rispetto all’età (x) e utilizzandola per prevedere l’altezza a 25 anni si otterrebbero valori enormi, nell’ordine di 240 cm (ovviamente lo sviluppo fisico rallenta e si ferma con la maturità!)
I pericoli dell’estrapolazioneDiagramma di dispersione e retta di regressione
0100200300400500600700800900
0 10 20 30 40 50 60 70
età (X)
tem
po T
V (Y
)Intervallo rilevante
La linea rossa rappresenta una possibile relazione tra Y e X nella popolazione, mentre la retta nera è la retta di regressione determinata con i dati campionari, in cui l’intervallo rilevante è [34,63]
logarithm
ic scale
Bontà di adattamento della retta di regressione:
il coefficiente di determinazione r2
Misure di variabilità nella regressione DY (Devianza totale di Y): misura la variabilità dei valori Y osservati attorno alla loro media
DSL (Devianza di Y Spiegata della regressione Lineare su X): misura la variabilità dei valori Yprevisti dalla retta dei minimi quadrati attorno alla loro media (la quale, per una proprietà del metodo dei minimi quadrati, coincide con la media dei valori osservati)
DRL (Devianza di Y Residua rispetto alla regressione Lineare su X): misura la variabilità degli errori di regressione attorno alla loro media
2
1( )
n
Y i Yi
D y
2ˆ
1
2
1
ˆ( )
ˆ( )
n
SL i Yin
i Yi
D y
y
2 2
1 1
2
1
( )
ˆ( )
n n
RL i E ii in
i ii
D e e
y y
Y SL RLD D D Pertanto la regressione lineare semplice scompone la varianza totale di Y in due parti, una spiegata dalla relazione lineare con X e l’altra residuale
Misure di variabilità nella regressione
2
1( )
n
Y i Yi
D y
2
1
ˆ( )n
RL i ii
D y y
2
1
ˆ( )
n
SL i Yi
D y
Regressione: spiegare la variabilità La regressione può essere vista come un metodo per spiegare la variabilità di una variabile (Y) tramite la relazione lineare con un’altra variabile (X)• La spesa per consumi (Y) varia molto da famiglia a famiglia e può essere misurata da SST (che è il numeratore della varianza).
Perché le famiglie hanno consumi diversi? Risposta: i motivi sono molti, uno è perché le famiglie hanno redditi diversi e il consumo cresce al crescere del reddito.
Quanto è importante il ruolo del reddito nello spiegare la variabilità dei consumi delle famiglie? Risposta: assumendo una relazione lineare tra consumi e reddito, la risposta è fornita dalla scomposizione di SST nelle due parti SSR (variabilità dei consumi spiegata dalla relazione lineare con il reddito) e SSE (variabilità residuale dei consumi)
Coefficiente di determinazione r2
Poiché DSL0 e DSLDY segue che r2 [0,1]. Dunque r2 è un indice normalizzato: per ogni insieme di dati r2 ha valore min 0 e max 1
Il coefficiente di determinazione misura la bontà di adattamento della retta di regressione; infatti da DSL = DY ‐ DRL segue che r2 si può scrivere così:
La retta di regressione si adatta ai dati tanto meglio quanto più piccola è la somma dei quadrati degli errori, DRL, ovvero quanto più grande è il coefficiente di determinazione r2 (ma r2 è più facilmente interpretabile perché è un indice normalizzato)
2 SL
Y
DrD
2 1 RL
Y
DrD
Il coefficiente di determinazione è la proporzione di variabilità totale di Yspiegata dalla relazione lineare con X
Coefficiente di determinazione r2
Misurare la bontà di adattamento è cruciale per l’interpretazione e l’utilizzo dei risultati della regressione
La retta di regressione è la retta che meglio si adatta ai dati, quella che minimizza l’errore di previsione complessivo (definito dalla somma dei quadrati degli errori)
Tuttavia la migliore retta potrebbe comunque fare un pessimo lavoro, cioè la regressione lineare potrebbe spiegare solo una piccola parte della variabilità di Y ( enormi errori di previsione)
Quando il coefficiente di determinazione r2 è piccolo l’adattamento della retta è scarso e quindi la regressione lineare è uno strumento inutile
Coefficiente di determinazione r2
Il metro di giudizio sul valore assunto da r2 dipende dal contesto applicativo: in alcuni campi r2 è solitamente su valori tra 0.15 e 0.30, in altri campi (ad es. serie temporali) r2 è spesso intorno a 0.90 non si può dire in generale quale sia la soglia al di sotto della quale r2 debba ritenersi insoddisfacente
Caso limite r2=1: accade quando DRL=0, il che significa che tutti gli errori di previsione sono nulli e quindi tutti i punti del diagramma di dispersione giacciono sulla retta di regressione (che può avere qualunque pendenza, positiva o negativa)
Caso limite r2=0: accade quando DSL=0, il che significa che i valori previsti sono tutti uguali a e quindi la retta di regressione è orizzontale (ha pendenza nulla)
ˆiy y
Attenzione: r2 non misura la vicinanza dei punti alla retta
0
1
2
3
4
5
0 1 2 3 4 50
1
2
3
4
5
0 1 2 3 4 5
r2 = 0.5 r2 = 0.067
Calcolo di r2 Per calcolare r2 occorre calcolare DY e, a scelta, uno dei due termini della scomposizione della devianza La via più veloce è quella di calcolare DSL perché
Pertanto r2 si può scrivere anche
2 20 1 0 1
1 1
2 2 2 21 1 1
1 1
ˆ ( ) ( )
( ) ( ) ( ) ( )
n n
SL i Y i Xi in n
i X i X Xi i
D y b b x b b
b x b x b D
2
2 22 1( )
XYX
XSL X XY
Y Y Y X Y
C DDD b D Cr
D D D D D
Questo è il quadrato del coefficiente di correlazione lineare(vedi più avanti)
Calcolo di r2: esempio Nell’esempio del tempo TV si ha
• DY = 157220.833 • DX = 683.333 • b1 = 13.344.
Pertanto, DSL = (13.344)2 683.333 = 121675.870
2 121675.870 0.7739157220.833
SL
Y
DrD
Il 77.39% della variabilità del tempo TV è spiegata dalla relazione lineare con l’età
Errore quadratico medio di previsione
La radice quadrata della varianza residua è interpretabile come l’errore medio che si commette prevedendo Y tramite il modello di regressione lineare su X
Nell’esempio del tempo TV
2
1
1 ˆ( )n
RLRL i i
i
D y yn n
157220.833 121675.87 35544.963
35544.963 76.969 (minuti)6
RL
RL
D
Media quadratica degli errori di previsione
A differenza di r2, l’errore di previsione ha unità di misura (quella di y)
La simmetria di r2
Guadiamo l’indice di determinazione nella forma
L’indice è simmetrico: rimane invariato cambiando l’ordine di X e Y cioè invertendo il ruolo di X e Y nella regressione: la regressione di Y su X e la regressione di X su Y producono lo stesso valore dell’indice di determinazione, cioè hanno la stessa bontà di adattamento
Dunque i risultati della regressione non forniscono alcuna indicazione in merito alla scelta di quale variabile usare come risposta e quale come esplicativa: tale scelta è necessariamente basata sulla conoscenza a priori di quale è la causa (= l’esplicativa) e quale l’effetto (la risposta); in mancanza di tale conoscenza la scelta è effettuata arbitrariamente dall’analista in base al punto di vista che vuole privilegiare
22 XY
X Y
CrD D
Esempio: l’indice r2 può cambiare molto se si ignorano gruppi rilevanti
Y su X | Z=0 r2 = 0.79Y su X | Z=1 r2 = 0.41
Y su X | tutti r2 = 0.12
La rappresentazione grafica è importante per capire il legame tra X e Y nei gruppi individuati da Z!
Z=0
Z=1
Esempio con due gruppi individuati dalla variabile binaria Z
In questo esempio ignorare la variabile categorica Z (cioè ignorare i gruppi e fare una regressione unica) comporta un «annacquamento» della relazione tra Y e X
Formule nel caso in cui i dati sono in forma di distribuzione doppia di
frequenze
Regressione con distribuzioni doppie /1
Le formule per la regressione dipendono da indici di sintesi (medie, devianze, codevianza) basta calcolare gli indici usando le frequenze
Considerando che (xi, yj) si presenta con una frequenza nij e che alle modalità xi e yj vanno associate le frequenze marginali ni0 e n0j, abbiamo:
1 1( )( )s t
XY i X j Y iji jC x y n
0 01 1
1 1;s tX i i Y j ji j
x n y nN N
Codevianza
Medie marginali di X e Y
201
( )sX i X ii
D x n
Devianza di X
Carattere X
Carattere Y Totaley1 y2 … yj … yt
x1 n11 n12
…
n1j…
n1t n10x2 n21 n22
…
n2j
…
n2t n20… … … … … … … …
xi ni1 ni 2…
nij
…
nit ni0… … … … … … … …
xs ns1 ns2…
nsj
…
nst ns0Totale n01 n02
…
n0j
…
n0t N
Regressione con distribuzioni doppie /2
2
1 1
ˆ( )s t
RL j i iji j
D y y n
20
1
ˆ( )s
SL i Y ii
D y n
Devianza spiegata
Devianza residua
1
0 1
22
XY
X
Y X
SL XY
Y X Y
CbD
b b
D CrD D D
20
1( )
t
Y j Y jj
D y n
Devianza totale di Y
Per calcolare le stime di MQ e l’indice di determinazione lineare si applicano le usuali formule
Regressione con distribuzioni doppie /3
Distribuzione doppia di frequenze di un gruppo di pazienti per età e massa muscolare: (file «massa muscolare.xls» libro Cicchitelli)
Età (X)Massa muscolare (Y)
Totale51‐6558
66‐8073
81‐9588
96‐120108
41‐51 46 0 0 2 13 15
51‐61 56 0 5 7 5 17
61‐71 66 2 8 4 0 14
71‐81 76 6 6 2 0 14
Totale 8 19 15 18 60
58∙8 73∙19 88∙15 108∙18 85.2560Y
46∙15 56∙17 66∙14 76∙14 60.5060X
2 2(46 60,50) ∙15 (56 60,50) ∙17XD
2 2(66 60.50) ∙14 (76 60.50) ∙147285.0
(46 60.50)(88 85.25)∙2 (46 60.50)(108 85.25)∙13 (76 60.50)(88 85.25)∙2] 9057.50XYC
1 09057.50 1.24; 85.25 ( 1.24∙60.50) 160.477285.0
b b
I due caratteri sono raggruppati in intervalli si usano i valori centrali (in rosso)
Regressione con distribuzioni doppie /4
Età (X)Massa muscolare (Y)
Totale51‐6558
66‐8073
81‐9588
96‐120108
41‐51 46 0 0 2 13 15
51‐61 56 0 5 7 5 17
61‐71 66 2 8 4 0 14
71‐81 76 6 6 2 0 14
Totale 8 19 15 18 60
I numeri in rosso sono i valori centrali
22 ( 9057.50) 0.62
7285.0 18221.25r
2 2 2 2(58 84.58) ∙8 (73 84.58) ∙19 (88 84.58) ∙15 (108 84.58) ∙1818221.25
YD
L’indice di determinazione assume il valore
Dunque, la retta di regressione spiega il 62% della variabilità totale della massa muscolare
Curva di regressione
Curva di regressioneConsideriamo una distribuzione doppia di frequenze. Rappresentiamo su un piano cartesiano i punti che hanno come ascissa il valore xi e come ordinata la corrispondente media di Y condizionata a xi. Si tratta cioè di rappresentare gli s punti di coordinate
Si definisce curva di regressione la spezzata che unisce tali punti.
1 1 2 2, ( ) , , ( ) , , , ( )Y Y s Y sx x x x x x
Curva di regressione: adattamentoL’adattamento della curva di regressione, analogamente alla retta di regressione, può essere misurato dall’indice di determinazione
Nel caso della curva di regressione i valori previsti sono le medie condizionate, per cui DSL=DS e quindi l’indice di determinazione è identico al rapporto di correlazione
Chiaramente la curva di regressione di adatta meglio ai dati della retta di regressione (essendo una spezzata è più flessibile, al limite ha lo stesso adattamento se la spezzata è una retta). Pertanto
2 SL
Y
DrD
2 20 0
1 12 2curva di regressione
ˆ ˆ( ) ( ) ( ( ) )s s
i Y i SL i Y i Y i Y i Si i
Y
y x D y n x n D
r
2 2Y r