RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf ·...

26
RENATO LEONI Regressione lineare UNIVERSITÀ DI FIRENZE DIPARTIMENTO DI STATISTICA "G. PARENTI" FIRENZE, 2007

Transcript of RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf ·...

Page 1: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

RENATO LEONI

Regressione lineare

UNIVERSITÀ DI FIRENZE

DIPARTIMENTO DI STATISTICA "G. PARENTI"

FIRENZE, 2007

Page 2: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

Questo lavoro è destinato a un uso personale e ne è vietata la

commercializzazione.

Page 3: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 3

1 IL MODELLO DI REGRESSIONE LINEARE

Dati 1+p caratteri quantitativi, supponiamo che questi siano distinti in

due gruppi il primo dei quali è formato da un solo carattere, che indichiamo

con Y, il secondo dai rimanenti p caratteri, che indichiamo con X 1 , ... , X p .

Chiamiamo il carattere che entra nel primo gruppo variabile dipendente e

i caratteri del secondo gruppo variabili indipendenti o variabili esplicative

o regressori.Indichiamo inoltre con yi la i-esima determinazione della variabile dipen-

dente Y e con xi j la i-esima determinazione della variabile indipendente X j

(i = 1,... ,n; j = 1,... ,p).

Considerata una famiglia di funzioni del tipo

Y = b0 + b1 X 1 + ... + bp X p ,

si fissi per il momento l'attenzione su un certo insieme di valori (qualsiasi)

dei coefficienti b0 , b1 , ... , bp (coefficienti di regressione lineare).

Ovviamente, in corrispondenza delle determinazioni xi 1 , ... , x i p assunte

dalle variabili indipendenti X 1 , ... , X p , si ottiene, in generale, un valore

teorico b0 + b1 xi 1 + ... + bp xi p che si discosta, per difetto o per eccesso, dal

valore osservato y i .

La differenza yi − b0 − b1 xi 1 − ... − bp xi p riceve la denominazione di

residuo (scostamento, errore, scarto) e sarà indicata con e i .

Si ha quindi che (modello di regressione lineare)

(1) yi = b0 + b1 xi 1 + ... + bp xi p + e i

OSSERVAZIONE 1.  Come si è ora detto, la (1) assume genericamente la

denominazione di modello di regressione lineare.

Più specificatamente, nel caso in cui si abbia una sola variabile indi-

pendente (p = 1) si parla di modello di regressione lineare semplice, mentre

qualora si abbiano più variabili indipendenti (p >1) si parla di modello di

Page 4: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

4 RENATO LEONI

regressione lineare multipla.

OSSERVAZIONE 2.  Si consideri un modello del tipo (modello di regressione

funzionale)

g (yi) = b0 + b1 g1 (xi 1) + ... + bp gp (xi p) + e i

dove g , g1 , ... , gp sono funzioni note, rispettivamente, di Y , X 1 , ... , X p .

Chiaramente, posto

yi* = g(yi) , x i 1

* = g1 (xi 1) , ... , x i p* = gp (xi p) ,

ci si riconduce a un modello di regressione del tipo considerato in prece-

denza in cui tuttavia − in luogo delle determinazioni delle variabili originarie

Y , X 1 , ... , X p . − compaiono le determinazioni delle variabili trasformate

Y * , X 1* , ... , X p

*.

OSSERVAZIONE 3.  Supposto che si abbia una sola variabile indipendente X,

indichiamo le determinazioni da essa assunte con x1 , ... , xn .

Considerato un modello del tipo (modello di regressione funzionale

semplice)

yi = b0 + b1 g1 (xi) + ... + bp gp (xi) + e i

dove g1 , ... , gp sono funzioni note di X, ci si riconduce al modello di regres-

sione descritto in precedenza ponendo

xi 1* = g1 (xi) , ... , x i p

* = gp (xi) .

Page 5: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 5

2 LA DETERMINAZIONE DEI COEFFICIENTI DI REGRESSIONE

LINEARE

Il problema che ci proponiamo di risolvere per primo riguarda la determi-

nazione dei coefficienti di regressione lineare b0 , b1 , ... , bp che compaiono

nella (1) attraverso il metodo dei minimi quadrati (m.q.).

In termini formali, si tratta di determinare i coefficienti b0 , b1 , ... , bp che

rendono minima la quantità

S = Σ i e i2 = Σ i (y i − b0 − b1 xi 1 − ... − bp xi p)

2

Allo scopo di procedere il più rapidamente possibile alla soluzione di tale

problema è conveniente introdurre una notazione di tipo matriciale.

Siano

y = y1

yn

, Z = 1 x1 1 x1 p

1 xn 1 xn p

, b = b0

bp

, e = e 1

e n

cosicché la (1) assume la forma

(1') y = Zb + e

Posto (1)

S = Σ i e i2 = e'e

= (y − Zb)'(y − Zb) = y'y − y'Zb − b'Z'y + b'Z'Zb= y'y − 2 y'Zb + b'Z'Zb ,

il vettore b dei coefficienti che rende minima la quantità S deve essere tale

che la derivata di S rispetto a b, calcolata in b, risulti nulla.

Ma,

(1)   Si osservi che nella espressione che segue è y 'Zb = b 'Z 'y essendo entrambi i membri di questaeguaglianza degli scalari.

Page 6: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

6 RENATO LEONI

∂S∂b

= − 2Z'y + 2Z'Zb

e quindi, eguagliando a zero tale espressione, si ha (sistema di equazioni

normali)

Z 'Zb = Z'y

D'altro canto, nell'ipotesi a cui ci atterremo anche nel seguito che Z sia di

pieno rango per colonne (2), Z'Z risulta invertibile; pertanto, il sistema di cui

sopra ammette un'unica soluzione rispetto al vettore dei coefficienti inco-

gniti b data da

(2) b = (Z 'Z)- 1 Z'y

Inoltre, poiché la matrice ∂2 S ∂b∂b' = 2Z'Z è definita positiva, la soluzio-

ne ottenuta rappresenta effettivamente un minimo (globale) di S.

ESEMPIO 1.  Dati

y = 4202

, Z = 1 −1 −11 −1 −11 1 −21 1 0

risulta

Z'Z = 4 0 −4 0 4 0−4 0 6

, (Z 'Z)- 1 = 14

3 0 20 1 02 0 2

e, quindi,

b = 14

3 0 20 1 02 0 2

1 1 1 1−1 −1 1 1−1 −1 −2 0

4202

= 3−1 1

.

(2)   Si noti che una condizione necessaria affinché ciò si verifichi è che sia n ≥1+p .

Page 7: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 7

3 ALCUNE PROPRIETÀ ELEMENTARI DELLA SOLUZIONE

DEI MINIMI QUADRATI

Allo scopo di evidenziare alcune semplici proprietà della soluzione otte-

nuta mediante il metodo dei m.q., si osservi anzitutto che, indicando con

y = Zb

il vettore dei valori teorici e con

e = y − y = y − Zb

il vettore dei residui, risulta

Z' e = Z '(y − y) = Z 'y − Z ' y = Z 'y − Z 'Zb

= Z 'y − Z 'Z(Z 'Z)- 1 Z'y = Z 'y − Z 'y = 0

In particolare, tenendo presente che la prima riga della matrice Z' è

costituita dal vettore riga (di ordine n) u' = 1 1 , si ha che

u ' e = u ' (y − y) = 0

da cui

u ' y = u ' y

ovvero che la somma dei valori osservati eguaglia la somma dei valori

teorici.

Inoltre, essendo

e ' y = y ' e = b' Z' e = b' 0 = 0 ,

risulta che

Page 8: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

8 RENATO LEONI

y ' y = (y + e ) '(y + e ) = y ' y + y ' e + e ' y + e ' e

= y ' y + e ' e

ovvero che la somma dei quadrati dei valori osservati può essere

scomposta in due parti di cui la prima rappresenta la somma dei quadrati

dei valori teorici, la seconda rappresenta la somma dei quadrati dei

residui.

ESEMPIO 2.  Proseguendo nell'Esempio 1, si ha che

y = 1 −1 −11 −1 −11 1 −21 1 0

3−1 1

= 3302

, e = 4202

− 3302

= 1−1 0 0

.

ed, essendo y ' y = 24, y ' y = 22, e ' e = 2, la proprietà di scomponibilità della

somma dei quadrati dei valori osservati risulta verificata.

OSSERVAZIONE 4.  La relazione esistente tra le determinazioni assunte dalla

variabile dipendente e le determinazioni assunte dalle variabili indipendenti

è, talvolta, descritta da un modello del tipo

yi = b1 xi 1 + ... + bp xi p + e i

in cui cioè manca il coefficiente b0.

Qualora si proceda al calcolo dei coefficienti incogniti b1 , ... , bp mediante

il metodo dei m.q. (3), si ottiene, com'è facile verificare, una espressione del

tutto analoga alla (2).

In tal caso, tuttavia, pur continuando a valere la proprietà di scomponi-

bilità della somma dei quadrati dei valori osservati, non sussiste più, in

generale, l'eguaglianza tra la somma dei valori osservati e la somma dei

valori teorici.

(3)   Si noti che, in questo caso, una condizione necessaria affinché la matrice delle determinazioni

assunte dalle variabili indipendenti sia di pieno rango per colonne è che si abbia n ≥ p .

Page 9: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 9

4 UNA INTERPRETAZIONE GEOMETRICA DELLA SOLUZIONE

DEI MINIMI QUADRATI

Vogliamo, adesso, mostrare come i risultati conseguiti in precedenza

attraverso il metodo dei m.q. siano suscettibili di ricevere una semplice, ma

significativa, interpretazione geometrica.

A questo fine, definiamo anzitutto il prodotto scalare G( v , w) di due

generici vettori v ,w∈ Rn ponendo (metrica standard)

G( v , w) = v' w .

Come è noto, risulta allora possibile esprimere la lunghezza v di ogni

vettore v ∈ Rn mediante l'espressione

v = G( v , w) = v' v

e la distanza tra due vettori v ,w∈ Rn attraverso la relazione

d(v ,w) = v−w = G( v−w , v−w) = (v −w)'(v−w) .

Assunta quale base di Rn quella costituita dagli n vettori canonici (di

ordine n) u 1 , ... , u n e posto

x j =

x 1 j

x n j

,

indichiamo con S1 il sottospazio di Rn generato da u , x1 , ... , xp .

Dato il vettore y definito in precedenza, è immediato riconoscere che il

vettore

y = Z(Z 'Z)- 1 Z'y = Z b

− tale che la distanza al quadrato

d2 (y , y) = (y − Z b)'(y − Z b) = S

Page 10: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

10 RENATO LEONI

di y da y sia minima rispetto a ogni altro vettore di S1 − non è altro che la

proiezione ortogonale di y su S1.

Inoltre, il teorema di Pitagora, applicato ai vettori (ortogonali) y − y = e e

y , fornisce immediatamente la proprietà di scomponibilità della somma dei

quadrati dei valori osservati.

La Fig. 1 che segue, in cui p = 1, illustra quanto ora detto.

In essa il vettore y è rappresentato come un vettore non appartenente al

sottospazio S1 di R3 generato dai vettori u e x1 e il vettore y è ottenuto come

proiezione ortogonale di y su S1.

Le coordinate di y rispetto a u e a x1 (non disegnate in figura) rappre-

sentano i coefficienti di regressione b0 e b1.

0

Fig. 1

S1•yy

x1

u•e

Page 11: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 11

5 LA DETERMINAZIONE DEI COEFFICIENTI DI REGRESSIONE

LINEARE: CONSIDERAZIONI ULTERIORI

Come si è visto, il calcolo dei coefficienti di regressione può essere

eseguito direttamente sulla base della (2).

Tuttavia, sia allo scopo di rendere più agevole l'esecuzione dei calcoli, sia

perché i coefficienti che realmente interessano sono quelli che si accompa-

gnano a x1 , ... , xp , può essere conveniente impostare il problema in maniera

leggermente differente da quella che abbiamo esposto in precedenza.

A questo fine, consideriamo i vettori

y = u (u ' u)- 1 u ' y = u u ' yn = u y , x j = u (u ' u)- 1 u ' x j = u

u ' x j

n = u xj

dove y e xj rappresentano le medie degli elementi contenuti, rispettiva-

mente, in y e x j (4).

Definiti i vettori (scarti dalle rispettive medie)

y = y − y = y1 − y

yn − y , x j = x j − x j =

x1 j − x j

xn j − x j

e posto

X = x1 xp ,

vogliamo anzitutto mostrare che gli elementi del vettore

(3) b = (X'X)- 1X' y

− ottenuto minimizzando, rispetto a b, l'espressione

( y − Xb) '( y − Xb)

(4)   Si noti che y e x j si possono interpretare come le proiezioni di y e x j nel sottospazio generatodal vettore u .

Page 12: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

12 RENATO LEONI

− sono gli stessi, nell'ordine, di quelli che compaiono nel vettore b (Cfr. la

(2)) in corrispondenza di x1 , ... , xp e che b0 può essere facilmente calcolato,

qualora interessi, sulla base di b.

A questo scopo, supponiamo di ripartire la matrice Z e il vettore b nel

seguente modo

Z = u x1 xp = u X , b =

b0

b1

bp

= b0

b1

.

Le posizioni fatte consentono di scrivere la (2) nella forma

b = b0

b1

= ( u 'X'

u X )- 1 u '

X' y = u ' u u ' X

X' u X ' X

-1

u ' y

X' y

da cui, tenuto conto della formula di inversione di una matrice a blocchi e

posto

H = I n − 1n u u ' ,

dopo qualche passaggio si ottiene

b0 = 1n {1 + u ' X(X 'H X)- 1 X' u 1n}u ' y − 1n u ' X(X 'H X)- 1 X' y

= 1n {u ' y − u ' X(X 'H X)- 1 X'H y} ,

b1 = −(X 'H X)- 1 X'u 1n u ' y + (X 'H X)- 1 X' y

= (X 'H X)- 1 X'H y .

Si osservi che la matrice H qui sopra definita è simmetrica (H = H ') e

idempotente (H = H 2 ) per cui possiamo anche scrivere (5)

(5)   Si noti che H è la matrice di proiezione ortogonale nel complemento ortogonale del sottospaziogenerato da u .

Page 13: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 13

b1 = ((H X)'(H X)) -1(H X)'(H y) .

D'altro canto, si riconosce facilmente che

H X = X , Hy = y

e, quindi, risulta intanto che

b1 = b

Infine, noto b, si ha che

(4) b0 = 1n {u ' y − u ' Xb}

OSSERVAZIONE 5.  Vogliamo mostrare che la matrice X di ordine (n,p), ha

rango pari a p, vale a dire è una matrice di pieno rango per colonne, e che

pertanto X ' X è invertibile, come si è implicitamente supposto nella (3).

A questo fine, osserviamo intanto che, essendo Z = u X e r(Z) = 1+p

risulta r(X) = p.

Allora, tenuto conto della formula sullo sviluppo del determinante di una

matrice a blocchi, si ha

det (Z 'Z) = det u ' u u ' XX' u X ' X

= det(X'X − X 'u (u ' u)- 1 u'X) det(u ' u)≠ 0

da cui

det(X'X − X 'u (u ' u)- 1 u ' X) = det(X '(I − 1n uu ') X)

= det(X'H X)≠ 0

e, quindi,

r( X'H'H X) = p = r(H X) = (X) .

Page 14: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

14 RENATO LEONI

OSSERVAZIONE 6.  Si noti che il vettore dei residui e che si ottiene come

differenza tra y e la proiezione ortogonale

y = Xb1 = X(X ' X)-1X ' y

di y nel sottospazio generato dai vettori colonna di X è eguale al vettore dei

residui e che si ottiene come differenza tra y e la proiezione ortogonale y di

y nel sottospazio generato dai vettori colonna di Z.

Infatti, posto

e = y − Z b = y − u X b0

b1

= y − u b0 − X b1 ,

premoltiplicando il primo e l'ultimo membro per H e osservando che

H e = (I − u u 'n ) e = e , Hu = (I − u u '

n ) u = 0

si ottiene

e = y − y = e

OSSERVAZIONE 7.  Si noti che risulta

y = Xb1 = HXb1 = Hu b0 + H Xb1 = Hy = (I − u u 'n ) y = y − y

Page 15: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 15

6 SCOMPONIBILITÀ DELLA DEVIANZA E INDICE

DI DETERMINAZIONE LINEARE

Applicando il teorema di Pitagora ai vettori (ortogonali) y ed e , si ottiene

(Fig. 2)

y ' y = y ' y + e ' e

Tenuto conto dell'Osservazione 7, si ha poi che

y ' y = Σ i (y i − y)2 , y ' y = Σ i (y i − y)2 , e ' e = Σ i e i2

I termini di qui sopra ricevono la denominazione, rispettivamente, di de-

vianza totale, devianza di regressione, devianza residua e il loro legame

esprime la cosiddetta scomponibilità della devianza.

y

ye

Fig. 2

0

OSSERVAZIONE 8.  In generale, la proprietà di scomponibilità della devianza

non risulta verificata in un modello in cui manchi il coefficiente b 0 (6). z

(6)   Per una discussione di questo punto si veda: Leoni, R., Una osservazione sulla scomponibilitàdella devianza nel modello di regressione lineare multipla "senza intercetta", Rivista di StatisticaApplicata, N. 4, 1985.

Page 16: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

16 RENATO LEONI

Il rapporto

ρ = y ' yy ' y

= Σ i (y i − y)2

Σ i (y i − y)2 = 1 − e ' e

y ' y = 1 − Σ i e i

2

Σ i (y i − y)2

riceve la denominazione di indice di determinazione lineare.

Da un punto di vista geometrico, ρ è interpretabile come il quadrato del

coseno dell'angolo formato dai vettori y e y , cioè ρ = cos2 ( y , y).

Tale indice assume il valore 1 se e soltanto se, per ogni i = 1,... ,n, risulta

yi = y i , ovvero quando il vettore y è eguale al vettore y; assume, invece, il

valore 0 se e soltanto se, per ogni i = 1,... ,n, risulta yi = y, vale a dire

quando y = 0 .

L'indice di determinazione lineare rappresenta quindi una misura del

grado di accostamento tra i valori osservati e i valori teorici.

OSSERVAZIONE 9. Nel caso di un modello di regressione semplice, la radice

quadrata di ρ − a cui è attribuito un segno (sgn), quello stesso di b1

(concordanza positiva o negativa) − è solitamente indicata con r e riceve la

denominazione di coefficiente di correlazione lineare semplice; quindi, si

ha che −1 ≤ r ≤ +1.

Come si verifica facilmente, r può essere espresso nelle forme

r = sgn( b1 )y ' y

y ' y= sgn( b1 )

( y − e )' x1 b1

y ' y

= sgn( b1 )y ' x1 b1 − e ' x1 b1

y ' y= sgn( b1 )

y ' x1 b1

y ' y

= sgn( b1 )( y ' x1 )2

( y ' y) ( x1' x1 )= sgn( b1 )

y ' x1

( y ' y) ( x1' x1 ) .

ESEMPIO 3.  Riprendendo l'Esempio 1, risulta (p = 2)

Page 17: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 17

y = 2 0−2 0

, X = −1 0−1 0 1 −1 1 1

.

Pertanto,

b1 = ( −1 −1 1 1 0 0 −1 1

−1 0−1 0 1 −1 1 1

)- 1 −1 −1 1 1

0 0 −1 1

2 0−2 0

= −1 1

,

b0 = 14

1 1 1 1 4202

− 1 1 1 1 −1 −1−1 −1 1 −2 1 0

−1 1

= 3

e, inoltre,

y = 1 1−2 0

, e = 1−1 0 0

, ρ = 68

= 34

.

Page 18: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

18 RENATO LEONI

8 CAMBIAMENTI DI UNITÀ DI MISURA

Ci proponiamo di mostrare come muta b1 = b quando cambiano le unità di

misura in cui sono espresse le determinazioni delle variabili considerate.

A questo fine, posto (kj >0, per j = 1,... ,p)

K = diag(k1 , ... , kp ) ,

siano (k  > 0)

y ∗ = y k , X∗ = XK .

Allora ((K- 1)' = K- 1) ,

(X' X)-1 = ((X∗ K-1) '( X∗ K-1)) -1 = K(( X∗ )'( X∗ ) ) -1 K ,

X' y = K-1 ( X∗ )' y ∗ k-1

e, quindi,

b1 = (X' X)-1X' y = K(( X∗ )'( X∗ ) ) -1 KK-1 ( X∗ )' y ∗ k-1

= k-1 K(( X∗ )'( X∗ ) ) -1 ( X∗ )' y ∗ = k-1 Kb1∗

ovvero

b1∗ = kK-1 b1

A sua volta, si verifica facilmente che (K' = K)

ρ = y ' yy ' y

= ( y ∗ )' ( y ∗ )

( y ∗ )' ( y ∗ ) = cos2 ( y ∗ , y ∗ )

In conclusione, cambiando le unità di misura, il vettore dei coefficienti di

regressione b1 varia nel modo indicato qui sopra; invece, l'indice di

determinazione lineare, come è facilmente intuibile quando si rifletta sul

significato geometrico di ρ, rimane invariato.

Page 19: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 19

9 REGRESSIONE PARZIALE

Circa il significato da attribuire ai coefficienti di regressione b1 , ... , bp , s i

può intanto osservare che, considerata la funzione di regressione

Y = b0 + b1 X 1 + ... + bp X p ,

chiaramente bj (j = 1,... ,p) esprime la variazione (incremento o decremen-

to) che subisce la variabile dipendente Y allorché la variabile indipendente

X j subisce un incremento unitario, fermo restando il valore assunto dalle

altre variabili indipendenti.

Oltre a quello ora indicato, il coefficiente di regressione bj presenta un

altro significato che vogliamo porre in evidenza.

A questo fine, riprendiamo in considerazione la matrice Z definita in

precedenza e supponiamo di ripartirla nel seguente modo

Z = u x1 xp -1 xp = Z (p -1) xp .

Siano

yZ (p -1) = Z (p -1)(Z (p -1)' Z (p -1))- 1 Z (p -1)' y , xp , Z (p -1) = Z (p -1)(Z (p -1)' Z (p -1))

- 1 Z (p -1)' xp

i vettori che si ottengono dalla regressione di y e xp rispetto ai vettori

colonna che compongono Z (p -1) , ovverosia le proiezioni ortogonali di y e xp

nel sottospazio generato dai vettori colonna di Z (p -1) .

Con un linguaggio assai espressivo − al quale, tuttavia, non sempre

corrisponde un significato sostanziale − si suole dire che tali vettori

rappresentano l'influenza determinata dalle variabili X 1 , ... , X p -1 sul le

variabili Y e X p .

Ne consegue che i vettori

yZ (p -1) = y − yZ (p -1) , xp , Z (p -1) = x p − xp , Z (p -1)

rappresentano ciò che rimane dopo che tale influenza è stata eliminata.

Page 20: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

20 RENATO LEONI

Eseguendo la regressione di yZ (p -1) rispetto a xp , Z (p -1) − ovvero,proiettando ortogonalmente yZ (p -1)

nel sottospazio generato da xp , Z (p -1) − siottiene

yZ (p -1) = xp , Z (p -1)( xp , Z (p -1)' xp , Z (p -1))- 1 xp , Z (p -1)' yZ (p -1)

Il coefficiente

bp , Z(p -1) = (xp , Z (p -1)' xp , Z (p -1))- 1 xp , Z (p -1)' yZ (p -1)

è detto coefficiente di regressione lineare parziale (o netta) di yZ (p -1)

rispetto a xp , Z (p -1) .

A sua volta, il coefficiente

rZ (p -1) = sgn( bp , Z (p -1))yZ (p -1)

' yZ (p -1)

yZ (p -1)' yZ (p -1)

= sgn( bp , Z (p -1)) cos2 ( yZ (p -1) , yZ (p -1))

è denominato coefficiente di correlazione lineare parziale (o netta) tra

yZ (p -1) e xp , Z (p -1) .

Si tratta, in entrambi i casi, di coefficienti calcolati dopo che l'influenza di

X 1 , ... , X p -1 su Y e X p è stata eliminata o, come anche si dice, al netto

dell'influenza di X 1 , ... , X p -1 .

OSSERVAZIONE 10.  Con un procedimento analogo a quello utilizzato nella

Osservazione 5 si può facilmente dimostrare mostrare che il vettore xp , Z (p -1)

è diverso dal vettore zero e che pertanto xp , Z (p -1)' xp , Z (p -1) è un numero reale

non nullo, come si è implicitamente supposto qui sopra. z

Vogliamo mettere in evidenza, adesso, che bp , Z (p -1) è uguale a bp, cosic-

Page 21: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 21

ché quest'ultimo ha anche il significato di coefficiente di regressione netta.

Eseguiamo, a tal fine, una ripartizione del vettore b nel seguente modo

b =

b0

bp -1

bp

= b(p -1)

bp

.

Le posizioni fatte consentono di scrivere la (2) nella forma

b = b(p -1)

bp

= ( Z (p -1)'

xp' Z (p -1) x p )- 1

Z (p -1)'

xp' y

= Z (p -1)' Z (p -1) Z (p -1)' xp

xp' Z (p -1) xp' xp

-1

Z (p -1)' yxp' y

da cui, tenuto conto della formula di inversione di una matrice a blocchi,

dopo qualche passaggio, si ottiene

bp =(xp' xp −xp' Z (p -1)( Z (p -1)' Z (p -1))- 1 Z (p -1)' xp )- 1 (−xp' Z (p -1)( Z (p -1)' Z (p -1))

- 1 Z (p -1)' y+xp' y) .

Ma − tenuto conto delle espressioni di xp , Z (p -1) , xp , Z (p -1) , yZ (p -1) , yZ (p -1)

date in precedenza e del fatto che

xp , Z (p -1)' xp , Z (p -1) = xp , Z (p -1)' (x p − xp , Z (p -1))

= (Z (p -1)(Z (p -1)' Z (p -1))- 1 Z (p -1)' xp )'(x p − Z (p -1)(Z (p -1)' Z (p -1))

- 1 Z (p -1)' xp ) = 0

e

xp , Z (p -1)' yZ (p -1) = (x p − xp , Z (p -1))' yZ (p -1)

= (x p − Z (p -1)(Z (p -1)' Z (p -1))- 1 Z (p -1)' xp )' Z (p -1)(Z (p -1)' Z (p -1))

- 1 Z (p -1)' y = 0

− si ha

bp = (x p' xp − xp' xp , Z (p -1))- 1 (− xp , Z (p -1)' y + x p' y)

= (x p' (x p − xp , Z (p -1)))- 1 (x p − xp , Z (p -1))' y

Page 22: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

22 RENATO LEONI

= (x p' xp , Z (p -1))- 1 (xp , Z (p -1)' y)

= (x p' xp , Z (p -1) − xp , Z (p -1) xp , Z (p -1))- 1 (xp , Z (p -1)' y − xp , Z (p -1)' yp , Z (p -1))

= (xp , Z (p -1)' xp , Z (p -1))- 1 (xp , Z (p -1)' yZ (p -1))

ovvero

bp = bp , Z (p -1)

Ovviamente, il ragionamento ora svolto può essere ripetuto per ciascuno

degli altri coefficienti di regressione e, quindi, a ciascuno di essi può essere

attribuito il significato di coefficiente di regressione netta.

ESEMPIO 4.  Riprendendo l'Esempio 1 e con le notazioni ora introdotte, si ha

che (p = 2)

Z (p -1) = 1 −11 −11 11 1

, xp = −1−1−2 0

yZ (p -1) = 3311

, xp , Z (p -1) = −1−1−1−1

, yZ (p -1) = 1−1−1 1

, xp , Z (p -1) = 0 0−1 1

e, quindi,

bp , Z (p -1) = 1 = bp , yZ (p -1) = 0 0−1 1

, rZ (p -1) = 12 2

. z

Supponiamo adesso di eseguire una ripartizione della matrice Z nel

seguente modo

Z = u x1 xh xh + 1 xp = Z (h ) X (p - h ) .

Siano (j = h+1, ... , p)

Page 23: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 23

yZ ( h ) = Z ( h ) (Z ( h )' Z ( h ))- 1 Z ( h )' y , x j , Z ( h ) = Z ( h ) (Z ( h )' Z ( h ))

- 1 Z ( h )' x j

i vettori che si ottengono dalla regressione di y e x j rispetto ai vettori

colonna che compongono Z (h ), ovverosia le proiezioni ortogonali di y e x j nel

sottospazio generato dai vettori colonna di Z (h ).

Chiaramente, tali vettori rappresentano l'influenza determinata dalle

variabili X 1 , ... , X h sulle variabili Y e X j.

Ne consegue che i vettori

yZ ( h ) = y − yZ ( h ) , x j , Z ( h ) = x j − x j , Z ( h )

rappresentano ciò che rimane dopo che tale influenza è stata eliminata.

Ciò premesso, operando la regressione di yZ ( h ) rispetto ai vettori colonna

della matrice (7)

Xp , Z ( h ) = xh +1 , Z ( h ) xp , Z ( h ) ,

si ottiene

yZ ( h ) = Xp , Z ( h )(Xp , Z ( h )' Xp , Z ( h ))

- 1 Xp , Z ( h )' yZ ( h )

Il vettore

bp , Z ( h ) = (Xp , Z ( h )' Xp , Z ( h ))

- 1 Xp , Z ( h )' yZ ( h )

è anche detto vettore dei coefficienti di regressione multipla-parziale di

yZ ( h ) rispetto a Xp , Z ( h ) .

Ora, con un procedimento analogo a quello esposto in precedenza, si

dimostra che gli elementi bh + 1 , Z ( h ) , ... , bp , Z ( h ) di bp , Z ( h ) sono gli stessi,

nell'ordine, dei coefficienti di regressione bh + 1 , ... , bp che si accompagnano

alle variabili Xh + 1 , ... , Xp e che sono parte del vettore b.

(7)   Si può facilmente dimostrare, seguendo una linea di ragionamento simile a quella seguita nellaOsservazione 5, che tale matrice è di pieno rango per colonne.

Page 24: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

24 RENATO LEONI

Ne consegue che questi ultimi, considerati congiuntamente, assumono il

significato di coefficienti di regressione multipla parziale, mentre, presi ad

uno ad uno, assumono quello di coefficienti di regressione parziale o netta.

Page 25: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

REGRESSIONE LINEARE 25

10   IL MODELLO MULTIVARIATO DI REGRESSIONE LINEARE

Finora ci siamo occupati del caso in cui il gruppo delle variabili dipendenti

fosse costituito da una sola variabile Y.

Supponiamo adesso che tale gruppo sia composto da t ≥2 variabili

Y 1 , ... , Y t .

Considerati i t modelli di regressione

(5) yi 1 = a0 1 + a1 1 xi 1 + + ap 1 xi p + e i 1

y i t = a0 t + a1 t x i 1 + + ap t x i p + e i t

e posto (s = 1,... , t )

y s = y1 s

yn s

, a s = a 0 s

a p s

, e s = e 1 s

e n s

Y = y1 y t , A = a 1 a t , E = e 1 e t

è intanto ovvio che possiamo scrivere, più compattamente, la (5) nella forma

(modello multivariato di regressione lineare)

(5') Y = ZA + E

Inoltre, poiché il metodo dei m.q., applicato a ciascuno dei t modelli di

regressione di cui sopra, fornisce

a s = (Z 'Z)- 1 Z'y s ,

si ha che

(6) A = a 1 a t = (Z 'Z) -1 Z'Y

Vogliamo adesso mostrare che, applicando il metodo dei m.q. simulta-

neamente ai t modelli di regressione scritti nella (5), si perviene allo stesso

Page 26: RENATO LEONI - local.disia.unifi.itlocal.disia.unifi.it/leoni/analisi_dati/metodi/reg.pdf · REGRESSIONE LINEARE 3 1 IL MODELLO DI REGRESSIONE LINEARE Dati 1+p caratteri quantitativi,

26 RENATO LEONI

risultato.

In effetti, considerata la quantità

S = Σ s Σ i e i s2 = tr{E'E} = tr{(Y − ZA)'(Y − ZA)}

= tr{Y'Y} − tr{Y'ZA} − tr{A'Z'Y} + tr{A'Z'ZA}

= tr{Y'Y} − 2 tr{Y'ZA} + tr{A'Z'ZA}

la matrice A che minimizza S deve esser tale che la derivata di S rispetto ad

A, calcolata in A, risulti nulla.

Ma,

∂S∂A

= − 2Z'Y + 2Z'ZA

ed eguagliando a zero tale espressione, si ottiene immediatamente la (6).

OSSERVAZIONE 11.  Si noti che applicando l'operatore vec a entrambi i

membri della (5'), si ottiene

vec(Y) = vec(ZA) + vec(E) = (I ⊗ Z)vec(A) + vec(E)

da cui

vec(A) = ((I ⊗ Z)'(I ⊗ Z)) -1 (I ⊗ Z)'vec(Y)

= ((I ⊗ Z')(I ⊗ Z)) -1 (I ⊗ Z')vec(Y)

= (I ⊗ (Z'Z)) -1 (I ⊗ Z')vec(Y)

= (I ⊗ (Z'Z) -1) (I ⊗ Z')vec(Y)

= (I ⊗ [(Z'Z) -1 Z'])vec(Y)

la quale non è altro che un modo diverso di scrivere la (6).

OSSERVAZIONE 12.  Si potrebbe dimostrare che la matrice dei coefficienti di

regressione A che minimizza S, ovvero tr(E'E), minimizza det(E'E) e,

quindi, anche la varianza generalizzata dei residui, vale a dire det( 1n E'E).