Lezione 8 Più di due variabili

Lezione 8

Più di due variabili

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

In questa lezione..

In questa lezione accenneremo a due ultime strategie per migliorare la goodness of fit di una funzione interpolante, e ad alcune conseguenze.

La prima strategia consiste nella scomposizione della popolazione analizzata per gruppi omogenei. Rientra così in scena il concetto di eterogeneità della popolazione già usato nell’analisi univariata. Ci rifletteremo a partire da alcuni paradossi applicati a distribu-zioni congiunte anche non quantitative discrete.

La seconda strategia consiste nell’aumento delle variabili prese come esplicative. Entriamo così nel mondo dell’analisi multivariata, con il modello di regressione lineare multipla.

Parlando dei limiti di utilizzo della regressione multipla ragioniamo infine su due errori in cui si è facilmente indotti nell’analisi multi-variata. Il primo è quello della collinearità. Il secondo è quello delle correlazioni spurie.

Ripartiamo da un esempio

Torniamo al solito esempio età-reddito e aggiungiamo al database una informazione in più: la variabile Z = numero di anni di istruzione dei 9 individui.

Per i primi 4 sia Z=8 (L=bassa scolarizzazione), per gli ultimi 4 sia Z=18 (H=alta scolarizzazione), mentre il quinto individuo sia di media scolarità (13 anni di studio). Se teniamo conto di questa informazione, e depuriamo il data-base del quinto individuo (visto come outlier), i dati ci appaiono sotto una nuova prospettiva.

Xi Yi Zi

20 1,0 8

22 1,2 8

25 1,4 8

28 2,0 8

30 3,0 13

33 3,5 18

35 4,5 18

37 5,4 18

40 6,8 18

012345678

18 22 26 30 34 38 42

Sia i primi quattro punti tra loro che gli ultimi quattro tra loro sembrano ottimamente inter-polabili con rette di diversa pendenza. Le equa-zioni delle due rette MQ (calcolatele anche voi!) rispettivamente per L e M sono:

YL = -1,45 + 0,12XL (R2 = 0,941)

YH =-11,96+ 0,47XL (R2 = 0,999)

Scomposizione per gruppi omogenei

012345678

18 22 26 30 34 38 42

012345678

18 22 26 30 34 38 42

012345678

18 22 26 30 34 38 42

Almeno nel grup-po H l’adatta-mento è altissimo (99,9% di varian-za spiegata): la scolarità pare in-fluire sulla rela-zione reddito-età.

Sovrapponiamo i due grafici. Le due popo-lazioni hanno inter-cette diverse ma an-che pendenze molto diverse tra loro: il che crea l’effetto di curvilineità.

Ma sul problema delle

differenti pendenze

torneremo tra poco..

outlier

Un secondo esempio

Piccole città

Xi Yi

6 1,2

13 0,4

12 1,5

20 2,0

24 3,5

19 3,0

8 0,5

18 1,5

Grandi città

Xi Yi

5 3,0

7 2,8

15 3,4

11 2,5

17 4,0

17 1,8

21 4,5

19 4,0

21 3,6

38 6,6

17 2,3

16 2,0

Facciamo un secondo esempio, un ‘classico’ della ricerca sociale. Per 20 città americane (8 piccole, 12 grandi) siano date due infor-mazioni: X sia il reddito pro capite in migliaia di dollari, Y sia il tasso di criminalità. L’equazione della retta MQ stimata sulle 20 città è:

Y = 0,468 + 0,138 X (R2 = 0,488)

Il coefficiente di determinazione non è altissimo..

0

1,5

3

4,5

6

7,5

0 4 8 12 16 20 24 28 32 36 40

Che succede se se-pariamo le due po-polazioni di piccole e grandi città?

[Per inciso, non abbiate la mas-simizzazione di R2 come unica stella polare. Per esempio la grande città da 38mila dollari di reddito potrebbe essere un dato anomalo, ma se (correttamente) la eliminassimo la retta (verde) ai MQ avrebbe R2=0,226, minore di quello complessivo].

Rette parallele o a diversa pendenzaL’equazione della retta MQ stimata separata-mente per piccole e grandi città risulta:

YP=-0,402+0,140 XP (R2 = 0,635)

YG=+1,340+0,120 XG (R2 = 0,567)

0

1,5

3

4,5

6

7,5

0 4 8 12 16 20 24 28 32 36 40

0

1,5

3

4,5

6

7,5

0 4 8 12 16 20 24 28 32 36 40

0

1,5

3

4,5

6

7,5

0 4 8 12 16 20 24 28 32 36 40

Piccole città Grandi città

In questo caso le due relazioni lineari sono di-verse nettamente per la intercetta ma più o me-no scorrono parallele con pendenze simili.

Tra poco questa diffe-renza si rivelerà impor-tante.

Possiamo anche leggere il grafico in modo assai pregnante: il tasso di criminalità sale comun-que col reddito ma nelle grandi città – a parità di reddito – la criminalità è un punto e ½ più alta in percentuale.

Regressione multipla

D = D = (y(yjj - - ii))22ffijij = = (y(yjj – a – aYXYX–b–bYXYX.x.xii-c-cYZYZ. z. zii))

2 2 .f.fijij = minimo = minimo

Ripartiamo allora dai due esempi fatti. Il reddito è funzione dell’età ma varia an-che col livello di scolarità. La criminalità è funzione del reddito ma varia anche con la dimensione urbana. In entrambi i casi una terza variabile si intromette tra explanans e explanandum, migliorando la goodness of fit.

Possiamo pensare quindi a una estensione del modello di regressione lineare, che tenga conto non di una ma di due o più variabili indipendenti. Nei nostri esempi il modello da minimizzare diventa

Ancora una volta si tratta di un modello in cui i regressori entrano in modo lineare e additivo. Come per i precedenti modelli lineari (retta, parabola) le stime che si ottengono col MMQ godono delle proprietà note.

e i parametri a, b, c saranno quelli che minimizzino la funzione di danno:

Y=aYX+bYX.ZX+cYZ.XZ

I parametri di una regressione a due variabili

Se la procedura di stima dei parametri è la stessa sviluppata per la retta, ci aspettiamo che i tre parametri abbiano formule composte da statistiche a noi familiari (medie, varianze delle tre variabili in gioco, e covarianze tra di loro), ma forse un po’ troppo complesse.

In realtà noi le abbiamo già conosciute, quando nella stima della parabola abbiamo considerato i quadrati come un nuovo regressore a sé stante. Se il secondo regressore è la nostra seconda variabile indipendente Z, le stime MQ dei parametri della regressione multipla sono:

2. covvarvar

covcovvarcov

XZZX

YZXZZYXZYXb

2. covvarvar

covcovvarcov

XZZX

YXXZXYZXYZc

E ovviamente

aY.XZ=mY–bYXmX-cYZmZ

Ancora, notate che le formule dei due coefficienti di

regressione sono speculari tra loro, con poche inversioni di

variabili

Calcolo dei parametri

La grande simmetria delle formule rende più facile la memorizzazione. In particolare il denominatore dei due coefficienti di regressione è lo stesso ed è tutto espresso in termini delle variabili indipendenti x e z.

Dividendo numeratori e denominatori dei due coefficienti per il prodotto delle varianze delle variabili indipendenti (varX.varZ), li si può esprimere in termini di coefficienti di correlazione lineare tra variabili, a meno di un fattore moltiplicativo legato alle misure di dispersione delle variabili stesse:

2. covvarvar

covcovvarcov

XZZX

YZXZZYXZYXb

2. covvarvar

covcovvarcov

XZZX

YXXZXYZXYZc

X

Y

XZ

YZXZYXZYXb

2. 1 Z

Y

XZ

YXXZYZXYZc

2. 1

Per stimare i parametri di una regressione multipla con due variabili indipendenti basta dunque avere a disposizione medie e varianze delle variabili coinvolte e i coefficienti di correlazione lineare di ordine zero YX YZ XZ

Correlazione multipla

Come valutare il modello di regressione multiplo che stimiamo così? Si può cal-colare una misura analoga al coefficiente di determinazione formulata anch’esso in termini di coefficienti di correlazione lineare semplice. La chiamiamo coeffi-ciente di correlazione multipla. Esso misura quanta parte della varianza di Y è spiegata dalla dipendenza lineare di Y dalle due variabili esplicative X e Z:

2

22

.2

1

2

XZ

YZXZYXYZYXXZYR

Poiché la regressione multipla rientra nella famiglia delle regressioni lineari nelle variabili valgono le proprietà dei MQ e in particolare il principio di scomposizione della varianza. R2

Y.XZ è quindi comparabile con il coefficiente R2YX di determina-

zione della retta e si può valutare l’eventuale miglioramento di goodness of fit.

Svolgiamo l’esempio criminalità(Y)–reddito (X)–urbanizzazione(Z) [misuriamo Z come variabile dicotomica (dummy variable) pari a 0 nelle piccole città, a 1 nelle grandi]:

mY=2,705; mX=16,2; mZ=0,6; Y=1,4354; X=7,2636; Z=0,4899; YX=+0,699; YZ=+0,572; ZX=+0,135

Y=-0,176+0,125X+1,425Z

R2=0,7209

R2 è assai più consistente dei due coefficienti di determina-zione. Il modello quindi migliora la sua capacità esplicativa.

Collinearità

X

Y

XZ

YZXZYXZYXb

2. 1

Z

Y

XZ

YXXZYZXYZc

2. 1

Xi Yi Pi

20 1,0 10

22 1,2 8

25 1,4 15

28 2,0 5

30 3,0 15

33 3,5 20

35 4,5 18

37 5,4 15

40 6,0 14

mY=3,111;mX=30;mP=13,33;Y=1,7622;X=6,4636;P=4,5216; YX=+0,977;YP=+0,534;PX=+0,555. Il modello di regressione

È: P = -0,826 + 0,525X – 0,514Y (R2 =0,310)

Ma le due variabili indipendenti sono davvero molto correlate: il modello stimato risentirà di variazioni anche piccole delle variabi-li. Per es. se p3=12 invece che 15 il modello stimato diventa:

P = +2,094 + 0,322X + 0,397Y (R2 =0,380)

Il piano di regressione cambia molto: non ci si può certo fidare!

Riprendiamo l’esempio reddito(Y)–Età (X) (ponendo y9=6 per renderle ancor più correlate) e studiamo un indicatore di performance (P) in funzione di entrambi.

Attenzione al denominatore dei coefficienti di re-gressione multipla. Se le variabili indipendenti so-no linearmente correlate tra loro (e quindi YX1), il denominatore sarà pericolosamente 0, e farà ‘esplodere’ i coefficienti, rendendoli estremamente ‘ballerini’!

Coeteris paribus

Conviene riflettere sul fatto che nel modello Yi=+yx.z Xi+yz.xZi si assume che X abbia un effetto pari a yx.z quale che sia il valore di Z.

Supponiamo per esempio che Z sia una variabile dicotomica (come nel nostro caso della criminalità per città grandi e piccole). Si assume quindi che X (dimensione urbana) abbia il medesimo effetto su Y, sia per Z=0 (piccole città) che per Z=1 (grandi città).

Infatti, per Z=0 si ottiene: Yi(X,Z=0) = + yx.z Xi

Mentre, per Z=1: Yi(X,Z=1)= +yz.xXi+yx.z = (+yz.x)+yx.zXi

L’unica cosa che cambia in tali due situazioni è infatti l’intercetta, men-tre il coefficiente angolare (effetto di X) rimane invariato.

Effetti di “interazione”E’ quello che abbiamo osservato nel nostro esempio: la criminalità cresce col reddito urbano grossomodo con una velocità di crescita simile per grandi e piccole città. Potrebbe però accadere che nei grandi centri l’effetto del benessere complessivo risulti assai più influente, determinando una regressione semplice (criminalità funzione del reddito) con pendenza più forte.Per tener conto di ciò il modello di regressione multipla deve assumere una forma più complessa, con un fattore in più:

Yi(X,Z) = + yx.z Xi + yz.x Zi + Xi Zi

X

Y

Y(X,Z=1) = ( + yz.x) + yx.z

X

Y(X,Z=0) = + yx.z X

X

Y

Y(X,Z=0) = + yx.z XY(X,Z=1)=

(+ yz.x)+

( yx.z+)X

Senza interazione Con interazione

yx.z e zx.y sono detti effetti prin-cipali, η è

detto effetto effetto

interazioneinterazione

Dalla retta al piano di regressione

0

0

0

0

Piccole

Grandi città

Z

Y

X

Per capire il perché di questo fiasco ragioniamo sulla rappresentazione grafica del-l’equazione: Y=aYX+bYX.ZX+cYZ.XZ.

Svolgiamo l’esempio reddito(Y) – Età (X) –Scolarizzazione(Z=numero anni studio):

mY=3,2; mX=30; mZ=13; Y=1,9189; X=6,4636; Z=4,7; YX=+0,969; YZ=+0,897; ZX=+0,912

Y=-5,215+0,267X+0,0313Z

R2=0,941

Ma R2 della retta era 0,94: non c’è praticamente nessun guada-gno di capacità esplicativa!!!

E’ intuitivo che non abbiamo più a che fare con l’equazione di una retta, bensì con quella di un piano di regressione. Ma un piano “retto” o un piano “curvo”?

Nel caso della criminalità, le due rette di-stinte per grandi e piccole città hanno pendenze se non uguali assai simili, con una differenza costante di 1,5%. L’effetto della terza variabile Z è quindi pura-mente additivo.

Modelli additivi

L’effetto di Z è additivo se possiamo passare da un modello lineare sem-plice Yi=a+byx.xi a un modello di re-gressione multipla per puro incre-mento di un fattore ki additivo, funzione della variabile z:

ki = cyz.x..zi

La rappresentazione dell’equazione del piano di regressione

Yi = a + byx.z.xi + cyz.x.zi

corrisponde alla rappresentazione dell’equazione di più rette con diffe-renti intercette ma uguali pendenze

Yi = a+ ki + byx.z.xi

Y

X

Y

X

Z

Z=z1

Z=z2

Z=z3

Y=a+bx (ferma z)

Y=a+cz

(ferma x)

a

Regressione ‘parziale’

Il piano di regressione multipla (limitata quindi a due sole variabili esplicative; non siamo capaci di immaginare iperpiani) è un piano in cui, per definizione, ogni sezione rispetto alla dimensione Z traccia una retta, funzione di X, parallela a quella ricavata con altre sezioni e, specularmente, ogni sezione rispetto alla dimensione X traccerà rette, funzioni di Z, tutte tra loro parallele.

Questa spiega anche perché i coefficienti di regressione multipla byx.z vengono

anche definiti COEFFICIENTI DI REGRESSIONE PARZIALECOEFFICIENTI DI REGRESSIONE PARZIALE.

Un coefficiente di regressione byx.z misura l’influenza di X su Y

ferma restando z (ovvero)

tenuta sotto controllo z (ovvero)

depurata dell’effetto di z (ovvero)

posta costante entro ogni subgruppo definito in base a z

(sono tutti sinonimi tra loro). Ma che succede se al variare di Z varia non solo l’intercetta ma anche la pendenza della relazione lineare?

Modelli moltiplicativi e effetto interazione

Il modello diventa:

Yi = a+ki + byx.z+hi.xi

Entrambi i coefficienti di variazione ki e hi dipendono ora da Z, cioè:

ki=+zi e hi=+zi Allora:

Yi=a++zi + byx.z++zi .xi =

=a+ + byx.z+.xi + zi + zixi

o con le notazioni oramai familiari:

Yi= ayx.z+byx.z.xi+cyz.x.zi+ dy.zxxizi

Compare un fattore moltiplicativo in più, e la superficie di regressione NON è piana, ma curva. Le sezioni non sono più parallele tra loro ma variano al variare “sinergico”, cioè moltiplicativo delle due variabili.

Y

X

Y

X

Z

Z=z1

Z=z2

Z=z3

Effetti “diretti” e “indiretti”Insomma, la criminalità dipende dallo stato di ricchezza di una città, ma anche dalla sua dimensione. Proviamo a riflettere ancora su ciò. Indichiamo con un segmento la presenza di una relazione tra due variabili. Utilizziamo invece una freccia quando individuiamo un verso in tale relazione (ovvero un ordine causale).

Nella regressione multipla l’effetto totale di X su Y (yx) è distinto in

due parti: a) un effetto diretto di X su Y (rappresentato da yx.z); b) un

effetto indiretto di X su Y (pari al prodotto .yz.x).

X Yyx

Z

XY

yxz

yzx

xy

Mentre in generale per il modello di regressione multipla con variabili espli-cative X e Z (indicando con xy il lega-me tra le due variabili esplicative)si ha:

Il modello di regressione semplice può allora essere rappresentato graficamente nel seguente modo:

Due situazioni particolari (a)

Ciò può accadere in due situazioni particolari.

a) Z non ha alcun effetto (diretto) su Y.

In tal caso infatti

µi = + yx.z Xi + 0 Zi = + yx.z Xi

In tal caso la regressione multipla si riduce di fatto ad una regressione semplice, e quindi yx.z = yx

Se infatti è assente il legame tra Z e Y l’unico percorso che da X porta ad Y è quello dell’azione diretta.Quindi Z risulta ininfluente nello studio della relazione tra X ed Y.

Z

X

Y

yx

Il coefficiente della regressione multipla coincide con quello della re-gressione semplice (yx.z = yx) quando l’effetto indiretto è nullo.

Attenzione!! In genere non osserviamo casi-

limite ma un mix in cui valutare la

significatività del contributo di ogni effetto particolare

Due situazioni particolari (b)

b) Il secondo caso particolare è quello in cui Z ed X non sono cor-relate tra loro.

Si ottiene infatti in tal caso:yx.z = [covYX varZ – covYZ covZX] / [varX varZ – cov2

XZ] =

= [covYX varZ – covYZ 0] / [varX varZ – 0] =

= [covYX varZ ] / [varX varZ] =

= covYX / varX = yx

Z

X

Y

yx

yz

Essendo incorrelate tra di loro, le due variabili esplicative X e Z forniscono due contributi indipendenti nello spiegare Y. Pertanto i parametri della regressione multipla coincidono con quelli delle due distinte regressioni semplici di X su Y e di Z su Y.

Anche in questo caso l’azione indiretta di X su Y attraverso Z non è praticabile (questa volta perché manca il legame tra X e Z: =0).

Correlazione parziale

Ricordate che il coefficiente di correlazione lineare XY si può ricavare an-che dalla media geometrica dei coefficienti di regressione opposti bXY, bYX: XY = bXYbYX? Qualcosa del genere vale anche i coefficienti di regressione multipla, tra loro complementari, bXY.Z e bYX.Z, definiti – abbiamo appena visto - in modo speculare in termini di coefficienti di correlazione lineare semplice. La media geometrica tra questi due coefficienti si chiama Coefficiente di correlazione parziale e ha forma:

)1)(1( 22.

YZXZ

YZXZYXZYX

IL COEFFICIENTE DI CORRELA-ZIONE PARZIALE misura la cor-relazione tra y e x ferma restando z, o tenuta sotto controllo z, o de-purata dell’effetto di z.

Torniamo all’esempio Reddito (Y) – Età (X) – Scolarità (Z), dove: Y=1,9189; X=6,4636; Z=4,7; YX=+0,969; YZ=+0,897; ZX=+0,912 . Risulta:

8324,0032876,0

150936,0

)912,01)(897,01(

)912,0897,0(969,022.

ZYX

Cioè: reddito ed età sono davvero correlati, anche a parità di scolarità

Correlazione spuria

Se YX.Z0 pur essendo YX0 allora la correlazione tra y e x è SPURIA o FITTIZIA.

Una correlazione tra Y e X è spuria se è totalmente spiegata dalle relazioni di Y e X con una terza variabile Z.

Per esempio, tra tre variabili intercorrono tre coefficienti di correlazione lineare di grado zero (YX,YZ,XZ) e tre coefficienti di correlazione parziale (YX.Z,YZ.X,XZ.Y). Se i 6 coefficienti sono tutti significativamente 0, tranne che XZ=0 (c’è cioè incorrelazione tra le due variabili indipendenti) possiamo adottare il modello di regressione multipla (A). Ma se si annulla un coefficiente di correlazione parziale YX.Z=0 allora si possono avere due situazioni assai diverse:

Il caso (B) è quello di corre- corre- lazione spurialazione spuria: Z è qui una variabile antecedente

Il caso (C) è quello di una catena catena causale:causale: qui Z è una variabile interveniente

Y

X Z

YX

Z

Y

Z

X

A

B

C

RiepiloghiamoSia il nostro obiettivo la stima dell’effetto causale di una data variabile X (explanans) su Y (explanandum). Supponiamo inoltre che Z (variabile unica o insieme di variabili) sia il solo potenziale fattore che può influenzare la dipendenza di Y da X. Operiamo nel seguente modo:Conduciamo una regressione semplice e misuriamo in tal modo l’effetto totale di X su Y (x). Passiamo poi ad una regressione multipla aggiungendo nel modello Z.

Se Z non è correlato con X (=0), oppure se Z non ha alcun effetto su Y (z.x=0), allora non esiste alcuna azione indiretta di X su Y attraverso Z. Ne consegue che l’effetto di X al netto di Z coincide con l’effetto totale di X (x.z=x). La regressione multi-pla si riduce a quella semplice.

Se Z è correlato con X e insieme ha un effetto su Y, allora l’effet-to totale di X può essere scom-posto in un’azione diretta e una indiretta (tramite Z). In tal caso, se Z è interveniente, è casuale l’effetto totale di X (diretto + in-diretto), se Z è antecedente è causale solo l’effetto diretto.

Due esempi per concludere

Primo esempio. Dati i coefficienti di correlazione lineare YX=0,42, YZ=0,70, XZ=0,60 tra tre variabili X, Y e Z, ha senso stimare il modello di regressione multipla Y=a+bX+cZ?

In questo caso basta analizzare il numeratore del coefficiente di correlazione parziale (YX-XZ.YZ)=[0,42-(0,6x0,7)]=0.

Dunque la correlazione tra Y e X è spuria, il sentiero causale corretto non potrà essere quello A della regressione multipla ma uno degli altri (quale dei due pro-posti? Si tratta di identificare il ruolo di Z, se antecedente o interveniente: ma spesso nella valutazione entra in gioco l’equazione personale del ricercatore).Secondo esempio. Riprendiamo la base dati reddito(Y)–Età (X)-Perfor-mance(P), dove era YX=+0,977; YP=+0,534; PX=+0,555.

Date le varianze e i coefficienti di correlazione, le correlazioni parziali di P con le due variabili “tenendo ferma l’altra” sono rispettivamente:

YP.X=-0,0464; PX.Y=+0,1846

La correlazione tra performance e reddito “tenendo ferma l’età” si avvicina molto a zero (e cambia anche segno). E’ una correlazione spuria.

Lezione 8 Più di due variabili

Documents

Transcript of Lezione 8 Più di due variabili