Post on 03-May-2015
1
Corso di Laurea in Scienze e Tecniche psicologiche
Esame di Psicometria
La regressione lineare semplice
A cura di Matteo Forgiarini
Matteo.forgiarini@unimib.it
2
Esercitazione N° 2 – La regressione lineare semplice
Relazioni tra variabili
Quando siamo interessati a studiare la relazione tra due variabili, occorre prendere in considerazione 3 caratteristiche principali:
-La forma che assume la relazione.
-La sua direzione.
-L’entità osservata.
In questo contesto verranno analizzate solo relazioni lineari: il modello matematico utilizzato è la retta di regressione, quindi si ipotizza una forma lineare.
La direzione della relazione può essere positiva (i valori delle due variabili crescono in modo concorde) o negativa (al crescere dei valori di una variabile diminuiscono i valori dell’altra).
L’entità della relazione fa riferimento alla quantificazione della relazione stessa: la relazione può essere molto forte o modesta; oppure può essere pari a zero, in questo caso si parla di relazione nulla, le variabili sono dunque indipendenti.
3
Esercitazione N° 2 – La regressione lineare semplice
Varianza e correlazione
Per analizzare la relazione tra le variabili occorre fare riferimento ai concetti di varianza e di correlazione.
1
)(*)(),( 1
n
MxMvxvCov
n
i xivi
1
*
1
)0(*)0(11
n
zz
n
zzr
n
iixiv
n
iixiv
xv
La correlazione può variare solo tra -1 ed 1; l’entità della relazione è quindi agevole da comprendere ed è possibile confrontare 2 o più valori fra loro.
La direzione della relazione è indicata dal segno del valore della correlazione: una correlazione positiva indica che le variabili si “muovono” in modo concorde; una correlazione negativa indica che quando i valori di una variabile crescono, i valori dell’altra mininuiscono.
4
Esercitazione N° 2 – La regressione lineare semplice
Scatter plot
peso (in Kg) prezzo da catalogo (lire) potenza del motore
pote
nza
del m
otor
epr
ezzo
da
cata
logo
(lir
e)pe
so (
in K
g)
Menù:grafici->scatter plot
Spesso è utile costruire una matrice di grafici che permette di visualizzare la natura delle relazioni tra due o più variabili; ogni cerchietto rappresenta un “caso” che viene posizionato sul grafico usando i valori delle due variabili come coordinate cartesiane.
Con questo strumento è possibile studiare la forma della relazione tra le coppie di variabili.
Per quantificare la relazione tra due variabili occorre calcolare la loro correlazione.
Descriptive Statistics
1252,7653 171,18530 24
447,3575 26,76908 24
peso (in Kg)
lunghezza (cm)
Mean Std. Deviation N
Correlations
1 ,762**
,000
16481,419 80331,158
716,583 3492,659
24 24
,762** 1
,000
80331,158 674001,338
3492,659 29304,406
24 24
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
lunghezza (cm)
peso (in Kg)
lunghezza(cm) peso (in Kg)
Correlation is significant at the 0.01 level (2-tailed).**.
5
Esercitazione N° 2 – La regressione lineare semplice
La correlazione
Descriptive Statistics
1252,7653 171,18530 24
447,3575 26,76908 24
peso (in Kg)
lunghezza (cm)
Mean Std. Deviation N
La correlazione risulta significativa (p-value<0,001);
Possiamo quindi rifiutare l’ipose nulla H0: corr(peso,lunghezza)=0
ed accettare H1: corr(peso,lunghezza)≠0
Si noti che la matrice di correlazione prodotta è quadrata e simmetrica: infatti corr(x,y)=corr(y,x).
Correlations
1 ,762**
,000
16481,419 80331,158
716,583 3492,659
24 24
,762** 1
,000
80331,158 674001,338
3492,659 29304,406
24 24
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
lunghezza (cm)
peso (in Kg)
lunghezza(cm) peso (in Kg)
Correlation is significant at the 0.01 level (2-tailed).**.
6
Esercitazione N° 2 – La regressione lineare semplice
I punteggi z
Costruiamo 2 nuove variabili con i valori z delle variabili “lunghezza” e “peso”;
Ora calcoliamo la varianza e la correlazione tra queste due nuove variabili.
7
Esercitazione N° 2 – La regressione lineare semplice
La varianza dei punteggi z
Descriptive Statistics
,0000000 1,00000000 24
,0000000 1,00000000 24
Zscore: lunghezza (cm)
Zscore: peso (in Kg)
Mean Std. Deviation N
Correlations
1 ,762**
,000
23,000 17,530
1,000 ,762
24 24
,762** 1
,000
17,530 23,000
,762 1,000
24 24
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Pearson Correlation
Sig. (2-tailed)
Sum of Squares andCross-products
Covariance
N
Zscore: lunghezza (cm)
Zscore: peso (in Kg)
Zscore: lunghezza
(cm)Zscore:
peso (in Kg)
Correlation is significant at the 0.01 level (2-tailed).**.
Come ci si attendeva la deviazione standard delle due variabili è 1; la correlazione calcolata è pari a quella tra le due variabili non standardizzate (cfr. slide 4); la varianza tra le due variabili è pari alla correlazione: le variabili sono infatti standardizzate.
8
Esercitazione N° 2 – La regressione lineare sempliceLa retta di regressione
sempliceSe esiste una correlazione significativa tra due variabili, è possibile ipotizzare che una variabile sia causa dell’altra.
Chiamiamo variabile indipendente la variabile che predice un cambiamento dei valori dell’altra che per tanto è dipendente dalla prima variabile.
Se si ipotizza che vi sia una relazione funzionale diretta tra le due variabili e che tale relazione abbia forma lineare, è possibile stimare i parametri della equazione di regressione semplice tra la variabile indipendente e la dipendente.
Y=a + b*xa=intercetta; b=pendenza della retta
2
),cov(
xx
yxvyx s
yx
s
srb
xyxv ss
yxr
),cov(
Nella regressione lineare semplice, se le due variabili sono standardizzate b corrisponde alla correlazione tra x e y
Se x e y non sono standardizzate, b corrisponde alla covarianza tra x e y divisa per la varianza di x
xxyy MbMa L’intercetta viene calcolata con la formula:
9
Esercitazione N° 2 – La regressione lineare semplice
Model Summary
,762a ,581 ,562 113,31046Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), lunghezza (cm)a.
Coefficientsa
-927,675 395,523 -2,345 ,028
4,874 ,883 ,762 5,522 ,000
(Constant)
lunghezza (cm)
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: peso (in Kg)a.
Intercetta (a) e pendenza (b) risultano significativamente diversi da zero: entrambi i p-values<0.05
Si noti che la pendenza standardizzata corrisponde alla corr(x,y).
La proporzione di varianza della y spiegata dalla x corrisponde al quadrato della corr(x.y).
La retta di regressione semplice
10
Esercitazione N° 2 – La regressione lineare semplice
Chiediamo a spss di costruire il grafico della retta di regressione semplice con x=lunghezza e y=peso.
La retta di regressione semplice
11
Esercitazione N° 2 – La regressione lineare semplice
Linear Regression
400,00 425,00 450,00 475,00
lunghezza (cm)
1000,00
1200,00
1400,00
1600,00
pes
o (
in K
g)
peso (in Kg) = -927,67 + 4,87 * lunghR-Square = 0,58
a= -927.67; b= +4.87; la proporzione di varianza della y spiegata dalla x è=0.58 (58%).
Le due variabili non sono standardizzate: risulta interessante verificare che le stime di a e b siano coerenti alle formule teoriche.
La retta di regressione semplice
12
Esercitazione N° 2 – La regressione lineare semplice
Linear Regression
-1,00000 0,00000 1,00000
Zscore: lunghezza (cm)
-1,00000
0,00000
1,00000
2,00000
Zsc
ore
: p
eso
(in
Kg
)
Zscore: peso (in Kg) = 0,00 + 0,76 * ZlunghR-Square = 0,58
X= punteggi z:lunghezza; y=punteggi z:peso
Le variabili sono standardizzate: la retta di regressione passa per l’origine degli assi, infatti a=0.
La pendenza (b)=corr(x,y).
La retta di regressione semplice
13
Esercitazione N° 2 – La regressione lineare sempliceCorrelazione e causazione
Correlations
1 -,003 ,762** ,314 ,605** ,442*
,990 ,000 ,135 ,002 ,031
24 24 24 24 24 24
-,003 1 -,003 ,043 ,119 ,009
,990 ,990 ,842 ,579 ,968
24 24 24 24 24 24
,762** -,003 1 ,789** ,742** ,770**
,000 ,990 ,000 ,000 ,000
24 24 24 24 24 24
,314 ,043 ,789** 1 ,691** ,837**
,135 ,842 ,000 ,000 ,000
24 24 24 24 24 24
,605** ,119 ,742** ,691** 1 ,764**
,002 ,579 ,000 ,000 ,000
24 24 24 24 24 24
,442* ,009 ,770** ,837** ,764** 1
,031 ,968 ,000 ,000 ,000
24 24 24 24 24 24
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
lunghezza (cm)
capienza bagagliaio (litri)
peso (in Kg)
potenza del motore
capienza serbatoio (litri)
prezzo da catalogo (lire)
lunghezza(cm)
capienzabagagliaio
(litri) peso (in Kg)potenza
del motore
capienzaserbatoio
(litri)prezzo da
catalogo (lire)
Correlation is significant at the 0.01 level (2-tailed).**.
Correlation is significant at the 0.05 level (2-tailed).*.
La matrice di correlazione delle 6 variabili mostra che la correlazione tra “capienza del serbatoio” e “prezzo” è significativamente diversa da 0. Sembra dunque possibile ipotizzare un legame causale tra queste variabili.
14
Esercitazione N° 2 – La regressione lineare semplice
Model Summary
,764a ,583 ,564 14452263,2Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), capienza serbatoio (litri)a.
Coefficientsa
-6,2E+07 1,8E+07 -3,366 ,003
1654877 298280,5 ,764 5,548 ,000
(Constant)
capienza serbatoio (litri)
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: prezzo da catalogo (lire)a.
I due parametri della retta risultano significativamente diversi da 0; sembra possibile costruire la retta di regressione.
Ma ha davvero senso il modello proposto? È davvero ipotizzabile che la capienza del serbatoio sia una causa diretta del prezzo dell’auto?
Occorre riflettere: una correlazione significativa tra due variabili non è mai una condizione sufficiente perché vi sia un legame causale diretto tra le due variabili.
Non sempre se due variabili correlano in modo significativo è possibile ipotizzare un legame causale diretto; può succedere che vi siano altre variabili che intervengono nella relazione e rendono più complesso il legame: in questi casi un modello di causalità lineare non è sufficiente a spiegare la correlazione osservata.
Correlazione e causazione