La regressione lineare

30
© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi 1 La regressione lineare 1. Correlazione Bivariata 2. La regressione lineare semplice 3. La regressione lineare multipla 4. La regressione con un pacchetto statistico (SPSS) La correlazione bivariata STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y SCOPO DELLANALISI DI CORRELAZIONE BIVARIATA

Transcript of La regressione lineare

Page 1: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

1

La regressione lineare 1. Correlazione Bivariata 2. La regressione lineare semplice 3. La regressione lineare multipla 4. La regressione con un pacchetto statistico (SPSS)

La correlazione bivariata

STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y

SCOPO DELL’ANALISI DI CORRELAZIONE BIVARIATA

Page 2: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

2

La correlazione bivariata

PREMESSA

L’analisi di correlazione bivariata è una metodologia simmetrica in cui si considerano le variabili X e Y sullo stesso piano causale.

METODI ASIMMETRICI VS METODI SIMMETRICI

o  Nei metodi simmetrici non viene ipotizzata una relazione causale tra le variabili. Non esiste quindi la suddivisione tra variabile dipendente e variabile indipendente, ma le due variabili vengono considerate sullo stesso piano (ad es. Analisi di Correlazione).

o  I metodi asimmetrici vengono utilizzati per studiare relazioni di tipo “causa ed effetto” tra le variabili. Il ricercatore ipotizza a priori una relazione causale tra le due variabili: una viene considerata dipendente e l’altra indipendente (ad es. Analisi di Regressione).

La correlazione bivariata

Per prima cosa, per avere una “prima idea”, sul tipo di relazione esistente tra le due variabili X e Y è utile rappresentare graficamente tali variabili su un piano cartesiano attraverso il cosiddetto grafico di dispersione.

IL GRAFICO DI DISPERSIONE

Un grafico di dispersione (o diagramma di dispersione) è una rappresentazione grafica in cui si rappresentano i valori di due variabili.

Una variabile (ad esempio la X) viene rappresentata sull’asse delle ascisse, mentre l’altra variabile (la Y) viene rappresentata sull’asse delle ordinate.

Ciascuna coppia di valori (X,Y) viene rappresentata sul grafico con un punto.

Nota: Il grafico di dispersione è inoltre utile per verificare il corretto inserimento dei dati a disposizione e per identificare l’eventuale presenza di valori anomali.

Page 3: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

3

La correlazione bivariata

ESEMPIO: supponiamo di aver rilevato le variabili altezza (X) e peso (Y) su 10 soggetti.

soggetto X

altezza (centimetri)

Y peso

(kilogrammi) 1 148 50 2 150 55 3 175 72 4 180 83 5 190 85 6 163 64 7 158 64 8 153 52 9 195 98

10 142 40

La correlazione bivariata

GRAFICO DI DISPERSIONE

Page 4: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

4

Il coefficiente di correlazione di BRAVAIS-PEARSON

Il coefficiente di correlazione lineare di Bravais Pearson misura il tipo e l’intensità della relazione lineare tra due variabili X e Y.

Esso si indica:

•  con la lettera greca ! se viene calcolato su tutta la popolazione oggetto dell’indagine;

• con la lettera r se viene calcolato su un campione rappresentativo della popolazione.

Il coefficiente di correlazione di BRAVAIS-PEARSON

Il coefficiente di correlazione lineare varia tra -1 e +1 Il segno di r (+ o -) da informazioni sul tipo di relazione: • il segno positivo indica che le due variabili aumentano o diminuiscono assieme (relazione lineare positiva) • il segno negativo indica che all’aumentare di una variabile l’altra diminuisce e viceversa (relazione lineare negativa) Il valore assoluto di r, che varia tra 0 e 1, da informazioni sulla forza della relazione lineare: • è massimo (assume valore 1) quando esiste una perfetta relazione lineare tra le due variabili. • tende a ridursi al diminuire dell’intensità della relazione lineare e assume il valore 0 quando essa è nulla.

Page 5: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

5

Il coefficiente di correlazione di BRAVAIS-PEARSON

VAR1

222018161412108

VAR2

18

16

14

12

10

8

6r = 0,718

Il coefficiente di correlazione di BRAVAIS-PEARSON

VAR1

222018161412108

VAR4

30

20

10

0r = -0,701

Page 6: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

6

Il coefficiente di correlazione di BRAVAIS-PEARSON

VAR1

222018161412108

VAR3

14

12

10

8

6

4

2r = 0,002

Il coefficiente di correlazione di BRAVAIS-PEARSON

VAR1

222018161412108

VAR5

700

600

500

400

300

200

100

0

r = 0,009

Page 7: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

7

Il coefficiente di correlazione di BRAVAIS-PEARSON

r = SX SY

COVXY

Dove:

•  COVXY è la covarianza tra X e Y;

• SX è la deviazione standard di X;

• SY è la deviazione standard di Y.

Il coefficiente di correlazione di BRAVAIS-PEARSON

•  si compone di tante righe/colonne quante sono le variabili coinvolte;

•  all’interno di ciascuna delle p! p celle contiene i coefficienti di correlazione rij;

•  la diagonale principale è composta da valori 1;

•  i valori sopra la diagonale sono simmetrici rispetto a quelli sotto (rij = rji).

MATRICE DI CORRELAZIONE

!!!!!

"

#

$$$$$

%

&

1.....

.1

.1

21

221

112

pp

p

p

rr

rrrr

R =

Page 8: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

8

Il coefficiente di correlazione di BRAVAIS-PEARSON

r = SX SY

COVXY

Dove:

•  COVXY è la covarianza tra X e Y;

• SX è la deviazione standard di X;

• SY è la deviazione standard di Y.

Il coefficiente di correlazione di BRAVAIS-PEARSON

Nei seguenti casi non è possibile utilizzare il coefficiente di Pearson per valutare la correlazione tra due variabili:

• Una o entrambe le variabili di interesse sono ordinali;

• Una o entrambe le variabili non sono distribuite normalmente;

• La relazione che si intende misurare non è di tipo lineare.

In tutti questi casi è possibile utilizzare il :

COEFFICIENTE ! DI SPEARMAN

Page 9: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

9

Il coefficiente di correlazione di SPEARMAN

L’idea che sta alla base del calcolo del coefficiente di Spearman è quella di sostituire i valori ottenuti dai casi sulle variabili X e Y con i cosiddetti ranghi o posizioni:

Dati originali

Ranghi X

Y

Xr

Yr

5

22

3

5

7

7

4

3

3

8

2

4

2

1

1

2

9

0

5

1

e di valutare la correlazione tra le posizioni attraverso il coefficiente di correlazione di Pearson.

Il coefficiente di correlazione di SPEARMAN

0

10

20

30

40

50

60

70

0 20 40 60 80 100 120

X (dose)

Y (

eff

ett

o)

!

"

#

$

%

&!

&"

! " # $ % &! &"

Xr

Yr

VALORI ORIGINALI RANGHI

Page 10: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

10

Il coefficiente di correlazione di SPEARMAN

• Calcolare i ranghi (le posizioni) dei singoli casi relativamente alla

variabile X: Xr

• Calcolare i ranghi (le posizioni) dei singoli casi relativamente alla

variabile Y: Yr

• Calcolare l’indice di correlazione di Pearson tra Xr e Yr

Nota: quando due o più i valori dei casi su una variabile sono identici (“ranghi ripetuti” o “ties”) è opportuno utilizzare i cosiddetti “ranghi medi”. Esempio: supponiamo che due casi abbiano entrambi il rango 3 relativamente alla variabile X. Ad essi nel calcolo del coefficiente di Spearman verrà attribuito il rango medio: (3+4)/2 = 3.5.

Il coefficiente di correlazione di SPEARMAN

Il coefficiente ! di Spearman come il coefficiente di Pearson varia tra –1 e 1: • valori vicini a 1 indicano correlazione positiva: a posizioni dei casi

elevate sulla variabile X coincidono posizione elevate sulla variabile Y.

• valori vicini a -1 correlazione negativa: a posizioni elevate sulla variabile

X corrispondono posizione basse sulla variabile Y

• valori vicini allo 0 indicano la mancanza di correlazione: le posizioni

dei casi sulle variabili X e Y sono associate in modo casuale.

Page 11: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

11

Il coefficiente di correlazione di SPEARMAN

•  Il coefficiente di Spearman consente di analizzare la relazione tra variabili ordinali (esempio classico in psicologia: item misurati su scala Likert).

•  Il coefficiente di Spearman non richiede particolari assunzioni sulla distribuzione delle variabili studiate (si usa infatti parlare di “correlazione non-parametrica”).

•  Per meglio indagare le relazioni tra due variabili, nelle applicazioni pratiche può essere interessante calcolare sia il coefficiente di Pearson che quello di Spearman e confrontare i risultati ottenuti.

La regressione lineare

L’analisi di regressione lineare è una tecnica che permette di analizzare la relazione lineare tra una variabile dipendente (o variabile di risposta) e una o più variabili indipendenti (o predittori). L’analisi della regressione lineare è una metodologia asimmetrica che si basa sull’ipotesi dell’esistenza di una relazione di tipo causa-effetto tra una o più variabili indipendenti (o esplicative) e la variabile dipendente (o di criterio). Lo studio di questa relazione può avere un duplice scopo: •  esplicativo: comprendere e ponderare gli effetti delle variabili indipendenti (VI) sulla variabile dipendente (VD) in funzione di un determinato modello teorico; •  predittivo: individuare una combinazione lineare di variabili indipendenti per predire in modo ottimale il valore assunto dalla variabile dipendente.

Page 12: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

12

La regressione lineare

Y (X1, X2, X3, X4, " , Xp) effetto causa

variabile dipendente variabili indipendenti

Le variabili, per poter essere inserite in un modello di regressione lineare semplice o multipla, devono essere del seguente tipo:

•  variabile dipendente (Y): quantitativa

•  variabili indipendenti (X1, X2, ! Xp): quantitative o dicotomiche. (Nel modello possono essere inserite anche variabili categoriali, purchè esse vengano preventivamente dicotomizzate).

La regressione bivariata (o semplice)

Nell’analisi della regressione semplice o bivariata abbiamo una sola variabile indipendente (VI) sulla quale “regredisce” la variabile dipendente (VD). Si ipotizza che la variabile indipendente “influenzi” o “predica” la variabile dipendente. L’analisi della regressione lineare semplice individua quella retta che consente di prevedere al meglio i punteggi nella variabile dipendente a partire da quelli della variabile indipendente. Si tratta di individuare quella retta che “interpola” meglio la nuvola di punti (o scatterplot) definita dalla distribuzione congiunta delle due variabili. Equazione della retta di regressione:

Y = " + !X (VD) (VI) (intercetta)

(coefficiente angolare)

Page 13: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

13

La regressione bivariata (o semplice)

Y = " + !X

": rappresenta il punto in cui la retta incrocia l’asse delle ordinate (altezza della linea e corrisponde al valore atteso di Y quando X = 0;

!: rappresenta l’inclinazione della retta di regressione di Y su X e indica di quante unità cambia Y per una variazione unitaria che si verifica nella X.

La regressione bivariata (o semplice)

La linearità implica che per ogni variazione in X si determina sempre la stessa variazione in Y qualunque sia il valore di X sull’asse delle ascisse. Ovvero, se X cambia di 1, Y cambierà di una quantità pari a ! per qualsiasi valore di X che viene preso in considerazione sull’asse delle ascisse. Se la relazione fosse perfetta tra X e Y, per ogni osservazione su X si avrebbe una e una sola osservazione su Y. Nella realtà le relazioni tra le variabili non sono perfette, quindi nell’equazione di regressione bisogna incorporare un termine di errore ( o residuo) per ogni caso:

Y = " + !X + "

(coefficiente angolare) (intercetta)

(errore o residuo)

Page 14: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

14

La regressione bivariata (o semplice)

#

!

Y’ = " + !X Y

X Xi

Yi = # + !Xi + $i

$i = (Yi – Yi’)

Yi’

Yi

La regressione bivariata (o semplice)

Il punto di partenza della regressione è rappresentato da una matrice che riassume le correlazioni o le covarianze tra la variabile dipendente (misurata per lo meno su una scala ad intervalli equivalenti), le variabili indipendenti (che possono essere quantitative oppure dicotomiche) e tra le variabili indipendenti stesse. Il punto d’arrivo della regressione lineare è ottenere delle informazioni, costituite da: •  Un insieme di parametri B ( coefficiente di regressione “non standardizzato”) e ! ( coefficiente di regressione “standardizzato”) che riassumono la relazione tra varibile dipendente e variabili indipendenti. •  Una statistica (t) e un valore di probabilità (p) associato ad ognuno dei parametri della regressione. •  Due valori che riassumono rispettivamente la correlazione tra la variabile dipendente e le indipendenti (R) e l’impatto complessivo delle variabili indipendenti sulla variabile dipendente in termini di varianza spiegata (R2) e un indice (F) che consente di condurre la verifica delle ipotesi sui coefficienti R e R2.

Page 15: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

15

Tipologie di analisi della regressione lineare

TIPO DI REGRESSIONE NUMERO DI VARIABILI

DIPENDENTI

NUMERO DI VARIABILI

INDIPENDENTI

regressione lineare semplice 1 1

regressione lineare multipla 1 più di 1

regressione lineare multipla multivariata più di 1 più di 1

La regressione multipla

La regressione multipla rappresenta una generalizzazione della regressione bivariata quando le variabili indipendenti sono almeno due. Nella regressione multipla abbiamo una variabile dipendente che regredisce su almeno due variabili indipendenti.

Le variabili, per poter essere inserite in un modello di regressione lineare multipla, devono essere del seguente tipo:

•  variabile dipendente (Y): quantitativa

•  variabili indipendenti (X1, X2, ! Xp): quantitative o dicotomiche. (Nel modello possono essere inserite anche variabili categoriali, purchè esse vengano preventivamente dicotomizzate).

Non si parla più di retta di regressione ma di piano di regressione (se abbiamo due variabili indipendenti) o di iperpiano (se le variabili indipendenti sono più di due).

Page 16: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

16

La regressione multipla

La regressione multipla

Yi = " + #1 X1i + #2 X2i + # #q Xqi + $i

variabile dipendente variabili indipendenti

costante coefficienti di regressione errore

Nota: i = 1 ! n, indica l’iesima unità statistica

Page 17: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

17

La regressione multipla

LE ASSUNZIONI TEORICHE

•  $i ~% (0,& 2): gli errori devono avere una distribuzione normale con media 0

e varianza & 2

•  la varianza degli errori deve essere costante per qualsiasi valore delle variabili indipendenti

•  gli errori devono essere indipendenti tra loro

Nota: Per verificare tali assunti è utile avvalersi di analisi grafiche: •  Istogramma degli errori per verificarne la normalità; •  Grafici di dispersione degli errori (vs. la var dip. e vs. le var. indip.) per verificarne l’omogeneità della varianza e l’indipendenza.

La regressione multipla

I COEFFICIENTI DI REGRESSIONE - COME SI CALCOLANO -

I coefficienti di regressione (#1;#2 # #q) vengono stimati attraverso il “metodo dei minimi quadrati”, in modo cioè da minimizzare la seguente quantità:

( )2*i i

iy y!"

dove con sono indicati i valori osservati sulla variabile dipendente Y e

con i valori stimati attraverso il modello della regressione multipla

iy*iy

Page 18: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

18

La regressione multipla

•  Il generico coefficiente di regressione !j esprime, sulla base del modello stimato, di quanto aumenta o diminuisce la variabile dipendente Y per ogni incremento unitario della variabile indipendente X j . •  I valori dei coefficienti di regressione dipendono dalla scala di misura delle variabili indipendenti. Per poter effettuare un confronto tra i coefficienti di regressione è necessario standardizzare i valori rilevati sulle variabili indipendenti prima di condurre l’analisi della regressione multipla (si ottengono così i coefficienti di regressione standardizzati).

I COEFFICIENTI DI REGRESSIONE - COME SI INTERPRETANO -

La regressione multipla

( )21i

iy y

n!" = ( )2*1

iiy y

n!" + ( )2*1

i iiy y

n!"

varianza di Y (varianza del fenomeno)

varianza dovuta alla regressione (varianza spiegata)

varianza dei residui (varianza residua)

Maggiore è la varianza spiegata e maggiore è la bontà di adattamento del modello utilizzato.

SCOMPOSIZIONE DELLA VARIANZA

Page 19: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

19

La regressione multipla

Come misura della bontà di adattamento di un modello di regressione multipla si utilizza il cosiddetto coefficiente di determinazione, meglio noto come R2:

2 (varianza spiegata dalla regressione)(varianza di Y)

R =

Esso varia tra 0 e 1 ed esprime la frazione di varianza spiegata dal modello di regressione sul totale della varianza del fenomeno di studio.

Esempio: Un valore di R2 pari a 0.42, indica che il modello di regressione utilizzato spiega il 42% della variabilità complessiva di Y.

NOTA: Oltre all’R2 classico è possibile utilizzare l’R2 corretto che tiene conto dei gradi di libertà del modello, cioè sostanzialmente del numero di unità statistiche e del numero di variabili.

La regressione multipla

La Verifica d’Ipotesi può essere applicata nell’ambito della regressione lineare multipla per testare la significatività statistica:

•  del modello nel suo insieme;

•  dell’inserimento di un nuovo predittore nel modello in termini di miglioramento della varianza spiegata;

•  dei singoli predittori all’interno di un modello.

LA VERIFICA D’IPOTESI

Page 20: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

20

La regressione multipla

Per la valutare la significativà statistica del modello nel suo insieme viene utilizzato il test statistico F basato sul rapporto tra varianza spiegata dal modello e varianza residua.

Se il p-value osservato è minore del p-value teorico (solitamente 0.05) il modello utilizzato spiega una quota significativa di varianza del fenomeno.

TEST F SUL MODELLO GLOBALE

“Il modello spiega una quota significativa della varianza di Y?”

La regressione multipla

“L’inserimento di un nuovo predittore nel modello apporta un aumento significativo in termini di varianza spiegata?”

Per la valutare la significativà statistica dell’inserimento di un nuovo predittore nel modello viene utilizzato il test statistico F basato sul rapporto tra l’incremento di varianza spiegata grazie all’introduzione del predittore e la varianza residua. Se il p-value osservato è minore del p-value teorico (solitamente 0.05) il nuovo predittore apporta un aumento significativo in termini di varianza spiegata. E’ quindi è opportuno inserirlo nel modello.

IL TEST F SULL’INTRODUZIONE DI UN NUOVO PREDITTORE DEL MODELLO

Page 21: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

21

La regressione multipla

“Quali sono le variabili all’interno del modello che spiegano una quota significativa della varianza di Y?”

Per la valutare la significativà statistica di un predittore all’interno di un modello viene utilizzato il test t di student con n-2 gradi di libertà. Se il p-value osservato è minore del p-value teorico (solitamente 0.05) il predittore spiega una quota significativa della varianza di Y. E’ quindi è opportuno mantenerlo nel modello.

IL TEST t SULLA SIGNIFICATIVITA’ DI UN PREDITTORE ALL’INTERNO DI UN MODELLO

La regressione multipla

Dato un insieme q di predittori esistono varie tecniche per selezionare il numero ottimale di predittori da inserire in un modello di regressione multipla:

•  La regressione standard (“Per Blocchi” in SPSS)

•  La regressione stepwise progressiva (“Avanti” in SPSS)

•  La regressione stepwise a ritroso (“Indietro” in SPSS)

•  La regressione stepwise convenzionale (“Per Passi” in SPSS)

I METODI PER LA SELEZIONE DEI PREDITTORI (1/5)

Page 22: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

22

La regressione multipla

•  Tutte le variabili indipendenti vengono inserite nel modello. •  Non si procede quindi ad alcuna selezione. •  Per valutare l’importanza di ogni singolo predittore si fa riferimento al test t.

LA REGRESSIONE STANDARD (2/5)

La regressione multipla

•  Utilizzando tale tecnica i predittori sono inseriti uno alla volta nel modello di regressione, partendo con un predittore, selezionandone un secondo e così via.

•  La selezione si basa sul contributo di ciascun predittore inserito alla spiegazione della variabilità di Y. •  Il processo di selezione continua finchè non è raggiunto un criterio di arresto della procedura (criteri poco restrittivi portano all’inclusione di tutte le variabili).

LA REGRESSIONE STEPWISE PROGRESSIVA (3/5)

Page 23: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

23

La regressione multipla

LA REGRESSIONE STEPWISE A RITROSO (4/5)

•  Inizialmente tutti i predittori sono inseriti nel modello. Successivamente vengono rimossi una alla volta i predittori che non contribuiscono a spiegare una quota significativa della variabilità di Y. •  Il processo si arresta quando è soddisfatta una delle regole previste per troncare il processo di eliminazione.

La regressione multipla

•  E’ una combinazione delle due tecniche precedenti.

•  Un predittore viene incluso nel modello se, in una fase del processo di selezione, dà il contributo più significativo alla spiegazione della variabilità di Y, ma può essere rimosso nelle fasi successive se la sua capacità esplicativa viene surrogata da altri predittori.

•  La regressione stepwise convenzionale (nota semplicemente come “regressione stepwise”) è la più utilizzata nelle applicazioni pratiche.

LA REGRESSIONE STEPWISE A CONVENZIONALE (5/5)

Page 24: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

24

La regressione multipla

•  variabile dipendente: voto di laurea (Y)

•  variabili indipendenti: voto di maturità (X1), voto al test d’ingresso (X2)

•  numero di soggetti=60

ALCUNE POSSIBILI DOMANDE DI INTERESSE

• Esiste, sulla base delle variabili indipendenti rilevate, un buon modello in grado di spiegare il voto di laurea? • Quale importanza hanno il voto di maturità e il voto al test d’ingresso nel predire il voto di laurea? • In quale modo voto di maturità e voto al test influenzano il voto di laurea?

ESEMPIO

La regressione multipla

ESEMPIO

Per analizzare le relazioni tra le variabili di interesse adattiamo un modello di regressione multipla lineare del tipo:

Yi = " + #1 X1i + #2 X2i + $i

voto di laurea voto di maturità voto al test

Page 25: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

25

La regressione multipla Riepilogo del modello

.762a .581 .566 8.02235Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), voto del test, voto di maturitàa.

ANOVAb

5079.992 2 2539.996 39.467 .000a

3668.408 57 64.3588748.400 59

RegressioneResiduoTotale

Modello1

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), voto del test, voto di maturitàa.

Variabile dipendente: voto di laureab.

Coefficientia

28.206 7.299 3.864 .000

1.289 .149 .743 8.631 .000

.045 .033 .119 1.387 .171

(Costante)voto dimaturitàvoto del test

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: voto di laureaa.

Il modello spiega il 58% della variabilità di Y.

La frazione di varianza spiegata dal modello è stat. sign.

I l v o t o d i m a t u r i t à h a un’influenza significativa sul voto di laurea.

I l vo to de l tes t non ha un’influenza statisticamente significativa sul voto di laurea.

La regressione multipla

Variabili inserite/rimossea

voto dimaturità .

Per passi(Criteri:Probabilità di F diinserimento <=.050,Probabilità di F dirimozione>= .100).

Modello1

Variabiliinserite

Variabilirimosse Metodo

Variabile dipendente: voto di laureaa.

Il processo seleziona unicamente la variabile indipendente voto di maturità.

Page 26: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

26

La regressione multipla Riepilogo del modello

.753a .567 .559 8.08604Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), voto di maturitàa.

ANOVAb

4956.129 1 4956.129 75.800 .000a

3792.271 58 65.3848748.400 59

RegressioneResiduoTotale

Modello1

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), voto di maturitàa.

Variabile dipendente: voto di laureab.

Coefficientia

29.726 7.274 4.087 .000

1.306 .150 .753 8.706 .000

(Costante)voto dimaturità

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: voto di laureaa.

La regressione multipla

voto di laurea

12011010090807060

resi

dui s

tand

ardi

zzat

i

5

3

1

-1

-3

-5

5947

16

Il grafico di dispersione dei residui

Eliminando dall’analisi i “valori anomali” si otterrebbe un incremento sensibile della quota di varianza spiegata (l’R2 passa da 0.57 a 0.89) e una “migliore” distribuzione dei residui.

UN PO’ DI DIAGNOSTICA SULLA BONTA’ DI ADATTAMENTO DEL MODELLO FINALE

Page 27: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

27

La regressione in SPSS

1.  Selezionare il menu “Analizza” 2.  Selezionare l’opzione “Regressione”

3.  Selezionare l’opzione ”Lineare”

4.  Nella finestra “Regresione Lineare” selezionare la variabile dipendente e le variabili indipendenti.

5.  Selezionare il tipo di regressione.

6.  Selezionare e impostare le opzioni di interesse per l’analisi.

7.  Premere OK!

La regressione in SPSS

Dalla finestra “Regressione Lineare” attraverso il sottomenù Metodo è possibile specificare il metodo di regressione per la selezione delle variabili nel modello. I metodi possibili sono:

•  Per blocchi: tutte le variabili sono inserite nel modello (regressione standard);

•  Avanti: regressione stepwise progressiva;

•  Indietro: regressione stepwise a ritroso;

•  Per Passi: regressione stepwise convenzionale;

I METODI DI REGRESSIONE

Page 28: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

28

La regressione in SPSS

Dalla finestra “Regressione Lineare” cliccando sul pulsante Statistiche si ottiene la finestra “Regressione Lineare: Statistiche” in cui è possibile selezionare vari tipi di opzioni utili tra cui:

•  Coefficienti di Regressione: produce le stime dei coefficienti di regressione e dei coefficienti di regressione standardizzati (già presenti per default), gli intervalli di confidenza al 95% dei coefficienti di regressione, e la matrice di covarianza tra i predittori.

•  Adattamento del modello: produce gli indici R, R2, R2 corretto e una tabella di analisi della varianza sul modello di regressione (il tutto è gia presente per default)

•  Descrittive: produce media, deviazione standard, numero di casi validi e matrice di correlazione delle variabili, sia indipendenti che dipendente, del modello (non è presente per default, ma è molto utile!).

LE STATISTICHE

La regressione in SPSS

Dalla finestra “Regressione Lineare” cliccando sul pulsante Grafici si ottiene la finestra “Regressione Lineare: Grafici” in cui è possibile produrre grafici di dispersione utili a:

•  analizzare la bontà di adattamento del modello utilizzato;

•  verificare il rispetto delle assunzioni teoriche di base (come la normalità della distribuzione dei residui e l’omogeneità della varianza);

•  individuare eventuali dati anomali (possibili outliers).

I GRAFICI

Page 29: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

29

La regressione in SPSS

Dalla finestra “Regressione Lineare” cliccando sul pulsante Salva si ottiene la finestra “Regressione Lineare: Salva” in cui è possibile salvare alcuni valori di particolare interesse per l’analisi tra cui:

•  Valori Previsti: i valori previsti dal modello di regressione per la variabile dipendente.

•  Residui: i residui di regressione è cioè le differenze tra i valori previsti dal modello e i valori osservati per la varibile dipendente.

Nota: I valori selezionati vengono aggiunti in una o più colonne nel file di dati in esecuzioni

I SALVATAGGI

La regressione in SPSS

ALCUNE OPZIONI AGGIUNTIVE

Dalla finestra “Regressione Lineare” cliccando sul pulsante Opzioni si ottiene la finestra “Regressione Lineare: Opzioni” in cui sono disponibili le seguenti Opzioni Aggiuntive:

•  Criteri di Accettazione e Rifiuto. Questa opzione è disponibile se si utilizzano i metodi di regressione avanti, indietro o per passi. Permette di personalizzare i criteri di selezione delle variabili indipendenti ( e cioè di specificare le soglie, in termini di valore o probabilità, associate al test F per l’inserimento e la rimozione delle variabili indipendenti).

•  Includi termine costante nell’equazione. Per default il modello di regressione multipla contiene un termine costante. Deselezionando questa opzione la costante non viene inclusa nel modello di regressione (in pratica si forza l’equazione della retta a passare per l’origine degli assi).

Page 30: La regressione lineare

© Metodologia della ricerca in psicologia clinica - Dott. Luca Filipponi

30

La regressione in SPSS

ALCUNE OPZIONI AGGIUNTIVE

Dalla finestra “Regressione Lineare” cliccando sul pulsante Opzioni si ottiene la finestra “Regressione Lineare: Opzioni” in cui sono disponibili le seguenti Opzioni Aggiuntive:

• Valori Mancanti. Permette di gestire i dati mancanti (Esclusione listwise presente per default, Esclusione pairwise, Stima con la media in cui i valori mancanti vengono sostituiti dalla media della rispettiva variabile).