Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per...

35
Relazioni tra variabili: Correlazione e regressione lineare Dott. Raffaele Casa - Dipartimento di Produzione Vegetale Modulo di Metodologia Sperimentale Febbraio 2003

Transcript of Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per...

Page 1: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Relazioni tra variabili:Correlazione e regressione

lineare

Dott. Raffaele Casa - Dipartimento di Produzione VegetaleModulo di Metodologia Sperimentale

Febbraio 2003

Page 2: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Analisi di relazioni tra variabili

0 1 2 3 4 5 6 7 80

1

2

3

4

5

6

Azoto proteico solubile (mg foglia-1)

Clo

rofil

la to

tale

(mg

fogl

ia-1

)

0 100 200 300 400 500 600 700 8000

25

50

75

100

125

150

densità (piante m-2)

sem

i pia

nta-1

0 50 100 150 2004000

5000

6000

7000

8000

Dose azoto (kg ha-1)

Pro

duzi

one

di g

rane

lla (

kg h

a-1)

• Correlazione• Regressione

Page 3: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Analisi di relazioni tra variabili

• Correlazione: analizza se esisteuna relazione tra due variabili(come e quanto due variabilivariano insieme)

• Regressione: analizza la formadella relazione tra variabili

Page 4: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Covariazione di variabili

Page 5: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

• 2 coefficienti di correlazione:• Pearson product-moment (parametrico)• Spearman rank correlation (non

parametrico)• Entrambi vanno da -1 (correl.negativa) a

+1 (correl.positiva). 0 corrisponde adassenza di correlazione

Analizzare la correlazione

Page 6: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

PARAMETRICOAssunzioni:• entrambe le variabili devono essere continue• i dati devono essere secondo una scala a

intervalli o razionale• entrambe le variabili devono seguire una

distribuzione normale• la relazione tra le variabili è lineare

Coefficiente di correlazione di Pearson: r

Page 7: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Tipo di dati• Scala nominale: categorie non ordinabili (es.

ambiente:macchia/pineta/faggeta; formafoglia:ellittica/lanceolata...)

• Scala ordinale: categorie ordinabili (es.alto/medio/basso; raro/comune/abbondante)

• Scala per intervalli: distanza quantificabile tracategorie, è possibile sottrarre ma non sommare(es. date, temperature)

• Scala razionale: possibile tutte le operazioni (+ - *÷), variabili quantitative (es. lunghezza)

Page 8: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

• Procedura:• Calcolo di r tra le variabili X e Y:

∑∑

∑∑

∑∑ ∑

=

=

=

=

=

= =

−−

−=

N

i

N

ii

i

N

i

N

ii

i

N

i

N

i

N

iii

ii

N

YY

N

XX

N

YXYX

r

1

1

2

2

1

1

2

2

1

1 1

)()(

Coefficiente di correlazione di Pearson: r

Page 9: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Esempio: come calcolare il coefficiente dicorrelazione di Pearson

• Esempio: funzione “Pearson” o“Correlazione”

• Calcolo matrice di correlazione in Excel:Strumenti - >Analisi dati -> Correlazione

Page 10: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

La correlazione è significativa?

• Il valore di r è stato calcolato da uncampione e non dalla popolazione ( ρ )

• Il valore calcolato indica una correlazionesignificativa?

Coefficiente di correlazione di Pearson: r

Page 11: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

La correlazione è significativa?• Ipotesi nulla: ρ = 0 (ρ è il coefficiente di

correlazione della popolazione, r delcampione).

• Calcolare t:

• Valutare significatività di t per GDL = N-2

Coefficiente di correlazione di Pearson: r

212

rn

rt−−

=

Page 12: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

OK: la correlazione è significativa ma….• Le 2 variabili sono distribuite normalmente?• La relazione tra le 2 variabili è lineare? (cf.

trasformazione dei dati)• Ricordarsi che anche se c’e’ correlazione non

vuol dire che c’e’ nesso di causa-effetto …• osservare la frazione di variabilità spiegata (coefficiente di determinazione)

Coefficiente di correlazione di Pearson: r

2r

Page 13: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

NON PARAMETRICO :• i dati non devono avere distribuzione

normale.• Si possono usare dati da scala ordinale• Si possono utilizzare anche campioni piccoli

(da 7 a 30 coppie di dati)

Coefficiente di correlazione di Spearman: rs

Page 14: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Procedura:• Ordinare i dati dal più piccolo al più grande.

• Calcolare rs come per r (Pearson) non sui dati masui ranghi (cioe’ i numeri d’ordine)

• N.B. se più dati hanno lo stesso rango usare lamedia dei ranghi.

• Valutare la significatività di rs calcolando il valoredi t con la stessa formula usata per r

Coefficiente di correlazione di Spearman: rs

Page 15: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Esempio: come calcolare il coefficiente di correlazione diSpearman

• Esempio:• calcolo r Spearman in Excel

Page 16: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Attenzione….• Anche se c’e’ correlazione non vuol dire che ci

sia nesso di causa-effetto …ed altre variabilipossono essere la causa delle variazioni

Interpretare i risultati della correlazione

Page 17: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Lo scopo dell’analisi di regressione è di determinare la formadella relazione funzionale tra variabili (relazione causa-effetto)Regressione semplice (lineare o non lineare): determinare la formadella relazione tra 2 variabili (una indipendente ed una dipendente)

•Regressione multipla: determinare la forma della relazione tra piùvariabili (più indipendenti ed una dipendente)

Analisi di regressione

Page 18: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Perché è importante:•Ci permette di costruire un modello funzionale dellarisposta di una variabile (effetto) ad un’altra (causa)•Conoscendo la forma della relazione funzionale travariabile indipendente e dipendente è possibilestimare il valore della variabile dipendenteconoscendo quello della variabile indipendente(interpolazione) solo nel range di dati X usato per laregressione (non è corretto estrapolare)

Analisi di regressione

Page 19: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Nella regressione lineare la relazione travariabili (causa-effetto) è rappresentata da unalinea retta

Regressione lineare (semplice)

0 50 100 150 2004000

5000

6000

7000

8000

Dose azoto (kg ha-1)

Pro

duzi

one

di g

rane

lla (

kg h

a-1)

y = 4317 + 20.6 xr2= 0.96

N.B: se siamo indecisisu quale delle nostrevariabili è dipendente equale indipendente,allora l’analisi diregressione non èadatta!

Page 20: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

La relazione tra variabili è espressadall’equazione:

Y = a+bXdove X è la variabile indipendente, Y la variabiledipendente, a è l’intercetta (il valore di Y quandoX=0) e b è la pendenza (quanto aumenta Y perogni aumento di un’unità di X).N.B: La retta passa per il punto delle medie delledue variabili

Regressione lineare

( )YX ,

Page 21: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

PARAMETRICO :Assunzioni:• Dati da scala per intervalli o scala razionale

• La variabile indipendente (X) è misurata senzaerrore (è fissata dallo sperimentatore)

• La variabile dipendente (Y) è campionataindipendentemente ad ogni valore di X• Ad ogni valore di X i dati Y seguono la distribuzionenormale ed hanno la stessa varianza

Regressione lineare

Page 22: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare

Page 23: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Procedura: metodo dei minimi quadrati (leastsquares)

Regressione lineare

Page 24: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Procedura:

1. Stima della pendenza b

Regressione lineare

∑∑

∑∑ ∑

=

=

=

= =

−=

N

i

N

ii

i

N

i

N

i

N

iii

ii

N

XX

N

YXYX

b

1

1

2

2

1

1 1

)(

2. Stima dell’intercetta a

XbYa −=

Page 25: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineareVariazione (devianza) spiegata / non spiegata dallaregressione nei dati Y

La variazionetotale nei dati Y

∑∑∑===

−+−=−N

iii

N

ii

N

ii YYYYYY

1

2

1

2

1

2 )ˆ()ˆ()(

in parte èspiegatadallaregressione

ed in parte nonè spiegata dallaregressione(variazioneresidua)

Page 26: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare

Page 27: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare

Page 28: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare

Come quantificare la bontà della regressione? Il coefficiente di determinazione (va da 0 a 1)

=

=

−== N

ii

N

ii

YY

YY

totdevianzaspiegatadevianza

r

1

2

1

2

2

)(

)ˆ(

__

Page 29: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare

La regressione è significativa?• L’equazione è stata ricavata da un campione e non dalla

popolazione

1. Test t sull’err.standard della pendenza b:Ipotesi nulla=la pendenza è uguale a 0

2. Analisi della varianza: si esamina il rapporto tra varianzaspigata dalla regressione e varianza residua.

Page 30: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare

La regressione è significativa?1. Test t sull’errore standard della pendenza b (con n-2

GDL):

b

o

StErrHb

t.

−=

Ho =ipotesi nulla;

Page 31: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineareErrore standard della pendenza b :

∑∑

=

=

=

=

−−

−−−−

= N

ii

N

iN

ii

N

iii

i

b

XXn

XX

YYXXYY

StErr

1

2

1

1

2

12

)()2(

)(

))(()(

.

Page 32: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare2. Analisi della varianza: test F del rapporto tra varianza

spiegata dalla regressione e varianza residua.

Fonti di variazione Devianze Descrizione Gradi di libertà

Spiegata dalla regressione

Somma dei quadrati delle deviazioni dei valori stimati di Y rispetto alla media di Y

k

Non spiegata dalla regressione (residua)

Somma dei quadrati delle differenze tra i valori stimati ed osservati di Y

n-k-1

Totale

Somma dei quadrati delle devaiazioni tra i valori osservati di Y e la media di Y

n-1

dove:n = numero di osservazionik= sempre 1 per la regressione lineare

∑=

−N

ii YY

1

2)ˆ(

∑=

−N

iii YY

1

2)ˆ(

∑=

−N

ii YY

1

2)(

Page 33: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Regressione lineare• Errore standard e limiti di confidenza

• L’errore standard dei valori stimati di Y è ugualealla deviazione standard dei residui:

• Analisi dei residui• Standardizzazione (divisione per SXY)• Distribuzione casuale sopra e sotto la linea (+/-)?

n

YYS

N

iii

XY

∑=

−= 1

2)ˆ(Per piccoli campioni

si usa:

2

)ˆ(1

2

−=

∑=

n

YYS

N

iii

XY

Page 34: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

Esempio: dati granella-azoto• calcolo regressione lineare in Excel

Regressione lineare

Page 35: Dott. Raffaele Casa - Dipartimento di Produzione …santucci/QPS/LUCIDI/DispenseStat/C...s come per r (Pearson) non sui dati ma sui ranghi (cioe’ i numeri d’ordine) • N.B. se

OK la regressione è significativa ma… assunzioni!•La variabile dipendente (Y) è campionata indipendentementead ogni valore di X ? Cf. es. analisi di crescita di individui

•Ad ogni valore di X, i dati Y hanno la stessa varianza?Cf. aumento di varianza tra individui di maggioridimensioni

•Ad ogni valore di X, i dati Y seguono la distribuzionenormale?

•La variabile indipendente (X) è misurata senza errore (èfissata dallo sperimentatore)?

Regressione lineare