STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

28
STATISTICA a.a. 2002-2003 – METODO DEI MINIMI QUADRATI – REGRESSIONE – CORRELAZIONE

Transcript of STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

Page 1: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

STATISTICAa.a. 2002-2003

– METODO DEI MINIMI QUADRATI

– REGRESSIONE

– CORRELAZIONE

Page 2: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

RELAZIONE FRA VARIABILI

– Spesso si vuole trovare la relazione che

lega due o più variabili (es. la pressione di

un gas dipende da temperatura e volume)

– Vogliamo esprimere questa relazione in

forma matematica

Page 3: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

INTERPOLAZIONE

– Dobbiamo raccogliere dati che mostrino

valori corrispondenti delle variabili

– Riportiamo i punti (Xi,Yi) delle due variabili

su un sistema di coordinate

– Vogliamo individuare una curva (relazione

non lineare) o una retta interpolante

Page 4: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

INTERPOLAZIONE

– Il tipo più semplice è la retta

Y = a0 + a1 X

– Dati due punti qualsiasi (X1 Y1) e (X2 Y2) ,

vogliamo determinare a0 e a1 .

Page 5: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

INTERPOLAZIONE

112

12 aXX

YY

)( 112

121 XX

XX

YYYY

Page 6: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

INTERPOLAZIONE

coefficiente angolare

e’ Y per X=0 (ordinata all’origine).

1a

0a

Page 7: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

METODO DEI MINIMI QUADRATI

Page 8: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

METODO DEI MINIMI QUADRATI

• Chiamiamo Dn la deviazione (o errore) fra il

valore Yn e il corrispondente valore della curva

(positiva o negativa)

• Una misura della “bontà dell’interpolazione” è la

somma

D12 + D2

2 …..+ Dn2

Page 9: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

METODO DEI MINIMI QUADRATI

• La curva avente la proprietà che

D12 + D2

2 …..+ Dn2

è minima è detta migliore interpolante o

retta/curva dei minimi quadrati.

Page 10: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

METODO DEI MINIMI QUADRATI

• La retta dei minimi quadrati può essere espressa nella forma

Y = a0 + a1 X

dove a0 e a1 si trovano risolvendo il sistema

Y = a0 N+ a1 X

XY = a0 X+ a1 X2

equazioni normali della retta dei minimi quadrati.

Page 11: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

METODO DEI MINIMI QUADRATI

• Si ottiene

221

22

2

0

)(

)(

))(())((

XXN

YXXYNa

XXN

XYXXYa

Page 12: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

METODO DEI MINIMI QUADRATI

• La prima delle due equazioni si ottiene dalla sommatoria di entrambi i membri di

Y = a0 + a1 X ,

la seconda moltiplicando i membri per X e poi facendo la sommatoria.

– Per derivare le equazioni si minimizzano le derivate della retta

Page 13: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

METODO DEI MINIMI QUADRATI

Y1 = a0 + a1 X1

Y2= a0 + a1 X2

….

S=(a0 + a1 X2 -Y1)2 +(a0 + a1 X2 – Y2)2 +….

+ (a0 + a1 Xn - Yn)2

0

0

1

0

a

S

a

S

Page 14: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

LA REGRESSIONE

• Vogliamo stimare il valore di una variabile Y corrispondente a un dato valore di una variabile X.

• Si può ottenere questo stimando il valore di Y per mezzo di una curva dei minimi quadrati che interpoli i dati campionari.

• Questa è detta CURVA DI REGRESSIONE di X su Y.

• Se X è il tempo (variabile indipendente) i dati indicano i valori di Y in diversi tempi e vengono detti SERIE TEMPORALE.

• La retta/curva di regressione è detta retta/curva del trend e viene usata per scopi di previsione.

Page 15: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

• La correlazione indica il grado di relazione fra le variabili.

• Cercheremo di determinare quanto bene un’equazione spiega tale relazione

• Se tutti i valori delle variabili soddisfano esattamente un’equazione diciamo che le variabili sono perfettamente correlate (esempio: raggio e circonferenza; altezza e peso saranno in parte correlate).

Page 16: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

• Date due variabili X e Y costruiamo un diagramma di dispersione con i loro valori.

• Se tutti i punti giacciono più o meno su una retta, la correlazione è detta lineare e la relazione fra le variabili sarà retta da un’equazione lineare.

Page 17: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

• Se Y cresce al crescere di X la correlazione è positiva o diretta:

Page 18: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

• Se Y decresce al crescere di X, la correlazione è detta negativa o inversa:

• Se i punti stanno su una curva, la correlazione è non lineare.

Page 19: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

• Se non c’è relazione fra le variabili diciamo che sono incorrelate:

Page 20: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

(1) Y = a0 + a1 X

Può essere riscritta come

dove

xx

xyy

2 yy

xyx

2

YYy

XXx

Page 21: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

– Chiamiamo Ystim i valori di Y per dati valori di X secondo una stima compiuta per mezzo della (1).

– Una misura della dispersione intorno alla retta di regressione di Y su X è

oppure

errore standard

della stimaN

XYaYaYS

N

YYS

YX

stimYX

102

2

2)(

Page 22: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

CORRELAZIONE E REGRESSIONE

– Il denominatore può anche essere posto a N-2 .

– L’errore standard della stima ha proprietà analoghe a quelle dello scarto quadratico medio.

Page 23: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

COEFFICIENTE DI CORRELAZIONE

– Chiamiamo devianza totale di Y la somma dei quadrati degli scarti dei valori di Y dalla media Y¯.

– Si può anche scrivere

devianza totale devianza residua devianza spiegata

222 )()()( YYYYYY stimstim

Page 24: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

COEFFICIENTE DI DETERMINAZIONE

– Se la devianza spiegata è zero (ossia la devianza totale equivale alla residua), r2=0

– Se la devianza residua è uguale a zero, cioè devianza totale = devianza spiegata , r2=1

– Dunque r2 è sempre positiva e varia fra 0 e 1.

2

2

2

)(

)(

_

_

YY

YY

totaledevianza

spiegatadevianzar

stim

Page 25: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

COEFFICIENTE DI CORRELAZIONE

– Allora definiamo

r coefficiente di correlazione

2

2

)(

)(

_

_

YY

YY

totaledevianza

spiegatadevianzar

stim

Page 26: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

COEFFICIENTE DI CORRELAZIONE

r varia fra +1 e –1 (+ o – a seconda di correlazione positiva o negativa).

– Poiché

alloraN

YYS

N

YYS

stimyx

y

2

2

)(

)(

2

2

1y

yx

S

Sr

21 rSS yyx

Page 27: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

COEFFICIENTE DI CORRELAZIONE

– Si dimostra che

dove

YYy

XXx

22 yx

xyr

Page 28: STATISTICA a.a. 2002-2003 –METODO DEI MINIMI QUADRATI –REGRESSIONE –CORRELAZIONE.

COEFFICIENTE DI CORRELAZIONE

che dà automaticamente il segno di r.

– Si può riscriverla come

))()()(( 2222 YYNXXN

YXXYNr