STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve:...

45
Regressione-3 L’inferenza per il modello lineare semplice STATISTICA

Transcript of STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve:...

Page 1: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Regressione-3L’inferenza per il modello lineare

semplice

STATISTICA

Page 2: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

La bontà della regressione

Per fare un buon modello lineare serve:

una correlazione alta, che dice che i dati stanno vicinialla retta

alcune ipotesi che dicano che il meccanismo chegenera i dati è (ragionevolmente) lineare

Page 3: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza

= +

Il modello dellaregressione lineare

semplice:

= +≈ ⟺ ~ ( , )

= + +

~ ( + , )

Page 4: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

=+

Il valore medio di in corrispondenza a tutte le unità statistiche per cui = è

+

InferenzaIl modello della

regressione linearesemplice:

= + +

~ ( + , )= +

= +≈ ⟺ ~ ( , )

Page 5: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

=+

Il valore medio di in corrispondenza a tutte le unità statistiche per cui = è

+

InferenzaIl modello della

regressione linearesemplice:

= + +

~ ( + , )=

= +≈ ⟺ ~ ( , )

Page 6: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza

= +

Il modello dellaregressione lineare

semplice:

= +≈ ⟺ ~ ( , )

= + +

Il modello ha tre parametri incogniti: , ,

1. Stimare , e

2. Verificare se il vero valore della pendenza nella popolazione è davvero diverso da zero (⇔ previsione) oppure no:

∶ = 0, ∶ ≠ 0

Page 7: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza

= +

= +≈ ⟺ ~ ( , )

= + +

= −= +

= 0

= =∑ ( − )( − )

∑ ( − )

= −

Page 8: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza

= +

= +≈ ⟺ ~ ( , )

= + +

=1− 2

= −stima di

= +

= 0

varianza deglierrori

errori ≈ residui

Page 9: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza

=∑( − )( − )

∑( − )

= −

~ (0, )

~ ( + , )

e v.c. gaussiane

dalle stime agli stimatori:

∶ = 0 ∶ ≠ 0

=1− 2

∑ ( − )

> ( − )rifiutiamo se:(rifiutiamo la casualità di unapendenza ≠ 0)

Page 10: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza

=∑( − )( − )

∑( − )

= −

~ (0, )

~ ( + , )

e v.c. gaussiane

dalle stime agli stimatori:

∶ = ∶ ≠

=1− 2

∑ ( − )

> ( − )rifiutiamo se:

Page 11: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza

=∑( − )( − )

∑( − )

= −

~ (0, )

~ ( + , )

e v.c. gaussiane

dalle stime agli stimatori:

∶ = ∶ ≠

=1− 2

rifiutiamo se:1 + ̅

∑ ( − )

> ( − )

Page 12: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza per la previsione

∓ ( − 2) × 1 + +( − )

∑ ( − ̅)

IC della risposta di un nuovo“individuo” con covariata pari a

Page 13: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Inferenza per la previsione

∓ ( − 2) × 1 + +( − )

∑ ( − ̅)

IC della risposta media di tutti gli“individui” con covariata pari a

Page 14: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

66 68 70 72

140

150

160

170

180

w

Il modello di regressione lineare

Y

XX

= + + , ~ ( , )

In questo modello, mi aspettodi osservare il valore

(sulla retta), ma l’incertezza del fenomeno può produrre un’osservazione

che non sta sulla retta. Questo errore, = − , è

supposto gaussiano, quindi non può essere troppo grande (" − 3 , 3 "), e deve essere simmetrico, nel senso che

l’istogramma degli deve dare una «campana» simmetrica.

Page 15: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Il modello di regressione lineare

= + + , ~ ( , )

− =1− 2

5 10 15

-20

-10

010

20

- non sono «troppo grandi»: (−3 , +3 );

- sono in parte positivi e in parte negativi;

- il loro grafico è “sparpagliato”.nell’ordine dei dati

GRAFICO DEI RESIDUI

Page 16: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Facciamo un salto in e in Francia!

6 8 10 12 14 16

1520

2530

35

Disoccupazione (%)

Vot

o pe

r Mac

ron

(%)

Page 17: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Facciamo un salto in e in Francia!

6 8 10 12 14 16

1520

2530

35

Disoccupazione (%)

Vot

o pe

r Mac

ron

(%)

Page 18: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Facciamo un salto in e in Francia!

0 20 40 60 80

-50

510

Index

RE

SID

UI

2

3

−2

Page 19: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

0 10 20 30 40

-20

-10

010

20

res1

Verifica della Gaussianità

Page 20: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

0 10 20 30 40

-20

-10

010

20

res1

Verifica della Gaussianità

-2 0 2 4 6 8-2

0-1

00

1020

Page 21: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Verifica della Gaussianità

0 20 40 60 80 100

-60

-40

-20

020

4060

80

La varianza non è costante

Page 22: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Verifica della Gaussianità

-2 -1 0 1 2

-2-1

01

2 Q-Q plot

Quantili di una (0,1)

Qua

ntili

deir

esid

uist

anda

rdiz

zati

Page 23: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Verifica della Gaussianità

Q-Q plot

Quantili di una (0,1)

Qua

ntili

deir

esid

uist

anda

rdiz

zati

dato anomalo/ outlier

Ci sono tecniche di diagnostica ad hoc

Page 24: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Verifica della Gaussianità

http://condor.depaul.edu/sjost/it223/documents/normal-plot.htm

Page 25: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Facciamo un salto in

-2 -1 0 1 2

-2-1

01

23

Normal Q-Q Plot

Theoretical Quantiles

Sta

ndar

dize

d R

esid

uals

Qua

ntile

s

Residui standardizzati

-2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

e in Francia!

Page 26: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

-2 -1 0 1 2

-2-1

01

23

Normal Q-Q Plot

Theoretical Quantiles

Sta

ndar

dize

d R

esid

uals

Qua

ntile

s

Facciamo un salto in

Shapiro-Wilks (Madansky, p. 20)

> shapiro.test(«residui»)

Shapiro-Wilk normality test

(test di regressione, cfr. di varianze)

e in Francia!

Page 27: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Facciamo un salto in

Breusch-Pagan test (Madansky, p. 81)

> library(car)> ncvTest(«lm»)

Non-constant Variance Score Test

e in Francia!

0 20 40 60 80

-50

510

Index

RE

SID

UI

Durbin-Watson test (Madansky, p. 93)

> library(car)> durbinWatsonTest(«lm»)

Alternative hypothesis: rho != 0

Page 28: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Facciamo un salto in e in Francia!

6 8 10 12 14

2025

3035

Tasso di disoccupazione

Vot

o pe

r Mac

ron

6 8 10 12 14

2025

3035

Tasso di disoccupazione

Vot

o pe

r Mac

ron

IC della previsione del voto in un

dipartimento con disoccupazione

IC della previsione del voto medio deidipartimenti con

disoccupazione

Page 29: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Facciamo un salto in e in Francia!

6 8 10 12 14

2025

3035

Tasso di disoccupazione

Vot

o pe

r Mac

ron

6 8 10 12 14

2025

3035

Tasso di disoccupazione

Vot

o pe

r Mac

ron

IC della previsione del voto in un

dipartimento con disoccupazione

IC della previsione del voto medio deidipartimenti con

disoccupazione

I dati che cadanofuori dall’IC sono

sospetti!

Page 30: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Esercizio di compito

2.5 3.0 3.5 4.0 4.5 5.0

0.4

0.5

0.6

0.7

0.8

0.9

HD

I

L'indice di sviluppo umano (ISU) (in inglese: HDI-Human Development Index) è un indice comparativo dello sviluppo dei vari paesi calcolato tenendo conto dei diversi tassi di aspettativa di vita, istruzione e reddito nazionale lordo procapite.

dati:gdp-hdi-2105.txt

(si ringrazia la studentessaM. Lintner)

Page 31: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

0 50 100 150

-0.2

-0.1

0.0

0.1

Index

Eserciziore

sidu

i

Residuals

-4 -3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Page 32: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Esercizio

-3 -2 -1 0 1 2 3

-4-3

-2-1

01

2

Normal Q-Q Plot

Theoretical Quantiles

Sta

ndar

dize

d R

esid

uals

Qua

ntile

s

2.5 3.0 3.5 4.0 4.5 5.0

0.4

0.5

0.6

0.7

0.8

0.9

Log(GDP)

HD

I

morale della favola:

Page 33: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Outlier e dati influenti

Page 34: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Outlier e dati influenti

dati: gdp-hdi-2105.txt

log(PIL) 10xHDI6 7 8 9 10 11 12

0.4

0.5

0.6

0.7

0.8

0.9

log(PIL)

HD

I

PIL-Human Development Index

Page 35: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

6 7 8 9 10 11 12

0.4

0.5

0.6

0.7

0.8

0.9

Outlier e dati influenti

dati: gdp-hdi-2105.txt

log(PIL) 10xHDI log(PIL)

HD

I

PIL-Human Development Index

Page 36: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Outlier e dati influenti

X

Y

Page 37: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Outlier e dati influenti

X

YE’ un outlier rispetto a X?

Lo è rispetto a Y?

Che effetto ha sullaretta dei minimi

quadrati?

Page 38: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Outlier e dati influenti

X

YE’ un outlier rispetto a X?

Lo è rispetto a Y?

Che effetto ha sulla retta dei

minimi quadrati?

dato influente (leverage)

Page 39: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

Outlier e dati influenti

X

Y

E’ un outlier rispetto a X?

Lo è rispetto a Y?

Che effetto ha sullaretta dei minimi

quadrati?

Page 40: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

6 7 8 9 10 11 12

0.4

0.5

0.6

0.7

0.8

0.9

Outlier e dati influenti

dati: gdp-hdi-2105.txt

log(PIL)

HD

I

PIL-Human Development Index

> influence.measures

Regression Deletion DiagnosticsDescription

This suite of functions can be used to compute some of the regression (leave-one-out deletion) diagnostics for linear and generalized linear models discussed in Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982), etc.

Page 41: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

1214

1618

2022

Stipendio medioorario 2013

Facciamo un salto in e in Francia!

Page 42: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

12 14 16 18 20 22

1520

2530

3540

Stipendio medio/h 2013

Vot

o pe

r Mac

ron

(%)

= .

Facciamo un salto in

Page 43: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

12 14 16 18 20 22

1520

2530

3540

Stipendio medio/h 2013

Vot

o pe

r Mac

ron

(%)

= .

Facciamo un salto in

influenti?outlier?

Page 44: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

12 14 16 18 20 22

1520

2530

3540

Stipendio medio/h 2013

Vot

o pe

r Mac

ron

(%)

= .

Facciamo un salto in

Page 45: STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve: una correlazione alta, che dice che i dati stanno vicini alla retta alcune ipotesiche

12 14 16 18 20 22

1520

2530

3540

Stipendio medio/h 2013

Vot

o pe

r Mac

ron

(%)

= .

Facciamo un salto in RCI VOGLIAMO PROPRIO FAR PASSARE IN MEZZO UNA RETTA?

UNA PARABOLA, UN’IPERBOLE, UNA FUNZIONE SINUSOIDALE…?!