STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve:...

Regressione-3L’inferenza per il modello lineare

semplice

STATISTICA

La bontà della regressione

Per fare un buon modello lineare serve:

una correlazione alta, che dice che i dati stanno vicinialla retta

alcune ipotesi che dicano che il meccanismo chegenera i dati è (ragionevolmente) lineare

Inferenza

= +

Il modello dellaregressione lineare

semplice:

= +≈ ⟺ ~ ( , )

= + +

~ ( + , )

=+

Il valore medio di in corrispondenza a tutte le unità statistiche per cui = è

+

InferenzaIl modello della

regressione linearesemplice:

= + +

~ ( + , )= +

= +≈ ⟺ ~ ( , )

=+

Il valore medio di in corrispondenza a tutte le unità statistiche per cui = è

+

InferenzaIl modello della

regressione linearesemplice:

= + +

~ ( + , )=

= +≈ ⟺ ~ ( , )

Inferenza

= +

Il modello dellaregressione lineare

semplice:

= +≈ ⟺ ~ ( , )

= + +

Il modello ha tre parametri incogniti: , ,

1. Stimare , e

2. Verificare se il vero valore della pendenza nella popolazione è davvero diverso da zero (⇔ previsione) oppure no:

∶ = 0, ∶ ≠ 0

Inferenza

= +

= +≈ ⟺ ~ ( , )

= + +

= −= +

= 0

= =∑ ( − )( − )

∑ ( − )

= −

Inferenza

= +

= +≈ ⟺ ~ ( , )

= + +

=1− 2

= −stima di

= +

= 0

varianza deglierrori

errori ≈ residui

Inferenza

=∑( − )( − )

∑( − )

= −

~ (0, )

~ ( + , )

e v.c. gaussiane

dalle stime agli stimatori:

∶ = 0 ∶ ≠ 0

=1− 2

∑ ( − )

> ( − )rifiutiamo se:(rifiutiamo la casualità di unapendenza ≠ 0)

Inferenza

=∑( − )( − )

∑( − )

= −

~ (0, )

~ ( + , )

e v.c. gaussiane


∶ = ∶ ≠

=1− 2

−

∑ ( − )

> ( − )rifiutiamo se:

Inferenza

=∑( − )( − )

∑( − )

= −

~ (0, )

~ ( + , )

e v.c. gaussiane


∶ = ∶ ≠

=1− 2

rifiutiamo se:1 + ̅

∑ ( − )

> ( − )

Inferenza per la previsione

∓ ( − 2) × 1 + +( − )

∑ ( − ̅)

IC della risposta di un nuovo“individuo” con covariata pari a

Inferenza per la previsione

∓ ( − 2) × 1 + +( − )

∑ ( − ̅)

IC della risposta media di tutti gli“individui” con covariata pari a

66 68 70 72

140

150

160

170

180

w

Il modello di regressione lineare

Y

XX

= + + , ~ ( , )

In questo modello, mi aspettodi osservare il valore

(sulla retta), ma l’incertezza del fenomeno può produrre un’osservazione

che non sta sulla retta. Questo errore, = − , è

supposto gaussiano, quindi non può essere troppo grande (" − 3 , 3 "), e deve essere simmetrico, nel senso che

l’istogramma degli deve dare una «campana» simmetrica.

Il modello di regressione lineare

= + + , ~ ( , )

− =1− 2

5 10 15

-20

-10

010

20

- non sono «troppo grandi»: (−3 , +3 );

- sono in parte positivi e in parte negativi;

- il loro grafico è “sparpagliato”.nell’ordine dei dati

GRAFICO DEI RESIDUI

Facciamo un salto in e in Francia!

6 8 10 12 14 16

1520

2530

35

Disoccupazione (%)

Vot

o pe

r Mac

ron

(%)


0 20 40 60 80

-50

510

Index

RE

SID

UI

2

3

−2

0 10 20 30 40

-20

-10

010

20

res1

Verifica della Gaussianità

0 10 20 30 40

-20

-10

010

20

res1


-2 0 2 4 6 8-2

0-1

00

1020


0 20 40 60 80 100

-60

-40

-20

020

4060

80

La varianza non è costante


-2 -1 0 1 2

-2-1

01

2 Q-Q plot

Quantili di una (0,1)

Qua

ntili

deir

esid

uist

anda

rdiz

zati


Q-Q plot

Quantili di una (0,1)

Qua

ntili

deir

esid

uist

anda

rdiz

zati

dato anomalo/ outlier

Ci sono tecniche di diagnostica ad hoc


http://condor.depaul.edu/sjost/it223/documents/normal-plot.htm

Facciamo un salto in

-2 -1 0 1 2

-2-1

01

23

Normal Q-Q Plot

Theoretical Quantiles

Sta

ndar

dize

d R

esid

uals

Qua

ntile

s

Residui standardizzati

-2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

e in Francia!

-2 -1 0 1 2

-2-1

01

23

Normal Q-Q Plot


Sta

ndar

dize

d R

esid

uals

Qua

ntile

s


Shapiro-Wilks (Madansky, p. 20)

> shapiro.test(«residui»)

Shapiro-Wilk normality test

(test di regressione, cfr. di varianze)

e in Francia!


Breusch-Pagan test (Madansky, p. 81)

> library(car)> ncvTest(«lm»)

Non-constant Variance Score Test

e in Francia!

0 20 40 60 80

-50

510

Index

RE

SID

UI

Durbin-Watson test (Madansky, p. 93)

> library(car)> durbinWatsonTest(«lm»)

Alternative hypothesis: rho != 0


6 8 10 12 14

2025

3035

Tasso di disoccupazione

Vot

o pe

r Mac

ron

6 8 10 12 14

2025

3035


Vot

o pe

r Mac

ron

IC della previsione del voto in un

dipartimento con disoccupazione

IC della previsione del voto medio deidipartimenti con

disoccupazione


6 8 10 12 14

2025

3035


Vot

o pe

r Mac

ron

6 8 10 12 14

2025

3035


Vot

o pe

r Mac

ron

IC della previsione del voto in un

dipartimento con disoccupazione

IC della previsione del voto medio deidipartimenti con

disoccupazione

I dati che cadanofuori dall’IC sono

sospetti!

Esercizio di compito

2.5 3.0 3.5 4.0 4.5 5.0

0.4

0.5

0.6

0.7

0.8

0.9

HD

I

L'indice di sviluppo umano (ISU) (in inglese: HDI-Human Development Index) è un indice comparativo dello sviluppo dei vari paesi calcolato tenendo conto dei diversi tassi di aspettativa di vita, istruzione e reddito nazionale lordo procapite.

dati:gdp-hdi-2105.txt

(si ringrazia la studentessaM. Lintner)

0 50 100 150

-0.2

-0.1

0.0

0.1

Index

Eserciziore

sidu

i

Residuals

-4 -3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Esercizio

-3 -2 -1 0 1 2 3

-4-3

-2-1

01

2

Normal Q-Q Plot


Sta

ndar

dize

d R

esid

uals

Qua

ntile

s

2.5 3.0 3.5 4.0 4.5 5.0

0.4

0.5

0.6

0.7

0.8

0.9

Log(GDP)

HD

I

morale della favola:

Outlier e dati influenti


dati: gdp-hdi-2105.txt

log(PIL) 10xHDI6 7 8 9 10 11 12

0.4

0.5

0.6

0.7

0.8

0.9

log(PIL)

HD

I

PIL-Human Development Index

6 7 8 9 10 11 12

0.4

0.5

0.6

0.7

0.8

0.9



log(PIL) 10xHDI log(PIL)

HD

I



X

Y


X

YE’ un outlier rispetto a X?

Lo è rispetto a Y?

Che effetto ha sullaretta dei minimi

quadrati?


X

YE’ un outlier rispetto a X?

Lo è rispetto a Y?

Che effetto ha sulla retta dei

minimi quadrati?

dato influente (leverage)


X

Y

E’ un outlier rispetto a X?

Lo è rispetto a Y?

Che effetto ha sullaretta dei minimi

quadrati?

6 7 8 9 10 11 12

0.4

0.5

0.6

0.7

0.8

0.9



log(PIL)

HD

I


> influence.measures

Regression Deletion DiagnosticsDescription

This suite of functions can be used to compute some of the regression (leave-one-out deletion) diagnostics for linear and generalized linear models discussed in Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982), etc.

1214

1618

2022

Stipendio medioorario 2013


12 14 16 18 20 22

1520

2530

3540

Stipendio medio/h 2013

Vot

o pe

r Mac

ron

(%)

= .


12 14 16 18 20 22

1520

2530

3540


Vot

o pe

r Mac

ron

(%)

= .


influenti?outlier?

12 14 16 18 20 22

1520

2530

3540


Vot

o pe

r Mac

ron

(%)

= .


12 14 16 18 20 22

1520

2530

3540


Vot

o pe

r Mac

ron

(%)

= .

Facciamo un salto in RCI VOGLIAMO PROPRIO FAR PASSARE IN MEZZO UNA RETTA?

UNA PARABOLA, UN’IPERBOLE, UNA FUNZIONE SINUSOIDALE…?!

STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve:...

Documents

Transcript of STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve:...