STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve:...
Transcript of STATISTICA - CNR · STATISTICA. La bontà della regressione Per fare un buon modello lineare serve:...
Regressione-3L’inferenza per il modello lineare
semplice
STATISTICA
La bontà della regressione
Per fare un buon modello lineare serve:
una correlazione alta, che dice che i dati stanno vicinialla retta
alcune ipotesi che dicano che il meccanismo chegenera i dati è (ragionevolmente) lineare
Inferenza
= +
Il modello dellaregressione lineare
semplice:
= +≈ ⟺ ~ ( , )
= + +
~ ( + , )
=+
Il valore medio di in corrispondenza a tutte le unità statistiche per cui = è
+
InferenzaIl modello della
regressione linearesemplice:
= + +
~ ( + , )= +
= +≈ ⟺ ~ ( , )
=+
Il valore medio di in corrispondenza a tutte le unità statistiche per cui = è
+
InferenzaIl modello della
regressione linearesemplice:
= + +
~ ( + , )=
= +≈ ⟺ ~ ( , )
Inferenza
= +
Il modello dellaregressione lineare
semplice:
= +≈ ⟺ ~ ( , )
= + +
Il modello ha tre parametri incogniti: , ,
1. Stimare , e
2. Verificare se il vero valore della pendenza nella popolazione è davvero diverso da zero (⇔ previsione) oppure no:
∶ = 0, ∶ ≠ 0
Inferenza
= +
= +≈ ⟺ ~ ( , )
= + +
= −= +
= 0
= =∑ ( − )( − )
∑ ( − )
= −
Inferenza
= +
= +≈ ⟺ ~ ( , )
= + +
=1− 2
= −stima di
= +
= 0
varianza deglierrori
errori ≈ residui
Inferenza
=∑( − )( − )
∑( − )
= −
~ (0, )
~ ( + , )
e v.c. gaussiane
dalle stime agli stimatori:
∶ = 0 ∶ ≠ 0
=1− 2
∑ ( − )
> ( − )rifiutiamo se:(rifiutiamo la casualità di unapendenza ≠ 0)
Inferenza
=∑( − )( − )
∑( − )
= −
~ (0, )
~ ( + , )
e v.c. gaussiane
dalle stime agli stimatori:
∶ = ∶ ≠
=1− 2
−
∑ ( − )
> ( − )rifiutiamo se:
Inferenza
=∑( − )( − )
∑( − )
= −
~ (0, )
~ ( + , )
e v.c. gaussiane
dalle stime agli stimatori:
∶ = ∶ ≠
=1− 2
rifiutiamo se:1 + ̅
∑ ( − )
> ( − )
Inferenza per la previsione
∓ ( − 2) × 1 + +( − )
∑ ( − ̅)
IC della risposta di un nuovo“individuo” con covariata pari a
Inferenza per la previsione
∓ ( − 2) × 1 + +( − )
∑ ( − ̅)
IC della risposta media di tutti gli“individui” con covariata pari a
66 68 70 72
140
150
160
170
180
w
Il modello di regressione lineare
Y
XX
= + + , ~ ( , )
In questo modello, mi aspettodi osservare il valore
(sulla retta), ma l’incertezza del fenomeno può produrre un’osservazione
che non sta sulla retta. Questo errore, = − , è
supposto gaussiano, quindi non può essere troppo grande (" − 3 , 3 "), e deve essere simmetrico, nel senso che
l’istogramma degli deve dare una «campana» simmetrica.
Il modello di regressione lineare
= + + , ~ ( , )
− =1− 2
5 10 15
-20
-10
010
20
- non sono «troppo grandi»: (−3 , +3 );
- sono in parte positivi e in parte negativi;
- il loro grafico è “sparpagliato”.nell’ordine dei dati
GRAFICO DEI RESIDUI
Facciamo un salto in e in Francia!
6 8 10 12 14 16
1520
2530
35
Disoccupazione (%)
Vot
o pe
r Mac
ron
(%)
Facciamo un salto in e in Francia!
6 8 10 12 14 16
1520
2530
35
Disoccupazione (%)
Vot
o pe
r Mac
ron
(%)
Facciamo un salto in e in Francia!
0 20 40 60 80
-50
510
Index
RE
SID
UI
2
3
−2
0 10 20 30 40
-20
-10
010
20
res1
Verifica della Gaussianità
0 10 20 30 40
-20
-10
010
20
res1
Verifica della Gaussianità
-2 0 2 4 6 8-2
0-1
00
1020
Verifica della Gaussianità
0 20 40 60 80 100
-60
-40
-20
020
4060
80
La varianza non è costante
Verifica della Gaussianità
-2 -1 0 1 2
-2-1
01
2 Q-Q plot
Quantili di una (0,1)
Qua
ntili
deir
esid
uist
anda
rdiz
zati
Verifica della Gaussianità
Q-Q plot
Quantili di una (0,1)
Qua
ntili
deir
esid
uist
anda
rdiz
zati
dato anomalo/ outlier
Ci sono tecniche di diagnostica ad hoc
Verifica della Gaussianità
http://condor.depaul.edu/sjost/it223/documents/normal-plot.htm
Facciamo un salto in
-2 -1 0 1 2
-2-1
01
23
Normal Q-Q Plot
Theoretical Quantiles
Sta
ndar
dize
d R
esid
uals
Qua
ntile
s
Residui standardizzati
-2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
e in Francia!
-2 -1 0 1 2
-2-1
01
23
Normal Q-Q Plot
Theoretical Quantiles
Sta
ndar
dize
d R
esid
uals
Qua
ntile
s
Facciamo un salto in
Shapiro-Wilks (Madansky, p. 20)
> shapiro.test(«residui»)
Shapiro-Wilk normality test
(test di regressione, cfr. di varianze)
e in Francia!
Facciamo un salto in
Breusch-Pagan test (Madansky, p. 81)
> library(car)> ncvTest(«lm»)
Non-constant Variance Score Test
e in Francia!
0 20 40 60 80
-50
510
Index
RE
SID
UI
Durbin-Watson test (Madansky, p. 93)
> library(car)> durbinWatsonTest(«lm»)
Alternative hypothesis: rho != 0
Facciamo un salto in e in Francia!
6 8 10 12 14
2025
3035
Tasso di disoccupazione
Vot
o pe
r Mac
ron
6 8 10 12 14
2025
3035
Tasso di disoccupazione
Vot
o pe
r Mac
ron
IC della previsione del voto in un
dipartimento con disoccupazione
IC della previsione del voto medio deidipartimenti con
disoccupazione
Facciamo un salto in e in Francia!
6 8 10 12 14
2025
3035
Tasso di disoccupazione
Vot
o pe
r Mac
ron
6 8 10 12 14
2025
3035
Tasso di disoccupazione
Vot
o pe
r Mac
ron
IC della previsione del voto in un
dipartimento con disoccupazione
IC della previsione del voto medio deidipartimenti con
disoccupazione
I dati che cadanofuori dall’IC sono
sospetti!
Esercizio di compito
2.5 3.0 3.5 4.0 4.5 5.0
0.4
0.5
0.6
0.7
0.8
0.9
HD
I
L'indice di sviluppo umano (ISU) (in inglese: HDI-Human Development Index) è un indice comparativo dello sviluppo dei vari paesi calcolato tenendo conto dei diversi tassi di aspettativa di vita, istruzione e reddito nazionale lordo procapite.
dati:gdp-hdi-2105.txt
(si ringrazia la studentessaM. Lintner)
0 50 100 150
-0.2
-0.1
0.0
0.1
Index
Eserciziore
sidu
i
Residuals
-4 -3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Esercizio
-3 -2 -1 0 1 2 3
-4-3
-2-1
01
2
Normal Q-Q Plot
Theoretical Quantiles
Sta
ndar
dize
d R
esid
uals
Qua
ntile
s
2.5 3.0 3.5 4.0 4.5 5.0
0.4
0.5
0.6
0.7
0.8
0.9
Log(GDP)
HD
I
morale della favola:
Outlier e dati influenti
Outlier e dati influenti
dati: gdp-hdi-2105.txt
log(PIL) 10xHDI6 7 8 9 10 11 12
0.4
0.5
0.6
0.7
0.8
0.9
log(PIL)
HD
I
PIL-Human Development Index
6 7 8 9 10 11 12
0.4
0.5
0.6
0.7
0.8
0.9
Outlier e dati influenti
dati: gdp-hdi-2105.txt
log(PIL) 10xHDI log(PIL)
HD
I
PIL-Human Development Index
Outlier e dati influenti
X
Y
Outlier e dati influenti
X
YE’ un outlier rispetto a X?
Lo è rispetto a Y?
Che effetto ha sullaretta dei minimi
quadrati?
Outlier e dati influenti
X
YE’ un outlier rispetto a X?
Lo è rispetto a Y?
Che effetto ha sulla retta dei
minimi quadrati?
dato influente (leverage)
Outlier e dati influenti
X
Y
E’ un outlier rispetto a X?
Lo è rispetto a Y?
Che effetto ha sullaretta dei minimi
quadrati?
6 7 8 9 10 11 12
0.4
0.5
0.6
0.7
0.8
0.9
Outlier e dati influenti
dati: gdp-hdi-2105.txt
log(PIL)
HD
I
PIL-Human Development Index
> influence.measures
Regression Deletion DiagnosticsDescription
This suite of functions can be used to compute some of the regression (leave-one-out deletion) diagnostics for linear and generalized linear models discussed in Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982), etc.
1214
1618
2022
Stipendio medioorario 2013
Facciamo un salto in e in Francia!
12 14 16 18 20 22
1520
2530
3540
Stipendio medio/h 2013
Vot
o pe
r Mac
ron
(%)
= .
Facciamo un salto in
12 14 16 18 20 22
1520
2530
3540
Stipendio medio/h 2013
Vot
o pe
r Mac
ron
(%)
= .
Facciamo un salto in
influenti?outlier?
12 14 16 18 20 22
1520
2530
3540
Stipendio medio/h 2013
Vot
o pe
r Mac
ron
(%)
= .
Facciamo un salto in
12 14 16 18 20 22
1520
2530
3540
Stipendio medio/h 2013
Vot
o pe
r Mac
ron
(%)
= .
Facciamo un salto in RCI VOGLIAMO PROPRIO FAR PASSARE IN MEZZO UNA RETTA?
UNA PARABOLA, UN’IPERBOLE, UNA FUNZIONE SINUSOIDALE…?!