Proiezioni per sviluppo modificate matematicamente Carta di Mercatore
Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e...
-
Upload
piero-catania -
Category
Documents
-
view
215 -
download
0
Transcript of Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e...
Cap. 13 Regressione
1
Modello statistico• Un modello statistico è una formula che interpreta e sintetizza
matematicamente il comportamento congiunto di X e Y. • In particolare è una FUNZIONE matematica semplice, liscia e regolare in grado di
ben approssimare la realtà osservata cioè di cogliere l’andamento di fondo (in inglese trend) del comportamento congiunto di X e Y, smussando le irregolarità e le spigolosità tipiche dell’osservazione empirica
• Costruire un modello statistico significa utilizzare i dati (quelli della tabella osservata) per individuare questa formula che esprime Y in funzione di X.
2
XfY y
x
1) Valutare la realtà empirica e le
informazioni a priori
xbay
xbay ln
2xcxbay
y
x
y
x
y
x
y
x
y
x
y
x
Modelli teorici2) Scegliere il modello
a) Ragioni teoricheb) Osservazione empirica
3) Stimare (o adattare) il modello
XfY ˆ
Quello che “passa” più vicino alle osservazioni
empiriche
X : reddito Y: consumo
4) Misurare la bontà dell’adattamento
Modello statistico
XfY y
x
1) Valutare la realtàempirica e le
informazioni a priori
xbay
xbay ln
2xcxbay
y
x
y
x
y
x
y
x
y
x
y
x
Modelli teorici2) Scegliere il modello
a) Ragioni teoricheb) Osservazione empirica
3) Stimare (o adattare) il modello
XfY ˆ
Quello che “passa” piùvicino alle osservazioni
empiriche
X : reddito Y: consumo
4) Misurare la bontàdell’adattamento
XfY y
x
y
x
1) Valutare la realtàempirica e le
informazioni a priori
xbay
xbay ln
2xcxbay
y
x
y
x
y
x
y
x
y
x
y
x
Modelli teorici
xbay
xbay ln
2xcxbay
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
Modelli teorici2) Scegliere il modello
a) Ragioni teoricheb) Osservazione empirica
3) Stimare (o adattare) il modello
XfY ˆ
Quello che “passa” piùvicino alle osservazioni
empiriche
X : reddito Y: consumo
4) Misurare la bontàdell’adattamento
XfY
Funzione o modello di
regressione
Variabile dipendente
(risposta)
Variabile indipendente
(esplicativa)
Se si è sicuri che X sia causa di Y
il modello rappresenta
la “forma” matematica
della relazione (legge) di causa-
effetto
cbaXf ,,;Parametri del
modelloDa scegliere in modo che
l’adattamento sia “ottimale”
Stima dei parametri
Osservazione: medie condizionate e modello di regressione
1x kxix
ixY xgi
ixfY ˆ
Spezzata di regressione 2
1 1ij
k
i
h
jij cyf
kccc ,, 21
min
Perdita che si subisce quando si sostituisce al posto delle y un
valore costante per ogni gruppo i
Costante che rende minima la perdita di informazione
all’interno del gruppo
ixX
Costante che si avvicina il più possibile alla perdita minima, ma
al tempo stesso rende la “spezzata” più liscia, regolare e interpretabile dal punto di vista
matematico
Il modello di regressione è un modello matematico che cerca di approssimare il più possibile le medie condizionate (la loro spezzata di regressione),
che rende minima la perdita di informazione per ogni gruppo, derivante dalla sostituzione e sintesi dei dati con un sol numero costante per ogni gruppo.
Al tempo stesso consente di lisciare, e regolarizzare la forma della spezzata di regressione rendendola meglio interpretabile dal punto di vista matematico e consentendo ad esempio operazioni come la derivazione e il calcolo di valori
teorici al di fuori del campo di osservazione della X
1x kxix1x kxix1x kxix
Valore teorico “interpolato”
Modello di regressione come approssimazione della spezzata
dx
xdfxf Valore teorico
“estrapolato”
Valore teorico“estrapolato”
00
0
xxxf
xfxf
0 di intornonell'
di Variazione
x
Y
1x kxix1x kxix1x kxix
Il modello di regressione LINEARE
Quali sono i valori di a e b che fanno passare la funzione il più vicina possibile ai punti osservati?
XfY XbabaXf ,;
baxfy ii ,;ˆ ij yy ˆ
ix
jy
2ijf
k
i
h
j1 1
k
i
h
j1 1
ijf 2ij xbay
Si scelgono in modo tale che la distanza tra valori teorici ed osservati
sia minima
Distanza totale (devianza residua)
ba,min
Condizione dei minimi quadrati
k
i
h
jba
1 1,
min ijf 2ij xbay
Modello lineare: condizione dei minimi quadrati
N
iii
baxbay
1
2
,min
Nel caso di una successione doppia il concetto non cambia
ix
iy
ii xbay ˆxbya ˆˆ
2ˆ
X
XYb
Sol
uzio
ne
Esempio: sia data una successione doppia (X=PESO, Y=STATURA) di una popolazione di N=10 unità statistiche. Si richiedea) scatterplotb) retta di regressione e commento sulla derivata rispetto al pesoc) valori teorici di Y dato X. d) medie della statura condizionate al peso (senza passare per la distribuzione doppia)e) si tracci sia la spezzata di regressione che la retta.
100
110
120
130
140
150
160
170
180
30 40 50 60 70 80X Y
40 115
50 147
40 131
60 170
50 126
50 120
60 133
70 175
40 132
70 150
ix
iy
ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
ix
iy
ix
iy
ii xbay ˆ ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
530 1399
X^2 Y^2
1600 13225
2500 21611
1600 17184
3600 28900
2500 15876
2500 14434
3600 17608
4900 30625
1600 17368
4900 22636
29300 199467
X*Y
4600
7350
5244
10200
6300
6007
7962
12250
5272
10532
75716
221
1 ˆxx
yxyxb
iN
iiN
297.15329300
139.9 53757162
101
101
16.7153297.19.139ˆ a
100
110
120
130
140
150
160
170
180
30 40 50 60 70 80
ix
iy
ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
ix
iy
ix
iy
ii xbay ˆ ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
297.1
16.71
X Y^
40 123
50 136
40 123
60 149
50 136
50 136
60 149
70 162
40 123
70 162
x mY(x)
40 126
50 131
60 151
70 163
Y^
123
136
149
162
All’aumentare del peso di un Kg la statura aumenta di 1.297cm per qualsiasi
livello del peso
costante b̂xf
00
0
xxxf
xfxf
0 di intornonell'
di Variazione
x
Y
Dal modello lineare ai modelli lineari nei parametri
N
iii
baxbay
1
2
,min
2ˆ ii xbay
xbay ˆix
iy
ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
ix
iy
ix
iy
ii xbay ˆ ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
ix
iy2ˆ xbay
zbay ˆ 2xz
N
iii
bazbay
1
2
,min
xgbay ˆ
zbay ˆ xgz
zbya ˆˆModello lineare nei parametri
N
jjxg
Nz
1
1
2ˆ
Z
ZYb
X\Y 0 2 4 tot-1 0 3 30 331 4 34 2 402 22 4 1 27
tot 26 41 33 100
X = variazione nel numero di ore di sonno notturnoY = livelli di stress
0,00
0,50
1,00
1,50
2,00
2,50
3,00
3,50
4,00
4,50
-2 -1 0 1 2 3
Calcolare il rapporto di correlazione Y|X
Stimare la retta di regressione
Stimare la funzione logaritmica di regressione
xbay 111ˆ
xbay 2lnˆ 222
zbay 222ˆ xz 2lnche diventa linearetramite la trasformazione
X\Y 0 2 4 tot-1 0 3 30 331 4 34 2 402 22 4 1 27
tot 26 41 33 100
x
y
z
2X
2Y2Z
XY
ZY
xbya 11ˆˆ zbya 22
ˆˆ
22̂Z
ZYb
21̂X
XYb
xbay 11ˆ )2ln(ˆ 22 xbay
f*y^2 0 164 528 692f*y 0 82 132 21426.0XY 1ZY
61.0
14.2
81.0
44.1
34.2
34.0
57.1
73.0
81.2 89.3
09.1 17.2
f*ln(2+x)^2 f*ln(2+x) f*x^2 f*x
0 0 33 -3348,3 43,9 40 4051,9 37,4 108 54
100,2 81,4 181,0 61
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
-2 -1 0 1 2 3
y1^
y2^
mY(x)
xy 09.181.2ˆ
)2ln(17.289.3ˆ xy
Calcolare valori teorici per x = -0.5 e 2.5
xbya 11ˆˆ zbya 22
ˆˆ
22̂Z
ZYb
21̂X
XYb
xbay 11ˆ )2ln(ˆ 22 xbay
81.2 89.3
09.1 17.2
3.01
3.36
XfY y
x
1) Valutare la realtàempirica e le
informazioni a priori
xbay
xbay ln
2xcxbay
y
x
y
x
y
x
y
x
y
x
y
x
Modelli teorici2) Scegliere il modello
a) Ragioni teoricheb) Osservazione empirica
3) Stimare (o adattare) il modello
XfY ˆ
Quello che “passa” piùvicino alle osservazioni
empiriche
X : reddito Y: consumo
4) Misurare la bontàdell’adattamento
XfY y
x
y
x
1) Valutare la realtàempirica e le
informazioni a priori
xbay
xbay ln
2xcxbay
y
x
y
x
y
x
y
x
y
x
y
x
Modelli teorici
xbay
xbay ln
2xcxbay
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
Modelli teorici2) Scegliere il modello
a) Ragioni teoricheb) Osservazione empirica
3) Stimare (o adattare) il modello
XfY ˆ
Quello che “passa” piùvicino alle osservazioni
empiriche
X : reddito Y: consumo
4) Misurare la bontàdell’adattamento
ix
iy
ii xbay ˆ
ix
iy
ix
iy
ii xbay ˆ ii xbay ˆ
ii yy ˆMisura di bontà di adattamento
Funzione delle
N
iii yyDR
1
2ˆ
Perdita complessiva che si subisce sostituendo i valori teorici a quelli osservati
Devianza residua
Misura di bontà di adattamento
N
iii yyDR
1
2ˆ
ix
iy
ii xbay ˆ
ix
iy
ix
iy
ii xbay ˆ ii xbay ˆ
2
1
2Y
N
ii NyyDT
Si può dimostrare che (sotto certe condizioni (1)) date le quantità
Tanto più vicino a zero e tanto migliore l’adattamentoTuttavia andrebbe “normalizzato”
Devianza totale
N
ii yyDS
1
2ˆ Devianza spiegataDRDSDT
10 DT
DRAdattamento perfetto
Tutti i punti si collocano sulla funzione di regressione
La funzione di regressione si riduce a
iyxf i
DTDS 0DS La X non spiega nessuna parte di
variabilità
La variabilità di Y è tutta spiegata dalla X attraverso la
funzione di regressione
Misura di bontà di adattamento
N
iii yyDR
1
2ˆ 2
1
2Y
N
ii NyyDT
N
ii yyDS
1
2ˆDRDSDT
10 DT
DRAdattamento perfetto
Tutti i punti si collocano sulla funzione di regressione
La funzione di regressione si riduce a
iyxf i
DTDS 0DS La X non spiega nessuna parte di
variabilità
La variabilità di Y è tutta spiegata dalla X attraverso la
funzione di regressione
DT
DS
DT
DRR 12
Indice di determinazione
0 1Adattamento
perfetto, tutti i punti stanno
sulla funzione f(x) prescelta
La X non spiega nessuna parte di
variabilità attraverso il modello f(x)
prescelto xf
Modello di regressione lineare
2bxaR
ii xbay ˆ xbya 2X
XYb
1XY 1XY
2XY
N
iibxa yyDS
1
2ˆ
N
i 1
( ixba xba 2)
2b
N
i 1 2xxi 2b N 2
X2
2
X
XY
N2X
2
2
1
2ˆX
XYN
iibxa NyyDS
2
bxaR 2Y
bxa
N
DS
22
2
YX
XY
Per un modello lineare, l’indice di determinazione coincide con il quadrato del coefficiente di correlazione
N
iii yyDR
1
2ˆ 2
1
2Y
N
ii NyyDT
N
ii yyDS
1
2ˆDRDSDT
DT
DS
DT
DRR 12
2bxaR
2XY
Ancora sua devianze e indici di bontà di adattamento
ix
iy
ii xbay ˆ
ix
iy
ix
iy
ii xbay ˆ ii xbay ˆ
DT
DRR 21
22 1 RNDR Y
22 1 XYYbxa NDR
ix
iy
ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
ix
iy
ix
iy
ii xbay ˆ ii xbay ˆ
xbya ˆˆ
2ˆ
X
XYb
2bxaR
2XY
YX
XYXY
Y
XXY
Y
X
X
XYXY b
2
2
22
Y
XXYb
DRDSDT
Regressione: condizioni affinché valga
xgbxgbby kk 110ˆ
Funzione lineare nei parametri 10 xg xgi
non dipendono da parametri
2
1,,,
ˆmin10
N
iii
bbbyy
k
1
2
X\Y 0 2 4 tot-1 0 3 30 331 4 34 2 402 22 4 1 27
tot 26 41 33 100
f*(y1^-m(y))^2 y1^\y 0 2 4102,22 3,90 0,00 10,83 0,307,06 1,72 11,83 2,67 10,40
61,56 0,63 8,73 7,51 11,36170,84 63,62
f*(y2^-m(y))^2 y2^\y 0 2 4101,06 3,89 0,00 10,72 0,3616,08 1,51 9,07 8,30 12,4442,75 0,88 17,10 5,00 9,72159,89 72,72
x
y
z
2X
2Y2Z
61.0
14.2
81.0
44.1
34.2
34.0)2ln(17.289.3ˆ2 xy
xy 09.181.2ˆ1
23434.21002 YNDT
46,23484.17062.6311
DSDR
61,23289.15972.7222
DSDR
73.0234
84.17021 R
2bxaR
2XY2
bxaR 2XY
2
22
Y
XXYb
731,0
68.0234
89.15922 R