Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e...

Cap. 13 Regressione

1

Modello statistico• Un modello statistico è una formula che interpreta e sintetizza

matematicamente il comportamento congiunto di X e Y. • In particolare è una FUNZIONE matematica semplice, liscia e regolare in grado di

ben approssimare la realtà osservata cioè di cogliere l’andamento di fondo (in inglese trend) del comportamento congiunto di X e Y, smussando le irregolarità e le spigolosità tipiche dell’osservazione empirica

• Costruire un modello statistico significa utilizzare i dati (quelli della tabella osservata) per individuare questa formula che esprime Y in funzione di X.

2

XfY y

x

1) Valutare la realtà empirica e le

informazioni a priori

xbay

xbay ln

2xcxbay

y

x

y

x

y

x

y

x

y

x

y

x

Modelli teorici2) Scegliere il modello

a) Ragioni teoricheb) Osservazione empirica

3) Stimare (o adattare) il modello

XfY ˆ

Quello che “passa” più vicino alle osservazioni

empiriche

X : reddito Y: consumo

4) Misurare la bontà dell’adattamento

Modello statistico

XfY y

x

1) Valutare la realtàempirica e le


xbay

xbay ln

2xcxbay

y

x

y

x

y

x

y

x

y

x

y

x




XfY ˆ

Quello che “passa” piùvicino alle osservazioni

empiriche


4) Misurare la bontàdell’adattamento

XfY y

x

y

x



xbay

xbay ln

2xcxbay

y

x

y

x

y

x

y

x

y

x

y

x

Modelli teorici

xbay

xbay ln

2xcxbay

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x




XfY ˆ


empiriche



XfY

Funzione o modello di

regressione

Variabile dipendente

(risposta)

Variabile indipendente

(esplicativa)

Se si è sicuri che X sia causa di Y

il modello rappresenta

la “forma” matematica

della relazione (legge) di causa-

effetto

cbaXf ,,;Parametri del

modelloDa scegliere in modo che

l’adattamento sia “ottimale”

Stima dei parametri

Osservazione: medie condizionate e modello di regressione

1x kxix

ixY xgi

ixfY ˆ

Spezzata di regressione 2

1 1ij

k

i

h

jij cyf

kccc ,, 21

min

Perdita che si subisce quando si sostituisce al posto delle y un

valore costante per ogni gruppo i

Costante che rende minima la perdita di informazione

all’interno del gruppo

ixX

Costante che si avvicina il più possibile alla perdita minima, ma

al tempo stesso rende la “spezzata” più liscia, regolare e interpretabile dal punto di vista

matematico

Il modello di regressione è un modello matematico che cerca di approssimare il più possibile le medie condizionate (la loro spezzata di regressione),

che rende minima la perdita di informazione per ogni gruppo, derivante dalla sostituzione e sintesi dei dati con un sol numero costante per ogni gruppo.

Al tempo stesso consente di lisciare, e regolarizzare la forma della spezzata di regressione rendendola meglio interpretabile dal punto di vista matematico e consentendo ad esempio operazioni come la derivazione e il calcolo di valori

teorici al di fuori del campo di osservazione della X

1x kxix1x kxix1x kxix

Valore teorico “interpolato”

Modello di regressione come approssimazione della spezzata

dx

xdfxf Valore teorico

“estrapolato”

Valore teorico“estrapolato”

00

0

xxxf

xfxf

0 di intornonell'

di Variazione

x

Y

1x kxix1x kxix1x kxix

Il modello di regressione LINEARE

Quali sono i valori di a e b che fanno passare la funzione il più vicina possibile ai punti osservati?

XfY XbabaXf ,;

baxfy ii ,;ˆ ij yy ˆ

ix

jy

2ijf

k

i

h

j1 1

k

i

h

j1 1

ijf 2ij xbay

Si scelgono in modo tale che la distanza tra valori teorici ed osservati

sia minima

Distanza totale (devianza residua)

ba,min

Condizione dei minimi quadrati

k

i

h

jba

1 1,

min ijf 2ij xbay

Modello lineare: condizione dei minimi quadrati

N

iii

baxbay

1

2

,min

Nel caso di una successione doppia il concetto non cambia

ix

iy

ii xbay ˆxbya ˆˆ

2ˆ

X

XYb

Sol

uzio

ne

Esempio: sia data una successione doppia (X=PESO, Y=STATURA) di una popolazione di N=10 unità statistiche. Si richiedea) scatterplotb) retta di regressione e commento sulla derivata rispetto al pesoc) valori teorici di Y dato X. d) medie della statura condizionate al peso (senza passare per la distribuzione doppia)e) si tracci sia la spezzata di regressione che la retta.

100

110

120

130

140

150

160

170

180

30 40 50 60 70 80X Y

40 115

50 147

40 131

60 170

50 126

50 120

60 133

70 175

40 132

70 150

ix

iy

ii xbay ˆ

xbya ˆˆ

2ˆ

X

XYb

ix

iy

ix

iy

ii xbay ˆ ii xbay ˆ

xbya ˆˆ

2ˆ

X

XYb

530 1399

X^2 Y^2

1600 13225

2500 21611

1600 17184

3600 28900

2500 15876

2500 14434

3600 17608

4900 30625

1600 17368

4900 22636

29300 199467

X*Y

4600

7350

5244

10200

6300

6007

7962

12250

5272

10532

75716

221

1 ˆxx

yxyxb

iN

iiN

297.15329300

139.9 53757162

101

101

16.7153297.19.139ˆ a

100

110

120

130

140

150

160

170

180

30 40 50 60 70 80

ix

iy

ii xbay ˆ

xbya ˆˆ

2ˆ

X

XYb

ix

iy

ix

iy


xbya ˆˆ

2ˆ

X

XYb

297.1

16.71

X Y^

40 123

50 136

40 123

60 149

50 136

50 136

60 149

70 162

40 123

70 162

x mY(x)

40 126

50 131

60 151

70 163

Y^

123

136

149

162

All’aumentare del peso di un Kg la statura aumenta di 1.297cm per qualsiasi

livello del peso

costante b̂xf

00

0

xxxf

xfxf

0 di intornonell'

di Variazione

x

Y

Dal modello lineare ai modelli lineari nei parametri

N

iii

baxbay

1

2

,min

2ˆ ii xbay

xbay ˆix

iy

ii xbay ˆ

xbya ˆˆ

2ˆ

X

XYb

ix

iy

ix

iy


xbya ˆˆ

2ˆ

X

XYb

ix

iy2ˆ xbay

zbay ˆ 2xz

N

iii

bazbay

1

2

,min

xgbay ˆ

zbay ˆ xgz

zbya ˆˆModello lineare nei parametri

N

jjxg

Nz

1

1

2ˆ

Z

ZYb

X\Y 0 2 4 tot-1 0 3 30 331 4 34 2 402 22 4 1 27

tot 26 41 33 100

X = variazione nel numero di ore di sonno notturnoY = livelli di stress

0,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

4,00

4,50

-2 -1 0 1 2 3

Calcolare il rapporto di correlazione Y|X

Stimare la retta di regressione

Stimare la funzione logaritmica di regressione

xbay 111ˆ

xbay 2lnˆ 222

zbay 222ˆ xz 2lnche diventa linearetramite la trasformazione

X\Y 0 2 4 tot-1 0 3 30 331 4 34 2 402 22 4 1 27

tot 26 41 33 100

x

y

z

2X

2Y2Z

XY

ZY

xbya 11ˆˆ zbya 22

ˆˆ

22̂Z

ZYb

21̂X

XYb

xbay 11ˆ )2ln(ˆ 22 xbay

f*y^2 0 164 528 692f*y 0 82 132 21426.0XY 1ZY

61.0

14.2

81.0

44.1

34.2

34.0

57.1

73.0

81.2 89.3

09.1 17.2

f*ln(2+x)^2 f*ln(2+x) f*x^2 f*x

0 0 33 -3348,3 43,9 40 4051,9 37,4 108 54

100,2 81,4 181,0 61

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

-2 -1 0 1 2 3

y1^

y2^

mY(x)

xy 09.181.2ˆ

)2ln(17.289.3ˆ xy

Calcolare valori teorici per x = -0.5 e 2.5

xbya 11ˆˆ zbya 22

ˆˆ

22̂Z

ZYb

21̂X

XYb

xbay 11ˆ )2ln(ˆ 22 xbay

81.2 89.3

09.1 17.2

3.01

3.36

XfY y

x



xbay

xbay ln

2xcxbay

y

x

y

x

y

x

y

x

y

x

y

x




XfY ˆ


empiriche



XfY y

x

y

x



xbay

xbay ln

2xcxbay

y

x

y

x

y

x

y

x

y

x

y

x

Modelli teorici

xbay

xbay ln

2xcxbay

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x




XfY ˆ


empiriche



ix

iy

ii xbay ˆ

ix

iy

ix

iy


ii yy ˆMisura di bontà di adattamento

Funzione delle

N

iii yyDR

1

2ˆ

Perdita complessiva che si subisce sostituendo i valori teorici a quelli osservati

Devianza residua

Misura di bontà di adattamento

N

iii yyDR

1

2ˆ

ix

iy

ii xbay ˆ

ix

iy

ix

iy


2

1

2Y

N

ii NyyDT

Si può dimostrare che (sotto certe condizioni (1)) date le quantità

Tanto più vicino a zero e tanto migliore l’adattamentoTuttavia andrebbe “normalizzato”

Devianza totale

N

ii yyDS

1

2ˆ Devianza spiegataDRDSDT

10 DT

DRAdattamento perfetto

Tutti i punti si collocano sulla funzione di regressione

La funzione di regressione si riduce a

iyxf i

DTDS 0DS La X non spiega nessuna parte di

variabilità

La variabilità di Y è tutta spiegata dalla X attraverso la

funzione di regressione

Misura di bontà di adattamento

N

iii yyDR

1

2ˆ 2

1

2Y

N

ii NyyDT

N

ii yyDS

1

2ˆDRDSDT

10 DT

DRAdattamento perfetto

Tutti i punti si collocano sulla funzione di regressione

La funzione di regressione si riduce a

iyxf i

DTDS 0DS La X non spiega nessuna parte di

variabilità

La variabilità di Y è tutta spiegata dalla X attraverso la

funzione di regressione

DT

DS

DT

DRR 12

Indice di determinazione

0 1Adattamento

perfetto, tutti i punti stanno

sulla funzione f(x) prescelta

La X non spiega nessuna parte di

variabilità attraverso il modello f(x)

prescelto xf

Modello di regressione lineare

2bxaR

ii xbay ˆ xbya 2X

XYb

1XY 1XY

2XY

N

iibxa yyDS

1

2ˆ

N

i 1

( ixba xba 2)

2b

N

i 1 2xxi 2b N 2

X2

2

X

XY

N2X

2

2

1

2ˆX

XYN

iibxa NyyDS

2

bxaR 2Y

bxa

N

DS

22

2

YX

XY

Per un modello lineare, l’indice di determinazione coincide con il quadrato del coefficiente di correlazione

N

iii yyDR

1

2ˆ 2

1

2Y

N

ii NyyDT

N

ii yyDS

1

2ˆDRDSDT

DT

DS

DT

DRR 12

2bxaR

2XY

Ancora sua devianze e indici di bontà di adattamento

ix

iy

ii xbay ˆ

ix

iy

ix

iy


DT

DRR 21

22 1 RNDR Y

22 1 XYYbxa NDR

ix

iy

ii xbay ˆ

xbya ˆˆ

2ˆ

X

XYb

ix

iy

ix

iy


xbya ˆˆ

2ˆ

X

XYb

2bxaR

2XY

YX

XYXY

Y

XXY

Y

X

X

XYXY b

2

2

22

Y

XXYb

DRDSDT

Regressione: condizioni affinché valga

xgbxgbby kk 110ˆ

Funzione lineare nei parametri 10 xg xgi

non dipendono da parametri

2

1,,,

ˆmin10

N

iii

bbbyy

k

1

2

X\Y 0 2 4 tot-1 0 3 30 331 4 34 2 402 22 4 1 27

tot 26 41 33 100

f*(y1^-m(y))^2 y1^\y 0 2 4102,22 3,90 0,00 10,83 0,307,06 1,72 11,83 2,67 10,40

61,56 0,63 8,73 7,51 11,36170,84 63,62

f*(y2^-m(y))^2 y2^\y 0 2 4101,06 3,89 0,00 10,72 0,3616,08 1,51 9,07 8,30 12,4442,75 0,88 17,10 5,00 9,72159,89 72,72

x

y

z

2X

2Y2Z

61.0

14.2

81.0

44.1

34.2

34.0)2ln(17.289.3ˆ2 xy

xy 09.181.2ˆ1

23434.21002 YNDT

46,23484.17062.6311

DSDR

61,23289.15972.7222

DSDR

73.0234

84.17021 R

2bxaR

2XY2

bxaR 2XY

2

22

Y

XXYb

731,0

68.0234

89.15922 R

Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e...

Documents

Transcript of Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e...