1
Y
Modello di regressione semplice
Supponiamo che una variabile Y sia funzione lineare di un’altra variabile X, con parametri
incogniti 1 e 2 che vogliamo stimare.
XY 21
1
XX1 X2 X3 X4
A questo fine usiamo un campione di 4 osservazioni con i valori della X sopra indicati.
Modello di regressione semplice
2
XY 21
1
Y
XX1 X2 X3 X4
Se la relazione fosse esatta, le osservazioni si disporrebbero su una retta e non avremmo
problemi a stimare 1 e 2.
Q1
Q2
Q3
Q4
Modello di regressione semplice
3
XY 21
1
Y
XX1 X2 X3 X4
P4
In pratica, gran parte delle relazioni economiche non sono esatte e i valori osservati di Y non coincidono con quelli disposti sulla linea retta.
P3P2
P1
Q1
Q2
Q3
Q4
Modello di regressione semplice
4
XY 21
1
Y
XX1 X2 X3 X4
P4
Per tener conto di questo fatto, riscriviamo il modello come Y = 1 + 2X + u, dove u è un termine di disturbo stocastico.
P3P2
P1
Q1
Q2
Q3
Q4
Modello di regressione semplice
5
XY 21
1
Y
XX1 X2 X3 X4
P4
Ogni valore di Y ha una componente sistematica, 1 + 2X, e una componente stocastica, u. L’osservazione 1 è stata decomposta in queste due parti.
P3P2
P1
Q1
Q2
Q3
Q4u1
Modello di regressione semplice
6
XY 21
1
Y
121 X
XX1 X2 X3 X4
P4
In pratica, noi osserviamo solo i punti (realizzazioni) P.
P3P2
P1
Modello di regressione semplice
7
Y
XX1 X2 X3 X4
P4
Ovviamente, possiamo usare i punti P per tracciare una retta che è un’approssimazione di
Y = 1 + 2X. Se scriviamo questa approssimazione come Y = b1 + b2X, b1 è una stima di 1 e
b2 è una stima di 2.
P3P2
P1
Modello di regressione semplice
8
XbbY 21ˆ
b1
Y
XX1 X2 X3 X4
P4
La retta viene detta modello stimato e i valori previsti di Y si dicono valori interpolati o stimati (indicati nel grafico con la lettera R).
P3P2
P1
R1
R2
R3 R4
Modello di regressione semplice
9
XbbY 21ˆ
b1
Y (valore stimato)
Y (valore osservato)
Y
XX1 X2 X3 X4
P4
XX1 X2 X3 X4
La differenza tra valori osservati e valori interpolati di Y viene detta residuo.
P3P2
P1
R1
R2
R3 R4
(residuo)
e1
e2
e3
e4
Modello di regressione semplice
10
XbbY 21ˆ
b1
Y (valore stimato)
Y (valore osservato)
eYY ˆY
P4
Osserviamo che i residui non coincidono con i termini di disturbo. Il diagramma mostra ora sia la retta vera (della popolazione) sia la retta stimata.
P3P2
P1
R1
R2
R3 R4
b1
Modello di regressione semplice
11
XbbY 21ˆ
XY 21
1
Y (valore stimato)Y
XX1 X2 X3 X4
Y (valore osservato)
P4
Il termine di disturbo indica la differenza tra la componente sistematica della relazione vera e il valore osservato.
P3P2
P1
Modello di regressione semplice
12
Q2Q1
Q3
Q4
XbbY 21ˆ
XY 21
1
b1
Y (valore stimato)
Y (valore osservato)
Y
XX1 X2 X3 X4
P4
Il residuo misura la differenza tra il valore osservato e il valore interpolato.
P3P2
P1
R1
R2
R3 R4
Modello di regressione semplice
13
XbbY 21ˆ
XY 21
1
b1
Y (valore stimato)
Y (valore osservato)
Y
XX1 X2 X3 X4
P4
Se il fit (accostamento, interpolazione) è buono, allora i residui e i termini di disturbo tenderanno a coincidere, ma concettualmente sono elementi che devono essere tenuti distinti.
P3P2
P1
R1
R2
R3 R4
Modello di regressione semplice
14
XbbY 21ˆ
XY 21
1
b1
Y (valore stimato)
Y (valore osservato)
Y
XX1 X2 X3 X4
P4
Entrambe le rette verranno usate nella nostra analisi, in quanto ciascuna permette di decomporre il valore di Y in due parti. Illustriamo la decomposizione riferendoci alla osservazione numero 4.
Modello di regressione semplice
15
Q4
u4XbbY 21
ˆ
XY 21
1
b1
Y (valore stimato)
Y (valore osservato)
Y
421 X
XX1 X2 X3 X4
P4
Riferendoci alla relazione nella popolazione, Y può essere decomposta nella componente sistematica e nella componente stocastica u.
Modello di regressione semplice
15
Q4
u4XbbY 21
ˆ
XY 21
1
b1
Y (valore stimato)
Y (valore osservato)
Y
421 X
XX1 X2 X3 X4
P4
Si tratta di una scomposizione teorica, in quanto non conosciamo i valori di 1 e 2, o i valori del termine di disturbo. Utilizzeremo questa scomposizione per studiare le proprietà degli stimatori dei coefficienti.
Modello di regressione semplice
17
Q4
u4XbbY 21
ˆ
XY 21
1
b1
Y (valore stimato)
Y (valore osservato)
Y
421 X
XX1 X2 X3 X4
P4
L’altra scomposizione si riferisce alla retta stimata. Per ogni osservazione, il valore osservato di Y è uguale alla somma del valore interpolato più il residuo. Si tratta di una decomposizione che tornerà utile ai fini pratici.
Modello di regressione semplice
18
e4
R4
XbbY 21ˆ
XY 21
1
b1
Y
Y (valore osservato)
(valore stimato)Y
421 Xbb
XX1 X2 X3 X4
Modello di regressione semplice
Criterio OLS:
221
1
2 ... n
n
ii eeeRSS
Minimizzare RSS (residual sum of squares), dove
Cioè, la retta interpolante è tale da minimizzare la somma dei residui al quadrato, RSS. Questo fatto viene definito come criterio dei minimi quadrati.
19
Modello di regressione semplice
Ma perchè la somma dei residui al quadrato? Perchè non minimizzare semplicemente la somma dei residui?
Criterio OLS:
Perchè non minimizzare
221
1
2 ... n
n
ii eeeRSS
n
n
ii eee
...11
20
Minimizzare RSS (residual sum of squares), dove
P4
La risposta è che si otterrebbe un fit apparentemente perfetto tracciando una linea orizzontale passante per la media di Y. La somma dei residui sarebbe zero.
P3P2
P1
Modello di regressione semplice
Y
21
XX1 X2 X3 X4
Y
P4
Dobbiamo evitare di applicare un criterio per il quale i residui negativi si elidono con quelli positivi; un modo per non cadere in questa trappola è quello di usare la somma dei residui al quadrato.
P3P2
P1
Modello di regressione semplice
22
XX1 X2 X3 X4
Y
Y
P4
Naturalmente ci sono altri metodi per affrontare il problema. Il criterio OLS ha il vantaggio che gli stimatori che si ottengono hanno delle proprietà ottimali sotto certe condizioni.
P3P2
P1
Modello di regressione semplice
23
XX1 X2 X3 X4
Y
Y
P4
La prossima sequenza mostra come il criterio OLS viene messo in pratica per stimare i coefficienti della retta di regressione.
P3P2
P1
24
XX1 X2 X3 X4
Y
Y
Modello di regressione semplice
Top Related