Lezione 18 - Statistica - - Università degli Studi di Cassino · 2013-05-26 · Il modello di...
Transcript of Lezione 18 - Statistica - - Università degli Studi di Cassino · 2013-05-26 · Il modello di...
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Lezione 18Statistica
Alfonso Iodice D’[email protected]
Universita degli studi di Cassino
A. Iodice () Lezione 18 Statistica 1 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Outline
1 Regressione lineare semplice
2 Assunzioni sul modello di regressione semplice
3 Stimatore della varianza
4 Verifica di ipotesi sul coefficiente angolare della retta diregressione
5 Regressione su tabella a doppia entrata
A. Iodice () Lezione 18 Statistica 2 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Modello di regressione lineare semplice
In molte applicazioni il ruolo delle variabili x ed Y non e lo stesso, in particolare,assegnato un certo valore al predittore x (indicato pertanto con la letteraminuscola), il valore che Y assume dipende in qualche modo da x. La relazionepiu semplice tra le variabili e quella lineare, e il modello corrispondente e
Y = β0 + β1x;
tale modello presuppone che, stabiliti i parametri β0 e β1, sia possibiledeterminare esattamente il valore di Y conoscendo il valore di x: salvo eccezioni,questo non si verifica mai.
Il modello
Alla determinazione del valore di Y , oltre che la componente deterministicaβ0 + β1x, concorre anche una componente casuale detta errore non osservabile ε,una variabile casuale con media 0
Y = β0 + β1x+ ε.
Analogamente, la relazione di regressione lineare semplice puo essere espressa intermini di valore atteso
E[Y |x] = β0 + β1x.
poiche E[ε] = 0.
A. Iodice () Lezione 18 Statistica 3 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Modello di regressione lineare semplice
Si consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l’entita della depressioneriscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rullo utilizzato (weight).Per vedere se l’utilizzo del modello di regressione lineare semplice sia ragionevole in questo caso occorreraccogliere delle coppie di osservazioni (xi, yi) e rappresentarle graficamente attraverso il diagramma didispersione.
units weight depression1 1.9 2.02 3.1 1.03 3.3 5.04 4.8 5.05 5.3 20.06 6.1 20.07 6.4 23.08 7.6 10.09 9.8 30.010 12.4 25.0
Il diagramma di dispersione (scatter plot)
A. Iodice () Lezione 18 Statistica 4 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
La retta di regressione
La retta di regressione
La retta di regressione fornisce unaapprossimazione della dipendenza dei valoridi Y dai valori di X. La relazione didipendenza non e esattamente riprodottadalla retta; i valori yi = β0 + β1xi sonodunque i valori teorici, ovvero i valori che lavariabile Y assume, secondo il modelloY = β0 + β1x, in corrispondenza deivalori xi osservati.Le differenze ei tra i valori teorici yi e ivalori osservati yi vengono definite residui.Questo perche per ciascuna osservazione ilmodello e dato da
yi = β0 + β1xi︸ ︷︷ ︸comp. deterministica
+ εi︸︷︷︸comp. casuale
rette passanti per la nube di punti
Determinazione della retta di regressione
L’identificazione della retta avviene attraverso la determinazione dei valori di B0, e B1, stime dell’intercettae del coefficiente angolare o pendenza, rispettivamente. La retta ’migliore’ e quella che passa piu ’vicina’ aipunti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi e ivalori osservati yi siano minime.
A. Iodice () Lezione 18 Statistica 5 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
La retta di regressione
Metodo dei minimi quadrati
La retta di regressione e tale che la somma dei residui alquadrato sia minima. Formalmente
n∑i=1
e2i =
n∑i=1
(yi − yi)2
=n∑i=1
(yi − B0 − B1xi)2
Il problema consiste dunque nel ricercare B0 e B1 cheminimizzano la precedente espressione. Da un punto divista operativo bisogna risolvere il seguente sistema diequazioni (condizioni del primo ordine o stazionarieta).
∂
∂B0
n∑i=1
(yi − B0 − B1xi)2
= 0
∂
∂B1
n∑i=1
(yi − B0 − B1xi)2
= 0
Nota: si tratta di punti di minimo perche le derivateseconde ∂B0B0
f(B0, B1) = −2(−n),
∂B1B1f(B0, B1) = −2
∑ni (−x2
i )sono sempre non negative.
Stimatori dei parametri della retta diregressione:(B0)
− 2n∑i=1
(yi − B0 − B1xi) =
n∑i=1
yi − n ∗ B0 − B1
n∑i=1
xi = 0
B0 = y − B1x
A. Iodice () Lezione 18 Statistica 6 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
La retta di regressione
I residui
le differenze tra i valori stimati yi e i valoriosservati yi vengono definite residui. Laretta di regressione e tale che la somma deiresidui al quadrato sia minima.Formalmente
RSS =
n∑i=1
e2i =
n∑i=1
(yi − yi)2
=
=
n∑i=1
(yi − B0 − B1xi)2
RSS (residual sum of squares)
Stimatori dei parametri della retta diregressione:(B1)
− 2n∑i=1
xi(yi − B0 − B1xi) = 0
n∑i=1
xiyi − B0
n∑i=1
xi − B1
n∑i=1
x2i = 0
B1
n∑i=1
x2i =
n∑i=1
xiyi −n∑i=1
xi
(∑ni=1 yi
n− B1
∑ni=1 xi
n
)
B1
(nn∑i=1
x2i − (
n∑i=1
xi)2
)= n
n∑i=1
xiyi −n∑i=1
xi
n∑i=1
yi
B1 =n∑ni=1 xiyi −
∑ni=1 xi
∑ni=1 yi
n∑ni=1 x
2i − (
∑ni=1 xi)
2=σxy
σ2x
A. Iodice () Lezione 18 Statistica 7 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Determinazione della retta di regressione
...statistiche descrittive
x =
∑10i=1 xi10
= 6.07 y =
∑10i=1 yi10
= 14.1
sx =
√∑10i=1
(xi−x)2
10= 3.04 sy =
√∑10i=1
(yi−y)2
10= 10.1
sxy =
∑10i=1 (xi−x)(yi−y)
10= 24.7
rxy =σxyσxσy
= 0.8
A. Iodice () Lezione 18 Statistica 8 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Determinazione della retta di regressione
Calcolo dei coefficienti
Richiamando le quantita calcolate in precedenza e le formule per il calcolo dei parametri si ha
B1 =σxyσ2x
= 2.66 B0 = y −B1x = 14.1− (2.66 ∗ 6.07) = −2.04
Y = −2.04 + 2.66x rappresenta la retta di regressione stimata
La retta ’migliore’
A. Iodice () Lezione 18 Statistica 9 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Interpretazione dei valori dei coefficienti diregressione
B0 rappresenta l’intercetta della retta di regressione edindica il valore della variabile di risposta Y quando ilpredittore x assume valore 0.
B1 rappresenta l’inclinazione della retta di regressione,ovvero la variazione della variabile di risposta Y inconseguenza di un aumento unitario del predittore x.
A. Iodice () Lezione 18 Statistica 10 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Assunzioni sul modello
Il modello di regressione lineare semplice e
Y = β0 + β1x+ ε
e l’errore non osservabile ε e una variabile aleatoria con valore atteso pari a 0. Perpoter fare inferenza sono necessarie alcune assunzioni:
la variabile aleatoria εi si distribuisce come una Normale di parametri 0 eσ2: dunque la varianza dell’errore non osservabile εi non dipende dalpredittore xi;
cov(εi, εj) = 0, ∀i 6= j (i, j = 1, . . . , n), questo comporta che la rispostarelativa al predittore xi e indipendente da quella relativa al predittore xj ;
x e nota e non stocastica (priva di errore);
dalle precedenti assunzioni segue che ∀i la variabile di risposta Yi sidistribuisce secondo una Normale di parametri
E[Yi] = β0 + β1xi e var(Yi) = σ2.
A. Iodice () Lezione 18 Statistica 11 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Assunzioni sul modello
fonte: Statistics for Business and Economics (Anderson, Sweeney and Williams, (2011))
A. Iodice () Lezione 18 Statistica 12 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Lo stimatore della varianza σ2
La quantita σ2 e incognita e deve essere stimata a partire dai dati. A questoscopo si consideri che la standardizzazione di Yi si distribuisce secondo unanormale
Yi − E[Yi]√var(Yi)
=Yi − (β0 + β1xi)
σ.
La somma dei quadrati delle Yi standardizzate e∑ni=1 (Yi − β0 − β1xi)
2
σ2
ed essendo la somma di n normali standardizzate indipendenti, si distribuiscecome una variabile aleatoria chi-quadro con n gradi di liberta.Sostituendo i parametri β0 e β1 con gli stimatori dei minimi quadrati B0 e B1 laprecedente diventa ∑n
i=1 (Yi −B0 −B1xi)2
σ2
e un chi-quadro con n-2 gradi di liberta, in quanto si perde un grado di liberta per
ogni parametro stimato.
A. Iodice () Lezione 18 Statistica 13 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Lo stimatore della varianza σ2
Il numeratore della precedente rappresenta la somma dei quadrati dei residui
n∑i=1
(Yi −B0 −B1xi)2 =
n∑i=1
e2 = RSS;
da quanto trovato in precedenza, la quantita RSSσ2 e un chi-quadro con n-2 gradi
di liberta.Poiche il valore atteso di un chi-quadro e uguale ai gradi di liberta possiamoscrivere
E[RSS]
σ2= n− 2 da cui E
[RSS
n− 2
]= σ2,
lo stimatore della varianza σ2 e dunque RSSn−2
. Lo stimatore dello scarto
quadratico medio σ viene definito errore standard della stima e corrisponde a√RSSn−2
.
A. Iodice () Lezione 18 Statistica 14 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
Un’ipotesi molto importante da verificare nel modello di regressione linearesemplice e che il coefficiente angolare della retta di regressione sia pari a 0: seinfatti β1 = 0 allora la variabile di risposta non dipende dal predittore, in altreparole non c’e regressione sul predittore.Per ottenere il test H0 : β1 = 0 vs H1 : β1 6= 0 e necessario studiare ladistribuzione dello stimatore B1 di β1: se B1 si discosta da 0 allora si rifiuta H0,altrimenti non si rifiuta. Ma di quanto B1 deve discostarsi da 0?
A questo scopo si consideri che B1 si distribuisce come una Normale e occorre
definirne i parametri.
A. Iodice () Lezione 18 Statistica 15 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
Si consideri la seguente formalizzazione alternativa dello stimatore B1
B1 =σxy
σ2x
=
∑ni=1 (xi − x)
(Yi − Y
)/n∑n
i=1 (xi − x)2/n=
∑ni=1 (xi − x)
(Yi − Y
)∑ni=1 (xi − x)2
=
=
∑ni=1
[(xi − x)Yi − (xi − x) Y
]∑ni=1 (xi − x)2
=
∑ni=1 (xi − x)Yi − Y
=0︷ ︸︸ ︷n∑i=1
(xi − x)∑ni=1 (xi − x)2
=
=n∑i=1
((xi − x)∑ni=1 (xi − x)2
)︸ ︷︷ ︸ponendo tale quantita=δi
Yi =n∑i=1
δiYi
A. Iodice () Lezione 18 Statistica 16 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
Due relazioni interessanti che riguardano δi:
n∑i=1
δi =n∑i=1
(xi − x)∑ni=1 (xi − x)2
=1∑n
i=1 (xi − x)2
=0︷ ︸︸ ︷n∑i=1
(xi − x) = 0
n∑i=1
δ2i =
n∑i=1
[(xi − x)∑ni=1 (xi − x)2
]2
=1[∑n
i=1 (xi − x)2]2 n∑
i=1
(xi − x)2 =
=1∑n
i=1 (xi − x)2
A. Iodice () Lezione 18 Statistica 17 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
E’ a questo punto possibile dimostrare che lo stimatore B1 di β1 e non distorto.
E[B1] = E
[n∑i=1
δiYi
]=
n∑i=1
δi E [Yi]︸ ︷︷ ︸β0+β1xi
=n∑i=1
δi (β0 + β1xi) =
=n∑i=1
δi︸ ︷︷ ︸=0
β0 + β1
n∑i=1
δixi︸ ︷︷ ︸δi=
(xi−x)∑ni=1 (xi−x)2
= β1
n∑i=1
((xi − x)∑ni=1 (xi − x)2
)xi =
= β11∑n
i=1 (xi − x)2
n∑i=1
(xi − x)xi = β11∑n
i=1 (xi − x)2
n∑i=1
x2i − x
n∑i=1
xi︸ ︷︷ ︸=nx
=
= β11∑n
i=1 (xi − x)2
n∑i=1
x2i − nx2
︸ ︷︷ ︸=∑ni=1 (xi−x)2
= β1
∑ni=1 (xi − x)2∑ni=1 (xi − x)2
= β1
A. Iodice () Lezione 18 Statistica 18 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
La varianza dello stimatore B1 e data da
var (B1) = var
n∑i=1
δi︸ ︷︷ ︸= costante
Yi
= ( poiche se Z = bY , b e una costante, var(Z) = b2var(Yi))
=n∑i=1
(δi)2
︸ ︷︷ ︸= 1∑n
i=1 (xi−x)2
var(Yi)︸ ︷︷ ︸=σ2
=σ2∑n
i=1 (xi − x)2
A. Iodice () Lezione 18 Statistica 19 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
la Normale standard √∑ni=1 (xi − x)2
σ2(B1 − β1)
non consente ancora di costruire una statistica test perche e ancora presente ilparametro incognito σ2: tuttavia si puo stimare tale parametro attraverso RSS
n−2che, come visto in precedenza, si distribuisce secondo un chi-quadrato con n-2gradi di liberta; sostituendo a σ2 il suo stimatore si ha√
(n− 2)∑ni=1 (xi − x)2
RSS(B1 − β1).
Poiche questa quantita ha al numeratore una Normale standard ed al
denominatore un chi-quadro rapportato ai propri gradi di liberta, si distribuisce
come una distribuzione t di student con n-2 gradi di liberta.
A. Iodice () Lezione 18 Statistica 20 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
A questo punto la statistica test da utilizzare sotto H0 (β1 = 0) e
ST =
√(n− 2)
∑ni=1 (xi − x)2
RSSB1 ∼ tn−2
Il test di livello α di H0 e ha la seguente regola di decisione:
se | ST |≥ tn−2,α/2 allora si rifiuta H0
se | ST |< tn−2,α/2 allora non si rifiuta H0
Nell’esempio roller, il valore della statistica test e ST = 3.808,
il p− value corrispondente e 0.00518.
A. Iodice () Lezione 18 Statistica 21 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Intervallo di confidenza su β1
A partire dalla statistica test per il test su β1, e possibile definire l’intervallo diconfidenza, i cui estremi sono:
B1 ± t(α/2,n−2)
√RSS
(n− 2)∑ni=1 (xi − x)2︸ ︷︷ ︸√
var(B1)
con riferimento all’esempio roller, gli estremi dell’intervallo sono, ad un livello di
confidenza del 95% sono [1.05, 4.28].
A. Iodice () Lezione 18 Statistica 22 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Bonta di adattamento e diagnostica
Una volta stimato il modello di regressione, e necessario misurare la bontadell’adattamento del modello ai dati e analizzare i residui per controllare che leassunzioni di normalita con media nulla e varianza costante dei residui sianorispettate.
Strumenti analitici: coefficiente di determinazione lineare R2
Strumenti grafici: plot dei residui
plot variabili esplicative vs. residui: in caso di relazione non lineare
nella configurazione dei punti allora la relazione con la variabile
esplicativa potrebbe non essere di primo grado (lineare), ma di grado
superiore;
plot valori stimati dal modello vs. residui: se i residui aumentano
all’aumentare dei valori stimati dal modello, allora potrebbe essere
necessario effettuare una trasformazione della variabile di risposta;
Normal probability plot: confronto tra i quantili della distribuzione
dei residui osservati e quella di una normale standardizzata;
A. Iodice () Lezione 18 Statistica 23 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Plot dei residui
Perche la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y edX e necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio,all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbenon essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
variabili esplicative vs residui
Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad x, e possibile utilizzare undiagramma di dispesione tra i valori xi ed i corrispondenti residui ei(i = 1, . . . , n)
A. Iodice () Lezione 18 Statistica 24 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Plot dei residui
Perche la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed xe necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio,all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbenon essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
valori stimati y vs residui
A. Iodice () Lezione 18 Statistica 25 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Quantile-quantile plot
Per controllare che l’assunzione della normalita dei residui sia rispettata si ricorre al confronto tra i quantilidella distribuzione Normale standard ed i quantili della distribuzione dei residui osservati.
Q-Q plot
Quanto piu i punti del grafico risultano allineati lungo la bisettrice del primo quadrante, tanto migliore saral’adattamento dei residui osservati alla distribuzione normale.
A. Iodice () Lezione 18 Statistica 26 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
coefficiente di determinazione lineare R2
Ricordando che la devianza il numeratore della varianza...
SSy =n∑i=1
(yi − y)2
=n∑i=1
(yi − yi + yi − y)2
=
=n∑i=1
(yi − yi)2
+n∑i=1
(yi − y)2
+ 2n∑i=1
(yi − yi)(yi − y)
=n∑i=1
(yi − yi)2
+n∑i=1
(yi − y)2
+ 2(n∑i=1
yi −n∑i=1
yi)(n∑i=1
yi − ny)
Poiche yi e una trasformazione lineare di xi, allora
µy = B0 + B1x = (ricordando che B0 = y − B1x)
= y − B1x︸ ︷︷ ︸B0
+B1x = y
dunque µy = y →∑ni=1 yin
=
∑ni=1 yin
da cui∑ni=1 yi −
∑ni=1 yi = 0, quindi
SSy =n∑i=1
(yi − yi)2
+n∑i=1
(yi − y)2
+ 2 ∗ 0 ∗ (n∑i=1
yi − ny)
=n∑i=1
(yi − y)2
+n∑i=1
(yi − yi)2
= SSr + RSS
A. Iodice () Lezione 18 Statistica 27 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Decomposizione della devianza
La devianza puo essere decomposta dunque nelle seguenti quantita SSy = SSr + RSS
SSy =∑ni=1 (yi − y)2 devianza totale
SSr =∑ni=1 (yi − y)2 devianza di regressione
RSS =∑ni=1 (yi − yi)2 devianza dei residui
Interpretazione grafica
A. Iodice () Lezione 18 Statistica 28 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Bonta dell’adattamento
Intituitivamente, l’adattamento della retta e migliore quanto maggiore sara proporzione di variabilita totaleche la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta e migliore quanto minore sarala variabilita residua. Una misura di come il modello approssima i dati osservati e data dal coefficiente dideterminazione lineare R2, dato da
R2
=SSr
SSy=
∑ni=1 (yi − µy)2∑ni=1 (yi − µy)2
ovvero
R2
= 1−RSS
SSy= 1−
∑ni=1 (yi − yi)2∑ni=1 (yi − µy)2
esempio di calcolo R2
SSy =∑ni=1 (yi − y)2 = 1020.9
SSr =∑ni=1 (yi − y)2 = 657.97
RSS =∑ni=1 (yi − yi)2 = 362.93
R2
=SSr
SSy=
657.97
1020.9= 0.64
ovvero
R2
= 1−RSS
SSy= 1−
282.1862
5058.4= 1− 0.36 = 0.64
A. Iodice () Lezione 18 Statistica 29 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Bande di confidenza e di previsione
Utilizzo del modello per stima e previsione
Se il modello stimato si adatta bene ai dati e se la relazione tra Y e X esignificativa, si puo utilizzare la retta di regressione stimata per la stima e laprevisione.
Banda di confidenza
La banda di confidenza e composta dalle stime intervallari, ognuna costruita sulvalore atteso di Y dato il valore corrispondente di xi.
Banda di previsione
La banda di previsione e composta dalle stime intervallari, ognuna costruita sulsingolo valore di Y dato il valore corrispondente di xi.
A. Iodice () Lezione 18 Statistica 30 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Bande di confidenza e di previsione
...qualche definizione
xp e un valore specifico assunto dalla variabile indipendente X;
yp e il valore assunto da Y quando X = xp;
E [yp] e il valore atteso di Y quando X = xp;
yp = B0 +B1xp, il valore stimato dalla retta di regressione,dunque e la stima di E [xp] per X = xp.
A. Iodice () Lezione 18 Statistica 31 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Bande di confidenza e di previsione
Intervallo di confidenza su E[Y | X = xp] = E[yp]
Per costruire lo stimatore intervallare su E[yp] dato che X = xp e necessariostimarne la varianza, lo stimatore in questione e
s2yp =RSS
n− 2
[1
n+
(xp − x)2∑ni=1 (xi − x)2
]
pertanto l’intervallo di confidenza e dato da
yp ± tα2,(n−2)syp
A. Iodice () Lezione 18 Statistica 32 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Bande di confidenza e di previsione
Intervallo di previsione su yp
Per costruire lo stimatore intervallare su yp e necessario stimarne la varianza, lostimatore in questione consiste di due componenti
la varianza RSSn−2
di un singolo di valore Y rispetto alla sua media E[yp]
la varianza associata all’utilizzo di un singolo valore yp per stimare E[yp](gia stimata in precedenza s2yp )
s2singolo =RSS
n− 2+ s2yp
pertanto l’intervallo di previsione e dato da
yp ± tα2,(n−2)ssingolo
A. Iodice () Lezione 18 Statistica 33 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Intervallo di confidenza su E(yp)
Bande di confidenza
A. Iodice () Lezione 18 Statistica 34 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Intervallo di previsione
Bande di previsione
A. Iodice () Lezione 18 Statistica 35 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Bande di confidenza e previsione
A. Iodice () Lezione 18 Statistica 36 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Regressione su distribuzione doppia di frequenze
Si consideri di aver osservato su 10 rivenditori di componentiinformatiche le variabili numero di punti vendita e Fatturatosettimanale complessivo. Si studi la dipendenza del fatturato dalnumero di punti vendita.
fino a 2 tra 2 e 4 tra 4 e 6fino a 5000 3 2 0
tra 5000 e 10000 1 2 2
Si stimino i coefficienti della retta di regressione.
Si valuti la bonta di adattamento della retta ai dati.
A. Iodice () Lezione 18 Statistica 37 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Regressione distribuzione doppia di frequenze
Essendo le modalita delle variabili qualitative espresse in intervalli di valori, e necessario fare riferimento aicentri di ciascun intervallo. La tabella e dunque data da
Y/X 1 3 5 Tot2500 3 2 0 57500 1 2 2 5Tot 4 4 2 10
Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze:
µx =1
n
k∑j=1
xjn.j =1
10× (1× 4) + (3× 4) + (5× 2) =
4 + 12 + 10
10= 2.6
µy =1
n
h∑i=1
yini. =1
10× (2500× 5) + (7500× 5) =
12500 + 37500
10= 5000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice () Lezione 18 Statistica 38 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Regressione: distribuzione doppia di frequenze
Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato
Y/X (1− 2.6)2 (3− 2.6)2 (5− 2.6)2 Tot
(2500− 5000)2 3 2 0 5
(7500− 5000)2 1 2 2 5Tot 4 4 2 10
Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze:
σ2x =
1
n
k∑j=1
(xj − µx)2n.j =
1
10× ((1− 2.6)
2 × 4) + ((3− 2.6)2 × 4)+
+ ((5− 2.6)2 × 2) =
10.24 + 0.64 + 11.52
10= 2.24
σ2y =
1
n
h∑i=1
(yi − µy)2ni. =
1
10× (2500× 5)
2+ (7500× 5)
2
=31250000 + 31250000
10= 6250000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice () Lezione 18 Statistica 39 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Esercizio regressione: distribuzione doppia difrequenze
Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza.
Y/X (1− 2.6) (3− 2.6) (5− 2.6) Tot(2500− 5000) 3 2 0 5(7500− 5000) 1 2 2 5
Tot 4 4 2 10
yi xi yi − µy xi − µx2500 1 (2500-5000) (1-2.6)2500 1 (2500-5000) (1-2.6)2500 1 (2500-5000) (1-2.6)2500 3 (2500-5000) (3-2.6)2500 3 (2500-5000) (3-2.6)7500 1 (7500-5000) (1-2.6)7500 3 (7500-5000) (3-2.6)7500 3 (7500-5000) (3-2.6)7500 5 (7500-5000) (5-2.6)7500 5 (7500-5000) (5-2.6)
σxy =1
n
h∑i=1
k∑j=1
(yi − µy)× (xj − µx)× nij =
=1
10((2500− 5000)(1− 2.6)× 3 + (2500− 5000)(3− 2.6)× 2+
+ (7500− 5000)(1− 2.6)× 1 + (7500− 5000)(3− 2.6)× 2+
+ (7500− 5000)(5− 2.6)× 2) =12000− 2000− 4000 + 2000 + 12000
10= 2000
A. Iodice () Lezione 18 Statistica 40 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Esercizio regressione: distribuzione doppia difrequenze
Avendo calcolato le quantita µx = 2.6, µy = 5000, σ2x = 2.24 e
σxy = 2000, e possibile calcolare i coefficienti della retta diregressione
Calcolo dei coefficienti
b1 =σxyσ2x= 2000
2.24 = 892.571
b0 = µy − b1µx = 5000− (892.571 ∗ 2.6) = 2679.315
quindi l’equazione della retta di regressione e
y = b0 + b1x = 2679.315 + 892.571x
Dunque, il valore stimato yi corrispondente ad un valore xiassegnato e yi = b0 + b1x.
A. Iodice () Lezione 18 Statistica 41 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Valutazione della bonta di adattamento
Ricordando che
R2
=Devr
Devy=
∑ni=1 (yi − y)2∑ni=1 (yi − y)2
ovvero
R2
= 1−Deve
Devy= 1−
∑ni=1 (yi − yi)2∑ni=1 (yi − y)2
con Devy = Devr +Deve
SSy =∑ni=1 (yi − y)2 devianza totale
SSr =∑ni=1 (yi − y)2 devianza di regressione
RSS =∑ni=1 (yi − yi)2 devianza dei residui
Per ottenere R2, misura della bonta di adattamento, si deve calcolare solo la devianza dei residui, avendogia calcolato σ2
y .
A. Iodice () Lezione 18 Statistica 42 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Calcolo della devianza dei residui
RSS =∑n
i=1 (yi − yi)2 devianza dei residui
in base alla retta di regressione stimata, i valori yi stimati in funzionedei valori xi sono
y1 = b0 + b1x1 = 2679.315 + 892.571× 1 = 3571.886
y2 = b0 + b1x2 = 2679.315 + 892.571× 3 = 5357.028
y3 = b0 + b1x3 = 2679.315 + 892.571× 5 = 7142.17
A. Iodice () Lezione 18 Statistica 43 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Calcolo della devianza dei residui
Per calcolare i residui yi − yi nel caso di tabella a doppia entrata si procede come segue
yi/yj y1 = 3571.886 y2 = 5357.028 y3 = 7142.17 Toty1 = 2500 3 2 0 5y2 = 7500 1 2 2 5
Tot 4 4 2 10
RSS =∑hi=1
∑ki=1 ((yi − yj)2)× nij devianza dei residui per tabella doppia
calcolo della devianza dei residui
RSS =
h∑i=1
k∑j=1
((yi − yj)2)× nij = ((2500− 3571.886)
2)× 3 + ((2500− 5357.028)
2)× 2+
+ ((7500− 3571.886)2)× 1 + ((7500− 5357.028)
2)× 2 + ((7500− 7142.17)
2)× 2 =
= 44642859
SSy =n∑i=1
(yi − y)2
= σ2y × n = 6250000× 10 = 62500000
R2
= 1−RSS
SSy= 1− 0.71 = 0.29
A. Iodice () Lezione 18 Statistica 44 / 45
Lezione 18
A. Iodice
Regressionelinearesemplice
Assunzioni sulmodello diregressionesemplice
Stimatoredella varianza
Verifica diipotesi sulcoefficienteangolare dellaretta diregressione
Regressione sutabella adoppia entrata
Verifica dell’ipotesi che β1 = 0
A questo punto il valore della statistica test (stimatore standardizzato di β1) e
ST =
√(n− 2)
∑ni=1 (xi − x)2
RSSB1 =
√(10− 2)22.4
446428592679.315 = 5.37
Tenuto conto del fatto che∑10i=1 (xi − x)2 = n× σ2 = 10× 2.24 = 22.4.
Poiche il p− value corrispondente e 2× 0.0003, non si puo rifiutare H0.
A. Iodice () Lezione 18 Statistica 45 / 45