Regressione semplice: come applicarla come interpretare i...
Transcript of Regressione semplice: come applicarla come interpretare i...
04/04/2015
1
Prof.ssa P. Vicard
Regressione semplice:
come applicarla
come interpretare i risultati
Questo materiale è utile ai fini dell’esecuzione della regressione con software statistico.
Questo materiale non è in alcun modo utile per la conoscenza/preparazione teorica sull’argomento per le
quali si rimanda ai testi consigliati.
1
Prof.ssa P. Vicard
Vediamo come eseguire la regressione semplice
Stat -> Regression -> Regression -> Fit Regression Model
Cnsideriamo il data set su dimensione e vendite (Levine, D. M., Krehbiel T.C. e
Berenson M. L., 2006) riportato qui di seguito nel foglio dati di Minitab.
2
04/04/2015
2
Prof.ssa P. Vicard
Specificare quale è la variabile risposta (response) e quale la variabile
esplicativa continua (continuous predictor)
3
Prof.ssa P. Vicard
Nella finestra “regression” cliccando su “graphs” si apre la finestra “Regression –
Graphs” da cui potete scegliere i grafici per verificare se le ipotesi alla base della
regressione sono soddisfatte.
4
04/04/2015
3
Regression Analysis: Vendite (migliaia di dollari) versus Dimensione (metri^2)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 105,75 105,746 113,21 0,000
Dimensione (metri^2) 1 105,75 105,746 113,21 0,000
Error 12 11,21 0,934
Total 13 116,95
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0,966471 90,42% 89,62% 86,81%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 0,965 0,526 1,83 0,091
Dimensione (metri^2) 0,01797 0,00169 10,64 0,000 1,00
Regression Equation
Vendite (migliaia di dollari) = 0,965 + 0,01797 Dimensione (metri^2)
Fits and Diagnostics for Unusual Observations
Obs Vendite Fit Resid Std Resid
14 4,100 5,974 -1,874 -2,01 R
R Large residual
L’output della regressione è il seguente
Retta di regressione
stimata
5
Prof.ssa P. Vicard
Minitab fornisce:
- i valori dei coefficienti (Coef)
di regressione per l’intercetta
(0,9645) e per la
variabile “dimensione”
(0,017975);
- La deviazione standard
(SECoef) dei 2 coefficienti
(rispettivamente 0,5262 e
0,001689);
- La statistica del test (T) per
verificare l’ipotesi che i
coefficienti siano diversi da 0.
Questa vale 1,83 per
l’intercetta e 10,64 per
“dimensione”;
- I p-value (P) del test T.
Questi sono 0,092 per
l’intercetta e 0,000 per
“dimensione”. 6
Regression Analysis: Vendite (migliaia di dollari) versus Dimensione (metri^2)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 105,75 105,746 113,21 0,000
Dimensione (metri^2) 1 105,75 105,746 113,21 0,000
Error 12 11,21 0,934
Total 13 116,95
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0,966471 90,42% 89,62% 86,81%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 0,965 0,526 1,83 0,091
Dimensione (metri^2) 0,01797 0,00169 10,64 0,000 1,00
Regression Equation
Vendite (migliaia di dollari) = 0,965 + 0,01797 Dimensione (metri^2)
Fits and Diagnostics for Unusual Observations
Obs Vendite Fit Resid Std Resid
14 4,100 5,974 -1,874 -2,01 R
R Large residual
L’output della regressione è il seguente
04/04/2015
4
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
Tipicamente I modelli di regressione lineare dovrebbero
essere utilizzati solo nell’intervallo dei valori osservati per
X. Infatti solo in questo intervallo abbiamo informazioni
sul legame tra le variabili; al di fuori di esso la relazione
potrebbe persino non essere lineare.
Questo significa che si deve interpretare anche con
cautela il valore dell’intercetta che non può essere letta
come l’ammontare di vendite in corrispondenza di un
negozio di dimensione nulla.
7
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
Con riferimento al paramtero 1 lo stimiamo con il metodo dei
minimi quadrati mediante lo stimatore
1
1 2
1
ni ii
nii
x x y yb
x x
Sappiamo che lo stimatore B1 è corretto e che la sua varianza è
stimata come segue:
1
222 2
2
ˆ 1ˆ ˆ
2
eb e i i
i
s y ynx x
dove
1. essa cresce al crescere dalla distanza dei punti dalla retta
stimata (misurata con )
2. essa decresce al crescere della dispersione dei valori
osservati di X rispetto alla loro media.
2ˆe
8
04/04/2015
5
Prof.ssa P. Vicard
Questo riquadro consente di
effettuare un’analisi del
modello nel suo complesso.
Le SS (Sum of Squares)
rappresentano le somme dei
quadrati
somma dei
quadrati spiegata dalla
regressione (SS Regression)
somma dei
quadrati dei residui ei (SS
Residual Error).
Il test di Fisher (F) sulla
significatività del modello
conduce al rifiuto dell’ipotesi
che tutti i coefficienti siano
nulli. Non c’è indipendenza
tra la dimensione e le vendite.
2
ˆiy y
2
ˆi iy y
9
Regression Analysis: Vendite (migliaia di dollari) versus Dimensione (metri^2)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 105,75 105,746 113,21 0,000
Dimensione (metri^2) 1 105,75 105,746 113,21 0,000
Error 12 11,21 0,934
Total 13 116,95
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0,966471 90,42% 89,62% 86,81%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 0,965 0,526 1,83 0,091
Dimensione (metri^2) 0,01797 0,00169 10,64 0,000 1,00
Regression Equation
Vendite (migliaia di dollari) = 0,965 + 0,01797 Dimensione (metri^2)
Fits and Diagnostics for Unusual Observations
Obs Vendite Fit Resid Std Resid
14 4,100 5,974 -1,874 -2,01 R
R Large residual
L’output della regressione è il seguente
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
2 2
1ˆi iSSR y y b x x
La regression sum of squares rappresenta la devianza spiegata
dal coefficiente angolare della retta di regressione (sappiamo che
E(Y) è diversa a seconda dei diversi livelli di X).
La variabilità spiegata dalla regressione dipende direttamente
dall’entità del coefficiente b1 e dalla dispersione dei dati relativi alla
variabile esplicativa X. Quindi per ottenere modelli con bassa
variabilità residua (SSE) e quindi alta variabilità di regressione
(SSR) è bene disporre di dati campionari in cui le osservazioni
della variabile X abbiano un ampio campo di variazione.
22 2
0 1ˆ
i i i i iSSE y y y b b x e
La error sum of squares risulta dagli scarti dei punti osservati
rispetto alla retta di regressione. Questa componente di
variabilità fornisce una indicazione sull’incertezza associata al
modello di regressione. 10
04/04/2015
6
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
Si noti, infine, che la total sum of squares, per un dato insieme
di osservazioni della variabile dipendente Y, è fissa perché
rappresenta la variabilità complessiva delle osservazioni
rispetto alla loro media.
2
iSST y y
2 2 2
1 1 1
ˆ ˆn n n
i i i ii i i
SST SSR SSE
y y y y y y
Si ricordi che è valida la seguente scomposizione della
devianza totale (SST)
11
Regression Analysis: Vendite (migliaia di dollari) versus Dimensione (metri^2)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 105,75 105,746 113,21 0,000
Dimensione (metri^2) 1 105,75 105,746 113,21 0,000
Error 12 11,21 0,934
Total 13 116,95
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0,966471 90,42% 89,62% 86,81%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 0,965 0,526 1,83 0,091
Dimensione (metri^2) 0,01797 0,00169 10,64 0,000 1,00
Regression Equation
Vendite (migliaia di dollari) = 0,965 + 0,01797 Dimensione (metri^2)
Fits and Diagnostics for Unusual Observations
Obs Vendite Fit Resid Std Resid
14 4,100 5,974 -1,874 -2,01 R
R Large residual
Prof.ssa P. Vicard
s è la stima
dell’errore standard
del modello.
R2 (R-Sq) è il
coefficiente di
determinazione (che
coincide anche con il
quadrato del
coefficiente di
correlazione) e
misura la
proporzione di
varianza spiegata dal
modello lineare. In
questo caso vale, in
termini %, 90,4.
12
L’output della regressione è il seguente
04/04/2015
7
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
2 21 0 1SSR SSE
R RSST SST
Sappiamo che con
Abbiamo visto che SSR aumenta proporzionalmente alla
dispersione della variabile X; pertanto anche R2 farà lo stesso.
Quindi se si vogliono modelli di regressione con un elevato
valore di R2 è bene avere osservazioni in cui la variabile X si
muove in un range vasto di valori.
È vero anche che un valore elevato di R2 può derivare da un
basso valore di SSE.
In generale, dato un campione di osservazioni si possono
confrontare due modelli lineari mediante il rispettivo R2 e
scegliere il modello con l’R2 più alto.
13
Prof.ssa P. Vicard
Uno dei metodi più semplici per vedere se un modello di regressione
semplice si può bene adattare ai nostri dati consiste nella costruzione
dello scatterplot. Questa operazione consente di osservare direttamente
la nuvola dei punti.
14
04/04/2015
8
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
A colpo d’occhio lo scatterplot relativo ai nostri dati non sembra
evidenziare criticità. È corretto però supportare la nostra
valutazione visiva con degli indicatori che meglio cercano la
presenza di eventuali criticità nei nostri dati.
In particolare occorre valutare si vi sia influenza sull’analisi di
regressione della presenza
1. di punti con valori estremi della X (punti estremi);
2. di punti che hanno valori della Y che si scostano
notevolmente dalla retta stimata con il metodo dei minimi
quadrati. Questi punti sono chiamati outlier.
15
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
I punti estremi sono quelli che presentano valori della X che si
scostano notevolmente dagli altri punti della nuvola.
Questi punti hanno particolare influenza quando si vuole usare la retta
di regressione per effettuare previsioni.
Se vogliamo fare inferenza sul valore atteso della variabile Y
corrispondente ad uno specifico valore xi di X, E(Yi|X=xi), abbiamo che
2
2( | ) 2
1i i
iE Y X x
i
x xs
n x x
Questa varianza viene anche indicata con hi e chiamata leverage.
Un forte leverage indica che aumenta la deviazione standard della
previsione e quindi rende l’intervallo di confidenza più ampio.
Un punto xi è definito estremo se il suo leverage hi è notevolmente
diverso da quello di tutti gli altri punti.
Minitab definisce un punto estremo (e lo segnala con la lettera X) se il suo leverage è
maggiore di 2p/n (dove p indica il numero di variabili esplicative inclusa la costante) o
comunque maggiore di 0.99 16
04/04/2015
9
Prof.ssa P. Vicard
120010008006004002000
25
20
15
10
5
0
Dimensione (metri 2)
Ve
nd
ite
(m
iglia
ia d
i d
olla
ri)
Scatterplot of Vendite (migliaia di dollari) vs Dimensione (metri^2)
L’output della regressione – alcuni commenti
Per esempio prendiamo il nostro data set e eliminiamo un’osservazione (ad
es. l’ultima) e ne introduciamo una nuova con x=1200 (m2) e y=25 (migliaia di
dollari). Il diagramma di dispersione ci fa notare che quest’ultima osservazione
(il rombo nero) è particolarmente lontana dalla restante nuvola dei punti.
Punto estremo
17
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
Fits and Diagnostics for Unusual Observations
Vendite
(migliaia Std
Obs di dollari) Fit Resid Resid
14 25,000 24,386 0,614 1,38 X
X Unusual X
Minitab segnala il problema inserendo nell’output una parte relativa alle
“unusual observations” in cui la nuova osservazione viene posta in
evidenza e marchiata con il codice X (elevato leverage)
18
04/04/2015
10
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
Gli outlier sono quei punti che presentano ordinate che si scostano
notevolmente dal valore previsto dal modello.
Sono generalmente identificati mediante i residui standardizzati. Il
residuo standardizzato della generica i-esima unità si ottiene dividendo
il residuo ei per il suo errore standard:
ˆ 1
iis
e i
ee
h
indica l’errore standard del modello (deviazione standard degli
errori).
I punti con elevato leverage avranno residui con basso errore
standard in quanto essi presumibilmente influenzano notevolmente la
posizione della retta di regressione stimata e quindi i corrispondenti
valori osservati e attesi saranno piuttosto vicini.
Minitab identifica gli outlier con una R se il valore assoluto dei residui
standardizzati è maggiore di 2.
19
ˆe
Prof.ssa P. Vicard
Minitab ha trovato un
outlier.
L’osservazione 14 (per la
quale la dimensione vale
279 e le vendite 4100)
non sembra
provenire dallo stesso
modello da cui
provengono le altre
osservazioni.
È importate analizzare le
osservazioni anomale in
quanto da sole possono
avere una notevole
influenza sul modello
stimato, potendone
peggiorare la qualità delle
stime.
Torniamo all’esempio che ha guidato l’intera nota.
20
Regression Analysis: Vendite (migliaia di dollari) versus Dimensione (metri^2)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 105,75 105,746 113,21 0,000
Dimensione (metri^2) 1 105,75 105,746 113,21 0,000
Error 12 11,21 0,934
Total 13 116,95
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0,966471 90,42% 89,62% 86,81%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 0,965 0,526 1,83 0,091
Dimensione (metri^2) 0,01797 0,00169 10,64 0,000 1,00
Regression Equation
Vendite (migliaia di dollari) = 0,965 + 0,01797 Dimensione (metri^2)
Fits and Diagnostics for Unusual Observations
Obs Vendite Fit Resid Std Resid
14 4,100 5,974 -1,874 -2,01 R
R Large residual
L’output della regressione è il seguente
04/04/2015
11
Prof.ssa P. Vicard
Vediamo l’outlier sullo scatterplot
L’output della regressione – alcuni commenti
Osserviamo che il suo residuo standardizzato supera appena la soglia pari a 2. 21
Prof.ssa P. Vicard
L’output della regressione – alcuni commenti
Eliminiamo il punto incriminato e inseriamo in modo fittizio una nuova
osservazione con x=500 (m2) e y=5 (migliaia di dollari). Abbiamo il seguente
scatterplot
Vediamo che il
nuovo punto
costituisce
seriamente un
outlier in quanto si
trova lontano dalla
retta stimata e ha
spostato la retta
verso il basso
allontanandola da
altri punti osservati
(in particolar modo
quelli con x elevati)
22
04/04/2015
12
Regression Analysis: Vendite (migliaia di dollari) versus Dimensione (metri^2)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 86,07 86,073 36,25 0,000
Dimensione (metri^2) 1 86,07 86,073 36,25 0,000
Error 12 28,50 2,375
Total 13 114,57
Model Summary
S R-sq R-sq(adj) R-sq(pred)
1,54100 75,13% 73,05% 62,36%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 1,562 0,831 1,88 0,085
Dimensione (metri^2) 0,01513 0,00251 6,02 0,000 1,00
Regression Equation
Vendite (migliaia di dollari) = 1,562 + 0,01513 Dimensione (metri^2)
Fits and Diagnostics for Unusual Observations
Vendite
(migliaia
Obs di dollari) Fit Resid Std Resid
14 5,000 9,127 -4,127 -2,98 R
R Large residual
L’output della regressione – alcuni commenti
La retta stimata mantiene
inclinazione positiva ma il
coefficiente è più basso
(prima era 0.018) a causa
dell’outlier.
L’errore standard del
modello è cresciuto (da
0.97 è passato a 1.54).
R2 è peggiorato passando
da 90.4 a 75.1.
SSE è notevolmente
aumentato.
L’osservazione (x,y)=(500,
5) è segnalata come outlier
(R) e gli corrisponde un
residuo standardizzato
quasi pari a 3.
23
Prof.ssa P. Vicard
Fanno parte dell’output anche I grafici della diagnostica, ossia i grafici che
consentono di verificare se le condizioni alla base del modello lineare risultano
essere soddisfatte.
210-1-2
99
90
50
10
1
Residual
Pe
rce
nt
108642
1
0
-1
-2
Fitted Value
Re
sid
ua
l
1,00,50,0-0,5-1,0-1,5-2,0
4
3
2
1
0
Residual
Fre
qu
en
cy
1413121110987654321
1
0
-1
-2
Observation Order
Re
sid
ua
l
Normal Probability Plot Versus Fits
Histogram Versus Order
Residual Plots for Vendite (migliaia di dollari)
L’analisi dei residui
è molto importante in quanto
consente di studiare se le
ipotesi alla base del modello
sono soddisfatte.
Occorre studiare se i residui
hanno distribuzione
approssimativamente
normale (e si fa il normal
probability plot) e
l’istogramma.
ˆi iy y
Occorre anche (e soprattutto) analizzare se è verificata l’ipotesi che la
relazione tra Y e X sia di tipo lineare. Per fare ciò si può rappresentare con
uno scatterplot la relazione tra valori stimati (fitted values) e residui. Tale
grafico, se l’ipotesi di linearità è verificata, non deve mostrare alcuna
relazione di forma riconoscibile nella nuvola dei punti.
y
L’analisi dei residui
24