Regressione semplice: come applicarla come interpretare i...

04/04/2015

1

Prof.ssa P. Vicard

Regressione semplice:

come applicarla

come interpretare i risultati

Questo materiale è utile ai fini dell’esecuzione della regressione con software statistico.

Questo materiale non è in alcun modo utile per la conoscenza/preparazione teorica sull’argomento per le

quali si rimanda ai testi consigliati.

1

Prof.ssa P. Vicard

Vediamo come eseguire la regressione semplice

Stat -> Regression -> Regression -> Fit Regression Model

Cnsideriamo il data set su dimensione e vendite (Levine, D. M., Krehbiel T.C. e

Berenson M. L., 2006) riportato qui di seguito nel foglio dati di Minitab.

2

04/04/2015

2

Prof.ssa P. Vicard

Specificare quale è la variabile risposta (response) e quale la variabile

esplicativa continua (continuous predictor)

3

Prof.ssa P. Vicard

Nella finestra “regression” cliccando su “graphs” si apre la finestra “Regression –

Graphs” da cui potete scegliere i grafici per verificare se le ipotesi alla base della

regressione sono soddisfatte.

4

04/04/2015

3

Regression Analysis: Vendite (migliaia di dollari) versus Dimensione (metri^2)

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value

Regression 1 105,75 105,746 113,21 0,000

Dimensione (metri^2) 1 105,75 105,746 113,21 0,000

Error 12 11,21 0,934

Total 13 116,95

Model Summary

S R-sq R-sq(adj) R-sq(pred)

0,966471 90,42% 89,62% 86,81%

Coefficients

Term Coef SE Coef T-Value P-Value VIF

Constant 0,965 0,526 1,83 0,091

Dimensione (metri^2) 0,01797 0,00169 10,64 0,000 1,00

Regression Equation

Vendite (migliaia di dollari) = 0,965 + 0,01797 Dimensione (metri^2)

Fits and Diagnostics for Unusual Observations

Obs Vendite Fit Resid Std Resid

14 4,100 5,974 -1,874 -2,01 R

R Large residual

L’output della regressione è il seguente

Retta di regressione

stimata

5

Prof.ssa P. Vicard

Minitab fornisce:

- i valori dei coefficienti (Coef)

di regressione per l’intercetta

(0,9645) e per la

variabile “dimensione”

(0,017975);

- La deviazione standard

(SECoef) dei 2 coefficienti

(rispettivamente 0,5262 e

0,001689);

- La statistica del test (T) per

verificare l’ipotesi che i

coefficienti siano diversi da 0.

Questa vale 1,83 per

l’intercetta e 10,64 per

“dimensione”;

- I p-value (P) del test T.

Questi sono 0,092 per

l’intercetta e 0,000 per

“dimensione”. 6




Regression 1 105,75 105,746 113,21 0,000


Error 12 11,21 0,934

Total 13 116,95

Model Summary


0,966471 90,42% 89,62% 86,81%

Coefficients


Constant 0,965 0,526 1,83 0,091


Regression Equation




14 4,100 5,974 -1,874 -2,01 R

R Large residual


04/04/2015

4

Prof.ssa P. Vicard

L’output della regressione – alcuni commenti

Tipicamente I modelli di regressione lineare dovrebbero

essere utilizzati solo nell’intervallo dei valori osservati per

X. Infatti solo in questo intervallo abbiamo informazioni

sul legame tra le variabili; al di fuori di esso la relazione

potrebbe persino non essere lineare.

Questo significa che si deve interpretare anche con

cautela il valore dell’intercetta che non può essere letta

come l’ammontare di vendite in corrispondenza di un

negozio di dimensione nulla.

7

Prof.ssa P. Vicard


Con riferimento al paramtero 1 lo stimiamo con il metodo dei

minimi quadrati mediante lo stimatore

1

1 2

1

ni ii

nii

x x y yb

x x

Sappiamo che lo stimatore B1 è corretto e che la sua varianza è

stimata come segue:

1

222 2

2

ˆ 1ˆ ˆ

2

eb e i i

i

s y ynx x

dove

1. essa cresce al crescere dalla distanza dei punti dalla retta

stimata (misurata con )

2. essa decresce al crescere della dispersione dei valori

osservati di X rispetto alla loro media.

2ˆe

8

04/04/2015

5

Prof.ssa P. Vicard

Questo riquadro consente di

effettuare un’analisi del

modello nel suo complesso.

Le SS (Sum of Squares)

rappresentano le somme dei

quadrati

somma dei

quadrati spiegata dalla

regressione (SS Regression)

somma dei

quadrati dei residui ei (SS

Residual Error).

Il test di Fisher (F) sulla

significatività del modello

conduce al rifiuto dell’ipotesi

che tutti i coefficienti siano

nulli. Non c’è indipendenza

tra la dimensione e le vendite.

2

îy y

2

î iy y

9




Regression 1 105,75 105,746 113,21 0,000


Error 12 11,21 0,934

Total 13 116,95

Model Summary


0,966471 90,42% 89,62% 86,81%

Coefficients


Constant 0,965 0,526 1,83 0,091


Regression Equation




14 4,100 5,974 -1,874 -2,01 R

R Large residual


Prof.ssa P. Vicard


2 2

1î iSSR y y b x x

La regression sum of squares rappresenta la devianza spiegata

dal coefficiente angolare della retta di regressione (sappiamo che

E(Y) è diversa a seconda dei diversi livelli di X).

La variabilità spiegata dalla regressione dipende direttamente

dall’entità del coefficiente b1 e dalla dispersione dei dati relativi alla

variabile esplicativa X. Quindi per ottenere modelli con bassa

variabilità residua (SSE) e quindi alta variabilità di regressione

(SSR) è bene disporre di dati campionari in cui le osservazioni

della variabile X abbiano un ampio campo di variazione.

22 2

0 1ˆ

i i i i iSSE y y y b b x e

La error sum of squares risulta dagli scarti dei punti osservati

rispetto alla retta di regressione. Questa componente di

variabilità fornisce una indicazione sull’incertezza associata al

modello di regressione. 10

04/04/2015

6

Prof.ssa P. Vicard


Si noti, infine, che la total sum of squares, per un dato insieme

di osservazioni della variabile dipendente Y, è fissa perché

rappresenta la variabilità complessiva delle osservazioni

rispetto alla loro media.

2

iSST y y

2 2 2

1 1 1

ˆ ˆn n n

i i i ii i i

SST SSR SSE

y y y y y y

Si ricordi che è valida la seguente scomposizione della

devianza totale (SST)

11




Regression 1 105,75 105,746 113,21 0,000


Error 12 11,21 0,934

Total 13 116,95

Model Summary


0,966471 90,42% 89,62% 86,81%

Coefficients


Constant 0,965 0,526 1,83 0,091


Regression Equation




14 4,100 5,974 -1,874 -2,01 R

R Large residual

Prof.ssa P. Vicard

s è la stima

dell’errore standard

del modello.

R2 (R-Sq) è il

coefficiente di

determinazione (che

coincide anche con il

quadrato del

coefficiente di

correlazione) e

misura la

proporzione di

varianza spiegata dal

modello lineare. In

questo caso vale, in

termini %, 90,4.

12


04/04/2015

7

Prof.ssa P. Vicard


2 21 0 1SSR SSE

R RSST SST

Sappiamo che con

Abbiamo visto che SSR aumenta proporzionalmente alla

dispersione della variabile X; pertanto anche R2 farà lo stesso.

Quindi se si vogliono modelli di regressione con un elevato

valore di R2 è bene avere osservazioni in cui la variabile X si

muove in un range vasto di valori.

È vero anche che un valore elevato di R2 può derivare da un

basso valore di SSE.

In generale, dato un campione di osservazioni si possono

confrontare due modelli lineari mediante il rispettivo R2 e

scegliere il modello con l’R2 più alto.

13

Prof.ssa P. Vicard

Uno dei metodi più semplici per vedere se un modello di regressione

semplice si può bene adattare ai nostri dati consiste nella costruzione

dello scatterplot. Questa operazione consente di osservare direttamente

la nuvola dei punti.

14

04/04/2015

8

Prof.ssa P. Vicard


A colpo d’occhio lo scatterplot relativo ai nostri dati non sembra

evidenziare criticità. È corretto però supportare la nostra

valutazione visiva con degli indicatori che meglio cercano la

presenza di eventuali criticità nei nostri dati.

In particolare occorre valutare si vi sia influenza sull’analisi di

regressione della presenza

1. di punti con valori estremi della X (punti estremi);

2. di punti che hanno valori della Y che si scostano

notevolmente dalla retta stimata con il metodo dei minimi

quadrati. Questi punti sono chiamati outlier.

15

Prof.ssa P. Vicard


I punti estremi sono quelli che presentano valori della X che si

scostano notevolmente dagli altri punti della nuvola.

Questi punti hanno particolare influenza quando si vuole usare la retta

di regressione per effettuare previsioni.

Se vogliamo fare inferenza sul valore atteso della variabile Y

corrispondente ad uno specifico valore xi di X, E(Yi|X=xi), abbiamo che

2

2( | ) 2

1i i

iE Y X x

i

x xs

n x x

Questa varianza viene anche indicata con hi e chiamata leverage.

Un forte leverage indica che aumenta la deviazione standard della

previsione e quindi rende l’intervallo di confidenza più ampio.

Un punto xi è definito estremo se il suo leverage hi è notevolmente

diverso da quello di tutti gli altri punti.

Minitab definisce un punto estremo (e lo segnala con la lettera X) se il suo leverage è

maggiore di 2p/n (dove p indica il numero di variabili esplicative inclusa la costante) o

comunque maggiore di 0.99 16

04/04/2015

9

Prof.ssa P. Vicard

120010008006004002000

25

20

15

10

5

0

Dimensione (metri 2)

Ve

nd

ite

(m

iglia

ia d

i d

olla

ri)

Scatterplot of Vendite (migliaia di dollari) vs Dimensione (metri^2)


Per esempio prendiamo il nostro data set e eliminiamo un’osservazione (ad

es. l’ultima) e ne introduciamo una nuova con x=1200 (m2) e y=25 (migliaia di

dollari). Il diagramma di dispersione ci fa notare che quest’ultima osservazione

(il rombo nero) è particolarmente lontana dalla restante nuvola dei punti.

Punto estremo

17

Prof.ssa P. Vicard



Vendite

(migliaia Std

Obs di dollari) Fit Resid Resid

14 25,000 24,386 0,614 1,38 X

X Unusual X

Minitab segnala il problema inserendo nell’output una parte relativa alle

“unusual observations” in cui la nuova osservazione viene posta in

evidenza e marchiata con il codice X (elevato leverage)

18

04/04/2015

10

Prof.ssa P. Vicard


Gli outlier sono quei punti che presentano ordinate che si scostano

notevolmente dal valore previsto dal modello.

Sono generalmente identificati mediante i residui standardizzati. Il

residuo standardizzato della generica i-esima unità si ottiene dividendo

il residuo ei per il suo errore standard:

ˆ 1

iis

e i

ee

h

indica l’errore standard del modello (deviazione standard degli

errori).

I punti con elevato leverage avranno residui con basso errore

standard in quanto essi presumibilmente influenzano notevolmente la

posizione della retta di regressione stimata e quindi i corrispondenti

valori osservati e attesi saranno piuttosto vicini.

Minitab identifica gli outlier con una R se il valore assoluto dei residui

standardizzati è maggiore di 2.

19

ˆe

Prof.ssa P. Vicard

Minitab ha trovato un

outlier.

L’osservazione 14 (per la

quale la dimensione vale

279 e le vendite 4100)

non sembra

provenire dallo stesso

modello da cui

provengono le altre

osservazioni.

È importate analizzare le

osservazioni anomale in

quanto da sole possono

avere una notevole

influenza sul modello

stimato, potendone

peggiorare la qualità delle

stime.

Torniamo all’esempio che ha guidato l’intera nota.

20




Regression 1 105,75 105,746 113,21 0,000


Error 12 11,21 0,934

Total 13 116,95

Model Summary


0,966471 90,42% 89,62% 86,81%

Coefficients


Constant 0,965 0,526 1,83 0,091


Regression Equation




14 4,100 5,974 -1,874 -2,01 R

R Large residual


04/04/2015

11

Prof.ssa P. Vicard

Vediamo l’outlier sullo scatterplot


Osserviamo che il suo residuo standardizzato supera appena la soglia pari a 2. 21

Prof.ssa P. Vicard


Eliminiamo il punto incriminato e inseriamo in modo fittizio una nuova

osservazione con x=500 (m2) e y=5 (migliaia di dollari). Abbiamo il seguente

scatterplot

Vediamo che il

nuovo punto

costituisce

seriamente un

outlier in quanto si

trova lontano dalla

retta stimata e ha

spostato la retta

verso il basso

allontanandola da

altri punti osservati

(in particolar modo

quelli con x elevati)

22

04/04/2015

12




Regression 1 86,07 86,073 36,25 0,000


Error 12 28,50 2,375

Total 13 114,57

Model Summary


1,54100 75,13% 73,05% 62,36%

Coefficients


Constant 1,562 0,831 1,88 0,085


Regression Equation



Vendite

(migliaia

Obs di dollari) Fit Resid Std Resid

14 5,000 9,127 -4,127 -2,98 R

R Large residual


La retta stimata mantiene

inclinazione positiva ma il

coefficiente è più basso

(prima era 0.018) a causa

dell’outlier.

L’errore standard del

modello è cresciuto (da

0.97 è passato a 1.54).

R2 è peggiorato passando

da 90.4 a 75.1.

SSE è notevolmente

aumentato.

L’osservazione (x,y)=(500,

5) è segnalata come outlier

(R) e gli corrisponde un

residuo standardizzato

quasi pari a 3.

23

Prof.ssa P. Vicard

Fanno parte dell’output anche I grafici della diagnostica, ossia i grafici che

consentono di verificare se le condizioni alla base del modello lineare risultano

essere soddisfatte.

210-1-2

99

90

50

10

1

Residual

Pe

rce

nt

108642

1

0

-1

-2

Fitted Value

Re

sid

ua

l

1,00,50,0-0,5-1,0-1,5-2,0

4

3

2

1

0

Residual

Fre

qu

en

cy

1413121110987654321

1

0

-1

-2

Observation Order

Re

sid

ua

l

Normal Probability Plot Versus Fits

Histogram Versus Order

Residual Plots for Vendite (migliaia di dollari)

L’analisi dei residui

è molto importante in quanto

consente di studiare se le

ipotesi alla base del modello

sono soddisfatte.

Occorre studiare se i residui

hanno distribuzione

approssimativamente

normale (e si fa il normal

probability plot) e

l’istogramma.

ˆi iy y

Occorre anche (e soprattutto) analizzare se è verificata l’ipotesi che la

relazione tra Y e X sia di tipo lineare. Per fare ciò si può rappresentare con

uno scatterplot la relazione tra valori stimati (fitted values) e residui. Tale

grafico, se l’ipotesi di linearità è verificata, non deve mostrare alcuna

relazione di forma riconoscibile nella nuvola dei punti.

y

L’analisi dei residui

24

Regressione semplice: come applicarla come interpretare i...

Documents

Transcript of Regressione semplice: come applicarla come interpretare i...