POLITECNICO DI TORINO -...

34
POLITECNICO DI TORINO ESERCITAZIONI DI LOGISTICA Laurea in Ingegneria Logistica e della Produzione Corso di Logistica e di Distribuzione 1 Docente: Prof. Ing. Giulio Zotteri Tutore: Ing. Giuliano Scapaccino A.A. 2007/2008 VERSIONE 3

Transcript of POLITECNICO DI TORINO -...

Page 1: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

POLITECNICO DI TORINO

ESERCITAZIONI DI LOGISTICA

Laurea in Ingegneria Logistica e della Produzione

Corso di Logistica e di Distribuzione 1

Docente: Prof. Ing. Giulio Zotteri Tutore: Ing. Giuliano Scapaccino

A.A. 2007/2008 VERSIONE 3

Page 2: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

METODI EXPLANATORY

NOTA:

MATERIALE PROPEDEUTICO AL CORSO

NON SOSTITUISCE IL TESTO DI RIFERIMENTO

REGRESSIONE LINEARE SEMPLICE

POLITECNICO DI TORINO - ESERCITAZIONI LOGISTICA DI DISTRIBUZIONE 1 – AUTORE: G. SCAPACCINO - VERSIONE 3.0 – FONTE: DALLA RETE

2

Page 3: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

13

- a è l'intercetta della retta di regressione,

- b è il coefficiente angolare; esso indica la quantità unitaria di cui varia Y al variare di una unità di

X.

La rappresentazione grafica evidenzia che il termine costante a , chiamato intercetta, fissa la

posizione della retta rispetto all’asse delle ordinate:

- a è il valore di Y, quando X è uguale a 0.

Due rette che differiscano solo per il valore di a , quindi con b uguale, sono tra loro parallele.

Come evidenzia il diagramma cartesiano precedente, ogni punto sperimentale ha una componente di

errore ie , che rappresenta lo scarto verticale del valore osservato dalla retta (quindi tra la Y osservata

e quella proiettata perpendicolarmente sulla retta). Poiché la retta di regressione serve per predire Y

sulla base di X, l’errore commesso è quanto la Y predetta ( iY ) si avvicina alla Y osservata ( iY ).

Utilizzare un qualsiasi punto sperimentale per stimare a porterebbe ad avere tante stime diverse

quanti sono i punti sperimentali, tutti affetti appunto da un errore diverso. Di conseguenza, come punto

di riferimento

- per stimare a e costruire la retta,

- viene utilizzato il punto identificato dai valori medi di Y e di X (Y e X ),

- che rappresenta il baricentro della distribuzione, attraverso il quale la retta passerà sempre per

costruzione.

Page 4: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

14

Nel calcolo della retta di regressione, l'intercetta a è stimata a partire da b e dalle medie delle

variabili X e Y sulla base della relazione

XbYa −=

Di conseguenza, l'unica reale incognita è il valore del coefficiente angolare b .

Per calcolare la retta che meglio approssima la distribuzione dei punti, è utile partire dall'osservazione

che ogni punto osservato Yi si discosta dalla retta di una certa quantità ie detta errore o residuo

iii ebXaY ++=

Ognuno di questi valori ie può essere positivo oppure negativo:

- è positivo quando il punto Yi sperimentale è sopra la retta (come nella figura precedente),

- è negativo quando il punto Yi sperimentale è sotto la retta.

Per costruire la retta che descrive la distribuzione dei punti, i principi ai quali riferirsi possono essere

differenti e da essi derivano metodi diversi.

Gli statistici hanno scelto il metodo dei minimi quadrati. La retta scelta è quella che riduce al

minimo la somma dei quadrati degli scarti di ogni punto dalla sua proiezione verticale (parallelo

all’asse delle Y). E’ un valore del tutto identico alla devianza e permette analisi simili a quelle

dell'ANOVA, che verranno successivamente spiegate.

In modo più formale, indicando con

- iY il valore osservato od empirico e con

- $Y i il corrispondente valore sulla retta,

si stima come migliore interpolante, quella che minimizza la sommatoria del quadrato degli scarti

dei valori osservati (Yi ) rispetto a quelli stimati sulla retta ( $Y i )

( $ )Y Yi ii

n

−=∑

1

2 = minimo

Poiché

)bX(aY=e iii +−

è possibile scrivere

minimo =))bX(a (Y=e 2ii

2i ∑∑ +−

e da essa

minimo =))bX(a (Y=e 2ii

2i ∑∑ +−

Page 5: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

15

Eguagliando a zero le derivate parziali, si trova il valore di b che minimizza tale sommatoria

( ) ( ) ( )( )

( )( ) ( )[ ]

( )X X b

X X Y YX X

Y YX X Y Y

X X− ⋅ −

− ⋅ −

+ − −

− ⋅ −

∑∑∑ ∑

∑∑22

2

22

2

Dopo semplificazione, il valore di b risulta uguale al

rapporto della codevianza di X e Y con la devianza di X,

che è più facile ricordare come

X

XY

DevCodb =

La codevianza è un concetto non ancora incontrato nel corso di statistica, poiché serve nello studio di

due variabili: stima come X e Y variano congiuntamente, rispetto al loro valore medio. E' definita

come la sommatoria degli n prodotti degli scarti di X rispetto alla sua media e di Y rispetto alla

sua media:

( ) ( )∑=

−⋅−=n

iiiXY YYXXCod

1

Come la devianza, anche la codevianza ha una formula empirica od abbreviata che permette un calcolo

più rapido

nYX

YXCod XY∑ ∑∑

⋅−⋅= )(

e preciso a partire dai dati campionari.

Infatti evita l’uso delle medie, che sono quasi sempre valori approssimati e impongono di trascinare

nei vari calcoli alcuni decimali.

In conclusione, il coefficiente angolare b è calcolato dalle coppie dei dati sperimentali X e Y come

bX X Y Y

X X=

− ⋅ −

−∑∑

( ) ( )( )2

che ne definisce il significato,

oppure dalla equivalente formula rapida od empirica

Page 6: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

16

nX

X

nYX

YXb

∑∑

∑∑

⋅−⋅

= 22 )(

)(

Dopo aver calcolato b , si stima a :

XbYa −=

Noti i valori dell'intercetta a e del coefficiente angolare b , è possibile procedere alla

rappresentazione grafica della retta.

Anche a questo scopo, è importante ricordare che la retta passa sempre dal baricentro del

diagramma di dispersione, individuato dal punto d'incontro delle due medie X e Y.

Di conseguenza, è sufficiente calcolare il valore di iY corrispondente ad un solo qualsiasi valore di

iX (ovviamente diverso dalla media), per tracciare la retta che passa per questo punto calcolato e per

il punto d'incontro tra le due medie.

Se non sono stati commessi errori di calcolo, qualsiasi altro punto iY stimato nella

rappresentazione grafica deve risultare collocato esattamente sulla retta tracciata. E’ un

principio elementare che può servire come un procedimento semplice ed emprico, allo scopo di

verificare la correttezza di tutti i calcoli effettuati fino a quel punto

ESEMPIO. Per sette giovani donne, indicate con un numero progressivo, è stato misurato il peso in

Kg e l'altezza in cm.

Page 7: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

17

Individui 1 2 3 4 5 6 7

Peso (Y) in Kg. 52 68 75 71 63 59 57

Altezza (X) in cm. 160 178 183 180 166 175 162

Calcolare la retta di regressione che evidenzi la relazione tra peso ed altezza.

Risposta. Come primo problema è necessario individuare quale è la variabile indipendente, che deve

essere indicata con X, e quale la variabile dipendente, indicata con Y. Se non esiste tale relazione

unidirezionale di causa - effetto, da motivare con conoscenze della disciplina che esulano dalla

statistica, è più corretto utilizzare la correlazione lineare semplice.

Tra le due serie di misure dell’esempio, la variabile indipendente è l'altezza e la variabile dipendente è

il peso. Infatti ha significato stimare quanto dovrebbe pesare un individuo in rapporto alla sua altezza,

ma non viceversa.

Successivamente, dalle 7 coppie di dati si devono calcolare le quantità

∑ ∑∑ ∑ =====⋅ 7 ;207598X ;445 ;1204 ;76945)( 2 nYXYX

che sono necessarie per

- la stima del coefficiente angolare b

796,0

71204207598

7445120476945

)(

)(22

2

=−

⋅−

=−

⋅−⋅

=∑∑

∑ ∑∑

nX

X

nYX

YXb

che risulta uguale a 0,796

- la stima dell’intercetta a

354,73172796,0571,63 −=⋅−=−= XbYa

che risulta uguale a -73,354.

Si è ricavata la retta di regressione

Page 8: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

18

$Y i = -73,354 + 0,796 ⋅ Xi

con la quale è possibile stimare i punti sulla retta, corrispondenti a quelli sperimentalmente rilevati.

Per tracciare la retta è sufficiente calcolare un solo altro punto, oltre quello noto individuato

dall’incrocio delle due medie, che identifica il baricentro della distribuzione; di norma, ma non

necessariamente, è scelto entro il campo di variazione delle Xi empiriche. Successivamente, si deve

prolungare il segmento che per estremi ha il punto stimato ed il baricentro della distribuzione, come

nella figura di seguito riportata.

PESO

ALTEZZA

50

55

60

65

70

75

80

155 165 175 185X

Y

Qualsiasi altro valore di $Y i , stimato a partire da un generico Xi , sarà collocato su questa retta, se non

sono stati commessi errori di calcolo in una fase qualsiasi del procedimento.

E’ quindi utile, a dimostrazione empirica della correttezza di calcoli effettuati a mano, verificare

effettivamente tale proprietà per un altro valore della variabile X.

Nel sua interpretazione biologica, il valore calcolato di b indica che in media gli individui che

formano il campione aumentano di 0,796 Kg. al crescere di 1 cm. in altezza.

E’ quindi ovvio che, se l’altezza delle 7 giovani fosse stata misurata in metri (1,60; 1,78; ...), il

coefficiente angolare b sarebbe risultato uguale a 79,6 (cento volte il valore precedentemente

stimato), indicando l’incremento di 79,6 kg. per l’aumento di 1 metro in altezza.

Page 9: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

19

Nello stesso modo e simmetricamente, se il peso fosse stato stimato in ettogrammi (520, 680, ...) e

l’altezza sempre in centimetri, il coefficiente angolare b sarebbe risultato uguale a 7,96 indicando un

aumento medio del peso di hg. 7,96 per un aumento di 1 cm in altezza.

Sono concetti utili, quando si devono confrontare due o più coefficienti angolari di rette di regressione

e fornire interpretazioni a carattere biologico o ambientale.

Il valore di a molto spesso non è importante. Serve solamente per calcolare i valori sulla retta; ha

uno scopo strumentale e nessun significato biologico. In questo esempio, nella realtà a non esiste,

poiché è fuori dal campo di variazione della X e soprattutto non esiste alcuna persona con l’altezza 0

(zero).

L’intercetta ha significato solo in pochi casi; ad esempio quando si confrontano due metodi per

stimare la stessa quantità, che potrebbe essere 0.

Se per X = 0, il valore di Y è differente si ha 0≠a : significa che i due strumenti hanno una taratura

differente, la cui quantità è indicata dal valore di a .

Sono concetti che saranno ripresi nel paragrafo dedicato alla significatività e all’intervallo di

confidenza dell’intercetta a .

15.5. VALORE PREDITTIVO DELLA REGRESSIONE

La retta di regressione è sovente usata a scopi predittivi, per stimare una variabile conoscendo il

valore dell’altra. Ma è necessario procedere con cautela: in questa operazione spesso viene

dimenticato che,

- sotto l’aspetto statistico, qualsiasi previsione o stima di Y è valida solamente entro il campo

di variazione sperimentale della variabile indipendente X.

Questo campo di variazione comprende solo i valori osservati della X, usati per la stima della

regressione. Per valori minori o maggiori, non è assolutamente dimostrato che la relazione trovata tra

le due variabili persista e sia dello stesso tipo.

L'ipotesi che la relazione stimata si mantenga costante anche per valori esterni al campo

d’osservazione è totalmente arbitraria; estrapolare i dati all’esterno del reale campo d’osservazione

è un errore di tecnica statistica, accettabile solamente nel contesto specifico della disciplina studiata,

a condizione che sia motivato da una maggiore conoscenza del fenomeno. In alcuni casi, questo

metodo è utilizzato appunto per dimostrare come la legge lineare trovata non possa essere valida per

valori inferiori o superiori, stante l’assurdità della risposta.

Page 10: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

20

Nell'esempio del paragrafo precedente, la relazione trovata tra Y e X con la retta di regressione è

valida solamente entro un'altezza compresa tra 160 e 183 centimetri. E' da ritenere statisticamente

errato usare la retta stimata per predire valori di Y in funzione di valori di X che siano minori di 160 o

maggiori di 183 centimetri.

Come dimostrazione semplice di tale principio, nei vari testi di statistica sono riportati esempi anche

divertenti, ma è possibile usare la retta calcolata.

Una bambina alla nascita di norma ha un'altezza (lunghezza) di circa 50 centimetri.

Che peso dovrebbe avere, se la relazione precedente fosse applicabile anche al suo caso?

La prosecuzione della retta stimata

iY = -73,354 + 0,796⋅ Xi

per una lunghezza (Xi) uguale a 50 cm.

-73,354 + 0,796⋅50 = -33,554

fornisce un peso medio (Yi) uguale a Kg. -33,554.

E’ una risposta chiaramente assurda, evidenziata nella figura, poiché la relazione lineare calcolata

per giovani da 160 a 183 cm. di altezza non può essere estesa a dimensioni diverse. E’ intuitivo

che gli effetti saranno tanto più distorti, quanto maggiore è la distanza dai limiti sperimentali utilizzati

per il calcolo della regressione.

PESO

-80-75-70-65-60-55-50-45-40-35-30-25-20-15-10

-505

101520253035404550556065707580

0 20 40 60 80 100 120 140 160 180 200

ALTEZZA

Page 11: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

21

Nella ricerca applicata l’evoluzione temporale e la diffusione spaziale di un fenomeno sono casi

ricorrenti di uso della regressione lineare a fini predittivi. I dati,

- se ordinati secondo il periodo, sono chiamati serie temporali o storiche,

- mentre sono chiamate serie territoriali quando ordinate sulla base della distanze dal luogo di

rilevazione.

Sono analisi particolarmente importanti per verificare l’aumento (o della diminuzione) dei tassi di

inquinamento ad iniziare da un certo momento oppure per analizzare la diffusione geografica di un

inquinante a partire da una fonte.

Una serie temporale può essere scomposta in 4 componenti:

- la componente di fondo, detta trend, che ne rappresenta l’evoluzione più importante, a lungo

termine;

- le oscillazioni periodiche, stagionali, o cicliche che si ripetono con regolarità ad intervalli costanti;

- le variazioni casuali, non riconducibili a nessuna causa costante;

- gli eventi eccezionali, che sono in grado di modificare le tendenze di medio o di lungo periodo.

Per esse e per le serie territoriali, tra i metodi specifici è utilizzata la regressione, in particolare per

predire la tendenza di fondo.

Per approfondimenti sull’argomento delle serie storiche o territoriali, si rinvia a trattazioni specifiche.

15.6. SIGNIFICATIVITÀ' DEI PARAMETRI β E α DELLA RETTA DI REGRESSIONE

Con le formule presentate, è sempre possibile ottenere la retta che meglio si adatta ai dati rilevati, con

qualunque forma di dispersione dei punti.

Tuttavia, allo statistico il semplice calcolo della retta non è sufficiente. Essa potrebbe indicare

- una relazione reale tra le due variabili, se la dispersione dei punti intorno alla retta è ridotta,

- una relazione casuale o non significativa, quando la dispersione dei punti intorno alla retta è

approssimativamente uguale a quella intorno alla media.

Le tre figure successive (A, B, C), rappresentando in modo schematico situazioni sperimentali

notevolmente differenti, possono illustrare questi concetti con semplicità e chiarezza.

Page 12: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

22

Y

X

Y

X

oo

o

oo

o o

o o o

o o

Y

X

Y

X

o

o

o

o

o

o o

oo

o

o

o

A)B)

Y

X

Y

X

o

o

o

o

o

o

o

o

o

o

o

o

C)

La figura A riporta una retta che, visivamente, esprime la relazione tra le due variabili: i punti hanno

distanze dalla retta di regressione sensibilmente minori di quelle dalla media (Y ). Conoscendo X, il

valore stimato di Y può avvicinarsi molto a quello reale, rappresentato dal punto.

All’opposto, la figura C evidenzia una situazione in cui la retta calcolata non è un miglioramento

effettivo della distribuzione dei punti rispetto alla media. In questo caso, la retta calcolata può essere

interpretata come una variazione casuale della media: con questi dati, la retta ha una pendenza

Page 13: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

23

positiva; ma con un altro campione estratto dalla stessa popolazione o con l’aggiunta di un solo dato

della stessa popolazione si potrebbe stimare un coefficiente angolare (b) negativo.

Il caso B raffigura una situazione di maggiore incertezza sulla significatività della retta calcolata; la

semplice rappresentazione grafica risulta insufficiente per decidere se all’aumento di X i valori

di Y tendano realmente a crescere.

E’ sempre necessario ricorrere a metodi che, a partire dagli stessi dati, conducano tutti alle stesse

conclusioni. Sono i test di inferenza. Per rispondere alle domande poste, occorre valutare la

significatività della retta, cioè se il coefficiente angolare b si discosta da zero in modo significativo.

Il coefficiente angolare b è relativo al campione.

La sua generalizzazione nella popolazione è indicata con β (beta) e la sua significatività è saggiata

mediante la verifica dell'ipotesi nulla H0

H : = 00 β

Rifiutando l'ipotesi nulla e senza altre indicazioni, si accetta l'ipotesi alternativa a due code H1

0 :H1 ≠β

Affermare che β è uguale a zero, nella regressione lineare significa che

- al variare di X,

- Y resta costante, uguale al valore dell'intercetta a .

Di conseguenza, non esiste alcun legame di regressione o predittivo tra X e Y, poiché la prima

cambia mentre la seconda, che dovrebbe essere da essa determinata, resta costante.

Rifiutando l'ipotesi nulla, implicitamente si accetta l'ipotesi alternativa H1 che β sia diverso da zero: al

variare di X si ha una corrispondente variazione sistematica di Y. Di conseguenza, si afferma che la

regressione esiste, perché conoscendo X si ha informazione non nulla sul valore di Y.

Per la verifica della significatività della retta calcolata, un metodo semplice e didatticamente utile alla

comprensione del significato statistico della regressione è il test F, fondato sulla scomposizione delle

devianze e dei relativi gdl.

Nelle figure sottostanti A e B, indicando con

- iY il punto sperimentale,

- con $Y i la sua proiezione (parallela all’asse delle ordinate) sulla retta,

- con Y la media,

Page 14: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

24

a partire dalla somma dei quadrati delle distanze tra i tre punti (Y, Y$ e Y ) si definiscono tre

devianze, come nell’analisi della varianza ad un criterio:

- la devianza totale, con gdl n-1,

- la devianza della regressione o devianza dovuta alla regressione, con gdl 1,

- la devianza d'errore o devianza dalla regressione o residuo, con gdl n-2.

secondo le formule di seguito riportate con i relativi gdl:

- Devianza totale ∑ − 2i )Y(Y con gdl n-1 (Fig. A)

- Devianza della regressione ∑ − 2i )YY( con gdl 1 (Fig. B, parte inferiore)

- Devianza d’errore ∑ − 2i )ˆ(Y iY con gdl n-2 (Fig. B, parte superiore)

Queste formule definiscono il significato delle 3 devianze. Potrebbero essere usate per stimare i

valori, ma richiedono calcoli lunghi e forniscono risultati approssimati, poiché fondati sulle medie e

sui valori della retta, che non sono quasi mai valori esatti e impongono l’uso di decimali.

Per effettuare in modo più rapido e preciso i calcoli, si utilizzano le formule abbreviate:

- Devianza totale nY

Y ∑∑ −2

2 )( con gdl n-1

Page 15: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

25

- Devianza della regressione X

XY

DevCod 2

con gdl 1

ricordando che, sempre con le formule abbreviate,

∑ ∑ ∑⋅−⋅=n

YXYXCod XY )(

e

nX

XDevX∑∑ −=

22 )(

Successivamente, per differenza, si calcola la devianza d'errore:

- Devianza d’errore = (Devianza totale – Devianza della regressione ) con gdl n-2

Dal rapporto

- della devianza della regressione con i suoi gdl si stima la varianza della regressione;

- della devianza d'errore con i suoi gdl si ottiene la varianza d'errore.

Se l’ipotesi nulla è vera, la varianza d’errore e la varianza della regressione stimano le stesse

grandezze e quindi dovrebbero essere simili.

Se invece esiste regressione (H0 falsa), la varianza della regressione è maggiore di quella

d’errore.

Il rapporto tra queste due varianze determina il valore del test F con gdl 1 e n-2

F (1, n-2)=Varianza della regressione

Varianza d errore '

Teoricamente, quando l’ipotesi nulla è falsa, si ottengono valori significativamente maggiori di 1.

In pratica, se il valore di F calcolato è inferiore al valore tabulato, relativo alla probabilità prefissata e

ai gdl corrispondenti, si accetta l'ipotesi nulla: non si ha una regressione lineare statisticamente

significativa.

Al contrario, se il valore calcolato di F supera il valore tabulato, si rifiuta l'ipotesi nulla e pertanto si

accetta l'ipotesi alternativa: la regressione lineare tra le due variabili è significativa.

Gli stessi concetti possono essere espressi con termini più tecnici.

Page 16: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

26

- Se β = 0, la varianza dovuta alla regressione e quella d'errore sono stime indipendenti e non

viziate della variabilità dei dati.

- Se β ≠ 0, la varianza d'errore è una stima non viziata della variabilità dei dati, mentre la

varianza dovuta alla regressione è stima di una grandezza maggiore.

- Di conseguenza, il rapporto tra le varianze (varianza d'errore/varianza della regressione)

con d.f. rispettivamente 1 e n-2 è da ritenersi utile alla verifica dell'ipotesi β = 0.

Il test applicato è detto anche test di linearità. Infatti, rifiutare l'ipotesi nulla non significa affermare

che tra X e Y non esista alcuna relazione, ma solamente che non esiste una relazione di tipo lineare

tra le due variabili. Potrebbe esistere una relazione di tipo differente, come quella curvilinea, di

secondo grado o di grado superiore.

ESEMPIO. Con le misure di peso ed altezza rilevati su 7 giovani donne

Individui 1 2 3 4 5 6 7

Peso (Y) in Kg. 52 68 75 71 63 59 57

Altezza (X) in cm. 160 178 183 180 166 175 162

è stata calcolata la retta di regressione

$ , ,Y X= − +73 354 0 796 Valutare la sua significatività mediante il test F.

Risposta. Valutare se esiste regressione tra le due variabili con il test F equivale a verificare l’ipotesi

H0: β = 0

contro l’ipotesi alternativa

H1: β ≠ 0

Dopo i calcoli preliminari dei valori richiesti dalle formule abbreviate

∑ =⋅ 76945)( YX ∑ = 1204X 2075982 =∑ X ∑ = 445Y 286932 =∑Y n = 7

precedentemente riportate, si ottengono le tre devianze:

Page 17: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

27

- SQ totale = , ,28693445

728693 28289 285 403 715

2

− = − =

- SQ della regressione =(76945

1204 4457

2075981204

7

76945 76540207598 207088

164025510

321 6182

2

2−⋅

−=

−−

= =) ( )

,

- SQ d’errore = 403 715 321 618 82 097, , ,− =

Per presentare in modo chiaro i risultati, è sempre utile riportare sia le tre devianze e i df relativi, sia le

varianze rispettive, in una tabella riassuntiva,

Devianza DF Varianza F P

Totale 403,715 6 ---- ---

Regressione 321,618 1 321,62 19,59 <0.01

Errore 82,097 5 16,42 ---

che fornisce tutti gli elementi utili al calcolo e all’interpretazione di F.

Con i dati dell'esempio, il valore di F

F( , ),,

,1 5321 6216 42

19 59= =

risulta uguale a 19,59 con df 1 e 5.

I valori critici riportati nelle tavole sinottiche di F per df 1 e 5 sono

- 6,61 alla probabilità α = 0.05

- 16,26 alla probabilità α = 0.01.

Il valore calcolato è superiore a quello tabulato alla probabilità α = 0.01. Pertanto, con probabilità P

inferiore a 0.01 (di commettere un errore di I tipo, cioè di rifiutare l’ipotesi nulla quando in realtà è

vera), si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: nella popolazione dalla quale è stato

estratto il campione di 7 giovani donne, esiste un relazione lineare tra le variazioni in altezza e quelle

in peso.

Page 18: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

28

La verifica della significatività della retta o verifica dell'esistenza di una relazione lineare tra le

due variabili può essere attuata anche mediante il test t di Student, con risultati perfettamente

equivalenti al test F. Come già dimostrato per il confronto tra le medie di due campioni dipendenti od

indipendenti, anche

nel test di linearità il valore di t con df n-2 è uguale alla radice quadrata di F con df 1 e n-2

)2-,1()2-( nn Ft = oppure )2,1(2

)2( −− = nn Ft

Il test t è fondato su calcoli che sono didatticamente meno chiari di quelli del test F, per la

comprensione dei parametri riportati nelle formule; ma per l’inferenza offre due vantaggi

- può essere più facilmente applicato anche a test unilaterali,

H1: β < 0 oppure H1: β > 0

- permettere il confronto con qualsiasi valore (β0), (non solo 0 come con il test F) quindi verificare

l’ipotesi nulla

H0: β = β0

ovviamente sempre con ipotesi alternative H1 bilaterali oppure unilaterali.

I test unilaterali

- non solo sono più potenti di quelli bilaterali,

- ma spesso sono anche logicamente più adeguati e corretti ai fini della ricerca.

Ad esempio, sulla relazione lineare tra altezza e peso fino ad ora utilizzato,

- è più logico un test unilaterale (all’aumentare dell’altezza il peso aumenta)

- che non un test bilaterale (all’aumentare dell’altezza il peso varia),

potendo a priori escludere come accettabile il risultato che all’aumentare dell’altezza il peso medio

possa diminuire.

Page 19: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

29

Il test t è fondato sul rapporto tra il valore del coefficiente angolare b ed il suo errore standard bS .

La formula generale può essere scritta come

0)2-(

bn S

bt β−=

dove

- 0β è il valore atteso,

- bS è determinato dalla radice quadrata del rapporto tra la dispersione dei dati sperimentali (Y)

intorno alla retta di regressione ( $Y ) e la devianza totale di X.

bS = ( )∑ −

=⋅⋅⋅⋅⋅⋅

2

2'XX

SXdellatotaleDevianzarettadellaerroredVarianza

i

e

Nella verifica della significatività della regressione β è uguale a 0; ma essa può assumere qualsiasi

valore di confronto o ipotizzato (β0); di conseguenza, la formula può essere utilizzata per

verificare la significatività dello scostamento da qualunque valore atteso.

Un caso relativamente frequente nella ricerca applicata consiste nel verificare se il coefficiente

angolare campionario b può essere in disaccordo con la teoria che Y aumenti di una unità

all’aumentare di una di X, cioè se β = 1. Si ricorre a questo confronto, ad esempio, quando si

raffrontano i risultati di due metodi di valutazione che dovrebbero dare gli stessi valori.

E' importante osservare che

- l'errore standard di b ( bS ) diminuisce, quindi il valore di t diventa più significativo,

- all'aumentare della devianza di X.

L’osservazione ha applicazioni importanti nella programmazione degli esperimenti, per la scelta dei

valori campionari di X.

Si supponga di dover valutare la regressione tra peso ed altezza. Si pone un problema di scegliere gli

individui, ai fini di trovare una regressione significativa. Molti sono incerti se sia preferibile

- scegliere individui di altezza media, con la motivazione che rappresentano il caso “tipico”,

- scegliere individui che coprano tutto il campo di variazione dell’altezza.

Per ottenere più facilmente la significatività della pendenza della retta,

è sempre vantaggioso utilizzare per la variabile X un campo di variazione molto ampio,

con più misure collocate ai valori estremi.

Page 20: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

30

Infatti

- se la devianza di X è grande, il valore di bS è piccolo;

- di conseguenza il valore di t è grande e più facilmente significativo.

La varianza d'errore della retta 2eS con df n-2 è chiamata anche errore standard della stima;

è data da

2)ˆ( 2

2

−−

= ∑n

YYS ii

e

E’ fondata sui valori attesi e quindi il suo calcolo richiede vari passaggi. Può essere stimata con le

formule presentate nel test F, dove la devianza d'errore è ottenuta in modo rapido per differenza tra la

devianza totale e quella dovuta alla regressione.

Quando è nota la retta, è possibile calcolare la devianza dovuta alla regressione direttamente dai valori

sperimentali di X e Y mediante

Devianza della regressione = )( - 2 ∑∑∑ ⋅⋅⋅− iiii YXbYaY

ESEMPIO 1. Con le stesse 7 misure di peso ed altezza degli esercizi precedenti, stimare la

significatività della regressione mediante il test t di Student.

Risposta. E’ vantaggioso e più logico ricorrere ad un test unilaterale, quindi verificare se il peso

aumenta in modo significativo al crescere dell'altezza. Tuttavia, in questo caso e solo con lo scopo di

confrontare il risultato del test t con quello del precedente test F, è stato preferito un test bilaterale.

Ricordando dai calcoli precedenti che

b = 0 796, se2 = 16,42 n = 7 ( )∑

=

−n

ii XX

1

2= 510 Sb

2 16 42510

=,

1794,0=bS

il valore di 5t

4,4371794,0796,0

5 ==t

risulta uguale a 4,437.

Come già messo in evidenza in varie altre occasioni, il test F ed il test t danno il medesimo risultato.

Infatti,

F1 5 19 59, ,= corrisponde a t 5 19 59= =, 4, 426

Page 21: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

31

(La piccola differenza tra 4,437 e 4,426 dipende dai vari arrotondamenti usati nelle due differenti serie

di calcoli.)

ESEMPIO 2. Con una ricerca bibliografica, è stato trovato che il coefficiente angolare β0 della retta di

regressione tra altezza (X) e peso (Y) in una popolazione è risultato uguale a 0,950.

Il valore di 0,796 calcolato sulle 7 giovani se ne discosta in modo significativo?

Risposta. E’ un test bilaterale, in quanto chiede semplicemente se il valore calcolato b si discosta in

modo significativo da un valore atteso, dove

H0: β = 0,950 e H1: β ≠ 0,950

Applicando la formula

)2-(b

n Sbt β−

=

si trova

t(5) = 0 796 0 950

0 1794, ,

,−

= −0 1540 1794

,,

= - 0,858

un valore di t uguale a -0.858 con 5 df.

E’ un rapporto inferiore all’unità, quindi senza dubbio non significativo. Di conseguenza, si deve

concludere che non è dimostrata l’esistenza di una differenza tra il coefficiente angolare riportato sulla

pubblicazione e quello sperimentalmente calcolato con i 7 dati.

Quando non è possibile rifiutare l'ipotesi nulla in merito al coefficiente angolare b (pertanto la retta

campionaria non può essere assunta come significativa di una relazione lineare tra le due variabili), la

risposta ai diversi valori di X è fornita dalla media di Y, della quale può essere utile la conoscenza

della varianza e della deviazione standard.

Con la simbologia ormai consueta, la varianza ( 2YS ) e la deviazione standard ( YS ) della media Y ,

sono rispettivamente

nSS e

Y

22 = e

nSS e

Y =

Nella ricerca ambientale, oltre alla significatività del coefficiente angolare b spesso è importante

verificare anche

- la significatività dell'intercetta a (rispetto a zero)

Page 22: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

32

- la significatività della sua differenza da un valore atteso o prefissato.

Il concetto è identico al confronto tra una media campionaria X e la media reale µ o della

popolazione.

Il confronto è verificato ricorrendo ancora alla distribuzione t, con una formula analoga a quella per la

media X e per il coefficiente angolare b .

Un caso frequente è quando l’origine della retta dovrebbe coincidere con l’origine degli assi; quindi

con X = 0 si dovrebbe Y = 0, cioè una risposta media di a che non si discosta significativamente da

0.

Il test può comunque essere applicato al confronto con qualsiasi valore atteso dell’intercetta e l’ipotesi

alternativa H1 può essere sia unilaterale che bilaterale.

Per la significatività dell’intercetta a , si verifica l’ipotesi nulla

H0: α = 0

mentre per il confronto dell’intercetta a con un generico valore atteso α0 si verifica l’ipotesi nulla

H0: α = α0

dove

- α è il valore della popolazione dalla quale è stato estratto il campione che ha permesso il calcolo

di a.

Il test è effettuato con il calcolo di un valore di t, con gdl n-2 in quanto fondato sulla varianza d’errore

della retta; è dato da

an S

at α−=− )2(

dove

- aS è l'errore standard dell'intercetta

ed è stimato come

))(

1( 2

22

∑ −+⋅=

XXX

nSS

iea

con 2eS che indica la varianza d’errore della retta

(già utilizzata per stimare la significatività del coefficiente angolare b ).

ESEMPIO. Utilizzando gli stessi 7 dati della relazione peso - altezza, in cui

357,73−=a 2eS = 16,101 n = 7 ( )∑

=

−n

ii XX

1

2 = 510 X = 172

Page 23: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

33

stimare se l'intercetta a si discosta in modo significativo da zero.

Risposta. Per verificare l’ipotesi nulla

H0: α = 0

con ipotesi alternativa

H1: α ≠ 0

poiché l’errore standard di a

599,30510

17271101,16

2

=

+⋅=aS

è uguale a 30,599

si ottiene un valore del t di Student

397,2599,30357,73

5 −=−

=t

uguale a -2,397 con 5 df.

Per un test bilaterale, il valore critico di t con 5 df alla probabilità α = 0.05 è uguale a 2,571.

Di conseguenza, l'intercetta calcolata non risulta significativamente diversa da zero.

In realtà il valore è così vicino alla significatività che, con un numero maggiore di dati, il test sarebbe

risultato significativo.

Per una interpretazione più attenta e meno affrettata del risultato, si pone il problema di stimare

la potenza del test effettuato, prima di affermare con sufficiente sicurezza che il coefficiente

angolare b oppure, come in questo caso, l’incetta a non sono significativamente differenti da

zero oppure da un qualunque valore atteso.

15.7. CONFRONTO TRA LA SIGNIFICATIVITA’ E LA POTENZA DEL TEST DELLA

REGRESSIONE CON QUELLE DELLA CORRELAZIONE

Come risulterà evidente alla fine della esposizione degli argomenti che riguardano la correlazione, la

regressione lineare semplice e la correlazione lineare semplice hanno

- finalità differenti,

- condizioni di validità differenti,

- nei test di significatività rispondono a domande differenti.

Nella verifica della significatività,

- con la retta di regressione, l’ipotesi nulla verte sul valore del coefficiente angolare b :

H0: β = 0

Page 24: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

34

- nella correlazione, l’ipotesi nulla verte sul valore del coefficiente r:

H0: ρ = 0

Come sarà illustrato nei paragrafi successivi, quando si effettua il confronto con un qualsiasi valore

teorico,

- con il coefficiente angolare b, si verifica l’ipotesi nulla

H0: β = β0

- con il coefficiente di correlazione r si verifica l’ipotesi nulla

H0: ρ = ρ0

Tuttavia, la regressione e la correlazione possono essere calcolate sulle stesse coppie di dati.

Per ambedue,

- la significatività può essere stimata sia con il test F sia con il test t,

- i test hanno gli stessi gradi di libertà,

- le ipotesi alternative possono essere ugualmente bilaterali oppure unilaterali.,

- i risultati della significatività sono identici: il test t e il test F per la significatività di b forniscono

lo stesso valore di quello applicato su r .

Sulla base di queste affinità sono uguali anche

- la potenza a priori, cioè il numero di dati (n) che servono affinché il coefficiente angolare b o il

coefficiente di correlazione r risultino significativamente differenti da zero o da un valore

prefissato,

- la potenza a posteriori, cioè la probabilità (1-β) di rifiutare correttamente l’ipotesi nulla, in un

test sulla significatività di un coefficiente angolare b oppure un coefficiente di correlazione r .

Di conseguenza, per il calcolo della potenza della regressione si può utilizzare la procedura per la

correlazione, dopo aver ricavato r dai dati della regressione o da suoi indici.

Questo valore r può essere ricavato a partire

- dal coefficiente di determinazione R2 (spiegato in un paragrafo successivo) con

2Rr =

- dal coefficiente angolare b e dalle due devianze con

Page 25: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

35

( )( )∑

∑−

−⋅= 2

2

YY

XXbr

i

i

Nei paragrafi successivi di questo capitolo, saranno presentati anche i metodi per confrontare due

coefficienti angolari b1 e b2, allo scopo di verificare se appartengono alla stessa popolazione con

coefficiente angolare β.

Anche per la correlazione, nel capitolo successivo saranno presentati i metodi per confrontare due

coefficienti di correlazione r1 e r2, per verificare se appartengono alla stessa popolazione con

coefficiente di correlazione ρ.

In modo analogo al caso precedente, anche per questo test di confronto tra i coefficienti di due

campioni indipendenti è possibile stimare

- la potenza a priori, cioè il numero di dati (n) che servono affinché i coefficienti angolari b1 e b2

oppure i coefficienti di correlazione r1 e r2 risultino significativamente differenti tra loro,

- la potenza a posteriori (1-β) di un test di confronto tra due coefficienti angolari oppure tra due

coefficienti di correlazione.

Anche per il calcolo della potenza di un test sul confronto tra due coefficienti di regressione, si

utilizza la procedura della correlazione (spiegata nel capitolo sulla correlazione).

Per quanto riguarda gli aspetti concettuali dell’uso del coefficiente di correlazione r , allo scopo di

valutare la significatività del coefficiente angolare b , si rinvia al paragrafo specifico nel capitolo sulla

correlazione.

15.8. INTERVALLI DI CONFIDENZA DEI PARAMETRI β E α

L’uso della retta di regressione a fini predittivi richiede che possa essere stimato l’errore di

previsione

- del coefficiente angolare β

- dell’intercetta α.

I limiti di confidenza sono utili anche per eventuali confronti con un parametro prefissato, quindi ai

fini dell’inferenza, come già fatto per la media campionaria X . Infatti un qualsiasi valore

campionario b0 oppure un valore β0 di una popolazione, se non è compreso entro i limiti di limiti di

confidenza di un altro coefficiente angolare b, è significativamente differente da esso. Questa

analisi coincide con i risultati di un test t bilaterale, alla stessa probabilità P.

Page 26: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

36

Come per la media,

- conoscendo β e la sua deviazione standard βσ

- è possibile determinare l’intervallo di confidenza dei valori campionari b alla probabilità P,

attraverso la distribuzione normale ridotta Z.

βα σβ ⋅±= 2/Zb

In realtà, nella ricerca quasi sempre il procedimento logico ha la direzione opposta: si cerca di

stimare il parametro della popolazione (β oppure α) che di solito è ignoto, a partire dalle statistiche ( b

oppure a ) calcolate su n dati campionari.

Calcolato un valore b , il coefficiente angolare della popolazione (β) con probabilità P si trova

entro i limiti dell’intervallo di confidenza L1 e L2

L1 = bn Stb ⋅− − )2 ,2( α

L2 = bn Stb ⋅+ − )2 ,2( α

spesso scritto più rapidamente come

β = bn Stb ⋅± − )2 ,2( α

dove

- bS è l’errore standard di b

( )∑ −= 2

2

XXSSi

eb

Per l'intercetta campionaria ( a ), il valore reale o della popolazione (α)

si trova entro l’intervallo

α = an Sta ⋅± − )2 ,2( α

dove

- aS è l'errore standard di a

))(

1( 2

22

∑ −+⋅=

XXX

nSS

iea

con

- 2eS che in entrambi i casi indica la varianza d’errore, stimata con il test F

Page 27: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

37

ESEMPIO. Ricorrendo agli stessi dati su altezza e peso, con i quali sono stati calcolati la retta e la sua

significatività, si è ottenuto

b = 0,796 bS = 0,1794 t(5,0.025) = 2,571 t(5, 0.005) = 4,032 a = -73,357 aS = 30,599

Stimare alla probabilità α = 0.05 e a quella α = 0.01

a) l’intervallo di confidenza del coefficiente angolare β

b) l’intervallo di confidenza dell’intercetta α.

Risposta.

A) L'intervallo di confidenza del coefficiente angolare β alla probabilità del 95% è

0 796 2 571 0 1794 0 796 2 571 0 1794, , , , , ,− ⋅ ≤ ≤ + ⋅β

cioè

0 335 1 257, ,≤ ≤β

- L1 è uguale a 0,335

- L2 e uguale a 1,257.

Si può anche scrivere che il valore della popolazione con probabilità del 95% è compreso tra il limite

di confidenza inferiore L1 = 0,335 e il limite di confidenza superiore L2 = 1,257.

Alla probabilità del 99% è

0 796 4 032 0 1794 0 796 4 032 0 1794, , , , , ,− ⋅ ≤ ≤ + ⋅β

cioè

519,1073,0 ≤≤ β

il valore reale β è compreso tra L1 = 0,073 e L2 = 1,519.

B) L'intervallo di confidenza per l'intercetta α alla probabilità del 95% è

− − ⋅ ≤ ≤ − + ⋅73 357 2 571 30 599 73 357 2 571 30 599, , , , , ,α

− ≤ ≤152 027 5 313, ,α

compreso tra L1 = –152,027 e L2 = 5,313.

Alla probabilità del 99% è

− − ⋅ ≤ ≤ − + ⋅73 357 4 032 30 599 73 357 4 032 30 599, , , , , ,α

− ≤ ≤196 732 50 018, ,α

compreso tra L1 = –196,732 e L2 = 50,018.

Page 28: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

38

Anche in queste applicazioni, come già evidenziato per la media della popolazione (µ) rispetto alla

media campionaria ( X ), l’intervallo di confidenza costruito attorno al valore campionario cresce,

quando si aumenta la probabilità che esso comprenda il valore reale.

Per semplicità didattica e come aiuto alla esecuzione di tutti i calcoli richiesti dalle formule, è stato

utilizzato un numero di dati molto limitato, nettamente inferiore a quello che si usa nella ricerca. Di

conseguenza, i parametri della retta hanno intervalli molto ampi; tale risultato è particolarmente

evidente per l’intercetta a .

15.9. INTERVALLI DI CONFIDENZA DELLA RETTA O INTERVALLI DI PREVISIONE

PER I VALORI MEDI DI kY STIMATI

Nella ricerca applicata all’analisi e alla gestione dell’ambiente, si rilevano utili tre diversi casi di stima

dell’intervallo di confidenza:

- del coefficiente angolare, come nel paragrafo precedente;

- del valore medio di Y stimato ( kY ), corrispondente ad un dato valore k di X; è il caso in cui si

somministra una sostanza tossica ad un gruppo di cavie e si vuole prevedere quale sarà l’effetto

medio sulla loro crescita, supposto che esista la relazione lineare già stimata tra dose e accrescimento;

è chiamato anche intervallo di confidenza della retta, essendo infatti la stima di ogni punto sulla

retta;

- di un singolo valore di Y stimato, sempre corrispondente ad un dato valore di X; è il caso in cui si

voglia predire la risposta di un singolo soggetto, come succede al medico che per un paziente voglia

stimare la risposta individuale possibile alla somministrazione di una dose X di un farmaco.

Il valore medio di kY , collocato sulla retta e corrispondente ad un dato valore kX può essere stimato

attraverso la funzione

kk XbaY ⋅+=ˆ

Ma spesso l’incetta a è fuori dal campo di rappresentazione del grafico, centrato sul baricentro o

incontro dei valori medi X e Y .

E’ quindi possibile utilizzare la formula equivalente

( )XXbYY kk −⋅+=ˆ

ESEMPIO. Calcolare il valore medio kY previsto per kX = 180, con i dati sull’altezza delle 7 ragazze.

Page 29: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

39

Risposta. Con

a = -73,35 b = 0,796 Y = 63,57 X = 172,0

per kX = 180

con la prima formula si ricava

93,6928,14335,7318035,73ˆ =+−=⋅+−= bYk

e con la seconda

( ) 93,6936,657,630,172180796,057,63ˆ =+=−⋅+=kY

L’intervallo di confidenza di questo valore medio di kY o valore atteso di kY corrispondente ad

un singolo valore k di iX come può essere l’intervallo di confidenza del peso medio di giovani

donne alte 180 cm.,

è stimato mediante la formula

( )

−+⋅⋅±

∑=

− n

ii

kenk

XX

XXn

StY

1

2

22

)2 ,2()(1ˆ

α

dove

- kY è il valore previsto o medio di Y per un dato valore k della variabile X,

- 2eS è la varianza d’errore della regressione (16,62),

- n è la dimensione del campione,

- kX è il valore di X del quale si prevede la risposta media kY ,

- ( )∑=

−n

ii XX

1

2è la devianza di X.

Questa formula elenca i fattori che sono utilizzati nella stima e spiega come essi che influiscono

sull'ampiezza dell'intervallo di confidenza della retta

Page 30: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

40

ALTEZZA

PESO

40

50

60

70

80

160 170 180 190

Intervalli di confidenza per valori medi di iY al 5% (linee a punti)

e all'1% (linee tratteggiate)

Per una data probabilità P,

- aumenta al crescere della varianza d'errore,

- diminuisce all'aumentare del numero n di osservazioni, per l'effetto congiunto del valore di

t n−2 2, α e del rapporto 1/n,

- diminuisce al crescere della devianza di X,

- varia in funzione dei valori di X, con valori minimi quando kX è vicino alla sua media e valori

massimi quando kX ha distanza massima dalla media.

E’ importante evidenziare questa ultima caratteristica.

Il valore

( )∑=

−n

ii

k

XX

XX

1

2

2)(

è detto valore di leva (leverage) dell’osservazione k sul valore della retta .

Page 31: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

41

A differenza di quanto succede per l’intervallo del coefficiente angolare, l'intervallo di confidenza

della retta o valore medio atteso kY non è costante, ma varia con una funzione iperbolica in

rapporto alla vicinanza di kX alla sua media. I valori di kY corrispondenti a valori di kX più

distanti dalla media loro media X hanno una influenza maggiore nella determinazione dei parametri

della retta.

Considerando i 7 dati dell'esempio ricorrente sulla relazione tra peso e altezza, è stato calcolato

l’intervallo di confidenza degli Yk stimati per ogni valore X rilevato; è possibile anche il confronto con

il valore Y campionario.

Valori attesi di Yk con il loro intervallo di confidenza

Altezza Peso α = .0 05 α = .0 01

X Y L1kY L2 L1

kY L2

160 52 47 291 54 018 60 495, ,≤ ≤, 43 468 54 018 64 568, ,≤ ≤,178 68 63 582 68 348 73 114, ,≤ ≤, 60 873 68 348 75 823, ,≤ ≤,183 75 65 968 72 328 78 688, ,≤ ≤, 62 353 72 328 82 303, ,≤ ≤,180 71 64 596 69 940 75 284, ,≤ ≤, 61 560 69 940 78 321, ,≤ ≤,166 63 54 029 58 795 63 561, ,≤ ≤, 51 320 58 795 66 270, ,≤ ≤,175 59 61 827 65 960 70 093, ,≤ ≤, 59 478 65 960 72 442, ,≤ ≤,162 57 49 605 55 611 61 617, ,≤ ≤, 46 192 55 611 65 030, ,≤ ≤,

Nella tabella sono riportati

- i valori medi di kY (al centro)

- i relativi intervalli di confidenza (L1, valore medio, L2)

alla probabilità α = 0.05 e α = 0.01, per alcuni valori di kX elencati in ordine casuale:

I valori di L1 e L2 , insieme con la figura, evidenziano

- la minore dispersione del valore medio di Yk stimato ( kY ) quando il valore di Xk è prossimo alla

media delle X,

- la maggiore dispersione delle stime alla probabilità α = 0.01 rispetto a quelle della probabilità α =

0.05.

La stima dell’errore standard di ogni valore medio permette anche il confronto tra un valore medio

calcolato per una specifica quantità kX ed un valore medio ipotizzato o atteso, (ad esempio,

perché trovato su una pubblicazione)

Page 32: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

42

- attraverso il test t con df n-2 ed ipotesi H1 sia bilaterali che unilaterali

( )( )

−+⋅

−=

∑=

n

ii

ke

ipotizzatocalcolaton

XX

XXn

S

YYt

1

2

22

)2(

1

ˆ

Nel calcolo di singoli valori medi, l’errore standard di a ( aS ) è uguale a quello di b. E’ infatti

semplice osservare che per kX = 0 si ottiene kY = a.

( )( )∑

=

−+⋅= n

Ii

kea

XX

XXn

SS

1

2

21

scritto spesso come

( )

−+⋅=

∑=

n

ii

ea

XX

Xn

SS

1

2

22 1

in quanto kX = 0

Tuttavia l’intervallo di confidenza di α è quasi sempre molto grande: la sua distanza dal valore medio

è massima, quindi ( XX k − )2 oppure 2X sono valori molto grandi.

Ponendo l’attenzione sul valore medio di Yk stimato ( kY ) per una specifica quantità Xk, in varie

occasioni il ricercatore può essere interessato a conoscere la medie di m osservazioni.

L’errore standard per quel valore di Yk stimato ( kY ) cioè SYk diventa

( )

−++⋅=

∑=

n

ii

eYk

XX

Xnm

SS

1

2

22 11

dove

Page 33: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

43

- m è il numero di osservazioni di cui si cerca la risposta media kY per lo specifico valore XK

15.10. INTERVALLI DI CONFIDENZA O INTERVALLI DI PREVISIONE PER SINGOLI

VALORI DI kY STIMATI

Un'altra esigenza frequente nella ricerca è la previsione dell'intervallo di previsione (detto anche

intervallo di confidenza, seppure in modo meno corretto) per una singola risposta di Yk; in altri

termini, quale è la dispersione dei singoli valori di Y, per un dato valore Xk.

Anche in questo caso, il valore medio collocato sulla retta può essere stimato con

kk XbaY ⋅+=ˆ

oppure con la formula equivalente

( )XXbYY kk −⋅+=ˆ

come illustrato nel paragrafo precedente

L'intervallo di previsione di un singolo valore Y per un valore Xk può essere stimato a partire dal

valore sulla retta kY

mediante

Yk = ( )

−++⋅⋅±

∑=

− n

ii

kenk

XX

XXn

StY

1

2

22

)2 ,2()(11ˆ

α

con la consueta simbologia,

usata anche per i valori medi di Yk nel paragrafo precedente.

La figura successiva è costruita con i dati della tabella, per gli stessi valori Xk già utilizzati per il

calcolo dell’intervallo di confidenza dei valori medi kY riportati nel paragrafo precedente.

Page 34: POLITECNICO DI TORINO - corsiadistanza.polito.itcorsiadistanza.polito.it/corsi/pdf/01GWGDK/regressione.pdf · Come la devianza, anche la codevianza ha una formula empirica od abbreviata

44

ALTEZZA

PESO

30

40

50

60

70

80

90

160 165 170 175 180 185

Intervalli di confidenza per singoli valori di iY al 5% (linee a punti)

e all'1% (linee tratteggiate)

Valori attesi di Yk con il loro intervallo di confidenza

Altezza Peso α = .0 05 α = .0 01

X Y L1kY L2 L1

kY L2

160 52 41 702 54 018 66 334, ,≤ ≤, 34 703 54 018 73 332, ,≤ ≤,178 68 56 984 68 348 79 712, ,≤ ≤, 50 526 68 348 86 170, ,≤ ≤,183 75 60 208 72 328 84 447, ,≤ ≤, 53 321 72 328 91 335, ,≤ ≤,180 71 58 322 69 940 81 558, ,≤ ≤, 51 719 69 940 88 161, ,≤ ≤,166 63 47 431 58 795 70 159, ,≤ ≤, 40 973 58 795 73 617, ,≤ ≤,175 59 54 846 65 960 77 074, ,≤ ≤, 48 531 65 960 83 389, ,≤ ≤,162 57 43 674 55 611 67 548, ,≤ ≤, 36 890 55 611 74 332, ,≤ ≤,

Anche in questo caso è presente il valore

( )∑=

−n

ii

k

XX

XX

1

2

2)(