CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277...

58
B. Chiandotto Versione 2017 INFERENZA STATISTICA Cap. 5 Modello statistico lineare 275 CAP. 5 MODELLO STATISTICO LINEARE Introduzione Si supponga che la manifestazione di uno specifico fenomeno, ad esempio la domanda di un certo bene di consumo da parte delle famiglie, sia indicata con y e che sia possibile osservare n manifestazioni del fenomeno stesso n i 2 1 y ,...., y ,...., y , y . Si ipotizzi, inoltre, che altri fattori, ad esempio reddito disponibile, prezzo del bene, prezzo di beni sostitutivi, ecc., influiscano sulle determinazioni i y . Se con m j 2 1 x ,...., x ,...., x , x si indicano tali fattori, è ipotizzabile tra la variabile y e le variabili x j una relazione del tipo m j 2 1 x ,...., x ,...., x , x f y che, per ciascuna unità statistica di osservazione (ad es. la famiglia), diventa mi ji 2i 1i i x ,...., x ...., x , x f y per i = 1,2……,n. Si supponga ora che le m variabili x j possano essere distinte in tre gruppi: le prime k variabili k 2 1 x ,...., x , x rappresentano fenomeni osservabili e sono molto influenti sul fenomeno y , le successive h variabili 1 2 ( , , ...., ) k k k h x x x , sempre molto influenti su y, non sono osservabili, mentre le residue variabili m 2 h k 1 h k x ,...., x , x sono poco influenti su y. Per quanto sopra detto e introducendo l’ipotesi di additività degli effetti, si può riscrivere la relazione precedente nel modo seguente v x ,...., x , x , x ,...., x , x f y h k 2 k 1 k k 2 1 dove v riassume in un’unica variabile l’effetto combinato dei fattori poco influenti. Essendo, comunque, non osservabili le variabili ) x ,...., x , x ( h k k k 2 1 si è costretti ad introdurre un’ulteriore approssimazione e, sempre nell’ipotesi di additività degli effetti, la relazione iniziale diventa v w x ,...., x , x f y k 2 1 dove la variabile w rappresenta l’effetto di fattori influenti ma non osservabili. Ovviamente, l’approssimazione ora introdotta potrebbe risultare non del tutto accettabile e compromettere, quindi, la capacità rappresentativa del modello. Se si introduce un’ulteriore approssimazione: la linearità (dove la linearità va intesa nel senso sotto precisato) degli effetti dei fattori influenti ed osservabili si ha v w z x .... x y k k 1 1 0 dove z rappresenta l’effetto non lineare su y delle variabili k 2 1 x ,...., x , x .

Transcript of CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277...

Page 1: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 – Modello statistico lineare

275

CAP. 5 – MODELLO STATISTICO LINEARE

Introduzione

Si supponga che la manifestazione di uno specifico fenomeno, ad esempio la domanda

di un certo bene di consumo da parte delle famiglie, sia indicata con y e che sia

possibile osservare n manifestazioni del fenomeno stesso ni21 y,....,y,....,y,y . Si

ipotizzi, inoltre, che altri fattori, ad esempio reddito disponibile, prezzo del bene, prezzo

di beni sostitutivi, ecc., influiscano sulle determinazioni iy . Se con mj21 x,....,x,....,x,x

si indicano tali fattori, è ipotizzabile tra la variabile y e le variabili xj una relazione

del tipo

mj21 x,....,x,....,x,xfy

che, per ciascuna unità statistica di osservazione (ad es. la famiglia), diventa

miji2i1ii x,....,x....,x,xfy per i = 1,2……,n.

Si supponga ora che le m variabili xj possano essere distinte in tre gruppi: le prime

k variabili k21 x,....,x,x rappresentano fenomeni osservabili e sono molto influenti sul

fenomeno y , le successive h variabili 1 2( , ,...., )k k k hx x x , sempre molto influenti su

y, non sono osservabili, mentre le residue variabili m2hk1hk x,....,x,x sono poco

influenti su y.

Per quanto sopra detto e introducendo l’ipotesi di additività degli effetti, si può

riscrivere la relazione precedente nel modo seguente

vx,....,x,x,x,....,x,xfy hk2k1kk21

dove v riassume in un’unica variabile l’effetto combinato dei fattori poco influenti.

Essendo, comunque, non osservabili le variabili )x,....,x,x( hkkk 21 si è costretti ad

introdurre un’ulteriore approssimazione e, sempre nell’ipotesi di additività degli effetti,

la relazione iniziale diventa

vwx,....,x,xfy k21

dove la variabile w rappresenta l’effetto di fattori influenti ma non osservabili.

Ovviamente, l’approssimazione ora introdotta potrebbe risultare non del tutto

accettabile e compromettere, quindi, la capacità rappresentativa del modello.

Se si introduce un’ulteriore approssimazione: la linearità (dove la linearità va intesa

nel senso sotto precisato) degli effetti dei fattori influenti ed osservabili si ha

vwzx....xy kk110

dove z rappresenta l’effetto non lineare su y delle variabili k21 x,....,x,x .

Page 2: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

276

La relazione (modello analitico rappresentativo del legame tra il carattere y,

variabile dipendente o variabile endogena, ed i fattori k21 x, . . . . ,x,x , variabili

indipendenti o variabili esplicative o variabili esogene) può essere riscritta nella forma

ux....xy kk110

dove vwzu rappresenta la cosiddetta componente accidentale e

kk xxy ....110

* rappresenta la componente sistematica del modello.

Si sottolinea che la linearità è riferita ai coefficienti k10 ,....,, e non alle

variabili k21 x,....,x,x , cioè, la generica variabile ix può rappresentare, sia la

manifestazione osservata x di un fenomeno che si ritiene influente su y , sia qualunque

trasformazione nota di tale manifestazione ad esempio x2, x

3, 1/x, log x, o anche

l’effetto combinato di più variabili (interazione) 1 2 3 5 1 2, , kx x x x x x x , ecc, .

Il modello statistico lineare sopra definito assume diverse caratterizzazioni in

relazione alla natura delle variabili inserite nel modello stesso. Se tutte le variabili, sia la

variabile dipendente y che le variabili esplicative xi (i = 1, 2, …., k), sono

quantitative, espresse cioè con scala di intervallo o di rapporto, il modello viene detto di

regressione lineare. Nel caso in cui la variabile dipendente ha natura quantitativa

mentre le variabili esplicative hanno natura qualitativa, sono cioè variabili categoriche

(mutabili statistiche), si parla di modello di analisi della varianza (ANOVA quale

acronimo di ANalysis Of VAriance). Quando alcune variabili esplicative hanno natura

qualitativa ed altre natura quantitativa e la variabile dipendente è quantitativa, il

modello viene detto di analisi della covarianza (ANCOVA quale acronimo di ANalysis

of COVAriance). Nel caso in cui, è la variabile dipendente ad avere natura qualitativa

mentre le variabili indipendenti sono quantitative si parla di modelli Logit, Probit e

Tobit in relazione alla trasformazione cui viene assoggettata la variabile dipendente yi

che per la sua natura politomica viene usualmente espressa dal simbolo ij che indica la

probabilità che ha l’i-esima osservazione (i = 1, …, n) di ricadere nella j-esima

categoria (j = 1, …, m) della variabile risposta, cioè, ( )ij iP Y j per (j = 1, …, m)1.

Dei modelli richiamati, in questa sede si procederà alla descrizione sufficientemente

dettagliata del solo modello di regressione lineare (semplice e multipla) e del modello

di analisi della varianza (sia nella formulazione classica, collegato al piano o disegno

degli esperimenti, sia nella sua espressione in termini di modello di regressione)

segnalando, però, che se nel modello di regressione multipla si ipotizza per la

1 Nelle situazioni di ricerca nelle quali i dati raccolti sono riferiti a variabili categoriche, e che usualmente vengono

rappresentati in tabelle di contingenza (tabelle che riportano le frequenze delle osservazioni che ricadono nelle varie

combinazioni delle categorie relative alle diverse variabili), se una delle variabili viene trattata come variabile

dipendente (variabile risposta), il riferimento sono sempre i modelli logit, probit o tobit, se invece tutte le variabili

vengono trattate alla stessa stregua (in modo simmetrico) i modelli di riferimento vengono detti Log-lineari. Di

particolare interesse, soprattutto per le loro implicazioni operative, sono i modelli proposti in letteratura per trattare i

dati categorici di tipo ordinale. Il testo classico di riferimento è McCullagh e Nelder (1972, 1989 2nd ed.), per una

buona introduzione all’argomento si può utilmente consultare Dobson (2001).

Page 3: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

277

componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli

elencati possono essere trattati in maniera unitaria rappresentando particolari

specificazioni di un’unica categoria che è quella dei modelli statistici lineari

generalizzati (Nelder e Wedderburn, 1972).

5.1 - Modello di regressione lineare semplice

Se si dispone di n osservazioni per ciascuna osservazione varrà la relazione:

ikikiiii

*

ii uxβxβxββuyy 22110 per n1,2,....,i

Per k = 1 , e ponendo xx1 , si ottiene l’espressione del modello di regressione

lineare semplice (una sola variabile esplicativa)

uyuxββy * 10

dove 0 1

*y β β x , che per le n osservazioni disponibili, diventa

iii

*

ii uxββuyy 10 per i 1,2,...., .n

Si ricorda che ix può rappresentare, sia la manifestazione diretta (osservazione) del

fenomeno rappresentato con il simbolo algebrico x, sia una qualunque trasformazione

nota di tale manifestazione o combinazione nota delle variabili esplicative.

Se si dispone di n coppie di osservazioni ii x,y sulle due variabili di interesse e si

procede alla loro rappresentazione nel piano cartesiano, Fig. 5.1 e Fig. 5.2, che

evidenziano, rispettivamente, il caso di una sola osservazione iy (i = 1,2,….,n) in

corrispondenza di ciascuna modalità ix (cfr. Fig. 1), e il caso di più osservazioni ijy

( in1,2,....,js;1,2,.....,i ) in corrispondenza di ciascuna modalità ix (cfr. Fig. 5.2).

y

x

Fig, 5.1 – Distribuzione ipotetica di coppie di osservazioni (una sola osservazione y in

corrispondenza di ciascuna modalità osservata della x ).

y

. .

.

. .

.

. . .

.

. .

. .

.

. .

. . .

.

. .

...

. .

.. .. . .

.

Page 4: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

278

. .

. . . . * .

. . * . * . .

. . . . .

. . . .

. * * * . . . . . . ………. ……………….. x

x3 xi xs-1 xs x2 x1

y

x

Spezzata di regressione

Costruita sulle medie delle distribuzioni

condizionate

Fig. 5.2 - Distribuzione ipotetica di coppie di osservazioni (più osservazioni di y in

corrispondenza di ciascuna modalità osservata della x ).

In entrambe le situazioni prospettate è ipotizzabile una relazione di tipo lineare tra le

due variabili; infatti, si può osservare come le due rette sovrapposte alle nuvole di punti

(cfr. Figg: 5.3 e 5.4) rappresentino in modo abbastanza soddisfacente l’andamento dei

punti stessi.

i10

*

i xy per i = 1,2,…..,n.

Fig, 5.3 – Distribuzione ipotetica di coppie di osservazioni e retta interpolante (una sola

osservazione y in corrispondenza di ciascuna modalità osservata della x ).

y

x

. .

.

.

.

. . .

.

. .

. . .

. . .

x

y

Page 5: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

279

. .

. . . . * .

. . * . * . .

. . . . .

. . . .

. * * * . . . . . . ………. ……………….. x

x3 xi xs-1 xs x2 x1

y

x

Spezzata di regressione

Costruita sulle medie delle distribuzioni

condizionate

Retta di regressione

Fig. 5.4 - Distribuzione ipotetica di coppie di osservazioni e retta interpolante (più

osservazioni di y in corrispondenza di ciascuna modalità osservata della x ).

Di rette sovrapponibili ai punti ne esistono un numero infinito, si tratta, allora, di

individuare quella ritenuta migliore sulla scorta di un prefissato criterio di ottimalità, Il

problema dal punto di vista statistico è, dunque, quello di procedere alla stima ottimale

dei due parametri incogniti (coefficienti che definiscono la retta) 0β (intercetta) e 1β

(coefficiente di regressione) o, più in generale, utilizzare le n coppie di informazioni

campionarie ii x,y per “fare” inferenza sul modello lineare che si ritiene possa

rappresentare in maniera soddisfacente il legame che sussiste tra le due variabili di

interesse e che in una sorta di popolazione teorica (super-popolazione) dovrebbe,

prescindendo dalla componente accidentale, risultare di tipo deterministico.

Se la relazione fosse perfetta in corrispondenza di ciascun valore ix si dovrebbe

osservare un unico valore iy uguale ad *

iy , in realtà, come già sottolineato, una tale

eventualità si riscontra molto raramente nella pratica operativa: la componente

sistematica del modello spiega soltanto una parte della variabile dipendente; ad

esempio, se si pensa che la domanda di un certo bene dipenda dal reddito disponibile è

abbastanza ovvio ipotizzare che non tutti i soggetti in possesso di uno stesso ammontare

di reddito domandino la stessa quantità del bene, la relazione tra reddito (variabile x) e

quantità del bene domandato (variabile y ) è, pertanto del tipo* i i iy y u e non

*

ii yy .

Nel modello introdotto le quantità note sono dunque iy ed ix mentre le quantità

non note sono 0β , 1β e, quindi,

*

iy e iu . Si tratterà allora di utilizzare le

informazioni campionarie disponibili per procedere ad una stima (puntuale o di

Page 6: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

280

intervallo) delle entità incognite e, eventualmente, alla verifica di ipotesi statistiche sulle

entità stesse. Le stime 0 e 1 di

0β e 1β consentono di ottenere i valori stimati sia di

*

iy ( *

0 1 iiy x ) che di iu (

*

i i iu y y ).

5.1.1 Ipotesi di specificazione (caso A)

Sul modello di regressione lineare semplice vengono usualmente introdotte delle ipotesi

che specificano le condizioni di base che si ritiene, quantomeno in via di prima

approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo

particolare il modello stesso che viene detto modello classico di regressione lineare

semplice.

Le ipotesi di specificazione riguardano la variabile (esplicativa o indipendente) ix

e, soprattutto la componente accidentale iu :

1. le ix (i = 1,2,….,n) sono quantità costanti in ripetuti campioni, sono, cioè, o

variabili matematiche o determinazioni di variabili casuali, in quest’ultimo caso

l’analisi viene effettuata condizionatamente ai valori n21 x,....,x,x ;

2. le variabili casuali ui hanno valore atteso (media) nullo

0u E i per i = 1,2,….,n ;

3. le variabili casuali iu hanno varianza costante (omoschedasticità)

iu Var 2 2 iE u per i = 1,2,….,n;

4. le variabili casuali iu sono incorrelate (incorrelazione)

0u,u Eu,u Cov jiji per i j = 1,2,….,n.

Le conseguenze sulle variabili yi (anche esse variabili casuali in quanto

trasformazioni lineari di variabili casuali)2 delle ipotesi introdotte sono:

a. *

iiiii yxββ/x yE yE 10 per i = 1,2,… ,n;

b. 2

iii /xy Vary arV σ per i = 1,2,…,n;

c. 0y,y ovC ji per i j = 1,2,…,n.

Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima

puntuale dei due coefficienti incogniti 0 e 1 .

Se con 0β e con 1β si indicano le due stime ottenute, ne risulta di conseguenza che

la stima di *

iy è, come già sottolineato, data da

i10

*

i xββy per i = 1,2,…,n

2 Si noti che per semplicità di notazione è stato utilizzato il carattere minuscolo iy

per indicare sia le

variabili casuali che le loro determinazioni, dal contesto risulta chiara la natura assunta dal carattere. La

stessa soluzione è stata adottata anche per altri caratteri.

Page 7: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

281

mentre la stima di ui e data da *

iii yyu che viene detto residuo di regressione o

errore di regressione. Inoltre, a ragione dell’ipotesi 0iuE , si ha

iii yxββy ˆˆˆˆ10

* .

5.1.2 Stima dei minimi quadrati

Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati

sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli

statistici lineari, il modello classico di regressione lineare costituisce la specificazione

più semplice di tale classe di modelli.

Se si pone

n

i

ii

n

i

*

ii xββ y y y , β βQ 1

2

10

1

2

10

il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori 0β e 1β che

minimizzano la somma dei quadrati degli scarti sopra definita. Per individuare tale

minimo basterà determinare il punto di stazionarietà (che è sicuramente un punto di

minimo avendo a che fare con una funzione quadratica il cui punto di massimo è

infinito) della funzione 10 β,β Q che si ottiene risolvendo il sistema:

0

0

10

β

, β βQ

0

1

10

β

, β βQ

che diventa

0 2

1 1

10

1

2

10

00

10

n

i

n

i

ii

n

i

ii xββny xββy ββ

, β βQ

02

1

2

1

11

0

1

2

10

11

10

n

i

i

n

i

i

n

i

ii

n

i

ii xβxβxy xββy ββ

, β βQ

cioè

n

i

i

n

i

i xβn βy1

10

1

n

1i

2

i1

n

1i

i0i

n

1i

i xβx βxy

Risolvendo il sistema delle due equazioni nelle due incognite 0 e 1 si ottiene

xβyβ 10

Page 8: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

282

y/x

x

xy

n

i

i

n

i

ii

σ

xDev

y,xCodev

xx

yxx

β

2

1

2

11

ˆ

dove

n

i

iyn

y1

1 e

n

i

ixn

x1

1.

E’ possibile a questo punto riproporre le Figg. 5.3 e 5.4 dove le rette interpolanti non

sono più rette generiche ma quelle (cfr. Figg. 5.5 e 5.6) che derivano dall’applicazione

del metodo dei minimi quadrati (rette dei minimi quadrati).

Nella Fig. 5.6 è stata inserita anche l’ipotesi di normalità dei valori assunti dalla

variabile y in corrispondenza di ciascun valore assunto dalla variabile x ; ma su

quest’ultimo aspetto si avrà modo di tornare successivamente.

Fig, 5.5 – Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (una

sola osservazione y in corrispondenza di ciascuna modalità osservata della x ).

Fig. 5.6 - Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (più

osservazioni di y in corrispondenza di ciascuna modalità osservata della x ).

y

x

. .

.

.

.

. . .

.

. .

. . .

. . .

x

y

iii xyy 10ˆˆˆ*ˆ

y

x x1 x2 xi xk

.

.

. . .

.

.

.

. . . . .

.

.

. . .

.

.

.

. . .

.

. iii xyy 10ˆˆˆ*ˆ

Page 9: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

283

Le varianze degli stimatori sono:

2

n

1i

2

i

22

β0 σ

xx

x

n

1 σ β Var

0

2

n

1i

2

i

2

β1 σ

xx

1 σ β Var

1

*

2

* 2 2

ˆ 2

1

1ˆ ˆ i

i

i ny

j

j

x xVar y

nx x

infatti, valendo le relazioni di uguaglianza:

1

0 121

1

21 1

1

2

1

1ˆ ˆ

1

1dove

n

j jnj

j nj

i

i

n nj

j j jn

j ji

i

j

j n

i

i

x x y

β y β x y xn

x x

x x xy a y

nx x

x x xa

nx x

1

12 21 1

1 1

2

1

ˆ

dove

n

j j n nj j

j j jn n

j ji i

i i

j

j n

i

i

x x yx x

β y b y

x x x x

x xb

x x

Page 10: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

284

21 1

1

2

1

1dove

n n* i

i j j j jn

j jr

r

i

j jn

r

r

x xy x x y c y

nx x

x xc x x

nx x

e ricordando che la varianza di una combinazione lineare di variabili casuali

indipendenti è pari alla combinazione delle varianze delle singole variabili casuali con

coefficienti elevati al quadrato si ha:

a σ y Vara ya arVn

1i

2

i

2n

1i

i

2

i

n

1i

ii

da cui:

σ

x x

x

n σ

x x

x x x

n

σ

xx

xxx

n y a ya Var β Var

n

i

i

n

j

n

jn

i

i

j

n

jn

i

i

jn

j

jj

n

j

jj

2

1

2

22

1 1

1

22

22

2

2

2

1

1

21

2

1

0

11

1varˆ

2

2 2 2

12 21 1 1

1 1

1ˆ varn n n

j

j j j j n nj j j

i i

i i

x xVar β Var b y b y σ σ

x x x x

Page 11: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

285

2

* 2 2

21 1 1

1

2

22 21 1

1 1

1ˆ var

1 1 2

n n ni

i j j j j jnj j j

r

r

n ni i

j jn nj j

r r

r r

x xVar y Var c y c y x x σ

nx x

x x x x x x x x

n nx x x x

2

1

2 21 1

1 1

ma

1 10

n

j

n ni i

j jn nj j

r r

r r

σ

x x x x x x x x

n nx x x x

2

2 22

22 21 12

1 11

2

* 2

2

1

ed anche

quindi

n ni i i

j jn nn

j jr r

rr r

r

i

i n

r

r

x x x x x x x x x x

x x x xx x

x xVar y σ

nx x

Seguendo la stessa procedura, risulta facile anche la derivazione della covarianza tra

le due variabili casuali stima 0β e 1β

2 2

0 12 2 21

1 1 1

1ˆ ˆn

j j

n n n

ji i i

i i i

x x x x x xCov β , β σ σ

nx x x x x x

Per quanto sopra detto si ottiene

xxβyxβxβyxββy i1i11i10

*

i

Se si procede al calcolo della varianza dello stimatore *ˆiy basandosi su questa

espressione si ha:

Page 12: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

286

2

1

2

2

2

1

2

2

1

2

22

1

2

2

101

2

010

2

ˆ

1

211

ˆˆ2ˆˆˆˆˆ

σ

xx

xx

n

σ

xx

x x σ

xx

x σ

x x

x

n

β,βCov xβVar xβVar xββVar σyVar

n

j

j

i

n

i

i

in

i

i

in

i

i

iiiy

*

i *i

che coincide con l’espressione già ottenuta.

Si sottolinea che le stime dei minimi quadrati godono delle proprietà specificate dal

teorema che segue.

Teorema 1 (Gauss-Markov): Le stime dei minimi quadrati di 10 e sono di minima

varianza nell’ambito delle stime lineari e corrette (BLUE dall’inglese Best

Linear Unbiased Estimator).

Dimostrazione

Si procederà alla dimostrazione per 1 , considerazioni analoghe possono essere svolte

nei confronti di 0 .

Lo stimatore 1 è lineare e corretto; infatti:

j

n

j

jj

n

jn

i

i

j

n

i

i

n

j

jj

yby

xx

xx

xx

yxx

β

11

1

2

1

2

1

1ˆ (linearità)

inoltre

11

1

2

1

10

1

1

2

1

1

21

1

21

ˆ

n

i

i

j

n

j

j

j

n

jn

i

i

j

j

n

jn

i

i

j

j

n

jn

i

i

j

xx

xxx

x

xx

xx

yE

xx

xxy

xx

xxEβE

(correttezza)

Page 13: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

287

Si consideri ora un generico stimatore lineare e corretto di 1 , ad esempio

j

n

j

j y

1

1 ˆ

, dove, per il vincolo di correttezza deve risultare

1 0 1 1

1 1 1

ˆ

n n n

j j j j j j

j j j

E E y E y x

cioè

1 1

0 e 1.n n

j j j

j j

x

Tenendo conto di quanto sopra scritto, si dimostra che 11

ˆˆ VarVar .

22 2 2 2

121 1 1

1

22 2

1 1 1

22 2 2 2 2

1 1 1 1

ˆdove

2

2

n n nj

j j j j j j j nj j j

i

i

n n n

j j j j j j

j j j

n n n n

j j j j j j

j j j j

x xVar Var y b b b

x x

b b b b

b b b b

2

22

2 2 21 1 1 1

1 1 1

22

2 2 21 1 1

1 1 1

ˆ 2

ˆ 2

n n n nj j j j

j j 1 n n nj j j j

i i i

i i i

n n nj j j

j j 1 n n nj j j

i i i

i i i

x x x xb Var

x x x x x x

x x 1b Var

x x x x x x

per il vincolo della correttezza

1 1

0 e = n n

j j j

j j

x 1

quindi

2

2

1 1 1

1

ˆ ˆ ˆn

j j

j

Var b Var Var

dove, il segno di uguaglianza vale solo quando jj b .

Page 14: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

288

Come si può osservare le varianze degli stimatori 0β , 1β e *

iy dipendono dalla

varianza 2 (parametro di disturbo), usualmente incognita, della componente

accidentale. Una stima corretta di tale parametro è data da

22

1

2

1

2

2

n

u

n

yy

ˆ

n

i

i

n

i

*

ii

dove, come già sottolineato, *

iii yyu rappresentano i residui di regressione (cfr.

Fig. 5.7), mentre la stima della varianza della componente accidentale viene usualmente

detta varianza residua e misura la parte (stimata) della variabilità della iy (variabile

dipendente) non spiegata dalla variabile esplicativa ix (variabile indipendente).

Da quanto detto risultano le seguenti stime delle varianze degli stimatori

0

1

22 2

ˆ02

1

2 2

ˆ12

1

1ˆˆ ˆ ˆ

1ˆˆ ˆ ˆ

n

i

i

i

i

xVar

nx x

Var β σ σ

x x

2

1

2

2

2

ˆˆ

1ˆˆˆ

* σ

xx

xx

n yar V

n

j

j

i

y

*

ii

ˆ

2u

Fig. 5.7 - Distribuzione ipotetica di coppie di osservazioni, retta dei minimi quadrati e residui

di regressione

y

x x1 x2 xi xn

.

.

.

.

. . .

. .

.

.

. . .

. . . iii xyy 10

ˆˆˆ*ˆ

ˆ1u

iu

ku

Page 15: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

289

5.1.3 Ipotesi di specificazione (caso B: normalità della componente accidentale)

Se alle quattro ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore

ipotesi di normalità della distribuzione della componente accidentale

ui 2 0,N per i = 1,2,...,n

ne deriva, come conseguenza diretta, la normalità della distribuzione delle yi

i. yi 2

i10 σ ,xββ N

inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica

l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti, da cui:

ii. 0

0

2

ˆ0 βN β , σ

iii. 1 1

2

ˆ1 βN β , σ

iv. *

iy 2

y

*

i *i

σ ,y N

v.

2

2

σ

σ2n =

22

1 1

2 2

ˆn n

i i i

i i

u y y

2

2n

Le conseguenze espresse ai punti i., ii., iii. e iv. sono di immediata verifica, infatti:

i) le variabili ii10i uxββ y sono distribuite normalmente in quanto

trasformazioni di variabili casuali normali;

ii) le variabili 0 1

ˆ ˆ, e *ˆiy sono distribuite normalmente in quanto espresse da

combinazioni lineari di variabili casuali normali indipendenti.

Meno immediata è la conseguenza espressa al punto v. I gradi di libertà derivano dal

fatto che rispetto agli n gradi di libertà originari (le n osservazioni campionarie), due

gradi di libertà si perdono nella operazione di stima; infatti, vengono imposti due vincoli

per ottenere le stime di 0 e 1 . Pertanto, mentre le yi costituiscono n variabili

casuali indipendenti , le n variabili casuali *ˆ ˆ i iy y , devono soddisfare i due vincoli

introdotti per ottenere le stime 0 e 1 . Inoltre, nell’universo dei campioni, le due

variabili casuali stima 0 e

1 hanno distribuzione indipendente dalla variabile casuale

2

n

1i

2

i

σ

u

W che ha, come già sottolineato, una distribuzione di tipo

2χ con n – 2

gradi di libertà.

L’ipotesi di normalità già introdotta nella Fig. 5.6, trova una più esplicita

rappresentazione nella Fig. 5.8.

Page 16: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

290

Fig. 5.8 – Ipotesi di distribuzione normale della componente accidentale nel modello di

regressione lineare semplice

5.1.4 Stima di massima verosimiglianza

L’introduzione dell’ipotesi di normalità consente il calcolo della verosimiglianza del

campione e di procedere, pertanto, all’uso del metodo della massima verosimiglianza

per ottenere la stima dei parametri incogniti 0 1, e 2 .

La verosimiglianza del campione è data da

22

0 120 121

2 2 2

0 1 1 2 1 2 0 1 0 1

112 222

21

12

2

n

i ii ii

n n

n y β β x y β β x n / σσ

i

L β , β , σ / y , y ,...., y ; x ,x ,....,x L β , β ,σ / , L β , β , σ

e π eπσ

y x

dove

1 2 1 2 e ' .n ny ,y ,...., y x ,x ,....,x y' x

Le stime di massima verosimiglianza dei parametri incogniti si ottengono facilmente

derivando ed uguagliando a zero le derivate del logaritmo della verosimiglianza.

Risulta facile verificare che le stime di massima verosimiglianza 0 e

1

coincidono con le stime dei minimi quadrati 0 e

1 , mentre la stima di massima

x

1 x

2 xi

f ( u )

x

y

0 1ˆ ˆˆ ˆ* i i iy y x

Page 17: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

291

verosimiglianza della varianza 2 è data da n

u~

n

i

i 1

2

2 ; ovviamente, ii uu~ e

** ˆ~ˆ~iiii yyyy .

Si segnala che per derivare le stime di massima verosimiglianza 0 e

1 si può

anche evitare il ricorso alla derivazione della verosimiglianza (o della log-

verosimiglianza); infatti, al riguardo basta osservare che il massimo della

verosimiglianza rispetto a 10 e ββ si ottiene quando è minima la quantità riportata ad

esponente dell’espressione

2

21

1

n

i 0 1 i

i

y x2

e

, cioè il minimo di

2

1

n

i 0 1 i

i

y x

che è l’espressione di base del metodo dei minimi quadrati.

Relativamente alle stime di massima verosimiglianza ottenute si deve sottolineare

che gli stimatori 0 e

1 pur coincidendo numericamente con gli stimatori 0 e

1 da

questi si diversificano in quanto (Teorema di Rao) sono di minima varianza nell’ambito

degli stimatori corretti (BUE dall’inglese Best Unbiased Estimator), inoltre, la stima 2~ della varianza 2 non è corretta, cioè, 22 ~E .

5.1.5 Stima di intervallo

Per quanto sopra richiamato, si può procedere facilmente alla derivazione delle stime di

intervallo per i parametri incogniti 2

10 e , e per le quantità *

iy e iy . Infatti,

facendo riferimento alla situazione più usuale, che è quella della non conoscenza del

valore assunto dal parametro di disturbo 2 (varianza della componente accidentale),

per prefissato si ottengono gli intervalli sotto riportati

0 0

ˆ ˆ0 / 2 0 0 / 2ˆ ˆˆ ˆ 1-P t t

1 1ˆ ˆ1 / 2 1 1 / 2

ˆ ˆˆ ˆ 1-P t t

2 2

2

2 2

/ 2 1 / 2

ˆ ˆ2 2 1

n nP

Si segnala che l’ultimo intervallo è stato derivato distribuendo simmetricamente il

valore di nelle due code della distribuzione e che l’intervallo per 0 si ottiene

attraverso i passaggi sotto riportati (ragionamento analogo vale per l’intervallo relativo

a 1 ).

Poiché

Page 18: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

292

0β σ,β N 2

β00

si avrà

0βZ =

00

σ

ββ 0,1N

che non è elemento pivotale essendo incognita la varianza 2

β 0σ dove è presente la

varianza della componente accidentale; infatti

2

n

1i

2

i

22

βσ

xx

x

n

0

ma, se si tiene presente che

2

2ˆ2nW

σ

σ 2

2n-χ

e che 0β

Z e W sono variabili casuali indipendenti, si ha

00

0

β

00

β

00

βσ

ββ

2)(n

W/

σ

ββT

2nt

che rappresenta la variabile casuale t di Student con (n-2) gradi di libertà (elemento

pivotale) che consente la derivazione dell’intervallo sopra riportato applicando il

procedimento di derivazione degli intervalli di confidenza illustrato nel Cap. 3.

L’intervallo di stima relativo alle variabili iy assume particolare rilevanza; infatti,

un tale intervallo può interessare sia valori corrispondenti a valori osservati di x, cioè

n21 x,....,x,x , sia valori non osservati di tale variabile. Ad esempio, si potrebbe aver

interesse a determinare un intervallo di stima per *

py e/o per py che corrispondono ad

un valore non osservato px ma assumibile dalla variabile x. Quando si procede alla

stima per intervallo di py , l’intervallo stesso assume la particolare connotazione di

intervallo di previsione e la quantità ppp u xββy ˆ ˆˆ10 viene detto errore di

previsione.

Ipotizzando la non conoscenza della varianza 2σ della componente accidentale,

l’intervallo per un generico valore *

iy , corrispondenti a valori osservati della variabile

esplicativa ix , può essere determinato facendo riferimento alla variabile casuale t di

Student (elemento pivotale)

n

j

j

i

*

i

*

i

y

*

i

*

i

y

xx

xx

yy

ˆ

yyT

*i

*i

1

2

21

Page 19: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

293

ed anche per *

py e py corrispondenti a valori non osservati di x

n

j

j

p

*

p

*

p

y

*

p

*

p

y

xx

xx

yy

σ

yyT

*p

*p

1

2

2ˆ 1

ˆ

ˆ

ˆ

ˆ

Gli intervalli, per un prefissato livello di confidenza 1- e per valori osservati e non

osservati di x, sono:

α-1 σtyyσty P *i

*i y2α/

*

i

*

iy2α/

*

i

cioè

ασσ αα

1

xx

xx

n

1ˆtyy

xx

xx

n

1ˆtyPn

1j

2

j

2

i/2

*

i

*

in

1j

2

j

2

i/2

*

i

e

-α σtyyσty P *p

*p yα/

*

p

*

pyα/

*

p 1ˆˆˆˆˆ2ˆ2

cioè

α

xx

xx

nσtyy

xx

xx

nσtyP

n

j

j

p

α/

*

p

*

pn

j

j

p

α/

*

p

11

ˆˆ1

ˆˆ

1

2

2

2

1

2

2

2

Capita spesso, e ciò avviene soprattutto quando si vogliono effettuare previsioni, di

essere interessati alla determinazione di intervalli di stima non per il valore teorico *y

(cioè il valore che dovrebbe assumere la variabile dipendente in assenza di effetti

accidentali e che è uguale, per le ipotesi di specificazione introdotte, al valore medio

*

0 1 h h h hy E y E x u ma per il valore effettivo 0 1 h h hy x u (valore

osservato od osservabile che include, quindi, anche l’effetto della componente

accidentale).

Per perseguire un tale obiettivo si deve osservare che, come già sottolineato, le stime

puntuali di un generico valore *

hy e hy , corrispondente ad una determinazione hx (h

= i = p o qualunque altro indice), coincidono, cioè xββyy h10h

*

h , le loro

varianze sono però diverse; infatti, se si considera l’errore di previsione hhh yy u

si ha:

0 x ββux ββ E u E h10hh10h

Page 20: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

294

22

0 1 0 1

2

0 0 1 1

2

0 1 0 1

2

2

2

2

1

ˆ ˆˆ ˆ

ˆ ˆ- -

ˆ ˆ ˆ ˆ,

11

h h h h h

h h

h h h

h

n

j

j

Var u E u E x u x

E x u

Var Var x Cov x Var u

x x

nx x

pertanto l’intervallo di stima per hy è dato da

α-1 σtyyσty Phh y2α/hhy2α/h

cioè

α1

xx

xx

n

11σtyy

xx

xx

n

11σty P

n

1j

2

j

2

h2α/hhn

1j

2

j

2

h2α/h

L’intervallo per hy risulta più ampio di quello relativo ad *

hy ; infatti: alla

variabilità dovuta alla stima di 0 e 1 si aggiunge la variabilità indotta dalla

componente accidentale hu ; inoltre, l’ampiezza degli intervalli così determinati

dipendono fortemente dallo scarto xxh e risultano tanto più ampi quanto più il

valore di ferimento della x si allontana dal suo valore medio x . L’evidenziazione

grafica di tale situazione è riportata nella Fig. 5.9.

Page 21: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

295

Fig. 5.9 – Intervalli di confidenza per i valori medi *

hy e per i valori individuali hy .

5.1.6 Test delle ipotesi

Per quanto detto nelle pagine precedenti e nel Cap. 4, è ora possibile risolvere

facilmente qualunque problema di test delle ipotesi riguardo alle entità incognite

presenti nel modello di regressione lineare semplice. Infatti, sotto la condizione di

normalità della distribuzione della componente accidentale, basterà fare riferimento alle

variabili casuali (variabili casuali test) i

"i10

yyββT,T,T,T e W sopra definite.

Se, ad esempio, si volesse risolvere il problema di test delle ipotesi

0β:H

0β:H

11

10

la regione di rifiuto dell’ipotesi nulla (nessun effetto della variabile esplicativa x sulla

variabile dipendente y) risulterebbe definita dai semi-intervalli ( , t/2) e ( t/2 ,

+).

Se il problema di test fosse

0β:H 10

1β:H1 0

cioè, di effetto nullo contro effetto negativo (e questo potrebbe essere un caso di

interesse quando, ad esempio, x rappresenta il prezzo di un certo bene ed y la

domanda del bene stesso: al crescere del prezzo la domanda del bene dovrebbe

diminuire). La regione critica del test (rifiuto dell’ipotesi nulla) è costituita dal semi-

intervallo ( , t ).

h10h xββy

Intervallo di confidenza per yh

Intervallo di confidenza per *

hy

x

y

x

y

Page 22: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

296

Le procedure di test sopra richiamate derivano dall’applicazione del test del rapporto

di verosimiglianza che, come già sottolineato, fornisce (quando esiste, e i casi

considerati rientrano in questa categoria) il test uniformemente più potente, nel caso di

ipotesi alternativa unidirezionale, il test uniformemente più potente nella classe dei test

non distorti, nel caso di ipotesi alternativa bidirezionale.

5.1.7 Trasformazioni di modelli non lineari

È stato precisato che la linearità del modello di regressione semplice è riferita ai

coefficienti e non alla variabile; infatti, ad esempio, il modello 3

10 xββy è

perfettamente equivalente al modello xy 10 sopra considerato. L’equivalenza

è del tutto ovvia, infatti, se si pone 3xz , si ottiene il modello di regressione lineare

semplice zββy 10 .

Le considerazioni svolte valgono quindi per tutti i modelli lineari nei parametri

incogniti che li caratterizzano. E’, tuttavia, possibile in molti casi di interesse applicare

le stesse procedure a modelli non lineari nei parametri, è ciò accade tutte le volte in cui

risulta possibile ricondursi alla situazione di linearità operando opportune

trasformazioni del modello non lineare. Ovviamente, quando si operano delle

trasformazioni sia le ipotesi di specificazioni sia le conclusioni cui si perviene vanno

riferite al modello trasformato e non al modello originario. Alcuni esempi significativi

sono quelli sotto riportati.

i) 1

0 0 1log log loguy x e y x u ,

la trasformata logaritmica fornisce il modello doppio logaritmico

ii) 0 1

0 1logx uy e e y x u

1

0 0 1log logx uy e e y x u

1

0 0 1log logy ue x e y x u

le cui trasformate logaritmiche forniscono i modelli semilogaritmici.

5.2 - Coefficiente di correlazione lineare

Il coefficiente di correlazione lineare yx xy è stato introdotto come indice

relativo di concordanza (rapporto tra l’indice assoluto di concordanza covarianza

xyyx ed il valore massimo che | yx | può assumere e che è dato dal prodotto tra

gli scostamenti quadratici medi xy ), cioè

,yx

y x

Codev y x

Dev y Dev x

Page 23: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

297

Tale coefficiente è anche uguale alla media geometrica dei due coefficienti di

regressione

yx

y/x 2

x

σ ,b

σ

Codev y x

Dev x e

yx

x/y 2

y

σ ,b

σ

Codev y x

Dev y . Infatti, in

riferimento al modello ii10i uxββy la stima dei minimi quadrati (e della

massima verosimiglianza) di 1β è pari a

1 /2

ˆ xy

y x

x

σCodev y,xβ b

Dev x σ , se si ipotizza

un modello lineare del tipo ii10i vyx e si introducono le usuali ipotesi di

specificazione, la stima dei minimi quadrati (e della massima verosimiglianza) di 1 è

pari a

1 /2

,ˆ yx

x y

y

Codev y xb

Dev y

dal che risulta quanto affermato:

1 1 / /

,ˆ ˆ .yx

y x x y

y x

Codev y xb b

Dev y Dev x

Una terza, forse la più interessante, interpretazione del coefficiente di correlazione

lineare di Bravais-Pearson deriva dalle osservazioni che seguono.

Dato il modello

ii10i uxββy per i = 1,2,….,n

che soddisfa alle ipotesi di specificazione introdotte, la devianza totale della variabile

osservata y è data da

22 * *

1 1

2 2* *

1 1

ˆ ˆ ( ) ( )

ˆ ˆ

n n

i i i i

i i

n n

i i i

i i

Dev T Dev y y y y y y y

y y y y Dev r Dev R

dove 2

*

1

ˆ n

i i

i

Dev r y y

viene detta devianza residua e misura la parte della

devianza totale della variabile y che non risulta spiegata dalla supposta relazione con la

variabile x ; Dev R =

n

1i

2*

i yy viene detta devianza di regressione e misura

quanta parte della devianza di y è spiegata dalla relazione lineare con la variabile x .

Il rapporto tra devianza di regressione e devianza totale

2

Dev R Dev rR 1

Dev T Dev T

usualmente detto indice di determinazione, assume valori compresi nell’intervallo (0 ,

1): assume valore 0 quando tutti i valori *

ii yy che si trovano sulla retta di

regressione sono uguali tra loro e, quindi, uguali a y (media della variabile y ), assume

valore 1 quando tutti gli scarti ii yy sono uguali a zero, cioè, quando tutti i punti

osservati si trovano sulla retta di regressione (adattamento totale del modello).

Page 24: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

298

Tenendo presente che

2 22

0 1 1 1

1 1 1

2 222 2

1 4 21

ˆ ˆ ˆ ˆˆ

ˆ

n n n

i i i

i i i

nyx yx

i x

i x x

Dev R y y β β x y y β x β x y

σ σβ x x n σ n

σ σ

si avrà

2 2 2

2 2

2 2 2

yx x yx

y x y

n σ / σ σDev RR ρ

Dev T n σ σ σ

cioè: l’indice di determinazione è uguale al quadrato del coefficiente di correlazione

lineare, il che consente d’interpretare tale quadrato come misura della proporzione della

variabilità totale della variabile y che risulta spiegata dalla supposta relazione lineare

con la variabile x .

Se in corrispondenza di ciascuna modalità xi (i = 1,2,….... ,s) della variabile x , si

disponesse di più osservazioni yij (j = 1,2,….,ni), si potrebbe procedere alla seguente

scomposizione della devianza totale della variabile y

22* *

1 1 1 1

2 2 2* *

1 1 1 1 1 1

2 22* *

1 1 1 1 1 1

ˆ ˆ ( ) ( )

ˆ ˆ

ˆ ˆ

i i

i i i

i i i

n ns s

ij ij i i i i

i j i j

n n ns s s

ij i i i i

i j i j i j

n n ns s s

ij i i i i

i j i j i j

Dev T Dev y y y y y y y y y

y y y y y y

y y y y y y

dove:

in

j

ij

i

i yn

y1

1 e le tre diverse devianze ottenute dalla scomposizione (si ricorda

che i doppi prodotti sono tutti nulli) sono di facile interpretazione: in un caso come

primo elemento di riferimento si considerano i valori che si trovano sulla retta di

regressione (cfr. Fig. 5.10), nel secondo caso il primo elemento di riferimento sono i

valori (medie di gruppo) che si trovano sulla spezzata di regressione.

Page 25: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

299

Fig. 5.10 – Scomposizione della devianza totale della variabile y

Se si vuole sottoporre a test l’ipotesi di un effetto “significativo” della variabile x

sulla variabile y , si può procedere come sopra indicato, cioè formulando l’ipotesi:

0 1

1 1

: 0

: 0

H

H

od anche facendo ricorso ad un test di bontà di adattamento del modello.

Si è già osservato che

2

2

σ

σ2nW

2

2nχ

se si considera ora la variabile

2

*

1

2 2

ˆ

n

i

i

y yDev R

V

che ha legge di distribuzione 2 con un grado di libertà ed è indipendente dalla

variabile W ; che ha legge di distribuzione 2 con (n-2) gradi di libertà, la variabile

(rapporto tra due variabili 2 indipendenti divise per i rispettivi gradi di libertà)

2*

2

1

2 2

ˆˆ2

: / 2/ 2

n

i

i

y ynV

F nW n

ha, sotto l’ipotesi 0β:H 10 (quando l’ipotesi è vera) legge di distribuzione del tipo

F di Fisher-Snedecor con 1 e (n-2) gradi di libertà.

y

x

.

.

x

y

ix10ˆˆ

. yy ji

iiji yyu ˆˆ

yyi ˆ ii yy ˆ

yyi

iy

iy

jiy

Page 26: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

300

Da rilevare che sotto l’ipotesi 0β:H 10 contro l’ipotesi 0β:H 11 vale

l’uguaglianza 21

2

2 n,n FT , il che porta a concludere che nel caso di regressione lineare

semplice la procedura per sottoporre a test l’ipotesi di adattamento del modello e

l’ipotesi (bidirezionale) sul coefficiente angolare della retta di regressione sono del tutto

equivalenti. In proposito vale la pena, infine, segnalare che tale procedura equivale

anche a quella relativa al test diretto sul coefficiente di correlazione ; infatti, sotto

l’ipotesi 0ρ:H0 contro l’ipotesi alternativa 0ρ:H1 , la variabile casuale test di

riferimento è

1

1

1ˆ ˆ1

ˆˆ 2 ˆ : 1 / 2 .ˆ ˆ1

n Dev x Dev RT n T

Dev y Dev T

5.3 - Modello di regressione lineare multipla

Se si dispone di n k-uple 2( , ,....., )i i iky x x di osservazioni e per ciascuna osservazione si

ipotizza la relazione:

iikkiii uxβxβxββy 33221 per n1,2,....,i

dove si è posto 1 1 per 1,2,..., ,ix i n si ottiene l’espressione del modello di

regressione lineare multipla (k-1 variabili esplicative).

Utilizzando la notazione matriciale le n relazioni possono essere rappresentate in

forma compatta *

, ,1 ,1,1,1 ,1

n k n nkn n

y X u y u

dove: *

, ,1,1

n k kn

y X

12 13 1 11

22 23 2 22

,,1 2 3

1

1

.... ................................

.... ................................ ;

1

.... .....

....

j k

j k

n kn i i i ij ik

n

x x x xy

x x x xy

y x x x x

y

y X

1 1

2 2

,1,1

2 3

.... ....

.... .... ; ;

...................................

........................................

1

nk j i

kn n nj nk

u

u

u

ux x x x

u

n

5.3.1 Ipotesi di specificazione (caso A)

Come nel caso del modello di regressione lineare semplice vengono introdotte delle

ipotesi che specificano le condizioni di base che si ritiene, quantomeno in via di prima

Page 27: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

301

approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo

particolare il modello stesso che viene detto modello classico di regressione lineare

multipla.

Le ipotesi di specificazione riguardano le variabile esplicative (indipendenti,

esogene) ijx e, soprattutto, la componente accidentale iu :

1. la matrice delle variabili esplicative n,kX è di rango massimo

,

n kr X k n ed è

costituita da quantità costanti in ripetuti campioni, si tratta, cioè, o di variabili

matematiche o di determinazioni di variabili casuali, in quest’ultimo caso

l’analisi viene effettuata condizionatamente ai valori osservati;

3. il vettore casuale 1,n

u ha valore atteso (media) nullo

n,1 n,1

E u 0

4. la matrice di dispersione (matrice di varianze e covarianze) del vettore casuale 1,n

u

' 2

,1 ,1 1,,

u nn n nn n

Var E u Σ u u I

dove In rappresenta la matrice identità, questa ipotesi specifica che le variabili casuali

iu sono incorrelate ed omoschedastiche

Le conseguenze sul vettore casuale n,1u delle ipotesi introdotte sono (da ora in poi si

omette per semplicità la dimensione delle matrici):

a. */ E y E y X X β y

b. 2 / yVar y Var y X I .

Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima

puntuale del vettore dei coefficienti di regressione incogniti .

5.3.2 Stima dei minimi quadrati

Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati

sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli

statistici lineari, il modello classico di regressione lineare costituisce la specificazione

più semplice di tale classe di modelli.

Se si pone

* 2

1

n

i i

i

Q y y

-β y - Xβ ' y - Xβ = y'y - β'X'y - y'Xβ + β'X'Xβ =

= y'y - 2y'Xβ + β'X'Xβ

il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori del vettore dei

k parametri β che minimizza la somma dei quadrati degli scarti (forma quadratica)

sopra definita. Per individuare tale minimo basterà determinare il punto di stazionarietà

(che è sicuramente un punto di minimo avendo a che fare con una funzione quadratica il

Page 28: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

302

cui punto di massimo è infinito) della funzione Q β che si ottiene risolvendo il

sistema:

2

2 2

ˆ

Q

- +

=-1

β y'y β'X'y β'X'Xβ0

β β

X'y X'Xβ 0

X'Xβ X'y β X'X X'y

Dalle stime dei minimi quadrati β si derivano le stime di y e *y

ˆ ˆ-1*

y = y = X X'X X'y = P y

dove

-1

P = X X'X X'

e i residui di regressione sono definiti dalla relazione

ˆˆ ˆ

-1

-1

u = y - y = y - Xβ = y - X X'X X'y =

= I - X X'X X' y = M y = M u

dove

-1M = I - X X'X X' .

Le matrici idempotenti e simmetriche P ed M sopra definite vengono dette matrici

fondamentali dei minimi quadrati.

Si verificano facilmente le relazioni

'2 2

P = P ; M = M ; P X = X ; M X = 0 ; P y M y = 0 ; P + M = I

quindi

ˆ ˆy = Xβ + u = P y + M y

mentre la somma dei quadrati dei residui è data da

ˆ ˆ ˆ ˆ' ' '

y - y y - y = u u = y M y

Se con ' 1, 1, ........,1ni si indica il vettore unitario, la media delle n osservazioni

relative alla variabile y è definita da

1

n '

y i y

mentre il vettore degli scarti è dato da ys = y - y e la somma dei quadrati degli scarti da

2 22

1 1

22

1 1 1

ˆ ˆ ˆ

ˆ ˆ ˆ ˆ( ) - 2 (

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ2

i i i i

i i i i i i

s y - y y - y + y - y

y - y y - y y - y ) y - y

2

=

-

n n2 ''

y y y y

i i

n n n

i i i

2'' ' ' '

y y y

s = s s = y - i y y - i y

u u + y - i y y - i y y i u = u u + s s = u + s

Page 29: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

303

dove ˆ'i u = 0 , in quanto nella matrice X è presente il termine costante, e ˆˆ

ys = y - y .

Le formule sopra riportate ripropongono, relativamente al modello di regressione

lineare multipla, quanto già visto trattando della regressione semplice in merito alla

scissione della devianza totale della variabile y, infatti:

2 2 2

1 1

2 2

ˆ ˆ ˆ

1 1

ˆ ˆ

ˆ ˆ ˆˆ ˆ

i i i i

i i i

Dev (T)= Dev (y) y - y y - y + y - y

y - y y - y Dev Dev

n n

y

i i

n n 22' '

y y y

i i

s

u u + s s = u + s r R

dove, come già sottolineato, 2

1

ˆ n

i i

i

Dev r y y

è la devianza residua che misura

la parte della devianza totale della variabile y che non risulta spiegata dalla supposta

relazione con le variabili kxxx , . . . . . . , , 32 mentre Dev R =

n

i

i yy1

2ˆ è la devianza di

regressione che misura quanta parte della devianza di y è spiegata dalla relazione,

lineare nei parametri k ......, , , 21 , con le variabili kxxx ,......, , 32 .

Il coefficiente di determinazione, che misura la percentuale di devianza totale della

variabile y spiegata dalla regressione, è definito da

22

ˆ2 1

22

1

ˆˆ

1 1

uDev R Dev r

= 1-Dev T Dev T

s

n2

iy

i

n 2

y yi

i

suR

s s

ovviamente, 10 2 R .

Teorema di Gauss-Markov – Gli stimatori dei minimi quadrati dei coefficienti di

regressione

ˆ-1

' 'β = X X X y

sono i migliori stimatori nell’ambito degli stimatori lineari e corretti, sono, cioè,

BLU(E).

La linearità è del tutto evidente, la dimostrazione della correttezza è immediata,

infatti, ricordando che e E-1

' 'X X X X = I, I β = β u = 0 , si ha

ˆE E E E

-1 -1 -1 -1' ' ' ' ' ' ' '

β = X X X y = X X X X β + u = X X X X β + X X X u = β

Per dimostrare l’efficienza per un vettore di stimatori si deve procedere alla

definizione della matrice dell’errore quadratico medio.

Per ˆ-1

' 'β = X X X y si ha

Page 30: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

304

ˆˆ ˆ ˆ ˆEQM Var E

E

E

E

σ

'

β

'' -1 ' ' -1 '

'' -1 ' ' -1 '

' -1 ' ' ' -1 ' -1 ' ' ' -1

' -1 ' 2 ' -1 2 ' -1

β = β = = β - β β - β =

= (X X) X y - β (X X) X y - β =

= (X X) X Xβ + u - β (X X) X Xβ + u - β =

= (X X) X uu X(X X) = (X X) X E uu X(X X) =

= (X X) X σ I X(X X) = (X X)

.

Un vettore di stimatori β si dice efficiente almeno quanto un diverso stimatore ˆβ se

la matrice

ˆ ˆEQM EQM

A β β

è semidefinita positiva (si ricorda che una matrice A si dice semidefinita positiva se

0x'Ax per tutti gli x in Rn).

Si consideri ora un qualunque altro stimatore lineare e corretto di β

ˆ '

β = C y

dove è una matrice di coefficienti che, a ragione del vincolo di correttezza, deve

ˆsoddisfare la relazione cioè .

(n,k)

E E E

C

' ' 'β = C y = C X β + u = β C X = I

Tenendo presente che

ˆ ˆˆ ˆ ˆ ˆ ˆ ˆ

-1 -1' ' ' ' ' '

β = β + β - β = β + C y - X X X y = β + C - X X X y

si ha

ˆ

'

ˆ ˆ ˆ ˆˆ ˆ ˆ ˆ EQM Var σ E

σ σ

'

2 '

β

-1 -12 ' -1 2 ' ' ' ' ' '

β = β = C C = β - β β - β =

= (X X) + C - X X X C - X X X

cioè

'ˆ ˆEQM EQM σ

-1 -12 ' ' ' ' ' 'β = + C - X X X C - X X X

dove la matrice

'-1 -1

' ' ' ' ' '

-1 -1 -1 -1' ' ' ' ' ' ' '

-1' '

C - X X X C - X X X =

= C C - C X X X - X X X C + X X X X X X =

= C C - X X

Page 31: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

305

è semidefinita positiva, pertanto anche

ˆ ˆEQM - EQM σ

-12 ' '

A β = C C - X X

è una matrice semidefita positiva.

In particolare, per ogni coefficiente di regressione l’errore quadratico medio (che

coincide con la varianza) di un qualunque stimatore lineare e corretto ˆβ di β è

sempre maggiore o uguale all’errore quadratico medio dello stimatore dei minimi

quadrati β ; infatti: ˆ ˆˆ iii

dove 0i per i =1, 2, …..,k, e l’uguaglianza si

realizza solo quando -1

' ' 'C = X X X .

Oltre ai coefficienti di regressione i è usualmente incognita anche la varianza

della componente accidentale 2 . Per derivare uno stimatore corretto della varianza si

osservi che3

ˆ ˆ

e

E E tr E tr σ σ n - k

tr tr tr tr n - k

' ' ' 2 2

-1 -1

u u = u Mu = Muu = M I =

M = M = I - X X'X X' = I - X X'X X' =

pertanto, una stima corretta di 2 è data da

2ˆ ˆ ˆn

2 2 2

i

i=1

1u E σ = σ

n - k n - k

'u u

dove (n-k) rappresentano i gradi di libertà associati alla somma dei residui ˆn

2

i

i=1

u che

derivano dalle n osservazioni originarie iy (che per ipotesi sono incorrelate) e dai k

vincoli cui devono soddisfare che risultano dalle k equazioni normali che consentono

di ottenere le stime dei coefficienti di regressione.

3 Si ricorda che la traccia di una matrice quadrata di ordine n è definita da n

ii

i=1

tr a A = ; inoltre valgono le

seguenti relazioni:

la traccia di uno scalare è lo scalare stesso;

;tr tr tr A B A B

tr tr trA× B×C C × A× B = .....= C × B× A per prodotti conformabili.

Page 32: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

306

Sostituendo a 2 la sua stima 2 nell’espressione 2

' -1

(X X) , si ottiene la

stima della matrice di varianze e covarianze (matrice di dispersione) del vettore degli

stimatori β

2

ˆˆ ˆ

' -1(X X)Σ .

5.3.3 Ipotesi di specificazione (caso B: normalità della componente accidentale)

Se alle tre ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore

ipotesi di normalità del vettore casuale

2 ,N u 0 I

ne deriva, come conseguenza diretta, la normalità della distribuzione del vettore y

2 ,N y Xβ I

inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica

l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti.

5.3.4 Stima di massima verosimiglianza

La funzione di verosimiglianza del vettore casuale y è espressa dalla relazione

/2 22 2

21 1

/22

2

1, 2 exp

2

12 exp

2

n nn

i i i

i i

n

L f y y

'

x

y - Xβ y - Xβ

'

il cui logaritmo è:

2 2

2

1 , - - .

n nlog L log 2 log y X y X

2 2 2

'

Le stime di massima verosimiglianza del vettore β e di 2

sono date da:

2 2

1

ˆ ˆ 1ˆ e u

n n n

' '

n-1

' '

i

i

u u u uβ = X X X y .

Come si può rilevare, le stime di massima verisimiglianza dei coefficienti di

regressione coincidono con le stime dei minimi quadrati, mentre la stima della varianza

è diversa e non è corretta.

Si dimostra (teorema di Rao) che gli stimatori di massima verosimiglianza β sono

BU(E), sono, cioè, i migliori stimatori (i più efficienti) nell’ambito degli stimatori

corretti.

Da quanto sopra riportato derivano le seguenti proprietà:

Page 33: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

307

ˆ ,N

β β β

*

* *

ˆˆ ( )y y N

yXβ,

ˆˆ ( )N

yy y Xβ,

22

2 2 2 2

ˆ ˆ ˆn - kn

' 'u u u u

= 2

1

2

n

i

iu

2

n k

dove ˆσ *

-12 '

y= X X , ˆ

σ

-12 '

y= I + X X ; inoltre, β

e

2

2 2

ˆ ˆ ˆn - k

'u u

sono

incorrelate, infatti:

2 2

ˆˆ

.

E E

-1 -1' ' ' '

-1 -1' '

u β - β I - X X X X uu X X X

X X X X X X 0

e quindi, a ragione dell’ipotesi di normalità, indipendenti.

5.3.5 Stima di intervallo e test delle ipotesi

È ora possibile procedere alla stima di intervallo e alla verifica di ipotesi statistiche sia

riguardo ai coefficienti di regressione che alla varianza della componente accidentale;

inoltre, si può procedere alla stima per intervallo delle variabili y* e y.

Se si pone e -1 -1

' 'V = X X W = I - X X , risulta facile verificare le relazioni

che seguono

2 , j j jjN v

* * 2 ,j j jjy N y v

* 2 ,j j jjy N y w

dove e rappresentano i valori che occupano la - posizione, rispettivamente,

nelle matrici e , che ripropone la stessa situazione già

jj jjv w j esima

-1 -1' '

V = X X W = I - X X

esaminata quando si è trattato del modello di regressione lineare semplice, l’unica

differenza riguarda la variabile casuale 2

n-kχ che risulta ora caratterizzata da (n – k) gradi

di libertà, essendo k

i parametri 1 2 , ,....., k

stimati rispetto ai 2 parametri

0 1, considerati in precedenza.

In particolare si ha:

Page 34: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

308

2

0,1j j

jj

Nv

2

2

2 2

/ˆ/

ˆ /

j j jj

j j jj n k

vs v t

s

Una conveniente generalizzazione di quanto sopra richiamato è rappresentata dalla

possibilità di sottoporre a verifica statistica ipotesi su specifiche combinazioni linerari

dei coefficienti di regressione:

0 :H R β = r

dove R è una matrice di dimensione (q,k) di rango q ≤ k , r un vettore di dimensione q,

con R e r noti.

Da quanto sopra riportato deriva che

ˆ N σ-1

2 ' 'R β R β, R X X R

e, sotto l’ipotesi nulla 0 :H R β = r , si ha

2

2

1 ˆ ˆq

χ-1' -1

' 'R β - r R X X R R β - r

pertanto, per risolvere il problema di test d’ipotesi

0 :H R β = r

1 :H R β r

basta far riferimento alla variabile casuale test (usualmente detta statistica di Wald)

1

2

2 2

,2

1 ˆ ˆ /

ˆ / /

ˆ ˆ

ˆq n k

q

Fn k s n k

Fs q

' -1' '

-1' -1' '

R β - r R X X R R β - r

R β - r R X X R R β - r

che, come indicato, si distribuisce come una v.c. F di Fisher-Snedecor con q e (n – k)

gradi di libertà.

Page 35: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

309

Se nell’ultima espressione si pone q = 1, r = 0 e R è un vettore di dimensione (1,k)

con valore pari ad 1 nel j-esimo elemento e 0 per tutti gli altri elementi, ricordando che

2

1,n k n kF t

si ottengono gli stessi risultati già considerati relativamente ai singoli coefficienti di

regressione.

Un’ipotesi statistica di particolare interesse è

0 2 3: 0kH

contro l’ipotesi alternativa che almeno un coefficiente sia diverso da 0. Questa ipotesi si

specifica ponendo q = k – 1 e:

1 1 11

0 1 0 0 0 0

0 0 1 0 0 0

................. = ; ...

................. ...

0 0 0 0 1 0

k k kk ,kR 0 I r

Il test così specificato diventa

1,2

ˆ ˆ

ˆk n kF F

s q

-1' -1' '

R β - r R X X R R β - r

inoltre:

22 2

ˆ

1,2 22

/ 1 / 1

/ 1 1ˆ /

y

k n k

k Dev R k R n kF F

Dev r n k R kn k

s

u

L’ultima relazione scritta sta ad indicare sia il fatto che l’ipotesi

0 2 3: 0kH

può essere espressa sia in termini di analisi della varianza (cfr. Tab. 5.1), sia la relazione

tra il valore numerico assunto dall’indice di determinazione 2R e la significatività del

test: tanto più prossimo ad 1 è il valore assunto da 2R tanto più significativa risulterà

la v.c. test.

Page 36: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

310

Fonte di

variabilità

Somma dei quadrati

(Devianze)

Gradi

di

libertà

Devianze

medie F

Regressione 2 2

ˆ ˆˆ

1

ˆn

y i

i

y y

'

y ys s s

k-1 2

ˆ / 1y k s

2

ˆ

2

/ 1

ˆ /

y kF

n k

s

u Residua

2 2

ˆ ˆ

1

ˆ ˆn

i i

i

y y

'

y yu u u

n-k 2

ˆ / n ku

Totale 2 2

1

n

y i

i

y y

'

y ys s s n-1

Tab. 5.1 – Analisi della varianza per il modello di regressione

Relativamente all’indice di determinazione 2R si deve osservare che il valore

numerico assunto dell’indice stesso dipende strettamente dal numero di variabili

esplicative incluse nel modello, al limite, se il numero di tali variabili è pari ad (n – 1), 2 1R ; infatti, in questo caso il sistema di equazioni normali è costituito da tante

equazioni quante sono le incognite (k = n) e l’iperpiano di regressione si adatterà

perfettamente a tutti i punti osservati (la varianza residua è uguale a 0). Per tale ragione,

quando si procede alla stima di un modello di regressione multipla per misurare la bontà

di adattamento del modello ai dati osservati si fa usualmente riferimento al cosiddetto 2R corretto (per tener conto dei gradi di libertà) definito da:

2 2 .n

R 1 1 Rn k

Al crescere del numero di variabili esplicative inserite nel modello, per motivi

puramente numerici, cresce anche il valore assunto dall’indice 2R mentre il valore

assunto dall’indice 2R può anche diminuire, cresce solo se il coefficiente di regressione

della nuova variabile inserita risulta statisticamente significativo.

Sono stati esaminati i due casi estremi di ipotesi:

sul singolo coefficiente di regressione 0 : 0 per 2,3,.....,jH j k ;

su tutti i coefficienti di regressione associati alle variabili esplicative

0 2 3: 0kH ;

ovviamente, si possono sottoporre a test ipotesi su gruppi di coefficienti o su

combinazioni lineari di coefficienti specificando in modo adeguato la matrice R ed il

vettore r. Ad esempio se si vuol sottoporre a test l’ipotesi 0 2 3 4: 0H , si

dovrà porre:

Page 37: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

311

33

0 1 0 0 0 0

0 0 1 0 0 ; 0 .

0 0 0 1 0 0

,kR r

Esempio 5.1

In un articolo del 19744 sono state stimate, utilizzando i dati annuali della contabilità nazionale

registrati in Italia nell’intervallo temporale 1952-1973, sia per il totale Italia sia per le quattro

grandi ripartizioni territoriali, tre diverse generalizzazioni della funzione aggregata del

consumo 1 2 C Y u proposta da Keynes nel 1936:

1 2 3 1

1 2 3

1 *

1 2 1 3 1 3

C Y C u Brown

C C Yu Duesenberry

Y Y Y

C Y C Y u Houtakker - Taylor

dove C rappresenta il consumo annuale corrente, C-1 il consumo relativo al periodo (anno)

precedente a quello che si considera, Y il reddito corrente, Y* il massimo reddito raggiunto in

passato e Y l’incremento di reddito realizzatosi nell’unità di tempo (anno) considerata.

Il modello di Brown ha evidenziato il più elevato grado di rappresentatività, la sua superiorità

rispetto agli altri due modelli è emersa in modo evidente sia quando si è fatto riferimento ai

criteri statistici convenzionali (capacità di adattamento, significatività dei coefficienti e

capacità prevsionale) sia quando si è fatto riferimento alla plausibilità economica dei risultati

conseguiti.

Le conclusioni cui si è pervenuti nel 1974 potavano, e dovevano, costituire soltanto il primo

passo verso una più approfondita conoscenza del fenomeno consumo privato in Italia. Infatti, la

validità dei risultati ottenuti è condizionata al completo soddisfacimento delle ipotesi di

specificazione poste a base del modello. Il mancato soddisfacimento delle ipotesi comporta

conseguenze negative più o meno rilevanti sulla bontà delle stime a seconda dell’ipotesi non

soddisfatta e del grado di allontanamento dall’ipotesi stessa.

Nel 19795 in un secondo contributo sul tema, le ipotesi di specificazione poste a base del

modello di Brown sono state sottoposte a verifica empirica procedendo, successivamente,

all’applicazione delle tecniche statistiche di stima proposte in letteratura che al momento

risultavano più appropriate per la risoluzione dei problemi connessi al mancato

soddisfacimento delle ipotesi di specificazione.

Scopo del secondo lavoro non è stato, quindi, quello dell’individuazione del modello

“migliore” ma, più semplicemente, quello della scelta della metodologia più adeguata per la

stima di un modello rivelatosi, a seguito di altre analisi, sufficientemente rappresentativo della

situazione in esame.

L’analisi condotta non è stata limitata alla sola verifica empirica delle ipotesi di specificazione

e alla conseguente individuazione delle metodologie di stima più adeguate ma si è proceduto

anche ad un’analisi delle proprietà strutturali del modello di Brown, analisi tesa

all’individuazione del processo di formazione e trasformazione della componente aleatoria del

4 Chiandotto (1974). 5 Chiandotto (1979).

Page 38: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

312

modello stesso che è sostanzialmente la componente rispetto alla quale gran parte delle ipotesi

di specificazione vengono formulate. Analisi questa necessaria per due ragioni fondamentali, la

prima, indubbiamente la più rilevante, è quella che investe il complesso problema

dell’applicabilità dei metodi dell’inferenza statistica nella ricerca economica, la seconda

riguarda l’inadeguatezza (come verificato a posteriori) di molte procedure di test proposte in

letteratura per la verifica empirica delle ipotesi di specificazione poste a base del modello di

regressione.

La conclusione più rilevante cui si è pervenuti nel secondo lavoro è stata, per un verso, la

conferma della validità del modello di Brown per la rappresentazione del fenomeno consumo,

per altro verso, la robustezza del metodo di stima dei minimi quadrati ordinari che ha fornito,

anche in presenza di ipotesi di specificazione non completamente soddisfatte, risultati migliori

dal punto di vista interpretativo rispetto a quelli forniti da metodi alternativi di stima che

tenevano conto del mancato soddisfacimento delle ipotesi stesse.

Nelle righe che seguono viene ripreso il tema utilizzando dati aggiornati e, a titolo

esclusivamente esemplificativo, illustrata una procedura statistica ritenute adeguata per la

specificazione di una funzione del consumo che risulti adeguata per la rappresentazione della

base dati utilizzata; la procedura di stima utilizzata è quella di minimi quadrati. I dati presi in

considerazione sono riportati nella Tab. 5.1.

Si tratta di n = 68 coppie di osservazioni trimestrali sulle variabili reddito lordo disponibile e

spesa delle famiglie per consumi finali in Italia nel periodo 1999-2015.

1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

Q1 195.271 197.503 216.772 222.632 230.215 238.360 243.974 252.651 264.484 272.353 268.104 263.550 270.415 267.572 262.640 265.625 265.730

Q2 195.729 204.561 216.704 226.799 230.342 239.952 243.556 253.181 267.784 277.450 263.072 262.807 271.186 263.792 267.320 265.010 267.642

Q3 200.556 208.644 216.102 224.479 234.667 242.868 245.587 257.491 264.627 271.110 264.188 264.197 271.485 263.059 267.395 267.412 271.102

Q4 199.671 214.317 216.428 225.887 234.820 245.297 259.375 265.287 269.216 265.102 264.940 268.630 272.890 261.729 264.610 266.626 269.603

Q1 171.560 181.295 190.992 195.156 202.842 209.225 215.318 225.093 233.645 239.978 234.644 239.507 248.320 246.975 242.934 244.563 245.463

Q2 174.374 185.122 192.342 196.405 204.415 211.396 218.404 226.885 235.932 242.198 235.551 241.028 250.529 247.334 242.236 245.064 247.171

Q3 177.435 187.713 192.258 198.364 205.999 212.862 221.277 229.897 236.989 242.193 236.335 243.796 250.317 245.742 243.242 245.130 248.208

Q4 180.182 190.345 192.881 200.870 207.170 215.129 222.797 231.352 238.351 239.879 238.520 245.822 249.212 245.016 243.625 245.489 249.125

Reddito

lordo

disponibile

Spesa delle

famiglie per

consumi

finali

Tab. 5.1 - Reddito lordo disponibile e spesa delle famiglie per consumi finali in Italia 1999/2015 - Dati destagionalizzati

Anni

Trim

estre

Osservando la Fig.5.1 si desume facilmente la ragionevolezza dell’ipotesi della presenza di una relazione

lineare (modello di Keynes) tra consumo e reddito; infatti, la stima dei minimi quadrati del modello

fornisce dei risultati che confortano ampiamente tale ipotesi (cfr. Tab. 5.2).

Il primo modello c he si considera è quello originalmente proposto da Keynes 1 2 i i iC Y u

(i = 1,2,…,n) presupponendo soddisfatte tutte le ipotesi di specificazione classiche poste a base del

modello di regressione6, i risultati della stima dei minimi quadrati ordinari sono riportati nella Tab. 5.2,

mentre nella Tab. 5.3 sono riportati i valori relativi all’analisi della varianza. Si ricorda che in questo

caso specifico (regressione semplice) il valore della F di Fisher riportato nella Tab.5.3 è uguale al

quadrato del valore della t di Student riportato nella Tab. 5.2.

6 In realtà le ipotesi non risultano completamente soddisfatte ma, per il carattere esemplificativo dell’analisi svolta e

per la robustezza dei metodi impiegati, si è preferito utilizzare il metodo dei minimi quadrati ordinari. Per un

approfondimento sul tema si può fare riferimento a Chiandotto (1979).

Page 39: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

313

190.000 200.000 210.000 220.000 230.000 240.000 250.000 260.000 270.000 280.000 290.000

Reddito lordo disponibile

160.000

170.000

180.000

190.000

200.000

210.000

220.000

230.000

240.000

250.000

260.000

Sp

es

a d

ell

e f

am

igli

e p

er

co

ns

um

i fi

na

li

180.000 200.000 220.000 240.000 260.000 280.000 300.000

Reddito lordo disponibile

160.000

170.000

180.000

190.000

200.000

210.000

220.000

230.000

240.000

250.000

260.000

Sp

es

a d

ell

e f

am

igli

e p

er

co

ns

um

i fi

na

li

Coefficienti Stima dei minimi

quadrati

Varianza degli

stimatori t di Student p value

0 (intercetta) 0 0

ˆ = -18.437 0

2

ˆˆ 34.380.104,54

-3,1444 0,00249

1 (reddito) 1 1

ˆ 1 1

2

ˆˆ 0,000529

41,4996 0,00000

Tab. 5.2 – Riepilogo dei risultati derivanti dalla stima del modello di Keynes (n = 68)

Page 40: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

314

Fonte di

variabilità

Somma dei quadrati

(Devianze)

Gradi

di

libertà

Devianze medie F

Regressione 2

ˆ 36.599.724.745,40y s

1 36.599.724.745,40 1.722,22F

Residua

21.402.599.9ˆ 37,37u

66 21.251.514,20

Totale 2

38.002.324.682,76y s

67 R2 = 0,9631

Tab. 5.3 – Analisi della varianza relativa alla stima del modello di Keynes (n = 68)

Osservando i dati riportati nelle Tabb. 5.2 e 5.3 il ricercatore potrebbe ritenersi più che

soddisfatto dei risultati conseguiti: il semplice modello proposto da Keynes ha ricevuto ampia

conferma dalla verifica empirica effettuata. In realtà, come sopra sottolineato, il modello di

Brown, altrettanto semplice, ha evidenziato (cfr. Chiandotto 1974 e 1979) capacità

rappresentativa del fenomeno consumo più soddisfacenti sia per le argomentazioni teoriche su

cui è basato sia in termini di adattamento empirico alla realtà analizzata.

Nelle Tabb. 5.4 e 5.5 sono riportati i risultai della stima del modello di Brown inserendo la

variabile relativa al consumo con un ritardo temporale di un periodo (t=1).

Coefficienti Stima dei minimi

quadrati

Varianza degli

stimatori

t di

Student p value

1 (intercetta)

1 1ˆ = 4.471,16

1

2

ˆˆ 3.663.330,57

2,34 0,02263

2 (reddito) 2 2

ˆ 0,097 2

2

ˆˆ 0,001024

2,98 0,00412

3 (consumo ritardato

1 periodo)

2 2ˆ 0,877

3

2

ˆˆ 0,001024

27,64 0,00000

Tab. 5.4 – Riepilogo dei risultati derivanti dalla stima del modello di Brown (n = 67, t = 1)

Page 41: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

315

Fonte di

variabilità

Somma dei quadrati

(Devianze)

Gradi

di

libertà

Devianze medie F

Regressione 2

ˆ 35.125.700.000y s

2 36.599.724.745,40 10.368,53F

Residua

2108.407ˆ .100u

64 21.251.514,20

Totale 2

35.234.110.000y s

66 R2 = 0,9969

Tab. 5.5 – Analisi della varianza relativa alla stima del modello di Brown (n = 67, t = 1)

Osservando i dati riportati nelle Tabb. 5.4 e 5.5 si perviene alla conclusione che dalla verifica

empirica effettuata il modello di Brown continua ad evidenziare, pure se applicato a dati

trimestrali e riferito ad una arco temporale diverso, la sua elevatissima capacità di

rappresentazione della relazione tra il consumo (spesa) e il reddito delle famiglie italiane.

Inoltre, l’inserimento della variabile consumo ritardato in aggiunta al reddito migliora

ulteriormente la già elevatissima capacità rappresentativa della funzione del consumo proposta

da Keynes.

Riguardo ai risultati ottenuti si richiama l’attenzione sulla relativa perdita di significatività

della variabile reddito. Pur trattandosi di una perdita del tutto marginale, infatti il p-value

associato a tale variabile passa da 0,00000 a 0,00412, si potrebbe, comunque, ragionevolmente

presumere che tale perdita possa dipendere dall’elevatissima collinearità tra il reddito

registrato nel trimestre ed il consumo registrato nel trimestre immediatamente precedente.

Potrebbe risultare ragionevole, allora, mettere in relazione il consumo osservato in un

trimestre non più con quello registrato nel trimestre precedente ma con il consumo registrato

nel corrispondente trimestre dell’anno precedente ipotizzando, quindi, un ritardo temporale

pari a 4. I risultati della stima del modello di Brown in questa nuova versione sono riportati

nelle Tabb. 5.6 e 5.7.

Coefficienti Stima dei minimi

quadrati

Varianza degli

stimatori

t di

Student p value

1 (intercetta)

1 1ˆ = 5.174,09

1

2

ˆˆ 22.047.098,52

1,10 0,2748

2 (reddito) 2 2

ˆ 0,408 2

2

ˆˆ 0,002799

7,71 0,0000

3 (consumo ritardato

1 periodo)

2 2ˆ 0,535

3

2

ˆˆ 0,002165

11,49 0,0000

Tab. 5.6 – Riepilogo dei risultati derivanti dalla stima del modello di Brown (n = 64, t = 4)

Page 42: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

316

Fonte di

variabilità

Somma dei quadrati

(Devianze)

Gradi

di

libertà

Devianze medie F

Regressione 2

ˆ 27.775.812.622,46y s

2 36.599.724.745,40

1.950,61F

Residua 2

434.306.2ˆ 52,65u

61 21.251.514,20

Totale 2

28.210.118.875,11y s

63 447.779.664,68 R2 = 0,9846

Tab. 5.7 – Analisi della varianza relativa alla stima del modello di Brown (n = 64, t = 4)

5.4 - Modello di analisi della varianza (ANOVA)

Il termine analisi della varianza è già stato introdotto nei paragrafi precedenti per

indicare la scomposizione della variabilità presente nella variabile risposta nel modello

di regressione distinguendo la variabilità da attribuire a fattori influenti (variabilità

spiegata) dalla variabilità da attribuire a fattori accidentali (variabilità non spiegata).

Nel modello di regressione multipla si è avuto modo di procedere ad una ulteriore

scomposizione della variabilità spiegata in funzione della diversa natura dei fattori

considerati.

Storicamente però l’analisi della varianza viene introdotta facendo riferimento a

procedure di test di ipotesi dove le variabili esplicative sono di natura categorica, in

particolare si fa riferimento a situazioni sperimentali dove i fattori esplicativi sono

espressi in scala nominale (Fisher, 1925). La trattazione estesa dell’argomento rientra

nel contesto di quella parte della statistica usualmente denotata con il termine piano o

disegno degli esperimenti. Al riguardo si deve sottolineare che sarebbe più appropriato

parlare di analisi della devianza e non di analisi della varianza in quanto la

scomposizione degli effetti viene operata sulla somma del quadrato degli scarti tra

valori osservati e la loro media, cioè sulla devianza, a prescindere dal numero delle

osservazioni che entrano in gioco solo al momento della verifica delle ipotesi come

gradi di libertà associati alle diverse componenti della scomposizione della cosidetta

devianza totale.

In queste note si farà riferimento ai soli disegni fattoriali completi limitando la

trattazione alle situazioni in cui i fattori sperimentali sono al massimo 3 (one-way, two-

way e three-way ANOVA).

L’esperimento fattoriale completo è caratterizzato dalla presenza di più osservazioni

sperimentali in corrispondenza di ciascuna modalità, nel caso in cui si sta trattando di un

solo fattore sperimentale, se i fattori sperimentali sono 2 o più di 2 si deve poter

disporre di più osservazioni in corrispondenza di ogni possibile combinazione delle

modalità dei fattori sperimentali considerati.

Page 43: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

317

5.4.1 Analisi a un criterio di classificazione

Si consideri la situazione sperimentale cha prevede l’impiego di un solo fattore

sperimentale A caratterizzato da h modalità distinte Ai (i = 1, …, h) e di poter disporre

di ni risposte sperimentali in corrispondenza dell’i-esima modalità Ai; si ipotizzi, cioè,

una situazione sperimentale nella quale sono previsti h trattamenti ciascuno dei quali è

replicato ni (i = 1, 2,…., h) volte. Il modello base per procedere ad un’analisi della

varianza è

i i i i iY = μ+α +u = +u per i = 1,2,.....,h

dove i i= μ+α la componente sistematica del modello e ui la componente accidentale,

inoltre

2

1

0 , 0, ( ) 0 .h

i i i i j

i

E u Var u e E u u per i j

Da quanto scritto deriva i i iE Y .

Se si dispone, come ipotizzato, di ni risposte in corrispondenza della modalità Ai il

modello per le

1

h

i

i

n n

osservazioni disponibili assume la forma

= 1,2,....., ; 1,2,...,ir i ir i ir iY u u per i h r n

dove 1

0h

i

i

, ( ) 0 e ( ) 0 .ir jr ir isE u u per i j E u u per r s

In sostanza la situazione prospettata si riferisce ad h gruppi distinti di soggetti i

quali, all’interno di ciascun gruppo, possono differire tra loro solo per l’effetto di fattori

di carattere accidentale mentre i soggetti appartenenti a gruppi diversi possono differire,

sia per effetto di fattori di carattere accidentale sia per effetto di fattori strutturali, le

differenze strutturali sono evidenziate dalla diversità delle medie μi = μ+αi.

A questo punto risulta facile l’interpretazione dei coefficienti αi che rappresentano

lo scarto (in più o in meno) rispetto all’intera popolazione da attribuire all’appartenenza

allo specifico gruppo i-esimo.

Se si dispone di un campione di n osservazioni distribuite, come ipotizzato, negli h

gruppi si può procedere alla risoluzione degli usuali problemi di inferenza: stima delle

h medie incognite μi = μ+αi e/o verifica di ipotesi statistiche sulle medie stesse.

L’ipotesi classica è quella di uguaglianza tra le h medie

0 1 2: hH

contro l’ipotesi alternativa che sia presente una qualche differenza tra le stesse medie.

Un modo perfettamente equivalente di definizione dell’ipotesi nulla è

Page 44: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

318

0 1 2: 0 hH

contro l’ipotesi alternativa che un qualche αi sia diverso da zero.

Per quanto detto in precedenza risulta facile derivare le stime dei minimi quadrati

delle medie μi e di μ.

A partire dalle osservazioni yir si ottiene

.. .

1 1

.. . .. .. . .

1 1 1 1 1 1 1

1ˆ ; 1,2,...,

1 1 1 1ˆ ;

i i

i i

n n

ii ir i ir i

r ri i

n nh h h h h

i ir i ir i i

i i r i i r i

yy y y y per i h

n n

y y y y y y y y nn n n n

Se si considera la variabilità totale presente nelle osservazioni e si procede ad una

sua misura attraverso il calcolo della devianza totale (Dev (T) = somma dei quadrati

degli scarti dalla media) si ha

2 2

.. . . ..

1 1 1 1

2 2

. . .. . . ..

1 1 1 1 1 1

h2 2

. . ..

1 1 i=1

( ) ( )

( ) ( ) ( )( )

( ) ( )

i i

i i i

i

n nh h

ir ir i i

i r i r

n n nh h h

ir i i ir i i

i r i r i r

nh

ir i i i

i r

Dev T y y y y y y

y y y y y y y y

y y y y n Dev r Dev A

h

2 2

. . ..

1 1 i=1

dove ( ) e ( ) .inh

ir i i i

i r

Dev r y y Dev A y y n

Dev (r) misura la variabilità da attribuire all’effetto di fattori di carattere accidentale

(devianza residua) mentre Dev (A) misura la variabilità da attribuire all’effetto sia di

fattori di carattere accidentale sia all’eventuale effetto del fattore sperimentale A

(devianza sperimentale). Si tratta dell’usuale scomposizione della devianza in devianza

entro i gruppi e devianza tra i gruppi.

Se sono soddisfatte le ipotesi di specificazione poste a base del modello e si inserisce

l’ulteriore e ragionevole (per il teorema del limite centrale) ipotesi di normalità della

distribuzione della componente accidentale uir , si possono derivare senza eccessiva

difficoltà le distribuzioni campionarie delle v.c. W1 = Dev (r)/ σ2 e W2= Dev (A)/ σ

2 e

dimostrare la loro indipendenza

2 2

1

2 2

2 1

/

/

n h

h

W Dev r

W Dev A

dove i gradi di libertà associati alla v.c. W1 sono pari al numero degli scarti indipendenti

presenti nell’espressione

2.

1 1

( )inh

iir

i r

Dev r Y Y

Page 45: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

319

che sono uguali al numero delle osservazioni indipendenti yir meno il numero di

vincoli cui gli scarti devono soddisfare, poiché all’interno di ciascuno degli h gruppi la

somma degli scarti dalla media è pari a 0, h sono i vincoli a fronte di n osservazioni

indipendenti il che comporta un numero di gradi di libertà pari a (n-h); mentre i gradi di

libertà associati alla v.c. W2 sono pari al numero degli scarti indipendenti presenti

nell’espressione

2 2. .. . ..

1 1 1

( ) ( ) inh h

i i i

i r i

Dev A Y Y Y Y n

che sono uguali al numero delle osservazioni indipendenti meno il numero di vincoli cui

gli scarti devono soddisfare, poiché h sono le variabili indipendenti e la somma degli

scarti dalla media soddisfa un solo vincolo ( somma nulla), i gradi di libertà sono pari a

(h-1).

Se si procede alla definizione del rapporto tra le due v.c. indipendenti W1 e W2 divise

per i rispettivi gradi di libertà

2. ..

2 11,

21.

1 1

( ) / / /

/ /( ) /

i

h

i i

ih n hnh

iir

i i

Y Y n h 1W h 1 Dev A h 1

W FW n h Dev r n h

Y Y n h

la v.c. risultante W, quando l’ipotesi nulla è vera, si distribuisce come una F di Fisher-

Snedecor con (h-1) e (n-h) gradi di libertà.

Se il valore empirico w assunto dalla v.c. W è superiore al valore riportato nelle

tavole della distribuzione F con (h-1) e (n-h) gradi di libertà, al prefissato livello di

significatività α , l’ipotesi nulla di uguaglianza delle h medie μi viene rifiutata.

Si riporta di seguito l’usuale rappresentazione tabellare dell’analisi della varianza ad

un criterio di classificazione (un solo fattore sperimentale).

Fonte di

variazione Devianza

Gradi di

libertà

Devianza

media F

A 2. ..

1

( ) h

i i

i

Dev A Y Y n

h-1 DevM(A)=

Dev(A)/(h-1)

W=DevM(A)/

DevM (r)

r 2.

1 1

( )inh

iir

i r

Dev r Y Y

n-h DevM (r) =

Dev (r)/(n-h)

T 2..

1 1

( ) h h

ir

i i

Dev T Y Y

n-1 DevM (T)=

Tab. 5.2 - Tavola per l’analisi della varianza ad un criterio di classificazione

Page 46: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

320

Lo svolgimento dell’analisi della varianza nei termini sopra descritti consente di pervenire ad

una conclusione inferenziale riguardo al possibile effetto complessivo del fattore considerato ma

non consente l’individuazione della modalità che hanno inciso sui risultati nel caso di rifiuto

dell’ipotesi nulla; non si individuano, cioè, gli scarti αi diversi da 0. Per poter perseguire un tale

obiettivo si deve procedere all’effettuazione di una diversa analisi, usualmente denominata

analisi delle medie, che si svolge attraverso l’introduzione del concetto di contrasto definito

come combinazione lineare tra le risposte di un esperimento i cui coefficienti sommano a zero.

Se h è il numero delle modalità che caratterizzano uno specifico fattore sperimentale risulta

possibile procedere alla verifica statistica (test d’ipotesi) sul possibile effetto di specifiche

modalità del fattore sperimentale definendo h – 1 contrasti (confronti) ortogonali).

Se in un esperimento ad un criterio di classificazione (un solo fattore sperimentale) le

modalità diverse del fattore sperimentale sono pari ad h, è possibile sottoporre a test h-1 ipotesi

indipendenti definendo h-1 contrasti (confronti) ortogonali del tipo

1

1

per 1, 2,..., 1

per 1, 2,..., 1

h

i is s

s

h

j js s

s

C a i h

C a j h

dove

1 1 1

= 0; = 0 e 0 h h h

is js is js

s s s

a a a a

.

Nel caso di un fattore caratterizzato da tre modalità due possibili confronti ortogonali

sono 3

1 1 3 1

1

3

2 2 3 3 1

1

=

2

s s

s

s s

s

C a

C a

.

5.4.2 Analisi a due criteri di classificazione

Si consideri la situazione sperimentale che prevede l’impiego di due fattori sperimentali,

il primo fattore A è caratterizzato da h modalità distinte Ai (i = 1, …, h), il secondo

fattore B è caratterizzato da k modalità distinte Bj (j = 1, …, k); in questa situazione il

numero dei trattamenti diversi è pari a h × k . Si supponga di poter disporre di nij

risposte sperimentali in corrispondenza della combinazione tra l’i-esima modalità Ai del

fattore A la j-esima modalità Bj del fattore; pertanto, il numero delle risposte disponibili

in questa situazione sperimentale è

1 1

h k

ij

i j

n n

.

Page 47: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

321

Per poter svolgere un’analisi della varianza completa quando si considerano più

fattori sperimentali è necessario effettuare uno stesso numero di replicazioni per ciascun

trattamento (esperimenti bilanciati o ortogonali). Quando tale condizione non è

soddisfatta si procede all’applicazione di una diversa procedura, usualmente detta

analisi della varianza per classificazioni concatenate che, comunque, non verrà trattata

in questa sede.

Nel caso di esperimenti bilanciati si ha nij = m per i = 1.2,….., h e j = 1,2,…,k, le

risposte disponibili sono pari a

n h k m

Il modello base per procedere ad un’analisi della varianza è

1,2,...,ij i j ij ij ijijY = μ+α + + +u = +u per i = 1,2,.....,h; j k

dove ij i j ij= μ+α + + rappresenta la parte sistematica del modello e uij la parte

accidentale, inoltre,

* *

1 1 1 1

2 * *

0 , 0, 0, 0

0, ( ) 0 , , .

h k h k

i j ij iji j i j

ij ij ij i jE u Var u e E u u per i j i j

Da quanto scritto deriva ij ij i j ijE Y .

Se si dispone, come ipotizzato, di m risposte in corrispondenza di ciascun

trattamento il modello per le n = h×k×m osservazioni disponibili assume la forma

1,2,..., ; 1,2,...,ijr i j ijr ij ijrijY = μ+α + + +u = +u per i = 1,2,.....,h; j k r m

dove

* * *

2 * * *0, ( ) 0 per , , , , .ijr ijr ijr i j rE u Var u e E u u i j r i j r

Le medie relative ai sottogruppi risultano dalle uguaglianze

.. . . . ; ; i i j j ij i j ij= μ+α = μ+ = μ+α .

Le risposte ai trattamenti possono essere rappresentate in una forma tabellare come

quella di seguito riportata dove (cfr. Tab. 3):

. .. . . . . ...

1 1 1 1 1 1 1 1 1 1

; ; ; m k k m h h m h m m

ij ijr i ij ijr j ij ijr ijr

r j j r i i r i r r

Y Y Y Y Y Y Y Y Y Y

valori questi che consentono la derivazione immediata delle medie, infatti,

. . .. .. .

1 1 1 1

. . . . . ... ...

1 1 1 1 1 1

1 1 1 1 1 ; = ;

1 1 1 1 1 ;

m k k m

ij ij ijr i i ij ijr

r j j r

h h m h m m

j j ij ijr ijr

i i r i r r

Y Y Y Y Y Y Ym m k m k m k m

Y Y Y Y Y Y Yh m h m h m h k m h k m

Page 48: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

322

A1 ….

Ai ….

Ah

B1 ….

Bk ….

B1 ….

Bj ….

Bk ….

B1 ….

Bk

Y111 ….

Y1k1 ….

Yi11 ….

Yij1 ….

Y111 ….

Yh11 ….

Yhk1

Y112 ….

Y1k2 ….

Yi12 ….

Yij2 ….

Y112 ….

Yh12 ….

Yhk2

….

…. ….

…. ….

…. ….

…. ….

…. ….

…. ….

Y11r ….

Y1kr ….

Yi1r ….

Yijr ….

Y11r ….

Yh1r ….

Yhkr

….

…. ….

…. ….

…. ….

…. ….

…. ….

…. ….

Y11m ….

Y1km ….

Yi1m ….

Yijm ….

Y11m ….

Yh1m ….

Yhkm

Y11. ….

Y1k. ….

Yi1. ….

Yij. ….

Yik. ….

Yh1. ….

Yhk.

Y1.. ….

Yi.. ….

Yh..

Y…

Y.1. , Y.2. ,….,Y.k.

Tab. 5.3- Dati di base per l’analisi della varianza a due criteri di classificazione

Disponendo delle risposte dell'esperimento si può procedere alla stima eijrn h k m y

alla verifica di ipotesi sulle entità incognite presenti nel modello.

Le stime dei minimi quadrati delle medie sono

.

. .

1

..i.. .. ..

1 1

. .

.j. . . . .

1 1

1ˆ = ; 1, 2,..., e 1, 2,...,

1 1ˆ ; 1, 2,...,

1 1ˆ = ; 1, 2,...,

ˆ

mij

ij ijr ij

r

k mi

i ijr i

j r

h mj

j ijr j

i r

yy y per i h j k

m m

yy y y per i h

k m k m k m

yy y y per j k

h m h m h m

... ... ...

1 1 1

1 1= .

h k m

ijr

i j r

y y yh k m h k m

Le ipotesi che interessa verificare sono l’eventuale effetto sui risultati sperimentali

del:

fattore A - H0: α1 = α2=……..= αh = 0

fattore B - H0: β1 = β 2=……..= β k = 0

interazione tra i due fattori (AB) - H0: (α β)11= (α β)12=……..

= (α β)hk = 0

Page 49: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

323

obiettivo questo che è facilmente perseguibile procedendo ad una adeguata

scomposizione della variabilità presente nei dati, variabilità che come visto in

precedenza viene misurata attraverso il computo e della devianza totale.

2 2

... . . .. .. . . . . ... ... ...

1 1 1 1 1 1

2 2 2

. .. ... . . ...

1 1 1 1 1 1 1 1 1 1

( ) ( )

( ) ( ) ( ) (

h k m h k m

ijr ijr ij ij i i j j

i J r i J r

h k m h k m h k m m

ijr ij i j ij

i J r i J r i J r r

Dev T y y y y y y y y y y y y

y y y y y y y

2

. .. . . ...

1 1

2 2 2 2

. .. ... . . ... . .. . . ...

1 1 1 1 1 1 1

)

( ) ( ) ( ) ( )

h k

i j

i J

h k m h k h k

ijr ij i j ij i j

i J r i j i J

y y y

y y y y k m y y h m y y y y m

Dev r Dev A Dev B Dev AB

2 2 2

. .. ... . . ...

1 1 1 1 1

2

. .. . . ...

1 1

dove ( ) , ( ) , ( ) e

( ) .

h k m h k

ijr ij i j

i J r i j

h k

ij i j

i J

Dev r y y Dev A y y k m Dev B y y h m

Dev AB y y y y m

Nello sviluppo del quadrato tutti i doppi prodotti sono pari a zero, pertanto, la

devianza totale risulta scomposta in quattro componenti:

Dev(r) - che misura l’incidenza sulle risposte dei soli fattori di carattere

accidentale.

Dev(A) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore

A e dei fattori di carattere accidentale.

Dev(B) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore

B e dei fattori di carattere accidentale.

Dev(A B) - che misura l’incidenza sulle risposte dell’eventuale effetto

dell’interazione tra i due fattori A e B e dei fattori di carattere accidentale.

Senza eccessiva difficoltà si derivano le seguenti distribuzioni campionarie

2 2

1 / n h kW Dev r

2 2

2 1/ hW Dev A

2 2

3 1/ kW Dev B

2 2

4 ( 1) ( 1) / h kW Dev A B

Si dimostra, inoltre, che le v.c. W2, W3 e W4 hanno distribuzione indipendente da W1,

mentre hanno distribuzione del tipo F le v.c.

Page 50: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

324

2

1 ,( )

1

/ 1 / 1

/( ) /( )A h n h k

W h Dev A hW F

W n h k Dev r n h k

3

1 ,( )

1

/ 1 / 1

/( ) /( )B k n h k

W k Dev B kW F

W n h k Dev r n h k

4

1 1 ,( )

1

/ 1 1 / 1 ( 1)

/( ) /( )A B h k n h k

W h k Dev A B h kW F

W n h k Dev r n h k

Si riporta di seguito la rappresentazione tabellare dell’analisi della varianza a due

criteri di classificazione.

Fonte di

variazione Devianza

Gradi di

libertà

Devianza

media F

A 2

. ..

1

( )

h

i

i

Dev A Y Y k m

h-1 DevM(A)=

Dev(A)/(h-1)

WA=DevM(A)/

DevM (r)

B 2

. . ..

1

( ) k

j

j

Dev B Y Y h m

k-1 DevM(B)=

Dev(B)/(k-1)

WB=DevM(B)/

DevM (r)

(A B) 2

. .. . .

1 1

( ) h k

ij i j

i j

Dev A B Y Y Y Y m

(h-1) x (k-1)

DevM(AB)=

Dev(AB)/

(h-1)(k-1)

WAB=DevM(A

B)/ DevM (r)

r 2

.

1 1 1

( )h k m

ijijr

i j r

Dev r Y Y

n-h x k DevM (r) =

Dev (r)/(n-h k)

T 2

...

1 1 1

( )

h h m

ijr

i i r

Dev T Y Y

n-1 DevM (T)=

Dev (r)/(n-1)

Tab. 5.4 - Tavola per l’analisi della varianza a due criteri di classificazione

Se il valore empirico wA assunto dalla v.c. WA è superiore al valore riportato nelle

tavole della distribuzione F con (h-1) e (n-h . k) gradi di libertà, al prefissato livello di

significatività α , l’ipotesi nulla di uguaglianza delle h medie μi.. viene rifiutata: il

fattore A ha effetto sui risultati sperimentali; se il valore empirico wB assunto dalla v.c.

WB è superiore al valore riportato nelle tavole della distribuzione F con (k-1) e (n-h . k)

gradi di libertà, al prefissato livello di significatività α , l’ipotesi nulla di uguaglianza

delle k medie μ.j. viene rifiutata: il fattore B ha effetto sui risultati sperimentali; se il

valore empirico wAB assunto dalla v.c. WAB è superiore al valore riportato nelle tavole

della distribuzione F con (h-1).(k-1) e (n-h . k) gradi di libertà, al prefissato livello di

significatività α , l’ipotesi nulla di uguaglianza delle h . k medie μij. viene rifiutata:

l’interazione tra i due fattori A e B ha effetto sui risultati sperimentali.

L’estensione a situazioni sperimentali che prevedono l’impiego, in modo bilanciato,

di tre o più criteri di classificazione non presenta difficoltà. Si riporta, a titolo

Page 51: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

325

esemplificativo, il modello di analisi della varianza per tre fattori (analisi della varianza

a tre criteri di classificazione) A , B e C aventi, rispettivamente, h , k e g modalità e

ciascun trattamento è replicato m volte; in totale, il numero dei trattamenti è pari a h . k .

g, mentre il numero delle risposte è n = h × k × g × m.

per 1,2,..., ; 1, 2,..., ; 1,2,...,

ijsr i j s ijsr ijs ijsrij is js ijsY = μ+α + + + + + +u = +u

i = 1,2,.....,h; j k s g r m

Nella tabella che segue (Tab. 5.5) è riportata la scomposizione della devianza totale

nelle devianze che interessano con i relativi gradi di libertà.

Il numero dei trattamenti è pari a h × k × g e ciascun trattamento viene replicato m

volte.

Fonte di

variazione Devianza Gradi di libertà

A 2

. ..

1

( )

h

i

i

Dev A Y Y k g m

(h-1)

B 2

. . ..

1

( ) k

j

j

Dev B Y Y h g m

(k-1)

C 2

..

1

..( )

g

s

sDev C Y Y h k m

(g-1)

(A B) 2

. .. . .

1 1

( ) h k

ij i j

i j

Dev A B Y Y Y Y g m

(h-1) (k-1)

(A C) 2

. .. .,

1 1

... ( )

gh

i s i s

i s

Dev A C Y Y Y Y k m

(h-1) (g-1)

(B C) 2

. . .

1 1

.. ( )

gk

js j

j s

sDev B C Y Y Y Y h m

(k-1) (g-1)

(A B C)

1 1 1

2

. .. . . . . ... . .. .. . ....

gh k

i j s

ijs ij i s js i j s

Dev A B C

Y Y Y Y Y Y Y Y

(h-1) (k-1) (g-1)

R 1 1 1 1

2

. gh k m

i j s r

ijsr ijsDev r Y Y

(m-1) h k g

T 1 1 1 1

2

.... gh k m

i j s r

ijsrDev T Y Y

h k g m – 1 = n -

1

Tab. 5.5 - Tavola per l’analisi della varianza a tre criteri di classificazione

Quando il numero dei trattamenti è elevato e le possibilità di replicazione, per motivi

finanziari o di altra natura, sono limitate si procede spesso all’effettuazione di una sola

replicazione (m = 1) per ciascun trattamento. Per poter effettuare un’analisi della

varianza in tali situazioni è necessario avere informazioni a priori riguardo al possibile

Page 52: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

326

effetto dell’interazione sui risultati sperimentali; se si ritiene che una qualche

interazione (usualmente quelle di ordine più elevato) non ha effetto, la variabile,

opportunamente trasformata, riferita a tale interazione (che per ipotesi risente dei soli

effetti di natura accidentale) verrà assunta come riferimento per i confronti.

5.5 - Analisi della varianza e modello di regressione

A conclusione del paragrafo 5.4.1 è stato sottolineato che mediante il ricorso ai contrasti

ortogonali è possibile verificare statisticamente la presenza o meno dell’effetto di

singole modalità del fattore sperimentale per il quale è stata preliminarmente accertata

l’influenza sui risultati sperimentali senza procedere ad un adeguato sviluppo del tema.

La ragione dell’omissione è giustificata dalla possibilità di conseguire un tale

obiettivo, in modo decisamente più soddisfacente, ricorrendo ad un diverso strumento

metodologico: il modello di regressione. A tal fine basterà procedere ad una adeguata

specificazione del modello di regressione multipla introdotto nel paragrafo 5.3

n,k n,1k,1n,1

y X u

dove

12 13 1 11

22 23 2 22

,,1 2 3

1

1

.... ................................

.... ................................ ;

1

.... .....

....

j k

j k

n kn i i i ij ik

n

x x x xy

x x x xy

y x x x x

y

y X

1 1

2 2

,1,1

2 3

.... ....

.... .... ; ;

...................................

........................................

1

nk j i

kn n nj nk

u

u

u

ux x x x

u

n

Se si riprende in considerazione il modello ANOVA ad un criterio di classificazione

sopra definito

= 1,2,....., ; 1,2,...,ir i ir i ir iY u u per i h r n

e si procede alla sua rappresentazione in forma matriciale si ha

Page 53: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

327

1

2

11

12

1

21

22

2

, 1,1

1

2

1

2

1 1 0 0 0 0

1 1 0 0 0 0

::::::::::::::::::::::::::

__

::::

__

:::: ;

::::

__

::::

__

::::

h

h

n

n

n hn

h

h

hn

h

h

hn

y

y

y

y

y

y

y

y

y

y

y

y

y X

:::::::

1 1 0 0 0 0

_____________

1 0 1 0 0 0

1 0 1 0 0 0

:::::::::::::::::::::::::::::

1 0 1 0 0 0

_____________

::::::::::::::::::::::::::::

::::::::::::::::::::::::::::

_____________

1 0

0 0 1 0

1 0 0 0 1 0

:::::::::::::::::::::::::::::

1 0 0 0 1 0

_____________

1 0 0 0 0 1

1 0 0 0 0 1

:::::::::::::::::::::::::::::

1 0 0 0 0 1

1

2

11

12

1

21

22

21

,11,1

1

2

1

2

::::

__

::::

__....

::::.... ; ;

::::

__....

....

::::

__

::::

h

h

n

n

nh i

h

hh

hn

h

h

hn

u

u

u

u

u

u

u

u

u

u

u

u

u

La matrice, 1n hX in forma più compatta assume la forma

, 1 , 1

::::::::::::::::::::::::::::::::::::::::::::::

1 1 1 1 1

2 2 2 2 2

h-1 h-1 h-1 h-1 h-1

h h h h h

n n n n n

n n n n n

n h n h

n n n n n

n n n n n

1 1 0 0 0

1 0 1 0 0

1 0 0 1 0

1 0 0 0 1

A X

dove si è utilizzato il simbolo A, al posto di X, per evidenziare la particolare natura

della matrice, con in0 e

in1 sono stati indicati i vettori di dimensione in (i = 1, 2, .., h)

composti, rispettivamente di 0 e 1. Ogni singola osservazione è espressa dalla relazione

0 1 1 2 2

1

1,2,..., ( )h

r h h r i

i

Y A A A u per r n n

e la rappresentazione matriciale del modello è

n,h+1 n,1h+1,1n,1

y A u

Page 54: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

328

Occorre sottolineare che la matrice , 1n hA è di rango h, infatti, la prima colonna delle

matrice stessa è pari alla somma delle successive h colonne, pertanto la matrice

1, 1 1, , 1h h h n n h

'B A A non è invertibile.

Un modo per risolvere il problema è quello di ricorrere all’inversa generalizzata

(inversa di Penrose) oppure di procedere ad una opportuna riparametrizzazione del

modello.

Riparametrizzazione 1 - Si procede all’eliminazione della prima colonna della matrice

, 1n hA (cell-means model). La matrice cosi ottenuta

1

2

, ,1

1

:::::::::::::::::::::::::::::::::::::::

per ::::::::

1 1 1 1

2 2 2 2

h-1 h-1 h-1 h-1

h h h h

n n n n

n n n n

n h h

n n n n h

hn n n n

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

*A

è di rango pieno pari ad h n , pertanto la matrice

, , ,h h h n n h* *' *

B A A

è invertibile.

In forma compatta il modello diventa

, ,1,1,1

* n h nhn

y A u

e ogni singola osservazione assume la forma

1 2 2 2 3 3

1

1,2,..., ( ).h

r h h r i

i

Y A A A A u per r n n

La stima dei minimi quadrati dei coefficienti è

ˆ -1

* *' * *'β = A A A y .

Riparametrizzazione 2 - Si procede all’eliminazione dell’ultima colonna della matrice

, 1n hA (cell-reference model) ponendo αh = 0, in questo modo l’ultima categoria diventa

il riferimento delle altre categorie e l’eventuale effetto dell’ultima modalità viene

conglobato nella media μ. Si sottolinea che il riferimento all’ultima colonna ha valore

puramente esemplificativo; infatti,la scelta, può riguardare una qualunque delle h

colonne in relazione al problema in esame tenendo presente che l’eliminazione della

colonna comporta l’impossibilità di sottoporre a test l’effetto della corrispondente

modalità del fattore in esame. La matrice che deriva dell’eliminazione dell’h-esima

assume la forma

Page 55: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

329

1

2, 1 ,1

::::::::::::::::::::::::::::::::::::::::

per

:

1 1 1 1

2 2 2 2

h-1 h-1 h-1 h-1

h h h h

n n n nh

n n n n h

hn h h

n n n n

n n n n

1 1 0 0

1 0 1 0

1 0 0 1

1 0 0 0

**A

1

::::::::

h h

ed è di rango massimo; pertanto, la matrice

, , ,h h h n n h** **' **

B A A

ammette inversa.

In forma compatta il modello diventa **

n,h n,1h,1n,1

y A u

e ogni singola osservazione assume la forma

0 1 1 2 2 1 1

1

1,2,..., ( )h

r h h r i

i

Y A A A u per r n n

La stima dei minimi quadrati dei coefficienti è

ˆ -1

** **' ** **'β = A A A y .

Riparametrizzazione 3 - Una terza possibile riparametrizzazione si ottiene tenendo

conto del vincolo sui coefficienti 1

1 1

0h h

i h i

i i

(deviation from the mean

model). Se si pone 1

1 h

i

ih

il vincolo viene inserito nel modello considerando la

matrice

,

:::::::::::::::::::::::::::::::::::::::::::::::

pe

1 1 1 1 1

2 2 2 2 2

h-1 h-1 h-1 h-1 h-1

h h h h h

n n n n n

n n n n n

n h

n n n n n

n n n n n

1 1 0 0 0

1 0 1 0 0

1 0 0 1 0

1 1 1 1 1

***A

1

2,1

1

r

:::::::::

h

h

Si tratta di una riparametrizzazione analoga alla precedente dove, però, la categoria

di riferimento non è più l’h-esima ma una categoria media virtuale.

La matrice ***

,n hA è di rango massimo; pertanto, la matrice

, , ,h h h n n h

*** ***' ***B A A

ammette inversa.

In forma compatta il modello diventa ***

n,h n,1h,1n,1

y A u

che consente la derivazione delle stime dei minimi quadrati

Page 56: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

330

ˆ -1

*** ***' *** ***'β = A A A y .

La relazione tra le media di gruppo per i = 1, 2, ..., h i i

e i coefficienti

stimati utilizzando l’ultima parametrizzazione (che tiene conto del vincolo cui devono

soddisfare i coefficienti i ) è espressa dall’uguaglianza

1 1

2 2 1

2

1 1

1

1 1 0 0

0

1 1 0 1

1

1 0 1

::::: :::::::: :::::::::::::::::::::

::::

1 1 1 h h

hh h

1

1

; = h

h i

i

Seguendo lo stesso procedimento si può esprimere il modello di analisi della

varianza in termini di modello di regressione quando i fattori sperimentali sono 2 o più

di 2; l’estensione a casi più generali presenta solo difficoltà formali.

5.6 - Analisi della covarianza (ANCOVA)

L’introduzione dell’ipotesi di normalità ed incorrelazione delle componenti accidentali

consente di ottenere sia stime per intervallo dei coefficienti ed intervalli di previsione,

sia di sottoporre a test ipotesi sul valore dei coefficienti stessi (se uguali o diversi da

zero) o su loro combinazioni linari (contrasti e contrasti ortogonali).

Nel paragrafo 5.3.5 è stata illustrata la formulazione di ipotesi statistiche su

combinazioni lineari dei parametri che caratterizzano il modello di regressione nella

forma generale

0

1

:

:

H

H

R β = r

R β r

dove R è una matrice di dimensione (q,h) e di rango q ≤ h , r un vettore di dimensione q,

con R e r noti. Tale formulazione consente, non solo di sottoporre a test l’ipotesi di

nessun effetto totale del fattore o dei fattori e delle relative interazioni, ma di verificare

anche ipotesi sull’effetto di singole modalità o di combinazioni di modalità attraverso

l’impiego della v.c. test F

,2

ˆ ˆ

q n kF Fs q

-1' -1' '

R β - r R X X R R β - r

Basterà, infatti, sostituire alla matrice X la matrice A+ relativa al caso in esame e

procedere al computo dei gradi di libertà corrispondenti.

Nessun problema sostanziale si deve affrontare quando alcune delle variabili

esplicative hanno natura categoriche e altre quantitativa. Il modello corrispondente, che

viene detto di analisi della covarianza, nel caso in cui si considerano k-1 variabili

Page 57: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

B. Chiandotto Versione 2017

INFERENZA STATISTICA

Cap. 5 - Modello statistico lineare

331

esplicative quantitative (che in questo contesto vengono usualmente dette covariate), un

solo fattore sperimentale caratterizzato da h modalità e si ipotizza assenza di

interazione tra variabili quantitative e la variabile categorica assume la forma

L’estensione a casi più generali presenta difficoltà formali di entità non trascurabile.

.n,k n,h n,1n,1 k,1 h,1

Xy X A u

Page 58: CAP. 5 MODELLO STATISTICO LINEARE - UniFI. 5... · Cap. 5 - Modello statistico lineare 277 componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli elencati

332