Analisi matrici dati

18

Click here to load reader

Transcript of Analisi matrici dati

Page 1: Analisi matrici dati

Indice

1 La analisi delle componenti principali 21.1 Introduzione al problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Autovalori e autovettori: richiami . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Le componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 L’analisi discriminante 72.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 L’analisi discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 L’approccio decisionale: i personaggi della storia . . . . . . . . . . . . . . . . 82.4 Variabile casuale normale multipla . . . . . . . . . . . . . . . . . . . . . . . . 11

2.4.1 La stima dei parametri della distribuzione normale . . . . . . . . . . . 122.4.2 La stima della matrice di varianze e cov con due campioni . . . . . . . 13

2.5 L’analisi discriminante nel caso normale di normalita . . . . . . . . . . . . . 132.6 La stima della funzione discriminante . . . . . . . . . . . . . . . . . . . . . . . 142.7 La selezione delle variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.8 Lo score e la tabella di confusione . . . . . . . . . . . . . . . . . . . . . . . . . 16

1

Page 2: Analisi matrici dati

Capitolo 1

La analisi delle componentiprincipali

1.1 Introduzione al problema

La analisi delle componenti principali come facciamo in questo corso ha finalita descrittive.Essa nasce dal problema di sintetizzare in maniera visiva la struttura delle associazioni diun elevato numero di variabili. Siano X1, X2, . . ., Xp un insieme di variabili continue, incui p e elevato. Si dispone, di nuovo di un numero N di osservazioni. Le informazioni sonosintetizzate in una matrice X, in cui le righe sono le osservazioni e le colone sono le variabili.

Lo scatter plot di queste variabili consente di analizzare al massimo l’andamento con-giunto di 3 variabili per volta. Si pone pertanto il problema di trovare una trasformazionedelle variabili originarie che preservi al massimo la variabilita dei dati ma che ne riduca ledimensioni, da p ad un numero inferiore. In sintesi, si cercano nuove variabili y1,y2, . . . ,yr,r < p che siano trasformazioni lineare delle variabili originarie, ovvero delle colonne dellamatrice X.

Si noti che se a e un vettore p× 1 tale che aT = (a1, a2, . . . , ap) allora

y = Xa

e un vettore di dimensioni N×1 che e una trasformazione lineare delle colonne di X secondoi coefficienti in a. L’elemento i-esimo del vettore y e il valore della combinazione linearenella i esima osservazione. Ovvero:

yi = a1xi1 + a2xi2 + . . . + apxip.

Nella analisi delle componenti principali, si cercano opportune trasformazioni delle colonnedi X che preservino la variabilita del fenomeno, secondo determinate regole che ora vedremo.

1.2 Autovalori e autovettori: richiami

Sia A una matrice p × p. Sia I la matrice identita di dimensioni p × p. Si crei la matriceA−λI con λ un numero reale. Sia |A−λI| il determinante di questa matrice. Il polinomioq(λ),

q(λ) = |A− λI|e un polinomio in λ di ordine p. Le radici λ1,λ2, . . ., λp, della equazione

2

Page 3: Analisi matrici dati

E.Stanghellini – Dispense di Statistica IV 3

q(λ) = 0

sono numeri reali o complessi. Inoltre alcune radici possono avere molteplicita superiore aduno. Queste radici λi sono dette autovalori. Per ogni λi, |A − λiI| = 0, ovvero la matriceA − λiI ha rango non pieno. Pertanto esiste una combinazione lineare γ delle colonne diA− λiI che vale zero. Ovvero esiste un γ tale che:

(A− λiI)γ = 0

da cui:Aγ = λiγ (1.1)

Si noti che γ ha dimensioni p × 1. Il vettore γ e l’autovettore associato all’autovalore λi.Esso puo non essere unico. Infatti, si noti che se γ e un autovettore allora, dalla (1.1) anchecγ , con c costante arbitraria, e un autovettore. Inoltre, sempre dalla dalla (1.1), se γ eδ sono due autovettori associati a λi allora anche γ + δ e un autovettore associato a λi.Ovvero, l’insieme degli autovettori associati a λi forma uno spazio vettoriale.

Dal momento che se γ e un autovettore allora anche cγ , con c costante arbitraria, e unautovettore, cerchiamo l’autovettore standardizzato, ovvero tale che

γT γ = 1.

Seguono alcuni risultati, propri dell’algebra lineare, che si richiamano senza dimostrazione:

q(λ) =p∏

i=1

(λi − λ)

per ogni λ reale. Vari risultati seguono:

→ Ponendo λ = 0 |A| = ∏pi=1 λi

→ traccia(A) =∑p

i=1 aii =∑p

i=1 λi

→ Se C e una matrice invertibile, CAC−1 e A hanno gli stessi autovalori.

Esempio 1.1 Si trovino gli autovalori e gli autovettori della matrice

A =(

1 ρρ 1

)

Gli autovalori sono la soluzione del seguente:

1− λ ρρ 1− λ

= 0

che conduce alla:(1− λ)2 − ρ2 = 0

le cui soluzioni sono λ1 = 1 + ρ e λ2 = 1− ρ. Se ρ 6= 0, allora l’autovettore corrispondentea λ1 = 1 + ρ e (

1 ρρ 1

)(x1

x2

)= (1 + ρ)

(x1

x2

)

Page 4: Analisi matrici dati

4 E.Stanghellini – Dispense di Statistica IV

che porta alla soluzione x1 = x2. Di conseguenza il primo autovettore standardizzato e

γ(1) =(

1\√21\√2

),

in quanto γ(1) e l’unco vettore con elmenti uguali tale che γT(1)γ(1) = 1. In maniera analoga

si trova che

γ(2) =(

1\√2−1\√2

).

La matrice Γ che ha per colonne gli autovettori standardizzati e pertanto la seguente:

Γ =(

1\√2 1\√21\√2 −1\√2

).

Si costruisca inoltre la matrice Λ nel modo seguente:

Λ =(

1 + ρ 00 1− ρ

)

La matrice diagonale Λ che ha come elementi gli autovalori e detta matrice degli au-tovalori. La matrice Γ che ha per colonne gli autovettori γ(i) associati agli autovalori λi edetta matrice degli autovettori.

Il caso di maggiore interesse in statistica e quello in cui A e una matrice simmetrica.Infatti, come vedremo il metodo di analisi delle componenti principale implica il calcolaregli autovalori gli autovettori della matrice di varianze e covarianze osservata. Se A e unamatrice simmetrica, allora vale il seguente teorema (Scomposizione Spettrale):

Teorema di Scomposizione Spettrale Ogni matrice simmetrica A puo essere scrittacome:

A = ΓΛΓT =p∑

i=1

λiγ(i)γT(i)

in cui Λ e la matrice diagonale degli autovalori di A¯

e Γ e la matrice degli autovettori.Inoltre, Γ e una matrice ortogonale, ovvero ΓTΓ = I. Per cui,

ΓTAΓ = Λ.

La dimostrazione di questo teorema e omessa. Si puo trovare in tutti i testi di Algebralineare o di statistica multivariata (si veda ad esempio in Mardia et al.,1979, MultivariateAnalysis).

Esempio 1.2 (segue da 1.1) Si verifichi che ΓTΓ = I. Si verifichi, inoltre, che A = ΓΛΓT .

1.3 Le componenti principali

Ritorniamo al problema originario, ovvero quello di sintetizzare le nostre variabili osservatein X attraverso combinazioni lineari delle sue colonne. Sia V la matrice di varianze ecovarianze osservate. Ovvero

V = (X− X)T (X− X)/(N − 1) (1.2)

Page 5: Analisi matrici dati

E.Stanghellini – Dispense di Statistica IV 5

in cui X e anch’essa una matrice di dimensioni N × p le cui colonne sono ripetizioni dellemedie di ogni variabile. Ovvero:

X =

x1 x2 x3 . . . xp

x1 x2 x3 . . . xp

x1 x2 x3 . . . xp

. . . . . . . . . . . .x1 x2 x3 . . . xp

Sia a un vettore di dimensioni p× 1, e y = Xa un vettore N × 1. La varianza di y e pari a

(y − y)T (y − y)/(N − 1) = (aTVa).

in cui y e un vettore N × 1 della media di y.

Sia F una matrice di dimensioni p × r. Sia ora Y = XF. La matrice Y ha dimensioniN × r, in cui ogni riga esprime il valore sulla corrispondente unita delle r variabili ottenutecome combinazione lineare delle variabili in X. La matrice delle varianze e covarianze diquesta trasformazione sara :

(Y − Y)T (Y − Y)/(N − 1) = (FTVF)

in cui Y e una matrice N × r delle medie delle colonne di Y.

L’obbiettivo della analisi delle componenti principali e quello di trovare una matrice Ftale che la varianza di Y = XF sia la massima possibile e tale che le colonne di Y sianofra loro incorrelate. Si dimostra ora che questo obbiettivo e raggiunto prendendo come F lamatrice degli autovettori corrispondenti agli r autovalori piu grandi di V.

Si consideri la scomposizione spettrale della matrice V delle varianze e delle covarianzeosservate. Si costruisca Γ in modo che nella prima colonna vi sia l’autovettore associatoal massimo autovalore di V. Consideriamo la trasformazione XΓ. La varianza di questatrasformazione da quanto detto e ΓTVΓ. Ora dal teorema spettrale,

ΓTVΓ = Λ

con Λ una matrice diagonale. Di conseguenza λj e la varianza della trasformazione lineare:

Xγ(j).

La implicazione di quanto sopra sta nel fatto che le trasformazioni lineari Xγ(i) Xγ(j) sonoincorrelate.

Si consideri per il momento r = 1. Sia a il vettore delle combinazioni lineari, ovvero atale che la varianza di Xa sia la massima possibile. Si puo dimostrare, attraverso il seguenteteorema, che la combinazione lineare secondo i coefficienti in γ(1) e quella che massimizzala varianza, ovvero a = γ(1).

Notiamo innanzi tutto, dal momento che gli autovettori formano una base dello spazio,che ogni vettore a e scrivibile come una combinazione lineare degli autovettori γ(i), ovvero:

a = c1γ(1) + c2γ(2) + . . . + cpγ(p).

Page 6: Analisi matrici dati

6 E.Stanghellini – Dispense di Statistica IV

Inoltre, si ricordi che γT(j)γ(i) = 0 se j 6= i e γT

(i)γ(i) = 1. Di conseguenza aT a =∑

i c2i .

Teorema 1 Non esiste una trasformazione lineare standardizzata delle colonne di X cheha varianza maggiore di λ1, l’autovettore piu grande.

Dim. Sia a un vettore di dimensioni p × 1 tale che aT a = 1. Come gia detto, gliautovettori di V possono essere presi come basi di uno spazio vettoriale di dimensioni p epertanto il vettore a si puo esprimere come una combinazione lineare degli autovettori γ(i).Ovvero:

a = c1γ(1) + c2γ(2) + . . . + cpγ(p).

Dal fatto che aT a = 1 segue che∑

c2i = 1. Ora, poniamo che a siano i coefficienti della

trasformazione lineare che cerchiamo, ovvero y = Xa. La varianza di y e , dal teorema discomposizione spettrale:

aTVa = aTΓΛΓT a

Notando che aT γ(i) = ci, avremo che aTΓ = [c1 c2 . . . cp].Di conseguenza, essendo Λ una matrice diagonale:

aTVa =p∑

i=1

λic2i .

Da sopra sappiamo che∑

i c2i = 1. Allora, dato che λ1 e l’autovalore massimo, il massimo

della sommatoria e λ1. Esso e ottenuto quando c1 = 1 e c2 = c3 = . . . = cp = 0.

Adesso ci poniamo nell’ottica di sintetizzare le nostre osservazioni, non tanto con unaunica combinazione lineare, ma con un generico numero r, r < p di combinazioni. Come pos-siamo procedere? Poniamo r = 2. Possiamo cercare una seconda trasformazione che a) siaincorrelata con la precedente e b) massimizzi la varianza non spiegata dalla trasformazioneprecedente. Il prossimo teorema ci dice che il questo caso la migliore trasformazione linearestandardizzata e quella che ha coefficienti dati dall’autovettore corrispondente al secondoautovalore piu grande.

Teorema 2 Se y = Xa e una trasformazione lineare che e incorrelata con le prime kcomponenti principali, allora la varianza di y e massimizzata quando a = γ(k+1).

La dimostrazione del teorema e omessa. Essa segue da vicino la dimostrazione delteorema 1.

Discende dal teorema che i primi r autovettori di V costituiscono delle trasformazionilineari delle colonne di X che massimizzano la varianza e sono ortogonali fra di loro.

Osservazione importante. La matrice X e la matrice (X−X) danno luogo alla stessamatrice di varianza e covarianza V. Per questo motivo, le componenti principali vengonospesso effettuate sulla trasformazione (X−X). Questo equivale a calcolare Y nella seguentemaniera:

Y = (X− X)F.

Anche questo secondo modo e molto utilizzato in pratica. Si noti che in questo secondocaso si perde l’informazione che deriva dalla unita di misura del fenomeno, e dalla suadimensione. Questo puo essere positivo in alcuni casi, ma negativo in altri.

Page 7: Analisi matrici dati

Capitolo 2

L’analisi discriminante

2.1 Introduzione

L’analisi discriminante, a differenza del modello logistico, e nata come strumento di classi-ficazione. La prima formulazione dell’analisi discriminante risale a Fisher (1936), il quale,dato un campione casuale di N osservazioni, di cui n1 provenienti da una popolazione, eN −n1 provenienti da una seconda popolazione, determino la migliore funzione per allocareciascuna osservazione alla popolazione di origine. Questa funzione e detta funzione discrim-inante. Dal lavoro di Fisher ad oggi, i contributi in materia di analisi discriminante sonostati numerosissimi.

In Figura 2.1 e riportato un esempio relativo ad un campione di 49 aziende finanziate dauna banca. Per esse e nota la storia creditizia, ovvero acce noto se sono state in grado diripagare il credito. Il grafico riporta il diagramma di dispersione delle aziende rispetto a dueindicatori di bilancio: il rapporto tra ricavi netti e capitale investito netto (variabile RI.ATriportata sull’asse delle ascisse) e il rapporto fra flusso di cassa e passivita correnti (variabileFCR.PTP riportata sull’asse delle ordinate). Ogni osservazione e indicata con il simbolo+ se relativa ad una azienda solvibile e * altrimenti. L’obbiettivo e quello di suddividereil quadrante in due parti attraverso una funzione delle due variabili, in modo tale che lapercentuale piu elevata di aziende solvibili sia in una delle due aree delimitate dalla funzionee che la percentuale piu elevata di aziende non solvibili sia nell’altra. Le informazioni sugliindicatori di bilancio della prossima azienda verranno utilizzate per valutare a quale delledue aree appartenga e decidere se procedere o meno al finanziamento.

2.2 L’analisi discriminante

Sia X = (X1, X2, . . . , Xp) il vettore di variabili casuali che descrivono le informazioni disponi-bili su una osservazione e x = (x1, x2, . . . , xp) un possibile valore di X. Si hanno due popo-lazioni P0 e P1. Si suppone l’esistenza di una c.v. binaria Y che vale 0 se una osservazioneappartiene alla popolazione P0 e 1 altrimenti; si suppone inoltre che Y e X ammettano unafunzione di densita congiunta. Siano f1(x) = f(x | Y = 1) e f0 = f(x | Y = 0) i valori dellefunzioni di densita condizionate valutate in x. Sia inoltre f(x) la funzione di densita delleX marginale rispetto ad Y , ovvero:

f(x) = f0(x)P (Y = 0) + f1(x)P (Y = 1).

7

Page 8: Analisi matrici dati

8 E.Stanghellini – Dispense di Statistica IV

0 0.5 1 1.5 2 2.5 3 3.5 4−0.5

−0.4

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

0.5

RI.AT

FC

R.P

TP

aziende insolventiaziende sane

Figura 2.1: Suddivisione secondo due variabili.

Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto, l’obbiettivo equello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive, tali che:

x ∈ A0 se l’unita appartiene a P0;

x ∈ A1 se l’unita appartiene a P1.

Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, inquanto unita con le stesse caratteristiche x possono appartenere sia ad una popolazione cheall’altra. Lo studio pertanto deve essere fatto o sulle funzioni di densita condizionate di x,fr(x), r ∈ {0, 1}, oppure sulle probabilita P (Y = r | x).

2.3 L’approccio decisionale: i personaggi della storia

Siano X1, X2, . . . , Xp le variabili casuali che descrivono le caratteristiche dell’unita statisticae Y la v.c. di classificazione. Possiamo schematizzare il processo di decisione attraverso unastoria, con i personaggi ed una trama, le complicazioni e possibili epiloghi.

→ I personaggi:

• due popolazioni P0 e P1, i cattivi e i buoni;

• X = (X1, X2, . . . , Xp) il vettore di variabili casuali che descrivono le informazioni sulleunita delle due popolazioni con valori x = (x1, x2, . . . , xp);

• una c.v. binaria Y = {0, 1}, che vale 0 se una osservazione appartiene alla popolazioneP0 e 1 altrimenti;

• P (Y = 0) e P (Y = 1) probabilita a priori che una unita appartenga a P0 e P1;

Page 9: Analisi matrici dati

E.Stanghellini – Dispense di Statistica IV 9

• f1(x) = f(x | Y = 1) e f0(x) = f(x | Y = 0) i valori delle funzioni di densitacondizionate valutate in x;

• i due tipi di errore: quello di assegnare un’unita buona alla popolazione P0 quandoinvece proviene da P1, e quello di assegnare un’unita cattiva a P1;

• le probabilita di compiere i due errori;

• i costi associati ai due errori: C(0 | 1) e C(1 | 0), ovvero, in ordine, il costo diallocare una unita alla popolazione P0 quando invece proviene da P1 e il costo diallocare una unita alla popolazione P1 dato che invece proviene da P0 (costo di errataclassificazione);

→ Le relazioni fra i personaggi. Le v.c. Y e X ammettono una funzione di densitacongiunta tale che:

• La funzione di densita delle X f(x) marginale rispetto ad Y , ovvero:

f(x) = f0(x)P (Y = 0) + f1(x)P (Y = 1);

• le probabilita a posteriori, date dalla formula di Bayes:

P (Y = r | x) =fr(x)P (Y = r)

f(x), r ∈ {0, 1}. (2.1)

→ La trama. Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto,l’obbiettivo e quello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive,tali che:

x ∈ A0 se il cliente e cattivo;

x ∈ A1 se il cliente e buono.

Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, inquanto unita con le stesse caratteristiche x possono appartenere sia ad una popolazione cheall’altra. Il raffronto pertanto deve essere fatto o sulle funzioni di densita condizionate di x,fr(x), r ∈ {0, 1}, oppure sulle probabilita P (Y = r | x).

Una prima regola intuitiva per determinare A1 e quella di assegnare ad A1 tutti i valori xtali che f1(x)

f0(x) > s con s scelto opportunamente. Piu formalmente, A1 sara l’insieme delle xtali che:

A1 ={x | f1(x)

f0(x)> s

}. (2.2)

Il problema allora della scelta della migliore partizione di A viene riformulato in terminidella scelta del migliore valore di soglia s. E’ intuitivo che il valore s deve tenere conto del

Page 10: Analisi matrici dati

10 E.Stanghellini – Dispense di Statistica IV

rapporto fra i due costi di errata classificazione. Sia C la variabile casuale che descrive ilcosto, valore atteso di C e il seguente:

E(C) = C(0 | 1)P (Y = 1)∫

A0

f1(x)δx +

C(1 | 0)P (Y = 0)∫

A1

f0(x)δx.

Il valore di s coincide con quel valore che minimizza il valore atteso del costo. Si noti che∫A0

fr(x)δx +∫A1

fr(x)δx = 1, r ∈ {0, 1}. Pertanto, ponendo nell’espressione precedente a∫A0

f1(x)δx = 1−∫A1

f1(x)δx dopo alcune sostituzioni, l’espressione precedente si semplificanella seguente:

E(C) = C(0 | 1)P (Y = 1) +∫

A1

{C(1 | 0)P (Y = 0)f0(x)−C(0 | 1)P (Y = 1)f1(x)}δx.

Dal momento che C(0 | 1)P (Y = 1) e costante, il valore atteso del costo viene minimizzatoscegliendo A1 come l’insieme di tutti e soli i valori di x in cui C(1 | 0)P (Y = 0)f0(x)−C(0 |1)P (Y = 1)f1(x) e negativo, ovvero

f1(x)f0(x)

>C(1 | 0)P (Y = 0)C(0 | 1)P (Y = 1)

.

Di conseguenza, il valore della soglia s ottimale e determinato dalla espressione sopra, e laregione e cosı determinata:

A1 ={x | f1(x)

f0(x)>

C(1 | 0)P (Y = 0)C(0 | 1)P (Y = 1)

}(2.3)

oppure, facendo uso della formula di Bayes:

A1 ={x | P (Y = 1 | x)

P (Y = 0 | x)>

C(1 | 0)C(0 | 1)

}. (2.4)

Una formulazione alternativa della regione di accettazione A1 si ottiene passando al logar-itmo dei rapporti fra funzioni di densita :

A1 ={x | log

f1(x)f0(x)

> logC(1 | 0)C(0 | 1)

+ logP (Y = 0)P (Y = 1)

}(2.5)

oppure

A1 ={x | log

P (Y = 1 | x)P (Y = 0 | x)

> logC(1 | 0)C(0 | 1)

}. (2.6)

→ Le Complicazioni

Page 11: Analisi matrici dati

E.Stanghellini – Dispense di Statistica IV 11

• L’applicabilita della regola di allocazione determinata in precedenza dipende dallaconoscenza di tutti i personaggi.

• In pratica, le densita condizionate fr(x) non sono note. Certe volte se ne conoscela forma, ma i parametri vanno stimati, con qualche metodo statistico. Altre volteneppure la forma e nota.

• Spesso anche le probabilita a priori P (Y = 0) e P (Y = 1) non sono note. Tuttavia se ilcampione e estratto casualmente, si possono stimare attraverso le analoghe frequenzeosservate nel campione.

→ Due epiloghi

A1 ={x | log

f1(x)f0(x)

> logC(1 | 0)C(0 | 1)

+ logP (Y = 0)P (Y = 1)

}(2.7)

ANALISI DISCRIMINANTE

oppure

A1 ={x | log

P (Y = 1 | x)P (Y = 0 | x)

> logC(1 | 0)C(0 | 1)

}. (2.8)

MODELLO LOGISTICO

NB: Il primo tipicamente vuole dati continui o loro trasformazioni; il secondo puo trattaredati categorici, e quindi e piu flessibile.

2.4 Variabile casuale normale multipla

Sia X = (X1, . . . , Xp)T un vettore di variabili aleatorie che assume valore x = (x1, . . . , xp)T .Si dice che X ha distribuzione normale (o gaussiana) multipla di dimensione p e di parametriµ e Σ, con Σ una matrice definita positiva, se la funzione di densita congiunta puo scriversi:

f(x) =1

(2π)p2 | Σ | 12

exp{−12(x− µ)TΣ−1(x− µ)}

per ogni x ∈ Rp. Sinteticamente, una v.c. p-dimensionale X con distribuzione normalemultipla si indica con X ∼ Np(µ;Σ). Si dimostra che E(X) = µ e V ar(X) = Σ.

Page 12: Analisi matrici dati

12 E.Stanghellini – Dispense di Statistica IV

2.4.1 La stima dei parametri della distribuzione normale

In questo paragrafo si descrive la stima di massima verosimiglianza del valore atteso e dellamatrice delle varianze e delle covarianze della distribuzione normale, che sara richiamata inseguito. Si assume X ∼ N(µ,Σ). Si assume, inoltre, di avere un campione di N osservazioniindipendenti xi estratte da X. Si noti che in questo paragrafo xi e un vettore colonna (enon riga come nei capitoli precedenti), di dimensioni p × 1. Sia Li = logf(xi, µ,Σ). Nelcaso in cui si abbiano N estrazioni indipendenti da una variabile casuale con distribuzionenormale multipla, la funzione di log-verosimiglianza puo scriversi:

L(µ,Σ) =∑

i

Li = −Np

2log2π − N

2log | Σ | −1

2

i

(xi − µ)TΣ−1(xi − µ).

Si indichi con x il vettore delle medie campionarie di espressione

x =1N

N∑

i=1

xi

e con Σ la matrice delle varianze e covarianze campionaria, di espressione

Σ =1N

N∑

i=1

(xi − x)(xi − x)T .

Si noti che essendo∑

i(xi − x)TΣ−1(x− µ) = 0 (si veda l’Esercizio 2.1),∑

i

(xi − µ)TΣ−1(xi − µ) =∑

i

(xi − x)TΣ−1(xi − x) + N(x− µ)TΣ−1(x− µ).

InoltreXi

(xi − x)T Σ−1(xi − x) =X

i

tr(xi − x)T Σ−1(xi − x) =X

i

trΣ−1(xi − x)T (xi − x) = Ntr(Σ−1Σ)

e, analogamente,

(x− µ)TΣ−1(x− µ) = trΣ−1(x− µ)(x− µ)T .

Di conseguenza,

L(µ,Σ) = −Np

2log2π − N

2log | Σ | −N

2trΣ−1(x− µ)(x− µ)T − N

2tr(Σ−1Σ). (2.9)

Le stime di massima verosimiglianza si ottengono uguagliando a zero il sistema dellederivate parziali di L(µ,Σ) rispetto agli elementi in µ e in Σ e verificando che il puntotrovato sia un massimo.

Si verifica, attraverso la differenziazione parziale della funzione precedente, che

µ = x

e, anche,Σ = Σ.

Page 13: Analisi matrici dati

E.Stanghellini – Dispense di Statistica IV 13

Le stime di massima verosimiglianza di µ e Σ sono pertanto x e Σ. Una giustificazioneintuitiva del risultato si puo trovare notando che, nel caso in cui Σ sia nota, massimizzarela funzione di log-verosimiglianza rispetto ai parametri coincide con minimizzare i termininegativi che compaiono nell’espressione (2.9). Essendo Σ definita positiva, anche la suainversa e definita positiva, per cui il termine −N(x− µ)TΣ−1(x− µ) e minimo se x = µ.

Si noti che x e Σ possono essere viste come funzioni delle variabili casuali X. In parti-colare, essendo Σ una stima distorta per Σ (si veda Mardia Kent e Bibby, 1979, cap. 3), sipreferisce utilizzare al suo posto la stima corretta:

V =NΣ

N − 1=

1N − 1

N∑

i=1

(xi − x)(xi − x)T .

Si osservi, infine, che V e una espressione alternativa della matrice delle varianze e dellecovarianze campionarie (1.2) introdotta nella parte precedente. Lo studente e invitato averificare.

2.4.2 La stima della matrice di varianze e cov con due campioni

Si abbiano due campioni di numerosita n0 e n1 estratti in modo indipendente da due popo-lazioni P0 e P1. Sia P0 espressa da una v.c. normale multipla con valore atteso µ0 e matricedelle varianze e delle covarianze Σ0 e sia Ps espressa da una v.c. normale multipla con valoreatteso µs e matrice delle varianze e delle covarianze Σ1 con Σ0 = Σ1 = Σ.

In questo secondo caso, la stima della matrice di varianza e covarianza Σ si effettua at-traverso la matrice delle varianze e delle covarianze campionaria pooled.

→ Si indichi con W la matrice delle devianze e codevianze interne ai gruppi, ovvero:

W = (n0 − 1)V0 + (n1 − 1)V1 =

"n0Xi=1

(x0i − x0)(x0i − x0)T +

n1Xi=1

(x1i − x1)(x1i − x1)T

#.

→ La stima della matrice delle varianze e delle covarianze campionarie ha espressione:

S =1

n0 + n1 − 2W (2.10)

essa e detta matrice delle varianze e covarianze pooled.

2.5 L’analisi discriminante nel caso normale di normalita

Nei paragrafi precedenti abbiamo derivato la zona di accettazione A1 con un criterio che pre-suppone la conoscenza completa delle funzioni di densita fr(·) delle v.c. X e delle probabilitaa priori della v.c. Y . La situazione vista in precedenza e una situazione di studio.

Nell’analisi discriminante classica si assume che la forma della fr(·) sia una normalemultipla con valore atteso µr e matrice delle varianze e covarianze Σr.

Page 14: Analisi matrici dati

14 E.Stanghellini – Dispense di Statistica IV

Dopo alcune semplificazioni si trova che

f1(x)f0(x) = | Σ0 |1/2| Σ1 |−1/2 exp{−1

2 [xT (Σ−11 −Σ−1

0 )x− 2xT (Σ−11 µ1 −Σ−1

0 µ0)+

+µT1 Σ−1

1 µ1 − µT0 Σ−1

0 µ0]}.e, pertanto,

logf1(x)f0(x) = 1

2 log | Σ0 || Σ1 |−1 −12 [xT (Σ−1

1 −Σ−10 )x− 2xT (Σ−1

1 µ1 −Σ−10 µ0)+

+µT1 Σ−1

1 µ1 − µT0 Σ−1

0 µ0].(2.11)

L’analisi discriminante quadratica. Si indichi con Q(x) il logf1(x)f0(x) . Possiamo riscrivere la

(2.2) nel modo seguente:A1 = {x | Q(x) > log s}.

La funzione Q(x) e detta funzione discriminante quadratica, dal momento che vi compareil termine xT (Σ−1

1 − Σ−10 )x. Nonostante questa regola sia molto generale dal punto di

vista teorico, non e molto utilizzata nella pratica in quanto non porta a risultati ottimali.La ragione risiede, nell’elevato numero di parametri da stimare attaverso le osservazionicampionarie, che da luogo ad una elevata varianza della funzione discriminante stimata, edi conseguenza ad una forte instabilita dei risultati.

L’analisi discriminante lineare. Qualora sia ragionevole, si assume che Σ0 = Σ1 = Σ. Intal caso la (2.11) si semplifica molto. Notando che

µT1 Σ−1µ1 − µT

0 Σ−1µ0 = (µ1 − µ0)Σ−1(µ1 + µ0)

dopo alcuni passaggi la (2.11) si modifica nella seguente:

R(x) = (µ1 − µ0)TΣ−1[x− 1

2(µ1 + µ0)].

Di conseguenza, la (2.2) diventa:

A1 = {x | R(x) > log s}.Si noti che la funzione R(x) e una funzione lineare delle x, ed e pertanto nota comefunzione discriminante lineare. Indicando infatti con α = (α1, α2, . . . , αp) il vettore riga(µ1 − µ0)TΣ−1 e con α0 = −1

2(µ1 − µ0)TΣ−1(µ1 + µ0) possiamo scrivere l’insieme A1

come:A1 = {x | α0 + α1x1 + . . . + αpxp > log s}.

2.6 La stima della funzione discriminante

Nel paragrafo precedente abbiamo determinato la migliore partizione dello spazio A sottol’ipotesi che le variabili casuali X abbiano una distribuzione normale multivariata. Le fun-zioni discriminanti cosı determinate sono funzione dei parametri µr e Σr, se quadratica, µr,Σ nel caso lineare.

Page 15: Analisi matrici dati

E.Stanghellini – Dispense di Statistica IV 15

Spesso, tuttavia, questi parametri non sono noti e devono essere stimati attraversodue campioni casuali estratti da P0 e P1. In questo lavoro facciamo esplicito riferimentoall’approccio detto plug-in.

L’approccio plug-in consiste nel derivare le stime di massima verosimiglianza di µi eΣi e sostituirle nella funzione discriminante arrivando cosı ad una funzione discriminantestimata.

Sia n0 la numerosita del campione casuale estratto da P0 di osservazioni e n1 la numerositadel campione casuale estratto da P1. Siano xr e Vr, r ∈ {0, 1}, le stima dei parametridelle due popolazioni come derivate al paragrafo precedente. La funzione discriminantequadratica stimata ha espressione:

Q(x) = 12log | V0 | / | V1 | − 1

2[xT (V−1

1 −V−10 )x− 2xT (V−1

1 x1 −V−10 x0)+

+xT1 V−1

1 x1 − xT0 V−1

0 x0].

Nel caso lineare, invece, Σ0 = Σ1 = Σ. I parametri da stimare sono pertanto i vettori µr,r ∈ {0, 1}, e la matrice delle varianze e delle covarianze Σ.

In tal caso la funzione discriminante lineare stimata sara:

R(x) = (x1 − x0)TS−1[x− 12(x1 + x0)]. (2.12)

con S come in (2.10). Ponendo ora α = (α1, α2, . . . , αp) il vettore riga (x1 − x0)TS−1 e conα0 = −1

2(x1 − x0)TS−1(x1 + x0) possiamo scrivere la funzione discriminante lineare come:

R(x) = α0 + α1x1 + . . . + αpxp.

La stima della matrice delle varianze e covarianze e molto sensibile alla presenza di valorianomali (si veda ad esempio Azzalini e Scarpa, 2004, cap. 5). Un filone di ricerca riguarda losviluppo di metodi robusti di stima, ovvero metodi di stima poco sensibili ai valori anomali.

2.7 La selezione delle variabili

In analogia con il problema della selezione delle variabili in un modello logistico, anchenel contesto dell’analisi discriminante si pone il problema di evidenziare le variabili la cuicapacita discriminante e elevata togliendo quelle la cui influenza e irrilevante.

Le procedure per la selezione del modello si differenziano a seconda della natura dellevariabili inserite nella funzione discriminante. Se l’ipotesi di normalita puo essere accettata,allora queste si basano su test statistici. In questo paragrafo descriviamo alcuni test chesono basati sulla ipotesi di normalita delle variabili (si veda ad esempio Anderson, 2003,capp. 6-10, per una rassegna completa). Una prima analisi puo basarsi su test univariati,quali il test T di Student per la uguaglianza fra medie di due popolazioni.

Siano µ0j e µ1j il valore atteso di Xj nelle due popolazioni e σ20j e σ1j la varianza

nelle due popolazioni. Si ponga σ20j = σ1j . Il test T di Student sottopone a test l’ipotesi

Page 16: Analisi matrici dati

16 E.Stanghellini – Dispense di Statistica IV

H0 : µ0j = µ1j contro l’alternativa H1 : µ0j 6= µ1j . Infatti, la statistica

t =x1j − x0j√sjj( 1

n0+ 1

n1)

in cui si e indicato con sjj il j-esimo elemento sulla diagonale principale di S, ha distribuzioneT di Student con n0 + n1 − 2 gradi di liberta. Si rifiuta H0 se il valore di osservato di T eelevato in modulo. In caso di numerosita campionaria elevata, questo test si puo utilizzareanche quando l’ipotesi di normalita non vale e le varianze delle due popolazioni sono diverse.In tal caso la statistica test T ha una distribuzione asintotica normale (si veda Cicchitelli,2002, cap. 8).

L’estensione multivariata del test precedente e nota come test T 2 di Hotelling per l’ipotesiH0 : µ0 = µ1 di uguaglianza fra vettori di medie in due popolazioni con uguale matricedelle varianze e covarianze contro l’alternativa H1 : µ0 6= µ1(si veda Mardia, Kent e Bibby,1979, cap. 3). Esso si basa sulla seguente distanza standardizzata fra vettori di medie didue popolazioni:

∆2 = (µ1 − µ0)TΣ−1(µ1 − µ0)

nota come distanza di Mahalanobis. La sua stima campionaria puo farsi attraverso lagrandezza D2, pari a:

D2 = (x1 − x0)TS−1(x1 − x0).

La statisticaT 2 =

n0n1

nD2

si distribuisce sotto H0 con distribuzione detta di Hotelling. Si verifica inoltre, che una suasemplice trasformazione monotona si distribuisce come una F -di Fisher con gradi di libertapari p e n−p−1. Valori elevati della statistica T 2 (o della F di Fisher) portano al rifiuto diH0. Questo test viene utilizzato nel contesto in studio per valutare la capacita discriminantedi un vettore di variabili congiuntamente considerate.

Se l’ipotesi di normalita non puo essere accettata, allora si basano su criteri empirici. Ilcriterio empirico maggiormente utilizzato e la minimizzazione della frequenza dell’errore diclassificazione, sia esso nel campione di derivazione o nel secondo campione di validazione.Esso viene calcolato attraverso la tabella di confusione, descritta nel paragrafo successivo.

Talvolta, quando il campione di validazione non e disponibile, la frequenza dell’errore diclassificazione viene calcolata eliminando una unita del campione. Si procede alla stimadella funzione discriminante senza tale unita e si riclassifica l’unita esclusa. Il procedimentodi ripete per ogni unita del campione e al termine si valuta la frequenza di unita classificatemale. Questo criterio e dovuto a Lachenruch ad Mickey (1968) ed e noto com jackknifing ocross-validation.

2.8 Lo score e la tabella di confusione

Nelle applicazioni, i parametri α vengono sostituiti dalle loro stime, ottenute con i metodidiscussi in precedenza.

Page 17: Analisi matrici dati

E.Stanghellini – Dispense di Statistica IV 17

0 0.5 1 1.5 2 2.5 3 3.5 4−0.5

−0.4

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

0.5

RI.AT

FC

R.P

TP

Default Sane

Figura 2.2: Funzione discriminante lineare e dati reali.

Si definisce score il valore formato dalla funzione si = αTxi. In pratica, un soggettoviene assegnato a P1 se lo score si e superiore a s. Altrimenti, esso viene classificato in P0.

Si riclassifichino le unita nel campione di validazione nel seguente modo. Si costruiscala variabile Flag stimata che vale 1 se lo score di una unita e maggiore di s e 0 altrimenti.Si costruisca la seguente tabella 2× 2 detta di confusione:

Flag stimata TotaleFlag 0 1

0 a b a+b1 c d c+d

Totale a+c b+d 1

Sulla diagonale principale sono riportate le frequenze relative di unita correttamente classifi-cate. Fuori diagonale, invece, sono riportate le frequenze relative di unita classificate male.La somma b+c e la stima della probabilita di errore. Le grandezze b/(a+b) e c/(c+d) sonostime delle probabilita di errore: la prima e la probabilita di assegnare ai buoni un cattivoe la seconda e la probabilita dell’errore contrario.

Tuttavia, se sono calcolate attraverso lo stesso campione su cui e stata effettuata la sottosti-ma esse tendono a fornire valori ottimisti. Si noti che aumentando la soglia s si aumenta laprobabilita che le unita che provengono da P0 siano classificate correttamente ma diminuiscela probabilita che quelle che provengono da P1 siano classificate correttamente.

Nel caso di due variabili, la funzione discriminante puo essere rappresentata attraverso unaretta. In figura 2.2 e riportata la retta che corrisponde alla funzione discriminante lineareper i dati introdotti nel precedente grafico. La funzione e calcolata ponendo s = 1 (ovverolog s = 0). Un eventuale innalzamento della soglia va ad influire sulla intercetta della retta,

Page 18: Analisi matrici dati

18 E.Stanghellini – Dispense di Statistica IV

aumentandola. Viceversa, un abbassamento della soglia va a diminuire l’intercetta.

Si vede dal grafico che, nel campione, la proporzione di imprese sane classificate male e 3/25,mentre quella delle imprese insolventi e 2/24. Questi valori sono sottostime delle probabilitareali di compiere gli errori di classificazione.

ESERCIZIO 2.1 Si dimostri che∑

i(xi − x)TΣ−1(x− µ) = 0.

Essendo Σ−1(x− µ) costanti rispetto all’indice della sommatoria, l’espressione sopra sipuo riscrivere come [

∑i(xi − x)T ]Σ−1(x − µ), ed essendo

∑i(xi − x) =

∑i xi − nx = 0 il

risultato segue.