Analisi multivariata Parte 3 : Statistica...

6
Parte 3 : Parte 3 : Statistica multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Analisi multivariata Introdurre tante variabili in un’analisi non ha molto senso, né al livello biologico, né al livello statistico. ! Il modello diventa troppo complesso. ! Diventa difficile interpretare i risultati. ! Le stime dei parametri diventano molto instabili. ! Più parametri inseriamo, più osservazioni ci vogliono per stimarli. Cercare di capire le relazioni che intercorrono tra le variabili Cercare di capire le relazioni che intercorrono tra le variabili Eliminiamo le variabili che sono molto correlate tra di loro. Eliminiamo le variabili che sono molto correlate tra di loro. Se due variabili sono molto correlate, allora l’informazione di una è contenuta quasi completamente nell’altra. Statistica multivariata Statistica multivariata ! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori ! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi x nm x n2 x n1 n x 2m x 22 x 21 2 x 1m x 12 x 11 1 Var. m Var. 2 Var. 1 Dati multivariati Dati multivariati Unità statistiche Variabili statistiche osservazioni, rilevazioni, … Matrice dei dati Matrice dei dati (n!m) : n righe, m colonne con n!m valori Misure di concordanza Misure di concordanza Voglio un indice (una misura) che mi dica il grado di concordanza tra i valori di una variabile X con quelli di una variabile Y. Concordanza positiva Concordanza negativa Assenza di concordanza x nm x n2 x n1 n x 2m x 22 x 21 2 x 1m x 12 x 11 1 Var. m Var. 2 Var. 1 Covarianza Covarianza Unità statistiche Variabili statistiche x .1 x .2 x .m Covarianza : indice della relazione (lineare) tra due variabili k

Transcript of Analisi multivariata Parte 3 : Statistica...

Page 1: Analisi multivariata Parte 3 : Statistica multivariatabrazzale/ftp/BioSan/A.A.2009-2010/lezioni/StatApp... · Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate

Parte 3 : Parte 3 :

Statistica multivariataStatistica multivariata

Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa

gestirle tutte e capirne le relazioni.

Analisi multivariataAnalisi multivariata

Introdurre tante variabili in un’analisi non ha molto senso, né al livello biologico, né al livello statistico.

! Il modello diventa troppo complesso.

! Diventa difficile interpretare i risultati.

! Le stime dei parametri diventano molto instabili.

! Più parametri inseriamo, più osservazioni ci vogliono per stimarli.

Cercare di capire le relazioni che intercorrono tra le variabiliCercare di capire le relazioni che intercorrono tra le variabili

Eliminiamo le variabili che sono molto correlate tra di loro.Eliminiamo le variabili che sono molto correlate tra di loro.

Se due variabili sono molto correlate, allora l’informazione di una è contenuta quasi completamente nell’altra.

Statistica multivariataStatistica multivariata

! Analisi fattoriale

analisi (prevalentemente) simmetrica

rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori

! Regressione multipla analisi asimmetrica

formulare opportuni modelli descrittivi/interpretativi

xnm…xn2xn1n

……………

x2m…x22x212

x1m…x12 x111

Var. m…Var. 2Var. 1

Dati multivariatiDati multivariatiU

nit

à s

tati

stic

he

Variabili statistiche

osservazioni, rilevazioni, …

Matrice dei datiMatrice dei dati (n!m) : n righe, m colonne con n!m valori

Misure di concordanzaMisure di concordanzaVoglio un indice (una misura) che mi dica il grado di concordanza tra i valori di

una variabile X con quelli di una variabile Y.

Concordanza positiva Concordanza negativa

Assenza di concordanza

xnm…xn2xn1n

……………

x2m…x22x212

x1m…x12 x111

Var. m…Var. 2Var. 1

CovarianzaCovarianza

Un

ità

sta

tist

ich

e

Variabili statistiche

x.1 x.2 x.m

Covarianza : indice della relazione (lineare) tra due variabili

k

Page 2: Analisi multivariata Parte 3 : Statistica multivariatabrazzale/ftp/BioSan/A.A.2009-2010/lezioni/StatApp... · Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate

CorrelazioneCorrelazione

Varianza : indice di dispersione

Covarianza : indice di relazione

Correlazione : indice di relazione normato

k

k

k

Matrice di covarianzaMatrice di covarianza

Diagonale principale: varianza della variabile ima

Altre celle: covarianza tra variabili

Quadrata e simmetrica

… e se le variabili sono di tipo qualitativo ?

AssociazioneAssociazione

… tra due variabili quantitative:

indice di correlazione

… tra due variabili qualitative:

indice del chi-quadro

… tra variabile quantitativa e qualitativa:

Sia X categoriale con categorie 1, 2, …, k.

Sia Y numerica.

Allora:

dove le Yi sono le medie dei valori di Y a cui è associata la modalità

ima della variabile X.

chi-quadrochi-quadro

– – indici di associazione –indici di associazione –

Coefficiente !

Coefficiente di contingenza

Coefficiente "

Coefficiente V di Cramér

# di Kendall

D di Somers

nominali ordinali

Analisi della varianza ad una viaAnalisi della varianza ad una via

Assumendo:

• indipendenza dei campioni e delle osservazioni

• normalità dei dati

• varianze all’interno dei k gruppi uguali (test F/test di Levene)

Varianza entro gruppi

$2w

Varianza tra gruppi

$2B

F = $2B / $

2w ~ Fk-1, n-k

Statistica multivariataStatistica multivariata

! Analisi fattoriale

analisi (prevalentemente) simmetrica

rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori

! Regressione multipla analisi asimmetrica

formulare opportuni modelli descrittivi/interpretativi

Page 3: Analisi multivariata Parte 3 : Statistica multivariatabrazzale/ftp/BioSan/A.A.2009-2010/lezioni/StatApp... · Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate

Metodi multivariati - 1Metodi multivariati - 1

Riduzione di dimensione

Analisi di raggruppamento

Analisi discriminante

Analisi fattoriale

tecnica descrittiva

- analisi di segmentazione/cluster

- analisi interna

(unsupervised learning) tecnica predittiva

- classificazione

(machine/supervised learning)

! componenti principali (PCA)

! multidimensional scaling (MDS)

Ross et al. (2000) Nature Gen. 24:227-235

Alizadeh et al. (2000)Nature 403: 503-511

Metodi multivariati - 2Metodi multivariati - 2

Regressione lineare

Regressione logistica

Dati di sopravvivenza

Regressione multipla

- risposta continua

- predittori continui/categoriali

- risposta binaria

- predittori continui/categoriali

- dati di durata

- predittori continui/categoriali

Modello di regressione Modello di regressione

Quando ho una variabile risposta Y e tante variabili esplicative Xi , si può ipotizzare di “spiegare” la relazione tra Y e le Xi attraverso un modello lineare (nei parametri).

Y = %0 + %1 X1 + %2 X2 + " + %k Xk + &

Qui & è la componente casuale che si suppone abbia media nulla e varianza costante pari a $

2.

Caso univariato semplice

Y = %0 + %1 X1 + &

Caso multivariato

Minimi quadratiMinimi quadrati

Come stimare i parametri ?

Metodo dei minimi quadrati (MMQ)

Logica – Rendiamo minima la differenza tra i valori osservati (blu) e quelli predetti dal modello (rossi):

min 'i [ yi – (%0 + %1 X1i + %2 X2i + " + %k Xki )]2

Nel caso univariato semplice lavoriamo in un piano; man mano che aumentano le Xi aumentano le

dimensioni dello spazio.

Esempio: y = %0 + %1 x1 + %2 x2 + & Lavoriamo in 3 dimensioni.

Page 4: Analisi multivariata Parte 3 : Statistica multivariatabrazzale/ftp/BioSan/A.A.2009-2010/lezioni/StatApp... · Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate

Minimi quadratiMinimi quadrati

Come stimare i parametri ?

Metodo dei minimi quadrati (MMQ)

Minimi quadratiMinimi quadrati

Caso monovariato (una sola variabile esplicativa):

Y = %0 + %1 X1 + &

Allora, in base al MMQ:

b0 = y – b1 X1

b1 =Cov(X,Y)

Var(X)

Caso multivariato:b = (X!X)-1

X!y

dove X è la matrice dei dati.

xnm…xn2xn1n

………… …

x2m…x22x212

x1m…x12 x111

Var. m…Var. 2Var. 1

Analisi di regressione Analisi di regressione Il mio modello è un buon modello ?

R2

È la percentuale della variabilità spiegata dal modello rispetto alla variabilità totale. Più tende a 1 più il modello è buono.

Test sui parametri

Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se

H0 : %i = 0

non è rifiutata allora la variabile può essere eliminata senza perdita di informazione.

Analisi grafica dei residui

I residui ottenuti dal modello, in base al modello che abbiamo utilizzato, dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci aspettiamo che siano omogeneamente distribuiti intorno allo zero.

Analisi dei residui Analisi dei residui

Residui vs. xi

Residui vs. valori predetti

Deviazioni dalla casualità indicano una specificazione errata

del modello.

Analisi dei residui Analisi dei residui

Q-Q plot

Una terza condizione necessaria per poter fare inferenza sul modello (parametri e R2) è la NORMALITÀ del termine d'errore.

Confondente vsConfondente vs

Modificatore d'effetto (interazione)Modificatore d'effetto (interazione)

M

M

FF

M

Page 5: Analisi multivariata Parte 3 : Statistica multivariatabrazzale/ftp/BioSan/A.A.2009-2010/lezioni/StatApp... · Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate

Confondente vsConfondente vs

Modificatore d'effetto (interazione)Modificatore d'effetto (interazione)

F

F

M

M

Scelta del modello Scelta del modello

Y = %0 + %1 X1 + %2 X2 + … + %k Xk + &

Quante e quali variabili inserire nel modello quando se ne hanno a disposizione molte ?

Regressione step-wise

Y = %0 + %1 X1 + &

1. Parto dal modello con una variabile:

… e man mano ne aggiungo un'altra. Se l’inclusione della variabile è significativa, la tengo; altrimenti, la scarto.

2. Parto dal modello completo:

… e man mano ne levo una. Se l’esclusione della variabile è significativa, la tengo; altrimenti, la scarto.

Y = %0 + %1 X1 + %2 X2 + … + %k Xk + &

forward

backward

Modello di regressioneModello di regressionecasi particolaricasi particolari

E se la variabile (o le variabili) X sono delle variabili categoriali (fattori) ?

Il modello lineare non è altro che un'analisi della varianza ad una o a più vie.

Yij = %0 + (i + %j + &ij

In questo caso la matrice X è una matrice di “dummies” (cioè di zeri e uno).

Età e sintomi di malattia coronarica (CHD)

Modello di regressione Modello di regressione logistico logistico

Le analisi fatte finora sono valide se Y è una variabile numerica.

E se non lo fosse ?

Età CHD Età CHD Età CHD

22 0 40 0 54 023 0 41 1 55 124 0 46 0 58 127 0 47 0 60 128 0 48 0 60 030 0 49 1 62 130 0 49 0 65 132 0 50 1 67 133 0 51 0 71 135 1 51 1 77 138 0 52 0 81 1

Modello di regressione logisticoModello di regressione logisticografico di dispersione / a punti

Modello di regressione logisticoModello di regressione logisticotabella della prevalenza %

0

20

40

60

80

100

0 1 2 3 4 5 6 7

Malati %

Età (anni)

Divido in classi d’età.

Utilizzo le percentuali

all’interno delle classi.

Y = 0 con probabilità )

1 con probabilità 1-)

Malati

Gruppo d’età # in gruppo # %

20 -29 5 0 0

30 - 39 6 1 17

40 - 49 7 2 29

50 - 59 7 4 57

60 - 69 5 4 80

70 - 79 2 2 100

80 - 89 1 1 100

Page 6: Analisi multivariata Parte 3 : Statistica multivariatabrazzale/ftp/BioSan/A.A.2009-2010/lezioni/StatApp... · Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate

0.0

0.2

0.4

0.6

0.8

1.0

Modello di regressione logistico Modello di regressione logistico

ln[ P# y$x %1&P# y$x % ]= + x! "

logit of P(y|x)

Probabilità di malattia

x

P # y$x %=e

+ x! "

1 +e + x! "

" Transformazione semplice di P(y|x)

" Relazione lineare con x ...

" ... e continua (logit tra - ' to + ')

" Distribuzione nota: binomiale (P tra 0 ed 1)

" Diretto legame con la nozione di odds di malattia

Vantaggi del logit

ln [ P # y$x %

1&P # y$x % ]= + x! "

oddsd$e

= e+! "

oddsd$(e

= e!

Interpretazione di %

OR = e

+! "

e! = e

"

ln #OR % = "

P # y$x=1 %

1&P # y$x=1 %

P # y$x=0 %

1&P # y$x= 0 %

Esposizione (x)

Malati (y) Si No

Si

No

EsempioRischio di sviluppare malattia delle arterie coronarie in accordo con

età (< 55 e 55+ anni)

Modello di regressione logistico

ln #P1 -P % = + Age = ! " &0 .841 + 2.094 Age

CHD 55+ (1) < 55 (0)

Present (1) 21 22

Absent (0) 6 51

Odds of disease among exposed = 21/6Odds of disease among unexposed = 22/51 Odds ratio = 8.1

Coefficient SE Coeff/SE

Age 2.094 0.529 3.96Constant -0.841 0.255 -3.30

Log-odds = 2.094

OR = e2.094 = 8.1

Regressione logistica multipla

) Più di una variabile indipendente

⇒ dicotomica, ordinale, nominale, continua, …

) Interpretazione di %i

⇒ incremento del log odds per un incremento unitario di

xi con tutte le altre xj constanti