Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email:...

29
Lezione #01 Strumenti statistici per l’analisi di dati genetici Luca Tardella + Maria Brigida Ferraro 1 email: [email protected] Lezione #1 – Introduzione al software R al suo utilizzo per l’implementazione di tecniche statistiche elementari 21 marzo 2014

Transcript of Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email:...

Page 1: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Strumenti statistici per l’analisi di dati genetici

Luca Tardella + Maria Brigida Ferraro

1email: [email protected]

Lezione #1 – Introduzione al software R al suo utilizzo per l’implementazione di tecnichestatistiche elementari

21 marzo 2014

Page 2: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Premessa

Presentazione del corso

Ricognizione degli strumenti statistici appresi finora

Prova finale

Introduzione al reperimento ed installazione del software R

Come documentarsi sul suo utilizzo

Lettura di dati, manipolazione e scrittura su file dei risultati.

Due grandi categorie delle metodologie statistiche: descrittive edinferenziali

Descrizione ed inferenza in pratica con R

La probabilita e la simulazione con R

La scrittura di un semplice report statistico

Alcuni piccoli casi di studio

Page 3: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Piano delle lezioni

Lezione #1 del 21/03/2014 - LT - Introduzione al software R;Descrittiva; Test

Lezione #2 del 04/04/2014 - LT - Regressione; ANOVA

Lezione #3 del 11/04/2014 - MBF - Cluster (algoritmi e modelli)[cluster, mclust] ;

Lezione #4 del 16/05/2014 - LT - Preprocessing e modelli perespressione differenziale [Trascrittomica, limma]

Lezione #5 del 21/03/2014 - LT - classificazione supervisionata;SVM

Page 4: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Dalla lettura dei dati alla comprensione del contenuto dellevariabili

La prima grande distinzione da operare e legata alla tipologia dei dati:

Dati qualitativi o su scala nominale (factor) [talvolta ordinabile]

Dati quantitativi: discreti o continui

Completezza dei dati, valori fuori scala e anomalie

Page 5: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Riorganizzazione dei dati

Dobbiamo attrezzarci per poter selezionare in maniera opportuna solo lerighe e le colonne che ci interessano utilizzando opportuni criteri diselezione.

Possiamo usare un’interfaccia grafica come Rcmdr (R-commander)

subset(x, subset= ... , select = ... )

order, arrange:plyrPotremmo aver bisogno di eliminare colonne e/o righePotremmo aver bisogno di usare un criterio di ordinamento delle righe odelle colonne.

Page 6: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Per una lettura sintetica delle singole variabili ....

Possiamo usare:

tabelle

grafici

valori riassuntivi che colgono alcuni aspetti caratteristici di unadistribuzione (posizione privilegiata/centrale, dispersione ovariabilita, asimmetria)

Page 7: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Tabelle

per variabili discrete [con poche modalita]

per variabili continue [con tante modalita, con infinite modalita]

Suggerimento estetico: usare un pacchetto aggiuntivo denominatoepicalc e le funzioni tab1 [1 sola variabile] e tabpct [2 variabili]

Page 8: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Valori riassuntivi

Se dobbiamo comunicare pochi numeri per descrivere un’interadistribuzione quali comunichiamo? con quale significato?

misure di posizione, tendenza centrale

mean(...)

median(...)

quantile(...)

Per la moda e un po’ piu complicato ..... dovremmo passare talvoltaper i grafici ...qualche volta molti indici di posizione .... (Five-number summary →vedi anche boxplot(...))

var(...) o meglio sd(...)

Ricordiamo anche la differente robustezza di alcuni indicatori rispetto adati anomali ....

N.B. Ne il boxplot ne l’istogramma o la stima di densita sono in grado divisualizzare un’importante informazione sulla distribuzione dei dati:quale?

Page 9: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Rappresentazioni grafiche

per dati qualitativi: torte (pie, pie3D plotrix) o grafici abarre/nastri (barplot).

per dati discreti con poche modalita quantitative

per dati continui (istogramma hist) con possibilita di sovrapporreversione allisciata ottenuta con density [attenzione pero che l’areatotale sotto la curva e 1 e dunque questo deve valere anche perl’istogramma!!

boxplot

Page 10: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

A cosa servono le rappresentazioni sommarie/sintetiche

Delle distribuzioni semplici (di 1 sola variabile)

per fare confronti ...

... che servirono anche .... per introdurre la nozione di dipendenzastatistica

Page 11: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Distribuzioni multiple

Iniziamo da due variabili (distribuzioni doppie)Per variabili qualitative

table(x=X,y=Y)

tabpct(x=X,y=Y) [epicalc mosaic plot]visualizza o le distribuzioni percentuali di riga (distribuzionicondizionate ad un valore della variabile X) o le distribuzionipercentuali di colonna (distribuzioni condizionate ad un valore dellavariabile Y)[puo essere utilizzata anche per variabili quantitative discrete connumero piccolo di modalita oppure continue raggruppate in classi]

scatterplot, nuvola di punti o grafico a dispersionedall’orientamento della nuvola di punti si evince una qualche formadi dipendenza statistica (e.g. relazione lineare o non lineare)

estensione della stima di densita in 2 dimensioni (grafico 3d):kde2d(...) MASS

Page 12: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Distribuzioni multiple

Se tutte le variabili sono quantitative possiamo visualizzare un interodata.frame ma in realta visualizziamo solo le distribuzioni doppie ditutte le possibili coppie di variabili

Page 13: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Indici sintetici di dipendenza tra due variabili

ed altre possibili visualizzazioni ...

tra due variabili qualitative con numero finito di modalita: indice X 2

(chi-quadrato) misura in qualche modo la ’lontananza’ dallasituazione ideale di variabili indipendenti per le quali dovrebbepresentarsi una tabella doppia in cui le frequenze relative delladistribuzione doppia corrispondono al prodotto delle frequenzerelative delle distribuzioni marginali

tra due variabili quantitative: indice di correlazione lineare (diBravais-Pearson). Indice fondamentale nello studio della dipendenzatra variabili quantitative

una variabile quantitative rispetto ad una qualitativa: boxplotappaiati, nozione di variazione delle distribuzioni condizionate, indicidi dipendenza in media (ANOVA)

Page 14: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Indici sintetici di dipendenza tra due variabili

Page 15: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Distribuzioni multiple

Se tutte le variabili sono quantitative possiamo visualizzare un interodata.frame ma in realta visualizziamo solo le distribuzioni doppie ditutte le possibili coppie di variabili.In effetti un modo sintetico di rappresentare graficamente le reazioni didipendenza tra le coppie simultaneamente consiste nel rappresentare lamatrice di correlazione attraverso il cosiddetto corrplot corrplotUn altro modo sara quello di visualizzare le relazioni di dipendenzaattraverso delle reti di dipendenza o grafi

Page 16: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Coefficiente di correlazione e coefficiente di correlazioneparziale

Il primo rXY riguarda solo la distribuzione doppia delle due variabili X eY coinvolte. E interessante e caratterizzante quando raggiunge i duevalori estremi ±1 (perfetta relazione lineare).

Il secondo rXY .Z tiene conto non solo delle due variabili X e Y ma anchedella loro dipendenza con le altre variabili considerate indicate conZ = (Z1, ...,Zk). Tipicamente le Z sono tutte le altre variabiliquantitative considerate tranne la X e la Y . Tale indice che varia sempretra -1 e 1 e interessante soprattutto quando assume valore 0(indipendenza di X da Y condizionatamente alla conoscenza delle altrevariabili Z)

[Conoscete gia la nozione di regressione lineare?]

Page 17: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Il coefficiente di correlazione lineare

E’ una misura di concordanza che si calcola esclusivamente qandoabbiamo a disposizione due caratteri entrambi di tipo quantitativo.In effetti non e altro che un caso particolare dell’indice Ω (vedi successiviapprofondimenti) ma e meglio noto con le seguenti formule:

rXY =Cov [X ,Y ]√

Var [X ]Var [Y ]=

σXY√σ2X σ

2Y

=σXYσX σY

dove Cov [X ,Y ] (indicato, spesso, anche con il simbolo σXY e lacovarianza tra X e Y .

Cov [X ,Y ] =1

n

n∑i=1

(xi − x)(yi − y) =1

n

n∑i=1

εxi εyi =1

n

[n∑

i=1

(xiyi )

]− x y

Var [X ] =1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

ε2xi

Var [Y ] =1

n

n∑i=1

(yi − y)2 =1

n

n∑i=1

ε2yi

εxi = (xi − x) e lo scarto dalla media e analogamente εyi = (yi − y)

Page 18: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Il significato della covarianza

Cov [X ,Y ] =1

n

n∑i=1

(xi − x)(yi − y)

Si valuta con un indicatore medio il prodotto tra

la differenza tra la modalita del carattere X e la media di X

la differenza tra la modalita del carattere Y e la media di Y

Il prodotto ha un significato analogo a quanto visto per il numeratore diΩ con la differenza che i confronti non vengono fatti tra coppie di unitama tra la singola unita e un termine di riferimento (la media).Per capire e utile riferirsi alla nuvola dei punti nella quale vengonoevidenziate le linee delle medie dei due caratteri e i quadranti checontribuiscono positivamente e negativamente nella valutazione dellacorrelazione (concordanza)

Page 19: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

160 165 170 175 180

6065

7075

80

A=statura

B=

peso

−−+

+−−

> plot(A,B,xlim=c(160,180),ylim=c(60,80))

> abline(v=mean(A),col=’red’)

> abline(h=mean(B),col=’blue’)

Page 20: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Ancora una formula di r per distribuzioni di frequenzedoppie

Solo per non confondersi nella pratica: un conto e partire dalladistribuzione unitaria un conto e usare una distribuzione di frequenze∑H

h=1

∑Kk=1 xhyknhk − nx y√∑H

h=1(xh − x)2nh·

√∑Kk=1(yk − y)2n·k

(Si puo utilizzare come al solito anche per il calcolo di r quando si ha adisposizione la tabella doppia dei dati raggruppati in classi)

In effetti, di regola, disponiamo dei dati a livello individuale (distribuzioneunitaria doppia)

Page 21: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Come interpretare r: primo passo

Sul significato del numeratore abbiamo gia detto. Il ruolo deldenominatore e quello di standardizzare l’indice di correlazione.

r2 ≤ 1

ovvero−1 ≤ r ≤ +1

r = 0 =⇒ X e Y sono incorrelati linearmente r = −1 =⇒ X e Ymassimamente correlati linearmente negativamente r = +1 =⇒ X e Ymassimamente correlati linearmente positivamenteIl segno di r e facilmente interpretabile alla luce del significato diconcordanza e discordanza. Per qunto riguarda il valore numerico, averevalori di r su in intervallo di riferimento standard r ∈ [−1,+1] aiuta acalibrare la valutazione di r (ovvero rispondere a domande del tipo: c’etanta correlazione lineare? ce ne e poca?)

Page 22: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Come interpretare r : prima avvertenza

Attenzione la terminologia non e casuale!r e il coefficiente di correlazione lineare (!)Nel linguaggio scientifico il termione correlazione viene utilizzato in sensogenerico. Nella statistica il coefficiente r e una misura della correlazioneed ha un senso specifico da non confondere ad esempio con la nozione didipendenza in distribuzione tra deu variabili. Perche si chiama dicorrelazione lineare?Il coefficiente di correlazione lineare r assume il valore estremopositivo, +1, se e soltanto se i punti della nuvola sonoperfettamente allineati lungo una retta (ideale) inclinatapositivamenteIl coefficiente di correlazione lineare r assume il valore estremonegativo, -1, se e soltanto se i punti della nuvola sonoperfettamente allineati lungo una retta (ideale) inclinatanegativamente

Page 23: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Analogamente per ogni coppia (i , j) vi e proporzionalita nelle variazioni dimodalita (differenze) dei due caratteri

δij = (bYi − bY

j ) ∝ dij = (aXi − aXj )

Se β e il coefficiente di proporzionalita

δij = βdij ⇐⇒ (bYi − bY

j ) = β(aXi − aXj )

e facile vedere che questo avviene quando i punti sono allineati lungo unastessa retta y = α + βx con coefficiente angolare β. In tali caso rassume valore estremi ovvero +1 quando β > 0 e −1 quando β < 0.

Page 24: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Come interpretare r : seconda avvertenza

Sui legami tra l’incorrelazione e indipendenza in distribuzione.Indipendenza in distribuzione =⇒ IncorrelazioneIncorrelazione =⇒/ Indipendenza in distribuzionePer esemplificare con un caso clamoroso la seconda affermazioneconsideriamo la seguente distribuzione (unitaria) doppia:

X Y-3 9-2 41 10 01 12 43 9

In effetti la Y dipende perfettamente dalla X dal momento che vale larelazione

Y = X 2

eppure il coefficiente di correlazione lineare r vale 0!

Page 25: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Incorrelazione e indipendenza in distribuzione

0 1 2 3 4 5 6

02

46

810

xindip

yind

ip

Indipendenti in distribuzione e dunque necessariamente incorrelati

0 1 2 3 4 5 6

02

46

810

xincor

yinc

or

Incorrelati ma non indipendenti in distribuzione

−3 −2 −1 0 1 2 3

02

46

8

xincor.max.dip

yinc

or.m

ax.d

ip

Incor.Max.Diprelati ma non indipendenti in distribuzione (anzi!)

Page 26: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Il coefficiente di correlazione parziale

Formula semplice nel caso di 3 variabili (ovvero una sola Z )

rXY .Z =rXY − (rXZ · rYZ )√1− r2XZ

√1− r2YZ

Misura il legame di dipendenza (lineare) delle due variabili di interesse Xe Y al netto dell’eventuale dipendenza lineare che e presente sia tra la Xe la Z sia tra la Y e la Z

Formula un po’ piu complessa nel caso siano presenti piu di 3 variabili macoincide con la nozione ordinaria di correlazione lineare tra i residuieXZ1 , ..., eXZ

n ottenutii dalle relazioni di regressione lineare stimate (minimiquadrati) tra la variabile X e le Z . i residui eYZ

1 , ..., eYZn ottenuti dalla

regressione di Y rispetto a Z .

Page 27: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Coefficienti di correlazione parziale e matrice dicorrelazione

Indichiamo con Σ la matrice di varianze e covarianze (generico elementoσij) e con R la corrispondente matrice di correlazione (generico elementorij) di una distribuzione multivariata.Se le corrispondenti matrici inverse sono indicate con i simboli Λ = Σ−1 eQ = R−1 allora il generico elemento pij della matrice delle correlazioniparziali P e deteminato dalle seguenti formule

pij = − λij√λiiλjj

= − qij√qiiqjj

Page 28: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

I coefficienti di correlazione parziali nulli e la distribuzionenormale (multipla)

Quando in una distribuzione normale (o gaussiana) multivariata per nvariabili (X1, ...,Xn) il coefficiente di correlazione lineare Cor [X ,Y ] enulla allora le due variabili (aleatorie) sono indipendenti tra loro

Quando in una distribuzione normale (o gaussiana) multivariata per nvariabili (X1, ...,Xn) il coefficiente di correlazione parziale Cor [Xi ,Xj |Z ] enullo allora le due variabili (aleatorie) sono indipendenti tra lorocondizionatamente alla conoscenza del vettore Z composto da tutte levariabili (X1, ...,Xn) tranne la Xi e la Xj

Page 29: Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email: luca.tardella@uniroma1.it Lezione #1 { Introduzione al software R al suo utilizzo per l’implementazione

Lezione #01

Esempio simulato

Un esempio simulato per capire meglio

> Z=runif(30)

> X=2*Z+rnorm(30,sd=0.5)

> Y=-Z+rnorm(30,sd=0.5)