STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche...

59
STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche

Transcript of STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche...

Page 1: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

STATISTICAL THINKING

Corso diBiologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche

Page 2: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Statistica

Spesso si risponde alle incertezze proprie della pratica clinica e di laboratorio con il rifiuto dell’approccio probabilistico.

La pratica quotidiana è però un continuo confronto con la probabilità.

Gran parte degli aspetti clinici sono basati sulla statistica.

Page 3: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Statisticamente scorretto

● 11.6% (21 of 181) and 11.1% (7 of 63) of the statistical results published in Nature and BMJ respectively during 2001 were incongruent .

● At least one error appeared in 38% and 25% of the papers of Nature and BMJ, respectively.

● The conclusion would change from significant to non significant in about 4% of the errors

(BMC Med Res Methodol. 2004; 4: 13)

Page 4: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Perchè la statistica?● Misurando due volte la stessa cosa si ottengono di

solito due risposte diverse.● Eterogeneità: è un concetto universale nella

scienza.● I tue tipi principali di eterogeneità sono:

l'eterogeneità spaziale e temporale.● Abbiamo la necessità di conoscere un modo per

discriminare tra variazioni scientificamente interessanti e variazioni che riflettono eterogeneità di background.

Page 5: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Significatività

● Se ci attendiamo che la variazione osservata non sia maggiore di quella che ci saremmo attesi per “caso” diremo che il risultato è non significativo.

● Non significativo non significa non differente.

Page 6: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Buone ipotesi e cattive ipotesi

K. Popper è stato il primo ad osservare che una buona ipotesi è un'ipotesi falsificabile.

Tra le seguenti quale scegliereste come ipotesi di lavoro:

● Le LAM M3 hanno t(15;17)● Le LAM M3 non hanno t(8;21)

Assenza di evidenza non significa evidenza d'assenza

Page 7: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

p value

Il p value è una misura della probabilità che la differenza osservata sia casuale condizionato al fatto che l'ipotesi zero (nessuna differenza) sia vera.

Nel caso p sia inferiore ad una soglia arbitraria si reietta l'ipotesi zero.

La reiezione dell'ipotesi zero non implica che l'ipotesi zero sia falsa

Page 8: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Modello statistico

Il ricercatore cerca il modello statistico minimo (rasoio di Ockham) che descriva meglio i dati.

Il modello migliore produce la deviazione residua minima.

Il risultato di un'analisi può generare numerosi modelli distinti che descrivono correttamente i dati

Page 9: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Massima verosimiglianza

Il parametro di un modello fitta bene i dati quando applicato esso rende verosimile il modello.

Consideriamo un modello lineare tra le variabili x e y.

y ax

Il coefficiente angolare del modello di sinistra non è verosimile, quello di destra si.

x x

y yy a1 x

y a2 x

Page 10: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

PROBABILITA'

Page 11: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Probabilità

● Il concetto di probabilità è intuitivo poichè gran parte dell'esperienza è basata su di essa.

p=n/N● Per trattare problemi complessi sono necessari

strumenti teorici che operino sulla probabilità in termini formali: definizione assiomatica della probabilità e algebra.

Page 12: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Spazio campione, eventi

● L'insieme di tutti i possibili esiti di un esperimento è lo spazio campione S.

S={aa, ac, ag, at, ca, ..., tg, tt}

S={dinucleotidi xy presenti in DNA | x,y=a,c,g,t}● Un evento è un sottoinsieme di S.

A={aa,cc,gg,tt}

A={dinucleotidi di tipo xx|x=a,c,g,t}

Page 13: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Assiomi, eventi indipendenti

Dati gli eventi A e B dello spazio campione S:● p(S) = 1

● 0 ≤ p(A) ≤ p(S) = 1

● Se A e B sono indipendenti,

p(A U B) = p(A) + p(B)

Qual è la probabilità che un frammento casuale di DNA di 2 paia di basi contenga la doppietta {aa} o la doppietta {gg}?

Poichè i due eventi sono indipendenti si applica il terzo assioma e quindi

p(aa U gg)=p(aa)+p(gg)

Page 14: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Eventi dipendentiPosto A l'evento {il paziente ha epatomegalia} e B

l'evento {il paziente ha una LAL}, la probabilità dell'evento composto A U B non è semplicemente p(A)+p(B) poichè i due eventi possono essere dipendenti . In questo caso quindi

p(A U B) = p(A)+p(B)-p(AB)

dove p(AB) è la probabilità che A e B avvengano contemporaneamente.

Poniamo dalla letteratura che

p(A)=0.005 e p(B)=0.00005

Page 15: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Eventi condizionati

● Per rispondere a quesiti tipo: probabilità che l'evento A si verifichi posto che si sia verificato B si usa il concetto di probabilità condizionata.

p(B|A)=p(AB)/p(A)

Quindi, tornando alla slide precedente, basta conoscere p(AB) (vedremo nelle prossime slides) e p(A).

Page 16: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Eventi indipendenti e dipendenti

La TH potrebbe essere un test diagnostico/prognostico utile nel neuroblastoma.

Abbiamo osservato che essa discrimina nel seguente modo tra Neuroblastomi IV stadio e gli altri:

137I,II,III, sani

519IV

TH-TH+

Page 17: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Eventi indipendenti e dipendentiDetto A l’evento {la TH è positiva} e B l’evento {il

paziente è un IV stadio} la probabilità che l’associazione corretta TH/stadio sia casuale (indipendenza) è:

P(AB)=P(A)*P(B)+P(/A)*P(/B)=0.32+0.18 = 0.5

In realtà si ricava dalla tabella che P(AB)=0.43+0.30 = 0.73

Questa differenza è significativa (test chi-quadro). Gli eventi non sono indipendenti.

137I,II,III, sani (20/44)

519IV (24/44)

TH- (18/44)TH+ (26/44)

Page 18: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Eventi indipendenti e dipendenti

Ci possiamo allora domandare ad esempio qual è la probabilità che il paziente sia un IV stadio una volta saputo che la TH è positiva:

P(B|A)=P(AB)/P(A) = 19/44 x 44/26 = 0.73

O che non lo sia se la TH risulta negativa:

P(/B|/A)=P(/A/B)/P(/A) = 13/44*44/18 = 0.72

137I,II,III, sani (20/44)

519IV (24/44)

TH- (18/44)TH+ (26/44)

Page 19: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Teorema di Bayes

E' spesso difficile ricavare direttamente p(AB). Il teorema di Bayes esprime p(AB) come:

p(AB)=p(A|B)p(B)

Allora nella relazione della probabilità condizionata si ottiene

p(B|A) = p(AB)/p(A) = p(A|B)p(B)/p(A)

Page 20: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Teorema di BayesAd esempio vogliamo conoscere il peso dei dolori ossei e di

epatomegalia nella diagnosi di LAL nel bambino. CI chiediamo la probabilità che un bamino abbia una LAL posto che abbia esclusivamente uno dei due sintomi.

Possiamo applicare Bayes nel seguente modo:

p(A)=probabilità di avere dolori ossei = 0.01

p(B)=probabilità di avere epatomegalia = 0.005

p(C)=probabilità che un bambino abbia una LAL = 0.00005

p(A|C) e la probabilita' di avere dolori ossei sapendo che il paziente ha LAL = 0.25

p(B|C) e la probabilita' di avere dolori ossei sapendo che il paziente ha LAL = 0.4

p(C|A)=0.25*0.00005/0.01=0.00125 (1/800)

p(C|B)=0.4*0.00005/0.005=0.004 (1/240)

Page 21: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Statistica Inferenziale

Page 22: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Aspetti di baseL'attività di ricerca in un laboratorio prevede l'uso intensivo di tecniche

statistiche per inferire e validare ipotesi di lavoro.

Tra i test classici più usati ricordo

● T test – comparare due medie campionarie (differenza tra due trattamenti)

● ANOVA – comparare tre o più medie campionarie (differenza tra più di due trattamenti)

● Wilcoxon test – comparare due medie campionarie (selezione dei geni variati nell'analisi iniziale dei microarray)

● Chi-quadro – testare indipendenza in una matrice di contingenza (verifica della non indipendenza tra due metodi di analisi distinti)

● Kolmogorov-Smirnov test – compara due distribuzioni (in citofluorimetrica verifica che due popolazioni cellulari siano uguali/distinte)

Page 23: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Test Classici

• Tre pozzetti di cellule su sei sono trattati con VPA. Dopo 24h tutti i pozzetti sono contati. Il trattamento ha avuto effetto?

• In un DEB test sono contate le rotture cromosomiche nelle metafasi trattate e non di un individuo con sospetta Anemia di Fanconi. Il numero di rotture contate è significativamente diverso nei due campioni?

Quali test sono i più indicati per rispondere alle domande?

Page 24: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Wilcoxon/t-test

Per rispondere alla prima domanda possiamo usare il t-test o il Wilcoxon test.

● Il t-test si usa quando le medie sono indipendenti, le varianze sono uguali e gli errori sono distribuiti normalmente.

● Il Wilcoxon test si usa quando le medie sono indipendenti ma gli errori non sono normalmente ditribuiti.

Page 25: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Test binomiale

E’ uno dei test piu’ semplici. Si applica per comparare due proporzioni.

Ad esempio se nel campione trattato si osservano 4 rotture su 10 mentre nel controllo se ne osservano 5 su 40 il test fornisce per H0 il valore p=0.046. Se abbiamo scelto la soglia 0.05, allora accettiamo l’ipotesi H1.

Page 26: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Chi-quadro

In un gruppo di famiglie portatrici di anomalie congenite agli arti viene effettuata la conta piastrinica per valutare la possibilità di associazione (dipendenza) tra piastrinopoiesi/anomalia.

E' necessario costuire una matrice di contingenza

Page 27: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Chi-quadro

Una matrice di contingenza mostra le volte che un evento contigente (associazione di più eventi semplici) avviene.

1610P.<7*10E5

720P.>7*10E5

NormaleMalform

*

*

*

*

Chi-quadro

p=0.019

Page 28: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Correlazione, Regressione ed Analisi di Sopravvivenza

Page 29: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di correlazione

Spesso molte variabili diverse descrivono un fenomeno. Tra le prime cose che un ricercatore dovrebbe verificare è la correlazione tra le diverse variabili.Se le variabili sono solo due la correlazione è data dalla semplice formula

ρ(X,Y)=C(X,Y)/σxσyρ varia da -1 a 1 e per |ρ| vicini a uno il risultato è significativo. Ma per valori intermedi?E' necessario utilizzare un test (Pearson, Sperman) per validare l'ipotesi di correlazione.La correlazione tra due variabili è importante nel caso si volessero effettuare su esse dei test che implicano l'indipendenza tra i campioni.

Page 30: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Correlazione - Esempio

● Alla rete neurale che predice il funzionamento di oligonucleotidi antisenso vengono passati 8 parametri in ingresso. Al fine di ridurne il numero (per accellerarne l'apprendimento) si effettua un'analisi di correlazione.

Matrice di correlazione

Page 31: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Correlazione - Esempio

Vediamo se la correlazione tra E1 ed E2 e tra E1 ed E3 è significativa applicando un test di correlazione

E1-E2 corr. p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0

E1-E3 corr. p-value = 0.04338

alternative hypothesis: true correlation is not equal to 0

Page 32: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione

Oltre ad essere interessati all'esistenza di relazioni tra variabili si cerca spesso di stabilire il rapporto tra esse

La regressione coinvolge quindi la stima di parametri che legano i dati

Esistono molti modelli che permettono di descrivere (attraverso dei paramentri) i dati

E' necessario scegliere il modello corretto

Bisogna avere gli strumenti per poter criticare un modello

Page 33: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione

Il modello più semplice per descrivere la relazione tra variabili continue è il modello lineare:

y=ax+b

ogni analisi di regressione parte cercando di adattare tale modello al caso in esame.

x

yy a2 x

Le deviazioni dei punti sperimentali dalla curva modello (retta) sono i residui. Il loro “comportamento permette di definire la bontà del modello

residuo

Page 34: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione

In base al comportamento dei residui è possibile stabilire la correttezza del modello. Il modello migliore è quello che minimizza la somma dei residui.

La regressione permette la stima di una variabile (y) nota l'altra (x)

La correlazione invece ci informa sulla forza di questo legame.

Page 35: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione multipla

Quando le variabili coinvolte sono più di due si parla di regressione multipla. Anche qui il modello più semplice è quello lineare, ma mentre prima i punti si concentravano lungo la retta y=ax+b, ora di ditribuiscono sul piano

z=ax+bz+c

L'idea è comunque uguale al modello a due variabili; si cerca di ottenere un piano che minimizza i residui.

Page 36: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione logistica

Nel caso si volesse utilizzare la regressione nella predizione di mortalità sorge un problema:

● La variabile dipendente non è continua ma discreta: vivo/morto

Come fare?

Page 37: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione logisticaSi immagini che su N pazienti n siano vivi e m

morti dopo un certo periodo di osservazione. Si vuole stabilire se alcune variabili sono correlate al rischio di morte.

Si cerca prima di tutto con un modello lineare

mortalità=a var1+b var2+c...

di determinare i coefficienti a, b, c, ... che meglio predicano la mortalità. Si ottiene per il modello un valore di verosimiglianza che viene confrontato con il valore di verosimiglianza di un modello casuale

Page 38: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione logisticaL'equivalente del coefficiente di correlazione r è il

valore del rapporto tra queste due verosimiglianze (Likelihood Ratio). Se è sufficientemente piccolo allora il modello perdice l'outcome in modo significativo

Si dimostra che la mortalità (evento binario) è data da

m=ln(p/q)

dove p=m/N è la probabilità di morte e q di sopravvivenza. Il rapporto p/q è detto probabilità a favore (odds)

Page 39: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Regressione logisticaAllora eguagliando i termini ottenuti dal modello al termine di mortalità si ottiene

ln(p/(1-p))=a var1+b var2+c...

e operando semplici riarrangiamenti si può estrarre p

p=1/[1+exp-(a var1+b var2+c...)]

Posso così calcolare la probabilità di morte per diversi valori delle variabili var1, var2, ...

Curva logistica

Page 40: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di sopravvivenza

● L’analisi di sopravvivenza è una tappa importante nello studio e valutazione dei protocolli di cura.

● Si dimostra (ad esempio con semplici esperimenti Montecarlo) che il la differenza di sopravvivenza tra due gruppi di 20 pazienti con tempo di sopravvivenza uno il doppio dell’altro non viene rilevato come statisticamente significativo da normali test statistici.

● Questo spiega il perché sono necessari campioni di grossa dimensione

● Inoltre la distribuzione dei dati non è mai normale e quindi si usano spesso modelli di sopravvivenza non parametrici (Kaplan-Meier e Cox) .

Page 41: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

● Esistono tre tipi di curve di sopravvivenza

Analisi di Sopravvivenza

I

II

III

Tempo

So

pra

vviv

enza

Page 42: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di Sopravvivenza

Tre “oggetti” sono importanti:● Funzione di sopravvivenza – Mostra la frazione di

individui ancora vivi al'istante t● Funzione di densità – Mostra la propabilità di morte

in un intorno di t● Funzione di rischio – E' definita come il rapporto tra

la funzione di densità e la funzione di sopravvivenza. E' il rischio di morte condizionato al fatto di essere sopravvisuuti fino al tempo t

Sono funzioni che descrivono intimamente la curva di sopravvivenza

Page 43: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di Sopravvivenza

Ad esempio per una curva di sopravvivenza di tipo II si hanno questi tre tipi di andamento per le funzioni viste

1

0

1/μ

0

1/μ

Tempo

Page 44: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di SopravvivenzaEseguendo un analisi di sopravvivenza si distinguono

solitamente i seguenti casi:

● Rischio costante di morte

● Rischio variabile-specifico (solitamente età)

● Con censura

● Senza censura

Un elemento (paziente) si dice censurato dall'analisi quando non è conosciuta la data della morte. Questi elementi contribuiscono in qualche modo alla funzione di sopravvivenza.

Page 45: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di Sopravvivenza

Vediamo un esempio.

Ho ottenuto il dati di sopravvivenza di 33 pazienti con leucemia acuta mieloide.

Di essi conosco il tempo di sopravvivenza in settimane, il wbc alla diagnosi ed un'informazione (+/-) riguardo alla positività al test AG.

Quello che ci chiediamo è se la positività AG e/o wbc>30000 distingua i due gruppi in termini di sopravvivenza

Page 46: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di SopravvivenzaDi tutti i pazienti conosciamo la data della morte e quindi

l'analisi sarà senza dati censurati

Per prima cosa disegno le due curve di sopravvivenza distinguendo tra i pazienti AG+/AG- e wbc+/wbc-

Page 47: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di SopravvivenzaSuccessivamente riassumo in un sommario informazioni quali:

media, deviazione standard, intervallo di confidenza etc.

n events rmean se(rmean) median 0.95LCL 0.95UCL

ag=absent 16 16 17.9 4.91 7.5 4 43

ag=present 17 17 62.5 12.79 56.0 22 121

n events rmean se(rmean) median 0.95LCL 0.95UCL

wbc > 30000=FALSE 23 23 49.7 10.63 22 7 100

wbc > 30000=TRUE 10 10 20.5 6.35 15 4 Inf

Page 48: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Analisi di Sopravvivenza N Observed Expected (O-E)^2/E (O-E)^2/V

ag=absent 16 16 9.3 4.83 8.45

ag=present 17 17 23.7 1.90 8.45

p= 0.00365

N Observed Expected (O-E)^2/E (O-E)^2/V

wbc > 30000=FALSE 23 23 26.6 0.489 2.92

wbc > 30000=TRUE 10 10 6.4 2.033 2.92

p= 0.0874

AG distingue due gruppi con sopravvivenzasignificativamente differente

WBC <30000 non distingue due gruppi con sopravvivenzasignificativamente differente

Page 49: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Tecniche non classiche

Page 50: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

(a) ROC analisi

(b) Reti Neurali

(c) PCA (Principal Component Analysis)

(d) Tecniche di clustering

(e) Markov Chain

(f) Altre

Tecniche non classiche

Page 51: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Markov Models

● I modelli di Markov sono modelli matematici di processi stocastici.

● Un processo stocastico è un processo che genera sequenze random di eventi seguendo una certa legge di probabilità.

● Le sequenze di DNA possono essere viste come processi stocastici.

● I modelli di Markov sono utilissimi nell'analizzare le sequenze di DNA.

Page 52: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Markov Models

● Immaginiamo di voler determinare motivi di 4 nucleotidi che possano discriminare tra N oligo con e senza effetto antisenso. Vogliamo effettuare cioè una predizione.

● Immaginiamo di avere in totale 300 oligo lunghi 20 basi divisi in due categorie: Funzionanti e non.

● Con semplici calcoli combinatori sappiamo che esistono 256 motivi diversi di 4 basi (aaaa,aaac,...,gggt,gggg)

● Se mi aspetto che le singole basi si presentino con uguale frequenza (¼ ogni base) e in modo indipendente nel DNA, ci aspettiamo di che ogni motivo sia presente in media

6000/256=23 volte

Page 53: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Markov ModelsPurtroppo questo modello non funzione poichè si dimostra che:

● P(a)≠P(g)≠P(t)≠P(c)

Anche tenedo conto della frequenza reale con la quale le basi si presentano il calcolo non è corretto poichè

● in una sequenza di DNA {...xy...}

P(y|x)≠P(y)

I modelli di Markov riescono ad estrarre le proprietà statistiche essenziali per effettuare l'analisi proposta.

Il modello di Markov più semplice (modello del primo ordine) costruisce una matrice 4x4 ed in ogni posizione inserisce la frequenza con la quale una base viene seguita da un'altra base (probabilità di transizione). In questo modo dopo aver costruito la statistica ci possiamo domandare quale sia la probabilità di ottenere una certa sequenza.

Page 54: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Markov Models

CTCC 27 16,18GAGG 24 16,82CTGG 23 17,08GCTG 21 15,28TCCT 21 17,27TTCT 21 13,94CTTC 19 17,09TCTT 19 12,43

GGAG 18 15,42GGCT 17 13,21CCTC 16 11,92CCTG 16 15,28TGAG 16 17,5TGGG 16 13

Motivo Oss Pred

Alcuni motivi testati

Contati in tutti i 294 oligo

Attesi applicando Markov

Se la frequenza osservata e quella attesa dal modello di Markov è significativamente diversa il motivo è “sospetto”

I modelli di markov si usano in moltissimi campi della bioinformatica.- annotazioni utr-esone-introne- distinzione gene-pseudogene- struttura proteine- ricerca di motivi

Page 55: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Predittore

Un predittore è un sistema che, ad ogni dato in ingresso, associa un un ben preciso dato in uscita.

Dominio dei cerchi

Dominio dei quadrati

Predittore

Page 56: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Il predittore Concetto di Sensibilità e Specificità

Le componenti energetiche sono dei buoni classificatori

La sensibilità la capacità del predittore di non dare falsi negativiLa specificità è la capacità di non dare falsi positivi

Si nota dai grafici (analisi ROC) che il parametro E1 ha massima efficienza con Sensib.=0.76 e spec. 0.7. La componente casuale ha inveceSensib.=0.32 e spec. 0.83

Page 57: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Reti Neurali

Solitamente i sistemi di predizione sono sistemi automatici basati o sulla statistica classica o su paradigmi di AI.

I secondi (correttamente implementati) hanno performance sensibilmente superiori ai primi.

Page 58: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Reti NeuraliUna rete neurale è la formalizzazione matematica di una rete

neuronale.

Si dimostra che una rete a tre strati gerarchici (si immagini il circuito per il riflesso da stiramento: fuso-interneurone-motoneurone) è in grado di apprendere una qualsiasi associazione tra domini diversi (funzione di mapping).

Page 59: STATISTICAL THINKING Corso di Biologia, Clinica e Terapia delle Malattie Oncoematologiche Pediatriche.

Reti Neurali (NNs)E' possibile addestrare una rete a riconoscere associazioni tra

insiemi di dati (training).

Se la topologia della rete e i parametri e l'insieme di training sono scelti correttamete la rete avrà generalizzato la “conoscenza” è potrà prevedere correttamente associazioni di dati mai visti.

Le NNs sono usate con successo in diversi ambiti tra cui:

● Identificazione di marker sierologici per la diagnosi di epatocarcinoma

● Predizione dell'outcome in pazienti con neuroblastoma

● Diagnosi di metastasi linfonodale nel cancro allo stomaco