No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1...

102
Filogenesi Molecolare

Transcript of No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1...

Page 1: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Filogenesi

Molecolare

Page 2: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Schema della lezione

Introduzione a evoluzione e filogenesi

Nomenclatura degli alberi

Le cinque fasi della filogenesi molecolare:

1) la selezione delle sequenze

2) allineamento multiplo di sequenze

3) modelli di sostituzione

4) costruzione dell'albero

5) albero di valutazione

Approccio pratico alla creazione degli alberi

Page 3: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Charles Darwin nel suo libro del 1859 (On the Origin of Species

By Means of Natural Selection, or the Preservation of Favoured Races

in the Struggle for Life) ha introdotto la teoria dell'evoluzione.

Per Darwin, la lotta per l'esistenza induce una naturale

selezione. Le nuove generazioni sono dissimili dai loro

genitori (cioè, la variabilità esiste), e gli individui che sono

più adatti per un dato ambiente sono selezionati. In questo

modo, in lunghi periodi di tempo, le specie si evolvono.

Gruppi di organismi cambiano nel tempo in modo che i

discendenti differiscono strutturalmente e funzionalmente

dai loro antenati.

Introduzione

Page 4: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A livello molecolare, l'evoluzione è un processo di

mutazione e successiva selezione.

L’ evoluzione molecolare è lo studio delle variazioni nei

geni e proteine in tutti i diversi rami dell’albero della vita.

La filogenesi è l'inferenza di relazioni evolutive.

Tradizionalmente, la filogenesi era basata sul confronto

delle caratteristiche morfologiche fra gli organismi. Oggi,

anche i dati molecolari delle sequenze vengono utilizzati

per l’analisi filogenetica.

Introduzione

Page 5: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Spesso si assume che, così come per gli organismi anche il

DNA e le proteine vengano selezionate o contro-selezionate

secondo la selezione naturale.

Secondo Motoo Kimura (1924-1994), e la sua teoria neutrale

dell’evoluzione molecolare (1968), la stragrande maggioranza

dei cambiamenti del DNA non sono selezionati in senso

darwiniano. La causa principale del cambiamento evolutivo è

la deriva casuale di alleli mutanti che sono selettivamente

neutre (o quasi). La selezione darwiniana positiva si verifica,

ma ha un ruolo limitato.

Teoria neutrale dell'evoluzione

Page 6: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

La filogenesi può rispondere a domande quali:

Obiettivi della filogenesi molecolare

• Quanti geni sono legati al mio gene preferito?

• Come sono connessi balene, delfini e focene alle

mucche?

• Dove e quando l'HIV o altri virus sono comparsi?

• Qual è la storia della vita sulla terra?

• Il quagga, oggi estinto, era più simile a una zebra o

a un cavallo?

Page 7: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il quagga, oggi estinto, era più simile a una zebra

o a un cavallo?

Page 8: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Nel 1960, i dati di sequenza sono stati accumulati per

piccole proteine abbondanti come globine, citocromi c, e

fibrinopeptidi.

OSSERVAZIONE: alcune proteine sembrano evolvere

lentamente, mentre altre si sono evolute rapidamente.

Linus Pauling, Emanuel Margoliash e altri hanno proposto

l'ipotesi di un orologio molecolare:

Per ogni proteina, il tasso di evoluzione molecolare è

approssimativamente costante in tutti le linee evolutive

consente di stimare il tempo trascorso dal momento in cui

si è verificata divergenza tra 2 specie

Ipotesi dell'orologio molecolare

Page 9: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Ad esempio, Richard Dickerson (1971) ha tracciato i dati da tre famiglie di

proteine: citocromo c, emoglobina e fibrinopeptidi.

L'asse x mostra i tempi di divergenza della specie, stimati dai dati

paleontologici. L’asse y mostra il valore m: il numero di cambiamenti di

amminoacido corretto per 100 residui.

N

100 = 1 - e- (m/100)

N è il numero

osservato dei

cambiamenti di

amminoacidi per 100

residui, che è corretto

così che m tenga

conto di

cambiamenti che si

verificano, ma non

vengono osservati.

Milioni di anni dalla divergenza

Cam

bia

men

ti d

i am

ino

acid

i

Co

rre

tti p

er

100 r

esid

ui (m

)

Page 10: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

N

100 = 1 - e- (m/100)

N è il numero

osservato dei

cambiamenti di

amminoacidi per 100

residui, che è corretto

così che m tenga

conto di

cambiamenti che si

verificano, ma non

vengono osservati.

Page 11: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Dickerson ha tratto le seguenti conclusioni:

• Per ciascuna proteina, i dati si trovano su una linea retta.

• Quindi, il tasso di sostituzione aminoacidica è rimasto

costante per ogni proteina.

• Il tasso medio di variazione è diverso per ogni proteina.

• Il tempo per una variazione dell'1% tra due linee di

evoluzione è di 20 MY (citocromo c), 5.8 MY (Emoglobina),

e 1.1 MY (fibrinopeptidi).

• Le variazioni osservate nel tasso di cambio riflette vincoli

funzionali imposti dalla selezione naturale.

Ipotesi dell'orologio molecolare:conclusioni

Page 12: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fibrinopeptidi 9,0

Kappa caseina 3,3

Lattoalbumina 2,7

All'albumina sierica 1,9

Lisozima 0,98

Tripsina 0,59

Insulina 0,44

Citocromo c 0,22

Istone H2B 0,09

Ubiquitina 0,010

Istone H4 0,010

Orologio molecolare per le proteine:

tasso di sostituzioni per sito per 10^9 anni

Page 13: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Se sequenze di proteine si evolvono a tassi

costanti, possono essere utilizzate per

stimare il tempo trascorso dalla loro

divergenza. Questo è analogo a datare

campioni geologici per decadimento

radioattivo.

Ipotesi dell’orologio molecolare: implicazioni

Page 14: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Introduzione a evoluzione e filogenesi

Nomenclatura degli alberi

Le cinque fasi della filogenesi molecolare:

1) la selezione delle sequenze

2) allineamento multiplo di sequenze

3) modelli di sostituzione

4) costruzione dell'albero

5) albero di valutazione

Approccio pratico alla creazione degli alberi

Schema della lezione

Page 15: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Un albero e’ definito da due informazioni:

topologia e lunghezze dell’albero (somma

della lunghezza dei rami).

Un albero e’ un grafico formato da nodi e

rami. Ora descriveremo le parti di un albero.

Filogenesi molecolare: nomenclatura

degli alberi

Page 16: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

Nomenclatura degli alberi

Ramo

(arco)

Nodo (intersezione

o punto finale di

due o più rami)

Page 17: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

La filogenesi molecolare è usata per tracciare gli

alberi evolutivi delle relazioni tra organismi. Questi

alberi sono basati su dati di sequenza nucleotidici o

proteici.

Gli alberi, se opportunamente disegnati, danno

informazioni sulle distanze e sui tempi evolutivi.

Page 18: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

I rami sono non in scala ... I rami sono in scala ...

…La lunghezza dei rami è

proporzionale al numero di

aminoacidi che cambiano

... I nodi riflettono il

tempo

Nomenclatura degli alberi

Sono due rappresentazioni alternative, dipende da cosa si vuole comunicare...

Page 19: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

taxon

taxon

Nomenclatura degli alberi

Un taxon (plurale taxa), o unità tassonomica, è un raggruppamento di

organismi reali, distinguibili morfologicamente e geneticamente da altri e

riconoscibili come unità sistematica. I taxa si posizionano all'interno di una

struttura gerarchica nella classificazione scientifica.

Page 20: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

Nomenclatura degli alberi

taxon

Unità operativa

tassonomica (OTU) ad esempio una sequenza proteica

(sequenza

di una proteina o gene di interesse)

Page 21: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

Clade ABF (gruppo monofiletico)

Nomenclatura degli alberi: cladi

Un clade è un gruppo tassonomico di organismi costituito da un antenato

singolo comune e tutti i discendenti comuni a quell'antenato.

Page 22: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

Clade CDH

Nomenclatura degli alberi: cladi

Page 23: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

Clade ABF / CDH / G

Nomenclatura degli alberi: cladi

Page 24: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Esempi di cladi

Lindblad-Toh et al. Nature 438:

803 (2005), fig. 10

Page 25: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

La radice di un albero filogenetico rappresenta l’antenato

comune delle sequenze. Alcuni alberi sono senza radice, e

quindi non si specifica l’antenato comune.

Un albero può essere radicato con un outgroup (cioè un

taxon noto per essere significativamente distante da tutte le

altre OTU).

Radici di albero

Page 26: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

passato

presente

1

2 3 4

5

6

7 8

9

4

5

8 7

1

2

3

6

Albero radicato

(Specifica un

percorso evolutivo)

Albero senza radici

Nomenclatura degli alberi: radici

Page 27: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

passato

presente

1

2 3 4

5

6

7 8

9

Albero radicato

1

2 3 4

5

6

Outgroup (Utilizzato per posizionare la

radice)

7 9

10

root

8

Nomenclatura degli alberi: radici

Un radice può essere impostata aggiungendo un

outgroup

Page 28: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Cavalli-Sforza e Edwards (1967) hanno derivato il numero di

possibili alberi senza radici (NU) Per n OTU (n > 3):

NU =

Il numero di alberi radicati biforcati (NR) e’ invece dato da:

NR =

Per 10 OTU (ad esempio 10 sequenze di DNA o proteine), il

numero di possibili alberi radicati è 34 milioni, e il numero di

alberi senza radici è 2 milioni. Molti algoritmi di costruzione

di alberi possono esaminare ogni possibile albero fino a 10-

12 sequenze.

Enumerazione degli alberi

(2n-5)!

2n-3(n-3)!

(2n-3)!

2n-2(n-2)!

Page 29: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Numeri di alberi possibili:

estremamente grande per più di 10 sequenze

Numero di Numero di alberi Numero di alberi

OTU radicati senza radici

2 1 1

3 3 1

4 15 3

5 105 15

10 34,459,425 105

20 8 x 1021 2 x 1020

Page 30: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

1) La selezione delle sequenze per l'analisi

2) allineamento multiplo di sequenze

3) La definizione della distanza

4) Costruzione dell'albero

5) Valutazione dell'albero

Le cinque fasi dell'analisi filogenetica

Page 31: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Per alcuni studi filogenetici, può essere preferibile utilizzare

proteine invece di sequenze di DNA. Abbiamo visto che,

nell’allineamento a coppie e in BLAST, le sequenze

proteiche sono spesso più informative del DNA.

Fase 1: Uso di DNA, RNA o proteine

Page 32: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Per la filogenesi, il DNA può essere più informativo.

- La porzione codificante proteine del DNA può subire mutazioni

sinonime o non sinonime. Dunque, alcune variazioni sul DNA

possono non tradursi in variazioni proteiche.

Fase 1: Uso di DNA, RNA o proteine

-Le regioni non codificanti (ad esempio regioni 5‘ e 3' non

tradotte) possono essere analizzate con la filogenesi

molecolare, così come gli pseudogeni (geni non funzionali)

- I tassi di transizioni e trasversioni possono essere misurati.

Transizioni: purine (A G) o pirimidine (C T) sostituzioni

Trasversioni: pirimidine purine

Page 33: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Per la filogenesi, anche le sequenze di proteine sono

utilizzate spesso.

-Le proteine hanno 20 componenti (amminoacidi) anziché

solo quattro come il DNA

le sequenze di proteine offrono un più lungo tempo di

"look-back“: allineare una proteina umana con quella di una

pianta significa andare indietro di 1.5 miliardi di anni

Fase 1: Uso di DNA, RNA o proteine

Page 34: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

1) La selezione delle sequenze per l'analisi

2) allineamento multiplo di sequenze

3) La definizione della distanza

4) Costruzione dell'albero

5) Valutazione dell'albero

Le cinque fasi dell'analisi filogenetica

Page 35: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

La base fondamentale di un albero filogenetico è un

allineamento multiplo di sequenze. Il più grosso errore che si

possa fare è sbagliare questo punto.

(Se c'è un disallineamento, o se una sequenza non omologa è

inclusa nell'allineamento, sarà ancora possibile generare un

albero! Ma sarà un albero privo di senso)

Fase 2: Allineamento multiplo di sequenze

Page 36: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

1) La selezione delle sequenze per l'analisi

2) allineamento multiplo di sequenze

3) La definizione della distanza

4) Costruzione dell'albero

5) Valutazione dell'albero

Le cinque fasi dell'analisi filogenetica

Page 37: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

L'approccio più semplice per misurare le distanze tra le

sequenze è:

1. allineare coppie di sequenze

2. contare il numero di differenze.

Il grado di divergenza è chiamato Distanza di Hamming

(p-distance). Per una allineamento di lunghezza N con n

siti ai quali vi sono differenze, il grado di divergenza D è

semplicemente:

D = n / N

Fase 3. Metodi per costruire alberi: la

distanza

Page 38: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fase 3. Metodi per costruire alberi: la

distanza

L'approccio più semplice per misurare le distanze tra le

sequenze è:

1. allineare coppie di sequenze

2. contare il numero di differenze.

Il grado di divergenza è chiamato Distanza di Hamming

(p-distance). Per una allineamento di lunghezza N con n

siti ai quali vi sono differenze, il grado di divergenza D è

semplicemente:

D = n / N

Vi sono anche altri metodi, come quelli che usano la

correzione di Poisson utile a stimare la componente

probabilistica degli eventi evolutivi.

Page 39: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fase 3. Metodi per costruire alberi: la

distanza

Un altro approccio alternativo alla distanza di Hamming

è la distanza di Kimura per le sequenza aminoacidiche

(usata anche in MUSCLE):

d = - ln ( 1 – p – 0,2p^2 ) d: distanza

p: frazione di AA diversi

Empiricamente si è osservato che si tratta di una buona

stima per sequenza non troppo divergenti (p<=0,7)

Page 40: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

1) La selezione delle sequenze per l'analisi

2) allineamento multiplo di sequenze

3) La definizione della distanza

4) Costruzione dell'albero

5) Valutazione dell'albero

Le cinque fasi dell'analisi filogenetica

Page 41: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Discuteremo due metodi di costruzione di un albero:

1. in base alla distanza

2. in base alle sequenze.

I metodi basati sulla distanza comportano l’utilizzo di una

metrica di distanza, come il numero di cambiamenti di

aminoacidi tra le sequenze, o un punteggio di distanza.

Esempi di algoritmi basati sulla distanza sono UPGMA e

neighbor-joining.

Fase 4: Metodi per costruire alberi

Page 42: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Discuteremo due metodi albero di costruzione:

1. in base alla distanza

2. in base alle sequenze.

I metodi basati sulle sequenze prevedono delle valutazioni più

approfondite sulle sequenze (posizioni delle sostituzioni,

distribuzione e velocità dei cambiamenti, ecc); includono la

massima parsimonia (maximum parsimony), la massima

verosimiglianza (maximum likelyhood) e gli approcci

bayesiani.

La maximum parsimony comporta la ricerca dell'albero con il

minor numero di modifiche tra gli amminoacidi (nucleotidi) che

spieghino le differenze osservate tra i taxa.

Fase 4: Metodi per costruire alberi

Page 43: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Ci concentreremo su due metodi basati sulle distanze,

UPGMA e Neighbor Joining

Fase 4: Metodi per costruire alberi

Page 44: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Metodi per costruire alberi: UPGMA

UPGMA sta per:

unweighted pair group method

using arithmetic mean

1 2

3

4

5

Page 45: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fase 1: calcolare le distanze a coppie di tutte le

le proteine.

1 2

3

4

5

Metodi per costruire alberi: UPGMA

Page 46: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fase 2: trova le due proteine con la più piccola

distanza a coppie. Raggruppale.

Creato il nuovo punto (6), si ricalcolano tutte le distanze tra

esso e le altre sequenze/gruppo, semplicemente come

media delle distanze tra i componenti del cluster e la

sequenza/gruppo

1 2

3

4

5

1 2

6

Si utilizza un nuovo numero

(6) per non confondere il cluster con le

altre sequenze

Metodi per costruire alberi: UPGMA

Page 47: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fase 3: Ripeti il passo precedente. Trova le prossime

due proteine con la più piccola distanza a coppie.

Raggruppale.

Potrebbe capitare di raggruppare una sequenza a un cluster o

raggruppare due cluster.

1 2

3

4

5

1 2

6

4 5

7

Metodi per costruire alberi: UPGMA

Page 48: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fase 4: Prosegui. Crea nuovi cluster unendo

sequenze e altri cluster in base alla distanza.

1 2

3

4

5 1 2

6

4 5

7

3

8

Metodi per costruire alberi: UPGMA

Page 49: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Fase 5: ultimo cluster! Questo è il vostro albero.

1 2

3

4

5

1 2

6

4 5

7

3

8

9

Metodi per costruire alberi: UPGMA

Page 50: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

UPGMA è un approccio semplice per fare gli alberi.

• Un albero UPGMA è sempre radicato.

• Un presupposto dell'algoritmo è che l’orologio molecolare sia

costante per le sequenze nella struttura. Se i tassi di

sostituzione fossero disuguali, l‘albero potrebbe essere errato.

• UPGMA è semplice, ma è meno accurato rispetto

all’approccio neighbhor-joining (descritto di seguito). Di fatto si

usa raramente nella creazione di alberi filogenetici.

Metodi basati sulla distanza: alberi UPGMA

Page 51: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il metodo neighbor-joining di

Saitou e Nei (1987) è

particolarmente utile per fare

alberi con un gran numero di

taxa.

1) Si inizia mettendo tutti i taxa in

una struttura a stella.

2) Definiamo inoltre delle

distanze tra i nodi che

immettiamo in una matrice di

distanza.

Il metodo neighbor-joining

Page 52: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il metodo neighbor-joining

• L’algoritmo si basa

sull’assunzione che

l’albero sia additivo.

• Ad esempio per

l’albero in figura:

La distanza tra A e B

sarà pari alla somma

della distanza tra A e X

e tra B e X.

Page 53: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Definizioni

• Dij viene definito come

la distanza tra le foglie i

e j (es.: A e B) è la

distanza contenuta nella

matrice di distanza

• Llm viene definita come

la somma delle

lunghezze dei rami tra

il nodo l e il nodo m.

Page 54: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il metodo neighbor-joining

1. Prendiamo i 2 nodi più vicini (nearest neighbors).

2. Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi

3. Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le

distanze nella matrice di distanza (i nodi A e B vengono rimossi)

4. Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)

5. Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.

Page 55: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il metodo neighbor-joining

1. Prendiamo i 2 nodi più vicini (nearest neighbors).

2. Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi

3. Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le

distanze nella matrice di distanza (i nodi A e B vengono rimossi)

4. Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)

5. Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.

Page 56: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

• Vengono definiti

nearest neighbors la

coppia di nodi che

producono la somma

totale (Slm) di tutti i

rami minima.

• Ad esempio, nell’albero

in figura:

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Come faccio a calcolare Sab??

Page 57: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Page 58: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie

Page 59: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie

LXY = DAC

Page 60: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie

LXY = DAC + DAD

Page 61: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie

LXY = DAC + DAD + DAE

Page 62: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie

LXY = DAC + DAD + DAE + DBC

Page 63: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie

LXY = DAC + DAD + DAE + DBC + DBD

Page 64: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie

LXY = DAC + DAD + DAE + DBC + DBD + DBE

Page 65: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Ho sommato tutte le

distanza da A o B verso

E,D e C

LXY = DAC + DAD + DAE + DBC + DBD + DBE

Page 66: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE

Page 67: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)

Page 68: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)

Sono passato 3 volte nel percorso A--X e B--X

Page 69: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)

-2 (Le + Ld + Lc)

Page 70: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)

-2 (Le + Ld + Lc)

Page 71: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)

-2 (Le + Ld + Lc)

Page 72: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)

-2 (Le + Ld + Lc)

Sono passato 2 volte da in ciascuno dei 3 rami

Page 73: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

LXY = 1/6 * [DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc)]

Poiché sono passato 6 volte su X—Y andando da A e B verso

C,D,E divido tutto per 6.

Page 74: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

(LaX + LbX) = DAB

Page 75: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più

(Le + Ld + Lc) = 1/2* (DCD+DCE+DDE)

Passo 2 volte su ogni ramo

Page 76: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come calcolo quali sono i 2 nearest

neighbor

Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di

neighbor che mi danno la somma totale Slm minima.

Page 77: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Stima della nuova matrice di distanze

Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di

neighbor che mi danno la somma totale Slm minima.

Page 78: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il metodo neighbor-joining

1. Prendiamo i 2 nodi più vicini (nearest neighbors).

2. Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi

3. Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le

distanze nella matrice di distanza (i nodi A e B vengono rimossi)

4. Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)

5. Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.

Page 79: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Calcolo delle nuove distanze

Dobbiamo calcolare la distanza tra il nuovo nodo X creato e il

resto delle foglie dell’albero.

La distanza del nodo X (in seguito indicato AB) da una foglia j

sarà pari a alla media delle distanze dei 2 neighbor dalla foglia j:

D(AB)j = (D1j + D2j)/2

Page 80: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Calcolo delle nuove distanze

Nella matrice di distanza vengono rimosse le

righe/colonne di A e B e vengono introdotte una

nuova riga e colonna relativa alle distanze da X.

In totale la matrice si riduce di una riga/colonna

Page 81: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il metodo neighbor-joining

1. Prendiamo i 2 nodi più vicini (nearest neighbors).

2. Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi

3. Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le

distanze nella matrice di distanza (i nodi A e B vengono rimossi)

4. Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)

5. Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.

Page 82: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come si calcola la lunghezza dei rami?

Se A e B sono vicini, si ha che

Calcolo della lunghezza dei rami dei 2

nearest neighbor

LAX=(DAB+DAZ-DBZ)/2

LBX=(DAB+DBZ-DAZ)/2

Dove DAZ = (DAC+ DAD+ DAE)/3

Dove DBZ = (DBC+ DBD+ DBE)/3

Z

Z rappresenta jil gruppo di tutte le foglie eccetto A e B

Page 83: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Come si calcola la lunghezza dei rami?

Se A e B sono vicini, si ha che

Calcolo della lunghezza dei rami dei 2

nearest neighbor

Page 84: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

4) Infine si ottiene l’albero con la minima

lunghezza secondo il metodo:

Fare alberi utilizzando neighbor-joining

Page 85: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Esempio di un albero

neighbor-joining:

analisi filogenetica di

13 RBPs

Il NJ produce un albero senza

radice. La radice potrà essere

posta:

• sul ramo interno più lungo

• con una sequenza esterna.

Page 86: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

1) La selezione delle sequenze per l'analisi

2) allineamento multiplo di sequenze

3) La definizione della distanza

4) Costruzione dell'albero

5) Valutazione dell'albero

Le cinque fasi dell'analisi filogenetica

Page 87: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il bootstrap è un approccio comunemente utilizzato per

misurare la robustezza della topologia di un albero.

Dato un ordine di ramificazione, quanto frequentemente un

algoritmo trova una data soluzione a partire da diverse

versioni casualmente permutate del set di dati originale?

Fase 5: Valutazione di alberi: bootstrapping

Page 88: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Il bootstrap è un approccio comunemente utilizzato per

misurare la robustezza della topologia di un albero.

Dato un ordine di ramificazione, quanto frequentemente un

algoritmo trova una data soluzione a partire da diverse

versioni casualmente permutate del set di dati originale?

Operativamente:

• Creare una serie di dati artificiali, ottenuti da un

campionamento casuale delle colonne dal MSA originale,

con la stessa dimensione dell'originale.

• Ripeti per 100 (o 1000) volte.

• Osservare la percentuale dei casi in cui la divisione in cladi

nella struttura originale è confermata dalle repliche di test.

Valori > 70% (50%) sono considerati significativi.

Fase 5: Valutazione di alberi: bootstrapping

Page 89: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Nel 61% dei bootstrap, ssrbp e

btrbp (RBP di maiale e mucca)

hanno formato una clade distinta.

Nel 39% dei casi, un'altra proteina

si è unita alla clade (ecrbp ad

esempio), o uno di queste due

sequenze si è fusa in un’altra clade.

Page 90: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Utile per la descrizione della topologia di un albero: le

coppie di sequenze collegate allo stesso nodo sono

racchiuse tra parentesi tonde. La descrizione termina con “;”

Il formato Newick

FILOGRAMMA: le lunghezze dei sono

riportate con una sintassi che sfrutta i “:”

CLADOGRAMMA: le lunghezze dei

rami non sono definite

Page 91: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

E’ un portale per analisi bioinformatiche online

http://mobyle.pasteur.fr/cgi-bin/portal.py#welcome

Page 92: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

Ha diverse sezioni interattive e integrate distinte per colore

Form interattivi dei

diversi programmi

disponibili

Risultati e processi

in corso sottomessi

al sito

Programmi

disponibili

Page 93: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

Il menu di sinistra ha una struttura ad albero

Form interattivi dei

diversi programmi

disponibili

Programmi per

l’analisi

filogenetica

Programmi per i

MSA

Page 94: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

Richiede un login

Page 95: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

Include tool per il MSA

Page 96: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

I risultati sono presentati in diversi formati

MSA in formato

CLUSTAL

Sezione dei risultati

Page 97: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

Propone un percorso per la creazione di alberi

Page 98: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

Con il MSA si calcola una matrice delle distanze

Si noti la presenza

di più finestre per

gestire diversi

processi

Page 99: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Portale Mobyle@Pasteur

La matrice può poi essere usata come input per il calcolo

di un albero filogenetico Si noti la presenza

di più finestre per

gestire diversi

processi

Page 100: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Alternativa a Mobyle@Pasteur:Phylogeny.fr

Un sito simile che offre tool online, più semplice ma

meno ricco

Tool per l’analisi

filogenetica

Page 101: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Phylogeny.fr

Un sito simile che offre tool online, più semplice ma

meno ricco

Programmi

disponbili per

l’analisi

Page 102: No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1 - e (m/100) N è il numero osservato dei cambiamenti di amminoacidi per 100 residui,

Dal menu per la Phylogeny analysis si accede a diverse modalità

La modalità più

dettagliata detta “à

la carte”

Ottimo strumento

di visualizzazione

Phylogeny.fr