No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1...

Filogenesi

Molecolare

Schema della lezione

Introduzione a evoluzione e filogenesi

Nomenclatura degli alberi

Le cinque fasi della filogenesi molecolare:

1) la selezione delle sequenze

2) allineamento multiplo di sequenze

3) modelli di sostituzione

4) costruzione dell'albero

5) albero di valutazione

Approccio pratico alla creazione degli alberi

Charles Darwin nel suo libro del 1859 (On the Origin of Species

By Means of Natural Selection, or the Preservation of Favoured Races

in the Struggle for Life) ha introdotto la teoria dell'evoluzione.

Per Darwin, la lotta per l'esistenza induce una naturale

selezione. Le nuove generazioni sono dissimili dai loro

genitori (cioè, la variabilità esiste), e gli individui che sono

più adatti per un dato ambiente sono selezionati. In questo

modo, in lunghi periodi di tempo, le specie si evolvono.

Gruppi di organismi cambiano nel tempo in modo che i

discendenti differiscono strutturalmente e funzionalmente

dai loro antenati.

Introduzione

A livello molecolare, l'evoluzione è un processo di

mutazione e successiva selezione.

L’ evoluzione molecolare è lo studio delle variazioni nei

geni e proteine in tutti i diversi rami dell’albero della vita.

La filogenesi è l'inferenza di relazioni evolutive.

Tradizionalmente, la filogenesi era basata sul confronto

delle caratteristiche morfologiche fra gli organismi. Oggi,

anche i dati molecolari delle sequenze vengono utilizzati

per l’analisi filogenetica.

Introduzione

Spesso si assume che, così come per gli organismi anche il

DNA e le proteine vengano selezionate o contro-selezionate

secondo la selezione naturale.

Secondo Motoo Kimura (1924-1994), e la sua teoria neutrale

dell’evoluzione molecolare (1968), la stragrande maggioranza

dei cambiamenti del DNA non sono selezionati in senso

darwiniano. La causa principale del cambiamento evolutivo è

la deriva casuale di alleli mutanti che sono selettivamente

neutre (o quasi). La selezione darwiniana positiva si verifica,

ma ha un ruolo limitato.

Teoria neutrale dell'evoluzione

La filogenesi può rispondere a domande quali:

Obiettivi della filogenesi molecolare

• Quanti geni sono legati al mio gene preferito?

• Come sono connessi balene, delfini e focene alle

mucche?

• Dove e quando l'HIV o altri virus sono comparsi?

• Qual è la storia della vita sulla terra?

• Il quagga, oggi estinto, era più simile a una zebra o

a un cavallo?

Il quagga, oggi estinto, era più simile a una zebra

o a un cavallo?

Nel 1960, i dati di sequenza sono stati accumulati per

piccole proteine abbondanti come globine, citocromi c, e

fibrinopeptidi.

OSSERVAZIONE: alcune proteine sembrano evolvere

lentamente, mentre altre si sono evolute rapidamente.

Linus Pauling, Emanuel Margoliash e altri hanno proposto

l'ipotesi di un orologio molecolare:

Per ogni proteina, il tasso di evoluzione molecolare è

approssimativamente costante in tutti le linee evolutive

consente di stimare il tempo trascorso dal momento in cui

si è verificata divergenza tra 2 specie

Ipotesi dell'orologio molecolare

Ad esempio, Richard Dickerson (1971) ha tracciato i dati da tre famiglie di

proteine: citocromo c, emoglobina e fibrinopeptidi.

L'asse x mostra i tempi di divergenza della specie, stimati dai dati

paleontologici. L’asse y mostra il valore m: il numero di cambiamenti di

amminoacido corretto per 100 residui.

N

100 = 1 - e- (m/100)

N è il numero

osservato dei

cambiamenti di

amminoacidi per 100

residui, che è corretto

così che m tenga

conto di

cambiamenti che si

verificano, ma non

vengono osservati.

Milioni di anni dalla divergenza

Cam

bia

men

ti d

i am

ino

acid

i

Co

rre

tti p

er

100 r

esid

ui (m

)

N

100 = 1 - e- (m/100)

N è il numero

osservato dei

cambiamenti di

amminoacidi per 100

residui, che è corretto

così che m tenga

conto di

cambiamenti che si

verificano, ma non

vengono osservati.

Dickerson ha tratto le seguenti conclusioni:

• Per ciascuna proteina, i dati si trovano su una linea retta.

• Quindi, il tasso di sostituzione aminoacidica è rimasto

costante per ogni proteina.

• Il tasso medio di variazione è diverso per ogni proteina.

• Il tempo per una variazione dell'1% tra due linee di

evoluzione è di 20 MY (citocromo c), 5.8 MY (Emoglobina),

e 1.1 MY (fibrinopeptidi).

• Le variazioni osservate nel tasso di cambio riflette vincoli

funzionali imposti dalla selezione naturale.

Ipotesi dell'orologio molecolare:conclusioni

Fibrinopeptidi 9,0

Kappa caseina 3,3

Lattoalbumina 2,7

All'albumina sierica 1,9

Lisozima 0,98

Tripsina 0,59

Insulina 0,44

Citocromo c 0,22

Istone H2B 0,09

Ubiquitina 0,010

Istone H4 0,010

Orologio molecolare per le proteine:

tasso di sostituzioni per sito per 10^9 anni

Se sequenze di proteine si evolvono a tassi

costanti, possono essere utilizzate per

stimare il tempo trascorso dalla loro

divergenza. Questo è analogo a datare

campioni geologici per decadimento

radioattivo.

Ipotesi dell’orologio molecolare: implicazioni

Introduzione a evoluzione e filogenesi


Le cinque fasi della filogenesi molecolare:

1) la selezione delle sequenze


3) modelli di sostituzione

4) costruzione dell'albero

5) albero di valutazione

Approccio pratico alla creazione degli alberi

Schema della lezione

Un albero e’ definito da due informazioni:

topologia e lunghezze dell’albero (somma

della lunghezza dei rami).

Un albero e’ un grafico formato da nodi e

rami. Ora descriveremo le parti di un albero.

Filogenesi molecolare: nomenclatura

degli alberi

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità


Ramo

(arco)

Nodo (intersezione

o punto finale di

due o più rami)

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

La filogenesi molecolare è usata per tracciare gli

alberi evolutivi delle relazioni tra organismi. Questi

alberi sono basati su dati di sequenza nucleotidici o

proteici.

Gli alberi, se opportunamente disegnati, danno

informazioni sulle distanze e sui tempi evolutivi.

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

I rami sono non in scala ... I rami sono in scala ...

…La lunghezza dei rami è

proporzionale al numero di

aminoacidi che cambiano

... I nodi riflettono il

tempo


Sono due rappresentazioni alternative, dipende da cosa si vuole comunicare...

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità

taxon

taxon


Un taxon (plurale taxa), o unità tassonomica, è un raggruppamento di

organismi reali, distinguibili morfologicamente e geneticamente da altri e

riconoscibili come unità sistematica. I taxa si posizionano all'interno di una

struttura gerarchica nella classificazione scientifica.

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

6

1

2

2

1

A

B C

2

1

2

D

E una unità


taxon

Unità operativa

tassonomica (OTU) ad esempio una sequenza proteica

(sequenza

di una proteina o gene di interesse)

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

Clade ABF (gruppo monofiletico)

Nomenclatura degli alberi: cladi

Un clade è un gruppo tassonomico di organismi costituito da un antenato

singolo comune e tutti i discendenti comuni a quell'antenato.

A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

Clade CDH


A

B

C

D

E

F

G

H I

tempo

6

2

1 1

2

1

2

Clade ABF / CDH / G


Esempi di cladi

Lindblad-Toh et al. Nature 438:

803 (2005), fig. 10

La radice di un albero filogenetico rappresenta l’antenato

comune delle sequenze. Alcuni alberi sono senza radice, e

quindi non si specifica l’antenato comune.

Un albero può essere radicato con un outgroup (cioè un

taxon noto per essere significativamente distante da tutte le

altre OTU).

Radici di albero

passato

presente

1

2 3 4

5

6

7 8

9

4

5

8 7

1

2

3

6

Albero radicato

(Specifica un

percorso evolutivo)

Albero senza radici

Nomenclatura degli alberi: radici

passato

presente

1

2 3 4

5

6

7 8

9

Albero radicato

1

2 3 4

5

6

Outgroup (Utilizzato per posizionare la

radice)

7 9

10

root

8

Nomenclatura degli alberi: radici

Un radice può essere impostata aggiungendo un

outgroup

Cavalli-Sforza e Edwards (1967) hanno derivato il numero di

possibili alberi senza radici (NU) Per n OTU (n > 3):

NU =

Il numero di alberi radicati biforcati (NR) e’ invece dato da:

NR =

Per 10 OTU (ad esempio 10 sequenze di DNA o proteine), il

numero di possibili alberi radicati è 34 milioni, e il numero di

alberi senza radici è 2 milioni. Molti algoritmi di costruzione

di alberi possono esaminare ogni possibile albero fino a 10-

12 sequenze.

Enumerazione degli alberi

(2n-5)!

2n-3(n-3)!

(2n-3)!

2n-2(n-2)!

Numeri di alberi possibili:

estremamente grande per più di 10 sequenze

Numero di Numero di alberi Numero di alberi

OTU radicati senza radici

2 1 1

3 3 1

4 15 3

5 105 15

10 34,459,425 105

20 8 x 1021 2 x 1020

1) La selezione delle sequenze per l'analisi


3) La definizione della distanza

4) Costruzione dell'albero

5) Valutazione dell'albero

Le cinque fasi dell'analisi filogenetica

Per alcuni studi filogenetici, può essere preferibile utilizzare

proteine invece di sequenze di DNA. Abbiamo visto che,

nell’allineamento a coppie e in BLAST, le sequenze

proteiche sono spesso più informative del DNA.

Fase 1: Uso di DNA, RNA o proteine

Per la filogenesi, il DNA può essere più informativo.

- La porzione codificante proteine del DNA può subire mutazioni

sinonime o non sinonime. Dunque, alcune variazioni sul DNA

possono non tradursi in variazioni proteiche.


-Le regioni non codificanti (ad esempio regioni 5‘ e 3' non

tradotte) possono essere analizzate con la filogenesi

molecolare, così come gli pseudogeni (geni non funzionali)

- I tassi di transizioni e trasversioni possono essere misurati.

Transizioni: purine (A G) o pirimidine (C T) sostituzioni

Trasversioni: pirimidine purine

Per la filogenesi, anche le sequenze di proteine sono

utilizzate spesso.

-Le proteine hanno 20 componenti (amminoacidi) anziché

solo quattro come il DNA

le sequenze di proteine offrono un più lungo tempo di

"look-back“: allineare una proteina umana con quella di una

pianta significa andare indietro di 1.5 miliardi di anni


La base fondamentale di un albero filogenetico è un

allineamento multiplo di sequenze. Il più grosso errore che si

possa fare è sbagliare questo punto.

(Se c'è un disallineamento, o se una sequenza non omologa è

inclusa nell'allineamento, sarà ancora possibile generare un

albero! Ma sarà un albero privo di senso)

Fase 2: Allineamento multiplo di sequenze

L'approccio più semplice per misurare le distanze tra le

sequenze è:

1. allineare coppie di sequenze

2. contare il numero di differenze.

Il grado di divergenza è chiamato Distanza di Hamming

(p-distance). Per una allineamento di lunghezza N con n

siti ai quali vi sono differenze, il grado di divergenza D è

semplicemente:

D = n / N

Fase 3. Metodi per costruire alberi: la

distanza


distanza

L'approccio più semplice per misurare le distanze tra le

sequenze è:

1. allineare coppie di sequenze

2. contare il numero di differenze.

Il grado di divergenza è chiamato Distanza di Hamming

(p-distance). Per una allineamento di lunghezza N con n

siti ai quali vi sono differenze, il grado di divergenza D è

semplicemente:

D = n / N

Vi sono anche altri metodi, come quelli che usano la

correzione di Poisson utile a stimare la componente

probabilistica degli eventi evolutivi.


distanza

Un altro approccio alternativo alla distanza di Hamming

è la distanza di Kimura per le sequenza aminoacidiche

(usata anche in MUSCLE):

d = - ln ( 1 – p – 0,2p^2 ) d: distanza

p: frazione di AA diversi

Empiricamente si è osservato che si tratta di una buona

stima per sequenza non troppo divergenti (p<=0,7)

Discuteremo due metodi di costruzione di un albero:

1. in base alla distanza

2. in base alle sequenze.

I metodi basati sulla distanza comportano l’utilizzo di una

metrica di distanza, come il numero di cambiamenti di

aminoacidi tra le sequenze, o un punteggio di distanza.

Esempi di algoritmi basati sulla distanza sono UPGMA e

neighbor-joining.

Fase 4: Metodi per costruire alberi

Discuteremo due metodi albero di costruzione:

1. in base alla distanza

2. in base alle sequenze.

I metodi basati sulle sequenze prevedono delle valutazioni più

approfondite sulle sequenze (posizioni delle sostituzioni,

distribuzione e velocità dei cambiamenti, ecc); includono la

massima parsimonia (maximum parsimony), la massima

verosimiglianza (maximum likelyhood) e gli approcci

bayesiani.

La maximum parsimony comporta la ricerca dell'albero con il

minor numero di modifiche tra gli amminoacidi (nucleotidi) che

spieghino le differenze osservate tra i taxa.


Ci concentreremo su due metodi basati sulle distanze,

UPGMA e Neighbor Joining


Metodi per costruire alberi: UPGMA

UPGMA sta per:

unweighted pair group method

using arithmetic mean

1 2

3

4

5

Fase 1: calcolare le distanze a coppie di tutte le

le proteine.

1 2

3

4

5


Fase 2: trova le due proteine con la più piccola

distanza a coppie. Raggruppale.

Creato il nuovo punto (6), si ricalcolano tutte le distanze tra

esso e le altre sequenze/gruppo, semplicemente come

media delle distanze tra i componenti del cluster e la

sequenza/gruppo

1 2

3

4

5

1 2

6

Si utilizza un nuovo numero

(6) per non confondere il cluster con le

altre sequenze


Fase 3: Ripeti il passo precedente. Trova le prossime

due proteine con la più piccola distanza a coppie.

Raggruppale.

Potrebbe capitare di raggruppare una sequenza a un cluster o

raggruppare due cluster.

1 2

3

4

5

1 2

6

4 5

7


Fase 4: Prosegui. Crea nuovi cluster unendo

sequenze e altri cluster in base alla distanza.

1 2

3

4

5 1 2

6

4 5

7

3

8


Fase 5: ultimo cluster! Questo è il vostro albero.

1 2

3

4

5

1 2

6

4 5

7

3

8

9


UPGMA è un approccio semplice per fare gli alberi.

• Un albero UPGMA è sempre radicato.

• Un presupposto dell'algoritmo è che l’orologio molecolare sia

costante per le sequenze nella struttura. Se i tassi di

sostituzione fossero disuguali, l‘albero potrebbe essere errato.

• UPGMA è semplice, ma è meno accurato rispetto

all’approccio neighbhor-joining (descritto di seguito). Di fatto si

usa raramente nella creazione di alberi filogenetici.

Metodi basati sulla distanza: alberi UPGMA

Il metodo neighbor-joining di

Saitou e Nei (1987) è

particolarmente utile per fare

alberi con un gran numero di

taxa.

1) Si inizia mettendo tutti i taxa in

una struttura a stella.

2) Definiamo inoltre delle

distanze tra i nodi che

immettiamo in una matrice di

distanza.

Il metodo neighbor-joining


• L’algoritmo si basa

sull’assunzione che

l’albero sia additivo.

• Ad esempio per

l’albero in figura:

La distanza tra A e B

sarà pari alla somma

della distanza tra A e X

e tra B e X.

Definizioni

• Dij viene definito come

la distanza tra le foglie i

e j (es.: A e B) è la

distanza contenuta nella

matrice di distanza

• Llm viene definita come

la somma delle

lunghezze dei rami tra

il nodo l e il nodo m.


1. Prendiamo i 2 nodi più vicini (nearest neighbors).

2. Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi

3. Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le

distanze nella matrice di distanza (i nodi A e B vengono rimossi)

4. Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)

5. Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.

Come calcolo quali sono i 2 nearest

neighbor

• Vengono definiti

nearest neighbors la

coppia di nodi che

producono la somma

totale (Slm) di tutti i

rami minima.

• Ad esempio, nell’albero

in figura:

Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)

Come faccio a calcolare Sab??


neighbor



neighbor


Lxy può essere calcolato

come la somma di tutte le

distanze tra i due

neighbor e le altre foglie


neighbor




distanze tra i due


LXY = DAC


neighbor




distanze tra i due


LXY = DAC + DAD


neighbor




distanze tra i due


LXY = DAC + DAD + DAE


neighbor




distanze tra i due


LXY = DAC + DAD + DAE + DBC


neighbor




distanze tra i due


LXY = DAC + DAD + DAE + DBC + DBD


neighbor




distanze tra i due


LXY = DAC + DAD + DAE + DBC + DBD + DBE


neighbor


Ho sommato tutte le

distanza da A o B verso

E,D e C



neighbor


Una volta sommate tutte

le distanze dai 2 neighbor

agli altri nodi rimuovo i

rami in più



neighbor





rami in più

LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)


neighbor





rami in più


Sono passato 3 volte nel percorso A--X e B--X


neighbor





rami in più


-2 (Le + Ld + Lc)


neighbor





rami in più


-2 (Le + Ld + Lc)

Sono passato 2 volte da in ciascuno dei 3 rami


neighbor





rami in più

LXY = 1/6 * [DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc)]

Poiché sono passato 6 volte su X—Y andando da A e B verso

C,D,E divido tutto per 6.


neighbor





rami in più

(LaX + LbX) = DAB


neighbor





rami in più

(Le + Ld + Lc) = 1/2* (DCD+DCE+DDE)

Passo 2 volte su ogni ramo


neighbor

Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di

neighbor che mi danno la somma totale Slm minima.

Stima della nuova matrice di distanze

Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di

neighbor che mi danno la somma totale Slm minima.

Calcolo delle nuove distanze

Dobbiamo calcolare la distanza tra il nuovo nodo X creato e il

resto delle foglie dell’albero.

La distanza del nodo X (in seguito indicato AB) da una foglia j

sarà pari a alla media delle distanze dei 2 neighbor dalla foglia j:

D(AB)j = (D1j + D2j)/2

Calcolo delle nuove distanze

Nella matrice di distanza vengono rimosse le

righe/colonne di A e B e vengono introdotte una

nuova riga e colonna relativa alle distanze da X.

In totale la matrice si riduce di una riga/colonna

Come si calcola la lunghezza dei rami?

Se A e B sono vicini, si ha che

Calcolo della lunghezza dei rami dei 2

nearest neighbor

LAX=(DAB+DAZ-DBZ)/2

LBX=(DAB+DBZ-DAZ)/2

Dove DAZ = (DAC+ DAD+ DAE)/3

Dove DBZ = (DBC+ DBD+ DBE)/3

Z

Z rappresenta jil gruppo di tutte le foglie eccetto A e B

Come si calcola la lunghezza dei rami?

Se A e B sono vicini, si ha che

Calcolo della lunghezza dei rami dei 2

nearest neighbor

4) Infine si ottiene l’albero con la minima

lunghezza secondo il metodo:

Fare alberi utilizzando neighbor-joining

Esempio di un albero

neighbor-joining:

analisi filogenetica di

13 RBPs

Il NJ produce un albero senza

radice. La radice potrà essere

posta:

• sul ramo interno più lungo

• con una sequenza esterna.

Il bootstrap è un approccio comunemente utilizzato per

misurare la robustezza della topologia di un albero.

Dato un ordine di ramificazione, quanto frequentemente un

algoritmo trova una data soluzione a partire da diverse

versioni casualmente permutate del set di dati originale?

Fase 5: Valutazione di alberi: bootstrapping

Il bootstrap è un approccio comunemente utilizzato per

misurare la robustezza della topologia di un albero.

Dato un ordine di ramificazione, quanto frequentemente un

algoritmo trova una data soluzione a partire da diverse

versioni casualmente permutate del set di dati originale?

Operativamente:

• Creare una serie di dati artificiali, ottenuti da un

campionamento casuale delle colonne dal MSA originale,

con la stessa dimensione dell'originale.

• Ripeti per 100 (o 1000) volte.

• Osservare la percentuale dei casi in cui la divisione in cladi

nella struttura originale è confermata dalle repliche di test.

Valori > 70% (50%) sono considerati significativi.

Fase 5: Valutazione di alberi: bootstrapping

Nel 61% dei bootstrap, ssrbp e

btrbp (RBP di maiale e mucca)

hanno formato una clade distinta.

Nel 39% dei casi, un'altra proteina

si è unita alla clade (ecrbp ad

esempio), o uno di queste due

sequenze si è fusa in un’altra clade.

Utile per la descrizione della topologia di un albero: le

coppie di sequenze collegate allo stesso nodo sono

racchiuse tra parentesi tonde. La descrizione termina con “;”

Il formato Newick

FILOGRAMMA: le lunghezze dei sono

riportate con una sintassi che sfrutta i “:”

CLADOGRAMMA: le lunghezze dei

rami non sono definite

Portale Mobyle@Pasteur

E’ un portale per analisi bioinformatiche online

http://mobyle.pasteur.fr/cgi-bin/portal.py#welcome


Ha diverse sezioni interattive e integrate distinte per colore

Form interattivi dei

diversi programmi

disponibili

Risultati e processi

in corso sottomessi

al sito

Programmi

disponibili


Il menu di sinistra ha una struttura ad albero

Form interattivi dei

diversi programmi

disponibili

Programmi per

l’analisi

filogenetica

Programmi per i

MSA


Richiede un login


Include tool per il MSA


I risultati sono presentati in diversi formati

MSA in formato

CLUSTAL

Sezione dei risultati


Propone un percorso per la creazione di alberi


Con il MSA si calcola una matrice delle distanze

Si noti la presenza

di più finestre per

gestire diversi

processi


La matrice può poi essere usata come input per il calcolo

di un albero filogenetico Si noti la presenza

di più finestre per

gestire diversi

processi

Alternativa a Mobyle@Pasteur:Phylogeny.fr

Un sito simile che offre tool online, più semplice ma

meno ricco

Tool per l’analisi

filogenetica

Phylogeny.fr

Un sito simile che offre tool online, più semplice ma

meno ricco

Programmi

disponbili per

l’analisi

Dal menu per la Phylogeny analysis si accede a diverse modalità

La modalità più

dettagliata detta “à

la carte”

Ottimo strumento

di visualizzazione

Phylogeny.fr

No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1...

Documents

Transcript of No Slide Title - Functional Genomicsddlab.sci.univr.it/alberto/bioinformatica/Teoria_L07...N 100 = 1...