Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la...

76
Metodi filogenetici Metodi filogenetici basati sulla distanza basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti. (C. R. Darwin)

Transcript of Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la...

Page 1: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi filogenetici Metodi filogenetici basati sulla distanzabasati sulla distanza

1

“Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.” (C. R. Darwin)

Page 2: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

SommarioSommario

Storia della filogenetica molecolareStoria della filogenetica molecolare

Vantaggi delle filogenie molecolariVantaggi delle filogenie molecolari

Alberi filogeneticiAlberi filogenetici

Metodi basati su matrici di distanzaMetodi basati su matrici di distanza

Approcci di massima verosimiglianzaApprocci di massima verosimiglianza

Allineamenti multipli di sequenzeAllineamenti multipli di sequenze

2

Page 3: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Introduzione Introduzione 1 1La classificazione degli organismi in base alle specie è il risultato della ricostruzione filogenetica ricostruzione filogenetica della loro storia evolutiva, un’analisi che oggi viene condotta principalmente a livello molecolare e si basa sul confronto delle sequenze nucleotidiche e/o aminoaci-dicheLa filogenesi molecolarefilogenesi molecolare, usata anche per lo studio dell’evoluzione di specifiche famiglie di geni e pro-teine, è un metodo di analisi nato nei primi anni `90 e cresciuto velocemente grazie ai progressi della bio-logia molecolare e della bioinformatica

3

Page 4: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Introduzione Introduzione 2 2I diversi tipi di dati molecolari rappresentano infatti una sorta di documento storico, che contiene in sé le tracce dei passi fondamentali dell’evoluzione di un geneInoltre, gli eventi caratteristici dell’evoluzione dei geni (sostituzioni, inserzioni, delezioni e riarrangiamenti) possono essere utilizzati per risolvere quesiti sulla storia evolutiva e le relazioni tra intere specieLa filogenesi molecolare è un importante strumento La filogenesi molecolare è un importante strumento per la conservazione della biodiversità, il controllo per la conservazione della biodiversità, il controllo delle epidemie e l’analisi della struttura delle proteinedelle epidemie e l’analisi della struttura delle proteine

4

Page 5: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Storia della filogenetica molecolareStoria della filogenetica molecolare

I tassonomistitassonomisti hanno iniziato a classificare e raggrup-pare gli organismi molto prima che si sospettasse che il codice della vita e dell’evoluzione fosse scritto nei loro genomi Facendo da sprone agli studi di anatomia e fisiologia, la tassonomia ha prodotto intuizioni notevoli, spe-cialmente dopo che le idee di DarwinDarwin (18091882) hanno mostrato che il sistema proposto da LinneoLinneo (17071778) per classificare gli organismi rifletteva le relazioni evolutive intercorrenti tra loro

5

Page 6: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Il sistema tassonomico di LinneoIl sistema tassonomico di Linneo

SPECIESPECIE: è  la categoria più piccola e comprende organismi che hanno in comune molti caratteri; inoltre, gli organismi di una stessa specie possono accoppiarsi e avere prole feconda GENEREGENERE: comprende specie molto simili tra loro, come l’asino e il cavallo o il gatto e la lince; nel caso di accoppiamento possono avere prole, ma non fecondaFAMIGLIAFAMIGLIA: comprende diversi generi che presentano caratteristiche in comune; il gatto, la lince e il leone appartengono ad esempio alla stessa famigliaORDINEORDINE: comprende più famiglie che presentano caratteristiche fisiche comuni, come il tipo di dentatura; per esempio, un cane è molto diverso dal leone, ma entrambi appartengono allo stesso ordineCLASSECLASSE: comprende più ordini, con alcune caratteristiche comuni; per esempio, il cane e il cavallo, pur essendo diversi, appartengono alla stessa classe dei mammiferi.PHYLUMPHYLUM: comprende più classi tra loro affini (mammiferi, uccelli, rettili, anfibi e pesci appartengono tutti al phylum dei cordati)REGNOREGNO: è il raggruppamento più vasto che comprende phyla molto diversi tra loroLinneo raggruppò tutti gli esseri  viventi in 2 regni2 regni: il regno animale regno animale e quello vegetalevegetale

6

genere famiglia phylum classe ordine regno specie

Page 7: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Il sistema tassonomico di Linneo Il sistema tassonomico di Linneo EsempioEsempio

RegnoRegno: AnimaliaPhylumPhylum: CordataClasseClasse: MammaliaOrdineOrdine: ArtiodactylaFamigliaFamiglia: GiraffidaeGenereGenere: GiraffaSpecieSpecie: Giraffa camelopardalis

7

Page 8: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Storia della filogenetica molecolare (cont.)Storia della filogenetica molecolare (cont.)

Le intuizioni di Linneo e Darwin permisero importanti applicazioni, quali lo sviluppo di nuove colture agricole e la scoperta di cure contro le malattie infettive, ma soprattutto svilupparono la consapevolezza che tutti gli organismi viventi del pianeta condividono un unico antenato comuneLa considerazione di similarità e differenze a livello molecolare sembrò un’aggiunta naturale agli strumen-ti comunemente usati dai tassonomisti, dopo che G. H. F. Nuttall dimostrò (19021904) che l’intensità del-la risposta immunitaria generata in un organismo nel quale è stato iniettato il sangue di un altro organismo è direttamente connessa a quanto essi risultano evo-lutivamente correlati

8

Page 9: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Storia della filogenetica molecolare (cont.)Storia della filogenetica molecolare (cont.)

Attraverso tali esperimenti, Nuttall esaminò le rela-zioni esistenti tra centinaia di organismi e concluse, per esempio, che gli uomini e le scimmie antropo-morfe condividono un antenato comune, più recente di quello comune agli altri primatiGli anticorpi e la loro mutevole capacità di interagire con altre molecole sono ancora oggi utilizzati come strumento di screening filogenetico per organismi per i quali sono disponibili pochi dati di sequenze nucleo-tidiche o proteicheSolo dal 1950 i dati molecolari sono stati impiegati in modo estensivo per ricerche filogenetiche

9

Page 10: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Storia della filogenetica molecolare (cont.)Storia della filogenetica molecolare (cont.)

L’elettroforesi proteica permise la separazione ed il confronto di proteine in base a caratteristiche super-ficiali, come dimensione e caricaLa velocità a cui i genomi denaturati potevano ibridare fornì indicazioni sulla relazione che intercorreva tra organismi filogeneticamente correlatiAnche il sequenziamento delle proteine (a partire dagli anni `70) divenne possibile e si potè ottenere la sequenza aminoacidica completa di molte proteine essenzialiGrande quantità di parametri molecolari misurabili e Grande quantità di parametri molecolari misurabili e possibilità di andare oltre le similitudini morfologichepossibilità di andare oltre le similitudini morfologiche

10

Page 11: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Storia della filogenetica molecolare (cont.)Storia della filogenetica molecolare (cont.)

Dagli anni `70, allorché l’informazione genomica è divenuta disponibile, prima sottoforma di mappe di mappe di restrizionerestrizione (che descrivono la disposizione relativa dei vari siti riconosciuti dagli enzimi di restrizione sulla sequenza di DNA), quindi come dati di sequenza di DNA, sono stati sviluppati diversi approcci matemati-camente rigorosi e utili ai biologi molecolariDiventava possibile assegnare confidenza statistica ai Diventava possibile assegnare confidenza statistica ai raggruppamenti filogenetici e relativamente facile raggruppamenti filogenetici e relativamente facile formulare ipotesi verificabili sui processi evolutiviformulare ipotesi verificabili sui processi evolutivi

11

Page 12: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Storia della filogenetica molecolare (cont.)Storia della filogenetica molecolare (cont.)

Oggi, i dati di sequenza di DNA sono assai più abbon-danti di qualsiasi altra forma di informazione mole-colare

Gli approcci tassonomici tradizionali, basati sulle carat-teristiche morfologiche, continuano a fornire dati com-plementari agli studi evolutivi, così come le informazioni paleontologiche offrono indizi sulla reale scansione temporale con cui gli organismi si differenziano e si evolvonoTecniche come la PCR, però, costituiscono la vera frontiera della ricerca, per rispondere alle domande più salienti riguardo alla storia ed alle relazioni delle forme di vita sul pianeta

12

Page 13: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Vantaggi delle filogenie molecolari Vantaggi delle filogenie molecolari 1 1

Dato che l’evoluzione corrisponde ad un cambiamento genetico, le relazioni genetiche sono di primaria im-portanza nella decifrazione delle relazioni evolutive

Hp.: organismi con un elevato grado di similarità mole-colare sono filogeneticamente più vicini rispetto a quelli dissimili

Prima che gli strumenti della biologia molecolare fos-sero in grado di fornire dati molecolari utili per analisi filogenetiche, i tassonomisti erano costretti a fidarsi della comparazione dei fenotipifenotipi (l’aspetto esteriore di un organismo) per dedurre i loro genotipigenotipi (i geni che lo codificano)

Fenotipi simili geni simili che codificano per il dato fenotipo Fenotipi diversi diverso codice genetico 13

Page 14: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Vantaggi delle filogenie molecolari Vantaggi delle filogenie molecolari 2 2

Originariamente, nell’esame dei fenotipi si consideravano le caratteristiche anatomiche più evidenti; successivamente, sono state prese in considerazione anche le caratteristiche comportamentali, ultrastrutturali e biochimiche

Costruzione di alberi evolutivi ancora in uso per piante ed animali

LimitazioniLimitazioniFenotipi simili possono svilupparsi in organismi filogeneti-camente distanti, per evoluzione convergenteevoluzione convergente, quando due o più specie, legate allo stesso tipo di ambiente, sviluppano caratteri morfologici adeguati all’habitat (nello stesso momen-to, o anche con intervalli di tempo molto lunghi)Difficoltà nello studio di caratteristiche fenotipiche utilizzabili per comparazioneDifficoltà nella selezione di caratteristiche fenotipiche infor-mative

14

Page 15: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Vantaggi delle filogenie molecolari Vantaggi delle filogenie molecolari 3 3

EsempiEsempiLa forma idrodinamica del corpo, con arti a paletta e estremità posteriore bilobata si è evoluta almeno quattro volte nel corso della storia della terra: nei pesci, negli ittiosauri (rettili), nei delfini (mammiferi) e nei pinguini (uccelli)I batteri hanno poche caratteristiche facilmente osservabili, anche con analisi al microscopioQuali caratteristiche fenotipiche selezionare per mettere a confronto batteri, vermi e mammiferi, così dissimili fra loro?

15

Page 16: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Vantaggi delle filogenie molecolari Vantaggi delle filogenie molecolari 4 4

Le analisi che si basano sulle sequenze nucleotidiche o proteiche non presentano tali limitazioni, perché molte mo-lecole omologhe sono essenziali per tutti gli organismi viventiAnche se la velocità relativa di evoluzione molecolare può variare da una discendenza all’altra (e i tempi di divergenza dedotti da analisi molecolari devono pertanto essere trattati con cautela), gli approcci molecolari per generare filogenie sono estremamente affidabili

Probabilmente i più affidabili, anche in presenza di dati alter-nativi (es., morfologici), perché i dati di sequenza sono meno sensibili alla selezione naturaleNei casi in cui si rilevano differenze tra filogenie molecolari e morfologiche, si possono osservare gli effetti della selezione naturale sulle differenze fenotipiche

16

Page 17: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 1 1

Tramite albero filogenetico è pos-sibile non solo esprimere le rela-zioni parentali all’interno di un insieme di dati, ma anche il loro tempo di divergenza e la natura dei loro antenati comuni

17

Albero filogeneticoAlbero filogenetico: rappresentazione grafica delle relazioni evolutive tra tre o più geni od organismi

Page 18: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 2 2

18

Noti anche come dendrogrammidendrogrammi, negli alberi filogene-tici, ogni nodo rappresenta una distinta unità tasso-nomicaI nodi terminali nodi terminali corrispondono ad un gene o ad un organismo per cui esistono dati empirici, mentre i nodi nodi interni interni rappresentano un antenato comune ipotizzato o dedotto, che dà origine a due discendenze indi-pendenti in qualche punto nel passato

Page 19: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 3 3

(((I, II), (III, IV)), V)(((I, II), (III, IV)), V)

19

D

V

C

A

IV IIIII I

B

EsempioEsempioI nodi I, II, III, IV e V sono nodi terminali che rap-presentano organismi di cui sono disponibili le sequenzeI nodi interni A, B, C e D rappresentano gli antenati dedotti, per cui non sono più disponibili dati empiriciUna notazione alternativa è il formato di Newickformato di Newick:

Page 20: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 4 4

20

Quasi tutti i nodi interni hanno solo due discendenze, vengono detti pertanto biforcatibiforcatiSono possibili però anche discendenze multiple, che danno luogo a multiforcazionimultiforcazioniI nodi multiforcati possono essere interpretati in due modi

Una popolazione ancestrale dà origine simultaneamente a tre o più discendenze indipendentiEsistono due o più biforcazioni “quasi” nello stesso punto del passato, ma il numero limitato di dati a dispo-sizione rende impossibile distinguere l’ordine in cui sono avvenute

Page 21: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 5 5

21

Se le ramificazioni di un albero filogenetico possono essere utilizzate per trasmettere informazioni sulla sequenza con cui sono avvenuti gli eventi evolutivi, la lunghezza dei rami può essere utilizzata per indicare di quanto divergono differenti insiemi di dati

Alberi in scalaAlberi in scala, in cui la lunghezza degli archi è proporzionale alla differenza fra coppie di nodi adiacenti

Alberi additiviAlberi additivi: la somma delle lunghezze dei rami, che connettono due nodi qualsiasi, è una rappresentazione delle differenze tra loro accumulate

Alberi non in scalaAlberi non in scala: tutti i nodi terminali sullo stesso livello, si deducono solo le parentele, ma non si “quantifica” la distanza

Page 22: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 6 6

22

Un’altra importante distinzione nella filogenetica si ha tra gli alberi che deducono un antenato comune e la direzione dell’evoluzione e quelli che non lo fannoNegli alberi con radicealberi con radice, un singolo nodo viene definito come antenato comune e un unico percorso evolutivo conduce da esso a qualsiasi altro nodo dell’alberoGli alberi senza radice alberi senza radice specificano solo l’esistenza di relazio-ni fra nodi adiacenti, ma non forniscono alcuna informa-zione circa la direzione in cui avviene l’evoluzione

La radice può essere assegnata ad alberi senza radice utilizzando un gruppo esternogruppo esterno, cioè una specie che si è separata prima dalle altre specie oggetto di studioEsempioEsempio: nel caso di uomini e gorilla, quando i babbuini si utilizzano come gruppo esterno, la radice dell’albero può essere posta da qualche parte lungo il ramo che connette i babbuini all’antenato comune di uomini e gorilla

Page 23: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 7 7

23Alberi filogenetici con e senza radiceAlberi filogenetici con e senza radice

Page 24: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 8 8

24

In una situazione in cui vengono considerate solo tre specie, è possibile disegnare tre alberi con radice, ma solo uno senza radice

Page 25: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 9 9

25

Più in generale, per ogni albero senza radice, ci sono 2s3 alberi con radice, dove s è il numero di unità tassonomiche (se si considerano solo alberi dicotomici)

2s3 corrisponde al numero di rami nell’albero senza radice

Page 26: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 10 10

26

Generalizzando al caso di alberi con multiforcazioni:NR (2s3)![2s2(s2)!]

NU (2s5)![2s3(s3)!]

Numero specieNumero specie Numero alberi con radiceNumero alberi con radice Numero alberi senza radiceNumero alberi senza radice

2 1 1

3 3 1

4 15 3

5 105 15

10 34459425 2027025

15 213458046767875 7905853580625

20 8200794532637891599375 221643095476699771875

Page 27: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi filogenetici Alberi filogenetici 11 11

27

Neppure il più veloce dei computer può far fronte ad una tale esplosione computazionale per riuscire a valutare la qualità relativa di tutti gli alberi possibili, per più di poche decine di sequenze o di specie

Impossibile la ricerca esaustivaOccorre tentare di focalizzare l’attenzione solo su quegli alberi che più probabilmente riflettono le reali relazioni che intercorrono tra i vari insiemi di dati

D’altra parte, solo uno di questi rappresenta il D’altra parte, solo uno di questi rappresenta il “vero” percorso evolutivo fra i geni o le specie “vero” percorso evolutivo fra i geni o le specie considerateconsiderate

Page 28: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi di geni vs alberi di specie Alberi di geni vs alberi di specie 1 1

28

Gli alberi filogenetici basati sulla divergenza osservata fra geni omologhi si chiamano alberi genetici alberi genetici (da distinguersi dagli alberi di speciealberi di specie)

Possono rappresentare la storia evolutiva di un gene, ma non necessariamente quella della specie in cui si trova

Gli alberi di specie alberi di specie si ottengono dall’analisi dei dati provenienti da molteplici geni

EsempioEsempio: in uno studio recente sull’evoluzione delle specie vegetali sono stati utilizzati circa cento geni diversi per generare un albero filogenetico di specie per le piante

Page 29: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi di geni vs alberi di specie Alberi di geni vs alberi di specie 2 2

29

Le divergenze a livello di geni tipicamente si verificano prima che una popolazione si divida, il che avviene quando si creano nuove specieLa differenza tra alberi di geni e di specie tende a diventare particolarmente importante quando si consi-derano loci la cui diversità all’interno delle popolazioni è vantaggiosa, come il locus dell’antigene leucocitario umano HLA

Se si utilizzassero solo gli alleli HLA per determinare alberi di specie, molti uomini verrebbero raggruppati con i gorilla, perché l’origine del loro polimorfismo è antecedente alla speciazione

Page 30: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi di geni vs alberi di specie Alberi di geni vs alberi di specie 3 3

30

HLA

Albero filogenetico dei primati e divergenza del gene HLA

Albero filogenetico delle piante

Page 31: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi di geni vs alberi di specie Alberi di geni vs alberi di specie 4 4

31

Vantaggi nell’utilizzo di alberi di geniVantaggi nell’utilizzo di alberi di geniDescrizione dei dati non ambiguaNessuna interferenza con somiglianze dovute a effetti ambientali non genetici (l’evoluzione convergente impli-ca spesso fenotipi simili ma genotipi differenti)Maggiore facilità di stima dei tempi di divergenza (cioè della lunghezza dei rami)Modelli statistici rigorosiSi possono analizzare sequenze di DNA non codificanteTutti gli individui hanno il DNA!

Page 32: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi di geni vs alberi di specie Alberi di geni vs alberi di specie 5 5

32

Svantaggi nell’utilizzo di alberi di geniSvantaggi nell’utilizzo di alberi di geniL’omoplasia omoplasia (che consiste in una semplice somiglianza con un antenato il quale, pur possedendo lo stesso tratto, non l’ha trasmesso ereditariamente al soggetto in esame) può essere frequenteMutazioni ricorrenti modificano la relazione tra distanza genetica e distanza temporaleDuplicazioni e trasferimento orizzontale di geni possono essere identificati, ma possono creare problemi nella ricostruzione filogeneticaOmologia (cioè la somiglianza dovuta a eredità da un antenato che possiede quel determinato carattere) e omoplasia non possono essere distinte attraverso una analisi dettagliata come per i caratteri fenotipici

Page 33: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Alberi di geni vs alberi di specie Alberi di geni vs alberi di specie 5 5

33

La relazione tra distanza genetica e tempo di divergenza non è lineare La relazione tra distanza genetica e tempo di divergenza non è lineare perché lo stesso sito può aver subito più sostituzioni nel corso perché lo stesso sito può aver subito più sostituzioni nel corso dell’evoluzionedell’evoluzione

Page 34: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 1 1

34

I dati molecolari, utilizzati per generare alberi filoge-netici, appartengono a due categorie

Caratteri (caratteristiche ben definite che si presentano in un numero limitato di istanze diverse)Distanze (misura della differenza tra due insiemi di dati)

Sia le sequenze nucleotidiche, sia quelle aminoacidi-che sono esempi di dati che descrivono un insieme di istanze discrete di caratteriAltri insiemi di dati di tipo carattere sono quelli che si incontrano nella tassonomia basata su caratteristiche anatomiche o comportamentali, quali il colore di un organismo o la quantità di tempo necessaria per rea-gire ad un particolare stimolo

Page 35: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 2 2

35

Page 36: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 3 3

36

I dati di carattere possono essere facilmente convertiti in dati di distanza, una volta stabiliti criteri opportuni per determinare la similarità fra tutti i possibili stati caratterialiPer esempio, un valore di distanza D fra due geni è dato da Dnl, dove n è il numero di non corrisponden-ze osservate nell’allineamento mentre l ne rappresen-ta la lunghezza

Aggiustamenti per tener conto delle diverse frequenze di transizione e transversioneAggiustamenti per tenere conto di sostituzioni multipleNormalizzazione per ottenere “il numero di cambiamenti per 100 nucleotidi”

Page 37: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 4 4

37

La distanza fra proteine può essere calcolata in modo analogo, allineando le sequenze aminoacidiche

Perdita di informazione potenzialmente utileMaggior difficoltà nel confronto fra sequenze proteiche: non solo è più probabile che alcuni aminoacidi siano sostituiti con altri in base all’attività chimica simile dei loro gruppi funzionali, ma può variare anche il numero di sostituzioni a livello di DNA per ottenere una sosti-tuzione aminoacidica

Page 38: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 5 5

38

Gli approcci matematici utilizzati per la costruzione di alberi filogenetici generalmente trascurano l’importan-za di certe sottigliezze biologiche presenti negli in-siemi di datiL’approccio fenetisticofenetistico, proposto da R. Sokal e P. Sneath nel 1963, cerca di superare la soggettività im-plicita nell’interpretazione del record fossile e dell’im-portanza evolutiva dei caratteri degli esseri viventi

I fenetisti non danno pesi diversi ai vari caratteri: a ciascuno di essi assegnano un valore (0 l’assenza, 1 la presenza); sono più vicine, quindi, le specie che con-dividono un maggior numero di caratteri e più lontane quelle che ne condividono numericamente menoLa precisione del metodo migliora all’aumentare del numero di caratteri selezionati per l’analisi

Page 39: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 6 6

39

Il problema principale dell’approccio fenetistico consiste nell’aggregare un notevole numero di dati in una singola misura di somiglianza

una specie entra a far parte del gruppo in cui è presente la specie più simile ad essa, oppure……del gruppo in cui la media (numerica) degli individui è più vicina a quella della specie da classificare

Ciò che la tassonomia numerica ricostruisce con questo metodo non sono specie naturali ma unità tassonomiche unità tassonomiche operativeoperative (OTU), individuate cioè dal naturalista e non rappresentanti necessariamente una divisione realmente presente in natura

Page 40: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 7 7

40

I cladisticladisti, viceversa, sono generalmente più interessati ai cammini ed ai pattern evolutivi che non alle rela-zioni tra gli insiemi di dati, preferendo approcci più “biologici” per la costruzione degli alberi filogenetici

Obiettivo principale della cladistica è infatti classificare gli esseri viventi seguendo la gerarchia filogenetica derivante dalla storia della vita sulla TerraPoiché questa è stata unica, fornisce l’oggettività assoluta a questo tipo di classificazione Padre della scuola cladistica viene considerato l’entomo-logo tedesco W. Hennig (le cui idee sono racchiuse nell’opera Grundzüge einer Theorie der Phylogene-tischen Systematik, 1950)In realtà Hennig non parlò mai di cladistica, ma di sistematica filogeneticasistematica filogenetica

Page 41: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Dati di carattere e di distanza Dati di carattere e di distanza 8 8

41

L’idea di Hennig fu quella di suddividere gli esseri viventi in “cladi”: poiché, generalmente, quando una specie in natura si divide dà origine a due specie discendenti (specie sorelle), si può considerare gruppo tassonomico l’insieme delle due specie discendenti e del loro antenato comuneIn questo modo si formerà una classificazione naturale che può teoricamente risalire fino al primo essere vivente comparso sulla Terra

Page 42: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 1 1

42

Fra tutti gli alberi possibili, distinguere quale sia quello che descrive l’evoluzione di un gruppo di geni o organismi è un compito computazionalmente difficileLe matrici di distanza a coppie riassunti tabulari delle differenze fra tutti gli insiemi di dati da analiz-zare costituiscono l’input tipico per i più diffusi algoritmi per il calcolo degli alberi filogeneticiUPGMAUPGMA(UnweightedUnweightedPairPairGroup Method with Arith-Group Method with Arith-metic Meanmetic Mean) è il più datato fra i metodi basati sul-l’utilizzo delle matrici di distanza, ed il più semplice

Si devono possedere informazioni sulla distanza gene-tica fra tutti i taxa (singolare taxon, le unità tassono-miche) considerati, che vanno a costituire una matrice triangolare (inferiore)

Page 43: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 2 2

43

Si assuma che le distanze fra ogni coppia di taxa siano fornite dalla seguente matrice:

dAB rappresenta la distanza tra le specie A e B (il numero di nucleotidi non corrispondenti, diviso la lun-ghezza delle sequenze allineate, ad esempio)dAC è la distanza tra i taxa A e C

Specie A B C

B dAB

C dAC dBC

D dAD dBD dCD

Page 44: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 3 3

44

Nella prima fase dell’algoritmo UPGMA si individuano le due specie separate dalla minor distanza, inseren-dole nello stesso gruppo composito

Supponendo che il valore più piccolo nella matrice corrisponda a dAB, le specie A e B sono le prime ad essere raggruppate (A,B)

Dopo il primo raggruppamento, viene calcolata una nuova matrice delle distanze, in cui le distanze tra il nuovo gruppo (A,B) e le specie C e D vengono calcolate come medie aritmetiche delle distanze originali delle due specie costituenti il gruppo

d(AB)C 12(dAC dBC)

d(AB)D 12(dAD dBD)

Page 45: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 4 4

45

In questa nuova matrice, verranno nuovamente indivi-duate le specie separate dalla minore distanza, che saranno raggruppate a formare una nuova specie compositaIl processo viene reiterato fino ad ottenere un unico raggruppamento che include tutte le specie originaria-mente analizzateSe per rappresentare la distanza evolutiva tra le specie si usa un albero in scala, dai punti di dirama-zione si avranno archi uscenti di ugual lunghezza (pari alla metà della distanza originale fra le specie raggruppate)

Page 46: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 5 5

46

EsempioEsempioSi consideri l’allineamento fra le cinque sequenze di DNA

A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAAB: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAAC: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATCD: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAAE: GTATCACATA GCTCGCGGCA GCATTTGCCC TCCCGTCTTC AGATCTAAAA

Il confronto a coppie porta alla costruzione della matrice

Dato che tutte le sequenze hanno la stessa lunghezza e non presentano gap, le distanze sono calcolate come il numero di nucleotidi non corrispondenti in ogni confronto a coppie

Specie A B C D

B 9

C 8 11

D 12 15 10

E 15 18 13 5

Page 47: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 6 6

47

Esempio (cont.)Esempio (cont.)La distanza minore tra due sequenze per l’allineamento multiplo in analisi corrisponde a dDE, quindi le specie D ed E vengono raggruppate

e la nuova matrice delle distanze viene calcolata considerando il gruppo composito (D,E) al posto di D ed E

E

(D,E)

D

Specie A B C

B 9

C 8 11

DE 13,5 16,5 11,5

Le distanze tra le specie rimanenti ed il nuovo gruppo vengono deter-minate considerando la distanza media tra i suoi due membri (D ed E) e tutte le altre specie

Page 48: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 7 7

48

Esempio (cont.)Esempio (cont.)La minor distanza di separazione tra due specie in questa nuova matrice è quella tra A e C, quindi si forma il nuovo gruppo (A,C)

e si ricalcola la matrice delle distanze come

Specie B AC

AC 10

DE 16,5 12,5

E

((A,C),(D,E))

D C

(A,C)

A

(D,E)

Page 49: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 8 8

49

Esempio (cont.)Esempio (cont.)In quest’ultima matrice la distanza minore è tra le specie (A,C) e B (d(AC)B10), che quindi vengono raggruppateL’albero filogenetico completo risulta pertanto:

(((A,C),B),(D,E))

C A E B D

Page 50: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi basati su matrici di distanza Metodi basati su matrici di distanza 9 9

50

La generazione successiva della matrice delle distan-ze, utilizzata dal metodo UPGMA, è l’operazione com-putazionalmente più importante del processo che porta alla costruzione dell’albero filogenetico Mentre piccoli insiemi di dati possono essere facilmen-te analizzati “a mano”, tramite UPGMA, il problema diventa rapidamente oneroso (ma comunque di com-plessità polinomiale) per insiemi di dati grandi (sia in numero sia relativamente alla lunghezza delle se-quenze analizzate)

Page 51: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Stima della lunghezza dei rami Stima della lunghezza dei rami 1 1

51

Oltre a descrivere la relazione evolutiva fra sequenze, la topologia degli alberi filogenetici può fornire infor-mazioni sul loro grado di divergenza

CladogrammiCladogrammi, in cui la lunghezza degli archi è propor-zionale al numero di cambiamenti accumulati (o, utiliz-zando l’orologio molecolare, al tempo dalla speciazione)

Lunghezza dei rami calcolata in base al contenuto della matrice di distanzaSe si assume che la velocità di evoluzione sia costante lungo tutte le discendenze nodi interni biforcati a ugual distanza da ciascuna delle specie a cui danno origine

Page 52: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Stima della lunghezza dei rami Stima della lunghezza dei rami 2 2

52

EsempioEsempio

Specie A B C D

B 9

C 8 11

D 12 15 10

E 15 18 13 5

Specie B AC

AC 10

DE 16,5 12,5

Specie A B C

B 9

C 8 11

DE 13,5 16,5 11,5

E D

B

A

2.52.54

6.256.25

5

4

C

5

Page 53: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Stima della lunghezza dei rami Stima della lunghezza dei rami 3 3

53

A

y

B

C

x

z

Page 54: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Stima della lunghezza dei rami Stima della lunghezza dei rami 4 4

54

Le lunghezze dei rami per alberi più complicati, che presentano più di un punto di ramificazione, possono essere stimate considerando comunque solo tre rami alla voltaI rami da considerare sono:

i due rami che connettono le due specie filogenetica-mente più vicine in base alla matrice di distanzeil ramo che connette l’antenato comune alle due specie filogeneticamente più vicine con l’antenato di tutte le altre specie

Page 55: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle distanze trasformate Metodo delle distanze trasformate 1 1

55

Il punto di forza degli approcci basati su matrici di distanza sta nel fatto che, scelta opportunamente una metrica, essi lavorano ugualmente bene con dati molecolari, morfologici o con una combinazione di entrambiViceversa, la debolezza di UPGMA sta nell’assunzione di una velocità di evoluzione costante lungo tutte le discendenze

Variazioni nelle frequenze di sostituzione possono cau-sare la costruzione di alberi topologicamente scorretti

Page 56: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle distanze trasformate Metodo delle distanze trasformate 2 2

56

EsempioEsempio: per l’insieme di sequenze

A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAAB: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAAC: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATCD: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAAE: GTATCACATA GCTCGCGGCA GCATTTGCCC TCCCGTCTTC AGATCTAAAA

un’indicazione che la velocità di evoluzione non è costante è data dalle lunghezze dei rami del cladogramma, che non sono additive

dAE 4 6.25 6.25 2.5 19

mentre per la matrice di distanze è

dAE 15

E D

C A

2.52.54

6.256.25

4

Page 57: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle distanze trasformate Metodo delle distanze trasformate 3 3

57

Alcuni approcci alternativi a UPGMA basati su matrici delle distanze considerano la possibilità di velocità evolutive differenti in discendenze distinteIl metodo delle distanze trasformatemetodo delle distanze trasformate, proposto da J. Farris nel 1997, sfrutta l’introduzione di un gruppo gruppo esternoesterno, una specie che ha subito divergenza prima di tutte le altre dall’antenato comune di tutte le specie rappresentate nella matrice (dette gruppi internigruppi interni)

Page 58: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle distanze trasformate Metodo delle distanze trasformate 4 4

58

EsempioEsempio: utilizzando le sequenze

A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAAB: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAAC: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATCD: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAA

assumiamo che la specie D sia un gruppo esterno rispetto alle specie A, B e C e che le vere relazioni fra le specie siano rappresentate da (((A,B),C),D) nel formato di Newick o dall’albero filogenetico

C D B A

6

1

3

2

63

Il numero accanto ad ogni arco corrisponde al numero di muta-zioni nelle 50 coppie di basi che si sono accumulate lungo ciascu-na discendenza durante ogni sta-dio dell’evoluzione

Page 59: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle distanze trasformate Metodo delle distanze trasformate 5 5

59

Esempio (cont.)Esempio (cont.) In questa situazione, D può essere usato come gruppo esterno per trasformare le distanze che separano le altre specie attraverso l’equazione

(dij)’ (dij diD djD)2 dD

dove (dij)’ è la distanza trasformata tra le specie i e j e dD è la distanza media tra il gruppo esterno e tutti i gruppi interni (in questo caso pari a 373)

• Il termine additivo che fornisce la distanza media dal gruppo esterno è stato introdotto per garantire la positività della distanza trasformata (valori negativi non hanno senso in una prospettiva evolutiva)

Page 60: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle distanze trasformate Metodo delle distanze trasformate 6 6

60

Esempio (cont.)Esempio (cont.) Può essere di conseguenza calcolata la matrice delle distanze trasformate per le specie A, B e C

L’approccio classico UPGMA può quindi essere utilizzato con la nuova matrice e produce l’albero filogenetico con la topologia attesa

Specie A B

B 103

C 163 163

Page 61: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle distanze trasformate Metodo delle distanze trasformate 7 7

61

La potenza dell’approccio delle matrici di distanze trasformate deriva da una semplice osservazione: i gruppi interni evolvono separatamente solo dopo la loro divergenza e qualsiasi differenza nel numero di sostituzioni accumulate deve essersi verificata solo dopo la speciazione

I gruppi esterni forniscono un sistema di riferimento I gruppi esterni forniscono un sistema di riferimento oggettivo per confrontare le frequenze di sostituzioneoggettivo per confrontare le frequenze di sostituzione

Il metodo delle matrici di distanze trasformate può essere applicato anche quando non è possibile deter-minare un gruppo esterno

Anche un gruppo interno può fare da riferimento per il ricalcolo delle distanze; tuttavia, solo i gruppi esterni permettono l’aggiunta della radice in un albero filoge-netico

Page 62: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle relazioni di vicinanza Metodo delle relazioni di vicinanza 1 1

62

Una diversa variante del metodo UPGMA enfatizza l’accoppiamento delle specie in modo tale da costruire alberi con lunghezze di archi complessive che siano le minori possibiliIn un qualsiasi albero senza radice, le coppie di specie che sono separate tra loro da un solo nodo interno sono definite vicinevicineDalla topologia dell’albero si possono normalmente trarre utili relazioni algebriche tra vicini

Page 63: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle relazioni di vicinanza Metodo delle relazioni di vicinanza 2 2

63

EsempioEsempio

Per un albero con lunghezze degli archi additive si ha

dAC dBD dAD dBC a b c d 2e dAB dCD 2e

dove a, b, c e d sono le lunghezze dei rami terminali ed e è la lunghezza del ramo centrale

• Le seguenti condizioni, note come condizioni dei quattro condizioni dei quattro puntipunti, saranno altresì vere

dAB dCD dAC dBD

dAB dCD dAD dBC

e

D

C

c

d

A

B

a

b

Page 64: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle relazioni di vicinanza Metodo delle relazioni di vicinanza 3 3

64

Si determina, fra tutti i possibili arrangiamenti a coppie tra le quattro specie, quelli che soddisfano la condizione dei quattro punti e si procede al raggrup-pamento dei relativi elementi

Si è assunto fin qui che gli alberi siano additivi: il metodo non è particolarmente sensibile alla deviazione da questa assunzione, che può tuttavia causare la costruzione di un albero topologicamente scorretto

Page 65: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodo delle relazioni di vicinanza Metodo delle relazioni di vicinanza 4 4

65

Nel 1977, S. Sattah e A. Tversky suggerirono un modo per utilizzare l’approccio di vicinanza per alberi filogenetici relativi a più di quattro specie1) Si genera una matrice di distanze2) Si utilizzano gli elementi della matrice per generare, per

quattro specie,dAB dCD, dAC dBD, dAD dBC

3) Si assegna un punteggio pari ad 1 alla coppia che produce il valore minimo, 0 alle altre

4) Si ripete il procedimento relativamente a tutti gli insiemi di quattro specie che si possono formare a partire dai dati iniziali

5) La coppia di specie con il punteggio più alto al termine dell’analisi viene raggruppata

6) Si ricalcola la matrice delle distanze e si ripete il procedimento dal passo 2) fino a quando rimangono tre sole specie e la topologia dell’albero è determinata univocamente

Computazionalmente oneroso per più di cinque o sei specie!

Page 66: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi neighbor-joining Metodi neighbor-joining 1 1

66

Sono possibili altri approcci basati sulla vicinanza, fra cui diverse varianti chiamate metodi neighborneighborjoiningjoining

Si inizia con la creazione di un albero a stella dove tutte le specie, a prescindere dal loro numero, discendono da un singolo nodo centraleSi cercano, in maniera sequenziale, i vicini che mini-mizzano la lunghezza totale dei rami dell’alberoLa principale differenza tra i diversi metodi di neighbor joining è il modo in cui si determina la somma delle lunghezze degli archi in ogni reiterazione del processo

Page 67: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi neighbor-joining Metodi neighbor-joining 2 2

67

I

Page 68: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi neighbor-joining Metodi neighbor-joining 3 3

68

un gruppo esterno e dij è la

distanza tra le le specie i e j

J. Studier e K. Keppler (1988)Q12 (N2)d12 d1i d2i

1

2

i

j N

N. Saitou e M. Nei (1987)S12 (1(2(N2)) (d1k d2k) 12d12 (1N2)(dij)

dove ogni coppia di specie assume la posizione 1 e 2 nell’albero, N è il numero delle specie rappresentate nella matrice delle distanze, k è

Page 69: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Metodi neighbor-joining Metodi neighbor-joining 4 4

69

In ogni iterazione del processo vengono considerate tutte le possibili coppie di specie e la coppia che pro-duce un albero con il valore minimo della lunghezza totale degli archi (S o Q) viene raggruppata, per poi generare una nuova matrice delle distanzeÈ stato dimostrato che le due relazioni per S e Q sono teoricamente equivalenti, così come anche i metodi neighborjoining e quello delle relazioni di vicinanza, dato che entrambi dipendono dalle condizioni dei quattro punti e dall’assunzione di additività

Si generano alberi con topologie molto simili, se non identiche

Page 70: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Approcci di massima verosimiglianza Approcci di massima verosimiglianza 1 1

70

Il metodo della massima verosimiglianza non utilizza la matrice delle distanze ma direttamente le sequenzeSi cerca di quantificare quale sia la probabilità che ad una certa ipotesi H, nel nostro caso un albero filogenetico, corrisponda un certo insieme di dati D, nella fattispecie un allineamento multiplo

Pr(D|H)L’albero che ottiene il massimo valore di probabilità rappresenta la stima di massima verosimiglianza della filogenesi tra le sequenze considerateL’albero di massima verosimiglianza è quindi quello che meglio giustifica il set di dati in esame, ovvero il multiallineamento

Page 71: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Approcci di massima verosimiglianza Approcci di massima verosimiglianza 2 2

71

La probabilità viene calcolata come prodotto della proba-bilità che ha ciascun sito del multiallineamento di presen-tare un certo carattere se ha avuto luogo un particolare processo evolutivo (rappresentato dall’albero filogenetico in questione)

Difficoltà dovute alla:mancanza di conoscenza della sequenza nucleotidica degli antenati possibilità di sostituzioni multiple in uno o più sitipossibile interdipendenza fra siti

Tutte le variabili del modello, come, per esempio, tassi di sostituzione, topologia dell’albero, lunghezza dei rami, vengono calibrate per massimizzare il valore di verosimi-glianzaPrincipale limitazione: elevata complessità computazionale

Page 72: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Allineamenti multipli di sequenze Allineamenti multipli di sequenze 1 1

72

Gli allineamenti di sequenze sono facilitati per se-quenze simili, all’interno delle quali si siano verificati pochi eventi indelL’allineamento simultaneo di più di due sequenze è un’estensione naturale dell’allineamento a coppie

L’ordine in cui le sequenze vengono aggiunte ad un allineamento multiplo può modificare significativamente il risultato

Dato che sequenze simili possono essere allineate molto facilmente e con una maggior confidenza, gli allineamenti multipli devono considerare l’ordine filo-genetico delle sequenze

Page 73: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Allineamenti multipli di sequenze Allineamenti multipli di sequenze 2 2

73

Se si conosce l’origine filogenetica delle sequenze pri-ma che venga effettuato l’allineamento, le sequenze vengono aggiunte una alla volta secondo tale ordine

Per prime le sequenze più strettamente correlate e per ultime le sequenze più lontane dal punto di vista evolutivo

Tuttavia, gli allineamenti multipli servono spesso proprio a determinare le relazioni filogenetiche fra sequenze

Serve un approccio integrato ed unificato che simulta-neamente genera allineamento e filogenia Richiede molti cicli di analisi filogenetica e di allinea-mento e può risultare molto oneroso

Page 74: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Allineamenti multipli di sequenze Allineamenti multipli di sequenze 3 3

74

AlgoritmoAlgoritmo1) Generare una matrice delle distanze a coppie, basata

su tutti i possibili allineamenti a coppie tra le sequenze considerate

2) Utilizzare un approccio statistico, tipo UPGMA per co-struire un albero iniziale

3) Riallineare progressivamente le sequenze seguendo l’ordine stabilito dall’albero dedotto

4) Costruire un nuovo albero dalle distanze a coppie ottenute dal nuovo allineamento multiplo

5) Ripetere il processo se il nuovo albero non è uguale al precedente

Page 75: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Concludendo… Concludendo… 1 1

75

È molto difficile definire la vera relazione che intercor-re tra sequenze omologhe, se non si utilizzano tecni-che automatiche

Il numero di possibili alberi filogenetici è molto elevato anche per un numero di sequenze relativamente piccolo

Grande varietà di approcci atti a dedurre le relazioni filogenetiche più probabili tra i geni o le specie, utilizzando le informazioni codificate nelle sequenze nucleotidiche o aminoacidiche

Page 76: Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Concludendo… Concludendo… 2 2

76

Gli approcci basati sulle distanze:Restringono il campo a poche filogenie (alberi) plausibiliConsiderano le similarità complessive tra le sequenze disponibili e raggruppano progressivamente quelle più simili

Gli approcci di massima verosimiglianza sono compu-tazionalmente onerosi, ma focalizzano l’attenzione sulle relazioni filogenetiche che statisticamente è più probabile rappresentino la reale storia evolutiva di geni/specie