Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in...

Post on 18-Feb-2019

218 views 0 download

Transcript of Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in...

Allineamento multiplo

Allineamenti multipli

Il modo migliore per conoscere le caratteristiche di una determinata

famiglia è allineare molte proteine a funzione analoga.

I siti funzionalmente o strutturalmente più rilevanti tendono a

mantenersi invariati nelle proteine omologhe, mentre i siti meno

importanti possono cambiare anche molto.

Osservare e studiare le conservazioni significa capire come le famiglie

di proteine funzionano, cosa la rende diverse tra loro, se esistono o

meno relazioni filogenetiche inter e intrafamiglia.

In questo modo è possibile individuare la funzione di una proteina

ignota solo osservando la sequenza dei suoi residui.

Alcune applicazioni dell’allineamento multiplo

‘Assemblaggio’ dei genomi

Definizione di famiglie

Filogenesi

Inferenze strutturali

Inferenze funzionali

Consensi

profili (esprime tutta l’informazione

contenuta in un multiallineamento)

Similitudine e omologia

Omologia: carattere QUALITATIVO che posseggono quelle sequenze che

derivano da un antenato comune in seguito al processo evolutivo. O

due geni sono omologhi o non lo sono. Non esiste una percentuale di

omologia.

Similitudine: carattere QUANTITATIVO che origina da un allineamento.

Il grado di identità che si determina tra i residui allineati o il fatto che

residui simili possano corrispondere in un allineamento, può essere

quantificato disponendo di metri di valutazione oggettivi, come le

matrici di sostituzione.

=> un’alta similitudine tra proteine può essere indice di omologia, ma

non si può escludere il contrario. Esistono infatti proteine molto simili

in organismi filogeneticamente non correlati tra loro e proteine molto

diverse che possono essere ricondotte a omologhe mediante altri studi

Geni ortologhi e geni paraloghi

Geni ortologhi: sono geni omologhi, presenti in specie diverse ma

correlate, che codificano per proteine che hanno funzioni simili e che

si sono separati non per un evento di duplicazione ma in seguito a

speciazione (separazione delle specie). (geni omologhi, diversi in

organismi diversi derivati da specializzazione della specie, stessa

funzione)

es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa 80

milioni di anni fa, quando avvenne la divisione che dette vita ai

primati e ai roditori. I due geni sono da considerarsi ortologhi.

Geni paraloghi: geni originati dalla duplicazione di un unico gene nello

stesso organismo.(geni diversi generati dalla duplicazione di un gene

dell’organismo)

es. α-globina e β-globina umana hanno iniziato a divergere in seguito

alla duplicazione di un gene globinico ancestrale. I due geni sono da

considerarsi paraloghi.

Le sequenze da multiallineare in genere si ottengono dalla ricerca in

banca dati mediante i sistemi di ricerca per similarità come BLAST e

FASTA.

Visto che derivano già da un allineamento (anche se prodotto con

metodi euristici) e visto che si prendono in considerazione solo

sequenze che hanno un alto score (o un basso E, expectation value),

l’allineamento mutiplo su questi DATASET darà risultati soddisfacenti.

In un allineamento multiplo si prendono in

considerazione le colonne di residui, più che le proteine

a cui appartengono. Ogni residuo incolonnato è da

considerarsi in modo implicito come evolutivamente

correlato, in qualche modo.

Significato biologico dell’allineamento multiplo

L’allineamento multiplo riassume

La storia evolutiva di una famiglia di proteine

La conservazione dei residui dipendente dalla funzione

La conservazione dei residui dipendente dalla struttura

Allineamenti multipli Vs. allineamenti a coppie

E A G F P P G V V N V I P G F G P T A G A A H A S H E D V D K V A F T G S T E V G H L I Q V A E A G F P P G V V N I V P G F G P T A G A A I A S H E D V D K V A F T G S T E I G R V I Q V A Q Y M D Q N L Y L V V K G G - V P E T T E L L - - K E R F D H I M Y T G S T A V G K I V M A A N V F S P A W A - T V V E G D E T I S Q Q L L - - Q E K F D H I F F T G S P R V G R L I M A A E A G V P V G L V N V V Q G - G A E T G S L L C H H P N V A K V S F T G S V P T G K K V M E M D I - F P A G V I N I L F G R G K T V G D P L T G H P K V R M V S L T G S I A T G E H I I S H

1:

2:

3:

4:

5:

6:

A

1 :

2 :

3 :

4 :

5 :

6 :

EAGFPPGVVNVIPGFGPTAGAAIASHEDVDKVAFTGSTEVGHLIQVA

EAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVA

QYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAA

NVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAA

EAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEM

DI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH

1:

2:

3:

4:

5:

6:

B

Significato funzionale della conservazione

T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :

I I G G S D Q L I R N A P W Q V S I Q I S A R - - - - H E C G G V I Y S K E I I I T A G H C L H E R - S V T L M K V - - - - - R V G A - - - Q N H N Y G G - T L V P V A A Y - - K V H E Q F D S R F L H - - - I V G G N D S R E G A W P W V V A L Y Y N G - - - - Q L L C G A S L V S R D W L V S A A H C V Y G - - - - R N L E P S K W K A I L G - - L H M T S N L T S P Q I V T R L I D E I V I N P H Y N R R R K D - - - I V E G Q D A E V G L S P W Q V M L F R K S P Q E - - L L C G A S L I S D R W V L T A A H C L L Y P P W D K N F T V D D L L V R I G K - H S R T R Y E R K V E K I S M L D K - I Y I H P R Y N W K E N - - - - I V G G F N C E K N S Q P W Q V A V Y R F T - - - - K Y Q C G G I L L N V N W V L T A A H C H N D - - - - - K Y Q V - - - - - W L G K - N N F L E D E P S A Q H R L V S K - - A I P H P D F N M S L L N E H T I V N G E E A V P G S W P W Q V S L Q D K T G - - - F H F C G G S L I N E N W V V T A A H C G V T - - - - T S D V V - - - - - V A G E F D Q G S S S E K - I Q K L K I A K - - V F K N S K Y N S L T I N - - - V V G G E V A K N G S A P Y Q V S L Q V P G W G - - - H N C G G S L L N D R W V L T A A H C L V G - H A P G D L M V - - - - - L V G T - - - N S L K E G G - E L L K V D K - - L L Y H S R Y N L P R F H - - - I V G G S N A A A G E F P W Q G S L Q V R S G T S W F H I C G C V L Y T T S K A L T A A H C L S N - - S A S S Y R L - - G - - - F G M L R - M N N V D G T E Q Y S S V T S - - Y T N H P N Y N G N A A G - - -

: 8 4 : 9 0 : 9 5 : 8 6 : 8 5 : 8 5 : 9 0

T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :

- - - - - - - - Y D I A V L R L S T P - L T F G L S T R A I N L A S - - - T S P - - S G G T T V T V T G W G H - - - - T D N G - - - A L S D S L Q K A Q L Q I I D R G E C A S Q K F G Y G A D - F V G E E T I - - - - - - - - S D I A M M H L E F K - V N Y T D Y I Q P I C L P E - - - E N Q V F P P G R I C S I A G W G K - - - V I Y Q G - - - S P A D I L Q E A D V P L L S N E K C Q Q Q M P - E Y N - - - I T E N M M - - - - - - L D R D I A L L K L K R P - I E L S D Y I H P V C L P D K Q T A A K L L H A G F K G R V T G W G N R R E T W T T S V A E V Q P S V L Q V V N L P L V E R P V C K A S - - - T R I R - - I T D N M F P Q P E D D Y S N D L M L L R L K K P - A D I T D V V K P I D L P T - - - E E P - - K L G S T C L A S G W G S - - - I T P V K Y - - E Y P D E L Q C V N L K L L P N E D C A K A - - - H I E K - - V T D D M L - - - - - - - - N D I T L L K L S T A - A S F S Q T V S A V C L P S - - - A S D D F A A G T T C V T T G W G L - - - T R Y T N A - - N T P D R L Q Q A S L P L L S N T N C K K Y - - - W G T K - - I K D A M I - - - - - - - - N D I G L V R L E Q P - V Q F S E L V Q S V E Y S E - - - - - K A V P A N A T V R L T G W G R - - - T S A N G - - - P S P T L L Q S L N V V T L S N E D C N K K - - - G G D P G Y T D V G H L - - - - - - Y P N D I A V L R L T S S M D T S S S A V G P S V W L L - - - - - - - - - V E R L C R T N M Y D Q R - - M G K T Q W R W Q H P N N L Q K V D M T V L T N S D C S S R W S G I S G A T - V N S G H I

: 1 6 5 : 1 7 1 : 1 8 6 : 1 7 3 : 1 6 6 : 1 6 5 : 1 7 5

T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :

C A A S - - - - T D - A D A C T G D S G G P L V A S S Q - - - - - - L V G I V S W G - Y R C A D D N Y P G V Y A D V A I L R P W I C A G Y E - - E G G - I D S C Q G D S G G P L M C L E N - - N R W L L A G V T S F G - Y Q C A L P N R P G V Y A R V P K F T E W I C A G Y K P G E G K R G D A C E G D S G G P F V M K S P Y N N R W Y Q M G I V S W G - E G C D R D G K Y G F Y T H V F R L K K W I C A G D M - - D G G - K D T C A G D S G G P L I C D G V - - - - - - L Q G I T S W G P S P C G K P N V P G I Y T R V L N F N T W I C A G A - - - - S G - V S S C M G D S G G P L V C K K N - - G A W T L V G I V S W G - S S T C S T S T P G V Y A R V T A L V N W V C T L T K - - - T G - E G A C N G D S G G P L V Y E G K - - - - - - L V G V V N F G - V P C A L G - Y P D G F A R V S Y Y H D W V C I F E - - - - S G - R S A C S G D S G G P L V C G N T - - - - - - L T G I T S W G I S S C S G S - Y P S V Y T R V S S F Y N W V

: 2 1 8 : 2 3 0 : 2 5 0 : 2 2 9 : 2 2 3 : 2 1 8 : 2 2 8

Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina

Difficoltà dell’allineamento multiplo

• Complessità del problema

- Tempo di elaborazione

• Funzione oggettiva di punteggio

- ”Peso” da assegnare alle varie sequenze

Metodi per l’allineamento multiplo

• Allineamento ottimale

• Programmazione dinamica, MSA

• Allineamento euristico

• Progressivo

globale (CLUSTALW,Pileup)

locale (PIMA)

• Iterativo

globale (PRRP)

locale (DIALIGN)

Complessità dell’allineamento multiplo ottimale

Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C

e A-C. L’allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e

la valutazione di tutte le possibili mosse all’interno del cubo. La complessità di questo

algoritmo è (O(LN)), dove L è la lunghezza e N il numero delle sequenze. Per tre

sequenze di 300 amino acidi il numero di confronti è 2.7 x 107. Un algoritmo completo di

programmazione dinamica è utilizzabile solo nel caso di tre sequenze.

Allineamento ottimale con programmazione

dinamica Carrillo & Lipmann, 1988

Per trovare un allineamento ottimale tra tre sequenze è necessario calcolare i

punteggi all’interno del volume in grigio: il volume è delimitato dalle proiezioni

delle aree sulle facce del cubo.

Questo algoritmo (implementato nel programma MSA) può essere utilizzato per

poche (<10) sequenze corte.

Algoritmo Euristico: Allineamento progressivo

consenso DHEKFGSSQRSGQRSG SeqC Aggiunta della coppia C al

precedente allineamento

DGEKFGPPQRSGQRSG

|||.||| ||||.|||

DGERFGP-QRSGNRSG

| |.||. .|||.|||

DHEKFGSSQRSGQRSG

SeqA

SeqB

SeqC

Allineamento multiplo

DGEKFGPPQRSGQRSG

|||.||| ||||.|||

DGERFGP-QRSGNRSG

SeqA

SeqB

Allineamento della coppia A-B

Allineamento di tre sequenze A, B, C per passi successivi

N sequenze (dataset)

disposte a caso, non

allineate

Determinare un albero

guida basato sui

punteggi di similarità

di tutte le coppie

A partire dalla coppia più simile,

determinare le colonne conservate,

e allineare la coppia successiva

mantenendo queste colonne e

ricalcolando lo score complessivo N sequenze (dataset)

allineate

Allineare tutte le proteine con

tutte le proteine, a coppie (

N(N-1)/2 allineamenti)

Allineamento progressivo

• Allineamenti a coppie [N(N-1)/2 confronti] di tutte le sequenze con

programmazione dinamica o metodi approssimati (BLAST, FASTA).

Calcolare una matrice diagonale di distanze.

• Costruire un albero (Neighbor-joining, UPGMA, etc.) sulla base della

matrice. L’albero serve da guida per gli allineamenti successivi.

• Cominciando dal primo nodo aggiunto all’albero, che rappresenta

le due sequenze più vicine, allineare via via gli altri nodi (i quali

possono essere due sequenze, una sequenza ed un allineamento o due

allineamenti) fino a che tutte le sequenze sono state allineate

Calcolo della matrice delle distanze

Obiettivo: Dall’allineamento singolo eseguito al primo passo, abbiamo lo score che

rappresenta la similarità tra le coppie allineate. A partire da esso calcoliamo la

distanza di edit per ciascuna coppia.

Calcolo della matrice delle distanze

Allineamento progressivo

L’albero guida e la clusterizzazione

1 Hbb_human -

2 Hbb_horse .17 -

3 Hba_human .59 .60 -

4 Hba_horse .59 .59 .13 -

5 Myg_whale .77 .77 .75 .75 -

b_hu b_ho a_hu a_ho M_w

1

2

3

4

5

3° 4°

E’ una matrice di distanze,

minore è il numero, maggiore è

la similitudine...

Ordine di clusterizzazione

PEEKSAVTALWGKVN--VDEVGG Hbb_human

GEEKAAVLALWDKVN--EEEVGG Hbb_horse

PADKTNVKAAWGKVGAHAGEYGA Hba_human

AADKTNVKAAWSKVGGHAGEYGA Hba_horse

EHEWQLVLHVWAKVEAGVAGHGQ Myg_whale

Allineamento finale

Allineamento progressivo: CLUSTAL

Matrice di distanza

ottenuta con confronti

a coppie (minore è il

numero maggiore la

similitudine)

Albero filogenetico di

neighbor-joining

costruito dalla matrice

Allineamento progressivo

delle coppie (sequenza-

sequenza, sequenza-

profilo, profilo -profilo)

utilizzando l’albero come

guida

Higgins & Sharp 1988

CLUSTALW improvement

Le sequenze filogeneticamente

più distanti ricevono un peso

proporzionalmente più alto

nell’allineamento

La penalità da assegnare ai gap

dipende dal tipo di residui come

osservato in sequenze a struttura

nota (Pascarella & Argos)

La penalità dipende anche dalla

posizione. Se ci sono gap nelle

vicinanze la penalità aumenta

Thompson et al 1994

http://www.ebi.ac.uk/clustalw/ o scaricare il programma eseguibile

Thompson et al 1994

CLUSTALW improvement

Le sequenze più distanti

ricevono un peso (weigth)

maggiore nel punteggio

CLUSTALW e CLUSTALX

Allineamento delle globine

ottenuto con CLUSTALW

CLUSTALX. Stesso

algoritmo con interfaccia

grafica (PC)

Funzione oggettiva per l’allineamento multiplo

Seq1 A A A A

Seq2 A A A A

Seq3 A A A C

Seq4 A A C C

Seq1 Seq2

Seq3 Seq4

Seq1

Seq2

Seq3

Seq4

Somma delle coppie

N(N-1)/2 confronti

Possibile relazione

filogenetica delle sequenze

Viene usato il metodo della somma delle coppie in ogni colonna per determinare il punteggio totale

dell’allineamento. Questo metodo non tiene in considerazione la storia delle sequenze e il fatto che uno

stesso carattere nella colonna può essere facilmente condiviso da sequenze molto simili per ragioni

evolutive. Per ovviare a questo si assegna un peso alle sequenze in modo da aumentare il punteggio in

confronti tra sequenze evolutivamente distanti e diminuirlo in confronti tra sequenze vicine.

AAAA AAAC

AAAA AACC

AAAC AAAA

AAAA AAAC

AAAA AACC

Valutare la bontà di un multi-allineamento

In genere: si sommano tutti gli score di tutte le possibili coppie di

proteine allineate, pesando i valori in base alla similitudine nello

stesso cluster per evitare che alcuni cluster prevalgano su altri nel

conteggio finale. Ottengo un WSP (Weighted Sum of Pairs):

WSPscore = Σ Σ Wij Ŝ(Aij) i = 1 j = 1

N-1 N

N: numero di sequenze i,j: coppia di sequenze

Ŝ: punteggio di similarità della coppia W: peso per la coppia

Il valore complessivo del WSP dipende dai criteri di punteggio utilizzati

nell’allineamento più che da considerazioni biologiche, ma è comunque

un criterio valido per tutti gli allineamenti con gli stessi parametri

Uno score così è chiamato Objective Function (OF)

Utilizzo dei colori

I file raw-text possono essere utilizzati per visualizzare le

colonne, ma è possibile associare colori diversi per residui con

caratteristiche chimico fisiche diverse. Questo facilita molto la

visualizzazione dei multiallineamenti

Utilizzo dei colori

Rappresentazioni dell’allineamento multiplo:

conservazione

Rappresentazioni dell’allineamento multiplo:

sostituzioni

Le sequenze consenso

Si definisce sequenza consenso una sequenza derivata da un

multiallineamento che presenta solo i residui più conservati per

ogni posizione

riassume un multiallineamento.

non è identica a nessuna delle proteine del dataset.

si possono definire dei simboli che la definiscano e che indichino

anche conservazioni non perfette in una posizione.

è possibile utilizzare una formattazione precisa che permetta di

capire anche le variazioni in una posizione, non solo le

conservazioni.

Le sequenze consenso

Per facilitare la lettura di un allineamento multiplo ed evidenziare

rapidamente gli aminoacidi conservati, può essere rappresentato

nell'ultima riga di un multiallineamento la sequenza "consesus"

Se tutte le sequenze in un allineamento multiplo contengo lo stesso

aminoacido in una posizione questo viene riportato nella consensus

(Aminoacido D dell'esempio), allo stesso modo se tutti gli aminoacidi di

una colonna appartengono alla stessa classe, nella riga di consensus

viene riportato il simbolo della classe.

Possono essere anche rappresentate delle righe di consensus al di

sotto di una certa percentuale (ad esempio 90%, 80% o 70%). In queste

righe per mettere un simbolo è sufficiente che l'aminoacido sia conservato in

un frazione di aminoacidi della colonna superiore alla percentuale del

consensus (anziché in tutti).

GRVQGV--R------A--LG—-GWV

GRVQGh-aRvvvvvvAvvLGivGWV

GRVQG[VI]-[FY]R------A—L----GWY

GRVQGV--R-6A—LG--GWV

Consenso esatto

Consenso a simboli

Consenso con variazioni

Consenso con ripetizioni

Alcuni modi di indicare le

sequenze consenso

http://www.ebi.ac.uk/clustalw

PEEKSAVTALWGKVN--VDEVGG Hbb_human

GEEKAAVLALWDKVN--EEEVGG Hbb_horse

PADKTNVKAAWGKVGAHAGEYGA Hba_human

AADKTNVKAAWSKVGGHAGEYGA Hba_horse

EHEWQLVLHVWAKVEAGVAGHGQ Myg_whale