Allineamento multiplo
Allineamenti multipli
Il modo migliore per conoscere le caratteristiche di una determinata
famiglia è allineare molte proteine a funzione analoga.
I siti funzionalmente o strutturalmente più rilevanti tendono a
mantenersi invariati nelle proteine omologhe, mentre i siti meno
importanti possono cambiare anche molto.
Osservare e studiare le conservazioni significa capire come le famiglie
di proteine funzionano, cosa la rende diverse tra loro, se esistono o
meno relazioni filogenetiche inter e intrafamiglia.
In questo modo è possibile individuare la funzione di una proteina
ignota solo osservando la sequenza dei suoi residui.
Alcune applicazioni dell’allineamento multiplo
‘Assemblaggio’ dei genomi
Definizione di famiglie
Filogenesi
Inferenze strutturali
Inferenze funzionali
Consensi
profili (esprime tutta l’informazione
contenuta in un multiallineamento)
Similitudine e omologia
Omologia: carattere QUALITATIVO che posseggono quelle sequenze che
derivano da un antenato comune in seguito al processo evolutivo. O
due geni sono omologhi o non lo sono. Non esiste una percentuale di
omologia.
Similitudine: carattere QUANTITATIVO che origina da un allineamento.
Il grado di identità che si determina tra i residui allineati o il fatto che
residui simili possano corrispondere in un allineamento, può essere
quantificato disponendo di metri di valutazione oggettivi, come le
matrici di sostituzione.
=> un’alta similitudine tra proteine può essere indice di omologia, ma
non si può escludere il contrario. Esistono infatti proteine molto simili
in organismi filogeneticamente non correlati tra loro e proteine molto
diverse che possono essere ricondotte a omologhe mediante altri studi
Geni ortologhi e geni paraloghi
Geni ortologhi: sono geni omologhi, presenti in specie diverse ma
correlate, che codificano per proteine che hanno funzioni simili e che
si sono separati non per un evento di duplicazione ma in seguito a
speciazione (separazione delle specie). (geni omologhi, diversi in
organismi diversi derivati da specializzazione della specie, stessa
funzione)
es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa 80
milioni di anni fa, quando avvenne la divisione che dette vita ai
primati e ai roditori. I due geni sono da considerarsi ortologhi.
Geni paraloghi: geni originati dalla duplicazione di un unico gene nello
stesso organismo.(geni diversi generati dalla duplicazione di un gene
dell’organismo)
es. α-globina e β-globina umana hanno iniziato a divergere in seguito
alla duplicazione di un gene globinico ancestrale. I due geni sono da
considerarsi paraloghi.
Le sequenze da multiallineare in genere si ottengono dalla ricerca in
banca dati mediante i sistemi di ricerca per similarità come BLAST e
FASTA.
Visto che derivano già da un allineamento (anche se prodotto con
metodi euristici) e visto che si prendono in considerazione solo
sequenze che hanno un alto score (o un basso E, expectation value),
l’allineamento mutiplo su questi DATASET darà risultati soddisfacenti.
In un allineamento multiplo si prendono in
considerazione le colonne di residui, più che le proteine
a cui appartengono. Ogni residuo incolonnato è da
considerarsi in modo implicito come evolutivamente
correlato, in qualche modo.
Significato biologico dell’allineamento multiplo
L’allineamento multiplo riassume
La storia evolutiva di una famiglia di proteine
La conservazione dei residui dipendente dalla funzione
La conservazione dei residui dipendente dalla struttura
Allineamenti multipli Vs. allineamenti a coppie
E A G F P P G V V N V I P G F G P T A G A A H A S H E D V D K V A F T G S T E V G H L I Q V A E A G F P P G V V N I V P G F G P T A G A A I A S H E D V D K V A F T G S T E I G R V I Q V A Q Y M D Q N L Y L V V K G G - V P E T T E L L - - K E R F D H I M Y T G S T A V G K I V M A A N V F S P A W A - T V V E G D E T I S Q Q L L - - Q E K F D H I F F T G S P R V G R L I M A A E A G V P V G L V N V V Q G - G A E T G S L L C H H P N V A K V S F T G S V P T G K K V M E M D I - F P A G V I N I L F G R G K T V G D P L T G H P K V R M V S L T G S I A T G E H I I S H
1:
2:
3:
4:
5:
6:
A
1 :
2 :
3 :
4 :
5 :
6 :
EAGFPPGVVNVIPGFGPTAGAAIASHEDVDKVAFTGSTEVGHLIQVA
EAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVA
QYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAA
NVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAA
EAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEM
DI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH
1:
2:
3:
4:
5:
6:
B
Significato funzionale della conservazione
T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :
I I G G S D Q L I R N A P W Q V S I Q I S A R - - - - H E C G G V I Y S K E I I I T A G H C L H E R - S V T L M K V - - - - - R V G A - - - Q N H N Y G G - T L V P V A A Y - - K V H E Q F D S R F L H - - - I V G G N D S R E G A W P W V V A L Y Y N G - - - - Q L L C G A S L V S R D W L V S A A H C V Y G - - - - R N L E P S K W K A I L G - - L H M T S N L T S P Q I V T R L I D E I V I N P H Y N R R R K D - - - I V E G Q D A E V G L S P W Q V M L F R K S P Q E - - L L C G A S L I S D R W V L T A A H C L L Y P P W D K N F T V D D L L V R I G K - H S R T R Y E R K V E K I S M L D K - I Y I H P R Y N W K E N - - - - I V G G F N C E K N S Q P W Q V A V Y R F T - - - - K Y Q C G G I L L N V N W V L T A A H C H N D - - - - - K Y Q V - - - - - W L G K - N N F L E D E P S A Q H R L V S K - - A I P H P D F N M S L L N E H T I V N G E E A V P G S W P W Q V S L Q D K T G - - - F H F C G G S L I N E N W V V T A A H C G V T - - - - T S D V V - - - - - V A G E F D Q G S S S E K - I Q K L K I A K - - V F K N S K Y N S L T I N - - - V V G G E V A K N G S A P Y Q V S L Q V P G W G - - - H N C G G S L L N D R W V L T A A H C L V G - H A P G D L M V - - - - - L V G T - - - N S L K E G G - E L L K V D K - - L L Y H S R Y N L P R F H - - - I V G G S N A A A G E F P W Q G S L Q V R S G T S W F H I C G C V L Y T T S K A L T A A H C L S N - - S A S S Y R L - - G - - - F G M L R - M N N V D G T E Q Y S S V T S - - Y T N H P N Y N G N A A G - - -
: 8 4 : 9 0 : 9 5 : 8 6 : 8 5 : 8 5 : 9 0
T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :
- - - - - - - - Y D I A V L R L S T P - L T F G L S T R A I N L A S - - - T S P - - S G G T T V T V T G W G H - - - - T D N G - - - A L S D S L Q K A Q L Q I I D R G E C A S Q K F G Y G A D - F V G E E T I - - - - - - - - S D I A M M H L E F K - V N Y T D Y I Q P I C L P E - - - E N Q V F P P G R I C S I A G W G K - - - V I Y Q G - - - S P A D I L Q E A D V P L L S N E K C Q Q Q M P - E Y N - - - I T E N M M - - - - - - L D R D I A L L K L K R P - I E L S D Y I H P V C L P D K Q T A A K L L H A G F K G R V T G W G N R R E T W T T S V A E V Q P S V L Q V V N L P L V E R P V C K A S - - - T R I R - - I T D N M F P Q P E D D Y S N D L M L L R L K K P - A D I T D V V K P I D L P T - - - E E P - - K L G S T C L A S G W G S - - - I T P V K Y - - E Y P D E L Q C V N L K L L P N E D C A K A - - - H I E K - - V T D D M L - - - - - - - - N D I T L L K L S T A - A S F S Q T V S A V C L P S - - - A S D D F A A G T T C V T T G W G L - - - T R Y T N A - - N T P D R L Q Q A S L P L L S N T N C K K Y - - - W G T K - - I K D A M I - - - - - - - - N D I G L V R L E Q P - V Q F S E L V Q S V E Y S E - - - - - K A V P A N A T V R L T G W G R - - - T S A N G - - - P S P T L L Q S L N V V T L S N E D C N K K - - - G G D P G Y T D V G H L - - - - - - Y P N D I A V L R L T S S M D T S S S A V G P S V W L L - - - - - - - - - V E R L C R T N M Y D Q R - - M G K T Q W R W Q H P N N L Q K V D M T V L T N S D C S S R W S G I S G A T - V N S G H I
: 1 6 5 : 1 7 1 : 1 8 6 : 1 7 3 : 1 6 6 : 1 6 5 : 1 7 5
T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :
C A A S - - - - T D - A D A C T G D S G G P L V A S S Q - - - - - - L V G I V S W G - Y R C A D D N Y P G V Y A D V A I L R P W I C A G Y E - - E G G - I D S C Q G D S G G P L M C L E N - - N R W L L A G V T S F G - Y Q C A L P N R P G V Y A R V P K F T E W I C A G Y K P G E G K R G D A C E G D S G G P F V M K S P Y N N R W Y Q M G I V S W G - E G C D R D G K Y G F Y T H V F R L K K W I C A G D M - - D G G - K D T C A G D S G G P L I C D G V - - - - - - L Q G I T S W G P S P C G K P N V P G I Y T R V L N F N T W I C A G A - - - - S G - V S S C M G D S G G P L V C K K N - - G A W T L V G I V S W G - S S T C S T S T P G V Y A R V T A L V N W V C T L T K - - - T G - E G A C N G D S G G P L V Y E G K - - - - - - L V G V V N F G - V P C A L G - Y P D G F A R V S Y Y H D W V C I F E - - - - S G - R S A C S G D S G G P L V C G N T - - - - - - L T G I T S W G I S S C S G S - Y P S V Y T R V S S F Y N W V
: 2 1 8 : 2 3 0 : 2 5 0 : 2 2 9 : 2 2 3 : 2 1 8 : 2 2 8
Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina
Difficoltà dell’allineamento multiplo
• Complessità del problema
- Tempo di elaborazione
• Funzione oggettiva di punteggio
- ”Peso” da assegnare alle varie sequenze
Metodi per l’allineamento multiplo
• Allineamento ottimale
• Programmazione dinamica, MSA
• Allineamento euristico
• Progressivo
globale (CLUSTALW,Pileup)
locale (PIMA)
• Iterativo
globale (PRRP)
locale (DIALIGN)
Complessità dell’allineamento multiplo ottimale
Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C
e A-C. L’allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e
la valutazione di tutte le possibili mosse all’interno del cubo. La complessità di questo
algoritmo è (O(LN)), dove L è la lunghezza e N il numero delle sequenze. Per tre
sequenze di 300 amino acidi il numero di confronti è 2.7 x 107. Un algoritmo completo di
programmazione dinamica è utilizzabile solo nel caso di tre sequenze.
Allineamento ottimale con programmazione
dinamica Carrillo & Lipmann, 1988
Per trovare un allineamento ottimale tra tre sequenze è necessario calcolare i
punteggi all’interno del volume in grigio: il volume è delimitato dalle proiezioni
delle aree sulle facce del cubo.
Questo algoritmo (implementato nel programma MSA) può essere utilizzato per
poche (<10) sequenze corte.
Algoritmo Euristico: Allineamento progressivo
consenso DHEKFGSSQRSGQRSG SeqC Aggiunta della coppia C al
precedente allineamento
DGEKFGPPQRSGQRSG
|||.||| ||||.|||
DGERFGP-QRSGNRSG
| |.||. .|||.|||
DHEKFGSSQRSGQRSG
SeqA
SeqB
SeqC
Allineamento multiplo
DGEKFGPPQRSGQRSG
|||.||| ||||.|||
DGERFGP-QRSGNRSG
SeqA
SeqB
Allineamento della coppia A-B
Allineamento di tre sequenze A, B, C per passi successivi
N sequenze (dataset)
disposte a caso, non
allineate
Determinare un albero
guida basato sui
punteggi di similarità
di tutte le coppie
A partire dalla coppia più simile,
determinare le colonne conservate,
e allineare la coppia successiva
mantenendo queste colonne e
ricalcolando lo score complessivo N sequenze (dataset)
allineate
Allineare tutte le proteine con
tutte le proteine, a coppie (
N(N-1)/2 allineamenti)
Allineamento progressivo
• Allineamenti a coppie [N(N-1)/2 confronti] di tutte le sequenze con
programmazione dinamica o metodi approssimati (BLAST, FASTA).
Calcolare una matrice diagonale di distanze.
• Costruire un albero (Neighbor-joining, UPGMA, etc.) sulla base della
matrice. L’albero serve da guida per gli allineamenti successivi.
• Cominciando dal primo nodo aggiunto all’albero, che rappresenta
le due sequenze più vicine, allineare via via gli altri nodi (i quali
possono essere due sequenze, una sequenza ed un allineamento o due
allineamenti) fino a che tutte le sequenze sono state allineate
Calcolo della matrice delle distanze
Obiettivo: Dall’allineamento singolo eseguito al primo passo, abbiamo lo score che
rappresenta la similarità tra le coppie allineate. A partire da esso calcoliamo la
distanza di edit per ciascuna coppia.
Calcolo della matrice delle distanze
Allineamento progressivo
L’albero guida e la clusterizzazione
1 Hbb_human -
2 Hbb_horse .17 -
3 Hba_human .59 .60 -
4 Hba_horse .59 .59 .13 -
5 Myg_whale .77 .77 .75 .75 -
b_hu b_ho a_hu a_ho M_w
1
2
3
4
5
1°
2°
1°
2°
3° 4°
E’ una matrice di distanze,
minore è il numero, maggiore è
la similitudine...
Ordine di clusterizzazione
PEEKSAVTALWGKVN--VDEVGG Hbb_human
GEEKAAVLALWDKVN--EEEVGG Hbb_horse
PADKTNVKAAWGKVGAHAGEYGA Hba_human
AADKTNVKAAWSKVGGHAGEYGA Hba_horse
EHEWQLVLHVWAKVEAGVAGHGQ Myg_whale
Allineamento finale
Allineamento progressivo: CLUSTAL
Matrice di distanza
ottenuta con confronti
a coppie (minore è il
numero maggiore la
similitudine)
Albero filogenetico di
neighbor-joining
costruito dalla matrice
Allineamento progressivo
delle coppie (sequenza-
sequenza, sequenza-
profilo, profilo -profilo)
utilizzando l’albero come
guida
Higgins & Sharp 1988
CLUSTALW improvement
Le sequenze filogeneticamente
più distanti ricevono un peso
proporzionalmente più alto
nell’allineamento
La penalità da assegnare ai gap
dipende dal tipo di residui come
osservato in sequenze a struttura
nota (Pascarella & Argos)
La penalità dipende anche dalla
posizione. Se ci sono gap nelle
vicinanze la penalità aumenta
Thompson et al 1994
http://www.ebi.ac.uk/clustalw/ o scaricare il programma eseguibile
Thompson et al 1994
CLUSTALW improvement
Le sequenze più distanti
ricevono un peso (weigth)
maggiore nel punteggio
CLUSTALW e CLUSTALX
Allineamento delle globine
ottenuto con CLUSTALW
CLUSTALX. Stesso
algoritmo con interfaccia
grafica (PC)
Funzione oggettiva per l’allineamento multiplo
Seq1 A A A A
Seq2 A A A A
Seq3 A A A C
Seq4 A A C C
Seq1 Seq2
Seq3 Seq4
Seq1
Seq2
Seq3
Seq4
Somma delle coppie
N(N-1)/2 confronti
Possibile relazione
filogenetica delle sequenze
Viene usato il metodo della somma delle coppie in ogni colonna per determinare il punteggio totale
dell’allineamento. Questo metodo non tiene in considerazione la storia delle sequenze e il fatto che uno
stesso carattere nella colonna può essere facilmente condiviso da sequenze molto simili per ragioni
evolutive. Per ovviare a questo si assegna un peso alle sequenze in modo da aumentare il punteggio in
confronti tra sequenze evolutivamente distanti e diminuirlo in confronti tra sequenze vicine.
AAAA AAAC
AAAA AACC
AAAC AAAA
AAAA AAAC
AAAA AACC
Valutare la bontà di un multi-allineamento
In genere: si sommano tutti gli score di tutte le possibili coppie di
proteine allineate, pesando i valori in base alla similitudine nello
stesso cluster per evitare che alcuni cluster prevalgano su altri nel
conteggio finale. Ottengo un WSP (Weighted Sum of Pairs):
WSPscore = Σ Σ Wij Ŝ(Aij) i = 1 j = 1
N-1 N
N: numero di sequenze i,j: coppia di sequenze
Ŝ: punteggio di similarità della coppia W: peso per la coppia
Il valore complessivo del WSP dipende dai criteri di punteggio utilizzati
nell’allineamento più che da considerazioni biologiche, ma è comunque
un criterio valido per tutti gli allineamenti con gli stessi parametri
Uno score così è chiamato Objective Function (OF)
Utilizzo dei colori
I file raw-text possono essere utilizzati per visualizzare le
colonne, ma è possibile associare colori diversi per residui con
caratteristiche chimico fisiche diverse. Questo facilita molto la
visualizzazione dei multiallineamenti
Utilizzo dei colori
Rappresentazioni dell’allineamento multiplo:
conservazione
Rappresentazioni dell’allineamento multiplo:
sostituzioni
Le sequenze consenso
Si definisce sequenza consenso una sequenza derivata da un
multiallineamento che presenta solo i residui più conservati per
ogni posizione
riassume un multiallineamento.
non è identica a nessuna delle proteine del dataset.
si possono definire dei simboli che la definiscano e che indichino
anche conservazioni non perfette in una posizione.
è possibile utilizzare una formattazione precisa che permetta di
capire anche le variazioni in una posizione, non solo le
conservazioni.
Le sequenze consenso
Per facilitare la lettura di un allineamento multiplo ed evidenziare
rapidamente gli aminoacidi conservati, può essere rappresentato
nell'ultima riga di un multiallineamento la sequenza "consesus"
Se tutte le sequenze in un allineamento multiplo contengo lo stesso
aminoacido in una posizione questo viene riportato nella consensus
(Aminoacido D dell'esempio), allo stesso modo se tutti gli aminoacidi di
una colonna appartengono alla stessa classe, nella riga di consensus
viene riportato il simbolo della classe.
Possono essere anche rappresentate delle righe di consensus al di
sotto di una certa percentuale (ad esempio 90%, 80% o 70%). In queste
righe per mettere un simbolo è sufficiente che l'aminoacido sia conservato in
un frazione di aminoacidi della colonna superiore alla percentuale del
consensus (anziché in tutti).
GRVQGV--R------A--LG—-GWV
GRVQGh-aRvvvvvvAvvLGivGWV
GRVQG[VI]-[FY]R------A—L----GWY
GRVQGV--R-6A—LG--GWV
Consenso esatto
Consenso a simboli
Consenso con variazioni
Consenso con ripetizioni
Alcuni modi di indicare le
sequenze consenso
http://www.ebi.ac.uk/clustalw
PEEKSAVTALWGKVN--VDEVGG Hbb_human
GEEKAAVLALWDKVN--EEEVGG Hbb_horse
PADKTNVKAAWGKVGAHAGEYGA Hba_human
AADKTNVKAAWSKVGGHAGEYGA Hba_horse
EHEWQLVLHVWAKVEAGVAGHGQ Myg_whale
Top Related