Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in...

36
Allineamento multiplo

Transcript of Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in...

Page 1: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Allineamento multiplo

Page 2: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Allineamenti multipli

Il modo migliore per conoscere le caratteristiche di una determinata

famiglia è allineare molte proteine a funzione analoga.

I siti funzionalmente o strutturalmente più rilevanti tendono a

mantenersi invariati nelle proteine omologhe, mentre i siti meno

importanti possono cambiare anche molto.

Osservare e studiare le conservazioni significa capire come le famiglie

di proteine funzionano, cosa la rende diverse tra loro, se esistono o

meno relazioni filogenetiche inter e intrafamiglia.

In questo modo è possibile individuare la funzione di una proteina

ignota solo osservando la sequenza dei suoi residui.

Page 3: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Alcune applicazioni dell’allineamento multiplo

‘Assemblaggio’ dei genomi

Definizione di famiglie

Filogenesi

Inferenze strutturali

Inferenze funzionali

Consensi

profili (esprime tutta l’informazione

contenuta in un multiallineamento)

Page 4: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Similitudine e omologia

Omologia: carattere QUALITATIVO che posseggono quelle sequenze che

derivano da un antenato comune in seguito al processo evolutivo. O

due geni sono omologhi o non lo sono. Non esiste una percentuale di

omologia.

Similitudine: carattere QUANTITATIVO che origina da un allineamento.

Il grado di identità che si determina tra i residui allineati o il fatto che

residui simili possano corrispondere in un allineamento, può essere

quantificato disponendo di metri di valutazione oggettivi, come le

matrici di sostituzione.

=> un’alta similitudine tra proteine può essere indice di omologia, ma

non si può escludere il contrario. Esistono infatti proteine molto simili

in organismi filogeneticamente non correlati tra loro e proteine molto

diverse che possono essere ricondotte a omologhe mediante altri studi

Page 5: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Geni ortologhi e geni paraloghi

Geni ortologhi: sono geni omologhi, presenti in specie diverse ma

correlate, che codificano per proteine che hanno funzioni simili e che

si sono separati non per un evento di duplicazione ma in seguito a

speciazione (separazione delle specie). (geni omologhi, diversi in

organismi diversi derivati da specializzazione della specie, stessa

funzione)

es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa 80

milioni di anni fa, quando avvenne la divisione che dette vita ai

primati e ai roditori. I due geni sono da considerarsi ortologhi.

Geni paraloghi: geni originati dalla duplicazione di un unico gene nello

stesso organismo.(geni diversi generati dalla duplicazione di un gene

dell’organismo)

es. α-globina e β-globina umana hanno iniziato a divergere in seguito

alla duplicazione di un gene globinico ancestrale. I due geni sono da

considerarsi paraloghi.

Page 6: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Le sequenze da multiallineare in genere si ottengono dalla ricerca in

banca dati mediante i sistemi di ricerca per similarità come BLAST e

FASTA.

Visto che derivano già da un allineamento (anche se prodotto con

metodi euristici) e visto che si prendono in considerazione solo

sequenze che hanno un alto score (o un basso E, expectation value),

l’allineamento mutiplo su questi DATASET darà risultati soddisfacenti.

In un allineamento multiplo si prendono in

considerazione le colonne di residui, più che le proteine

a cui appartengono. Ogni residuo incolonnato è da

considerarsi in modo implicito come evolutivamente

correlato, in qualche modo.

Page 7: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Significato biologico dell’allineamento multiplo

L’allineamento multiplo riassume

La storia evolutiva di una famiglia di proteine

La conservazione dei residui dipendente dalla funzione

La conservazione dei residui dipendente dalla struttura

Page 8: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Allineamenti multipli Vs. allineamenti a coppie

E A G F P P G V V N V I P G F G P T A G A A H A S H E D V D K V A F T G S T E V G H L I Q V A E A G F P P G V V N I V P G F G P T A G A A I A S H E D V D K V A F T G S T E I G R V I Q V A Q Y M D Q N L Y L V V K G G - V P E T T E L L - - K E R F D H I M Y T G S T A V G K I V M A A N V F S P A W A - T V V E G D E T I S Q Q L L - - Q E K F D H I F F T G S P R V G R L I M A A E A G V P V G L V N V V Q G - G A E T G S L L C H H P N V A K V S F T G S V P T G K K V M E M D I - F P A G V I N I L F G R G K T V G D P L T G H P K V R M V S L T G S I A T G E H I I S H

1:

2:

3:

4:

5:

6:

A

1 :

2 :

3 :

4 :

5 :

6 :

EAGFPPGVVNVIPGFGPTAGAAIASHEDVDKVAFTGSTEVGHLIQVA

EAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVA

QYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAA

NVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAA

EAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEM

DI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH

1:

2:

3:

4:

5:

6:

B

Page 9: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Significato funzionale della conservazione

T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :

I I G G S D Q L I R N A P W Q V S I Q I S A R - - - - H E C G G V I Y S K E I I I T A G H C L H E R - S V T L M K V - - - - - R V G A - - - Q N H N Y G G - T L V P V A A Y - - K V H E Q F D S R F L H - - - I V G G N D S R E G A W P W V V A L Y Y N G - - - - Q L L C G A S L V S R D W L V S A A H C V Y G - - - - R N L E P S K W K A I L G - - L H M T S N L T S P Q I V T R L I D E I V I N P H Y N R R R K D - - - I V E G Q D A E V G L S P W Q V M L F R K S P Q E - - L L C G A S L I S D R W V L T A A H C L L Y P P W D K N F T V D D L L V R I G K - H S R T R Y E R K V E K I S M L D K - I Y I H P R Y N W K E N - - - - I V G G F N C E K N S Q P W Q V A V Y R F T - - - - K Y Q C G G I L L N V N W V L T A A H C H N D - - - - - K Y Q V - - - - - W L G K - N N F L E D E P S A Q H R L V S K - - A I P H P D F N M S L L N E H T I V N G E E A V P G S W P W Q V S L Q D K T G - - - F H F C G G S L I N E N W V V T A A H C G V T - - - - T S D V V - - - - - V A G E F D Q G S S S E K - I Q K L K I A K - - V F K N S K Y N S L T I N - - - V V G G E V A K N G S A P Y Q V S L Q V P G W G - - - H N C G G S L L N D R W V L T A A H C L V G - H A P G D L M V - - - - - L V G T - - - N S L K E G G - E L L K V D K - - L L Y H S R Y N L P R F H - - - I V G G S N A A A G E F P W Q G S L Q V R S G T S W F H I C G C V L Y T T S K A L T A A H C L S N - - S A S S Y R L - - G - - - F G M L R - M N N V D G T E Q Y S S V T S - - Y T N H P N Y N G N A A G - - -

: 8 4 : 9 0 : 9 5 : 8 6 : 8 5 : 8 5 : 9 0

T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :

- - - - - - - - Y D I A V L R L S T P - L T F G L S T R A I N L A S - - - T S P - - S G G T T V T V T G W G H - - - - T D N G - - - A L S D S L Q K A Q L Q I I D R G E C A S Q K F G Y G A D - F V G E E T I - - - - - - - - S D I A M M H L E F K - V N Y T D Y I Q P I C L P E - - - E N Q V F P P G R I C S I A G W G K - - - V I Y Q G - - - S P A D I L Q E A D V P L L S N E K C Q Q Q M P - E Y N - - - I T E N M M - - - - - - L D R D I A L L K L K R P - I E L S D Y I H P V C L P D K Q T A A K L L H A G F K G R V T G W G N R R E T W T T S V A E V Q P S V L Q V V N L P L V E R P V C K A S - - - T R I R - - I T D N M F P Q P E D D Y S N D L M L L R L K K P - A D I T D V V K P I D L P T - - - E E P - - K L G S T C L A S G W G S - - - I T P V K Y - - E Y P D E L Q C V N L K L L P N E D C A K A - - - H I E K - - V T D D M L - - - - - - - - N D I T L L K L S T A - A S F S Q T V S A V C L P S - - - A S D D F A A G T T C V T T G W G L - - - T R Y T N A - - N T P D R L Q Q A S L P L L S N T N C K K Y - - - W G T K - - I K D A M I - - - - - - - - N D I G L V R L E Q P - V Q F S E L V Q S V E Y S E - - - - - K A V P A N A T V R L T G W G R - - - T S A N G - - - P S P T L L Q S L N V V T L S N E D C N K K - - - G G D P G Y T D V G H L - - - - - - Y P N D I A V L R L T S S M D T S S S A V G P S V W L L - - - - - - - - - V E R L C R T N M Y D Q R - - M G K T Q W R W Q H P N N L Q K V D M T V L T N S D C S S R W S G I S G A T - V N S G H I

: 1 6 5 : 1 7 1 : 1 8 6 : 1 7 3 : 1 6 6 : 1 6 5 : 1 7 5

T R Y I _ D R O M E : E N T K _ P I G / 8 : T H R B _ B O V I N : K L K 1 _ M O U S E : C T R A _ B O V I N : C T R 1 _ A N O G A : C T R L _ H A L R U :

C A A S - - - - T D - A D A C T G D S G G P L V A S S Q - - - - - - L V G I V S W G - Y R C A D D N Y P G V Y A D V A I L R P W I C A G Y E - - E G G - I D S C Q G D S G G P L M C L E N - - N R W L L A G V T S F G - Y Q C A L P N R P G V Y A R V P K F T E W I C A G Y K P G E G K R G D A C E G D S G G P F V M K S P Y N N R W Y Q M G I V S W G - E G C D R D G K Y G F Y T H V F R L K K W I C A G D M - - D G G - K D T C A G D S G G P L I C D G V - - - - - - L Q G I T S W G P S P C G K P N V P G I Y T R V L N F N T W I C A G A - - - - S G - V S S C M G D S G G P L V C K K N - - G A W T L V G I V S W G - S S T C S T S T P G V Y A R V T A L V N W V C T L T K - - - T G - E G A C N G D S G G P L V Y E G K - - - - - - L V G V V N F G - V P C A L G - Y P D G F A R V S Y Y H D W V C I F E - - - - S G - R S A C S G D S G G P L V C G N T - - - - - - L T G I T S W G I S S C S G S - Y P S V Y T R V S S F Y N W V

: 2 1 8 : 2 3 0 : 2 5 0 : 2 2 9 : 2 2 3 : 2 1 8 : 2 2 8

Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina

Page 10: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Difficoltà dell’allineamento multiplo

• Complessità del problema

- Tempo di elaborazione

• Funzione oggettiva di punteggio

- ”Peso” da assegnare alle varie sequenze

Page 11: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Metodi per l’allineamento multiplo

• Allineamento ottimale

• Programmazione dinamica, MSA

• Allineamento euristico

• Progressivo

globale (CLUSTALW,Pileup)

locale (PIMA)

• Iterativo

globale (PRRP)

locale (DIALIGN)

Page 12: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Complessità dell’allineamento multiplo ottimale

Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C

e A-C. L’allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e

la valutazione di tutte le possibili mosse all’interno del cubo. La complessità di questo

algoritmo è (O(LN)), dove L è la lunghezza e N il numero delle sequenze. Per tre

sequenze di 300 amino acidi il numero di confronti è 2.7 x 107. Un algoritmo completo di

programmazione dinamica è utilizzabile solo nel caso di tre sequenze.

Page 13: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Allineamento ottimale con programmazione

dinamica Carrillo & Lipmann, 1988

Per trovare un allineamento ottimale tra tre sequenze è necessario calcolare i

punteggi all’interno del volume in grigio: il volume è delimitato dalle proiezioni

delle aree sulle facce del cubo.

Questo algoritmo (implementato nel programma MSA) può essere utilizzato per

poche (<10) sequenze corte.

Page 14: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Algoritmo Euristico: Allineamento progressivo

consenso DHEKFGSSQRSGQRSG SeqC Aggiunta della coppia C al

precedente allineamento

DGEKFGPPQRSGQRSG

|||.||| ||||.|||

DGERFGP-QRSGNRSG

| |.||. .|||.|||

DHEKFGSSQRSGQRSG

SeqA

SeqB

SeqC

Allineamento multiplo

DGEKFGPPQRSGQRSG

|||.||| ||||.|||

DGERFGP-QRSGNRSG

SeqA

SeqB

Allineamento della coppia A-B

Allineamento di tre sequenze A, B, C per passi successivi

Page 15: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

N sequenze (dataset)

disposte a caso, non

allineate

Determinare un albero

guida basato sui

punteggi di similarità

di tutte le coppie

A partire dalla coppia più simile,

determinare le colonne conservate,

e allineare la coppia successiva

mantenendo queste colonne e

ricalcolando lo score complessivo N sequenze (dataset)

allineate

Allineare tutte le proteine con

tutte le proteine, a coppie (

N(N-1)/2 allineamenti)

Page 16: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Allineamento progressivo

• Allineamenti a coppie [N(N-1)/2 confronti] di tutte le sequenze con

programmazione dinamica o metodi approssimati (BLAST, FASTA).

Calcolare una matrice diagonale di distanze.

• Costruire un albero (Neighbor-joining, UPGMA, etc.) sulla base della

matrice. L’albero serve da guida per gli allineamenti successivi.

• Cominciando dal primo nodo aggiunto all’albero, che rappresenta

le due sequenze più vicine, allineare via via gli altri nodi (i quali

possono essere due sequenze, una sequenza ed un allineamento o due

allineamenti) fino a che tutte le sequenze sono state allineate

Page 17: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Calcolo della matrice delle distanze

Obiettivo: Dall’allineamento singolo eseguito al primo passo, abbiamo lo score che

rappresenta la similarità tra le coppie allineate. A partire da esso calcoliamo la

distanza di edit per ciascuna coppia.

Page 18: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Calcolo della matrice delle distanze

Page 19: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Allineamento progressivo

Page 20: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

L’albero guida e la clusterizzazione

1 Hbb_human -

2 Hbb_horse .17 -

3 Hba_human .59 .60 -

4 Hba_horse .59 .59 .13 -

5 Myg_whale .77 .77 .75 .75 -

b_hu b_ho a_hu a_ho M_w

1

2

3

4

5

3° 4°

E’ una matrice di distanze,

minore è il numero, maggiore è

la similitudine...

Ordine di clusterizzazione

PEEKSAVTALWGKVN--VDEVGG Hbb_human

GEEKAAVLALWDKVN--EEEVGG Hbb_horse

PADKTNVKAAWGKVGAHAGEYGA Hba_human

AADKTNVKAAWSKVGGHAGEYGA Hba_horse

EHEWQLVLHVWAKVEAGVAGHGQ Myg_whale

Allineamento finale

Page 21: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),
Page 22: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),
Page 23: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Allineamento progressivo: CLUSTAL

Matrice di distanza

ottenuta con confronti

a coppie (minore è il

numero maggiore la

similitudine)

Albero filogenetico di

neighbor-joining

costruito dalla matrice

Allineamento progressivo

delle coppie (sequenza-

sequenza, sequenza-

profilo, profilo -profilo)

utilizzando l’albero come

guida

Higgins & Sharp 1988

Page 24: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

CLUSTALW improvement

Le sequenze filogeneticamente

più distanti ricevono un peso

proporzionalmente più alto

nell’allineamento

La penalità da assegnare ai gap

dipende dal tipo di residui come

osservato in sequenze a struttura

nota (Pascarella & Argos)

La penalità dipende anche dalla

posizione. Se ci sono gap nelle

vicinanze la penalità aumenta

Thompson et al 1994

http://www.ebi.ac.uk/clustalw/ o scaricare il programma eseguibile

Page 25: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Thompson et al 1994

CLUSTALW improvement

Le sequenze più distanti

ricevono un peso (weigth)

maggiore nel punteggio

Page 26: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

CLUSTALW e CLUSTALX

Allineamento delle globine

ottenuto con CLUSTALW

CLUSTALX. Stesso

algoritmo con interfaccia

grafica (PC)

Page 27: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Funzione oggettiva per l’allineamento multiplo

Seq1 A A A A

Seq2 A A A A

Seq3 A A A C

Seq4 A A C C

Seq1 Seq2

Seq3 Seq4

Seq1

Seq2

Seq3

Seq4

Somma delle coppie

N(N-1)/2 confronti

Possibile relazione

filogenetica delle sequenze

Viene usato il metodo della somma delle coppie in ogni colonna per determinare il punteggio totale

dell’allineamento. Questo metodo non tiene in considerazione la storia delle sequenze e il fatto che uno

stesso carattere nella colonna può essere facilmente condiviso da sequenze molto simili per ragioni

evolutive. Per ovviare a questo si assegna un peso alle sequenze in modo da aumentare il punteggio in

confronti tra sequenze evolutivamente distanti e diminuirlo in confronti tra sequenze vicine.

AAAA AAAC

AAAA AACC

AAAC AAAA

AAAA AAAC

AAAA AACC

Page 28: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Valutare la bontà di un multi-allineamento

In genere: si sommano tutti gli score di tutte le possibili coppie di

proteine allineate, pesando i valori in base alla similitudine nello

stesso cluster per evitare che alcuni cluster prevalgano su altri nel

conteggio finale. Ottengo un WSP (Weighted Sum of Pairs):

WSPscore = Σ Σ Wij Ŝ(Aij) i = 1 j = 1

N-1 N

N: numero di sequenze i,j: coppia di sequenze

Ŝ: punteggio di similarità della coppia W: peso per la coppia

Il valore complessivo del WSP dipende dai criteri di punteggio utilizzati

nell’allineamento più che da considerazioni biologiche, ma è comunque

un criterio valido per tutti gli allineamenti con gli stessi parametri

Uno score così è chiamato Objective Function (OF)

Page 29: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Utilizzo dei colori

I file raw-text possono essere utilizzati per visualizzare le

colonne, ma è possibile associare colori diversi per residui con

caratteristiche chimico fisiche diverse. Questo facilita molto la

visualizzazione dei multiallineamenti

Page 30: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Utilizzo dei colori

Page 31: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Rappresentazioni dell’allineamento multiplo:

conservazione

Page 32: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Rappresentazioni dell’allineamento multiplo:

sostituzioni

Page 33: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Le sequenze consenso

Si definisce sequenza consenso una sequenza derivata da un

multiallineamento che presenta solo i residui più conservati per

ogni posizione

riassume un multiallineamento.

non è identica a nessuna delle proteine del dataset.

si possono definire dei simboli che la definiscano e che indichino

anche conservazioni non perfette in una posizione.

è possibile utilizzare una formattazione precisa che permetta di

capire anche le variazioni in una posizione, non solo le

conservazioni.

Page 34: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

Le sequenze consenso

Per facilitare la lettura di un allineamento multiplo ed evidenziare

rapidamente gli aminoacidi conservati, può essere rappresentato

nell'ultima riga di un multiallineamento la sequenza "consesus"

Se tutte le sequenze in un allineamento multiplo contengo lo stesso

aminoacido in una posizione questo viene riportato nella consensus

(Aminoacido D dell'esempio), allo stesso modo se tutti gli aminoacidi di

una colonna appartengono alla stessa classe, nella riga di consensus

viene riportato il simbolo della classe.

Possono essere anche rappresentate delle righe di consensus al di

sotto di una certa percentuale (ad esempio 90%, 80% o 70%). In queste

righe per mettere un simbolo è sufficiente che l'aminoacido sia conservato in

un frazione di aminoacidi della colonna superiore alla percentuale del

consensus (anziché in tutti).

Page 35: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

GRVQGV--R------A--LG—-GWV

GRVQGh-aRvvvvvvAvvLGivGWV

GRVQG[VI]-[FY]R------A—L----GWY

GRVQGV--R-6A—LG--GWV

Consenso esatto

Consenso a simboli

Consenso con variazioni

Consenso con ripetizioni

Alcuni modi di indicare le

sequenze consenso

Page 36: Presentazione di PowerPoint - di.univaq.it · metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value),

http://www.ebi.ac.uk/clustalw

PEEKSAVTALWGKVN--VDEVGG Hbb_human

GEEKAAVLALWDKVN--EEEVGG Hbb_horse

PADKTNVKAAWGKVGAHAGEYGA Hba_human

AADKTNVKAAWSKVGGHAGEYGA Hba_horse

EHEWQLVLHVWAKVEAGVAGHGQ Myg_whale