MUTAZIONI -...

139
Mutazioni: alterazioni dell'informazione codificata nel DNA Sostituzioni: cambiamento di una singola base Transizioni: cambiamenti Purina/Purina o Pirimidina/Pirimidina Transversioni: cambiamenti Purina/Pirimidina o viceversa Inserzioni: aggiunte di nucleotidi Delezioni: rimozioni di nucleotidi MUTAZIONI

Transcript of MUTAZIONI -...

Page 1: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• Mutazioni: alterazioni dell'informazione codificata nel DNA

• Sostituzioni: cambiamento di una singola base♦ Transizioni: cambiamenti Purina/Purina o

Pirimidina/Pirimidina♦ Transversioni: cambiamenti Purina/Pirimidina o viceversa

• Inserzioni: aggiunte di nucleotidi

• Delezioni: rimozioni di nucleotidi

MUTAZIONI

Page 2: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• Sostituzioni

♦ sinonime: non modificano l'amminoacido♦ di senso: cambiano un amminoacido in uno diverso♦ non-senso: cambiano un amminoacido in un codone

di stop

• Inserzioni/Delezioni

♦ Con cornice di lettura mantenuta (multipli di tre)

♦ Frameshift

Mutazioni in sequenze codificanti

Page 3: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

La struttura di una proteina dipende della sua sequenza di aa. La struttura determina la funzione molecolare della proteina. Ma …. se una sequenza proteica è conservata durante l’evoluzione

ed è quindi presenti in organismi diversi (famiglia di proteine) è lecito assumere che, in tutti la funzione che svolge sia la stesa.

Elementi omologhi derivanti da un Processo di duplicazione genica

OMOLOGIA

(ANTENATO COMUNE)

ORTOLOGIA PARALOGIA

Elementi omologhi derivanti da un Processo di speciazione

Proteine: prodotto dell’evoluzione

Page 4: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Proteine: prodotto dell’evoluzione

Se conosciamo la funzione di un membro della famiglia, possiamo predire la funzione di tutti i membri della stessa famiglia

Passi per questo tipo di predizione di funzione:

Identificazione delle proteine di una famiglia (evolute da un progenitore comune, allora sequenza di aa abbastanza simile.)

Identificazione degli aa che svolgono un ruolo strutturale o funzionale analogo (allineamento).

Page 5: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

OMOLOGIA= indica che due entità (es. 2 sequenze) hanno una stessa origine filogenetica, cioè derivano da un antenato comune. È un carattere QUALITATIVO.

SIMILITUDINE= indica che due entità (es. 2 sequenze), in relazione ad un certo criterio comparativo, hanno un certo grado di somiglianza. È un carattere QUANTITATIVO.

Page 6: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

SIMILARITA’: è un dato che prescinde da eventuali ipotesi sulla causa della similarità stessa. Ad esempio: l’ala di un uccello e l’ala di un pipistrello si sono evolute indipendentemente e di conseguenza non sono omologhe.

• La similarità osservata tra due sequenze PUO’ indicare che esse siano omologhe, cioè evolutivamente correlate• La similarità tra sequenze si osserva, l’omologia tra sequenze si può ipotizzare in base alla similarità osservata.

Percentuale di similarita’ ! Ricerca di similarita’!

Page 7: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

ALLINEAMENTO DI SEQUENZE

(nell’ipotesi che appartengono alla stessa famiglia)

Domanda: Qual è la corrispondenza fra gli aa delle due sequenze che più probabilmente rispecchia l’evoluzione

delle due proteine?

Allora, dobbiamo trovare una procedura per comparare due o più sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarità tra le sequenze stesse

Page 8: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

ALLINEAMENTO DI SEQUENZE

A COPPIEAGTTTGAATGTTTTGTGTGAAAGGAGTATACCATGAGATGAGATGACCACCAATCATTTC

||||||||||||||||||| |||||||| ||| | |||||| |||||||||||||||||

AGTTTGAATGTTTTGTGTGTGAGGAGTATTCCAAGGGATGAGTTGACCACCAATCATTTC

MULTIPLOKFKHHLKEHLRIHSGEKPFECPNCKKRFSHSGSYSSHMSSKKCISLILVNGRNRALLKTl

KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCIGLISVNGRMRNNIKT-

KFKHHLKEHVRIHSGEKPFGCDNCGKRFSHSGSFSSHMTSKKCISMGLKLNNNRALLKRl

KFKHHLKEHIRIHSGEKPFECQQCHKRFSHSGSYSSHMSSKKCV----------------

KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCISLIPVNGRPRTGLKTsn

Page 9: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Allineamento GLOBALE o LOCALE

GLOBALE quando prova a cercare la corrispondenza ottimale tra tutti gli amminoacidi di entrambe le sequenze.

LOCALE quando cerca di individuare regioni locali di similarità. È biologicamente rilevante perchè ad es. potrebbe permetterci di individuare domini correlati in proteine in cui le altre porzioni della seq. non hanno relazioni evolutive. Ricerca di omologhi in un una banca dati (molte proteine non correlate). Global alignment

LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||.  | |  |  .|     .|  ||  || | ||

  TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

Local alignment

    IPLWTDWDIEQES             ||||||||.||||            IPLWTDWDLEQES

Page 10: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Problema di allineare 2 sequenze …

Ignorando inserzioni e delezioni, cerchiamo la corrispondenza fra le sequenze (allineamento) che minimizzi le differenze (o massimizzi la similarità) fra gli amminoacidi delle 2 proteine.

Quindi, in prima approssimazione, l’allineamento che cerchiamo è quello che allinea il maggior numero di amminoacidi uguali.

Page 11: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

margaretd

yhqff

a

m a r g a r e t d a y h q f fq elk ra

Rappresentazione DOT-PLOT

Diagonali = individuano regioni di similarità nelle 2 proteine (tra sottosequenze)Qualunque allineamento delle 2 seq. Può essere rappresentato come una spezzatache parte dall’angolo in alto a sin. e raggiunge quello in basso a destra.

** * ** *

**

* * * *

* * *

* ** ** *

****

*

*

Duplicazione

Inversione

Similarità

Page 12: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

m a r g a r e t d a y h q f fq elk yam a r g a r e t d a y h q f f-- -- - -

Le linee orizzontali e verticali corrispondono a inserzioni e a delezioniNella sequenza orizzontale e verticale.Se ora mettiamo “1” al posto degli asterischi e “0” nelle caselle bianche l’allineamento che massimizza la similarità fra le 2 sequenze è quello che corrisponde alla linea che tocca più “1” (o equivalentemente alla linea per cui la somma dei valori delle caselle attraversate è massima).

Page 13: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

margaretd

yhqff

a

m a r g a r e t d a y h q f fq elk ra

1

1111

1

11

11

111111

1

11

11

1

1

1

11

11

Page 14: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Ricapitolando: per ottenere un allineamento fra due proteine abbiamo bisogno di:

Un metodo per attribuire i punteggi cioè una misura della similarità fra aa da sostituire ai valori 1 e 0 della nostra matrice semplificata (quindi un sistema di punteggio)

Un valore di penalizzazione per inserzioni e delezioni (quindi un sistema di penalità)

Un algoritmo di allineamento.

Page 15: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Nucleotidi: identità

Amminoacidi: identità + somiglianzaVLSSADKTNVKAAWGKVGAHAGEYGAEALERMFLVLSAADKANIKAAW-KVGGQAGDHGAEALERMPL***:*** *:**** ***: **: ******** *

AGGCTGACCTGGGAAGGGAAACTCTCAAAACCATAGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT*** *** ** ******* ** ******** ***

Utilizzo delle matrici di similarità

Page 16: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Difficile stabilire criteri oggettivi per le somiglianze fisico-chimiche degli amino acidi. Non è possibile sapere a priori quali delle varie caratteristiche fisico-chimiche sono più importanti per le proteine

Come quantificare la somiglianza degli amminoacidi?

Page 17: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Matrici di similarità

Sono delle tabelle che danno per ciascuna coppia di aa, un valore che indica il loro grado di similarità (informazione sulla probabilità che un aa si sostituisca ad un altro durante l’evoluzione).Si ottengono con metodi statistici assegnando a ciascuna coppia un valore che riflette la frequenza con cui l’uno si sostituisce all’altro in famiglie di proteine omologhe.

I valori da utilizzare nelle matrici si ottengono dagli allineamenti (di proteine molto simili);

Ma le matrici ci servono per generare l’allineamento!!!!!

Page 18: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

… dobbiamo allora ottenere manualmente degli allineamenti affidabili da cui ricaviamo le matrici che utilizziamo nei casi più difficili.

La differenza fra i due tipi di matrici più usate sta proprio nel tipo di allineamento utilizzato per ricavarle:

1) Matrici PAM

2) Matrici BLOSUM

Page 19: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Matrici PAM (Point Accepted Mutation)(Margaret Dayhoff 1978)

Due sequenze sono definite ad 1PAM di distanza se per convertire l’una nell’altra, c’è stata in media 1 mutazione “accettata” ogni 100 aa. Accettata = non ha cambiato la funzione della proteina o comunque non è stata letale per l’organismo

Per ottenere i valori da inserire nella matrice si utilizzano inizialmente sequenze molto simili:non ci deve essere ambiguità nell’allineamento.

La matrice è stata calcolata su una banca dati di 1572 cambiamenti in 71 gruppi di proteine omologhe

Page 20: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Utilizzando quindi tante coppie di sequenze ad 1 PAM di distanza, ci aspettiamo solo l’1% di differenze: a questo punto ricaviamo le frequenze di sostituzione attese di ciascuna coppia di aa. Abbiamo così costruito la matrice PAM1.

Poiché la probabilità di due eventi indipendenti è il prodotto delle loro probabilità, possiamo moltiplicare per sé stessa la matrice PAM1 ed ottenere le frequenze di sostituzione attese per una distanza di 2 PAM; se moltiplichiamo per sé stessa 2 volte abbiamo i valori per 3 PAM ecc.

All’aumentare della divergenza aumenta la prob. che una posizione subisca più mutazioni = 100 PAM non equivale al 100% di aa differenti.

Page 21: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Tutte le matrici della serie sono derivate per moltiplicazione della matrice unitaria (PAM1):

PAM1 PAM1X PAM2=

PAM30 = 30 sostituzioni su 100 siti (~ 75% identità)PAM120 = 120 sostituzioni su 100 siti (~ 40% identità)PAM250 = 250 sostituzioni su 100 siti (~ 20% identità)

Page 22: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

PAM 0 1 30 80 110 200 250

% ID 100% 99% 75% 60% 50% 25% 20%

se due sequenze sono filogeneticamente distanti è opportuno usare matrici PAM con indici più alti, e viceversa

Page 23: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

The PAM250 Matrix

C S T P A G N D E Q H R K M I L V F Y W

C 12

S 0 2

T -2 1 3

P -3 1 0 6

A -2 1 1 1 2

G -3 1 0 0 1 5

N -4 1 0 0 0 0 2

D -5 0 0 -1 0 1 2 4

E -5 0 0 -1 0 0 1 3 4

Q -5 -1 -1 0 0 -1 1 2 2 4

H -3 -1 -1 0 -1 -2 2 1 1 3 6

Page 24: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Le matrici PAM attualmente usate sono simmetriche e nella forma log-odds. I valori esprimono il rapporto tra le probabilità di sostituzione date dall'evoluzione e le probabilità di sostituzione date dal caso.

Log ______________________________

Frequenza osservata mutazione i<->jFrequenza appaiamento casuale

Log-odds PAM250

Page 25: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Matrici BLOSUM(Henikoff e Henikoff 1992)

Derivano, usando lo stesso metodo usato per quelle PAM, dalla banca dati BLOCKS contenente gli allineamenti delle regioni più conservate di famiglie di proteine.

Per ogni tipo di matrice BLOSUM si eliminano tutte le sequenze che hanno una percentuale di identità superiore ad una soglia:

Viene formato un blocco di allineamenti contenente sequenze con un numero di aminoacidi identici superiore ad una certa percentuale P. Tale blocco viene considerato come una singola sequenza che verrà utilizzata per ricavare la frequenza relativa di sostituzione degli aminoacidi che può essere utilizzata per calcolare una matrice di punteggi.

La frequenza relativa di sostituzione degli aminoacidi viene calcolata considerando il blocco e tutte le altre sequenze con una percentuale di omologia inferiore alla soglia P.

Tale matrice di allineamento permette di dare meno peso a sequenze fortemente conservate.

BLOSUM62 = derivata da un allineamento in cui le sequenze che hanno più del 62% di amminoacidi identici vengono considerate come un sola sequenza.

Page 26: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

PAM vs BLOSUM

• Le matrici PAM assumono un modello in cui le sostituzioni di a.a. osservate a grande distanza evolutiva derivino esclusivamente dalla somma di mutazioni indipendenti.Le matrici BLOSUM non fanno alcuna assunzione di omologia, basandosi sull’osservazione di allineamenti esatti reali.

1. Le matrici PAM tendono a premiare sostituzioni amminoacidiche derivanti da mutazioni di una singola base più che motivi strutturali degli aminoacidi, come fanno invece le BLOSUM.

• Mentre nella serie PAM un valore più basso indica una matrice derivata da sequenze più simili , nella serie BLOSUM un valore più basso indica una matrice derivata da sequenze più distanti , ovvero con una percentuale minore di a.a. conservati.

Page 27: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Almeno 45% identiciBlosum45

Blocchi conservati

Almeno 62% identiciBlosum62

Almeno 80% identiciBlosum80

BLOSUM: BLOck SUbstitution Matrix

Page 28: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

BLOSUM62 Matrix

C S T P A G N D E Q H R K M I L V F Y W

C 9

S -1 4

T -1 1 5

P -3 -1 -1 7

A 0 1 0 -1 4

G -3 0 -2 -2 0 6

N -3 1 0 -2 -2 0 6

D -3 0 -1 -1 -2 -1 1 6

E -4 0 -1 -1 -1 -2 0 2 5

Q -3 0 -1 -1 -1 -2 0 0 2 5

Page 29: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

L’utilizzo della matrice di similarita’ appropriata per ciascuna analisi e’ cruciale per avere buoni risultati.

Infatti relazioni importanti da un punto di vista biologico possono essere indicate da una significativita’ statistica anche molto debole.

poco divergenti molto divergenti

BLOSUM80 BLOSUM62 BLOSUM45 PAM1 PAM120 PAM250

Page 30: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Seq1 V D S - C YSeq2 V E S L C YScore 4 2 4 -11 9 7

Score allineamento: 15

Blosum62

I valori nelle matrici di sostituzione determinano il punteggio di un allineamento

Punteggio totale=∑ somiglianze−∑penalità gap

Page 31: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Regioni di similarità = presenza di aa essenziali per la funzione e/o per la struttura

Regioni più divergenti = es. le regioni più esposte sono le più tolleranti ad inserzioni e delezioni.

I valori di penalizzazione per l’inserimento di GAP (inserzioni/delezioni) negli allineamenti sono derivati empiricamente e dipendono dalla matrice usata

Quando 2 sequenze sono allineate siamo interessati a :

Page 32: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

In genere si considerano 2 valori di penalizzazione, uno detto di APERTURA e uno, in genere più basso, detto di CONTINUAZIONE di un inserzione. Questo perchè esistono poche posizioni in cui un’inserzione può essere tollerata (es. superficie, fuori da elementi di SS)

Penalità per apertura e allungamento dei GAP

Page 33: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

mRNA vs Gene:

penalità apertura gap alta

penalità allungamento ~ 0

Gene

mRNA

mRNA vs Frammenti di sequenziamento:

penalità apertura gap bassa

penalità allungamento alta

Casi critici per la scelta delle penalità per i gap

Page 34: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

…in genere nella scelta dei valori di penalizzazione:

Provare con più valori simili a quelli suggeriti dai programmi utilizzati

Regioni dell’allineamento che rimangono stabili al variare della penalizzazione sono più affidabili di regioni in cui l’allineamento cambia non appena cambiamo i valori.

Page 35: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Ricapitolando: per ottenere un allineamento fra due proteine abbiamo bisogno di:

Un metodo per attribuire i punteggi cioè una misura della similarità fra aa da sostituire ai valori 1 e 0 della nostra matrice semplificata (quindi un sistema di punteggio)

Un valore di penalizzazione per inserzioni e delezioni (quindi un sistema di penalità)

Un algoritmo di allineamento.

Page 36: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

L’algoritmo di allineamento Praticamente si tratta di un metodo che ci permette di trovare un percorso (ALLINEAMENTO) che massimizzi il punteggio che “RACCOGLIAMO” in ciascuna cella di una matrice (…DOT-PLOT!) tenendo conto anche delle possibili inserzioni e delezioni.

Scelta della matrice di sostituzione.Scelta delle penalità per i gap inseriti

I più comuni sono.

Algoritmo di Needleman e Wunsch (1970) per allineamenti globali e quello di Smith e Waterman (1981) che individua anche similarità locali

Page 37: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Molto schematicamente il problema degli allineamenti viene risolto da programmi che sono in grado di identificare il "percorso" migliore all'interno di una dot matrix. Cioè il percorso che totalizza il massimo punteggio. Per percorso si intende l'insieme di caselle che corrispondono agli amminoacidi appaiati.

Page 38: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Algoritmi di allineamento

1) consideriamo le due sequenze da allineare in una specie di dot matrix : nelle caselle scriviamo i punteggi in rosso derivati dalla matrice di sostituzione scelta

Page 39: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono
Page 40: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

calcolando le somme lungo le diagonali, effettueremmo un’operazione equivalente al calcolo dei punteggi ottenuto facendo scorrere le due sequenze l’una sull’altra:

i valori scritti in nero indicano il punteggio massimo ottenibile fino a quella casella tenendo conto delle penalità legate all’inserimento di GAP

se una sequenza è scritta da sinistra a destra e l’altra dall'alto in basso, allora qualsiasi percorso valido deve mantenere sempre una direzione tendenziale che va dall'angolo in alto a sinistra a quello in basso a destra

Page 41: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

(i,j-1)(i-1,j-1)

(i-1,j)(i,j)

+ punteggio (i,j) + penalizzazione

+ penalizzazione

Page 42: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Cercare la casella con il valore massimo e procedere a ritroso per ricavare i singoli appaiamenti.

Page 43: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Questa strategia algoritmica di calcolare i valori man mano che si procede, e di utilizzarli poi per le fasi successive, viene chiamata PROGRAMMAZIONE DINAMICA.

algoritmi di allineamento che utilizzano una tecnica di programmazione dinamica:

Needleman e Wunsch (1970)Smith e Waterman (1981)

Il numero di operazioni richieste è proporzionale al prodotto delle lunghezze delle due sequenze da allineare.(1 valore per ogni casella della matrice)

Page 44: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

il migliore allineamento globale per le sequenze in matrice risulta quindi il seguente:

TFDERILGVQ-TYWAECLA || | | | . || QTFWECIKGDNATY

il fatto di aver usato matrici di sostituzione contenenti esclusivamente valori positivi fa sì che il valore massimo della matrice si trovi sempre nell’ultima riga o nell’ultima colonna

ne consegue che l’allineamento ottenuto è un allineamento globale

Page 45: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

la procedura descritta corrisponde quasi esattamente all’algoritmo per l’allineamento globale pubblicato da

Needleman e Wunsch nel 1970

Page 46: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Con la programmazione dinamica si allineano seq. con un numero di operazioni dell’ordine di grandezza del prodotto delle lunghezze delle due sequenze.

Per ogni casella della matrice sono considerate le 3 possibili origini del percorso:diagonale (senza penalità e -> all. 2 aa ), orizzontale e verticale (all. di un aa con un gap -> penalità per l’inserimento del gap). La soluzione più vantaggiosa è scelta e determina il punteggio della casella in esame.

Tutte le possibilità di inserimento di gap sono considerate. I punteggi crescono con l’estendersi dell’allineamento. Quindi con

questo metodo troviamo similarità globali, cioè estese a tutta la sequenza.

Il punteggio massimo si deve trovare nell’ultima colonna o nell’ultima riga della matrice di allineamento. (ultima posizione di una delle 2 seq.)

Page 47: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

se le matrici contenessero invece sia valori positivi che negativi (come le pam), i valori più alti potrebbero trovarsi anche in porzioni INTERNE alla matrice e descrivere di conseguenza allineamenti locali

Page 48: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono
Page 49: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

TFDERILGVQ-TYWAECLA || | | | . || QTFWECIKGDNATY

Allineamento globale

TFDERILGVQTYWAECLA ||.| ||. QTFW-ECIKGDNATY

Allineamento locale

Page 50: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

L’ algoritmo di Needleman e Wunsch è stato sviluppato per l’allineamento globale

L’ algoritmo di Smith e Waterman è stato sviluppato per l’allineamento locale

Ma ciò che realmente fa diventare un algoritmo di questo tipo locale o globale è il tipo di matrice di sostituzione che si usa:

se contiene valori + allineamenti globali

se contiene valori +/- allineamenti locali

Page 51: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

I residui più importanti dal punto di vista strutturale o funzionale di una proteina saranno conservati durante l’evoluzione e questo si riflette nell’allineamento tra proteine omologhe.

Il problema sorge quando:

5) Due sequenze sono evolutivamente molto vicine -> difficile individuare gli aa importanti.

6) Due sequenze sono evolutivamente molto lontane -> difficile ottenere un allineamento accurato.

Il problema si risolve non limitandosi a considerare due sequenze omologhe ma il maggior numero possibile di proteine appartenenti alla stessa famiglia.

allineamento multiplo di sequenze

Page 52: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze sia strettamente sia lontanamente correlate:•tutte strettamente correlate => ridondanza•tutte lontanamente correlate => allineamento inaccurato

Page 53: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Fornisce informazioni su:

la struttura a domini della

proteina

la posizione dei residui coinvolti nella funzione

proteica

i residui sepolti nel core della proteina o esposti

al solvente

ricerca di omologhi di proteine note

Page 54: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

CLUSTAL W: il tool più comune utilizzato per l’allineamento multiplo di sequenza:

potenziato per allineamenti di sequenze proteiche divergenti

favorisce l’apertura di gaps in regioni in cui è potenzialmente presente un loop piuttosto che una struttura secondaria ordinata (in base a una penalità residuo-specifica e a una penalità ridotta in regioni idrofiliche)

favorisce l’apertura di gaps nelle stesse posizioni

Page 55: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Parametri importanti per la ricerca di omologhi di proteine note:

Sensibilità = riconoscere tutte le correlazioni anche molto lontane

Selettività = minimizzare il numero di sequenze trovate che non siano dei veri omologhi

Page 56: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Algoritmi per allineamenti multipli

Non si possono utilizzare quelli visti per gli allineamenti di coppie -> lentezza

Si ottengono prima tutti i possibili allineamenti di coppia e si registra il punteggio di ciascuno.

Poi con questi punteggi si costruisce un albero filogenetico in modo da visualizzare le relazioni evolutive.

Si selezionano quindi le sequenze più simili tra loro formando quindi cluster di sequenze allineate (costituiti da 2 o più sequenze il cui allineamento sia stato precedentemente fissato)

Poi si continua aggiungendo le altre sequenze al cluster precedentemente ottenuto e così via.

Page 57: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono
Page 58: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Un profilo esprime tutta l’informazione contenuta in un allineamento multiplo: in generale, osservando gli amminoacidi rappresentati, si attribuisce un punteggio a ciascun amminoacido per ogni colonna dell’allineamento (con le matrici di sostituzione) osservandone la conservazione. Analogamente, osservando la frequenze dei gap, si attribuisce una penalità per il loro inserimento.

ø Utilizzati in PSI-BLAST

Profilo di un multiallineamento

Page 59: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Alberi filogenetici

Phylogenetic tree figure showing the evolution of the immune system. (Image by Dr. Nadia Danilova.)

Page 60: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Modo di visualizzare relazioni evoluzionistiche Ogni nodo esterno (foglie in un albero vero), è

una specie Nodi Interni: speciazioni La distanza fra due nodi è proporzionale al

tempo di divergenza In sequenze proteiche, nodo -> proteina La distanza fra due nodi esterni è inversamente

proporzionale alla similarità fra due sequenze

Alberi filogenetici

Page 61: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

0Seq4

70Seq3

1090Seq2

141150Seq1

Seq4Seq3Seq2Seq1% aa diversi

1 2

2.5

Alberi filogenetici

Page 62: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

0Seq4

70Seq3

½[d(1,4)+d(2,4)]=12½[d(1,3)+d(2,3)]=100Cluster 1, 2

Seq4Seq3Cluster 1,2% aa diversi

1 2

2.5

3 4

3.5

Page 63: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

=½d[(Cluster 1,2), 3]+d[(Cluster1,2),4)]=11Cluster 1, 2

Cluster 3,4 % aa diversi

1 2

2.5

3 4

3.5

5.5

Page 64: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Proteine: prodotto dell’evoluzione

Se conosciamo la funzione di un membro della famiglia, possiamo predire la funzione di tutti i membri della stessa famiglia

Passi per questo tipo di predizione di funzione:

Identificazione delle proteine di una famiglia (evolute da un progenitore comune, allora sequenza di aa abbastanza simile.)

Identificazione degli aa che svolgono un ruolo strutturale o funzionale analogo (allineamento).

Page 65: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• A collection of data, …• which are structured;• which are indexed;• which are periodically updated;• which has references to other databases;• …

• Biological databases are tightly associated to tools …• to retrieve entry of the database;• to update the database;• …

• The main six database categories :• sequences

• proteins (UniProtKB);• nucleic acids (EMBL).

• mapping• genes;• chromosomes;• …

• 3D structures (PDB)• gene/protein expression• function (KEGG)• literature (PubMed), ontologies (GO), …

3D

EXPRESSION

MAPPING

>sp|P56478|IL7_RATMFHVSFRYIFGIPPLILVLLPVTSSDCHIKDKDGKAFGSVLMISINQLDKMTGTDSDCPNNEPNFFKKHLCDDTKEAAFLNRAARKLRQFLKMNISEEFNDHLLRVSDGTQTLVNCTSKEEKTIKEQKKNDPCFLKRLLREIKTCWNKILKGSI

SEQUENCES

LS125-4R14523CYC223

FUNCTION

LITERATUREONTOLOGIES

Page 66: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• Nucleic Acids Research Database Issue, on January, each year :• in 2006, a collection of 858 databases ;• classified in 14 categories :

• Nucleotide Sequence Databases• RNA sequence databases• Protein sequence databases• Structure Databases• Genomics Databases (non-vertebrate)• Metabolic and Signaling Pathways• Human and other Vertebrate Genomes• Human Genes and Diseases• Microarray Data and other Gene Expression Databases• Proteomics Resources• Other Molecular Biology Databases• Organelle Databases• Plant Databases• Immunological Databases

• Most exotic name : Hollywood, a database of alternatively spliced mRNAs• Most cited (in 2 years) :

• Pfam (protein families), GO (gene ontology), UniProt (proteins), SMART(protein domains), •KEGG (pathways)

• Never cited (in 2 years) :• EyeSite (protein families in the eye), •STCDB (hierarchical classification of eukaryotic signaling proteins)

Page 67: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Come si effettua una ricerca in una banca dati?

si possono effettuare ricerche utilizzando parole-chiave (es.: emoglobina) e ricavando i nomi dei files che le contengono

oppure si possono utilizzare sequenze in input per ricavare liste di sequenze simili ad esse

Page 68: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Quanto devono essere simili due proteine per essere definite omologhe?

Dobbiamo ricercare utilizzando la sequenza di DNA oppure dei prodotti genici: proteine?

Il problema da risolvere per ricercare similarità tra una proteina e la sequenza di una banca dati è quello di trovare un modo efficiente per distinguere tra similarità casuali e similarità che abbiano una base funzionale

Proteine: prodotto dell’evoluzione

Page 69: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

In fenomeni semplici, e possibile calcolare la distribuzione attesa dei risultati

Se il punteggio dell’allineamento non è più alto di quello che ci si aspetterebbe di una permutazione casuale delle sequenze, allora l’allineamento potrebbe essere casuale.

Allora, potremo prendere una della sequenze, randomizzarla molte volte, e allinearla alla seconda sequenza.

Per le ricerche nei database utilizzate, come popolazione misura per i calcoli statistici, la popolazione dei risultati restituiti dall’intero database.

Page 70: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

FastaKRTIDPQ

KITRQDP

PDQKRIT

DPQTKRI

DPQTKRI

BD Score S’

Page 71: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Distribuzione del Valore Estremo

Dove K e λ sono parametri correlati alla posizione del valore massimo e all’ampiezza della distribuzione.

P(>x) = 1 – exp(-Ke-λx)

Page 72: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Z-score= (Valore – Media)/deviazione standard

La probabilità di trovare un allineamento con score maggiore ad un certo valore S è:

P(S ≥ x) = 1 – exp(-Kmne -λS),

dove λ e K sono due parametri che dipendono della distribuzione degli amino acidi e dalla scoring matrix (vedere Altschul and Gish, 1996, per una collezione di valori di λ e K per le matrici più usate).

Distribuzione del Valore Estremo

Page 73: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Extreme Value Distribution

Il valore di E(S) (expected value o valore atteso) è invece il numero atteso di sequenze che hanno per caso il punteggio S:

E= Kmne(-λS)

S viene normalizzato: S’=(λS-lnK)/ln2

S’: bit score, e allora E=mn2-S’

Page 74: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

BlastKRTIDPQ

BD Score S’

Page 75: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

PSI (Position Specific Iterated) BLAST

Idea: Usare I risultati di una ricerca con BLAST per

costruire una matrice di profili (profile matrix) Ricerca in banca dati usando I profili invece della

sequenza. Iterativo

Page 76: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Matrice di Profili (Position Specific Scoring Matrix – PSSM)

Page 77: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

PSI BLAST

• Ricerca usando profili

• Allineamento di una matrice di profili con una sequenza semplice.– É come allineare due sequenze

– Lo score di allineare un carattere con una posizione nella matrice è dato dalla matrice

– Non esiste una matrice di sostituzione

Page 78: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

PSI BLAST:Elementi del profilo

• Il valore per un elemento della matrice è:

• Dove Pr(ai|col=j) è la probabilità di vedere un aa ai nella colonna j

• Pr(ai) è la frequenza di aa ai nell’allineamento.

Page 79: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

PSI-BLAST• Si cercano le ‘low-complexity regions’ nelle

sequenze ‘Query’ • Il programma fa una ricerca di Blast • Il programma costruisce un allineamento multiplo

usando gli allineamenti locali più significativi e genera una matrice di profili (PSSM) dal allineamento.

• Fa un’ulteriore ricerca, questa volta usando I PSSM per trovare altre sequenze omologhe. L’iterazione continua fino ad arrivare a convergenza.

Page 80: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Molto efficaci per la ricerca di sequenze omologhe molto divergenti

Utilità dei profili:

Aiutano l’identificazione del sito attivo con l’osservazione dei residui conservati

I pattern conservati facilitano l’identificazione di altre sequenze omologhe

I pattern sono anche utili per classificare le sottofamiglie

Residui poco conservati e con inserzioni/delezioni si trovano probabilmente in loops di superfici

Il loro utilizzo migliora i metodi di predizione di struttura secondaria

Page 81: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono
Page 82: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Nel 1988, i gruppi responsabili di questi 3 database si sono organizzati nell’International Collaboration of DNA Sequence Databases, e hanno deciso di utilizzare un formato comune per i records (non proprio identico, ma almeno deve avere sempre certe caratteristiche) e di scambiarsi quasi ogni giorno le sequenze. La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo (questo evita molti problemi). Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due.

Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Questo implica però ulteriori problemi perché si possono formare più facilmente doppioni. Problema della ridondanza.

Page 83: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

EMBL: composizione e struttura

La banca dati e’ divisa in sezioni che riflettono la divisione tassonomica:

INVERTEBRATESORGANELLES

BACTERIOPHAGEPROKARYOTES

UNCLASSIFIED VIRUSESOTHER VERTEBRATES

OTHER MAMMALSPLANTS

Page 84: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• Questi 3 db (EMBL, GenBank, DDBJ) contengono essenzialmente le stesse informazioni in 2-3 giorni (poche differenze nel formato e nella sintassi)

• Si tratta di archivi contenenti tutte le sequenze (geni singoli, ESTs, genomi completi, etc.) derivati da:

– Progetti genomici– Centri di sequenziamento– Laboratori di ricerca– Uffici brevetti (es. European Patent Office, EPO)

• Aggiornamento giornaliero • Attualmente circa: 18 x106 sequenze, più 20 x109 bp;• Negli ultimi 12 mesi il database si è triplicato • Sequenze derivanti da > 50000 specie differenti;

Page 85: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

L’aumento delle sequenze nucleotidiche depositate• EMBL …il primo grosso incremento si è avuto dopo l’avvento

della PCR…

1980: 80 geni completamente sequenziati ! human

GSS

mouse

High throughput genomes (HTG)

mouse

human

rat

humanEST

Page 86: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

EST: Expressed Sequence Tag

Expressed Sequence Tags: sono sequenze corte di cDNA (300-1000 bp) derivanti dalla retrotrascrizione di mRNA. Rappresentano in qualche modo cosa è espresso in un dato tessuto o ad un determinato stadio di sviluppo.

http://www.ncbi.nlm.nih.gov/dbEST/

Page 87: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

LOCUS CX016035 296 bp mRNA linear EST 06-DEC-2004DEFINITION qt06h09.g1 Whole Heart Library (DOGEST5) Canis familiaris cDNA, mRNA sequence.ACCESSION CX016035VERSION CX016035.1 GI:56398446KEYWORDS EST.SOURCE Canis familiaris (dog) ORGANISM Canis familiaris Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Carnivora; Fissipedia; Canidae; Canis.REFERENCE 1 (bases 1 to 296) AUTHORS Balija,V.S., Nascimento,L.U. and McCombie,W.R. TITLE ESTs from Canis familiaris whole heart (dog) JOURNAL Unpublished (2004)COMMENT Contact: W. Richard McCombie Lita Annenberg Hazen Genome Sequencing Center Cold Spring Harbor Laboratory PO Box 100, Cold Spring Harbor, NY 11724, USA Tel: 516 367 8884 Fax: 516 367 8874 Email: [email protected].

Page 88: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

FEATURES Location/Qualifiers source 1..296 /organism="Canis familiaris" /mol_type="mRNA" /db_xref="taxon:9615" /sex="Unknown" /dev_stage="3 month old normal canine" /lab_host="XL10 Gold" /clone_lib="Whole Heart Library (DOGEST5)" /note="Organ: Heart; Vector: pBluescript II SK; Site_1: EcoRI; Site_2: XhoI; Library constructed using pBluescript XR kit from Stratagene. Cloned cDNA was size selected between 1-3 kb. Mark Haskins VMD, PhD, Pathology and Medical Genetics, School of Veterinary Medicine, University of Pennsylvania, 3800 Spruce Street, Philadelphia, PA 19104-6051"ORIGIN 1 ctccaccgcg gtggcggccg ctctagaact agtggatccc ccgggctgca ggaattcggc 61 acgaggaggg tcttttatta aaaccaggtg agtcactcca ttcgctgaga aaaggcacac 121 ttatgttcca gatccacgtc gcctccctcg ggctgggggg tggctggccc actctgtcca 181 gacctctttt tcattacaga tggacactgg ggggcagtga tggatcagag cgttcttatg 241 gccgggcctt ggtttatggc ttggatttgg gatcagaggg gagggtgaag gtgtgg//

Page 89: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• Importante eterogeneità nella lunghezza delle sequenze: genomi, varianti, frammenti…

• Lunghezza delle sequenze: – max 300’000 bp /entry– min 10 bp /entry

• Archivio: altamente ridondante!• Presenza di errori: nelle sequenze, annotazioni,

nell’attribuzione delle CDS…. • Annotazioni; molte annotazioni sono fatte da chi

invia la sequenza; eterogenità della qualità, della completezza e dell’aggiornamento delle informazioni.

Caratteristiche peculiari di GenBank

Page 90: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

LOCUS MUSNGH 1803 bp mRNA ROD 29-AUG-1997DEFINITION Mouse neuroblastoma and rat glioma hybridoma cell line NG108-15 cell TA20 mRNA, complete cds.ACCESSION D25291NID g1850791KEYWORDS neurite extension activity; growth arrest; TA20.SOURCE Murinae gen. sp. mouse neuroblastma-rat glioma hybridoma cell_line:NG108-15 cDNA to mRNA. ORGANISM Murinae gen. sp. Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae.REFERENCE 1 (sites) AUTHORS Tohda,C., Nagai,S., Tohda,M. and Nomura,Y. TITLE A novel factor, TA20, involved in neuronal differentiation: cDNA cloning and expression JOURNAL Neurosci. Res. 23 (1), 21-27 (1995) MEDLINE 96064354REFERENCE 3 (bases 1 to 1803) AUTHORS Tohda,C. TITLE Direct Submission JOURNAL Submitted (18-NOV-1993) to the DDBJ/EMBL/GenBank databases. Chihiro Tohda, Toyama Medical and Pharmaceutical University, Research Institute for Wakan-yaku, Analytical Research Center for Ethnomedicines; 2630 Sugitani, Toyama, Toyama 930-01, Japan (E-mail:[email protected], Tel:+81-764-34-2281(ex.2841), Fax:+81-764-34-5057)COMMENT On Feb 26, 1997 this sequence version replaced gi:793764.FEATURES Location/Qualifiers source 1..1803 /organism="Murinae gen. sp." /note="source origin of sequence, either mouse or rat, has not been identified" /db_xref="taxon:39108" /cell_line="NG108-15" /cell_type="mouse neuroblastma-rat glioma hybridoma" misc_signal 156..163 /note="AP-2 binding site" GC_signal 647..655 /note="Sp1 binding site" TATA_signal 694..701 gene 748..1311 /gene="TA20" CDS 748..1311 /gene="TA20" /function="neurite extensiion activity and growth arrest effect" /codon_start=1 /db_xref="PID:d1005516" /db_xref="PID:g793765" /translation="MMKLWVPSRSLPNSPNHYRSFLSHTLHIRYNNSLFISNTHLSRR KLRVTNPIYTRKRSLNIFYLLIPSCRTRLILWIIYIYRNLKHWSTSTVRSHSHSIYRL RPSMRTNIILRCHSYYKPPISHPIYWNNPSRMNLRGLLSRQSHLDPILRFPLHLTIYY RGPSNRSPPLPPRNRIKQPNRIKLRCR" polyA_site 1803BASE COUNT 507 a 458 c 311 g 527 tORIGIN 1 tcagtttttt tttttttttt tttttttttt tttttttttt tttttttttg ttgattcatg 61 tccgtttaca tttggtaagt tcacaggcct cagtcaacac aattggactg ctcaggaaat 121 cctccttggt gaccgcagta tacttggcct atgaacccaa gccacctatg gctaggtagg 181 agaagctcaa ctgtagggct gactttggaa gagaatgcac atggctgtat cgacatttca 241 catggtggac ctctggccag agtcagcagg ccgagggttc tcttccgggc tgctccctca 301 ctgcttgact ctgcgtcagt gcgtccatac tgtgggcgga cgttattgct atttgccttc 361 cattctgtac ggcattgcct ccatttagct ggagagggac agagcctggt tctctagggc 421 gtttccattg gggcctggtg acaatccaaa agatgagggc tccaaacacc agaatcagaa 481 ggcccagcgt atttgtaaaa acaccttctg gtgggaatga atggtacagg ggcgtttcag 541 gacaaagaac agcttttctg tcactcccat gagaaccgtc gcaatcactg ttccgaagag 601 gaggagtcca gaatacacgt gtatgggcat gacgattgcc cggagagagg cggagcccat 661 ggaagcagaa agacgaaaaa cacacccatt atttaaaatt attaaccact cattcattga 721 cctacctgcc ccatccaaca tttcatcatg atgaaacttt gggtcccttc taggagtctg 781 cctaatagtc caaatcatta caggtctttt cttagccata cactacacat cagatacaat 841 aacagccttt tcatcagtaa cacacatttg tcgagacgta aattacgggt gactaatccg 901 atatatacac gcaaacggag cctcaatatt ttttatttgc ttattccttc atgtcggacg 961 aggcttatat tatggatcat atacatttat agaaacctga aacattggag tacttctact 1021 gttcgcagtc atagccacag catttatagg ctacgtcctt ccatgaggac aaatatcatt 1081 ctgaggtgcc acagttatta caaacctcct atcagccatc ccatatattg gaacaaccct 1141 agtcgaatga atttgagggg gcttctcagt agacaaagcc accttgaccc gattcttcgc 1201 tttccacttc atcttaccat ttattatcgc ggccctagca atcgttcacc tcctcttcct 1261 ccacgaaaca ggatcaaaca acccaacagg attaaactca gatgcagata aaattccatt 1321 tcacccctac tatacatcaa agatatccta ggtatcctaa tcatattctt aattctcata 1381 accctagtat tatttttccc agacatacta ggagacccag acaactacat accagctaat 1441 ccactaaaca ccccacccca tattaaaccc gaatgatatt tcctatttgc atacgccatt 1501 ctacgctcaa tccccaataa actaggaggt gtcctagcct taatcttatc tatcctaatt 1561 ttagccctaa tacctttcct tcatacctca aagcaacgaa gcctaatatt ccgcccaatc 1621 acacaaattt tgtactgaat cctagtagcc aacctactta tcttaacctg aattgggggc 1681 caaccagtag acacccattt attatcattg gccaactagc ctccatctca tacttctcaa 1741 tcatcttaat tcttatacca atctcaggaa ttatcgaaga caaaatacta aaattatatc 1801 cat//

Features (AA seq)

Sequenza DNA

Header•Titolo•Tassonomia•Citazione

Page 91: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

>gi|121066|sp|P03069|GCN4_YEAST GENERAL CONTROL PROTEIN GCN4MSEYQPSLFALNPMGFSPLDGSKSTNENVSASTSTAKPMVGQLIFDKFIKTEEDPIIKQDTPSNLDFDFALPQTATAPDAKTVLPIPELDDAVVESFFSSSTDSTPMFEYENLEDNSKEWTSLFDNDIPVTTDDVSLADKAIESTEEVSLVPSNLEVSTTSFLPTPVLEDAKLTQTRKVKKPNSVVKKSHHVGKDDESRLDHLGVVAYNRKQRSIPLSPIVPESSDPAALKRARNTEAARRSRARKLQRMKQLEDKVEELLSKNYHLENEVARLKKLVGER

Formato FASTA

Page 92: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

ID entryname dataclass; molecule; division; sequencelength BP.

ID HS7SLP standard; mRNA; PRI; 377 BP

Righe dell’entry

Identificatore ID (LOCUS in GENBANK) è sempre la prima linea di un entry. La struttura è:

Costituito da caratteri alfanumerici e inniziano sempre con una lettera.

Prime due lettere – genere e specie – Altri caratteri: associati alla funzione. Es. MMIG01 (Mus Musculus immunoglobulin genes)

XXX per unannoted entry. Se la molecola è circolare sarà identificata con ‘circular DNA’

Page 93: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

La linea AC (ACcession Number), individua il codice di accesso della sequenza.

AC Y00321; J05348;

Lo scopo dell’AC è quello di definire un modo stabile di identificare le entries da una release all’altra. Mentre il nome dell’entry (ID, LOCUS) può cambiare da una release all’altra, l’AC resta invariato.

• Non ha significato biologico• Originariamente una lettera maiuscola seguita da 5 numeri:

U00002• Ora 2 lettere maiuscole seguite da 6 numeri: BC037153 • La versione dell’entry è data dal numero che segue il punto

nella riga identificata da VERSION: es. BC037153.1 (ACCESSION.VERSION)

• È un modo stabile di identificare le entry ed ora viene usato sia per il DNA che per le proteine.

Page 94: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Nucleotide gi: Geninfo identifier (gi), un identificatore unico che cambia tutte le volte che cambia la sequenza.

Protein gi: analogo al precedente.

protein_id: è un identificatore che ha la stessa funzione e struttura dell’identificatore VERSION per la parte nucleotidica. (accession.version)

Page 95: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

LOCUS (ID), Accession, gi and PIDLOCUS HSU40282 1789 bp mRNA PRI 21-MAY-1998DEFINITION Homo sapiens integrin-linked kinase (ILK) mRNA, complete cds.ACCESSION U40282VERSION U40282.1 GI:3150001

CDS 157..1515 /gene="ILK" /note="protein serine/threonine kinase" /codon_start=1 /product="integrin-linked kinase" /protein_id="AAC16892.1“ /db_xref="GI:3150002"

LOCUS: HSU40282 ACCESSION: U40282 VERSION: U40282.1 GI: 3150001 Protein gi: 3150002 protein_id: AAC16892.1

Page 96: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

La linea DT (DaTe) indica quando un entry appare per la prima volta nella banca dati e quando e’ stata l’ultima variazione.DT 07-NOV-1985 (Rel.07, Created)DT 20-FEB-1990 (Rel.23, Lastupdated, Version 1)

Il valore assoluto relativo alla ‘Version’ viene incrementato ogni qualvolta la sequenza ha subito una variazione. Permette di seguire il numero delle variazioni che la sequenza ha subito nel tempo.

Page 97: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Linea DE (DEscription)contiene una descrizione generale circa la sequenza. Questa può contenere il tipo di gene per la quale la sequenza codifica, la regione del genoma dalla quale deriva o altre informazioni utili a identificare la sequenza.

DE Human mRNA for for 7SL RNA pseudogene

La linea KW (KeyWord)fornisce informazioni sulla funzionalità della sequenza. Spesso sono necessarie più linee per una singola entry. Le KW sono ordinate in ordine alfabetico.

KW small nuclear RNA; pseudogene.

Page 98: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

RN [1]RP 1-377 RX MEDLINE; 85126939.RA Ullu E., Weiner A.M.; RT "Human genes and pseudogenes for the 7SL RNA RT component of signal recognition particle"; RL EMBO J. 3:3303-3310(1984).

Tutte queste linee individuano riferimenti bibliografici (RN,RC,RP,RX,RA,RT,RL)

Page 99: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

La linea DR (Database Cross-reference) riporta il link ad altri database che contengono informazioni in relazione con l’entry. La struttura della linea:

DR database_identifier; primary_identifier; secondary_identifier

DR SWISS-PROT; P03593; V90K_AMV.

Page 100: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

La linea FT (Feature Table) fornisce la definizione per le annotazioni dei dati delle sequenze. In queste tabelle sono riportate tutte le regioni o i siti di interesse biologico. La struttura delle FT è stata definita univocamente tra i 3 gestori delle banche dati GenBank, EMBL, e DDBJ.

Page 101: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

ID HSERPG standard; DNA; HUM; 3398 BP.

XX

AC X02158;

XX

SV X02158.1

XX

DT 13-JUN-1985 (Rel. 06, Created)

DT 22-JUN-1993 (Rel. 36, Last updated, Version 2)

XX

DE Human gene for erythropoietin

XX

KW erythropoietin; glycoprotein hormone; hormone; signal peptide.

XX

OS Homo sapiens (human)

OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;

OC Eutheria; Primates; Catarrhini; Hominidae; Homo.

XX

RN [1]

RP 1-3398

RX MEDLINE; 85137899.

RA Jacobs K., Shoemaker C., Rudersdorf R., Neill S.D., Kaufman R.J.,

RA Mufson A., Seehra J., Jones S.S., Hewick R., Fritsch E.F., Kawakita M.,

RA Shimizu T., Miyake T.;

RT Isolation and characterization of genomic and cDNA clones of human

RT erythropoietin;

RL Nature 313:806-810(1985).

XX

DR GDB; 119110; EPO.

DR GDB; 119615; TIMP1.

DR SWISS-PROT; P01588; EPO_HUMAN.

Esempio di entry di EMBL

Page 102: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Esempio di entry di EMBL (continuo..)CC Data kindly reviewed (24-FEB-1986) by K. Jacobs

FH Key Location/Qualifiers

FH

FT source 1..3398

FT /db_xref=taxon:9606

FT /organism=Homo sapiens

FT mRNA join(397..627,1194..1339,1596..1682,2294..2473,2608..3327)

FT CDS join(615..627,1194..1339,1596..1682,2294..2473,2608..2763)

FT /db_xref=SWISS-PROT:P01588

FT /product=erythropoietin

FT /protein_id=CAA26095.1

FT /translation=MGVHECPAWLWLLLSLLSLPLGLPVLGAPPRLICDSRVLQRYLLE

FT AKEAENITTGCAEHCSLNENITVPDTKVNFYAWKRMEVGQQAVEVWQGLALLSEAVLRG

FT QALLVNSSQPWEPLQLHVDKAVSGLRSLTTLLRALGAQKEAISPPDAASAAPLRTITAD

FT TFRKLFRVYSNFLRGKLKLYTGEACRTGDR

FT mat_peptide join(1262..1339,1596..1682,2294..2473,2608..2763)

FT /product=erythropoietin

FT sig_peptide join(615..627,1194..1261)

FT exon 397..627

FT /number=1

FT intron 628..1193

FT /number=4

FT intron 2474..2607

FT /number=4

FT exon 2608..3327

FT /note=3' untranslated region

FT /number=5

XX

SQ Sequence 3398 BP; 698 A; 1034 C; 991 G; 675 T; 0 other;

agcttctggg cttccagacc cagctacttt gcggaactca gcaacccagg catctctgag 60

tctccgccca agaccgggat gccccccagg aggtgtccgg gagcccagcc tttcccagat 120

Page 103: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

LOCUS HSERPG 3398 bp DNA PRI 22-JUN-1993

DEFINITION Human gene for erythropoietin.

ACCESSION X02158

VERSION X02158.1 GI:31224

KEYWORDS erythropoietin; glycoprotein hormone; hormone; signal peptide.

SOURCE human.

ORGANISM Homo sapiens

Eukaryota; Metazoa; Chordata; Vertebrata; Mammalia; Eutheria;

Primates; Catarrhini; Hominidae; Homo.

REFERENCE 1 (bases 1 to 3398)

AUTHORS Jacobs,K., Shoemaker,C., Rudersdorf,R., Neill,S.D., Kaufman,R.J.,

Mufson,A., Seehra,J., Jones,S.S., Hewick,R., Fritsch,E.F.,

Kawakita,M., Shimizu,T. and Miyake,T.

TITLE Isolation and characterization of genomic and cDNA clones of human

erythropoietin

JOURNAL Nature 313 (6005), 806-810 (1985)

MEDLINE 85137899

COMMENT Data kindly reviewed (24-FEB-1986) by K. Jacobs.

FEATURES Location/Qualifiers

source 1..3398

/organism="Homo sapiens"

/db_xref="taxon:9606"

mRNA join(397..627,1194..1339,1596..1682,2294..2473,2608..3327)

exon 397..627

/number=1

sig_peptide join(615..627,1194..1261)

CDS join(615..627,1194..1339,1596..1682,2294..2473,2608..2763)

/codon_start=1

/product="erythropoietin"

/protein_id="CAA26095.1"

/db_xref="GI:312304"

/db_xref="SWISS-PROT:P01588"

/translation="MGVHECPAWLWLLLSLLSLPLGLPVLGAPPRLICDSRVLQRYLL

EAKEAENITTGCAEHCSLNENITVPDTKVNFYAWKRMEVGQQAVEVWQGLALLSEAVL

RGQALLVNSSQPWEPLQLHVDKAVSGLRSLTTLLRALGAQKEAISPPDAASAAPLRTI

La stessa entry di GenBank

Page 104: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

TADTFRKLFRVYSNFLRGKLKLYTGEACRTGDR"

intron 628..1193

/number=1

exon 1194..1339

/number=2

mat_peptide join(1262..1339,1596..1682,2294..2473,2608..2760)

/product="erythropoietin"

intron 1340..1595

/number=2

exon 1596..1682

/number=3

intron 1683..2293

/number=3

exon 2294..2473

/number=4

intron 2474..2607

/number=4

exon 2608..3327

/note="3' untranslated region"

/number=5

BASE COUNT 698 a 1034 c 991 g 675 t

ORIGIN

1 agcttctggg cttccagacc cagctacttt gcggaactca gcaacccagg catctctgag

61 tctccgccca agaccgggat gccccccagg aggtgtccgg gagcccagcc tttcccagat

121 agcagctccg ccagtcccaa gggtgcgcaa ccggctgcac tcccctcccg cgacccaggg

181 cccgggagca gcccccatga cccacacgca cgtctgcagc agccccgtca gccccggagc

241 ctcaacccag gcgtcctgcc cctgctctga ccccgggtgg cccctacccc tggcgacccc

entry di GenBank (continuo..)

Page 105: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Database di sequenze proteiche

• SWISS-PROT: creata nel 1986 (A.Bairoch) http://www.expasy.org/sprot/

• TrEMBL: creata nel 1996; complementare a SWISS-PROT; derivata dalle CDS dell’EMBL (versione ‘proteomica’ dell’EMBL)

• PIR-PSD: Protein Information Resources http://pir.georgetown.edu/

• Genpept: versione proteomica di GenBank

• Molti database specializzati per specifiche famiglie o gruppi di proteine: AMSDb (peptidi antibiotici), IMGT (sistema immunitario) YPD (lievito) etc.

Page 106: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

SWISS-PROT

Database di sequenze proteiche annotate, “scarsamente” ridondante e cross-referenced

Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL

TrEMBL contiene due sezioni:

SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC.

REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche, ...), senza AC.

TrEMBLnew, generato ogni settimana.

Page 107: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

SWISS-PROT

Nasce dalla collaborazione tra il SIB (CH) e l’EMBL/EBI (UK)

Completamente annotato (manualmente), non-ridondante, cross-referenced.

~113000 sequenze da più di 6800 specie differenti; 70 000 referenze (pubblicazioni); 550000 cross-references (databases); ~200 Mb di annotazioni.

Release settimanale; disponibile da circa 50 servers con ExPASy quale fonte principale.

Page 108: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

TrEMBL (Translation of EMBL)

Data l’impossibilità di competere con la quantità di dati che vengono immessi ex-novo mantenedo la qualità di SWISS-PROT -> TrEMBL, viene creato nel 1996.

TrEMBL viene generato automaticamente dalle CDS di EMBL ed è annotato utilizzando software (non manualmente).

Contiene tutto ciò che non è in SWISS-PROT.

SWISS-PROT + TrEMBL = tutte le sequenze proteiche conosciute.

Ben strutturato in maniera simile a SWISS-PROT.

Page 109: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

La storia semplificata di una entry di SWISS PROT

cDNAs, genomi, …

EMBLnew EMBL

TrEMBLnew TrEMBL

SWISS-PROT

« in automatico »• verifica della ridondanza (fusione)• attribuzione della famiglia (InterPro)• Annotazione (computer)

« Manuale »• Ridondanza (fusione, conflitti)• Annotazione (manuale)• SWISS-PROT documentazione• Medline• Databases (MIM, MGD….)

Una volta che l’entry è in SWISS-PROT, l’entry non è più in TrEMBL, ma ancora in EMBL

CDS

CDS: vengono inviate all’ EMBL dagli autori o dai progetti genomici (derivano da dati sperimentali o da programmi di predizione di geni). TrEMBL non traduce sequenze di DNA nè utilizza programmi di predizione di geni: semplicemente prende CDS che sono proposte dagli autori nelle entry dell’EMBL

Alcuni dati non vengono inviati ai database pubblici !!(eliminati o cancellati…)

Page 110: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

What is UniProt?

UniProt è un nuovo database di sequenze proteiche nato dalla fusione di SWISS-PROT e PIR ed essenzialmente creato all’NIH. Forse è il principale database di sequenze proteiche per annotazione e cura della qualità dei dati.

I dati derivano dalle sequenze codificanti degli acidi nucleici di EMBL (GenBank/DDBJ) ma anche da sequenze presenti in PIR e SP.

• http://www.pir.uniprot.org/

Page 111: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono
Page 112: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

UniProt

UniProt incorpora: Funzione della proteina Modifiche post-traduzionali Domini e siti. Struttura secondaria. Struttura quaternaria. Similarità con altre proteine; Malattie associate con l’assenza della proteina Conflitti in sequenza, varianti ecc

Page 113: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

SWISS-PROT / TrEMBL: minima ridondanza

• Uno dei maggiori prolemi: RIDONDANZA.• Parecchie entry sono parzialmente o

completamente duplicate: 20% delle sequenze dei vertebrati in GenBank.

• entry duplicate possono essere differenti in sequenza....

Page 114: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Variazioni nelle duplicazioni

Spesso è impossibile stabilire se la differenza tra due duplicati è dovuta : Polimorfismo Errori nella fase di sequenziamento. Una reale duplicazione genica.

Cosa facciamo quando le annotazioni sono differenti o anche contraddittorie?

Page 115: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Nel caso di sequenze proteiche...

Controllo delle traduzioni del gene (CDS) all’ EMBL/GenBank/DDBJ.

Consultare bibliografia e brevetti!!! Incrociare le informazioni tra diversi databases

‘attendibili’: localizzazione sul cromosoma e nome del gene.

Page 116: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• SWISS-PROT and TrEMBL introducono un minimo di ridondanza.

Questo perchè solo le sequenze identiche al 100 % vengono automaticamente fuse;

In ogni caso ….

Page 118: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Metodi per la determinazione della funzione di sequenze di proteine non caratterizzate.

Banca dati di siti e motivi biologicamente significativi. Strumenti informatici che possono identificare la famiglia di

appartenenza della nuova sequenza. In casi in cui la sequenza di una proteina sconosciuta, è troppo

‘lontana’ ad una proteina di struttura nota, può essere identificata a traverso la presenza di ‘cluster’ di aa: motivi, siti, fingerprints, ecc.

 "There are many short sequences that are often (but not always) diagnostics of certain binding properties or active sites. These can be set into a small subcollection and searched against your sequence” (R.F. Doolittle).

“The motifs, or templates, or fingerprints, arise because of particular requirements of binding sites that impose very tight constraint on the evolution of portions of a protein sequence”. (A. Lesk)

Page 119: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

The RCSB protein data bank1vlc

Esercizio: analisi esaustiva della proteina con cod. PDB: 1VLC

Page 120: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• UCL, Janet Thornton & Christine Orengo

• Class (C), Architecture(A), Topology(T), Homologous superfamily (H)

CATH - Protein Structure Classification[ http://www.biochem.ucl.ac.uk/bsm/cath_new/ ]

SCOP - Structural Classification of Proteins

• MRC Cambridge (UK), Alexey Murzin, Brenner S. E., Hubbard T., Chothia C.

• created by manual inspection

• comprehensive description of the structural and evolutionary relationships

[ http://scop.mrc-lmb.cam.ac.uk/scop/ ]

Page 121: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

• Class(C)

derived from secondary structure content is

assigned automatically

• Architecture(A)

describes the gross orientation of secondary

structures, independent of connectivity.

• Topology(T)

clusters structures according to their topological

connections and numbers of secondary structures

• Homologous superfamily (H)

Page 122: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Esercizio: utilizzare SSM e FPS nell’ambito delle “Online resources” di SCOP

Page 123: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Protein Structure Resources

PDBhttp://www.pdb.org PDB – Protein Data Bank of experimentally solved structures (RCSB)

CATH http://www.biochem.ucl.ac.uk/bsm/cath Hierarchical classification of protein domain structures

SCOP http://scop.mrc-lmb.cam.ac.uk/scop Alexey Murzin’s Structural Classification of proteins

DALI http://www2.ebi.ac.uk/dali Lisa Holm and Chris Sander’s protein structure comparison server

Page 124: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

GENE ONTOLOGY

Page 125: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Una ‘lingua’ comune per la annotazione dei geni di Lievito e topo

The Gene Ontologies

…e Piante e Vermi

…e Umani

…ecc, ecc!

Page 126: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Gene Ontology

- Sistema per l’annotazione dei geni

- Un vocabolario controllato (‘Controlled vocabulary’) che può essere applicato su tutti gli organismi.

- Usato per la descrizione dei prodotti genici

Page 127: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

What’s in a name?

• What is a cell?

Page 128: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Cell

Page 129: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Cell

Page 130: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Cell

Page 131: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Cell

Image from http://microscopy.fsu.edu

Page 132: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

What’s in a name?

Lo stesso nome può essere utilizzato per la descrizione di concetti diversi.

Page 133: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Cos’è un nome?

• Glucose synthesis• Glucose biosynthesis• Glucose formation• Glucose anabolism• Gluconeogenesis

• Tutti si riferiscono al processo di ‘creare’ la glucosa da componenti più semplici.

Page 134: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

Funzione molecolare

Processo Biologico

Localizzazione Cellulare

The 3 Gene Ontologies

Page 135: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono

iHOP - Information Hyperlinked over Proteins

• Network of concurring genes and proteins

• extends through the scientific literature touching on: → phenotypes, → pathologies and → gene function

• iHOP provides this network as a natural way of accessing millions of PubMed abstracts

• By using genes and proteins as hyperlinks between sentences

• The information in PubMed can be converted into one navigable resource

• Bringing all advantages of the internet to scientific literature research.

Page 136: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono
Page 137: MUTAZIONI - molsim.sci.univr.itmolsim.sci.univr.it/2011_bioinfo1/Intro_Algoritmi_banche_dati_prot.pdf · Ricerca di similarita’! ALLINEAMENTO DI SEQUENZE (nell’ipotesi che appartengono