Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza...

21
Allineamento Allineamento Metodo bioinformatico che date due o più Metodo bioinformatico che date due o più sequenze ne mette in evidenza sequenze ne mette in evidenza similarità/diversità, supponendo che le similarità/diversità, supponendo che le sequenze analizzate abbiano una sequenze analizzate abbiano una storia storia evolutiva comune evolutiva comune Quindi, per allineare due o più sequenze si Quindi, per allineare due o più sequenze si “simulano” i processi evolutivi: “simulano” i processi evolutivi: Le sostituzioni non sono tutte uguali: alcune Le sostituzioni non sono tutte uguali: alcune sono evolutivamente più “tollerate” sono evolutivamente più “tollerate” dall’evoluzione di altre dall’evoluzione di altre E’ meglio che inserzioni/cancellazioni (gap E’ meglio che inserzioni/cancellazioni (gap nell’allineamento) appaiano consecutivamente nell’allineamento) appaiano consecutivamente Sono stati definiti opportuni parametri di Sono stati definiti opportuni parametri di allineamento -> matrici di sostituzione allineamento -> matrici di sostituzione PAM/BLOSUM PAM/BLOSUM Ad ogni allineamento di due sequenze si Ad ogni allineamento di due sequenze si associa un punteggio, dato dalla somma dei associa un punteggio, dato dalla somma dei punteggi di ciascuna colonna punteggi di ciascuna colonna

Transcript of Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza...

Page 1: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

AllineamentoAllineamento

Metodo bioinformatico che date due o più sequenze ne mette Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano una analizzate abbiano una storia evolutiva comunestoria evolutiva comune

Quindi, per allineare due o più sequenze si “simulano” i Quindi, per allineare due o più sequenze si “simulano” i processi evolutivi:processi evolutivi:

Le sostituzioni non sono tutte uguali: alcune sono evolutivamente Le sostituzioni non sono tutte uguali: alcune sono evolutivamente più “tollerate” dall’evoluzione di altrepiù “tollerate” dall’evoluzione di altre

E’ meglio che inserzioni/cancellazioni (gap nell’allineamento) E’ meglio che inserzioni/cancellazioni (gap nell’allineamento) appaiano consecutivamenteappaiano consecutivamente

Sono stati definiti opportuni parametri di allineamento -> Sono stati definiti opportuni parametri di allineamento -> matrici di sostituzione PAM/BLOSUMmatrici di sostituzione PAM/BLOSUM

Ad ogni allineamento di due sequenze si associa un punteggio, Ad ogni allineamento di due sequenze si associa un punteggio, dato dalla somma dei punteggi di ciascuna colonnadato dalla somma dei punteggi di ciascuna colonna

Page 2: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

AllineamentoAllineamento

L’allineamento, così come lo abbiamo L’allineamento, così come lo abbiamo visto finora, è “visto finora, è “globaleglobale””

Ovvero, cerca di mettere in relazione Ovvero, cerca di mettere in relazione evolutiva due sequenze dall’inizio alla fineevolutiva due sequenze dall’inizio alla fine

Ovvero, suppone che per ogni a.a. o Ovvero, suppone che per ogni a.a. o nucleotide di una sequenza ci sia un nucleotide di una sequenza ci sia un legame evolutivo con un elemento legame evolutivo con un elemento dell’altradell’altra

In realtà, quando si confrontano In realtà, quando si confrontano sequenze molto “divergenti” (grande sequenze molto “divergenti” (grande distanza evolutiva...)distanza evolutiva...)

Page 3: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

AllineamentoAllineamento

L’allineamento “globale” spesso non riescead allineare correttamente le due regioni effettivamente

simili, perché limita inserzioni e cancellazioni

La similarità tra due sequenze può essere limitata soload alcune regioni (i domini) mentre per il resto non siosserva alcuna conservazione --> nessun evidente

legame evolutivo

Page 4: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

L’allineamento “locale”L’allineamento “locale”

Posso fare un’altra cosa: chiedere al programma che sto Posso fare un’altra cosa: chiedere al programma che sto utilizzando “utilizzando “cerca all’interno di queste due sequenze cerca all’interno di queste due sequenze due regioni che si assomigliano tra lorodue regioni che si assomigliano tra loro””

Quindi, eseguo un allineamento Quindi, eseguo un allineamento localelocale: voglio che il : voglio che il programma estragga solo le regioni delle sequenze che programma estragga solo le regioni delle sequenze che sono effettivamente simili tra loro, e allinei soltanto sono effettivamente simili tra loro, e allinei soltanto quellequelle

Ovvero, gli algoritmi di allineamento locale estraggono Ovvero, gli algoritmi di allineamento locale estraggono dalle due sequenze dalle due sequenze le due regioni che allineate le due regioni che allineate producono l’allineamento dal punteggio massimoproducono l’allineamento dal punteggio massimo (data (data una matrice dei punteggi come PAM o BLOSUM)una matrice dei punteggi come PAM o BLOSUM)

D’altra parte, anche BLAT eseguiva un allineamento D’altra parte, anche BLAT eseguiva un allineamento locale tra trascritti e genoma!locale tra trascritti e genoma!

Page 5: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Globale vs localeGlobale vs locale

L’allineamento “globale” probabilmente non riuscirebbead allineare correttamente le due regioni effettivamente

simili

L’allineamento locale di solito se ne accorge!

Page 6: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Globale vs localeGlobale vs locale

L’allineamento L’allineamento globaleglobale cerca legami evolutivi per le cerca legami evolutivi per le intere sequenzeintere sequenze, dall’inizio alla fine, e produce un , dall’inizio alla fine, e produce un allineamento per tutte le basi delle sequenzeallineamento per tutte le basi delle sequenze

L’allineamento L’allineamento localelocale cerca cerca regionregioni simili tra loro i simili tra loro all’interno all’interno delle sequenzedelle sequenze, e allinea soltanto quelle , e allinea soltanto quelle (nell’esempio precedente allineerebbe solo quelle in (nell’esempio precedente allineerebbe solo quelle in blu) - almeno una coppia, ma se ce ne sono di più, può blu) - almeno una coppia, ma se ce ne sono di più, può allineare più coppie di regioni (allineate le prime due, allineare più coppie di regioni (allineate le prime due, vede se nel resto delle sequenze esistono altre coppie di vede se nel resto delle sequenze esistono altre coppie di regioni che producono un “buon” allineamentoregioni che producono un “buon” allineamento

Quando due sequenze sono altamente conservate, Quando due sequenze sono altamente conservate, allineamento globale e locale coincidonoallineamento globale e locale coincidono

Page 7: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Globale vs localeGlobale vs locale

A bit of sugar pleaseUn peu de sucre s’il vous plait

A bit of sugar pleaseUn peu de sucre s’il vous plait

Allineamenti: “sugar” con “sucre” e “please” con “plait” - il resto delle sequenzeviene ignorato

sugar-suc-re

plea-sepl-ait-

Page 8: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Ricerca per similaritàRicerca per similarità

A oggi sono note milioni di sequenze di A oggi sono note milioni di sequenze di vario tipo (DNA, RNA, proteine, ecc. ecc.)vario tipo (DNA, RNA, proteine, ecc. ecc.)

Problema: ho sviluppato un metodo per Problema: ho sviluppato un metodo per confrontare le sequenze, ma come faccio confrontare le sequenze, ma come faccio a scegliere le sequenze da allineare?a scegliere le sequenze da allineare?

Idealmente, potrei chiedermi: data una Idealmente, potrei chiedermi: data una sequenza di partenza, esistono sequenze sequenza di partenza, esistono sequenze note che le “assomigliano”note che le “assomigliano”

Oppure: fammi una classifica delle Oppure: fammi una classifica delle sequenze note sulla base della similarità sequenze note sulla base della similarità ad una sequenza dataad una sequenza data

Page 9: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Ricerca per similaritàRicerca per similarità

EsempioEsempio: ho appena sequenziato qualcosa, : ho appena sequenziato qualcosa, vorrei sapere se esiste (è già stato sequenziato) vorrei sapere se esiste (è già stato sequenziato) oppure nooppure no

EsempioEsempio: so che quello che ho sequenziato è : so che quello che ho sequenziato è nuovo. Vorrei sapere quale potrebbe essere nuovo. Vorrei sapere quale potrebbe essere una funzione. Cerco sequenze che assomiglino una funzione. Cerco sequenze che assomiglino alla mia sequenza, con il principio “più le alla mia sequenza, con il principio “più le assomigliano, più è probabile che abbiano la assomigliano, più è probabile che abbiano la stessa funzione”stessa funzione”

EsempioEsempio: sto studiando un gene (es. umano). : sto studiando un gene (es. umano). Voglio ricostruirne la storia evolutiva, vedendo Voglio ricostruirne la storia evolutiva, vedendo se/quanti ortologhi o paraloghi ha, se/dove è se/quanti ortologhi o paraloghi ha, se/dove è conservato in altre specie, ecc. ecc.conservato in altre specie, ecc. ecc.

Page 10: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Ricerca per similaritàRicerca per similarità

Le sequenze biologiche sono solitamente Le sequenze biologiche sono solitamente depositate in banche date ad accesso pubblico depositate in banche date ad accesso pubblico o gratuitoo gratuito

Tre le principali: NCBI (USA), EBI (Europa), Tre le principali: NCBI (USA), EBI (Europa), DDBJ (Giappone)DDBJ (Giappone)

Vengono “sincronizzate” tutti i giorni: ovvero le Vengono “sincronizzate” tutti i giorni: ovvero le sequenze contenute sono le stesse in tutte e sequenze contenute sono le stesse in tutte e tre le banche datitre le banche dati

Abbiamo visto il sito e le banche dati curate Abbiamo visto il sito e le banche dati curate dall’NCBIdall’NCBI

Idea: posso confrontare una sequenza data con Idea: posso confrontare una sequenza data con tutte le sequenze contenute in una banca dati, tutte le sequenze contenute in una banca dati, e fare una “classifica” per similarità?e fare una “classifica” per similarità?

Page 11: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Ricerca per similaritàRicerca per similarità

Oggi tutte le banche dati di sequenze permettono Oggi tutte le banche dati di sequenze permettono agli utenti di agli utenti di effettuare ricerche per similaritàeffettuare ricerche per similarità

L’utente fornisce una sequenza di “input”, che L’utente fornisce una sequenza di “input”, che viene confrontata con tutte le sequenze dello viene confrontata con tutte le sequenze dello stesso tipo contenute nella banca datistesso tipo contenute nella banca dati

Le sequenze della banca dati vengono allineate Le sequenze della banca dati vengono allineate una per una con la sequenza di inputuna per una con la sequenza di input “query”, “query”, tramite allineamento localetramite allineamento locale

All’utente viene riportata la All’utente viene riportata la classifica di similarità classifica di similarità rispetto alla query,rispetto alla query, sulla base del punteggio sulla base del punteggio dell’allineamento risultante con anche dell’allineamento risultante con anche un’indicazione se la similarità riscontrata un’indicazione se la similarità riscontrata dall’allineamento è significativa oppure nodall’allineamento è significativa oppure no

Page 12: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

BLASTBLAST

BLASTBLAST (che sta per Basic Local Alignment (che sta per Basic Local Alignment Search Tool) è lo standard “de facto” per Search Tool) è lo standard “de facto” per ricerche di questo tiporicerche di questo tipo

Normalmente, ogni banca dati ha Normalmente, ogni banca dati ha “incorporata” una ricerca per similarità tramite “incorporata” una ricerca per similarità tramite BLASTBLAST

… … e, in effetti BLAT (Blast-Like Alignment Tool) e, in effetti BLAT (Blast-Like Alignment Tool) è una versione semplificata e specializzata per è una versione semplificata e specializzata per allineare una sequenza ad un genomaallineare una sequenza ad un genoma

Noi utilizzeremo il BLAST associato alla banca Noi utilizzeremo il BLAST associato alla banca dati “principale” (l’NCBI)dati “principale” (l’NCBI)

Page 13: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

BLASTBLAST

Quello che fa BLAST (sommariamente):Quello che fa BLAST (sommariamente): Prende una sequenza (nucleotidica o proteica) “query”Prende una sequenza (nucleotidica o proteica) “query” La confronta con tutte le sequenze dello stesso tipo presenti nella banca La confronta con tutte le sequenze dello stesso tipo presenti nella banca

datidati Poiché devono essere eseguiti milioni di allineamenti, utilizza una versione Poiché devono essere eseguiti milioni di allineamenti, utilizza una versione

“velocizzata” dell’algoritmo di allineamento locale“velocizzata” dell’algoritmo di allineamento locale Utilizza un “indice” delle sequenze della banca datiUtilizza un “indice” delle sequenze della banca dati Esclude a priori le sequenze della banca dati che hanno poche “speranze” di Esclude a priori le sequenze della banca dati che hanno poche “speranze” di

produrre un buon allineamento con la sequenza queryprodurre un buon allineamento con la sequenza query Calcola il punteggio di ciascun allineamento, e ordina le sequenze del Calcola il punteggio di ciascun allineamento, e ordina le sequenze del

database sulla base del punteggio: la prima sarà quella con punteggio più database sulla base del punteggio: la prima sarà quella con punteggio più alto, e quindi la più similealto, e quindi la più simile

Valuta la “significatività” degli allineamenti ottenuti, ovvero se Valuta la “significatività” degli allineamenti ottenuti, ovvero se l’allineamento/punteggio ottenuto può essere indicativo di effettivo legame l’allineamento/punteggio ottenuto può essere indicativo di effettivo legame evolutivo, oppure può essere frutto del casoevolutivo, oppure può essere frutto del caso

BLAST viene quindi utilizzato solitamente per:BLAST viene quindi utilizzato solitamente per: Scoprire se una sequenza “esiste già”Scoprire se una sequenza “esiste già” Scoprirne ortologhe/paraloghe per fare ipotesi sulla funzione o sulla storia Scoprirne ortologhe/paraloghe per fare ipotesi sulla funzione o sulla storia

evolutiva del gene che stiamo studiando evolutiva del gene che stiamo studiando

Page 14: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

““Significatività” statisticaSignificatività” statistica

Quando viene eseguito un “BLAST”, la Quando viene eseguito un “BLAST”, la sequenza data viene confrontata sequenza data viene confrontata solitamente con milioni di altre solitamente con milioni di altre sequenzesequenze

Quando si trova un allineamento con un Quando si trova un allineamento con un certo punteggio, è anche opportuno certo punteggio, è anche opportuno chiedersi se sia il risultato del fatto che - chiedersi se sia il risultato del fatto che - avendo così tante sequenze - prima o avendo così tante sequenze - prima o poi è “normale” che se ne trovi una che poi è “normale” che se ne trovi una che produca quell’allineamentoproduca quell’allineamento

Page 15: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

““Significatività” statisticaSignificatività” statistica

Si cerca di valutare quanto sia Si cerca di valutare quanto sia “probabile” che l’allineamento sia “probabile” che l’allineamento sia dovuto al casodovuto al caso

Principio che non si applica solo agli Principio che non si applica solo agli allineamenti: è spesso necessario allineamenti: è spesso necessario chiedersi se ciò che si osserva sia dovuto chiedersi se ciò che si osserva sia dovuto al caso, oppure noal caso, oppure no

Il “caso” dipende da:Il “caso” dipende da: Com’è fatta la vostra sequenzaCom’è fatta la vostra sequenza Quante sequenze ci sono in banca datiQuante sequenze ci sono in banca dati Quale matrice di confronto usateQuale matrice di confronto usate

Page 16: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

www.ncbi.nlm.nih.gov/BLASTwww.ncbi.nlm.nih.gov/BLAST

Page 17: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

BLASTBLAST

L’utilizzo è semplice: si inserisce la sequenza, e si sceglie “contro” quale insiemedi sequenze allinearla. Normalmente, gli altri parametri sono impostati automaticamente

Page 18: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

BLAST outputBLAST output

Page 19: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

BLAST output (per ogni sequenza BLAST output (per ogni sequenza della classifica)della classifica)

Page 20: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

““Significatività” statisticaSignificatività” statistica

BLAST associa a ciascun BLAST associa a ciascun allineamento un “E-value” allineamento un “E-value” (Expected Value - tradotto in (Expected Value - tradotto in italiano - “valore atteso”)italiano - “valore atteso”)

Il significato dell’E-value èIl significato dell’E-value è

Il numero atteso di sequenze della banca dati che mi aspetto per caso produrre un

allineamento con lo stesso punteggio

Page 21: Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

BLAST E-valueBLAST E-value

Quando l’E-value è 1, allora vuol dire “c’è una Quando l’E-value è 1, allora vuol dire “c’è una sequenza della banca dati che mi aspetto produca sequenza della banca dati che mi aspetto produca per caso un allineamento con questo punteggio” -> per caso un allineamento con questo punteggio” -> NON significativo - le sequenze non sono abbastanza NON significativo - le sequenze non sono abbastanza simili per essere “sospettate” di essere omologhesimili per essere “sospettate” di essere omologhe

Quando l’E-value è 0, allora vuol dire “ci sono zero Quando l’E-value è 0, allora vuol dire “ci sono zero sequenze della banca dati che mi aspetto producano sequenze della banca dati che mi aspetto producano per caso un allineamento con questo punteggio” -> per caso un allineamento con questo punteggio” -> SIGNIFICATIVO - ipotizzo le sequenze siano omologheSIGNIFICATIVO - ipotizzo le sequenze siano omologhe

E-value tra zero e 1: più è vicino allo zero più è E-value tra zero e 1: più è vicino allo zero più è affidabile l’ipotesi di omologiaaffidabile l’ipotesi di omologia

Regola a spanne: scarto le sequenze con E-value in Regola a spanne: scarto le sequenze con E-value in cui non compare la “e”!cui non compare la “e”!