Download - Informatica e Bioinformatica – A. A. 2013-2014 1 Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a.

Transcript

Slide 1
Informatica e Bioinformatica A. A. 2013-2014 1 Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record riportato come titin-cap protein o telethonin. Questo crea confusione e non facilita la ricerca informatica. The Human Genome Organisation (HUGO) ha istituito un comitato allo scopo di dare un unico nome significativo a tutti i geni umani. Con questo intento stato costruito il database HGNC.
Slide 2
Informatica e Bioinformatica A. A. 2013-2014 2 http://geneontology.org/ Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche differenti modi per descrivere le loro funzioni e le loro localizzazioni. A volte corretto assegnare diverse funzioni ad una molecola biologica (una proteina che svolge pi di una funzione): per non generare confusioni per necessario usare una terminologia univoca per ogni funzione. Per questo motivo stato fondato il database Gene Ontology: fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (le ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue localizzazioni cellulare. Nota: i link con la sigla GO rimandano al database della gene ontology
Slide 3
Informatica e Bioinformatica A. A. 2013-2014 3 ALLINEAMENTO DI SEQUENZE
Slide 4
Informatica e Bioinformatica A. A. 2013-2014 4 DATABASE DI SEQUENZE RICERCA TESTUALE SIMILARIT Ricerca dei record che hanno le sequenze pi simili ad una sequenza fornita come query. ora ci occuperemo di questa. Ricerca dei record i cui campi soddisfano determinati criteri. gi vista nelle precedenti lezioni
Slide 5
Informatica e Bioinformatica A. A. 2013-2014 5 Acidi nucleici e proteine sono costituiti da sequenze lineari rispettivamente di nucleotidi e di aminoacidi; entrambi possono essere rappresentati da singole lettere o stringhe di caratteri. CONSIDERAZIONI GENERALI >gi|11496883|ref|NM_001832.2| Homo sapiens colipase, pancreatic (CLPS), mRNA CTGTCTCCCGCCACCCACACCAGCTGTCCCACTCACCATGGAGAAGATCCTGATCCTCCTGCTTGTCGCCCTC TCTGTGGCCTATGCAGCTCCTGGCCCCCGGGGGATCATTATCAACCTGGAGAACGGTGAGCTCTGCATGAA TAGTGCCCAGTGTAAGAGCAATTGCTGCCAGCATTCAAGTGCGCTGGGCCTGGCCCGCTGCACATCCATGG CCAGCGAGAACAGCGAGTGCTCTGTCAAGACGCTCTATGGGATTTACTACAAGTGTCCCTGTGAGCGTGGC CTGACCTGTGAGGGAGACAAGACCATCGTGGGCTCCATCACCAACACCAACTTTGGCATCTGCCATGACGCT GGACGCTCCAAGCAGTGAGACTGCCCACCCACTCCCACACCTAGCCCAGAATGCTGTAGGCCACTAGGCGC AGGGGCATCTCTCCCCTGCTCCAGCGCATCTCCCGGGCTGGCCACCTCCTTGACCAGCATATCTGTTTTCTG ATTGCGCTCTTCACAATTAAAGGCCTCCTGCAAACCTT >colipase-protein MEKILILLLVALSVAYAAPGPRGIIINLENGELCMNSAQCKSNCCQH SSALGLARCTSMASENSECSVKTLYGIYYKCPCERGLTCEGDKTIVG SITNTNFG ICHDAGRSKQ La stringa di caratteri soltanto una rappresentazione semplificata del corrispondente acido nucleico o proteina, ma permette di gestire ed analizzare le sequenze mediante opportuni programmi informatici. Un acido nucleico rappresentato come stringa di caratteri, formato FASTA. La corrispondente proteina rappresentata come stringa di caratteri, formato FASTA.
Slide 6
Informatica e Bioinformatica A. A. 2013-2014 6 Ricerca di similarit tra sequenze Quando viene ottenuta una sequenza nucleotidica o proteica si cerca innanzitutto di individuarne la funzione. Come? Viene subito in mente di cercare tra le sequenze gi esistenti in database, alla ricerca di una o pi sequenze che siano confrontabili alla nostra. Da questa ricerca cosa possiamo ottenere? Nel caso pi semplice, potremmo trovare una sequenza identica alla nostra, magari a funzione gi nota. Potremo quasi sicuramente trasferire la funzione della sequenza target (subject) anche alla nostra sequenza query. Potrebbe non esserci alcuna sequenza identica alla nostra. Dovremo in questo caso cercare le sequenze pi simili alla nostra: in questo caso potremo formulare delle ipotesi sullipotetica funzione della nostra sequenza query. Pi alto sar il livello di similarit tra le sequenze, pi attendibili saranno le nostre ipotesi. Database di sequenze Sequenza query Confronti Lallineamento di sequenze basato sulla similarit un metodo che ci permette di assegnare una probabile funzione a sequenze prima sconosciute.
Slide 7
Informatica e Bioinformatica A. A. 2013-2014 7 Se le sequenze di due proteine o di DNA sono molto simili, allora lo saranno anche le loro strutture e le funzioni. Non per vero il contrario. Infatti, proteine con funzione e struttura simili non hanno necessariamente sequenze simili (ad esempio i trasportatori di membrana). Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto sequenza nucleotidica corrispondente diversa. Es. mutazioni silenti che interessano la terza base di un codone: laminoacido rimane lo stesso ma cambiato il DNA! Quando inferire la funzione! SEQUENZA SIMILE STRUTTURA SIMILE FUNZIONE SIMILE
Slide 8
Informatica e Bioinformatica A. A. 2013-2014 8 Allineamento delle sequenze Analisi comparata delle similarit Un aspetto importante della biologia capire come si siano originate le strutture biologiche nel corso dell'evoluzione: evoluzione biologica e filogenesi. Analisi comparata classica: confrontando l'anatomia dei vertebrati, si pu dedurre che i mammiferi si sono originati da un gruppo di rettili originati a loro volta da un gruppo di anfibi, originati a loro volta da un gruppo di pesci. Analisi comparata a livello molecolare: confrontando sequenze proteiche in organismi diversi possibile ricostruire passo dopo passo l'evoluzione delle proteine nel corso della filogenesi e capire come esse abbiano affinato le loro funzioni; oppure come siano nate funzioni nuove da proteine ancestrali con funzioni diverse. lallineamento di sequenze oggi alla base di molti studi di filogenesi molecolare. Set di geni/proteine Organismo A Set di geni/proteine Organismo B Set di geni/proteine Organismo C Set di geni/proteine Organismo D Set di geni/proteine Organismo E Costruzione dellalbero filogenetico degli organismi A C E B D Analisi comparata
Slide 9
Informatica e Bioinformatica A. A. 2013-2014 9 Alcune definizioni: Similarit, omologia ed analogia Spesso si fa confusione tra similarit ed omologia. La similarit un aspetto quantitativo che indica un livello di somiglianza tra le sequenze: prevede che venga fissato un criterio comparativo ( % identit, % mutazioni conservative ecc.). Lomologia un aspetto qualitativo che riguarda pi propriamente la funzione delle sequenze ed indica unorigine filogenetica comune. L'omologia presuppone l'esistenza di un organismo ancestrale comune da cui le strutture omologhe si sono evolute. Ad esempio l'ala di un uccello e la pinna anteriore di una foca sono omologhi perch si suppone che si siano entrambi evoluti dall'arto anteriore di un rettile ancestrale. Invece, il termine analogia indica che due strutture hanno una funzione simile, ma che si sono evolute indipendentemente. Ad esempio l'ala di un uccello e quella di una farfalla: la similarit in questo caso determinata da una convergenza adattativa e non dalla stessa origine evolutiva.
Slide 10
Informatica e Bioinformatica A. A. 2013-2014 10 Il termine omologia si applica anche a sequenze di acidi nucleici e proteine: due geni sono omologhi se hanno un gene ancestrale da cui sono originati entrambi. La similarit tra due sequenze generalmente dovuta ad una origine evolutiva comune per cui molto spesso i termini "similarit" e "omologia" si confondono. Quando non si certi di unorigine evolutiva comune si dovrebbe parlare di similarit. Un errore ancora pi grave di parlare di percentuale di omologia, che non ha nessun senso.
Slide 11
Informatica e Bioinformatica A. A. 2013-2014 11 speciazione: origine di una nuova specie da una gi esistente Evoluzione genica ed omologia (A) Quando due geni omologhi derivano dalla speciazione si parla di geni ortologhi. (B) Quando due geni omologhi derivano dalla duplicazione genica, si parla di geni paraloghi. Deve essere chiaro che sia i geni paraloghi che i geni ortologhi sono omologhi perch il termine omologia si riferisce allesistenza di un comune ancestor.
Slide 12
Informatica e Bioinformatica A. A. 2013-2014 12 Vertebrati Pesci con alfa e beta globine Pesci con un solo gene per la globina Pesci con alfa e beta globine Anfibi Rettili Anfibi RettiliMammiferi Globina di uomo ESEMPIO Nel corso dell'evoluzione dei vertebrati (prima della evoluzione degli anfibi), si verificato un evento di duplicazione del gene della globina (globina alfa e beta). Oggi alcuni pesci hanno un singolo gene, mentre altri ne hanno due: uno simile alla globina alfa e uno alla globina beta. Dai pesci con due globine si sono evoluti gli anfibi, e da questi rettili, uccelli e mammiferi. Tutti i geni della globina sono omologhi in quanto derivano da un unico gene ancestrale: - i geni delle globine alfa sono ortologhi tra loro cos come i geni delle globine beta; - i geni dellalfa e beta globina sono paraloghi tra loro in quanto derivano da un processo di duplicazione genica.
Slide 13
Informatica e Bioinformatica A. A. 2013-2014 13 Cominciamo ad allineare tra loro le sequenze: la DOT MATRIX Il primo semplice sistema di visualizzazione di allineamenti risale al 1970 e si chiama metodo della Dot Matrix (matrice a punti). Le due sequenze da confrontare sono inserite ai margini di una matrice. Se le due lettere corrispondenti ad una casella sono uguali, allora la casella viene colorata di nero ed apparir come un punto (dot) allinterno della matrice. Gli allineamenti di una certa lunghezza appariranno come segmenti diagonali e saranno distinguibili visivamente.
Slide 14
Informatica e Bioinformatica A. A. 2013-2014 14 Confrontando due sequenze identiche (la stessa sequenza sia in orizzontale che verticale) otterremo una diagonale continua che parte dall'angolo in alto a sinistra per arrivare a quello in basso a destra. Analisi della matrice NOTA: statisticamente parlando, dal confronto tra sequenze proteiche ci possiamo aspettare una casella positiva ogni 20. Ancor di pi, dal confronto di sequenze di acidi nucleici potremmo avere una casella positiva ogni 4: si crea un notevole rumore di fondo. Variazione del rumore di fondo con diversi valori del parametro window. Un modo per ridurre il rumore di fondo di considerare la media dei valori presenti sulla diagonale allinterno di una determinata finestra (window) invece che considerare le singole caselle della matrice.
Slide 15
Informatica e Bioinformatica A. A. 2013-2014 15 Significato della diagonale posta in prossimit dell'angolo in alto a destra: la parte finale della sequenza orizzontale simile alla parte iniziale della sequenza verticale. In altre parole, la sequenza verticale simile alla sequenza orizzontale in due porzioni distinte, possibilmente generate da parziale duplicazione del gene. Osservazioni Una diagonale parallela quella principale indica una parziale duplicazione genica o la presenza di domini multipli.
Slide 16
Informatica e Bioinformatica A. A. 2013-2014 16 La diagonale principale della figura mostra un'evidente interruzione nella parte centrale per poi continuare su una diagonale diversa, un po' pi bassa. Questi salti di diagonale sono dovuti ad alcuni segmenti di sequenza che sono presenti in una sequenza, ma non nell'altra. In altre parole, una sequenza possiede un gap (discontinuit, buco) rispetto allaltra. Nel caso del nostro esempio abbiamo un gap (delezione) nella sequenza orizzontale o, se si preferisce, un segmento di sequenza aggiuntivo (inserzione) nella sequenza verticale. Esempio di gap tra due sequenze
Slide 17
Informatica e Bioinformatica A. A. 2013-2014 17 Schema per linterpretazione della Dot Matrix
Slide 18
Informatica e Bioinformatica A. A. 2013-2014 18 Con l'approccio della dot matrix viene semplicemente mostrata una matrice, la quale viene in seguito interpretata visivamente ed in modo soggettivo. Abbiamo bisogno di un sistema che sia anche in grado di estrarre i dati dalla matrice e trovare automaticamente gli allineamenti migliori, cio di identificare il "percorso" migliore all'interno della matrice. Occorre individuare un metodo per confrontare sequenze che utilizzi un criterio per quantificare il grado di similarit tra sequenze. servono dei programmi informatici capaci di utilizzare appositi algoritmi di allineamento (metodo di allineamento) e che sfruttino un criterio di similarit capace di stimare la bont di un certo allineamento.
Slide 19
Informatica e Bioinformatica A. A. 2013-2014 19 Per determinare la similarit tra due sequenze dobbiamo quindi definire: 1. lalgoritmo di allineamento 2. il criterio di similarit RICERCA DELLE SIMILARIT TRA 2 SEQUENZE 1. ALGORITMO DI ALLINEAMENTO Un algoritmo caratterizzato da linsieme di tutte le operazioni da eseguire per risolvere un problema (determinazione di tutti i possibili allineamenti); la complessit, cio da come varia il numero delle operazioni da effettuare al variare della dimensione del problema: il tempo di esecuzione del programma che implementa lalgoritmo infatti proporzionale alla complessit dellalgoritmo! Esempio: algoritmo di scorrimento. Si fa scorrere una sequenza sullaltra contando le identit tra le due sequenze 4 identit
Slide 20
Informatica e Bioinformatica A. A. 2013-2014 20 2. CRITERIO DI SIMILARIT Funzione di score Lallineamento delle sequenze dovrebbe essere caratterizzato da un punteggio (score), col quale possibile valutare (secondo i criteri impostati) il grado di similarit. Ad esempio, con lalgoritmo di scorrimento e una semplice funzione di score che assegni 1 se le lettere tra le due sequenze sono uguali; 0 se le lettere sono diverse, per ogni allineamento si ricava uno score dato dalla somma ottenuta da tutti gli appaiamenti. Il miglior allineamento potrebbe essere quello che ha ottenuto il maggior punteggio. Adozione di criteri differenti funzioni di score differenti score finali differenti Questo esempio di funzione di score potrebbe non rappresentare un criterio molto valido: non ha senso penalizzare tutte le differenze (i mismatch) allo stesso modo! in genere nelle proteine la sostituzione tra aminoacidi carichi non comporta grandi cambiamenti strutturali, mentre la sostituzione di aminoacidi aromatici con altri carichi comporta spesso pesanti cambiamenti conformazionali. Per questo sono state introdotte le matrici di sostituzione (vedi prossima slide). Inoltre possono essere adottate particolari penalit (score) per lapertura o lestensione di un gap che si sommano allo score totale.
Slide 21
Informatica e Bioinformatica A. A. 2013-2014 21 LE MATRICI DI SOSTITUZIONE Nel caso dellallineamento di aminoacidi opportuno applicare dei criteri di similarit che non si limitino a verificare lidentit assoluta, ma tengano conto del fatto che gli aminoacidi possono essere pi o meno simili tra loro: aminoacidi molto simili possono essere indifferentemente sostituiti in una proteina senza una variazione apprezzabile nella struttura (e quindi funzione) della proteina. Per esempio acido aspartico (D) e acido glutammico (E) sono molto simili e nel corso dellevoluzione prendono facilmente il posto luno dellaltro nelle proteine. Viceversa acido aspartico (D) e triptofano (W) sono molto diversi e non sono interscambiabili. E ragionevole valutare differentemente la sostituzione di D con E e di D con W. Questa tipologia di confronti viene descritta in matrici quadrate di 20x20 caselle in cui si attribuisce un punteggio ad ogni possibile coppia di aminoacidi: - pi alto il punteggio tanto pi interscambiabili sono gli aminoacidi; - punteggi negativi penalizzano invece aminoacidi molto differenti. Approfondiamo brevemente le matrici di sostituzione pi diffuse, le matrici PAM e le matrici BLOSUM.
Slide 22
Informatica e Bioinformatica A. A. 2013-2014 22 Sono basate su uno studio di filogenesi molecolare condotto su 71 famiglie di proteine nel 1978 da Margareth Dayhoff e collaboratori. E stata effettuata una ricostruzione dellevoluzione molecolare delle proteine, in cui ad ogni passaggio evolutivo si presuppone una sostituzione aminoacidica. MATRICI PAM ( point accepted mutation) Le matrici PAM (mutazioni puntiformi accettate) elencano la probabilit di cambiamento da un aminoacido ad un altro in sequenze proteiche omologhe nel corso dellevoluzione. PAM1 rappresenta un singolo passaggio evolutivo (il primo) che tiene conto della probabilit di sostituzione di ogni aminoacido con ciascun altro e tale da prevedere una mutazione ogni 100 aminoacidi.
Slide 23
Informatica e Bioinformatica A. A. 2013-2014 23 I passi evolutivi successivi vengono simulati applicando nuovamente le probabilit di sostituzione definite in PAM 1 per ricalcolare, ad ogni nuovo passo, nuove probabilit di sostituzione. Una distanza evolutiva di 100 PAM non corrisponde alla sostituzione del 100% degli aminoacidi, ma a 100 passi evolutivi. Possiamo simulare qualsivoglia distanza evolutiva e calcolarne la corrispondente PAM. Alla fine della simulazione otteniamo dei punteggi che ci indicano quanto pi probabile che lappaiamento tra gli aminoacidi sia dovuto ad omologia piuttosto che al caso. Nota: il modello prevede che le sostituzioni aminoacidiche osservate a grandi distanze evolutive derivino esclusivamente dalla somma di tante mutazioni indipendenti.
Slide 24
Informatica e Bioinformatica A. A. 2013-2014 24 MATRICI BLOSUM (1992, Henikoff and Henikoff) Sono basate sulla banca dati BLOCKS, la quale contiene una collezione di allineamenti multipli di segmenti proteici (senza gap). I blocchi sono derivati da osservazione diretta, cio non viene fatta nessun tipo di assunzione di omologia. Ogni blocco di allineamenti contiene sequenze con un numero di aminoacidi identici superiore ad una certa percentuale (P). Ad esempio, una BLOSUM60 corrisponde ad un 60 % di identit minima (pi alto lindice, tanto pi ci si avvicina alla matrice di identit). Da ognuno di questi blocchi possibile (reiterando il calcolo in modalit simili al metodo PAM) ricavare la frequenza relativa di sostituzione degli aminoacidi e costruire delle matrici di sostituzione.
Slide 25
Informatica e Bioinformatica A. A. 2013-2014 25 Le tabelle (o matrici) di sostituzione dei 20 aminoacidi comprendono: 190 valori di relazione tra aminoacidi diversi, pi 20 valori di identit, per un totale di 210 valori. Spesso queste matrici sono riportate anche nella loro parte speculare per un totale di altri 190 valori, uguali ai primi. Il tutto si pu facilmente rappresentare con una matrice di 20x20, 400 valori. Questa tabella corrisponde alla matrice PAM240, una delle pi comunemente usate per allineare tra loro sequenze di aminoacidi. In genere, per ogni coppia: valori alti aa. identici; medi aa. simili; bassi aa. molto differenti (ad esempio W & G = -7).
Slide 26
Informatica e Bioinformatica A. A. 2013-2014 26 Matrici PAM: si basano sulla frequenza con cui ciascun aminoacido pu subire un evento di sostituzione calcolato mediante uno studio di filogenesi molecolare (esistono matrici PAM1, PAM10, ecc. che si differenziano per i passi evolutivi considerati nel loro calcolo) Matrici BLOSUM: sono invece basate su una banca dati (BLOCKS) di allineamenti multipli di segmenti proteici senza gap. (anche in questo caso esistono differenti matrici BLOSUM adatte per allineamenti tra sequenze con differenti distanze filogenetica) Esistono diverse matrici PAM e BLOSUM, che servono per confrontare sequenze simili oppure molto divergenti. Questo perch si basano sulle frequenze di sostituzione osservate in famiglie di proteine simili, che variano in base alla distanza evolutiva delle stesse famiglie di proteine. PAM80 PAM120 PAM200 PAM250: aumento distanza evolutiva. BLOSUM80 BLOSUM62 BLOSUM45: aumento distanza evolutiva. In sintesi Perch le BLOSUM vanno allopposto?
Slide 27
Informatica e Bioinformatica A. A. 2013-2014 27 Esistono altre matrici di sostituzione basate su differenti criteri di similarit chimica, oppure sul numero minimo di mutazioni necessarie per sostituire il codone di un aminoacido in un altro. Esistono matrici di sostituzione anche per le sequenze di DNA. Queste matrici contengono informazioni sull'occorrenza di transizioni (purina a purina, pirimidina a pirimidina) e transversioni (purina a pirimidina, e viceversa). I principali programmi di allineamento tra sequenze usano le matrici PAM e BLOSUM per assegnare i punteggi di allineamento (funzione di score).
Slide 28
Informatica e Bioinformatica A. A. 2013-2014 28 Proviamo a confrontare due sequenze allineandole tra loro 1. Le due sequenze sono entrambe formate da 11 A, 9 T, 13 C, 7 G: sono simili ? ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA CAGCACGTGGCTTACTCACTACCAGTTCTCACAGAATGCA 2. Due sequenze di 39 basi hanno lo stesso contenuto in basi. Se allineate, notiamo 22 basi identiche: pi del 50%. Possiamo considerarle simili o no? ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA | | | | | | | || | | | | || | || | | || ATTCCCCACGATCGTTTCCTAGTCCGGAAACACAACCGGA 3. Anche queste due sequenze hanno 22 basi allineate ed identiche. Come le consideriamo? Come nel caso precedente o in altro modo? ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA | || | |||||||||||||||| | | TAGTAGCCGACCATTTCTCGACTGCAGACCTTAATTAGTT 4a. Date le due sequenze sovrapposte: ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA | || || | | | | | CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG sufficiente traslare una delle sequenze per ottenere: ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG
Slide 29
Informatica e Bioinformatica A. A. 2013-2014 29 Consideriamo i seguenti due differenti allineamenti delle stesse sequenze Nel primo caso si hanno 14 identit (evidenziate dalle linee verticali) e tre sostituzioni conservative (evidenziate dai punti) distribuite su tutta la lunghezza della sequenza. Nel secondo caso si hanno 13 identit ed una sostituzione conservativa su una regione di 14 aminoacidi. Quale dei due allineamenti da considerarsi migliore? ALLINEAMENTI GLOBALI E LOCALI. |
Slide 30
Informatica e Bioinformatica A. A. 2013-2014 30 Dal punto di vista biologico generalmente vengono privilegiati gli allineamenti locali, che riguardano regioni limitate delle proteine o di acidi nucleici. Abbiamo gi parlato di domini delle proteine o anche degli acidi nucleici. Se ad esempio siamo interessati a trovare tutte le sequenze di proteine di una banca dati che contengono un certo dominio, allora sicuramente si cercheranno similarit locali. Gli allineamenti globali vengono applicati quando si vogliono confrontare accuratamente due sequenze in cui la similarit sia estesa per tutta la lunghezza. N.B. Un allineamento locale non necessariamente limitato ad una piccola regione della sequenza, ma potrebbe estendersi anche allintera lunghezza della sequenza. ALLINEAMENTI GLOBALI O LOCALI?
Slide 31
Informatica e Bioinformatica A. A. 2013-2014 31 Alcuni programmi, come BLAST, sono estremamente efficienti e sono in grado di portare a termine una ricerca di similarit in pochi secondi. Questi programmi si basano essenzialmente su procedure che, per ogni sequenza del database: * effettua l'allineamento; * attribuisce un punteggio; * se il punteggio alto lo memorizza; * ripete fino alla fine delle sequenze; * mostra la lista dei migliori allineamenti trovati. Ricerca di similarit di sequenza in banche dati La ricerca di similarit di sequenze in banche dati diventata una operazione molto importante in diversi settori della biologia. I programmi che effettuano questa operazione si basano sul confronto sistematico di una sequenza di partenza (la query) con ognuna delle sequenze del database (dette subject). Database di sequenze Sequenza query Confronti
Slide 32
Informatica e Bioinformatica A. A. 2013-2014 32 Il programma pi usato per fare ricerche di similarit in banche dati BLAST. In questo corso ci limiteremo a descriverne alcune applicazioni e a capire il significato dei risultati. BLAST pu essere installato e fatto funzionare in un PC locale (nel proprio PC) oppure accessibile dalla rete ad esempio al sito: http://www.ncbi.nlm.nih.gov/BLAST/ dove pu essere direttamente utilizzato per effettuare ricerche di similarit in banche dati.http://www.ncbi.nlm.nih.gov/BLAST/ E' inoltre disponibile un dettagliato "Blast tutorial" dove possono essere trovate informazioni approfondite sull'uso del programma e sull'algoritmo."Blast tutorial" BLAST Basic Local Alignment Search Tool
Slide 33
Informatica e Bioinformatica A. A. 2013-2014 33 AllNCBI sono reperibili numerosi tutorial e questo vale anche per BLAST fino alla definizione di terminologie molto tecniche e fondamentali Sono introdotti concetti molto generali
Slide 34
Informatica e Bioinformatica A. A. 2013-2014 34 Sono state sviluppate diverse applicazioni base del programma BLAST che consentono di ricercare sequenze sia a livello di acidi nucleici che di proteine: BLASTP cerca similarit in una banca dati di sequenze di aminoacidi a partire da una sequenza query di aminoacidi; BLASTN cerca similarit in una banca dati di sequenze nucleotidiche a partire da una sequenza query di nucleotidi; BLASTX cerca similarit in una banca dati di sequenze di aminoacidi a partire da una sequenza query di nucleotidi, dopo aver tradotto automaticamente la query in aminoacidi utilizzando tutti i possibili frame di lettura* (cosa sono??); TBLASTN cerca similarit in una banca dati di sequenze di nucleotidi a partire da una sequenza query di aminoacidi, traducendo automaticamente ogni sequenza della banca dati utilizzando tutti i possibili frame di lettura; TBLASTX cerca similarit in una banca dati di sequenze di nucleotidi a partire da una sequenza query di nucleotidi, traducendo sia la query che le sequenze subject in aminoacidi, in tutte le possibili fasi di lettura (fasi=frame).
Slide 35
Informatica e Bioinformatica A. A. 2013-2014 35 * Riguardo al BLASTX (ma anche al TBLASTN e TBLASTX), cosa pu significare la frase: dopo aver tradotto automaticamente la query (subject) in amminoacidi utilizzando tutti i possibili frame di lettura? Questi concetti sono gi stati introdotti nel corso: fateli vostri!