Informatica e Bioinformatica A. A. 2013-2014 1 Purtroppo non
esiste un modo univoco per indicare un gene. Ad esempio abbiamo
visto che il gene tcap a seconda del record riportato come
titin-cap protein o telethonin. Questo crea confusione e non
facilita la ricerca informatica. The Human Genome Organisation
(HUGO) ha istituito un comitato allo scopo di dare un unico nome
significativo a tutti i geni umani. Con questo intento stato
costruito il database HGNC.
Slide 2
Informatica e Bioinformatica A. A. 2013-2014 2
http://geneontology.org/ Oltre che esistere differenti nomi per lo
stesso gene/proteina, possono esistere o essere adottati anche
differenti modi per descrivere le loro funzioni e le loro
localizzazioni. A volte corretto assegnare diverse funzioni ad una
molecola biologica (una proteina che svolge pi di una funzione):
per non generare confusioni per necessario usare una terminologia
univoca per ogni funzione. Per questo motivo stato fondato il
database Gene Ontology: fornisce una definizione precisa del ruolo
svolto dalle singole proteine tramite un vocabolario (le ontologie)
che consenta di definire in modo corretto e non arbitrario il o i
processi biologici cui una proteina partecipa, la/e sue funzioni
molecolari e la/e sue localizzazioni cellulare. Nota: i link con la
sigla GO rimandano al database della gene ontology
Slide 3
Informatica e Bioinformatica A. A. 2013-2014 3 ALLINEAMENTO DI
SEQUENZE
Slide 4
Informatica e Bioinformatica A. A. 2013-2014 4 DATABASE DI
SEQUENZE RICERCA TESTUALE SIMILARIT Ricerca dei record che hanno le
sequenze pi simili ad una sequenza fornita come query. ora ci
occuperemo di questa. Ricerca dei record i cui campi soddisfano
determinati criteri. gi vista nelle precedenti lezioni
Slide 5
Informatica e Bioinformatica A. A. 2013-2014 5 Acidi nucleici e
proteine sono costituiti da sequenze lineari rispettivamente di
nucleotidi e di aminoacidi; entrambi possono essere rappresentati
da singole lettere o stringhe di caratteri. CONSIDERAZIONI GENERALI
>gi|11496883|ref|NM_001832.2| Homo sapiens colipase, pancreatic
(CLPS), mRNA
CTGTCTCCCGCCACCCACACCAGCTGTCCCACTCACCATGGAGAAGATCCTGATCCTCCTGCTTGTCGCCCTC
TCTGTGGCCTATGCAGCTCCTGGCCCCCGGGGGATCATTATCAACCTGGAGAACGGTGAGCTCTGCATGAA
TAGTGCCCAGTGTAAGAGCAATTGCTGCCAGCATTCAAGTGCGCTGGGCCTGGCCCGCTGCACATCCATGG
CCAGCGAGAACAGCGAGTGCTCTGTCAAGACGCTCTATGGGATTTACTACAAGTGTCCCTGTGAGCGTGGC
CTGACCTGTGAGGGAGACAAGACCATCGTGGGCTCCATCACCAACACCAACTTTGGCATCTGCCATGACGCT
GGACGCTCCAAGCAGTGAGACTGCCCACCCACTCCCACACCTAGCCCAGAATGCTGTAGGCCACTAGGCGC
AGGGGCATCTCTCCCCTGCTCCAGCGCATCTCCCGGGCTGGCCACCTCCTTGACCAGCATATCTGTTTTCTG
ATTGCGCTCTTCACAATTAAAGGCCTCCTGCAAACCTT >colipase-protein
MEKILILLLVALSVAYAAPGPRGIIINLENGELCMNSAQCKSNCCQH
SSALGLARCTSMASENSECSVKTLYGIYYKCPCERGLTCEGDKTIVG SITNTNFG ICHDAGRSKQ
La stringa di caratteri soltanto una rappresentazione semplificata
del corrispondente acido nucleico o proteina, ma permette di
gestire ed analizzare le sequenze mediante opportuni programmi
informatici. Un acido nucleico rappresentato come stringa di
caratteri, formato FASTA. La corrispondente proteina rappresentata
come stringa di caratteri, formato FASTA.
Slide 6
Informatica e Bioinformatica A. A. 2013-2014 6 Ricerca di
similarit tra sequenze Quando viene ottenuta una sequenza
nucleotidica o proteica si cerca innanzitutto di individuarne la
funzione. Come? Viene subito in mente di cercare tra le sequenze gi
esistenti in database, alla ricerca di una o pi sequenze che siano
confrontabili alla nostra. Da questa ricerca cosa possiamo
ottenere? Nel caso pi semplice, potremmo trovare una sequenza
identica alla nostra, magari a funzione gi nota. Potremo quasi
sicuramente trasferire la funzione della sequenza target (subject)
anche alla nostra sequenza query. Potrebbe non esserci alcuna
sequenza identica alla nostra. Dovremo in questo caso cercare le
sequenze pi simili alla nostra: in questo caso potremo formulare
delle ipotesi sullipotetica funzione della nostra sequenza query.
Pi alto sar il livello di similarit tra le sequenze, pi attendibili
saranno le nostre ipotesi. Database di sequenze Sequenza query
Confronti Lallineamento di sequenze basato sulla similarit un
metodo che ci permette di assegnare una probabile funzione a
sequenze prima sconosciute.
Slide 7
Informatica e Bioinformatica A. A. 2013-2014 7 Se le sequenze
di due proteine o di DNA sono molto simili, allora lo saranno anche
le loro strutture e le funzioni. Non per vero il contrario.
Infatti, proteine con funzione e struttura simili non hanno
necessariamente sequenze simili (ad esempio i trasportatori di
membrana). Ci possono essere proteine con la stessa funzione, ma
con struttura e soprattutto sequenza nucleotidica corrispondente
diversa. Es. mutazioni silenti che interessano la terza base di un
codone: laminoacido rimane lo stesso ma cambiato il DNA! Quando
inferire la funzione! SEQUENZA SIMILE STRUTTURA SIMILE FUNZIONE
SIMILE
Slide 8
Informatica e Bioinformatica A. A. 2013-2014 8 Allineamento
delle sequenze Analisi comparata delle similarit Un aspetto
importante della biologia capire come si siano originate le
strutture biologiche nel corso dell'evoluzione: evoluzione
biologica e filogenesi. Analisi comparata classica: confrontando
l'anatomia dei vertebrati, si pu dedurre che i mammiferi si sono
originati da un gruppo di rettili originati a loro volta da un
gruppo di anfibi, originati a loro volta da un gruppo di pesci.
Analisi comparata a livello molecolare: confrontando sequenze
proteiche in organismi diversi possibile ricostruire passo dopo
passo l'evoluzione delle proteine nel corso della filogenesi e
capire come esse abbiano affinato le loro funzioni; oppure come
siano nate funzioni nuove da proteine ancestrali con funzioni
diverse. lallineamento di sequenze oggi alla base di molti studi di
filogenesi molecolare. Set di geni/proteine Organismo A Set di
geni/proteine Organismo B Set di geni/proteine Organismo C Set di
geni/proteine Organismo D Set di geni/proteine Organismo E
Costruzione dellalbero filogenetico degli organismi A C E B D
Analisi comparata
Slide 9
Informatica e Bioinformatica A. A. 2013-2014 9 Alcune
definizioni: Similarit, omologia ed analogia Spesso si fa
confusione tra similarit ed omologia. La similarit un aspetto
quantitativo che indica un livello di somiglianza tra le sequenze:
prevede che venga fissato un criterio comparativo ( % identit, %
mutazioni conservative ecc.). Lomologia un aspetto qualitativo che
riguarda pi propriamente la funzione delle sequenze ed indica
unorigine filogenetica comune. L'omologia presuppone l'esistenza di
un organismo ancestrale comune da cui le strutture omologhe si sono
evolute. Ad esempio l'ala di un uccello e la pinna anteriore di una
foca sono omologhi perch si suppone che si siano entrambi evoluti
dall'arto anteriore di un rettile ancestrale. Invece, il termine
analogia indica che due strutture hanno una funzione simile, ma che
si sono evolute indipendentemente. Ad esempio l'ala di un uccello e
quella di una farfalla: la similarit in questo caso determinata da
una convergenza adattativa e non dalla stessa origine
evolutiva.
Slide 10
Informatica e Bioinformatica A. A. 2013-2014 10 Il termine
omologia si applica anche a sequenze di acidi nucleici e proteine:
due geni sono omologhi se hanno un gene ancestrale da cui sono
originati entrambi. La similarit tra due sequenze generalmente
dovuta ad una origine evolutiva comune per cui molto spesso i
termini "similarit" e "omologia" si confondono. Quando non si certi
di unorigine evolutiva comune si dovrebbe parlare di similarit. Un
errore ancora pi grave di parlare di percentuale di omologia, che
non ha nessun senso.
Slide 11
Informatica e Bioinformatica A. A. 2013-2014 11 speciazione:
origine di una nuova specie da una gi esistente Evoluzione genica
ed omologia (A) Quando due geni omologhi derivano dalla speciazione
si parla di geni ortologhi. (B) Quando due geni omologhi derivano
dalla duplicazione genica, si parla di geni paraloghi. Deve essere
chiaro che sia i geni paraloghi che i geni ortologhi sono omologhi
perch il termine omologia si riferisce allesistenza di un comune
ancestor.
Slide 12
Informatica e Bioinformatica A. A. 2013-2014 12 Vertebrati
Pesci con alfa e beta globine Pesci con un solo gene per la globina
Pesci con alfa e beta globine Anfibi Rettili Anfibi
RettiliMammiferi Globina di uomo ESEMPIO Nel corso dell'evoluzione
dei vertebrati (prima della evoluzione degli anfibi), si verificato
un evento di duplicazione del gene della globina (globina alfa e
beta). Oggi alcuni pesci hanno un singolo gene, mentre altri ne
hanno due: uno simile alla globina alfa e uno alla globina beta.
Dai pesci con due globine si sono evoluti gli anfibi, e da questi
rettili, uccelli e mammiferi. Tutti i geni della globina sono
omologhi in quanto derivano da un unico gene ancestrale: - i geni
delle globine alfa sono ortologhi tra loro cos come i geni delle
globine beta; - i geni dellalfa e beta globina sono paraloghi tra
loro in quanto derivano da un processo di duplicazione genica.
Slide 13
Informatica e Bioinformatica A. A. 2013-2014 13 Cominciamo ad
allineare tra loro le sequenze: la DOT MATRIX Il primo semplice
sistema di visualizzazione di allineamenti risale al 1970 e si
chiama metodo della Dot Matrix (matrice a punti). Le due sequenze
da confrontare sono inserite ai margini di una matrice. Se le due
lettere corrispondenti ad una casella sono uguali, allora la
casella viene colorata di nero ed apparir come un punto (dot)
allinterno della matrice. Gli allineamenti di una certa lunghezza
appariranno come segmenti diagonali e saranno distinguibili
visivamente.
Slide 14
Informatica e Bioinformatica A. A. 2013-2014 14 Confrontando
due sequenze identiche (la stessa sequenza sia in orizzontale che
verticale) otterremo una diagonale continua che parte dall'angolo
in alto a sinistra per arrivare a quello in basso a destra. Analisi
della matrice NOTA: statisticamente parlando, dal confronto tra
sequenze proteiche ci possiamo aspettare una casella positiva ogni
20. Ancor di pi, dal confronto di sequenze di acidi nucleici
potremmo avere una casella positiva ogni 4: si crea un notevole
rumore di fondo. Variazione del rumore di fondo con diversi valori
del parametro window. Un modo per ridurre il rumore di fondo di
considerare la media dei valori presenti sulla diagonale allinterno
di una determinata finestra (window) invece che considerare le
singole caselle della matrice.
Slide 15
Informatica e Bioinformatica A. A. 2013-2014 15 Significato
della diagonale posta in prossimit dell'angolo in alto a destra: la
parte finale della sequenza orizzontale simile alla parte iniziale
della sequenza verticale. In altre parole, la sequenza verticale
simile alla sequenza orizzontale in due porzioni distinte,
possibilmente generate da parziale duplicazione del gene.
Osservazioni Una diagonale parallela quella principale indica una
parziale duplicazione genica o la presenza di domini multipli.
Slide 16
Informatica e Bioinformatica A. A. 2013-2014 16 La diagonale
principale della figura mostra un'evidente interruzione nella parte
centrale per poi continuare su una diagonale diversa, un po' pi
bassa. Questi salti di diagonale sono dovuti ad alcuni segmenti di
sequenza che sono presenti in una sequenza, ma non nell'altra. In
altre parole, una sequenza possiede un gap (discontinuit, buco)
rispetto allaltra. Nel caso del nostro esempio abbiamo un gap
(delezione) nella sequenza orizzontale o, se si preferisce, un
segmento di sequenza aggiuntivo (inserzione) nella sequenza
verticale. Esempio di gap tra due sequenze
Slide 17
Informatica e Bioinformatica A. A. 2013-2014 17 Schema per
linterpretazione della Dot Matrix
Slide 18
Informatica e Bioinformatica A. A. 2013-2014 18 Con l'approccio
della dot matrix viene semplicemente mostrata una matrice, la quale
viene in seguito interpretata visivamente ed in modo soggettivo.
Abbiamo bisogno di un sistema che sia anche in grado di estrarre i
dati dalla matrice e trovare automaticamente gli allineamenti
migliori, cio di identificare il "percorso" migliore all'interno
della matrice. Occorre individuare un metodo per confrontare
sequenze che utilizzi un criterio per quantificare il grado di
similarit tra sequenze. servono dei programmi informatici capaci di
utilizzare appositi algoritmi di allineamento (metodo di
allineamento) e che sfruttino un criterio di similarit capace di
stimare la bont di un certo allineamento.
Slide 19
Informatica e Bioinformatica A. A. 2013-2014 19 Per determinare
la similarit tra due sequenze dobbiamo quindi definire: 1.
lalgoritmo di allineamento 2. il criterio di similarit RICERCA
DELLE SIMILARIT TRA 2 SEQUENZE 1. ALGORITMO DI ALLINEAMENTO Un
algoritmo caratterizzato da linsieme di tutte le operazioni da
eseguire per risolvere un problema (determinazione di tutti i
possibili allineamenti); la complessit, cio da come varia il numero
delle operazioni da effettuare al variare della dimensione del
problema: il tempo di esecuzione del programma che implementa
lalgoritmo infatti proporzionale alla complessit dellalgoritmo!
Esempio: algoritmo di scorrimento. Si fa scorrere una sequenza
sullaltra contando le identit tra le due sequenze 4 identit
Slide 20
Informatica e Bioinformatica A. A. 2013-2014 20 2. CRITERIO DI
SIMILARIT Funzione di score Lallineamento delle sequenze dovrebbe
essere caratterizzato da un punteggio (score), col quale possibile
valutare (secondo i criteri impostati) il grado di similarit. Ad
esempio, con lalgoritmo di scorrimento e una semplice funzione di
score che assegni 1 se le lettere tra le due sequenze sono uguali;
0 se le lettere sono diverse, per ogni allineamento si ricava uno
score dato dalla somma ottenuta da tutti gli appaiamenti. Il
miglior allineamento potrebbe essere quello che ha ottenuto il
maggior punteggio. Adozione di criteri differenti funzioni di score
differenti score finali differenti Questo esempio di funzione di
score potrebbe non rappresentare un criterio molto valido: non ha
senso penalizzare tutte le differenze (i mismatch) allo stesso
modo! in genere nelle proteine la sostituzione tra aminoacidi
carichi non comporta grandi cambiamenti strutturali, mentre la
sostituzione di aminoacidi aromatici con altri carichi comporta
spesso pesanti cambiamenti conformazionali. Per questo sono state
introdotte le matrici di sostituzione (vedi prossima slide).
Inoltre possono essere adottate particolari penalit (score) per
lapertura o lestensione di un gap che si sommano allo score
totale.
Slide 21
Informatica e Bioinformatica A. A. 2013-2014 21 LE MATRICI DI
SOSTITUZIONE Nel caso dellallineamento di aminoacidi opportuno
applicare dei criteri di similarit che non si limitino a verificare
lidentit assoluta, ma tengano conto del fatto che gli aminoacidi
possono essere pi o meno simili tra loro: aminoacidi molto simili
possono essere indifferentemente sostituiti in una proteina senza
una variazione apprezzabile nella struttura (e quindi funzione)
della proteina. Per esempio acido aspartico (D) e acido glutammico
(E) sono molto simili e nel corso dellevoluzione prendono
facilmente il posto luno dellaltro nelle proteine. Viceversa acido
aspartico (D) e triptofano (W) sono molto diversi e non sono
interscambiabili. E ragionevole valutare differentemente la
sostituzione di D con E e di D con W. Questa tipologia di confronti
viene descritta in matrici quadrate di 20x20 caselle in cui si
attribuisce un punteggio ad ogni possibile coppia di aminoacidi: -
pi alto il punteggio tanto pi interscambiabili sono gli aminoacidi;
- punteggi negativi penalizzano invece aminoacidi molto differenti.
Approfondiamo brevemente le matrici di sostituzione pi diffuse, le
matrici PAM e le matrici BLOSUM.
Slide 22
Informatica e Bioinformatica A. A. 2013-2014 22 Sono basate su
uno studio di filogenesi molecolare condotto su 71 famiglie di
proteine nel 1978 da Margareth Dayhoff e collaboratori. E stata
effettuata una ricostruzione dellevoluzione molecolare delle
proteine, in cui ad ogni passaggio evolutivo si presuppone una
sostituzione aminoacidica. MATRICI PAM ( point accepted mutation)
Le matrici PAM (mutazioni puntiformi accettate) elencano la
probabilit di cambiamento da un aminoacido ad un altro in sequenze
proteiche omologhe nel corso dellevoluzione. PAM1 rappresenta un
singolo passaggio evolutivo (il primo) che tiene conto della
probabilit di sostituzione di ogni aminoacido con ciascun altro e
tale da prevedere una mutazione ogni 100 aminoacidi.
Slide 23
Informatica e Bioinformatica A. A. 2013-2014 23 I passi
evolutivi successivi vengono simulati applicando nuovamente le
probabilit di sostituzione definite in PAM 1 per ricalcolare, ad
ogni nuovo passo, nuove probabilit di sostituzione. Una distanza
evolutiva di 100 PAM non corrisponde alla sostituzione del 100%
degli aminoacidi, ma a 100 passi evolutivi. Possiamo simulare
qualsivoglia distanza evolutiva e calcolarne la corrispondente PAM.
Alla fine della simulazione otteniamo dei punteggi che ci indicano
quanto pi probabile che lappaiamento tra gli aminoacidi sia dovuto
ad omologia piuttosto che al caso. Nota: il modello prevede che le
sostituzioni aminoacidiche osservate a grandi distanze evolutive
derivino esclusivamente dalla somma di tante mutazioni
indipendenti.
Slide 24
Informatica e Bioinformatica A. A. 2013-2014 24 MATRICI BLOSUM
(1992, Henikoff and Henikoff) Sono basate sulla banca dati BLOCKS,
la quale contiene una collezione di allineamenti multipli di
segmenti proteici (senza gap). I blocchi sono derivati da
osservazione diretta, cio non viene fatta nessun tipo di assunzione
di omologia. Ogni blocco di allineamenti contiene sequenze con un
numero di aminoacidi identici superiore ad una certa percentuale
(P). Ad esempio, una BLOSUM60 corrisponde ad un 60 % di identit
minima (pi alto lindice, tanto pi ci si avvicina alla matrice di
identit). Da ognuno di questi blocchi possibile (reiterando il
calcolo in modalit simili al metodo PAM) ricavare la frequenza
relativa di sostituzione degli aminoacidi e costruire delle matrici
di sostituzione.
Slide 25
Informatica e Bioinformatica A. A. 2013-2014 25 Le tabelle (o
matrici) di sostituzione dei 20 aminoacidi comprendono: 190 valori
di relazione tra aminoacidi diversi, pi 20 valori di identit, per
un totale di 210 valori. Spesso queste matrici sono riportate anche
nella loro parte speculare per un totale di altri 190 valori,
uguali ai primi. Il tutto si pu facilmente rappresentare con una
matrice di 20x20, 400 valori. Questa tabella corrisponde alla
matrice PAM240, una delle pi comunemente usate per allineare tra
loro sequenze di aminoacidi. In genere, per ogni coppia: valori
alti aa. identici; medi aa. simili; bassi aa. molto differenti (ad
esempio W & G = -7).
Slide 26
Informatica e Bioinformatica A. A. 2013-2014 26 Matrici PAM: si
basano sulla frequenza con cui ciascun aminoacido pu subire un
evento di sostituzione calcolato mediante uno studio di filogenesi
molecolare (esistono matrici PAM1, PAM10, ecc. che si differenziano
per i passi evolutivi considerati nel loro calcolo) Matrici BLOSUM:
sono invece basate su una banca dati (BLOCKS) di allineamenti
multipli di segmenti proteici senza gap. (anche in questo caso
esistono differenti matrici BLOSUM adatte per allineamenti tra
sequenze con differenti distanze filogenetica) Esistono diverse
matrici PAM e BLOSUM, che servono per confrontare sequenze simili
oppure molto divergenti. Questo perch si basano sulle frequenze di
sostituzione osservate in famiglie di proteine simili, che variano
in base alla distanza evolutiva delle stesse famiglie di proteine.
PAM80 PAM120 PAM200 PAM250: aumento distanza evolutiva. BLOSUM80
BLOSUM62 BLOSUM45: aumento distanza evolutiva. In sintesi Perch le
BLOSUM vanno allopposto?
Slide 27
Informatica e Bioinformatica A. A. 2013-2014 27 Esistono altre
matrici di sostituzione basate su differenti criteri di similarit
chimica, oppure sul numero minimo di mutazioni necessarie per
sostituire il codone di un aminoacido in un altro. Esistono matrici
di sostituzione anche per le sequenze di DNA. Queste matrici
contengono informazioni sull'occorrenza di transizioni (purina a
purina, pirimidina a pirimidina) e transversioni (purina a
pirimidina, e viceversa). I principali programmi di allineamento
tra sequenze usano le matrici PAM e BLOSUM per assegnare i punteggi
di allineamento (funzione di score).
Slide 28
Informatica e Bioinformatica A. A. 2013-2014 28 Proviamo a
confrontare due sequenze allineandole tra loro 1. Le due sequenze
sono entrambe formate da 11 A, 9 T, 13 C, 7 G: sono simili ?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
CAGCACGTGGCTTACTCACTACCAGTTCTCACAGAATGCA 2. Due sequenze di 39 basi
hanno lo stesso contenuto in basi. Se allineate, notiamo 22 basi
identiche: pi del 50%. Possiamo considerarle simili o no?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA | | | | | | | || | | | |
|| | || | | || ATTCCCCACGATCGTTTCCTAGTCCGGAAACACAACCGGA 3. Anche
queste due sequenze hanno 22 basi allineate ed identiche. Come le
consideriamo? Come nel caso precedente o in altro modo?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA | || | |||||||||||||||| |
| TAGTAGCCGACCATTTCTCGACTGCAGACCTTAATTAGTT 4a. Date le due sequenze
sovrapposte: ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA | || || | |
| | | CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG sufficiente
traslare una delle sequenze per ottenere:
ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG
Slide 29
Informatica e Bioinformatica A. A. 2013-2014 29 Consideriamo i
seguenti due differenti allineamenti delle stesse sequenze Nel
primo caso si hanno 14 identit (evidenziate dalle linee verticali)
e tre sostituzioni conservative (evidenziate dai punti) distribuite
su tutta la lunghezza della sequenza. Nel secondo caso si hanno 13
identit ed una sostituzione conservativa su una regione di 14
aminoacidi. Quale dei due allineamenti da considerarsi migliore?
ALLINEAMENTI GLOBALI E LOCALI. |
Slide 30
Informatica e Bioinformatica A. A. 2013-2014 30 Dal punto di
vista biologico generalmente vengono privilegiati gli allineamenti
locali, che riguardano regioni limitate delle proteine o di acidi
nucleici. Abbiamo gi parlato di domini delle proteine o anche degli
acidi nucleici. Se ad esempio siamo interessati a trovare tutte le
sequenze di proteine di una banca dati che contengono un certo
dominio, allora sicuramente si cercheranno similarit locali. Gli
allineamenti globali vengono applicati quando si vogliono
confrontare accuratamente due sequenze in cui la similarit sia
estesa per tutta la lunghezza. N.B. Un allineamento locale non
necessariamente limitato ad una piccola regione della sequenza, ma
potrebbe estendersi anche allintera lunghezza della sequenza.
ALLINEAMENTI GLOBALI O LOCALI?
Slide 31
Informatica e Bioinformatica A. A. 2013-2014 31 Alcuni
programmi, come BLAST, sono estremamente efficienti e sono in grado
di portare a termine una ricerca di similarit in pochi secondi.
Questi programmi si basano essenzialmente su procedure che, per
ogni sequenza del database: * effettua l'allineamento; *
attribuisce un punteggio; * se il punteggio alto lo memorizza; *
ripete fino alla fine delle sequenze; * mostra la lista dei
migliori allineamenti trovati. Ricerca di similarit di sequenza in
banche dati La ricerca di similarit di sequenze in banche dati
diventata una operazione molto importante in diversi settori della
biologia. I programmi che effettuano questa operazione si basano
sul confronto sistematico di una sequenza di partenza (la query)
con ognuna delle sequenze del database (dette subject). Database di
sequenze Sequenza query Confronti
Slide 32
Informatica e Bioinformatica A. A. 2013-2014 32 Il programma pi
usato per fare ricerche di similarit in banche dati BLAST. In
questo corso ci limiteremo a descriverne alcune applicazioni e a
capire il significato dei risultati. BLAST pu essere installato e
fatto funzionare in un PC locale (nel proprio PC) oppure
accessibile dalla rete ad esempio al sito:
http://www.ncbi.nlm.nih.gov/BLAST/ dove pu essere direttamente
utilizzato per effettuare ricerche di similarit in banche
dati.http://www.ncbi.nlm.nih.gov/BLAST/ E' inoltre disponibile un
dettagliato "Blast tutorial" dove possono essere trovate
informazioni approfondite sull'uso del programma e
sull'algoritmo."Blast tutorial" BLAST Basic Local Alignment Search
Tool
Slide 33
Informatica e Bioinformatica A. A. 2013-2014 33 AllNCBI sono
reperibili numerosi tutorial e questo vale anche per BLAST fino
alla definizione di terminologie molto tecniche e fondamentali Sono
introdotti concetti molto generali
Slide 34
Informatica e Bioinformatica A. A. 2013-2014 34 Sono state
sviluppate diverse applicazioni base del programma BLAST che
consentono di ricercare sequenze sia a livello di acidi nucleici
che di proteine: BLASTP cerca similarit in una banca dati di
sequenze di aminoacidi a partire da una sequenza query di
aminoacidi; BLASTN cerca similarit in una banca dati di sequenze
nucleotidiche a partire da una sequenza query di nucleotidi; BLASTX
cerca similarit in una banca dati di sequenze di aminoacidi a
partire da una sequenza query di nucleotidi, dopo aver tradotto
automaticamente la query in aminoacidi utilizzando tutti i
possibili frame di lettura* (cosa sono??); TBLASTN cerca similarit
in una banca dati di sequenze di nucleotidi a partire da una
sequenza query di aminoacidi, traducendo automaticamente ogni
sequenza della banca dati utilizzando tutti i possibili frame di
lettura; TBLASTX cerca similarit in una banca dati di sequenze di
nucleotidi a partire da una sequenza query di nucleotidi,
traducendo sia la query che le sequenze subject in aminoacidi, in
tutte le possibili fasi di lettura (fasi=frame).
Slide 35
Informatica e Bioinformatica A. A. 2013-2014 35 * Riguardo al
BLASTX (ma anche al TBLASTN e TBLASTX), cosa pu significare la
frase: dopo aver tradotto automaticamente la query (subject) in
amminoacidi utilizzando tutti i possibili frame di lettura? Questi
concetti sono gi stati introdotti nel corso: fateli vostri!