Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST...

14
Informatica e Bioinformatica – A. A. 2013- 2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI www.ncbi.nlm.nih.gov/BLAST Form di Nucleotide BLAST Per un uso più avanzato, si possono impostare parametri particolari (es. cost to open gap, cost to extende gap, penalty for mismatch ecc)

Transcript of Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST...

Page 1: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 1

Esempio di utilizzo del programma BLAST disponibile all’NCBI

www.ncbi.nlm.nih.gov/BLAST

Form di Nucleotide BLAST

Per un uso più avanzato, si possono impostare parametri particolari (es. cost to open gap, cost to extende gap, penalty for mismatch ecc)

Page 2: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 2

La risposta che si ottiene può essere suddivisa in 4 parti:

1. dati generali2. allineamento grafico3. listato delle sequenze con

allineamento significativo4. dettaglio degli allineamenti

ottenuti

Sequenza query

1. dati generali

2. allineamento grafico

Page 3: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Significato delle colonneMax score: punteggio dell’allineamento locale più significativo: punteggio alto elevata similaritàTotal score: la somma dei punteggi di tutti gli allineamenti locali trovati tra la sequenza query e la sequenza del databaseQuery coverage: percentuale della sequenza allineataE value: esprime la probabilità che l’allineamento trovato sia casuale. Più basso è maggiore è la probabilità che NON sia casuale. (dipende, oltre che dalla similarità, anche dalla numerosità delle sequenze in database)Max Identit: percentuale di identità dell’allineamento locale più significativoTTTCTCGACTGCAGAGAAA||||| ||| |||||||| TTTCTAGACTGCAGAGAAAIdentità =82% (16 / 19)

Informatica e Bioinformatica – A. A. 2013-2014 3

Ricordate che BLAST è un programma di allineamenti locali, quindi, per ogni confronto tra la sequenza query e una delle sequenza del database, potrebbero essere trovati più allineamenti differenti.

3. listato delle sequenze con allineamento significativo

Page 4: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 4

4. dettaglio degli allineamenti ottenuti

......continua con i dettagli degli altri allineamenti .....

Page 5: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 5

Risultato della ricerca (con la stessa sequenza nucleotidica) tramite BLASTX: ricerca di similarità in una banca dati di sequenze proteiche a partire da una sequenza query di nucleotidi, dopo aver tradotto automaticamente la query in aminoacidi utilizzando tutti i possibili frame di lettura.

Page 6: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 6

Utilizziamo BL2SEQ con due sequenze nucleotidiche

ESEMPIO di BLAST 2 SEQUENCES

Page 7: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 7

Form dell’NCBI nel quale immettere le due sequenze da confrontare

Visualizzazionedei risultati:

dati generali

Page 8: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 8

Zoom della regione digap tra le due sequenzeallineate

Page 9: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 9

BLAT Blast-like alignment toolProgramma specializzato in allineamenti di sequenze su interi genomi e sviluppato da J. Kent (Santa Cruz, CA).

Page 10: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 10

BLAT Blast-like alignment toolProviamo a fornire a BLAT la sequenza di un mRNA e a vedere dove e come si allinea sul genoma umano

Page 11: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 11

RISULTATO di BLAT

Si può visualizzare il risultato dell’allineamento selezionando il link ipertestuale browser.

E si possono visualizzare i dettagli dell’allineamento selezionando il link ipertestuale details.

Page 12: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 12

I dettagli riguardano sia la sequenza di

input (mRNA)

Page 13: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 13

Che le regioni della sequenza genomica che si allineano con l’mRNA

In minuscolo e nero la sequenza genomica che non allinea: INTRONE, oppure regione intergenica.

Gli introni di solito iniziano con GT e finiscono con AG

In maiuscolola sequenza diinput (mRNA)

Page 14: Informatica e Bioinformatica – A. A. 2013-2014 1 Esempio di utilizzo del programma BLAST disponibile all’NCBI  Form di Nucleotide.

Informatica e Bioinformatica – A. A. 2013-2014 14

BLAT mantiene in memoria un indice di un intero genoma: il database target di BLAT non è un set di sequenze GenBank, ma un indice derivato dall'assemblaggio dell'intero genoma.BLAT per gli acidi nucleici è scritto per individuare velocemente sequenze di 40 basi o più e con il 95% di similarità o più. Potrebbe non individuare allineamenti più divergenti o corti.BLAT per proteine individua sequenze proteiche con più dell'80% di similarità alla query lunga almeno 20 aa.In pratica, a causa del grado di divergenza tra sequenze nel corso dell'evoluzione:

DNA BLAT lavora bene su uomo ed i primati,BLAT per proteine trova buoni match tra le proteine conservate di

vertebrati terrestrie anche organismi più distanti filogeneticamente.

Da un punto di vista pratico, BLAT ha diversi vantaggi rispetto a BLAST:* velocità (no code, risposte in secondi) ma ha una minore specificità* diverse modalità di ordinamento dell'output* collegamento diretto nel UCSC Genome Browser* dettaglio dei blocchi di allineamento nell'ordine naturale nel genomico

BLAT viene solitamente usato per cercare la collocazione di una sequenze nel genoma o per determinare la struttura esonica di un mRNA.

BLAT contro BLAST