Informatica e Bioinformatica -...
Transcript of Informatica e Bioinformatica -...
Corso di studi in Biologia A.A. 2013-2014
Informatica e
Bioinformatica
Alessandro Vezzi, PhD Dipartimento di Biologia
III piano sud – Lab n°15
Telefono 049 827 6243
E-mail: [email protected]
Informatica e Bioinformatica – A. A. 2013-2014 1
Informatica e Bioinformatica – A. A. 2013-2014
Premessa
Questo corso, alquanto introduttivo, è uno dei primi insegnamenti in cui sentite
parlare di concetti biologici.
Si tratta di un corso breve, strutturato in:
10 ore di lezione e 4 esercitazioni pomeridiane
Scopo:
introdurre alcune nozioni basilari riguardanti i dati biologi.
mostrare alcuni strumenti e metodi per accedere all’informazione biologica
in modo razionale ed efficiente, utilizzando le risorse disponibili in rete.
Non si tratta dunque di un vero corso di bioinformatica, ma di un breve corso
introduttivo di carattere biologico/bioinformatico.
2
Informatica e Bioinformatica – A. A. 2013-2014
Requisiti
Non è inizialmente richiesto di saper “programmare”, ma:
sarà utile una minima conoscenza di Internet (in ogni caso si fa presto ad
imparare!)
è importante saper cercare le risorse ed informazioni in rete (sapete tutti cosa
sono i motori di ricerca, ad es. Google? e Wikipedia?)
i siti sono praticamente tutti in inglese!
3
Informatica e Bioinformatica – A. A. 2013-2014
Le lezioni saranno rese disponibili in formato .ppt e .pdf all’indirizzo:
http://didattica.cribi.unipd.it/bioinfo/
Supporto didattico
Date, orari e locazione delle lezioni frontali:
3 marzo ore 8:30 – 10:15 Aula C piano terra
10 marzo ore 8:30 – 10:15 Aula C piano terra
17 marzo ore 8:30 – 10:15 Aula C piano terra
20 marzo ore 8:30 – 9:15 Aula C piano terra
24 marzo ore 8:30 – 10:15 Aula C piano terra
27 marzo ore 8:30 – 9:15 Aula C piano terra
28 marzo ore 8:30 – 9:15 Aula C piano terra
(solo se necessaria)
Un possibile testo
Ma ricordate che questo è un corso
introduttivo alla bioinformatica e che
internet è una risorsa inesauribile di
dati e nozioni.
4
Informatica e Bioinformatica – A. A. 2013-2014
Date, orari e locazione delle esercitazioni Marzo: Lunedì 17 14:30-18:30 Esercitazione 1, I turno
Giovedì 20 14:30-18:30 Esercitazione 1, II turno
Lunedì 24 14:30-18:30 Esercitazione 2, I turno
Giovedì 27 14:30-18:30 Esercitazione 2, II turno
Giugno: Martedì 3 14:30-18:30 Esercitazione 3, I turno
Giovedì 5 14:30-18:30 Esercitazione 3, II turno
Lunedì 9 14:30-18:30 Esercitazione 4, I turno
Giovedì 12 14:30-18:30 Esercitazione 4, II turno
I turno: studenti da Allegra a Ielo
II turno: studenti da Klein a Zardinoni
•
Le esercitazioni saranno svolte nelle
aule ex-Taliercio al plesso Paolotti.
5
Sito web delle esercitazioni:
to be assigned
Informatica e Bioinformatica – A. A. 2013-2014
Argomenti trattati a lezione
Perché è utile la Bioinformatica?
Concetti base sui dati biologici.
Archiviazione dei dati: i database biologici
Banche dati primarie e derivate: strutture,
consultazioni semplici e ricerche complesse.
Similarità di sequenza e allineamenti.
Pattern e profili proteici.
Browser genomici.
6
Informatica e Bioinformatica – A. A. 2013-2014
Argomenti delle esercitazioni
Consultazione e ricerche nelle banche dati (articoli scientifici,
malattie genetiche, acidi nucleici, proteine, ecc.)
Utilizzo di risorse web per ricerche di particolari molecole
biologiche, ricerche di similarità.
Utilizzo dei browser genomici per il reperimento di
informazioni biologiche.
Utilizzo di python per l’analisi di file di tipo biologico
7
Informatica e Bioinformatica – A. A. 2013-2014
Train online with EMBL-EBI presente all’EBI (European Bioinformatics Institute)
http://www.ebi.ac.uk/training/online/
ecco due siti interessanti per reperire informazioni e strumenti utili per la
bioinformatica:
NCBI Educational Resources
presente all’NCBI (National Center for Biotechnology Information)
http://www.ncbi.nlm.nih.gov/education/
IMPARATE A SFRUTTARE la rete internet a vostro vantaggio, infatti:
8
Informatica e Bioinformatica – A. A. 2013-2014 9
Modalità d’esame
L'esame consiste in domande a risposta multipla che riguardano
sia quanto discusso a lezione che le tematiche affrontate nei
laboratori didattici.
Informatica e Bioinformatica – A. A. 2013-2014 10
Perché è utile la Bioinformatica?
Adattato da foto di Joanne Weston
Articolo open (consultabile gratuitamente) il cui titolo è:
“Minke whale genome and aquatic adaptation in cetaceans”
Quindi, ricapitolando:
- sequenziamento ed assemblaggio del genoma di una balena Minke (e di altri cetacei);
- analisi comparativa dei genomi di 8 specie di mammiferi;
- specifici adattamenti associabili ai cambiamenti fisiologici e morfologici necessari
per la vita nell’acqua.
Informatica e Bioinformatica – A. A. 2013-2014 11
Alcuni numeri (pochi) relativi all’articolo
Alcuni dati di sequenziamento
Informatica e Bioinformatica – A. A. 2013-2014 12
Alcuni dati di genomica comparativa
Come poter gestire e confrontare questa enorme quantità di dati?
Come poter individuare, a partire da tali dati, quali caratteristiche sono
specifiche dei cetacei?
Ma, sono poi così diversi??
Informatica e Bioinformatica – A. A. 2013-2014
Quali sono le vostre conoscenze di base sulla Biologia?
Per affrontare serenamente questo corso introduttivo alla bioinformatica,
dovreste saper rispondere ad alcune domande, tra cui:
che cosa è il DNA?
che cosa è una proteina?
che cosa è un gene?
che cosa è un genoma?
che differenza c’è tra un procariote ed un eucariote?
tra un batterio ed un virus?
avete sentito parlare dei seguenti organismi: Drosophila melanogaster,
Caenorhabditis elegans, Saccharomyces cerevisiae,…?
sapreste dare una definizione di essere vivente?
13
Informatica e Bioinformatica – A. A. 2013-2014 14
Gli esseri viventi: macchine dotate di un programma.
Questo vale sia per gli organismi a singola cellula (tipo i batteri), che per gli
organismi pluricellulari come l’uomo.
In questo senso la vita non è che il programma che "gira".
PROGRAMMA DI AUTOREPLICAZIONE
codificato negli acidi nucleici, più precisamente nel DNA.
Ma, qual è il programma degli esseri viventi?
Come in un computer dove distinguiamo il software (programmi, dati, informazione)
e l’hardware (computer, cioè la macchina che interpreta il software), anche in un
organismo biologico è distinguibile
- una componente specializzata per contenere l'informazione necessaria all'attuazione
del programma biologico (il DNA);
- una componente che è in grado di interpretare l'informazione e di tradurla in azioni
(in prima approssimazione può essere considerata la cellula).
Informatica e Bioinformatica – A. A. 2013-2014 15
Concetto fondamentale:
il programma è “conservato” all’interno del DNA (che costituisce la vera e
propria “memoria” del sistema essere vivente).
In questo nastro è registrato l’ordine lineare da assegnare agli aminoacidi,
che costituiscono le proteine (veri e propri operatori).
Il programma:
operazioni che le varie classi di proteine e di altre molecole, reclutate e
attivate nel momento e nella localizzazione opportuna (da qui l’importanza
del sistema “cellula”) eseguono in maniera coordinata.
Cosa ha contribuito all’esplosione della Bioinformatica?
Informatica e Bioinformatica – A. A. 2013-2014 16
Lo sviluppo di tecnologie strumentali sempre più sofisticate Enorme aumento nella produzione dei dati!!
La quantità di dati prodotta aumenta più
velocemente del numero di pubblicazioni scientifiche (crescita esponenziale).
(Nature, 2009, vol. 458, 719-724)
Come colmare il gap? Aumentiamo il numero di pubblicazioni scientifiche? Sarebbe impossibile arrivare
a leggere milioni di articoli diversi!
Sono necessari nuovi sistemi di immagazzinamento e di accesso all’informazione.
Informatica e Bioinformatica – A. A. 2013-2014 17
Internet
L’esplosione di Internet ha contribuito in modo determinante allo
sviluppo della Bioinformatica, ed è difficile immaginare lo sviluppo avuto
dalle bioscienze senza l’informatica ed Internet.
Gli scienziati hanno ora accesso da ogni parte del mondo e quasi sempre
gratuitamente agli archivi biologico-informatici resi disponibili in rete.
Inoltre, interfacce grafiche sempre più potenti e “user-friendly”
consentono di effettuare delle rapide interrogazioni delle banche dati in
modo molto semplice ed intuitivo.
Parallelamente a ciò, vengono resi disponibili in rete programmi
bioinformatici sempre più potenti e numerosi.
Informatica e Bioinformatica – A. A. 2013-2014 18
Quali dati hanno determinato lo sviluppo della Bioinformatica?
L’enorme quantità di dati prodotti nel campo della biologia
molecolare, specialmente nel campo del sequenziamento diretto
di interi genomi di organismi
(Uomo, Topo, Ratto, Pollo, Drosophila, Caenorhabditis, Lievito, …).
L’avanzamento di altri approcci di tipo “genomico” e
“proteomico” che producono quantità massicce di dati.
Tutto ciò ha determinato la necessità di gestire ed analizzare
grosse quantità di dati.
Informatica e Bioinformatica – A. A. 2013-2014 19
Cos’è la Bioinformatica?
Una definizione più accattivante (data da Mark Bogusky, pioniere della Bioinformatica)
Applicazione dell’informatica alla gestione e all’analisi dei dati e delle
informazioni biologiche
BIO INFORMATICA
“Una disciplina che fa da ponte tra le scienze della vita e l’informatica”
Una definizione
Importanza della Bioinformatica
Il principale obiettivo della bioinformatica è scoprire la maggior quantità possibile di
informazioni nascoste nella massa di dati e volte ad approfondire e comprendere
meglio le funzioni biologiche degli organismi viventi.
Le nuove conoscenze possono avere un profondo impatto negli studi evolutivi, nella
scienza medica, in agricoltura, biotecnologie, ecc. ecc.
Informatica e Bioinformatica – A. A. 2013-2014 20
Le due anime della Bioinformatica
GESTIONE DEI DATI DATABASE
ANALISI DEI DATI COMPUTATIONAL BIOLOGY
Nello studiare la bioinformatica sarà necessario:
Sapere cosa sono e come sono strutturati i database
Avere conoscenze biologiche
Conoscere dove sono archiviati i dati biologici
Conoscere come sono archiviati questi dati
Saper effettuare ricerche (anche complesse)
Essere in grado di utilizzare i molteplici tools pubblicamente disponibili
Informatica e Bioinformatica – A. A. 2013-2014 21
Database e Computational Biology
DATABASE
Memorizzazione accurata, organizzazione, indicizzazione e mantenimento
di informazioni biologiche
COMPUTATIONAL BIOLOGY
Alcune delle possibili analisi dei dati (la lista è infinita) :
ricerca di similarità tra sequenze (ricerca di omologia funzionale);
ricerca di geni nelle sequenze di DNA (predizione genica);
ricerca di motivi funzionali nel DNA (es. siti di binding per fattori di
trascrizione) nell’RNA (strutture secondarie) e nelle proteine (domini);
analisi dei genomi e loro comparazione;
allineamento multiplo di sequenze e analisi filogenetica;
analisi di dati strutturali 3D di proteine; predizione della struttura di
proteine;
…….
Informatica e Bioinformatica – A. A. 2013-2014 22
Quali sono i dati biologici?
Sono principalmente dati di sequenza di acidi nucleici e proteine, derivati
soprattutto dai numerosi progetti di sequenziamento sistematico.
Sequenze di acidi nucleici
Sequenze di proteine
Archivi di dati di esperimenti relativi a
microarray
RNA-seq
interazioni proteiche
Pubblicazioni di carattere biologico
Tra poco scenderemo più in dettaglio
Informatica e Bioinformatica – A. A. 2013-2014 23
La bioinformatica, in particolare, si occupa di gestire ed analizzare i dati che sono
prodotti in modo sistematico nelle numerose e più disparate discipline biologiche,
quelle a cui spesso ci si riferisce come –OMICS.
Ad esempio, la Genomica è la disciplina che si occupa di produrre, gestire ed
analizzare i dati del genoma.
INSIEME DEI DATI DISCIPLINA
GENOME GENOMICS
PROTEOME PROTEOMICS
TRASCRIPTOME TRASCRIPTOMICS
METABOLOME METABOLOMICS
BIBLIOME BIBLIOMICS
Le -OMICS
Curiosità. Un sito che elenca tutte le –omics citate in letteratura:
http://www.genomicglossaries.com/content/omes.asp
Informatica e Bioinformatica – A. A. 2013-2014 24
Proteomics
Anche in questo caso la materia è vastissima:
collezioni di sequenze di proteine di un organismo (proteoma) e loro analisi
determinazione della struttura 3D delle proteine (cristallografia e raggi X, NMR)
predizione della struttura di proteine di cui sia nota solo la sequenza
PDB: database di strutture di proteine
http://www.rcsb.org/pdb/