Informatica e Bioinformatica -...

25
Corso di studi in Biologia A.A. 2013-2014 Informatica e Bioinformatica Alessandro Vezzi, PhD Dipartimento di Biologia III piano sud Lab n°15 Telefono 049 827 6243 E-mail: [email protected] Informatica e Bioinformatica A. A. 2013-2014 1

Transcript of Informatica e Bioinformatica -...

Corso di studi in Biologia A.A. 2013-2014

Informatica e

Bioinformatica

Alessandro Vezzi, PhD Dipartimento di Biologia

III piano sud – Lab n°15

Telefono 049 827 6243

E-mail: [email protected]

Informatica e Bioinformatica – A. A. 2013-2014 1

Informatica e Bioinformatica – A. A. 2013-2014

Premessa

Questo corso, alquanto introduttivo, è uno dei primi insegnamenti in cui sentite

parlare di concetti biologici.

Si tratta di un corso breve, strutturato in:

10 ore di lezione e 4 esercitazioni pomeridiane

Scopo:

introdurre alcune nozioni basilari riguardanti i dati biologi.

mostrare alcuni strumenti e metodi per accedere all’informazione biologica

in modo razionale ed efficiente, utilizzando le risorse disponibili in rete.

Non si tratta dunque di un vero corso di bioinformatica, ma di un breve corso

introduttivo di carattere biologico/bioinformatico.

2

Informatica e Bioinformatica – A. A. 2013-2014

Requisiti

Non è inizialmente richiesto di saper “programmare”, ma:

sarà utile una minima conoscenza di Internet (in ogni caso si fa presto ad

imparare!)

è importante saper cercare le risorse ed informazioni in rete (sapete tutti cosa

sono i motori di ricerca, ad es. Google? e Wikipedia?)

i siti sono praticamente tutti in inglese!

3

Informatica e Bioinformatica – A. A. 2013-2014

Le lezioni saranno rese disponibili in formato .ppt e .pdf all’indirizzo:

http://didattica.cribi.unipd.it/bioinfo/

Supporto didattico

Date, orari e locazione delle lezioni frontali:

3 marzo ore 8:30 – 10:15 Aula C piano terra

10 marzo ore 8:30 – 10:15 Aula C piano terra

17 marzo ore 8:30 – 10:15 Aula C piano terra

20 marzo ore 8:30 – 9:15 Aula C piano terra

24 marzo ore 8:30 – 10:15 Aula C piano terra

27 marzo ore 8:30 – 9:15 Aula C piano terra

28 marzo ore 8:30 – 9:15 Aula C piano terra

(solo se necessaria)

Un possibile testo

Ma ricordate che questo è un corso

introduttivo alla bioinformatica e che

internet è una risorsa inesauribile di

dati e nozioni.

4

Informatica e Bioinformatica – A. A. 2013-2014

Date, orari e locazione delle esercitazioni Marzo: Lunedì 17 14:30-18:30 Esercitazione 1, I turno

Giovedì 20 14:30-18:30 Esercitazione 1, II turno

Lunedì 24 14:30-18:30 Esercitazione 2, I turno

Giovedì 27 14:30-18:30 Esercitazione 2, II turno

Giugno: Martedì 3 14:30-18:30 Esercitazione 3, I turno

Giovedì 5 14:30-18:30 Esercitazione 3, II turno

Lunedì 9 14:30-18:30 Esercitazione 4, I turno

Giovedì 12 14:30-18:30 Esercitazione 4, II turno

I turno: studenti da Allegra a Ielo

II turno: studenti da Klein a Zardinoni

Le esercitazioni saranno svolte nelle

aule ex-Taliercio al plesso Paolotti.

5

Sito web delle esercitazioni:

to be assigned

Informatica e Bioinformatica – A. A. 2013-2014

Argomenti trattati a lezione

Perché è utile la Bioinformatica?

Concetti base sui dati biologici.

Archiviazione dei dati: i database biologici

Banche dati primarie e derivate: strutture,

consultazioni semplici e ricerche complesse.

Similarità di sequenza e allineamenti.

Pattern e profili proteici.

Browser genomici.

6

Informatica e Bioinformatica – A. A. 2013-2014

Argomenti delle esercitazioni

Consultazione e ricerche nelle banche dati (articoli scientifici,

malattie genetiche, acidi nucleici, proteine, ecc.)

Utilizzo di risorse web per ricerche di particolari molecole

biologiche, ricerche di similarità.

Utilizzo dei browser genomici per il reperimento di

informazioni biologiche.

Utilizzo di python per l’analisi di file di tipo biologico

7

Informatica e Bioinformatica – A. A. 2013-2014

Train online with EMBL-EBI presente all’EBI (European Bioinformatics Institute)

http://www.ebi.ac.uk/training/online/

ecco due siti interessanti per reperire informazioni e strumenti utili per la

bioinformatica:

NCBI Educational Resources

presente all’NCBI (National Center for Biotechnology Information)

http://www.ncbi.nlm.nih.gov/education/

IMPARATE A SFRUTTARE la rete internet a vostro vantaggio, infatti:

8

Informatica e Bioinformatica – A. A. 2013-2014 9

Modalità d’esame

L'esame consiste in domande a risposta multipla che riguardano

sia quanto discusso a lezione che le tematiche affrontate nei

laboratori didattici.

Informatica e Bioinformatica – A. A. 2013-2014 10

Perché è utile la Bioinformatica?

Adattato da foto di Joanne Weston

Articolo open (consultabile gratuitamente) il cui titolo è:

“Minke whale genome and aquatic adaptation in cetaceans”

Quindi, ricapitolando:

- sequenziamento ed assemblaggio del genoma di una balena Minke (e di altri cetacei);

- analisi comparativa dei genomi di 8 specie di mammiferi;

- specifici adattamenti associabili ai cambiamenti fisiologici e morfologici necessari

per la vita nell’acqua.

Informatica e Bioinformatica – A. A. 2013-2014 11

Alcuni numeri (pochi) relativi all’articolo

Alcuni dati di sequenziamento

Informatica e Bioinformatica – A. A. 2013-2014 12

Alcuni dati di genomica comparativa

Come poter gestire e confrontare questa enorme quantità di dati?

Come poter individuare, a partire da tali dati, quali caratteristiche sono

specifiche dei cetacei?

Ma, sono poi così diversi??

Informatica e Bioinformatica – A. A. 2013-2014

Quali sono le vostre conoscenze di base sulla Biologia?

Per affrontare serenamente questo corso introduttivo alla bioinformatica,

dovreste saper rispondere ad alcune domande, tra cui:

che cosa è il DNA?

che cosa è una proteina?

che cosa è un gene?

che cosa è un genoma?

che differenza c’è tra un procariote ed un eucariote?

tra un batterio ed un virus?

avete sentito parlare dei seguenti organismi: Drosophila melanogaster,

Caenorhabditis elegans, Saccharomyces cerevisiae,…?

sapreste dare una definizione di essere vivente?

13

Informatica e Bioinformatica – A. A. 2013-2014 14

Gli esseri viventi: macchine dotate di un programma.

Questo vale sia per gli organismi a singola cellula (tipo i batteri), che per gli

organismi pluricellulari come l’uomo.

In questo senso la vita non è che il programma che "gira".

PROGRAMMA DI AUTOREPLICAZIONE

codificato negli acidi nucleici, più precisamente nel DNA.

Ma, qual è il programma degli esseri viventi?

Come in un computer dove distinguiamo il software (programmi, dati, informazione)

e l’hardware (computer, cioè la macchina che interpreta il software), anche in un

organismo biologico è distinguibile

- una componente specializzata per contenere l'informazione necessaria all'attuazione

del programma biologico (il DNA);

- una componente che è in grado di interpretare l'informazione e di tradurla in azioni

(in prima approssimazione può essere considerata la cellula).

Informatica e Bioinformatica – A. A. 2013-2014 15

Concetto fondamentale:

il programma è “conservato” all’interno del DNA (che costituisce la vera e

propria “memoria” del sistema essere vivente).

In questo nastro è registrato l’ordine lineare da assegnare agli aminoacidi,

che costituiscono le proteine (veri e propri operatori).

Il programma:

operazioni che le varie classi di proteine e di altre molecole, reclutate e

attivate nel momento e nella localizzazione opportuna (da qui l’importanza

del sistema “cellula”) eseguono in maniera coordinata.

Cosa ha contribuito all’esplosione della Bioinformatica?

Informatica e Bioinformatica – A. A. 2013-2014 16

Lo sviluppo di tecnologie strumentali sempre più sofisticate Enorme aumento nella produzione dei dati!!

La quantità di dati prodotta aumenta più

velocemente del numero di pubblicazioni scientifiche (crescita esponenziale).

(Nature, 2009, vol. 458, 719-724)

Come colmare il gap? Aumentiamo il numero di pubblicazioni scientifiche? Sarebbe impossibile arrivare

a leggere milioni di articoli diversi!

Sono necessari nuovi sistemi di immagazzinamento e di accesso all’informazione.

Informatica e Bioinformatica – A. A. 2013-2014 17

Internet

L’esplosione di Internet ha contribuito in modo determinante allo

sviluppo della Bioinformatica, ed è difficile immaginare lo sviluppo avuto

dalle bioscienze senza l’informatica ed Internet.

Gli scienziati hanno ora accesso da ogni parte del mondo e quasi sempre

gratuitamente agli archivi biologico-informatici resi disponibili in rete.

Inoltre, interfacce grafiche sempre più potenti e “user-friendly”

consentono di effettuare delle rapide interrogazioni delle banche dati in

modo molto semplice ed intuitivo.

Parallelamente a ciò, vengono resi disponibili in rete programmi

bioinformatici sempre più potenti e numerosi.

Informatica e Bioinformatica – A. A. 2013-2014 18

Quali dati hanno determinato lo sviluppo della Bioinformatica?

L’enorme quantità di dati prodotti nel campo della biologia

molecolare, specialmente nel campo del sequenziamento diretto

di interi genomi di organismi

(Uomo, Topo, Ratto, Pollo, Drosophila, Caenorhabditis, Lievito, …).

L’avanzamento di altri approcci di tipo “genomico” e

“proteomico” che producono quantità massicce di dati.

Tutto ciò ha determinato la necessità di gestire ed analizzare

grosse quantità di dati.

Informatica e Bioinformatica – A. A. 2013-2014 19

Cos’è la Bioinformatica?

Una definizione più accattivante (data da Mark Bogusky, pioniere della Bioinformatica)

Applicazione dell’informatica alla gestione e all’analisi dei dati e delle

informazioni biologiche

BIO INFORMATICA

“Una disciplina che fa da ponte tra le scienze della vita e l’informatica”

Una definizione

Importanza della Bioinformatica

Il principale obiettivo della bioinformatica è scoprire la maggior quantità possibile di

informazioni nascoste nella massa di dati e volte ad approfondire e comprendere

meglio le funzioni biologiche degli organismi viventi.

Le nuove conoscenze possono avere un profondo impatto negli studi evolutivi, nella

scienza medica, in agricoltura, biotecnologie, ecc. ecc.

Informatica e Bioinformatica – A. A. 2013-2014 20

Le due anime della Bioinformatica

GESTIONE DEI DATI DATABASE

ANALISI DEI DATI COMPUTATIONAL BIOLOGY

Nello studiare la bioinformatica sarà necessario:

Sapere cosa sono e come sono strutturati i database

Avere conoscenze biologiche

Conoscere dove sono archiviati i dati biologici

Conoscere come sono archiviati questi dati

Saper effettuare ricerche (anche complesse)

Essere in grado di utilizzare i molteplici tools pubblicamente disponibili

Informatica e Bioinformatica – A. A. 2013-2014 21

Database e Computational Biology

DATABASE

Memorizzazione accurata, organizzazione, indicizzazione e mantenimento

di informazioni biologiche

COMPUTATIONAL BIOLOGY

Alcune delle possibili analisi dei dati (la lista è infinita) :

ricerca di similarità tra sequenze (ricerca di omologia funzionale);

ricerca di geni nelle sequenze di DNA (predizione genica);

ricerca di motivi funzionali nel DNA (es. siti di binding per fattori di

trascrizione) nell’RNA (strutture secondarie) e nelle proteine (domini);

analisi dei genomi e loro comparazione;

allineamento multiplo di sequenze e analisi filogenetica;

analisi di dati strutturali 3D di proteine; predizione della struttura di

proteine;

…….

Informatica e Bioinformatica – A. A. 2013-2014 22

Quali sono i dati biologici?

Sono principalmente dati di sequenza di acidi nucleici e proteine, derivati

soprattutto dai numerosi progetti di sequenziamento sistematico.

Sequenze di acidi nucleici

Sequenze di proteine

Archivi di dati di esperimenti relativi a

microarray

RNA-seq

interazioni proteiche

Pubblicazioni di carattere biologico

Tra poco scenderemo più in dettaglio

Informatica e Bioinformatica – A. A. 2013-2014 23

La bioinformatica, in particolare, si occupa di gestire ed analizzare i dati che sono

prodotti in modo sistematico nelle numerose e più disparate discipline biologiche,

quelle a cui spesso ci si riferisce come –OMICS.

Ad esempio, la Genomica è la disciplina che si occupa di produrre, gestire ed

analizzare i dati del genoma.

INSIEME DEI DATI DISCIPLINA

GENOME GENOMICS

PROTEOME PROTEOMICS

TRASCRIPTOME TRASCRIPTOMICS

METABOLOME METABOLOMICS

BIBLIOME BIBLIOMICS

Le -OMICS

Curiosità. Un sito che elenca tutte le –omics citate in letteratura:

http://www.genomicglossaries.com/content/omes.asp

Informatica e Bioinformatica – A. A. 2013-2014 24

Proteomics

Anche in questo caso la materia è vastissima:

collezioni di sequenze di proteine di un organismo (proteoma) e loro analisi

determinazione della struttura 3D delle proteine (cristallografia e raggi X, NMR)

predizione della struttura di proteine di cui sia nota solo la sequenza

PDB: database di strutture di proteine

http://www.rcsb.org/pdb/

Informatica e Bioinformatica – A. A. 2013-2014 25

Proteomics

Separazione di proteine in base alle caratteristiche chimico-fisiche (massa, pH)

http://bioinformatics.org/lecb2dgeldb/

Interazioni proteina - proteina, proteina – acidi nucleici, proteina - metaboliti