Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

23
BIOINFO3 - Lezione 1 1 Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007) Docente: Dr. Nicola Vitulo Dipartimento di Biologia, CRIBI Tel. 0498276165 Email: [email protected]

description

Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007) Docente: Dr. Nicola Vitulo Dipartimento di Biologia, CRIBI Tel. 0498276165 Email: [email protected]. Calendario Esercitazioni: 1 Marzo 14:00 -18:00 MySql 7 Marzo 14:00 -18:00 HTML - PowerPoint PPT Presentation

Transcript of Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

Page 1: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 11

Universita` di PadovaLaurea Biologia Molecolare

Corso di Bioinformatica III

(A.A. 2006-2007)

Docente:

Dr. Nicola Vitulo

Dipartimento di Biologia, CRIBI

Tel. 0498276165

Email: [email protected]

Page 2: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 22

Calendario Esercitazioni:

1 Marzo 14:00 -18:00 MySql7 Marzo 14:00 -18:00 HTML20 Marzo 14:00 -18:00 PERL 23 Marzo 14:00 -18:00 MySql / PERL30 Marzo 14:00 -18:00 CGI-BIN

Competenze informatiche necessarie per il corso: nessuna

Tipologia d`esame:scritto(2h)

Libri di testo: appunti di lezione (grup.cribi.unipd.it/~nicolav/bioinfoIII_padova/)

Page 3: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 33

LA BIOINFORMATICALA BIOINFORMATICA

COS’È LA BIOINFORMATICA?

Esistono diverse definizioni.....

BIOINFORMATICA=

APPLICAZIONE DELL’INFORMATICA

ALLA GESTIONE E

ALL’ANALISI DEI DATI BIOLOGICI

Page 4: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 44

DATI BIOLOGICIDATI BIOLOGICI

Principalmente i dati di sequenza di acidi nucleici e proteine, prodotti in modo sempre più massiccio dai progetti di sequenziamento sistematico (tecnologie sempre piu` sofisticate). Negli ultimi anni vi è stata poi un’invasione di dati relativi ad esperimenti di microarray

Quali sono i dati biologici?

Page 5: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 55

2007

Page 6: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 66

La bioinformatica e` una branca della biologia in rapida evoluzione, e altamente interdisciplinare in quanto usa tecniche e concetti che derivano dall`informatica, statistica, matematica, chimica , biochimica, fisica.

National Center for Biointecnology Information (NCBI) definisce la bioinformatica:la bioinformatica e` la scienza nella quale biologia, informatica e tecnologia dell`informazione si uniscono in un`unica disciplina. Esistono tre importanti sottodiscipline all`interno dell`informatica:

Page 7: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 77

1. Sviluppo di nuovi algoritmi e statistiche con i quali valutare le relazioni tra i membri di un ampio data set.

2. Analisi ed interpretazione di vari tipi di dati che includono sequenze aminoacidiche e nucleotidiche, domini proteici, e strutture proteiche.

3. Sviluppo ed implementazione di tool, strumenti, che permettato un efficiente accesso e gestione dei differenti tipi di informazione.

Page 8: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 88

National Institute of Health (NIH)

Bioinformatica: ricerca, sviluppo o applicazione di strumenti computazionali e di approcci che permettano di espandere e migliorare l`uso di dati biologici inclusi quegli strumenti per l`acquisizione, l`organizzazione, l`archiviazione, l`analisi e la visualizzazione di tali dati.

Biologia Computazionale: sviluppo e applicazione di metodi analitici e teoretici, modelli matematici e tecniche di simulazione per lo studio di sistemi biologici.

Page 9: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 99

QuickTime™ e undecompressore TIFF (Non compresso)

sono necessari per visualizzare quest'immagine.

QuickTime™ e undecompressore TIFF (Non compresso)

sono necessari per visualizzare quest'immagine.

Page 10: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1010

Applicazioni della bioinformatica

Computational biologyGenomics: la genomica rappresenta l`analisi o la comparazione dell`intero genoma di una o piu` specie.Proteomics: la proteomica consiste nello studio delle proteine - localizzazione, struttura e funzione. Identificazione, caratterizzazione e quantificazione di tutte le proteine coinvolte un un particolare metabolismo, di un organello, cellula, tessuto, organo o organismo.Pharmacogenomics: applicazione degli approcci genomici e tecnologie mirate all`indentificazione dei target delle droghe. Studia in che modo i geni influenzano la risposta ad una droga, sia a livello di popolazione che a livello molecolare

Page 11: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1111

Pharmacogenetics: studia in che modo variano le azioni e le reazioni alle droghe. Gli individui rispondono in modo differente al trattamento alle droghe; la maggior parte di questa variabilita` ha basi genetiche.Chemical informatics: memorizzazione, recupero, analisi di informazioni chimiche.Chemometrics: applicazione della statistica all`analisi dei dati chimici.Structural bioinformatics: analisi delle strutture delle macromolecole.Comparative genomics: comparazione del genoma di due o piu`differenti orgnismi.Functional genomics: integrando dati provenienti da sequenziameto di genomi, microarray, proteomica, descrive il funzionamento e l`interazione dei geni.

Page 12: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1212

DIMENSIONE “OMICS”

I dati biologici hanno guadagnato da tempo il suffisso “-OME” (Genome, Proteome, Trascriptome, Metabolome, Bibliome, Interactome….) e le discipline che li gestiscono e analizzano sono diventate “-OMICS” (Genomics, Proteomics… analisi su larga scala)

A chi fosse interessato segnalo il sito

http://www.genomicglossaries.com/content/omes.asp

che elenca le

–ome e gli –omics

esistenti

Page 13: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1313

Un po` di storia..

Il primo database di dati biologici fu costruito pochi anni dopo che le prime sequenze proteiche cominciarono a diventare disponibili. La prima sequenza proteica ottenuta , di 51 residui, fu l`insulina bovina nel 1956. Circa 10 anni piu` tardi si ottenne la prima sequenza di acidi nucleici, l` alanine rRNA di lievito.

Alla fine degli anni `70, Margareth Dayhoff raccolse tutte le sequenze disponibili per creare il primo database biologico (NBRF, National Biomedical Research Foundation).

Agli inizi degli anni `80 in Europa l`EMBL promuoveva la creazione dell`

EMBL-database, banca dati di sequenze di DNA e RNA.La prima release fu rilasciata nel 1981 e conteneva 519 entries

Page 14: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1414

Parallelamente negli Stati Uniti veniva prodotto un archivio simile: banca dati da cui si e` originato GenBank, la cui prima release fu resa pubblica nel 1982.

Nel 1986 venne realizzata la banca dati giapponese DDBJ.

Accordo tra GeneBank, EMBL e DDBJ per lo scambio giornaliero di dati.

Seconda meta` degli anni 80 realizzazione delle prime banche dati specializzate come PROSITE -> innesco per la realizzazione di banche dati sempre piu` specializzate.

Sistemi di retrieval: SRS (EBI) e ENTREZ (NCBI).

Page 15: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1515

Metodologie bio-computazionali associate alle procedure di confronto di biosequenze per la ricerca di regioni di similarita`.

Nel 1970 Needlaman e Wunsch pubblicano l`algoritmo per la ricerca del miglior allineamento globale tra due sequenze.

Nel 1971 Gibbs e McIntyre pubblicano un metodo basato sulla matrice basato dot-plot che permetteva la visualizzazione regioni di similarita` piu` o meno stringente , utilizzato poi in numerosi algoritmi di analisi comparative.

Nel 1981 Smith e Watermann pubblicano l`algoritmo per il miglior allineameno locale tra due sequenze.

Nel 1983 Wilbur e Lipmann pubblicano un algoritmo per la ricerca di similarita` in banca dati e nel 1985 viene pubblicato FASTA, seguito poi nel 1990 da BLAST (Altshul)

Page 16: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1616

In parallelo furono sviluppati numerosi metodi per la ricerca di motivi, per la caratterizzazione di sequenze genomiche di regioni codificanti proteine. Per quello che riguarda gli studi di evoluzione molecolare fondamentale e` stata nel 1965 la pubblicazione da parte di Zuckerkandl e Pauling dell`ipotesi dell` “orologio molecolare” (relazione di proporzionalita` diretta tra tempo di divergenza e numero di sostituzioni tra proteine omologhe).

1966 Dayhoff metodo della Massima Parsimonia per l`analisi delle proteine , esteso nel 1977 da Fitch all`analisi delle sequenze nucleotidiche.

Metodo di Zucker per la predizione di strutture di RNA e il metodo di Fasman per strutture secondarie proteiche.

Page 17: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1717

Esigenza di avere i programmi che implementatano i vari algoritmi in per l`analisi dei dati organizzati in un a logica omogenea e interfacciati con i database di dati biologici:

GCG (Genetic Computer Group, Oxford) EMBOSS: prodotto dalla comunita` EMBnet, scaricabile gratuitamente dalla rete (http://www.embnet.org, http://emboss.sourceforge.net/download/)Phylip: pacchetto per analisi di evoluzione molecolare.

1987 : Perl (Practical Extraction Report Language) is released by Larry Wall.

1991: Linus Torvalds announces a Unix-Like operating system which later becomes Linux.

1995: The Haemophilus influenzea genome (1.8 Mb) is sequenced.The Mycoplasma genitalium genome is sequenced.

Page 18: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1818

1996:The genome for Saccharomyces cerevisiae (baker's yeast, 12.1 Mb) is sequenced.The Prosite database is reported by Bairoch, et.al.Affymetrix produces the first commercial DNA chips.

1997:The genome for E. coli (4.7 Mbp) is published.

1998: The genomes for Caenorhabditis elegans and baker's yeast are published.The Swiss Institute of Bioinformatics is established as a non-profit foundation.Craig Venter forms Celera in Rockville, Maryland.

2000:The genome for Pseudomonas aeruginosa (6.3 Mbp) is published.The A. thaliana genome (100 Mb) is secquenced.The D. melanogaster genome (180Mb) is secquenced.

2001: The human genome (3,000 Mbp) is published.....

Page 19: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 1919

LA BIOINFORMATICA OGGI

Si tratta di una disciplina in rapida evoluzione: i libri di testo non sono in grado di tenere il passo con le novità e con i moltissimi database e programmi pubblicati di continuo. Per rimanere aggiornati l’unica possibilità è la rete.

Esistono siti specializzati su particolari argomenti (es. Individuazione dei geni, text mining, systems biology..) che cercano (a fatica) di tenere un indice delle pubblicazioni, dei database e dei programmi dedicati a quel particolare ambito ristretto.

Fondamentali sono i siti delle riviste scientifiche che accolgono (dopo un lungo e profondo processo di “peer reviewing”) le pubblicazioni.

Page 20: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 2020

I DUE ASPETTI DELLA BIOINFORMATICAI DUE ASPETTI DELLA BIOINFORMATICA

GESTIONE DEI DATI → DATABASE

ANALISI DEI DATI → COMPUTATIONAL BIOLOGY

Page 21: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 2121

DATABASE E COMPUTATIONAL BIOLOGY

DATABASE

Memorizzazione accurata, organizzazione, indicizzazione e mantenimento di informazioni biologiche

COMPUTATIONAL BIOLOGYQui la lista è lunghissima e sempre in evoluzione. Vi cito solo alcune delle possibili analisi dei dati di cui si occupa la computational biology:•ricerca di similarità tra sequenze (ricerca di omologia funzionale) (dovrebbe essere chiara la differenza tra similarità ed omologia)•ricerca di geni nelle sequenze di DNA•ricerca di motivi funzionali nel DNA (es. siti di binding per fattori di trascrizione) e nelle proteine (domini)•analisi dei genomi•allineamento multiplo di sequenze e analisi filogenetica•analisi di dati strutturali 3D DI PROTEINE•analisi dei risultati di esperimenti con microarray

Page 22: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 2222

GLI STRUMENTI CHE VEDREMO NEL CORSOGLI STRUMENTI CHE VEDREMO NEL CORSO

GESTIONE DATI

ANALISI DATI

MySQL HTMLPerl

MySQL: linguaggio per definizione e gestione database

HTML: linguaggio per la definizione di pagine web (accesso ai database e ai programmi attraverso Internet)

Perl: linguaggio di programmazione

Page 23: Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007)

BIOINFO3 - Lezione 1 2323

Mysql : http://dev.mysql.com/downloads/mysql/5.0.html

Perl: http://www.activestate.com/Products/ActivePerl/