Bioinformatica e Banche Dati...

Post on 06-Jun-2018

223 views 0 download

Transcript of Bioinformatica e Banche Dati...

Bioinformatica e Banche Dati Biologiche

Alberto Ferrarini

1

Il corso – Orari

Teoria

Giovedì dalle 15:30 alle 17:30 – Aula D

Laboratorio

Giovedì dalle 11:30 alle 14:30 – Laboratorio Alfa

2

Modalità esame

• Viene effettuato un unico esame comprendente domande di teoria e di laboratorio. Viene prodotto un unico voto complessivo.

• Per gli studenti del CdL di Biotecnologie, la verbalizzazione del voto del corso “Bioinformatica e Banche dati biologiche” verrà effettuata dal docente di Bioinformatica e banche dati biologiche (6 crediti).

• Per gli studenti del CdL di Bioinformatica, il voto complessivo del modulo “Biochimica - LABORATORIO DI BIOINFORMATICA I” farà poi media col modulo “Elementi di Biochimica” della Prof.ssa Paola Dominici che verbalizzerà il voto complessivo (12 crediti).

3

Il corso - programma

• Introduzione – Concetti di base – L’informazione biologica – Perche’ la bioinformatica

• Banche dati biologiche – Acquisizione di dati scientifici – Interrogazione di banche dati in rete – Banche dati di sequenze e strutture di acidi nucleici e proteine – Classificazioni delle strutture proteiche: SCOP, CATH.

• Allineamento di sequenze – Matrici a punti e algoritmi di allineamento – Matrici di punteggio (PAM e Blosum) ‏‏– Algorimi dinamici di allineamento: NW, SW – Ricerca in banche dati con singola sequenza: BLAST

4

Il corso - programma

• Allineamento multiplo di sequenze – Alberi filogenetici – Ricerche in banche dati con allineamenti multipli,

CLUSTALW

• Introduzione alla Bioinformatica Strutturale – Visualizzazione di strutture di proteine, acidi nucleici e

complessi; riconoscimento di motivi strutturali – Predizione di strutture secondarie dalle sequenza

• Introduzione alla genomica – Concetti di base (dogma centrale, trascrizione, ecc) – Banche dati di dati genetici – Genome Browser (Ensembl, UCSC, NCBI e IGV)

5

Materiale del corso (teoria)

• Il materiale del corso verrà caricato in formato PDF sulla pagina web:

• http://ddlab.sci.univr.it/alberto/bioinformatica/

6

Cos’è la bioinformatica

• La bioinformatica è una disciplina scientifica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informatici.

• Descrive fenomeni biologici in modo numerico/statistico

• La bioinformatica principalmente – fornisce modelli per l'interpretazione di dati provenienti da

esperimenti di biologia al fine di identificare tendenze e leggi numeriche

– genera nuovi strumenti matematici per l'analisi di dati biologici (sequenze di DNA, RNA e proteine, ….).

– organizza le conoscenze acquisite in basi di dati al fine di rendere tali dati accessibili

8

Cos’è la bioinformatica

• Condivide alcuni argomenti con:

– Biologia computazionale:

• Integra l’approccio di laboratorio con risultati sperimentali in silico, ottenuti quindi per mezzo di metodi informatici a partire da dati biologici.

– Genomica computazionale: • disciplina della biologia computazionale

dedicata allo studio del genoma tramite metodologie bioinformatiche e statistiche.

9

Il flusso dell’informazione biologica

• Ad ogni livello di organizzazione (da interazioni fra biomolecole fino a cellule, organismi, popolazioni) l’elemento unificante e’ l’EVOLUZIONE, unico vero fondamento teorico della disciplina

10

Evoluzione

• EVOLUZIONE: adattamento progressivo attraverso variabilita’ genetica casuale e selezione naturale (Darwin, 1859)

• Ad ogni livello biologico, il fenotipo (insieme di tratti e caratteri somatici) e’ codificato dal genotipo (il patrimonio genetico)

• Genotipo: sorgente primaria di variazione genetica; fenotipo: bersaglio della selezione naturale

• Il genotipo e’ conservato nel genoma (fatto di DNA, eccezion fatta per virus a RNA)

11

The central dogma of molecular biology

DNA

RNA

PROTEIN

Replication

Transcription

Translation

Genes are transcribed from DNA into mRNA, which leaves the nucleus

and is translated to protein. A gene actively transcribed is said to be

expressed. 12

13

http://www.molecularstation.com/molecular-biology-images/502-dna-pictures/5-the-chemical-structure-of-dna.html

sono poliesteri composti da nucleotidi (composti da una base azotata, uno

zucchero 2’-deossi-ribosio (o ribosio in RNA) e un gruppo fosforico)

Struttura degli acidi nucleici

DNA base pairing

The monomeric units of nucleic acids are called nucleotides. A nucleotide is a

phospate, a sugar, and a purine or a pyramidine base.

Guanine - Citosine Adenine - Timine

14

DNA replication

New strands of DNA are copied from parental DNA

creating a complementary template DNA.

In the replication of double-stranded or duplex DNA

molecule, both parental DNA strands are copied.

The transcription direction on different strands is

opposite. asimmetric transcription.

When copying is finished, the two new duplexes,

each

consisting of one of the original strands plus its copy,

separate from each other.

15

DNA replication

Synthesis by DNA polymerases proceeds

from 5’ to 3’.

Replication is performed by a

“collaboration” of many proteins like

helicases, primases, ligases,

topoisomerases and DNA polimerases.

16

La struttura dei geni

Un gene si trova in una precisa porzione fisica del genoma (locus genico) In un gene le Open Reading Frames (parti di DNA/RNA codificanti) si trovano comprese fra il codone d'inizio e il codone di stop. Il genoma eucariotico contiene porzioni non codificanti importanti per la regolazione (promotori, enhancers) e per la costituzione (introni, sequenze ripetute).Lo splicing (“saldatura”) prepara il pre-mRNA per la traduzione

17

• L’RNA e’ meno stabile ma piu’ versatile del DNA; e’ scarsamente reattivo (meglio

per conservare l’informazione) e assume strutture 3D anche molto complesse

• ne esistono diverse forme: mRNA, tRNA, rRNA e piccoli RNA; cio’ e’

fondamentale per la trasmissione dell’informazione genetica

http://www.accessexcellence.org/RC/VL/GG/protein_synthesis.php

•Il codice genetico e’ degenere

(eccezioni: codoni di Met e Trp)

L’RNA

18

RNA transcription

• 1 prokariotic RNA polymerase

• 3 different RNA polymerases in eukariotes:

– RNA polymerase I: transcribes large ribosomal RNA precursor gene

– RNA polymerase II: protein coding genes

– RNA polymerase III: tRNA genes, some snRNAs, ribosomal RNAs (5S)

19

RNA trancription

• 3 steps in RNA transcription:

– Initiation:

• DNA-dependent RNA polymerase requires a promoter and upstream regulatory regions.

20

RNA polymerase associate to trancription factors

(TFIIA – TFIIH)

TBP TAF

TATADNA

TF II

ATF II

B

TF II E

TF II H

RNA pol II

•TFIIH phosphorilates the RNA pol which moves

downstream, starting the elongation phase.

•RNA polymerase initiate the transcription from the start site

in the template DNA upstream of the coding sequence. 21

Elongation

22

Termination

• The termination sequence is AATAAA followed by GT repeat

23

Regulation of trancription

• Expression is regulated through multiple transcriptional control regions

• Regulatory elements may be located at kilobases from start sites.

• Repressors bind to operators overlapping the promoter regions

• Activators bind on the opposite strand of the polymerase

• Enhancers may be up to kilobases upstream or downstream the start codon and can be inside an intron.

24

Modification of heteronuclear RNA

• Capping at 5’-end

• Tailing at 3’-end

• mRNA splicing

• RNA editing

25

5’-end capping

7-methylguanosine

Triphosphate bridge

•The 5’ cap is recognized by cap binding protein prior to translation.

•Performed prior to splicing.

•The 5’-capping process takes place in the nucleus.

26

Poly-A tailing

• The tailing process occurs prior to splicing

• The tailing process takes place in the nucleus

• A oligo consisting of all adenine nucleotides (a poly-A tail) is added to the 3’ end of the mRNA after transcript

27

mRNA splicing

Exon 1 Exon 2 Exon 3 Exon 4

Intron 1 Intron 2 Intron 3

Exon 1 Exon 2 Exon 3 Exon 4

Exon 1 Exon 2 Exon 3 Exon 4

DNA

Primary transcripts

Mature mRNA

UTR 5’ UTR 3’

Untranslated regions are present at both the 5’ and the 3’ end of the mRNA

CDS

28

Splicing mechanism

29

Alternative splicing

Exon 1 Exon 2 Exon 3 Exon 4

Exon 1 Exon 2 Exon 3 Exon 4 Exon 1 Exon 2 Exon 4

Multiple spliced transcripts

encoding different proteins

can be produced from the

same primary transcript

30

RNA editing

• Takes place at transcription level.

• One genes can produce more than one protein

• Editing by deamination:

– C to U editing

– A to I editing

• Can also cause cleavage by nucleases

31

http://carolguze.com/text/442-1-humangenome.shtml

Regioni ripetute del genoma

32

Le mutazioni puntiformi (singola base sostituita da un’altra) sono comuni (errori

occasionali nella duplicazione, fattori ambientali come radiazione UV o sostanze

chimiche). Alcune importanti tipologie (non tutte):

• mutazioni silenti o sinonime (conservative): l’a.a. codificato non e’ modificata (es.

CUU, CUC -> Leu)

• mutazioni missenso: l’a.a. codificato cambia. Puo’ essere neutra (es. SNP,

polimorfismi a singolo nucleotide) o no: la natura dell’ a.a. e’ molto diversa. Possibili

conseguenze sulla fitness per destabilizzazione della struttura proteica. Puo’ anche

essere neutrale e fissarsi nelle generazioni successive

• mutazioni nonsenso: la mutazione introduce un codone di stop UGC –>UGA

(stop!!)

• inserzioni/delezioni (indel): errori in fase di duplicazione; a multipli di 3

(inserzione o delezione di una tripletta) non alterano la fase di lettura di una ORF

Mutazioni

33

Esempio: anemia falciforme

Glu 6 Val

L’emoglobina diventa meno solubile; precipita; cio’ si ripercuote sul fenotipo

cellulare

34

Translation

ATG GGA CAT

CCT GTA

TAC

Growing protein

Translation takes place in the cytoplasm.

Triplets of nucleic acids (codons) code for different aminoacids. Translation

starts from start codon (AUG) and stops at stop codons. Ribosomes translate

the mRNA into proteins.

tRNA

35

Le proteine • Sono il risultato del flusso dell’informazione genetica

• La presenza di 20 amminoacidi naturali con proprieta’ chimico-fisiche diverse conferisce una variabilità enorme

36

Il codice a una e tre lettere degli amminoacidi VA SAPUTO A MEMORIA !

http://en.wikipedia.org/wiki/File:Amino_Acids.svg

Il legame peptidico crea il backbone di qualunque proteina

37

La proteina è come un filamento di luci

di natale: il backbone è il filo elettrico e

le luci colorate le varie catene laterali

La struttura di una proteina si organizza in 4 livelli, visibili “srotolando” la

matassa della luce di natale:

38

La struttura 3D di una proteina e’ molto complessa

La determinazione della

struttura 3D di proteine e’ un

settore di ricerca molto attivo,

come mostra la crescita

esponenziale di strutture

depositate nel Protein Data

Bank

39

L’organizzazione strutturale delle proteine e’ancora piu’ complessa:

Si identificano motivi strutturali e domini, inoltre cofattori, gruppi

prostetici…

Esempio: il motivo EF-hand e la calmodulina

Valeyev et al., BMC Systems Biology 2008, 2:48 40

Il cosmo “omico”

41

• Genoma: comprende la totalità

del materiale genetico di un

organismo e comprende sia i geni

che sequenze non codificanti

(Es.: elementi mobili, sequenze

ripetute,…).

• Genomica: scienza che se ne

occupa.

• Genoma Umano: Sequenziato

completamente nel 2003.

• Occorre localizzare: Elementi

Funzionali:

• Regioni ‘utili’ → geni;

• Sequenze codificanti,

comprendere i meccanismi che

regolano l’espressione, scoprire

la funzione, e cercare

d’intervenire specificamente su

quest’ultima.

Proteomica

Trascritto-

genomica

Genomica

[…]

Quantità di dati prodotti per run di sequenziamento

Nel 2000: 1.6 Mb al giorno

Attualmente: un singolo HiSeq X produce fino a 1.8 Tb in 3 giorni

Diminuzione del costo del sequenziamento

$0.01

$0.10

$1.00

$10.00

$100.00

$1,000.00

$10,000.00

$1

$10

$100

$1,000

$10,000

$100,000

$1,000,000

$10,000,000

$100,000,000

Sep

-01

Feb

-02

Jul-

02

Dec

-02

May

-03

Oct

-03

Mar

-04

Au

g-0

4

Jan

-05

Jun

-05

No

v-0

5

Ap

r-0

6

Sep

-06

Feb

-07

Jul-

07

Dec

-07

May

-08

Oct

-08

Mar

-09

Au

g-0

9

Jan

-10

Jun

-10

No

v-1

0

Ap

r-1

1

Sep

-11

Feb

-12

Jul-

12

Dec

-12

May

-13

Oct

-13

Mar

-14

Co

st p

er

Mb

Co

st p

er

Ge

no

me

Cost per Genome

Cost per Mb

Costo del genoma oggi è alla portata del sequenziamento del genoma di ciascun

individuo.

Crescita di GenBank

Genbank è passato da 591 sequenze del 1981 a > 200.000.000 oggi (un

aumento di circa 340000 volte!)

Il cosmo “omico”

45

• Trascrittoma: l'insieme di tutti i

trascritti (RNA messaggeri,

mRNA)

• Trascrittomica: scienza che se ne

occupa.

• Occorre localizzare: Profili di

espressione:

• più dinamico del genoma

• tecnologie come microarray o

RNA-Seq monitorano i livelli di

espressione di tutti i geni allo

stesso tempo. Mirano ad

individuare correlazioni e

legami tra espressione genica,

attivazione e inibizione.

Esempi: studio nella

differenziazione di cellule

staminali o evoluzione di

tumori.

Proteomica

Trascritto-

genomica

Genomica

[…]

Il cosmo “omico”

46

• Proteoma: l'insieme di tutte le

proteine in un sistema biologico o

nel suo genoma

• Proteomica: scienza che se ne

occupa.

• Occorre localizzare: sia le

proteine codificate dai geni che le

possibili modificazioni post-

traduzionali (gruppi prostetici,

multidomini, fosforilazione, ecc).

• Alcune tecniche

• Gel:

• 1^ dimensione punto

isoelettrico

• 2^ massa molecolare

• Spettrometria di massa:

identifica una proteina in base

al suo rapporto massa/carica in

seguito a ionizzazione

Proteomica

Trascritto-

genomica

Genomica

[…]

Il cosmo “omico”

47

• Proteomica strutturale:

determinazione della struttura

terziaria e quaternaria (3D e

domini) delle proteine.

• Tecniche: cristallografia, NMR,

homology modeling.

• La struttura terziaria di una

proteina è essenziale per

determinarne la funzione

Proteomica

Genomica

Strutturale

Trascritto-

genomica

Genomica

Proteomica

Proteomica

Strutturale

Trascritto-

genomica

Genomica

Introduzione Il cosmo “omico”

48

• Farmacogenomica: mira a

prevedere la reazione di ciascun

individuo verso un principio attivo

in base al suo genotipo.

• Obiettivo: creare terapie

farmacologiche personalizzate

per ottimizzare il risultato

minimizzando gli effetti

collaterali.

• Esempio: previsione di gravi

reazione avverse a Abacavir

nella terapia dell’HIV

Proteomica

Farmaco-

genomica

Trascritto-

genomica

Genomica

L’evoluzione ed il confronto tra sequenze

49

Un allele (variante di un gene presente contemporaneamente

nella popolazione) puo’ essere generato, fissato o mutare nel

tempo

Uno degli obiettivi in senso lato della bioinformatica e’

stabilire se l’analisi dell’informazione molecolare riguardo

due oggetti biologici (e.g. geni o proteine) permette di

stabilire una relazione di OMOLOGIA, cioe’ di

discendenza da un antenato comune

Due sequenze che vengono separate fisicamente (per speciazione,

duplicazione ecc.) non si scambiano piu’ “informazione” ed evolvono

indipendentemente, accumulando mutazioni. Spetta a noi trovare i tratti

conservati dal comune antenato.

Un modo per muoversi in tal direzione e’ allineare le sequenze e determinare

la percentuale di identita’ o sequence identity (s.i.) (rapporto, in % tra il

numero dei residui/basi identici rispetto al totale) o comunque il grado di

similitudine.

Di norma, sequenze nucleotidiche non correlate hanno una s.i. ~50%;

sequenze amminoacidiche non correlate hanno una s.i. ~20%. Discostandosi

da tali valori aumenta la probabilità che le sequenze siano omologhe. Ma tale

indice dovrebbe tener conto anche della lunghezza delle sequenze.

Una s.i. del 90% fra due sequenze di 100 a.a. ha un significato diverso

rispetto alla stessa s.i. su sequenze di 30 a.a.

Allineare due sequenze significa stabilire se tra esse sussiste

una relazione di omologia

50