System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli...

58
“System Biology”: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN

Transcript of System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli...

Page 1: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

“System Biology”: un nuovo paradigma per la biologia

molecolare.

Michele CaselleUniversità degli studi di Torino – INFN

Page 2: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Indice

• Idee guida

“System Biology”, Biologia computazionale e Bioinformatica Breve ripasso di Biologia Molecolare Le innovazioni degli ultimi anni: Genomica, Trascrittomica, Proteomica

• Esempi di applicazioni

La regolazione genica

L’evoluzione

Page 3: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Le idee guida:

System biology e Biologia computazionale

Page 4: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La biologia computazionale

Coi termini “Biologia Computazionale” o “Bioinformatica” si intende tutto ciò che riguarda l’analisi di dati biologici con metodi provenienti dalla matematica / fisica / statistica / computer-science

I dati biologici (sia sequenze che annotazioni) sono raccolti in enormi banche dati “open access”.

Tra questi dati e’ nascosta molta piu’ informazione di quanto non sia già stato pubblicato.

Esiste la possibilità di ottenere risultati anche molto importanti senza che si debba fare un singolo esperimento, semplicemente rileggendo in modo originale risultati sperimentali esistenti.

Page 5: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

System BiologyTre strumenti fondamentali Teoria delle reti: E’ sbagliato pensare alle funzioni in termini di singolo gene o singola proteina. Le funzioni complesse coinvolgono sempre molti geni in interazione tra loro.

Modelli: Queste reti possono però essere scomposte in circuiti elementari (“network motifs”) che possono essere descritti in modo quantitativo usando equazioni differenziali o stocastiche

Ontologie: E’ pero’ indispensabile cercare di standardizzare e quantificare le informazioni di tipo medico o biologico.Le ontologie sono il tentativo di miglior successo in questa direzione

Page 6: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La genomica moderna: networks

Le proteine (geni) dentro una cellula formano un network.

La risposta di una cellula ad un certo stimolo è una risposta “globale”, non di singole unità separate.

H.Jeong et al. Nature, 411 (2001) 41

Page 7: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Network motifsEsempio: SIM (Single Input Module) (a) realizzazione sperimentale: la biosintesi dell’arginina b) Soluzione del circuito: al variare di X (regolatore) i geni vengono attivati in tempi diversi a seconda della loro soglia di attivazione. R.Milo et al. Science 298 (2002) 824

Page 8: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La genomica moderna:Gene Ontology

• Gene Ontology è un modello per l’unificazione di dati biologici.

• Lo scopo di GO è di costruire un vocabolario controllato per la descrizione di:

- Molecular function - Biological process - Cellular component di un certo gene.

• I vocabolari sono organizzati in un network gerarchico.

The G.O. Consortium Nature Genet. 25 (2000) 25

Page 9: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La Biologia Molecolare

“Classica”

Page 10: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La cellula

Ogni organismo vivente è composto da una o più cellule. Ogni cellula può essere vista come una macchina complessa che esegue delle istruzioni scritte e memorizzate nel proprio genoma.

Page 11: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il DNA

Il genoma di unqualunque organismo è costituito da una lunghissima molecola di DNA.

Page 12: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il DNA Una molecola di DNA è formata da quattro tipi diversi di nucleotidi (A, C, G o T), legati tra di loro con legami covalenti a formare una lunga catena orientata. In ogni molecola di DNA, sono presenti due catene appaiate, tenute assieme da legami idrogeno

Page 13: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Le proteine: le macchine del nostro organismo

La maggior partedelle funzioni del nostro organismo sono eseguite da proteine. Le proteine sono macromolecoleformate da catene di amminoacidi.

Page 14: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

L’informazione dentro la cellula Dogma centrale della biologia molecolare

Page 15: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Sintesi delle proteine

Page 16: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il codice genetico

Il passaggio dall’alfabeto con cui è scritto il DNA all’alfabeto con cui sono scritte le proteine avviene tramite il codice genetico.

Page 17: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Le novita’ degli ultimi 10 anni

Alla fine degli anni ’90 nasce “era genomica”

La biologia diventa sempre più quantitativa:

sequenziamento dei genomi di interi organismi

microarray

dati proteomici

Gene Ontology

Page 18: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Perche’ si parla di una nuova “era” ?

Perchè siamo in presenza di una vera e propria rivoluzione tecnologica :

- diminuzione dei costi di sequenziamento,- introduzione di tecnologie high-throughput- Aumento della scala tipica degli esperimenti (e del numero di persone coinvolte).

Page 19: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Nuove domande, nuove idee

- Perché i geni sono così pochi?

- A cosa serve il DNA non codificante?- Quanto siamo diversi dalle scimmie?

- Il “dogma centrale” e’ falso: a un gene corrispondono molte proteine (splicing alternativo)

- L’informazione genetica puo’ andare dal DNA all’RNA (Retrotrasposoni)

Page 20: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La genomica moderna: sequenze

> homo_sapiensACTTTTTTACCCTCGTGTGTTGCAGACTTTTTGCCACTTTTAAAACGCTGACAATTCGACCCTTTCCAAGTGCAAAAAGTGCCAAGATTTACGATAAAATTCCCCCGAGAGACGTGTGCA………

Automatizzazione dei processi di sequenziamento del DNA Sequenziamento sistematico di molti organismi. Nascita delle banche dati genomiche

Page 21: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Dimensioni dei genomi (Mb)

Procarioti:Mycoplasma Genitalium

0,58Escherichia Coli

4,64

Eucarioti:Saccaromices cerevisiae 12Arabidopsis thaliana 100Drosophila Melanogaster 140Caenorabditis Elegans

100Homo Sapiens

3000

Page 22: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Struttura del Genoma

- La densita’ di sequenze codificanti proteine (o RNA) diventa sempre piu’ bassa man mano che aumenta la complessita’ dell’organismo. E’ molto alta nei Procarioti, media nel lievito, bassissima nell’uomo. La maggior parte del genoma umano ( 99%) non e’ codificante !

- Questo DNA non codificante e’ (probabilmente) coinvolto nella regolazione dell’espressione genica.

Page 23: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Struttura dei Geni

Un tipico gene umano ha una struttura interna molto complessa: e’ composto da un set di sequenze codificanti (dette esoni) separate da sequenze non codificanti (dette introni). Gli esoni possono essere combinati in molti modi diversi a formare proteine diverse (splicing alternativo)

Page 24: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il Genoma umano

Page 25: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Ensembl Genome Browser

Page 26: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Zoom !

Page 27: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La trascrittomica: microarray

In un esperimento di microarray si misura il livello di espressione (mRNA) di migliaia di geni contemporaneamente

log

2 (ratio)

timepoints

gene

Page 28: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

La proteomica:

Studio sistematico della struttura 3D delle proteine mediante X-ray spectroscopy

Studio sistematico delle interazioni tra proteine

Page 29: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Due esempi di ricerca

Il problema della regolazione genica

Verifiche dei modelli evolutivi

Page 30: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Esempio: Regolazione genica

Page 31: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della regolazionegenica

• Sequenza del genoma umano (2001 draft, 2004 finished)

– 3.2 x 109 bp di DNA– ~ 3 % codifica per proteine: i “mattoni elementari”– ~ 97 % non codifica:– è il “libretto di istruzioni”

Contiene le sequenze che regolanol’espressione dei geni in proteine

~ 25000 “geni”:proteine

Page 32: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della regolazionegenica

• La maggioranza dei geni specifica uno o più proteine: “espressi”.

• L’espressione dei geni coinvolge un intermediario detto messaggero or mRNA.

• Il processo di espressione inizia con una fase detta “trascrizione” che è accuratamente controllata in ogni tipo cellulare.

Regolazione trascrizionale

Page 33: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della regolazionegenica

• Negli eucarioti superiori (es: uomo) l’evento di trascrizione è molto complesso

Page 34: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della regolazionegenica

• Negli eucarioti superiori la risposta trascrizionale è organizzata in un network.

Page 35: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della regolazionegenica

• Regolazione trascrizionale: fattori di trascrizione (TF) si accoppiano a particolari DNA motifs

(TFBS) localizzati upstream del gene regolato.

EXON 1 EXON 2INTRON

5’ UPSTREAM 3’ DOWNSTREAM

TRASCRITTO PRIMARIO TSS

TF

RNA polymerase II

TFBSs

Page 36: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Dove è nascosta l’informazione?

• Obiettivo: identificare, a partire dalla sola sequenza genomica, dei candidati TFBS ovvero identificare il “vocabolario” di DNA motifs che regolano l’espressione dei geni.

TFBS sono di solito corti (5-20 bp di DNA).

TFBS sono di solito variabili.

TFBS sono di solito dispersi su lunghe distanze( ≥ 15000 bp nel caso umano ).

TFBS sono di solito attivi in entrambe le orientazioni.

Il rapporo segnale / rumore è molto basso !

Page 37: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

RisultatiAlla fine si ottiene un “dizionario” di putative TFBSs.

Page 38: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della verificadei modelli evolutivi

Page 39: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della verificadei modelli evolutivi

La verifica di modelli evolutivi può essere eseguita con opportuni

algoritmi di allineamento di sequenze.

Page 40: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Il problema della verificadei modelli evolutivi

Il 96% del genoma umano è uguale

nelloscimpanzè.

Page 41: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Evoluzione e regolazione

• Obiettivo: identificare, a partire dalla sola sequenza genomica, i segnali dell’evoluzione dei geni nel tempo e tra i vari organismi e riconoscere i geni “ortologhi”. Usare la conservazione filogenetica per selezionare le regioni funzionalmente importanti del genoma

Nel genoma umano ci sono sequenze “ultraconservate” che sono state protette dai cambiamenti evolutivi per milioni di anni. In alcuni casi queste sequenze NON sono codificanti. Molto probabilmente hanno un ruolo nella regolazione della espressione genica.

Page 42: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

FOXP2 !!Mutazioni (SNPs) nel gene FOXP2 causano severe alterazioni nel linguaggio

parlato.

Page 43: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Un esempio più sofisticato:

Circuiti di regolazione misti conservati tra topo e uomo

Page 44: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Transcription Factors and miRNAs

Wassermann, Nat. Rev. Genetics

Transcription Factors (TFs): proteins binding to specific recognition motifs (TFBSs) usually short (5-10 bp) and located upstream of the coding region of the regulated gene.

MicroRNAs (miRNAs) are a family of small RNAs (typically 21 - 25 nucleotide long) that negatively regulate gene expression at the posttranscriptional level, (usually) thanks to the “seed” region in 3’-UTR regions.

• Regulation of gene expression mainly mediated by:

Page 45: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Our Project Several methods exist to study, separately TF-related and

microRNA-related regulatory networks, but comparable information is lacking to explicitly connect them.

The main goal of our project was to infer and then combine the two networks looking in particular for Mixed Feed-Forward Regulatory Loops --> a network motif in which a master Transcription Factor (TF) regulates a miRNA and together with it a set of Joint Target coding genes.

TF

JointTarget

miR

Hornstein E, Shomron N, Nat Genet 38 Suppl:S20–4 (2006).

QuickTime™ e undecompressore TIFF (Non compresso)

sono necessari per visualizzare quest'immagine.

Page 46: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Results Human Transcriptional Network --> Fixing 0.1 as FDR level, we obtained a catalogue of 2031 oligos that can be associated to known TFBSs for a total of 115 different TFs.

--> target a total of 21159 genes (20972 protein-coding and 187 miRNAs) Human Post-Transcriptional Network --> Fixing 0.1 as FDR level, we obtained a catalogue of 3989 oligos (7-mers). 182 of them turned out to match with at least one seed present in 140 mature miRNAs.

--> target a total of 17266 genes

Human mixed FFLs catalogue --> We were able to obtain a list of 5030 different “single target circuits”, corresponding to 638 “merged circuits”.

--> involving a total of 2625 joint target genes (JTs), 101 TFs and 133 miRNAs.

# of JTs ranged from 1 to 38.

TF

JT 1 miR

JT 2

JT …

Page 47: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Functional role of mixed FFLs

Depending on the type of transcriptional regulation (excitatory or inhibitory) exerted by the master TF on the miRNA and on the targets, FFLs may be classified as

• incoherent (“type I” FFLs), or

• coherent (“type II” FFLs).

Page 48: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Type I and II FFLs

TF

JointTarget

miR

TF

Joint Target

miR

TF

JointTarget

miR

TF

Joint Target

miR

type I circuits type II circuits

Possible biological role for mixed TF/miRNA network motifs:

Page 49: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Main role: noise dumping

Type I (incoherent) can stabilize the steady state production of a protein by dumping translational and transcriptional fluctuations.

In a simple TF-target interaction any fluctuation of master TF could induce a non-linear increase in the amount of its target products. The presence, among the targets, of a miRNA which downregulates the other targets might represent a simple and effective way to control these fluctuations.

Page 50: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Study of protein fluctuations via

stochastic equations

In both cases fluctuations are proportional to the mean number of proteins produced by a single mRNA. This number is a function of the miRNA-mRNA affinity.

The only way to address this issue is to describe the FFLs in terms of stochastic equations and to compare the results with those obtained with that of a standard transcription +translation process

Page 51: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Stochastic equations for gene expression: two steps model.

This model assumes that the promoter is always active and so has only two stochastic variables: the number of mRNAs and the number of proteins

Page 52: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

The probability of having m mRNAs and n proteins at time t satisfies the master equation:

Page 53: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

The corresponding mean value and fluctuations of the number of proteins are:

Where b is the mean number of proteins produced by a single mRNA (burst parameter). Fluctuations only depend on the burst parameter b.

Page 54: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

The noise reduction can be traced back to the different efficiency of the mRNA translation in the two cases

With this choice of parameters each mRNA produces a mean of 30 proteins while in the FFL this numebr is reduced to about 20.

The noise reduction is a function of the miRNA-mRNA affinity

Comparison between FFL noise and plane transcription

Page 55: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.
Page 56: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

References

• D. Cora’, C. Herrmann, C. Dieterich, F. Di Cunto, P. Provero and M. Caselle

“Ab initio identification of putative human transcription factor binding sites by comparative genomics.” BMC Bioinformatics 2005, 6:110.

• D. Cora’, M. Caselle, F. Di Cunto and P. Provero “Identification of candidate regulatory sequences in mammalian 3’ -UTRs by

statistical analysis of oligonucleotide distributions.” BMC Bioinformatics. 2007 May 24;8:174.

• D. Cora’, A. Re, D. Taverna and M. Caselle “Genome-Wide Survey of MicroRna-Transcription Factor Feed-Forward Regulatory Circuits in Human”

Molecular BioSystems. 2009 Aug; 5(8):854-67.

Page 57: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.

Thanks to

C. Bosia, D. Cora’ Dep. of Theoretical Physics

M. El Baroudi University of Torino

and M. Osella

A. Re CIBIO

University of Trento

D. Taverna Dep. of Genetics, Biology and

Biochemistry and M.B.C. University of Torino

Page 58: System Biology: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN.