Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...

76
Il vostro progetto Analisi di dati di sequenziamento del trascrittoma (RNA-Seq): 1. Analisi di qualità 2. Mappatura sul genoma 3. Calcolo dell’espressione 4. Test di espressione differenziale 5. Visualizzazione e interpretazione 6. Analisi funzionale

Transcript of Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...

Page 1: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il vostro progetto

Analisi di dati di sequenziamento del trascrittoma (RNA-Seq):

1.  Analisi di qualità 2.  Mappatura sul genoma 3.  Calcolo dell’espressione 4.  Test di espressione differenziale 5.  Visualizzazione e interpretazione 6.  Analisi funzionale

Page 2: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Ricostruzione del trascrittoma

Sequencing reads

Il genoma di riferimento non è disponibile

Il genoma di riferimento è disponibile

Le annotazioni sono disponibili

Le annotazioni non sono disponibili, oppure si vogliono cercare trascritti non noti

Assemblaggio de novo del

trascrittoma

Ricostruzione guidata del trascrittoma

Ricostruzione non guidata del trascrittoma

Page 3: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Creazione dell’indice Sequenza genomica (FASTA)

Sequencing reads (FASTQ)

Annotazioni (GTF)

Allineamento delle reads

Ricostruzione dei trascritti

Bowtie2-build

Bowtie2

TopHat

Dati Passaggi Software

Il vostro progetto

Page 4: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il vostro progetto

Ricostruzione dei trascritti TopHat

Calcolo dell’espressione Cufflinks

Page 5: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Analisi del trascrittoma

Page 6: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

6

Splicing alternativo

Page 7: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Date le isoforme codificate da un gene e le reads mappate su ogni esone:

Stimare i valori di x che massimizzino la

verosimiglianza delle osservazioni n

Splicing alternativo

Page 8: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

http://cufflinks.cbcb.umd.edu/

Page 9: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

Page 10: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

Il numero di reads mappate su un gene è proporzionale al numero di RNA trascritti da quel gene nel campione Ma, a parità di espressione, cioè di numero di molecole di RNA prodotte, un gene che produce trascritti più corti darà luogo a meno reads rispetto a uno che produce trascritti più lunghi. Vicercersa, due geni che producono un uguale numero di reads possono avere diversa espressione se la loro dimensione è diversa Quindi, una stima più accurata dell’espressione deve tenere conto della lunghezza dei trascritti

Page 11: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

C = numero di reads mappate sugli esoni di un gene N = numero totale di reads prodotte dall’esperimento L = Lunghezza totale degli esoni del gene

FPKM =109 ! CNL

Unità di misura dell’espressione genica in esperimenti di sequenziamento: FPKM: Fragments Per Kilobase of exon model per Million mapped fragments

Cufflinks

Page 12: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks è un pacchetto contenente diversi moduli:

Cufflinks: Calcolo dell’espressione Assemblaggio de novo dei trascritti

Cuffcompare: Confronto del trascrittoma (de novo/annotazione)

Cuffdiff: Test di espressione differenziale

Cuffmerge: Fusione di trascrittomi ottenuti da Cufflinks in diverse condizioni

Cufflinks

Page 13: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Genome Browser: E’ un applicazione grafica che permette la visualizzazione di sequenze genomiche e delle loro annotazioni Permette tra l’altro di: -  Scorrere lungo il genoma -  Cambiare il livello di zoom, dall’intero cromosoma alle

singole basi -  Visualizzare annotazioni come geni, sequenze regolative,

poliformismi, conservazione evolutiva, ed altro -  Visualizzare i risultati di esperimenti di sequenziamento,

fino alle singole reads mappate sulle sequenze genomiche, caricando un file in formato bam (ad es. l’output di TopHat ottenuto come visto la scorsa volta)

Genome Browsers

Page 14: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

https://www.broadinstitute.org/igv/home

Il genome browser IGV

Page 15: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il genome browser IGV

Page 16: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il genome browser IGV

Page 17: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il genome browser IGV

Page 18: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il genome browser IGV

Page 19: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Caricare il file accepted_hits.bam

Page 20: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

L’indice del file bam

Page 21: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

L’indice del file bam

Page 22: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il genome browser IGV

Page 23: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il genome browser IGV

Page 24: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Il genome browser IGV

Page 25: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

Come si lancia: Cufflinks [opzioni] <file.bam> Opzioni di cufflinks: -p numero di threads -o cartella dell’output -G file in formato GTF con le annotazioni -u correzione per le reads multiple

Page 26: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

Page 27: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

File genes.fpkm_tracking

Page 28: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

File genes.fpkm_tracking

0 50000 100000 150000 200000 250000 300000 350000

0.00

0.05

0.10

0.15

0.20

FPKM

Density

Page 29: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

File genes.fpkm_tracking

-10 -5 0 5 10 15 20

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

log2(FPKM)

Density

Page 30: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

File isoforms.fpkm_tracking

Page 31: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Cufflinks

File isoforms.fpkm_tracking

Nomenclatura di Ensembl: ENSG00000####### Codice identificativo del gene ENST00000####### Identificativo del trascritto ENSP00000###### Identificativo della proteina ENSE00000###### Identificativo dell’esone

Page 32: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

0

100

200

300

400

500

600

700

800

ENST00000338370 ENST00000338338 ENST00000321751 ENST00000378853 ENST00000489799 ENST00000496905

Cufflinks

Gene AURKAIP1  (Aurora  kinase  A1)    

6  isoforme  di  splicing  alterna=vo

Page 33: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Lezione 4

Assemblaggio del genoma

Page 34: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Gli algoritmi OLC per assemblaggio di sequenze WGS non sono adatti per reads corte: - L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da calcolare; non è più possibile trovare un percorso Hamiltoniano in tempi ragionevoli; - La piccola dimensione delle reads produce molte connessioni ambigue nel grafo; - Molti algoritmi richiedono un overlap minimo che è comparabile se non superiore alla lunghezza di molte reads ottenute per NGS; - Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza fanno si che l'approccio tradizionale overlap - layout – consensus diventi inappropriato; - Si usa un approccio basato sulla ricerca di un percorso euleriano (cioè che visiti tutti gli archi una volta), che è molto più semplice da calcolare. Quindi le reads non sono più assegnate ai nodi, ma agli archi.

Assemblaggio de novo di genomi da NGS

Page 35: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

L'approccio più comunemente usato per assemblatori de novo per NGS utilizza i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di stringhe; - Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore EULER;

Page 36: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Per costruire un grafo di de Bruijn: - tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri); - invece di assegnare un nodo ad ogni k-mero, ai k-meri sono assegnati archi creando un arco diretto fra due nodi a e b se a (tolta la prima base) è prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e b=cgtctgactg.

Grafo di de Bruijn

Page 37: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

[Schatz et al., 2010]

Grafo di de Bruijn

Nel grafo di de Bruijn graph si rappresentano tutti i prefissi e suffissi dei k-meri come nodi e si disegnano archi che rappresentano k-meri aventi particolari prefissi e suffissi. Ad esempio, l’arco (k-mero) ATG ha prefisso (nodo uscente) AT e suffisso (nodo entrante) TG.

K=4 GACC

Page 38: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

[Compeau et al., 2011]

Page 39: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

Un percorso in un grafo che passa per ogni arco esattamente una volta è detto percorso Euleriano. Il problema dei sette ponti di Königsberg è il primo problema di ricerca di un percorso euleriano in un grafo, risolto da Eulero nel 1735. Questa data segna la nascita della teoria dei grafi.

[Schatz et al., 2010]

A

B

CD

Page 40: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

Vantaggi: - Non c'è bisgno di allineare ogni coppia di reads; - I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi Hamiltoniani (anche se ci possono essere diversi percorsi Euleriani in un grafo altrettanto buoni); - Errori di sequenziamento e sequenze ripetute causano la formazione di ramificazioni o cicli nel grafo, permettendone il riconoscimento; - La scelta del valore di k è cruciale:

k-meri corti → incrementa la connettività → aumenta le regioni ambigue

k-meri lunghi → incrementa la specificità → diminuisce la connettività

Page 41: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

[Compeau et al., 2011]

ATGCATGC -> ATG TGC GCA CAT ATG TGC

AT

TG GC

CA

ATGCAT

La presenza di k-meri che si ripetono nella sequenza può portare a percorsi Euleriani più corti che non ricostruiscono bene la stringa (cioè il genoma) di partenza

Page 42: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso che visiti ogni arco almeno una volta (problema del postino cinese); archi attraversati più volte sono indizio di ripetizioni;

[Schatz et al., 2010]

Page 43: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

[Compeau et al., 2011]

Page 44: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

[Pop, 2009]

Grafo di de Bruijn

Reads

Scomponendo le reads in k-meri è possibile che il percorso scelto per la costruzione del contig non sia coerente con la sequenza completa di un sottoinsieme di reads.

Page 45: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

[Zerbino, 2009]

Rimozione degli errori: Si possono rimuovere potenziali errori basandosi su caratteristiche topologiche del grafo:

Page 46: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

[Zerbino, 2009]

1. rimozione delle punte (tips) l  Tip: catena di nodi disconnessa ad un'estremità l  Si usano due criteri:

l  lunghezza (si rimuove la tip se < 2k bp) l  ci sono altre catene più lunghe originanti dal nodo di partenza

della tip

Page 47: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

[Zerbino, 2009]

2. rimozione delle bolle (bubbles) l  Bubble: due percorsi che iniziano e finiscono nello stesso nodo l  Sono causate da errori o SNPs l  Si rimuovono confrontando (allineando) le sequenze definite dai

due percorsi e unendole (se sufficientemente simili)

Page 48: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Grafo di de Bruijn

[Zerbino, 2009]

3. rimozione delle connessioni spurie l  connessioni a basso coverage sono rimosse l  sono causate da erorori di sequenziamento che non generano

bubbles o tips

Page 49: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

1. Sequenziamento

4. Rimozione degli errori

[Flicek & Birney, 2009]

Grafo di de Bruijn

2. Construzione del grafo di de Bruijn

3. Semplificazione del grafo

Page 50: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Assemblaggio de novo di genomi da NGS

E' possibile generare sequenze complete di genomi utilizzando solo reads corte da NGS, anche per organismi complessi; Si possono creare contigs di buona qualità ad alto coverage, ma rimangono molti gaps (principalmente perchè è più difficile generare paired reads); Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per read lunghe e paired reads a basso coverage, più Illumina per alto coverage) hanno avuto successo (ad esempio il genoma di tacchino); Oppure si può combinare il sequenziamento di Sanger con il NGS (ad esempio il geoma della vite).

Page 51: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

•  Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia noti;

•  Importante per identificare differenze fra individui, popolazioni, ceppi, tipi cellulari, tessuti in condizioni patologiche, etc.;

•  Si usa la sequenza nota del genoma come riferimento per mappare le reads;

Ri-sequenziamento

Page 52: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

8 10 12 14 16 18 20

Length of K-mer Reads (bp)

% o

f Pai

red

K-m

ers

with

Uni

quel

y A

ssig

nabl

e Lo

catio

n

E.COLIHUMAN

Ri-sequenziamento

[Jay Shendure]

La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento

Page 53: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Sequenziamento del genoma umano

2012: 5K$, a few days"2009: Illumina,

Helicos"40-50K$!

Year

Lo

g1

0(p

ric

e)

2010!2005!2000!

10!

8!

6!

4!

2!2013: 100$, <24 hrs?"

2008: ABI SOLiD"60K$, 2 weeks!

2001: Celera"100M$, 3 years!

2001: Human Genome Project"3G$, 11 years!

2007: 454"1M$, 3 months!

Page 54: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Banche dati genomiche

Ho sequenziato e assemblato un genoma. E ora? 1.  Depositare le

sequenze assemblate in GenBank

Page 55: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Banche dati genomiche

Ho sequenziato e assemblato un genoma. E ora? 1.  Depositare le

sequenze assemblate in GenBank

2.  Depositare le reads utilizzate in SRA (Short read archive)

Page 56: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Banche dati genomiche

Ho sequenziato e assemblato un genoma. E ora? 1.  Depositare le

sequenze assemblate in GenBank

2.  Depositare le reads utilizzate in SRA (Short Read Archive)

3.  Annotare il genoma (ad es. richiedendo le pipelines di Ensembl)

Page 57: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 58: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 59: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 60: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 61: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 62: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 63: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 64: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 65: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Entrez Genome

Page 66: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

http://genomereference.org

The Genome Reference Consortium (GRC)

Page 67: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

The Genome Reference Consortium (GRC)

Page 68: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

111 Fix PATCHES: Cambiamenti alla sequenza

71 Novel PATCHES: Sequenze aggiuntive

(>5 Mb di sequenze sostituite)

(>800K di nuova sequenza)

The Genome Reference Consortium (GRC)

Page 69: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Gaps

The Genome Reference Consortium (GRC)

Page 70: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

The Genome Reference Consortium (GRC)

Page 71: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

GOLD (Genomes Online Database)

Ad oggi 26268 genomi sono inclusi in GOLD

Page 72: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

GOLD (Genomes Online Database)

20138 Incompleti 4327 Completi

2472 Finiti 1855 Draft Permanente

183 Eucarioti 3957 Batteri 187 Archea

Page 73: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

GOLD (Genomes Online Database)

JGI: Joint Genome Institute; JCVI: J. Craig Venter Institute; Broad: Broad Institute; Univ of Maryland–IGS: University of Maryland, Institute for Genome Sciences; WashU: Washington University; Sanger: the Wellcome Trust Sanger Institute; BCM-HGSC: Baylor College of Medicine, Human Genome Sequencing Center; WORLD, altri centri di sequenziamento genomico, laboratori indipendenti

Page 74: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Genomics Session

Annotazione del genoma

Page 75: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

•  Ottenere la sequenza di un genoma è solo il primo passo verso la comprensione di una ampia gamma di processi biologici

•  Ad esempio ci si può chiedere:

–  Cosa è trascritto?

–  Quali proteine si legano al DNA genomico, e dove?

–  Come è regolato il genoma (ad es. cosa è metilato)?

•  In altre parole, il genoma è un oggetto molto

grande e complesso, come funziona?

•  L’annotazione del genoma consiste nell’assegnare ad ogni nucleotide del genoma un possibile ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni.

Annotazione del genoma

Page 76: Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione deve tenere conto della ... Questa data segna la nascita della teoria dei grafi.

Figure 7.13 Genomes 3 (© Garland Science 2007)

Annotazione del genoma