Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...
Transcript of Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...
Il vostro progetto
Analisi di dati di sequenziamento del trascrittoma (RNA-Seq):
1. Analisi di qualità 2. Mappatura sul genoma 3. Calcolo dell’espressione 4. Test di espressione differenziale 5. Visualizzazione e interpretazione 6. Analisi funzionale
Ricostruzione del trascrittoma
Sequencing reads
Il genoma di riferimento non è disponibile
Il genoma di riferimento è disponibile
Le annotazioni sono disponibili
Le annotazioni non sono disponibili, oppure si vogliono cercare trascritti non noti
Assemblaggio de novo del
trascrittoma
Ricostruzione guidata del trascrittoma
Ricostruzione non guidata del trascrittoma
Creazione dell’indice Sequenza genomica (FASTA)
Sequencing reads (FASTQ)
Annotazioni (GTF)
Allineamento delle reads
Ricostruzione dei trascritti
Bowtie2-build
Bowtie2
TopHat
Dati Passaggi Software
Il vostro progetto
Il vostro progetto
Ricostruzione dei trascritti TopHat
Calcolo dell’espressione Cufflinks
Analisi del trascrittoma
6
Splicing alternativo
Date le isoforme codificate da un gene e le reads mappate su ogni esone:
Stimare i valori di x che massimizzino la
verosimiglianza delle osservazioni n
Splicing alternativo
Cufflinks
http://cufflinks.cbcb.umd.edu/
Cufflinks
Cufflinks
Il numero di reads mappate su un gene è proporzionale al numero di RNA trascritti da quel gene nel campione Ma, a parità di espressione, cioè di numero di molecole di RNA prodotte, un gene che produce trascritti più corti darà luogo a meno reads rispetto a uno che produce trascritti più lunghi. Vicercersa, due geni che producono un uguale numero di reads possono avere diversa espressione se la loro dimensione è diversa Quindi, una stima più accurata dell’espressione deve tenere conto della lunghezza dei trascritti
C = numero di reads mappate sugli esoni di un gene N = numero totale di reads prodotte dall’esperimento L = Lunghezza totale degli esoni del gene
FPKM =109 ! CNL
Unità di misura dell’espressione genica in esperimenti di sequenziamento: FPKM: Fragments Per Kilobase of exon model per Million mapped fragments
Cufflinks
Cufflinks è un pacchetto contenente diversi moduli:
Cufflinks: Calcolo dell’espressione Assemblaggio de novo dei trascritti
Cuffcompare: Confronto del trascrittoma (de novo/annotazione)
Cuffdiff: Test di espressione differenziale
Cuffmerge: Fusione di trascrittomi ottenuti da Cufflinks in diverse condizioni
Cufflinks
Genome Browser: E’ un applicazione grafica che permette la visualizzazione di sequenze genomiche e delle loro annotazioni Permette tra l’altro di: - Scorrere lungo il genoma - Cambiare il livello di zoom, dall’intero cromosoma alle
singole basi - Visualizzare annotazioni come geni, sequenze regolative,
poliformismi, conservazione evolutiva, ed altro - Visualizzare i risultati di esperimenti di sequenziamento,
fino alle singole reads mappate sulle sequenze genomiche, caricando un file in formato bam (ad es. l’output di TopHat ottenuto come visto la scorsa volta)
Genome Browsers
https://www.broadinstitute.org/igv/home
Il genome browser IGV
Il genome browser IGV
Il genome browser IGV
Il genome browser IGV
Il genome browser IGV
Caricare il file accepted_hits.bam
L’indice del file bam
L’indice del file bam
Il genome browser IGV
Il genome browser IGV
Il genome browser IGV
Cufflinks
Come si lancia: Cufflinks [opzioni] <file.bam> Opzioni di cufflinks: -p numero di threads -o cartella dell’output -G file in formato GTF con le annotazioni -u correzione per le reads multiple
Cufflinks
Cufflinks
File genes.fpkm_tracking
Cufflinks
File genes.fpkm_tracking
0 50000 100000 150000 200000 250000 300000 350000
0.00
0.05
0.10
0.15
0.20
FPKM
Density
Cufflinks
File genes.fpkm_tracking
-10 -5 0 5 10 15 20
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
log2(FPKM)
Density
Cufflinks
File isoforms.fpkm_tracking
Cufflinks
File isoforms.fpkm_tracking
Nomenclatura di Ensembl: ENSG00000####### Codice identificativo del gene ENST00000####### Identificativo del trascritto ENSP00000###### Identificativo della proteina ENSE00000###### Identificativo dell’esone
0
100
200
300
400
500
600
700
800
ENST00000338370 ENST00000338338 ENST00000321751 ENST00000378853 ENST00000489799 ENST00000496905
Cufflinks
Gene AURKAIP1 (Aurora kinase A1)
6 isoforme di splicing alterna=vo
Lezione 4
Assemblaggio del genoma
Gli algoritmi OLC per assemblaggio di sequenze WGS non sono adatti per reads corte: - L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da calcolare; non è più possibile trovare un percorso Hamiltoniano in tempi ragionevoli; - La piccola dimensione delle reads produce molte connessioni ambigue nel grafo; - Molti algoritmi richiedono un overlap minimo che è comparabile se non superiore alla lunghezza di molte reads ottenute per NGS; - Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza fanno si che l'approccio tradizionale overlap - layout – consensus diventi inappropriato; - Si usa un approccio basato sulla ricerca di un percorso euleriano (cioè che visiti tutti gli archi una volta), che è molto più semplice da calcolare. Quindi le reads non sono più assegnate ai nodi, ma agli archi.
Assemblaggio de novo di genomi da NGS
Grafo di de Bruijn
L'approccio più comunemente usato per assemblatori de novo per NGS utilizza i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di stringhe; - Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore EULER;
Per costruire un grafo di de Bruijn: - tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri); - invece di assegnare un nodo ad ogni k-mero, ai k-meri sono assegnati archi creando un arco diretto fra due nodi a e b se a (tolta la prima base) è prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e b=cgtctgactg.
Grafo di de Bruijn
[Schatz et al., 2010]
Grafo di de Bruijn
Nel grafo di de Bruijn graph si rappresentano tutti i prefissi e suffissi dei k-meri come nodi e si disegnano archi che rappresentano k-meri aventi particolari prefissi e suffissi. Ad esempio, l’arco (k-mero) ATG ha prefisso (nodo uscente) AT e suffisso (nodo entrante) TG.
K=4 GACC
Grafo di de Bruijn
[Compeau et al., 2011]
Grafo di de Bruijn
Un percorso in un grafo che passa per ogni arco esattamente una volta è detto percorso Euleriano. Il problema dei sette ponti di Königsberg è il primo problema di ricerca di un percorso euleriano in un grafo, risolto da Eulero nel 1735. Questa data segna la nascita della teoria dei grafi.
[Schatz et al., 2010]
A
B
CD
Grafo di de Bruijn
Vantaggi: - Non c'è bisgno di allineare ogni coppia di reads; - I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi Hamiltoniani (anche se ci possono essere diversi percorsi Euleriani in un grafo altrettanto buoni); - Errori di sequenziamento e sequenze ripetute causano la formazione di ramificazioni o cicli nel grafo, permettendone il riconoscimento; - La scelta del valore di k è cruciale:
k-meri corti → incrementa la connettività → aumenta le regioni ambigue
k-meri lunghi → incrementa la specificità → diminuisce la connettività
Grafo di de Bruijn
[Compeau et al., 2011]
ATGCATGC -> ATG TGC GCA CAT ATG TGC
AT
TG GC
CA
ATGCAT
La presenza di k-meri che si ripetono nella sequenza può portare a percorsi Euleriani più corti che non ricostruiscono bene la stringa (cioè il genoma) di partenza
Grafo di de Bruijn
Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso che visiti ogni arco almeno una volta (problema del postino cinese); archi attraversati più volte sono indizio di ripetizioni;
[Schatz et al., 2010]
Grafo di de Bruijn
[Compeau et al., 2011]
[Pop, 2009]
Grafo di de Bruijn
Reads
Scomponendo le reads in k-meri è possibile che il percorso scelto per la costruzione del contig non sia coerente con la sequenza completa di un sottoinsieme di reads.
Grafo di de Bruijn
[Zerbino, 2009]
Rimozione degli errori: Si possono rimuovere potenziali errori basandosi su caratteristiche topologiche del grafo:
Grafo di de Bruijn
[Zerbino, 2009]
1. rimozione delle punte (tips) l Tip: catena di nodi disconnessa ad un'estremità l Si usano due criteri:
l lunghezza (si rimuove la tip se < 2k bp) l ci sono altre catene più lunghe originanti dal nodo di partenza
della tip
Grafo di de Bruijn
[Zerbino, 2009]
2. rimozione delle bolle (bubbles) l Bubble: due percorsi che iniziano e finiscono nello stesso nodo l Sono causate da errori o SNPs l Si rimuovono confrontando (allineando) le sequenze definite dai
due percorsi e unendole (se sufficientemente simili)
Grafo di de Bruijn
[Zerbino, 2009]
3. rimozione delle connessioni spurie l connessioni a basso coverage sono rimosse l sono causate da erorori di sequenziamento che non generano
bubbles o tips
1. Sequenziamento
4. Rimozione degli errori
[Flicek & Birney, 2009]
Grafo di de Bruijn
2. Construzione del grafo di de Bruijn
3. Semplificazione del grafo
Assemblaggio de novo di genomi da NGS
E' possibile generare sequenze complete di genomi utilizzando solo reads corte da NGS, anche per organismi complessi; Si possono creare contigs di buona qualità ad alto coverage, ma rimangono molti gaps (principalmente perchè è più difficile generare paired reads); Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per read lunghe e paired reads a basso coverage, più Illumina per alto coverage) hanno avuto successo (ad esempio il genoma di tacchino); Oppure si può combinare il sequenziamento di Sanger con il NGS (ad esempio il geoma della vite).
• Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia noti;
• Importante per identificare differenze fra individui, popolazioni, ceppi, tipi cellulari, tessuti in condizioni patologiche, etc.;
• Si usa la sequenza nota del genoma come riferimento per mappare le reads;
Ri-sequenziamento
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
8 10 12 14 16 18 20
Length of K-mer Reads (bp)
% o
f Pai
red
K-m
ers
with
Uni
quel
y A
ssig
nabl
e Lo
catio
n
E.COLIHUMAN
Ri-sequenziamento
[Jay Shendure]
La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento
Sequenziamento del genoma umano
2012: 5K$, a few days"2009: Illumina,
Helicos"40-50K$!
Year
Lo
g1
0(p
ric
e)
2010!2005!2000!
10!
8!
6!
4!
2!2013: 100$, <24 hrs?"
2008: ABI SOLiD"60K$, 2 weeks!
2001: Celera"100M$, 3 years!
2001: Human Genome Project"3G$, 11 years!
2007: 454"1M$, 3 months!
Banche dati genomiche
Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le
sequenze assemblate in GenBank
Banche dati genomiche
Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le
sequenze assemblate in GenBank
2. Depositare le reads utilizzate in SRA (Short read archive)
Banche dati genomiche
Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le
sequenze assemblate in GenBank
2. Depositare le reads utilizzate in SRA (Short Read Archive)
3. Annotare il genoma (ad es. richiedendo le pipelines di Ensembl)
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
http://genomereference.org
The Genome Reference Consortium (GRC)
The Genome Reference Consortium (GRC)
111 Fix PATCHES: Cambiamenti alla sequenza
71 Novel PATCHES: Sequenze aggiuntive
(>5 Mb di sequenze sostituite)
(>800K di nuova sequenza)
The Genome Reference Consortium (GRC)
Gaps
The Genome Reference Consortium (GRC)
The Genome Reference Consortium (GRC)
GOLD (Genomes Online Database)
Ad oggi 26268 genomi sono inclusi in GOLD
GOLD (Genomes Online Database)
20138 Incompleti 4327 Completi
2472 Finiti 1855 Draft Permanente
183 Eucarioti 3957 Batteri 187 Archea
GOLD (Genomes Online Database)
JGI: Joint Genome Institute; JCVI: J. Craig Venter Institute; Broad: Broad Institute; Univ of Maryland–IGS: University of Maryland, Institute for Genome Sciences; WashU: Washington University; Sanger: the Wellcome Trust Sanger Institute; BCM-HGSC: Baylor College of Medicine, Human Genome Sequencing Center; WORLD, altri centri di sequenziamento genomico, laboratori indipendenti
Genomics Session
Annotazione del genoma
• Ottenere la sequenza di un genoma è solo il primo passo verso la comprensione di una ampia gamma di processi biologici
• Ad esempio ci si può chiedere:
– Cosa è trascritto?
– Quali proteine si legano al DNA genomico, e dove?
– Come è regolato il genoma (ad es. cosa è metilato)?
• In altre parole, il genoma è un oggetto molto
grande e complesso, come funziona?
• L’annotazione del genoma consiste nell’assegnare ad ogni nucleotide del genoma un possibile ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni.
Annotazione del genoma
Figure 7.13 Genomes 3 (© Garland Science 2007)
Annotazione del genoma