Sequenziamento ed assemblaggio di genomi batterici
-
Upload
andrea-telatin -
Category
Science
-
view
63 -
download
1
Transcript of Sequenziamento ed assemblaggio di genomi batterici
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
de novo genomeSequenziamento di genomi batterici
Ottobre 2014
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Sequenziamento de novo
• “Piccoli genomi” in senso strettoGenomi procariotici fino a 10 Mb
• Genomi “abbastanza” piccoliEucariotici o procariotici < 40 Mb
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Today’s menu
• Gli step dell’analisi bioinformatica…
• …ed i formati dei files di output
• Disegno sperimentale
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Today’s menu
• Gli step dell’analisi bioinformatica…
• …ed i formati dei files di output
• Disegno sperimentale
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Come?Whole genome shotgun
L’assemblaggio de novo produce i contigs
Lo scaffolding produce scaffold, o addirittura i cromosomi
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Shotgun
ACGTACGTAGCTGACGA
AGCTGACGATCGATCGTAGCTAGCTA
ATCGTAGCTAGCTAGATTACA
AGATTACAGTCTACGTACTATCGA
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
ShotgunACGTACGTAGCTGACGAAGCTGACGATCGATCGTAGCT
AGCTA ATCGTAGCTAGCTAGATTACAAGATTACAGTCTACGTACTATCGA
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
ShotgunACGTACGTAGCTGACGAAGCTGACGATCGATCGTAGCT
AGCTA ATCGTAGCTAGCTAGATTACAAGATTACAGTCTACGTACTATCGA
contig
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Problema
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Problema
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Soluzione
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Soluzione
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Come usare i Mate PairValidazione ScaffoldingGap Filling
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Metrica
N50: lunghezza minima di un set di contigs contenenti metà assemblaggio
Generalmente un assemblaggio è molto frammentato
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
A cosa servono?
Con contig validi è possibile:
Cercare geni (gene prediction)
Lavorare con i geni (cloning, PCR)
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Che file ottengo?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Formato FASTQ@N2OAK:00951:07085 ATTCAATAAAATTTTATCATAAATACCGAAATCCATCTAAAATGGTACCCGCTACAACAAAAGTAGTCATGACATGTGCAGGCGTGAGTTTAAGTACGTCTAGTAAAAGCTGGACCAATGACGCAAATAAGTCCGCCTGCCACAAAAGCGATAAGATAATCCA + 5549:55555)555)5::99::29::6555*554:<<=BBB5;;7997=7<;;8885::::09;777<<<;::;:777<;<6;;;;;;;<5:6<</..8888:<<<<2;<991557:7;;?9:557/7<388;45505886::999/55555:5:;5505948 @N2OAK:01697:04302 TCAATAAAATTTTAGTACAATATGCTGCTTATCGGTTAACTCATCTACAAATAATTCTTCAAACTCTAATCGGAGCTTTTGATGGATGCGGGCTTCGATATTGTTTTAGCTCTTGAATCATAGCTGTTTTGGATGTCACTTTTATCACCTTCATAATTAAGATAACTTAAGTATAAAGCAACCTTTATATTAAAACAAGAAAAATCCCATC + 78808855)755)5888;=8===;;;<==8==<;6<9>7;;;<<<<<<<<7<<9=7<<6;;;4;<<<=9=<>;>B?<==4=<==8==<=<>8==9===<:;57777)5:8::>6;=9>=;>;<==?A==4=398<<<=>>>>*0/8;:5;8=;<<8;9>9===>9==7;6;<<;==8===9=6;:089..*.99...).7777(555(393 @N2OAK:03081:06574 CTCAATAAAATTTTATCAATTCGATATTGAAGACTGTTTCTGTGAACATATAACGCTTTTGCTGCCTTGGATGCGTTTAAATTACATTGCATATAGGTCATGAGAGTGCGATAAAACATCCCGGTCAAAGACCGCTTCTTTAAAAGCATCTGAAATAGCGTGAGAGAGTGCAGATGCATCATAACAAATGAACGATGGCAGGCATTGATAAAATGTGGAAGCCCCTGATCTAAGCTTTTCTCGCTT + :;;;57777)555)58994:7=>>===9==7<;<<===8<888=?7;::875/599:@=2<=@<<8<8=8<;;;;<=7<=7=288;;4:<777;::5:9:777:::<::787777)58555/57<=@B69991559599:3:::/5558;;<<=5::;;;;<<<<888;887;=;:;<9////)/7717::4::;::8<?>8<=>8;<====7>;;;7;08888)8:;;;<<8;??@>5=<;://)
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Input (sequenze FASTQ)
Tecnologia: Ion Proton
Sequenze: 1.462.220
Basi sequenziate: 247.13 Mbp
Lunghezza media read: 169 bp
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Output (FASTA contigs)>contig00001 length=381398 numreads=107891 TTTGGCGAACAGCCGGTCAATCTCTCCCGGCGTCGTTTCTGATTTCGGGCAGCGGTCTGG CGGGCGCGCTGGTGCTGGGCGTCGGGTTGCCGGTCGGACAGAGCCGCGCACAGTCCGCCG CGGCCGCAATGCCAGCCGGTACCCGGGTGCCAGCCTTTCTGGAAATACGCGCGGACAGCT CAGTGAAATTTCTGTCGCCCTTTATTGAAGGCGGGCAGGGGATTTTCACCGCCATGGCGC AGATTGTCGGTGAAGAACTGGACGCCGATCCGGCATCCTTCGTGGTGGAGAACGCGCCGC CTGGTTCGCAATATCAGGTAATGGATAACGGGATGCGCATCACCGGCGGAAGCCAGTCGG TGCGGACCAGCTATACCACCATGCGACGGCTCGGCGCGCTGGCACGACAGATGCTGATCG AGGCCGCTGCCGCTGAACTGGCGGTGCCGGTTACCAGCCTGCACACTGAGCCGGGACGGG TGATCCATGGCGAATCAGGgCGCTCATTACGCTATGGCGAACTGGCTGCGCGGGCGCGTG AGCTGCCGGTACCCTCAGTCGATTCGGTCAGCCTGAAAGATCCCGCTCACTTTCGCTGGA TTGGTAAGCCGGTTCAGCGACTGGATATGCATGAAAAATCGACCGGCAAGGCGATTTACA CCATCGACTGCCGGGTGGATAACATGCTGCACGCGGCGGTACAGCACGCGCCGCGACTCG GTCTGACGGTGGGTACGCTGCGCAATGCCGCACAGGTCAGCGCGATGAAAGGCGTGCATT CGGTTCATCAACTGCCTGGCGCCGTCGCGGTGGTGGCCGAACGCTGGTGGCAGGCGAAAC GTGCGGTTGAAACGCTGCAGGTTGAGTGGCTGGAGCCAGAGAAGCCAGACGGCAGCTATA TGCCCGCTGACTTCTCCTCTGATGCGTTCGCCGCCGTGCTGGCGCAGCAGCCTGGCGACG GGGAAAACGCTGAGGTTCGTGGCGACCTTCAGCACGGACTGGCTGAGGCGAAGAGCACCT TTAGCGCCCACTACCAGAGCCAGTATCTTAACCACGCCCAGCTTGAGCCGCCGTCCGCGC TGGCACGTTTTAATTCCGACGGCTCGCTGGAGTTGTGGATCCCCAATCAGGCACCGGAAA TGTTCCAGGCCGACGTGGCTAAGCGTACCGGCCTCAGCCcGGATAAGATCATTATCCATT CCCCGCTGCTGGGCGGATTTTTTGGCCGTCACTTCCTCTATGAGTCCGCGATGGTCTGGC CACAAGCCGTTCAGCTGGCCAGGGCGGTCGGgCGCCCCGTCAAACTGATCTGGAGTCGTG AAGAGGAGTTCCTGCGCGATACCCATCGCCCGATGGCCGCGGTGCGGTTTCGTGCCGGAC TGGATGCCGACGGCTACCCGCTGGCGCTGGAGGCGGTCAGCATCTGTGAAGGGCCGACCG AGGGGCTGGCCGGTCAGCACGGCGACACGCTGGATCCTACCGCGGTGGAAGGGTTATCGG GCAAAGCCTACGCCATTCCGCACGTTCGTATCGCGCAGATTTATCATAAAGGCCCGGTGC GGCTGGGTTACTGGCGATCGGTCGGCAATTCGATGAATGACTTTTTCTATGAATGCTTCC TCGATGAAATTGCCGAGCGGGGCAGGCTCGATCCGATGGCGCTCAGGCTGCATCTGCTGC
Output: contig, eventualmente in ordine di dimensione (decrescente)
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Output summaryFormato: FASTA contigs
Sequenze: 159
Totale basi: 4.97 Mbp (~70X)
Lunghezza media: 31.26 kb
N50: 103 kb
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Predizione genicaLa ricerca di regioni codificanti
Viene fatta con modelli matematici, generalmente con un training set
Ci fornisce le coordinate dei geni
Per i batteri Glimmer3
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Output di Glimmer3>contig00001 length=381398 numreads=107891 orf00001 381318 42 +1 2.14 orf00003 72 2207 +3 12.84 orf00004 2232 2882 +3 12.45 orf00006 3282 3569 +3 13.34 orf00007 3735 4952 +3 18.89 orf00008 5019 5966 +3 14.28 orf00009 6015 6500 +3 12.14 orf00011 6509 7258 +2 15.23 orf00012 7653 7772 +3 4.67 orf00013 7651 7310 -2 14.63 orf00014 8062 7892 -2 0.92 orf00015 9139 8321 -2 5.61 orf00017 10407 9196 -1 6.34 orf00021 11793 11419 -1 13.01 orf00022 12266 13387 +2 13.84 orf00023 13508 14086 +2 13.78 orf00024 14960 14073 -3 15.20 orf00025 15052 15366 +1 15.60 orf00026 15357 15746 +3 15.27 orf00028 15743 16279 +2 15.66
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Come si annotano? Un esempio
>contig00001 length=381398 numreads=107891 orf00001 381318 42 +1 2.14 orf00003 72 2207 +3 12.84 orf00004 2232 2882 +3 12.45 orf00006 3282 3569 +3 13.34 orf00007 3735 4952 +3 18.89 orf00008 5019 5966 +3 14.28 orf00009 6015 6500 +3 12.14 orf00011 6509 7258 +2 15.23 orf00012 7653 7772 +3 4.67 orf00013 7651 7310 -2 14.63 orf00014 8062 7892 -2 0.92 orf00015 9139 8321 -2 5.61 orf00017 10407 9196 -1 6.34 orf00021 11793 11419 -1 13.01 orf00022 12266 13387 +2 13.84 orf00023 13508 14086 +2 13.78 orf00024 14960 14073 -3 15.20 orf00025 15052 15366 +1 15.60 orf00026 15357 15746 +3 15.27 orf00028 15743 16279 +2 15.66
<Hit_num>1</Hit_num> <Hit_id>gnl|BL_ORD_ID|951553</Hit_id> <Hit_def> |27544250|dbj|BAC54899.1| aldehyde oxidase small subunit [Methylobacillus sp. KY4400] </Hit_def> <Hit_accession>951553</Hit_accession> <Hit_len>162</Hit_len> …
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Come si arriva fin qui?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
E se facciamo lo scaffolding?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Uno scaffold è una lista ordinata di contig
Non aggiunge sequenze nuove…
…ma permette di farlo (Gap Filling)
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014
Riassumendo
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014
Due esempi
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Organismo: microalga (~30Mb)
Obiettivo:studio metabolismo
Correva l’anno: 2009
Approccio misto:454 (shotgun)SOLiD (mate pair)
Contig 43 kb
Scaffolds1.01 Mb
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Organismo: batterio patogeno
Obiettivo:confronto con reference
Correva l’anno: 2014
Approccio: Illumina MiSeq (2x300)
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Organismo: batterio patogeno
Obiettivo:confronto con reference
Correva l’anno: 2014
Approccio: Illumina MiSeq (2x300)
Assemblaggio
Mapping su reference (regioni coperte)
Mapping su contig delle sequenze non mappate sul reference
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014
Regioni assenti nel reference
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014
Polimorfismi
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Unmapped
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014
Perché?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Perché?• Punto di partenza per approfondire
la biologia molecolare (disegno primer, ricerca di geni e promotori)
• Genomica comparata
• Cerco un gene (che non ho trovato)
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Lavorare con organismi modello rende la vita più semplice
MA
Sequenziare un genoma non ti mette automaticamente in questa situazione
Perché?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014
Quali aspettative?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS 14 novembre 2014
Quali aspettative?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Check listCosa voglio fare? (= che output)
Quando DNA serve?
Che tipi di librerie? Quale strumento?
Che analisi mi servono?Come gestirò l’output?
Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi
Minicorsi NGS Bioinformatics Specialist
Domande?