Sequenziamento e analisi bioinformatica del genoma umano

109
Sequenziamento e Analisi Bioinformatica del Genoma Umano Frederic Reinier [email protected] Sala Auditorium, Via Roma 253 Cagliari 11/05/2011 venerdì 13 maggio 2011

description

by Frederic Reinier (CRS4)What is human genome and what is sequencing....structure and steps in sequencing workflow..

Transcript of Sequenziamento e analisi bioinformatica del genoma umano

Page 1: Sequenziamento e analisi bioinformatica del genoma umano

Sequenziamento e Analisi Bioinformatica del Genoma

Umano

Frederic Reinier

[email protected]

Sala Auditorium, Via Roma 253 Cagliari

11/05/2011

venerdì 13 maggio 2011

Page 2: Sequenziamento e analisi bioinformatica del genoma umano

3

• Cos’è il genoma umano ?– 46 cromosomi distinti (22 coppie di autosomi + X + Y) – ∼3,2 miliardi di paia di basi A-T e G-C.– ∼20,000–25,000 geni.

venerdì 13 maggio 2011

Page 4: Sequenziamento e analisi bioinformatica del genoma umano

• Sequenziamento “ad alta processività”

• Vantaggi delle piattaforme di nuova generazione

• Rivoluzionaria diminuzione del costo e del tempo per generare dati di sequenza (lavorano in multi‐parallelo)

– 10 Giorni per sequenziare il genoma di un individuo

• Richiesta meno robotica nelle fasi precedenti al caricamento sul sequenziatore

• Eccezionale risoluzione per molti tipi di esperimenti (es. analisi di espressione, sequenziamento di DNA immunoprecipitato e di micro RNA, analisi di medie/grandi inserzioni‐delezioni nei genomi....)

5

venerdì 13 maggio 2011

Page 5: Sequenziamento e analisi bioinformatica del genoma umano

6

•Work!ow del sequenziamento

venerdì 13 maggio 2011

Page 6: Sequenziamento e analisi bioinformatica del genoma umano

6

•Work!ow del sequenziamento

venerdì 13 maggio 2011

Page 7: Sequenziamento e analisi bioinformatica del genoma umano

6

•Work!ow del sequenziamento

venerdì 13 maggio 2011

Page 8: Sequenziamento e analisi bioinformatica del genoma umano

7

•Primo Step - Preparazione del DNA

venerdì 13 maggio 2011

Page 9: Sequenziamento e analisi bioinformatica del genoma umano

8

venerdì 13 maggio 2011

Page 10: Sequenziamento e analisi bioinformatica del genoma umano

• DNA fragmentation

9

venerdì 13 maggio 2011

Page 11: Sequenziamento e analisi bioinformatica del genoma umano

10

venerdì 13 maggio 2011

Page 12: Sequenziamento e analisi bioinformatica del genoma umano

11

La Flowcell è un supporto in vetro delle dimensioni di un vetrino da microscopio contenente 8 “lane” a loro volta suddivise in 120 “tile” - quadrati in cui è possibile fissare circa 220.000 molecole di DNA.

venerdì 13 maggio 2011

Page 13: Sequenziamento e analisi bioinformatica del genoma umano

12

venerdì 13 maggio 2011

Page 14: Sequenziamento e analisi bioinformatica del genoma umano

13

Nuovo frammento esteso del frammento originale.

frammento originale

venerdì 13 maggio 2011

Page 15: Sequenziamento e analisi bioinformatica del genoma umano

14

venerdì 13 maggio 2011

Page 16: Sequenziamento e analisi bioinformatica del genoma umano

15

venerdì 13 maggio 2011

Page 17: Sequenziamento e analisi bioinformatica del genoma umano

16

venerdì 13 maggio 2011

Page 18: Sequenziamento e analisi bioinformatica del genoma umano

17

venerdì 13 maggio 2011

Page 19: Sequenziamento e analisi bioinformatica del genoma umano

18

venerdì 13 maggio 2011

Page 20: Sequenziamento e analisi bioinformatica del genoma umano

19

venerdì 13 maggio 2011

Page 21: Sequenziamento e analisi bioinformatica del genoma umano

20

Stesso fragmento di DNA = CLUSTERS

venerdì 13 maggio 2011

Page 22: Sequenziamento e analisi bioinformatica del genoma umano

21

CBOT

venerdì 13 maggio 2011

Page 23: Sequenziamento e analisi bioinformatica del genoma umano

21

CBOT

venerdì 13 maggio 2011

Page 24: Sequenziamento e analisi bioinformatica del genoma umano

• Flowcell –contiene i clusters che sono frammenti di DNA.

• Tempo di preparazione–4 ore

• Utilizzo della CBOT–permette l’incorporazione dei frammenti di DNA

sulla !owcell.

22

venerdì 13 maggio 2011

Page 25: Sequenziamento e analisi bioinformatica del genoma umano

23

Secondo Step - Il Sequenziamento

venerdì 13 maggio 2011

Page 26: Sequenziamento e analisi bioinformatica del genoma umano

23

Secondo Step - Il Sequenziamento

venerdì 13 maggio 2011

Page 27: Sequenziamento e analisi bioinformatica del genoma umano

23

Secondo Step - Il Sequenziamento

venerdì 13 maggio 2011

Page 28: Sequenziamento e analisi bioinformatica del genoma umano

23

Secondo Step - Il Sequenziamento

venerdì 13 maggio 2011

Page 29: Sequenziamento e analisi bioinformatica del genoma umano

24

Il laboratorio del CRS4

venerdì 13 maggio 2011

Page 30: Sequenziamento e analisi bioinformatica del genoma umano

2009

25

venerdì 13 maggio 2011

Page 31: Sequenziamento e analisi bioinformatica del genoma umano

• Al interno del sequenziatore 26

venerdì 13 maggio 2011

Page 32: Sequenziamento e analisi bioinformatica del genoma umano

27

Hiseq2000

2010

venerdì 13 maggio 2011

Page 33: Sequenziamento e analisi bioinformatica del genoma umano

28

venerdì 13 maggio 2011

Page 34: Sequenziamento e analisi bioinformatica del genoma umano

29

@ CRS4

venerdì 13 maggio 2011

Page 35: Sequenziamento e analisi bioinformatica del genoma umano

30

venerdì 13 maggio 2011

Page 36: Sequenziamento e analisi bioinformatica del genoma umano

31

venerdì 13 maggio 2011

Page 37: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G

venerdì 13 maggio 2011

Page 38: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G

venerdì 13 maggio 2011

Page 39: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G cycle 1

venerdì 13 maggio 2011

Page 40: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G cycle 1

venerdì 13 maggio 2011

Page 41: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G cycle 1

Y

X

venerdì 13 maggio 2011

Page 42: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G

G

cycle 1

Y

X

venerdì 13 maggio 2011

Page 43: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G

G

cycle 1

Y

venerdì 13 maggio 2011

Page 44: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

G

G

cycle 1

venerdì 13 maggio 2011

Page 45: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

GG

G

cycle 1

venerdì 13 maggio 2011

Page 46: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

GG

G

cycle 1

venerdì 13 maggio 2011

Page 47: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

A

T

GG

T

GT

cycle 1cycle 2

venerdì 13 maggio 2011

Page 48: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

T

GT

cycle 1cycle 2

venerdì 13 maggio 2011

Page 49: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

T

GT

cycle 1cycle 2cycle 3

venerdì 13 maggio 2011

Page 50: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTA

cycle 1cycle 2cycle 3

venerdì 13 maggio 2011

Page 51: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTA

cycle 1cycle 2cycle 3

venerdì 13 maggio 2011

Page 52: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 53: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTACT

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 54: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTACT

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 55: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTACT

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 56: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

C

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 57: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

C

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 58: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

C

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 59: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

C

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 60: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

C

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 61: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 62: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 63: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 64: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 65: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 66: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 67: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

T

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 68: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 69: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCA

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 70: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCAT

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 71: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATG

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 72: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGC

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 73: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCG

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 74: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGT

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 75: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTA

cycle 1cycle 2cycle 3cycle 4

venerdì 13 maggio 2011

Page 76: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTAT

cycle 1cycle 2cycle 3cycle 4

A

venerdì 13 maggio 2011

Page 77: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTAT

cycle 1cycle 2cycle 3cycle 4

A

venerdì 13 maggio 2011

Page 78: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTAT

cycle 1cycle 2cycle 3cycle 4

A

C

venerdì 13 maggio 2011

Page 79: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTAT

cycle 1cycle 2cycle 3cycle 4

A

C

cycle 99

venerdì 13 maggio 2011

Page 80: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTAT

cycle 1cycle 2cycle 3cycle 4

A

C

cycle 99cycle 100

venerdì 13 maggio 2011

Page 81: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTAT

cycle 1cycle 2cycle 3cycle 4

A

C

cycle 99cycle 100

A

venerdì 13 maggio 2011

Page 82: Sequenziamento e analisi bioinformatica del genoma umano

32

T

G

G

G

G

C

C

C

A

T

T

A

AT

GG

TA

GTAC GT

CCT

TCATGC

T

T

G

G

A

TCATGCGTAT

cycle 1cycle 2cycle 3cycle 4

A

C

cycle 99cycle 100

AC

venerdì 13 maggio 2011

Page 83: Sequenziamento e analisi bioinformatica del genoma umano

33

venerdì 13 maggio 2011

Page 84: Sequenziamento e analisi bioinformatica del genoma umano

34

CACAGCAGCTAC

CGATGATCGAC

CTAGCGATCAG

200 GB di basi sequenziate

• 2 Miliardi (2Gbasi) di Clusters sulla !owcell–2 Miliardi di Reads

• 100 Bases per Reads

venerdì 13 maggio 2011

Page 85: Sequenziamento e analisi bioinformatica del genoma umano

• copertura del genoma (coverage)–numero di volte che una base è rappresentata

nell’insieme dei reads

35

venerdì 13 maggio 2011

Page 86: Sequenziamento e analisi bioinformatica del genoma umano

36

• Genome Analyzer (1 !owcell)– genera 96 000 000 000 (96 Miliardi) di basi.– equivalente a 96/3 =~ 32 genomi umani letti una volta.– limitazione a 1 individuo/Lane:

• 32/8 Lanes/2 !owcells =~ 2x di copertura del genoma

venerdì 13 maggio 2011

Page 87: Sequenziamento e analisi bioinformatica del genoma umano

• Hiseq 2000 (2 !owcells)– genera 400 000 000 000 (400 Miliardi) di basi.– equivalente a 400/3 =~ 133 genomi umani letti una

volta.– limitazione a 1 individuo/Lane:

• 133/8 Lanes/2 !owcells =~ 8,3x di copertura del genoma

37

venerdì 13 maggio 2011

Page 88: Sequenziamento e analisi bioinformatica del genoma umano

1 TB (1 TeraByte) = 1 000 USB keys of 1 GB

38

immagine (foto) 32 TB analizza automaticamente

“intensity data”: prima analisi 2 TB si può conservare

base call / quality data

250 GB 250 GB

allineamento 6TB 1.2 TB

per ogni esperimento: 1.45 TB

venerdì 13 maggio 2011

Page 89: Sequenziamento e analisi bioinformatica del genoma umano

39

venerdì 13 maggio 2011

Page 90: Sequenziamento e analisi bioinformatica del genoma umano

40

–OK abbiamo tanti reads, ma come li utilizziamo?–Siamo sicuri che questi dati sono di buona qualita ?

venerdì 13 maggio 2011

Page 91: Sequenziamento e analisi bioinformatica del genoma umano

il formato FASTQ per le sequenze @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Sanger format can encode a Phred quality score from 0 to 93 using ASCII 33 to 126 (although in raw read data the Phred quality score rarely exceeds 60, higher scores are possible in assemblies or read maps). Also used in SAM format.

41

venerdì 13 maggio 2011

Page 92: Sequenziamento e analisi bioinformatica del genoma umano

• Phred-score Quality

42

!"#"#$%&'&(#')*)+

! !"#"$"%&"'()%&"*

! +,"*-./0$,1(./"234'+56

* +,"74,/$14''+8)"/..(."9.(747+'+56"!

Phred quality scores are logarithmically linked to error

probabilitiesPhred Quality Score

Probability of incorrect base call Base call accuracy

10 1 in 10 90 %

20 1 in 100 99 %

30 1 in 1000 99.9 %

40 1 in 10000 99.99 %

50 1 in 100000 99.999 %

venerdì 13 maggio 2011

Page 93: Sequenziamento e analisi bioinformatica del genoma umano

43

Terzo Step - Analisi dei Dati

venerdì 13 maggio 2011

Page 94: Sequenziamento e analisi bioinformatica del genoma umano

43

Terzo Step - Analisi dei Dati

venerdì 13 maggio 2011

Page 95: Sequenziamento e analisi bioinformatica del genoma umano

43

Terzo Step - Analisi dei Dati

venerdì 13 maggio 2011

Page 96: Sequenziamento e analisi bioinformatica del genoma umano

43

Terzo Step - Analisi dei Dati

venerdì 13 maggio 2011

Page 97: Sequenziamento e analisi bioinformatica del genoma umano

44

[14:59 15/6/2009 Bioinformatics-btp324.tex] Page: 1754 1754–1760

BIOINFORMATICS ORIGINAL PAPER Vol. 25 no. 14 2009, pages 1754–1760doi:10.1093/bioinformatics/btp324

Sequence analysis

Fast and accurate short read alignment with Burrows–WheelertransformHeng Li and Richard Durbin!Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Cambridge, CB10 1SA, UK

Received on February 20, 2009; revised on May 6, 2009; accepted on May 12, 2009

Advance Access publication May 18, 2009

Associate Editor: John Quackenbush

ABSTRACT

Motivation: The enormous amount of short reads generated by thenew DNA sequencing technologies call for the development of fastand accurate read alignment programs. A first generation of hashtable-based methods has been developed, including MAQ, whichis accurate, feature rich and fast enough to align short reads from asingle individual. However, MAQ does not support gapped alignmentfor single-end reads, which makes it unsuitable for alignment oflonger reads where indels may occur frequently. The speed of MAQ isalso a concern when the alignment is scaled up to the resequencingof hundreds of individuals.Results: We implemented Burrows-Wheeler Alignment tool (BWA),a new read alignment package that is based on backward searchwith Burrows–Wheeler Transform (BWT), to efficiently align shortsequencing reads against a large reference sequence such as thehuman genome, allowing mismatches and gaps. BWA supports bothbase space reads, e.g. from Illumina sequencing machines, andcolor space reads from AB SOLiD machines. Evaluations on bothsimulated and real data suggest that BWA is "10–20# faster thanMAQ, while achieving similar accuracy. In addition, BWA outputsalignment in the new standard SAM (Sequence Alignment/Map)format. Variant calling and other downstream analyses after thealignment can be achieved with the open source SAMtools softwarepackage.Availability: http://maq.sourceforge.netContact: [email protected]

1 INTRODUCTIONThe Illumina/Solexa sequencing technology typically produces50–200 million 32–100 bp reads on a single run of the machine.Mapping this large volume of short reads to a genome as largeas human poses a great challenge to the existing sequencealignment programs. To meet the requirement of efficient andaccurate short read mapping, many new alignment programshave been developed. Some of these, such as Eland (Cox, 2007,unpublished material), RMAP (Smith et al., 2008), MAQ (Li et al.,2008a), ZOOM (Lin et al., 2008), SeqMap (Jiang and Wong,2008), CloudBurst (Schatz, 2009) and SHRiMP (http://compbio.cs.toronto.edu/shrimp), work by hashing the read sequences andscan through the reference sequence. Programs in this categoryusually have flexible memory footprint, but may have the overhead

!To whom correspondence should be addressed.

of scanning the whole genome when few reads are aligned.The second category of software, including SOAPv1 (Li et al.,2008b), PASS (Campagna et al., 2009), MOM (Eaves andGao, 2009), ProbeMatch (Jung Kim et al., 2009), NovoAlign(http://www.novocraft.com), ReSEQ (http://code.google.com/p/re-seq), Mosaik (http://bioinformatics.bc.edu/marthlab/Mosaik) andBFAST (http://genome.ucla.edu/bfast), hash the genome. Theseprograms can be easily parallelized with multi-threading, but theyusually require large memory to build an index for the humangenome. In addition, the iterative strategy frequently introduced bythese software may make their speed sensitive to the sequencingerror rate. The third category includes slider (Malhis et al., 2009)which does alignment by merge-sorting the reference subsequencesand read sequences.

Recently, the theory on string matching using Burrows–WheelerTransform (BWT) (Burrows and Wheeler, 1994) has drawn theattention of several groups, which has led to the development ofSOAPv2 (http://soap.genomics.org.cn/), Bowtie (Langmead et al.,2009) and BWA, our new aligner described in this article.Essentially, using backward search (Ferragina and Manzini, 2000;Lippert, 2005) with BWT, we are able to effectively mimic the top-down traversal on the prefix trie of the genome with relatively smallmemory footprint (Lam et al., 2008) and to count the number of exacthits of a string of length m in O(m) time independent of the size ofthe genome. For inexact search, BWA samples from the implicitprefix trie the distinct substrings that are less than k edit distanceaway from the query read. Because exact repeats are collapsed onone path on the prefix trie, we do not need to align the reads againsteach copy of the repeat. This is the main reason why BWT-basedalgorithms are efficient.

In this article, we will give a sufficient introduction to thebackground of BWT and backward search for exact matching, andpresent the algorithm for inexact matching which is implementedin BWA. We evaluate the performance of BWA on simulated databy comparing the BWA alignment with the true alignment fromthe simulation, as well as on real paired-end data by checkingthe fraction of reads mapped in consistent pairs and by countingmisaligned reads mapped against a hybrid genome.

2 METHODS

2.1 Prefix trie and string matchingThe prefix trie for string X is a tree where each edge is labeled with a symboland the string concatenation of the edge symbols on the path from a leaf to

© 2009 The Author(s)This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/2.0/uk/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

venerdì 13 maggio 2011

Page 98: Sequenziamento e analisi bioinformatica del genoma umano

• Allineamento con l’algoritmo di BWA– index del genoma di riferimento

• divide il genoma di riferimento in diversi pezzi

– calcolo delle coordinate di “su"x array” con il migliore allineamento sul riferimento index.

– conversione della coordinate di “su"x array” in coordinate “genomica”.

45

venerdì 13 maggio 2011

Page 99: Sequenziamento e analisi bioinformatica del genoma umano

• Data “management” del formato dei reads allineato– il formato SAM e BAM sono de#niti dalla comunità

scienti#ca internazionale.–il programma samtools permette:

• di ordinare i reads secondo le coordinate genomiche di allineamento

• di creare un formato unico (chiamato SAM o BAM) • il formato BAM è la versione “compressa” del formato

SAM.

46

venerdì 13 maggio 2011

Page 100: Sequenziamento e analisi bioinformatica del genoma umano

• GATK– GATK ricalibra ( modifica il Phred-score) lo score delle basi in un file di sequenze allineate • Dopo la ricalibrazione, lo score di ogni sequenza è piu “accurate”, nel senso che la qualità rappresenta la probabilità di non avere allineato correttamente il read sul genoma di riferimento.

• Inoltre, la ricalibrazione prova a correggere la qualità in funzione del ciclo di sequenziamento della machina (efficienza dei reagenti chimici) .

47

venerdì 13 maggio 2011

Page 101: Sequenziamento e analisi bioinformatica del genoma umano

• Controlli di qualita–

48

!"#$%&'(#))*))+*,&

!"!#$!

"%&'()*

+,#&-.&/'&,0&11,2313/'&4,5/,67"7879:69,;<=>,7,"8,;?=>@

+,"AB&C3D&,'A/)5)E&/E,05E%,F3'%5/&,G&CHACF3/'&

+,6B&C3D&,-.315EI,JK,!L=,3E,1&3)E,HAC,H5C)E,M=>,'I'1&)

+,NACF311I,6BD,-.315EI,HAC,E%&,13)E,'I'1&))%A.14,2&,2&E0&&/,OP,3/4,L=

venerdì 13 maggio 2011

Page 102: Sequenziamento e analisi bioinformatica del genoma umano

49

Il genoma di riferimento è una sequenza di DNA assemblato dagli scienziati durante il progetto genoma umano.

venerdì 13 maggio 2011

Page 103: Sequenziamento e analisi bioinformatica del genoma umano

50

venerdì 13 maggio 2011

Page 104: Sequenziamento e analisi bioinformatica del genoma umano

51

venerdì 13 maggio 2011

Page 105: Sequenziamento e analisi bioinformatica del genoma umano

• Programmazione Informatica–numeri linguaggio di programmazione sono usati:

• C• C++• Perl script• Python script• Bash script

• Statistica e Matematica• Competenze in Biologia

52

venerdì 13 maggio 2011

Page 106: Sequenziamento e analisi bioinformatica del genoma umano

•Il sequenziamento del genoma sardo permette di definire i caratteri genetici specifici della popolazione.

•Popolazione Isolata– Assenza sostanziale di sottostruttura di popolazione (basso tasso di immigrazione)

– Presenza di varianti comuni nei sardi e rare o assenti in altre popolazioni

– Nonostante sia una popolazione europea, si comporta come un outlier rispetto alla gamma di variabilità europea

53

venerdì 13 maggio 2011

Page 107: Sequenziamento e analisi bioinformatica del genoma umano

Relatore: Giammarco Cuccuru

Nel campo della ricerca biomedica, si possono veri!care 3 situazioni in grado di generare importanti quantità di dati: l’elevato livello di digitalizzazione dei sistemi informativi sanitari pubblici, la presenza di rilevanti studi di popolazione su larga scala che raccolgono informazioni di tipo fenotipico e clinico e la disponibilità di moderni strumenti d’indagine, come i sequenziatori di nuova generazione, capaci di produrre importanti quantità di dati genomici.

La vastità e l’eterogeneità di questi dati implica necessariamente un nuovo approccio che, separando opportunamente il generico concetto del dato dal suo formalismo, permetta il loro e"ciente utilizzo per l’estrazione di informazioni a bene!cio della ricerca.

Durante il seminario sarà illustrata l’esperienza del CRS4 nell’approccio integrato alla gestione e alla fruizione analitica di grosse quantità di dati biologici e clinici in collaborazione con importanti istituti di ricerca.

Collana di Seminari per la Valorizzazione dei Risultati della Ricerca al CRS4

Info e registrazione: www.crs4.it

DATA FUSIONENERGIA E AMBIENTE

BIOMEDICINA

30.03.2011Seminario 16:00 -18:00 P.M.

AULA MAGNA DIP. FISICA Cittadella Universitaria - Monserrato

RelatoreIlenia ZaraCRS4

Contatti: [email protected]

I recenti sviluppi delle nuove piattaforme sperimentali consentono di studiare le caratteristiche genetiche di intere popolazioni utlizzando volumi di dati sempre crescenti con costi sempre minori. Questo tipo di studi rende necessaria l’interazione tra persone con una formazione medico/biologica e persone con competenze nei campi della statistica e dell’informatica.

Durante il seminario saranno illustrati i concetti genetico-statistici che stanno alla base degli studi GWAS e i risultati di ricerca ottenuti con tale approcio per identi!care varianti genetiche predisponenti al diabete di tipo 1, alla sclerosi multipla e alle malattie autoimmuni in generale, nella popolazione Sarda.

Seguici su:www.facebook.com/crs4fbwww.twitter.com/crs4research

Studi di associazione genetica e disegno sperimentale “caso controllo”:

applicazioni a diabete di tipo 1 e sclerosi multipla nella popolazione Sarda

prossimo appuntamento... 25 Maggio 2011

venerdì 13 maggio 2011

Page 108: Sequenziamento e analisi bioinformatica del genoma umano

Ringraziamenti !!CHRIS JONES

Ilenia ZaraMaria Valentini

Riccardo BeruttiRossano Atzeni

ANDREA ANGIUSMaria Francesca Urru

Manuela OppoRosella Pilu

Marco MarcelliRoberto Cusano

FRANCESCO CUCCASerena SannaCarlo Sidore

PATRICIA RODRIGUEZ-TOMEand her group

LIDIA LEONIand her group

Groups VALE & OUTREACH

venerdì 13 maggio 2011

Page 109: Sequenziamento e analisi bioinformatica del genoma umano

Info e iscrizione: www.crs4.it

Video e slide:

facebook.com/crs4fb

twitter.com/crs4research

slideshare.net/CRS4

youtube.com/CRS4video

contatti: [email protected]

venerdì 13 maggio 2011