Analisi di variabilità genomica: risorse e metodi per l'analisi dei dati

49
Analisi di variabilità genomica: risorse e metodi per l'analisi dei dati [email protected] Dip.Biochimica e Biologia Molecolare 23-marzo-2006

description

Analisi di variabilità genomica: risorse e metodi per l'analisi dei dati. [email protected] Dip.Biochimica e Biologia Molecolare 23-marzo-2006. Variabilità è un termine a cui è associata una enormità di problematiche scientifiche e culturali. - PowerPoint PPT Presentation

Transcript of Analisi di variabilità genomica: risorse e metodi per l'analisi dei dati

Page 1: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Analisi di variabilità genomica:

risorse e metodi per l'analisi dei dati

[email protected] Dip.Biochimica e Biologia Molecolare

23-marzo-2006

Page 2: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Variabilità è un termine a cui è associata una enormità di

problematiche scientifiche e culturali.

In questa lezione verrà posta l’enfasi sulla variabilità intra-specie umana

(human diversity)

Variabilità inter-specie Variabilità intra-specie

Page 3: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Variabilità Umana

• La variabilità umana rappresenta i “range” di possibili valori associati ad ogni caratteristica misurabile, fisica o mentale, dell’essere umano.

• Le differenze fra tali valori possono essere irrilevanti o significative, transitorie o permanenti, volontarie o involontarie, congenite o acquisite, genetiche o ambientali.

• L’insieme di tali differenze rendono ognuno dei 6,5 miliardi di individui che popolano il pianeta terrestre diverso da tutti gli altri.

Page 4: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Variabilità Genetica

• La variabilità genetica è determinata dalle mutazioni che rendono due individui diversi.

• Il Genoma Umano nucleare di due individui è conservato per il 99,9%, il rimanente 0,1% racchiude quelle differenze che rendono i due individui diversi.

• Studiare tali differenze consente di…

Page 5: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

……..

– comprendere le cause molecolari delle malattie genetiche

– studiare le origini dell’uomo – studiare le migrazioni delle popolazioni

attuali

Page 6: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Tali studi sono stati condotti da che si sono scoperte le leggi fondamentali della genetica e quindi dell’ereditarietà ma l’avvento della Genomica ha dato un enorme impulso a tali studi sia per quanto riguarda la quantità di informazioni disponibili che per quanto riguarda l’accuratezza delle stesse che oggi consentono di effettuare le analisi ad un livello molto più puntuale.

Page 7: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

La variabilità genetica deriva dall’esistenza

delle mutazioni

Page 8: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Variabilità

• Percentuale di siti che mutano rispetto al totale nel confronto “pairwise”

1. Genoma Umano nucleare: mediamente 0,1%. 2. Genoma Umano mitocondriale: mediamente 0,3%.

• Variabilità media : n. di siti varianti, rispetto al numero di siti totali costituenti il genoma, osservati in un gruppo di individui

1. Variabilità media nucleare umana: 10MSNPs/3000Msiti*100 = 0,3% (il n. di individui e popolazioni è difficile da stimare)

2. Variabilità media mitocondriale : 3466SNPs/16570siti*100= 21% su 2150 genomi mt umani

Page 9: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Mutazione

Alterazione della sequenza di DNA causata da – fattori naturali

– fattori ambientali

Page 10: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Mutazione

• Mutazioni di singolo nucleotide, delezioni o

inserzioni di corti frammenti nucleotidici causano alterazioni in un singolo gene.

• Mutazioni di grossi frammenti cromosomiali dovuti a delezioni, inserzioni o inversioni sono dette aberrazioni e coinvolgono più geni e quindi proteine.

Page 11: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Mutazioni di singolo nucleotide, delezioni o inserzioni di corti

frammenti nucleotidici causano alterazioni in un singolo gene.

– fattori naturali (errori durante la

replicazione : mismatch) – fattori ambientali (modificazioni

chimiche dei nucleotidi) • Nel caso dei mismatch il sistema di riparo può riconoscere

le mutazioni e correggerle, altrimenti le mutazioni si fissano e vengono trasmesse alle progenie.

Page 12: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Mutazioni di singolo nucleotide e delezioni o inserzioni di corti frammenti nucleotidici causano

alterazioni in un singolo gene.

• Mutazioni missenso o non sinonima (sostituzione di un nucleotide che cambia un aa in un altro)

• Mutazioni non senso (sostituzione di un nucleotide che cambia un aa in un codone di STOP)

• Mutazione sinonima (sostituzione di un nucleotide nell’ambito della stessa famiglia di codoni)

• Mutazioni con slittamento causano l’inserimento o la delezione di piccole stringhe. Può verificarsi in qualsiasi parte del genoma ma sono preferite regioni già ripetute che favoriscono lo scivolamento.

Page 13: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

• Una mutazione può causare l’acquisto di una nuova funzione (positiva) o la riduzione o perdita di una funzione (negativa).

• Una mutazione può manifestarsi in modo più o meno forte • Una mutazione può manifestarsi subito o con effetto ritardato.• Mutazione costitutiva che sopprime la regolazione su un gene

o un gruppo di geni• Mutazione leaky ….

Comunque una mutazione è un cambio del genotipo che produce variabilità influenzando più o meno il fenotipo.

Page 14: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Allele ogni possibile stato associabile

ad un locus genico• Nel caso del singolo sito di DNA possiamo avere 4 alleli

(A,C,G,T)• Il numero di alleli possibili in un organismo n-ploide è n

Page 15: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Genotipo set di alleli che un individuo

presenta su di un locus genico

• Nel caso del singolo sito di DNA il numero di genotipi possibili per un organismo n-ploide è dato da 4exp(n).

• Nel caso dell’uomo potremmo avere 16 genotipi diversi.

Page 16: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Polimorfismo presenza su un locus

genomico di due o più alleli

•RFLP : Restriction Fragment Lenghth Polymorphism

•Microsatelliti: sequenze ripetute in tandem lunghe fino a 150bp, con una unità di 13 bp

•STS: sequence tagged sites (sequenza lunga da 200 a 500 kb unica nel genoma)

•SNP : Single Nucleotide Polymorphism

Page 17: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Polimorfismo

Secondo la definizione classica di polimorfismo l’allele più raro

dovrebbe avere una frequenza minima pari a 1%

L’eterozigosità misura il grado di polimorfismo sulla base delle

frequenze dei genotipi.

Page 18: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

APLOTIPOAPLOTIPOinsieme di sequenze relative ad una

definita regione genomica riportanti un

set di polimorfismi completamente

coincidenti rispetto ad un riferimentoRiferimento ATGACAGTG

Campione # 1 AACTGATTA Campione # 2 AACTGATTA Campione # 3 AACTGATTA Aplotipo ACampione # 4 AACTGATTA

Page 19: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

APLOGRUPPOAPLOGRUPPO

insieme di APLOTIPI accomunati da un set di siti polimorfici portanti lo stesso allele ereditati dal loro comune ancestore

Aplotipo A AACTGATTA Aplotipo B ACCTGTATG Aplotipo C ATCTGATTA

Aplotipo D ACCTGGTTT Aplotipo E TACTGATTA

123456789

I siti marcati con i numeri gialli definiscono l’aplogruppo

Page 20: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

tag SNPs e Aplotipi

• Sono stati mappati 10M SNPs nelle popolazioni umane.

• Alleli di SNPs associati definiscono l’aplotipo

• Gran parte delle regioni cromosomiche sono caratterizzate da aplotipi molto rari (frequenza max 5%).

• Tali regioni contengono diversi SNPs ma quelli che definiscono l’unicità dell’aplotipo sono chiamati tag SNPs

Page 21: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Variabilità Genetica

• Si ricordano le differenze fra– erditarietà genetica mendeliana (genoma

nucleare)– ereditarietà genetica citoplasmatica (genoma

mitocondriale)

• Nell’ambito del genoma nucleare un ruolo particolare ha il cromosoma Y.

• Ricordiamo infatti che…

Page 22: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

…nel genoma nucleare

cromosomi differenti segregano indipendentemente durante la meiosi

1. tratti fenotipici (normale o mutante) controllati da geni localizzati su cromosomi differenti segregano indipendentemente

2. tratti fenotipici controllati da geni che segregano insieme con frequenze più alte dell’atteso sono associati (linked)

3. a causa della ricombinazione non è detto che geni localizzati sullo stesso cromosoma siano associati

4. l’analisi di linkage fornisce una misura della probabilità che due loci siano associati.

5. il cromosoma Y è presente solo nei maschi e quindi viene ereditato solo per via patrilineare, inoltre il cromosoma Y ha una regione estesa che non ricombina

Page 23: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

…nel genoma mitocondriale

• l’eredità è citoplasmatica e materna: il mitocondrio si duplica in interfase nel citoplasma (eredità citoplasmatica) e durante la meiosi è l’uovo che trasferisce il citoplasma allo zigote (eredità materna)

• il genoma mitocondriale non ricombina• il mitocondrio è presente in copie multiple nel citoplasma

e ogni mitocondrio possiede più copie del genoma (all’incirca 10 nell’uomo)

• se il genoma mitocondriale subisce delle mutazioni eteroplasmia (% di molecole mutate rispetto al “wild-type” )

• la segregazione delle molecole mutate rispetto al wild type è random o dipende da fattori specifici? (Chinnery et al., Trends in Genetics Volume 16, Issue 11 , 1 November 2000, Pages 500-505)

Page 24: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Variabilità Genetica

L’avvento delle tecniche di sequenziamento prima e della Genomica poi hanno dato un impulso sempre più crescente agli studi di genetica di popolazione e alla comprensione dei meccanismi molecolari associati alle malattie genetiche.L’oggetto di osservazione su cui ci si è concentrati ha dimensioni differenti nel caso del genoma nucleare rispetto al genoma mitocondriale.

Genoma nucleare SNPsGenoma mitocondriale la sequenza dell’intero

genoma

Page 25: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Genomica Mitocondriale

Page 26: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

DEAF 1555G

MELAS 3243G

LHON 3460A

MERRF 8344GNARP 8993 G/C

LHON 11778A

LHON 14484C

LHON 14459A

0 / 16569 P

END6

S

Q

AN OLCY

PL

OH T

Cyt bCyt b

ND5ND5

LS

H

ND4ND4

ND4LND4LR

ND3ND3G

COIIICOIII

ATPase6ATPase6ATPase8KCOIICOIID

COICOI

W

ND2ND2

M

I

ND1ND1

L

16s16srRNArRNA

V

12s12srRNArRNA

PH F

Complex I genes(NADH dehydrogenase)

Complex IV genes(cytochrome c oxidase)

Complex III genes(ubiquinol: cytochrome c oxidoreductase)

Complex V genes(ATP synthase)

Transfer RNA genes

Ribosomal RNA genes

5 kb deletionKSS

The Human Mitochondrial DNA MapThe Human Mitochondrial DNA MapFrom MITOMAP http://www.gen.emory.edu/mitomap.html

Page 27: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

HSP

LSP

ETAS domain

C

C

C

C

C

C

5'OH 3'

3 2 1

CSB domain Central conserved domain

ETASs

12

CSBs

RNA DNA

5' 3'tRNAPhe

tRNAPro

Schematica rappresentazione dellaSchematica rappresentazione della regione D-loop nei mammiferiregione D-loop nei mammiferi

HVS 1HVS 2

mtRNApol+mtTFA

mrp

H

strand

L stran

d

mtRNAprocessing

Page 28: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Genoma mitocondriale• Per le caratteristiche precedentemente descritte del

mitocondrio, gli studi di genetica popolazione si sono fortemente concentrati sul mitocondrio.

• Prima dell’avvento della genomica, i genetisti popolazionali hanno utilizzato come marcatori le sequenze delle regioni HVS1 e HVS2 del D-loop e i polimorfismi RFLP della regione codificante.

• La regione HVS1 è stata sequenziata in un elevatissimo numero di popolazioni (in GenBank sono annotate circa 11000 sequenze relative al D-loop o a sue parti).

• Ciò ha permesso la individuazione, su un elevatissimo numero di popolazioni mondiali, degli aplotipi e quindi degli aplogruppi mitocondriali.

• Analogamente è stato condotto uno screening a largo raggio della regione codificante attraverso gli RFLP.

• Gli studi più recenti sul D-loop ….

Page 29: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati
Page 30: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Group IGroup I

Group IIGroup II

Group IIIGroup III

Page 31: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Genoma mitocondriale

• Il sequenziamento dei genomi mitocondriali completi ha consentito una classificazione più fine degli aplogruppi.

• 2150 genomi disponibili relativi ai 5 continenti.

• La classificazione degli aplogruppi

Page 32: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

La risorsa genomica mitocondriale HmtDB

Page 33: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

HmtDBVariabilità sito specifica e

classificazione degli aplogruppi

• Siti del mtDNA con valori di variabilità discriminanti in una particolare area geografica, rispetto al resto del mondo, fungono da marcatori molecolari di aplogruppi localizzati nella specifica area.

Page 34: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

L’algoritmo MSD per il riconoscimento dei siti marcatori

• I dati ottenuti da Site_Var sono quindi analizzati con uno script che calcola il parametro MSD (Mean Simple Deviation) al fine di quantificare i “valori di variabilità discriminanti”

• Siti con MSD maggiori di una prefissata soglia sono con molta probabilità marcatori di aplogruppi.

• Abbiamo così individuato 81 siti caratterizzanti nuovi sottoaplogruppi

MSD i,k =

4

1j

j

i

k

i4/(

Page 35: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

DEAF 1555G

MELAS 3243G

LHON 3460A

MERRF 8344GNARP 8993 G/C

LHON 11778A

LHON 14484C

LHON 14459A

0 / 16569 P

END6

S

Q

AN OLCY

PL

OH T

Cyt bCyt b

ND5ND5

LS

H

ND4ND4

ND4LND4LR

ND3ND3G

COIIICOIII

ATPase6ATPase6ATPase8KCOIICOIID

COICOI

W

ND2ND2

M

I

ND1ND1

L

16s16srRNArRNA

V

12s12srRNArRNA

PH F

Complex I genes(NADH dehydrogenase)

Complex IV genes(cytochrome c oxidase)

Complex III genes(ubiquinol: cytochrome c oxidoreductase)

Complex V genes(ATP synthase)

Transfer RNA genes

Ribosomal RNA genes

5 kb deletionKSS

The Human Mitochondrial DNA MapThe Human Mitochondrial DNA MapFrom MITOMAP http://www.gen.emory.edu/mitomap.html

Page 36: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Le mutazioni mitocondriali patologiche

• MITOMAP

Page 37: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

• Leberhaplogroup

Page 38: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Febbraio 2001 : pubblicazione del Genoma Umano

Consorzio pubblico Celera Genomics

Page 39: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Il progetto Genoma Umano ha posto le basi e ha creato le premesse per lo studio sistematico della variabilità umana– Human Diversity (pre Genoma)– HapMap– National Geographic

I grandi progetti Antropo-molecolari

Page 40: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Human Genome Diversity ProjectHGDP

Progetto lanciato agli inzi degli anni 90 con l’obiettivo di raccogliere in maniera sistematica e su larga scala campioni biologici relativi a popolazioni rappresentative di tutto il globo terrestre per la comprensione dei meccanismi che hanno generato e genereranno in futuro la variabilità umana per scopi culturali ma anche e soprattutto di interesse biomedico.

Il lancio di tale progetto ha provocato numerosi dibattiti per le problematiche etiche connesse soprattutto in relazione al campionamento di popolazioni indigene per le quali si temeva un utilizzo commerciale dei campioni.

Nature Reviews Genetics 6, 333-340 (2005); doi:10.1038/nrg1596   THE HUMAN GENOME DIVERSITY PROJECT: PAST, PRESENT AND FUTURE L. Luca Cavalli-Sforza    

Page 41: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Human Genome Diversity ProjectHGDP

•Superati i problemi etici sono state raccolte per le popolazioni indigene linee cellulari di linfoblastomi

•Il lancio vero e proprio del progetto nel 2002.

•Il CEPH raccoglie i campioniNature Reviews Genetics 6, 333-340 (2005); doi:10.1038/nrg1596   THE HUMAN GENOME DIVERSITY PROJECT: PAST, PRESENT AND FUTURE L. Luca Cavalli-Sforza    

Page 42: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

52 popolazioni raccolte nel progetto HGDP

Page 43: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

HGDPprimi risultati

377 polimorfismi di microsatelliti relativi a 1056 individui di 52 popolazioni

Page 44: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Il progetto Genoma Umano ha posto le basi e ha creato le premesse per lo studio sistematico della variabilità umana– Human Diversity (pre Genoma)– HapMap– National Geographic

I grandi progetti Antropo-molecolari

Page 45: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

HapMap Project

Finalità : catalogare e rendere pubblicamente disponibili aplotipi del genoma umano relativi a specifiche regioni del cromosoma per effettuare studi di associazione finalizzati al riconoscimento di geni associati a malattie o il loro ruolo nella risposta al farmaco.

Partecipanti

Popolazioni : 4 popolazioni per un totale di 270 campioni

Pubblicazioni

Accesso ai dati : Mart Browser   

Page 46: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Il progetto Genoma Umano ha posto le basi e ha creato le premesse per lo studio sistematico della variabilità umana– Human Diversity (pre Genoma)– HapMap– National Geographic

I grandi progetti Antropo-molecolari

Page 47: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Progetto lanciato dalla NG society e supportato dall’IBM e dalla Waitt Family FoundationRaccoglierà campioni relativi a 1000 popolazioni indigene per approfondire le conoscenze sulla diffusione dell’uomo nella preistoria

Page 48: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Le risorse Bioinformatiche per la Human Diversity

• dbSNP : http://www.ncbi.nlm.nih.gov/projects/SNP/ • deCODE : http://www.decode.com/ • EMPOP : http://www.empop.org/ • Ensembl : http://www.ensembl.org • HapMap http://www.hapmap.org• HmtDB : http://www.hmdb.uniba.it• Human Diversity : http://www.stanford.edu/group/morrinst/hgdp.html • MitoMAP: http://www.mitomap.org • mtDB : http://www.genpat.uu.se/mtDB/ • mtSNP : http://www.giib.or.jp/mtsnp/search_home_e.html • OMIM : http://www.ncbi.nlm.nih.gov/OMM • UCSC : http://genome.ucsc.edu/

Page 49: Analisi di variabilità genomica:  risorse e metodi per l'analisi dei dati

Eredità materna del DNA mitocondriale

back