Università degli Studi di Verona - GENETICA DELLE...
Transcript of Università degli Studi di Verona - GENETICA DELLE...
“Predisposizione” Genetica
interazione
AMBIENTE
● Diagnosi● Prevenzione● Terapia efficiente e sicura
Si sono identificati centinaia di loci associati alla variabilità di molti caratteri (linkage, associazione - GWAS)
NELLE MALATTIE COMPLESSE IL RISCHIO DI MALATTIA È INFLUENZATO DA FATTORI GENETICI E DA FATTORI AMBIENTALI
CARATTERE COMPLESSO
Come studiare il fattore genetico nelle malattie
complesse?
Modalità?
ANALISI DI LINKAGE (studio attraverso la segregazione di marcatori del DNA)
ANALISI DI ASSOCIAZIONE(guilty by association)
Nostro interesse per oggi
Studio di associazione in breve
è maggiormente frequente nei casi rispetto a
Controlli Casi
ASSOCIAZIONE
Individuo con “genotipo” rosso
Individuo con “genotipo” nero
NOTA: Con lo studio di associazione si possono studiare caratteri sia qualitativi (affetto/non affetto : frequenza del genotipo tra i 2 gruppi?) che quantitativi (medie del valore dei livelli di un dato parametro per i diversi genotipi)
GWAS - caratteristicheVantaggiNessuna ipotesi/conoscenza a priori del problema biologico
Richieste➢ Dimensione del campione molto grande (>>1000) ➢ Alta risoluzione (milioni di mkrs)➢ Replica dei risultati in un campione indipendente
Problematiche● Grande quantità di dati (individui, fenotipi, marcatori DNA)● Controllo di qualità (campioni, popolazioni, marcatori) ● Possibile stratificazione del campione (controlli adatti)● Statistica da utilizzare (modello genetico, singolo locus)● Test multipli (>>100000 test eseguiti)
ESEMPIO DI GWAS: Bone-mineral-density loci
Nature Genetics 41, 1199 - 1206 (2009)
GWA & Variabilità tra popolazioni
YRI
CEU
JPT
CHB
EJHG 2008, 16:1413-1429
http://www.genome.gov/gwastudies/
http://www.genome.gov/gwastudies/
SI SINTETIZZA IL GRANDE NUMERO DI CARATTERI STUDIATI RIASSUMENDOLI IN CATEGORIE
SI SINTETIZZA IL GRANDE NUMERO DI CARATTERI STUDIATI RIASSUMENDOLI IN CATEGORIE
LD & GWAS & PREDIZIONE
SNPs associati a più Caratteri (Complessità)
GWAS – BMD misurata in 2 aree
Nature Genetics 41, 1199 - 1206 (2009)
GWAS – LOCI nuovi e già noti
Nature Genetics 41, 1199 - 1206 (2009)
GWAS – LOCI nuovi e già noti
Nature Genetics 41, 1199 - 1206 (2009)
Meta-Analisi per i loci identificati
Nature Genetics 41, 1199 - 1206 (2009)
BMD e numero di alleli di rischio
La distribuzione del numero di alleli di rischio portati da un individuo si avvicina alla curva a campana
Il valore di BMD (espresso in Z-score), in media, si riduce all'aumentare del numero di alleli di rischio!! (ricorda il modello a soglia)
http://www.ncbi.nlm.nih.gov/pubmed/
Representation of the connections between SNPs and corresponding genes for the 42 SNPs withGRAIL (p < 0.01). Thicker and redder lines imply stronger literature-based connectivity.
doi:10.1038/nature09410
PATHWAYSPotenziali target
L'eredità mancante dei GWAS
L'EREDITABILITÀ MANCANTE
I loci individuati dai GWAS spiegano in genere una ridotta quantità della variabilità legata alla componente genetica (ereditabilità; < ~20%)
La parte mancante viene scherzosamente definita la MATERIA OSCURA dei GWAS perchè si è sicuri che esista, si vede il suo effetto, ma NON si riesce a vederla.
Nota: L'ereditabilità dei caratteri quantitativi (h^2: prop di varianza attribuibile ai fattori genetici addittivi) è tipicamente stimata dagli studi familiari e quindi il suo valore potrebbe variare nei diversi ambienti
LIPIDI: geni con varianti comuni e con varianti rare
Il rischio determinato tramite gli SNP potrebbe sottostimare il rischio associato alle vere varianti causali
Es: 11 dei 30 geni attualmente associati a variazioni dei livelli di lipidi possono anche presentare degli alleli rari che sono associati a forme Mendeliane di dislipidemia (ABCA1, PCSKA9, LDLR): geni con varianti comuni associate ad effetti lievi possono anche portare varianti rare associate a forti effetti
Geni & Alzheimer disease
178 mutazioni diverse in 393 famiglie
[associato a demenza frontotemporale]
Diverse malattie diversi modelli
L'architettura allelica (numero, tipo, effetto, frequenza) potrebbe essere diversa nei diversi fenotipi:
Age-related macular degeneration: numero ridotto di varianti comuni con un forte effetto (OR > 2)
Crohn's disease: numero abbondante di varianti comuni con un lieve effetto (OR << 2; e molto rimane ancora da identificare)
Il numero delle varianti comuni identificate aumenta con l'aumentare delle dimensioni del campione analizzato.
Fondatori di Google:Larry Page Linda AveySergey Brin ↔ Anne Wojcicki
Fondatori di 23andMe:
Privacy: trovata una scappatoia nei database genetici
L'identità di alcuni donatori di DNA potrebbe essere svelata tramite le informazioni presenti nei database pubblici
Un gruppo di ricerca è stato in grado di scoprire l'identità di alcuni donatori del genoma incrociando i dati dei loro marcatori genetici (DNA) con informazioni demografiche in banche dati pubbliche:
1. Un programma chiamato lobSTR estrae informazioni sugli aplotipi ricostruiti tramite marcatori genetici del cromosoma Y (il sistema funziona quindi con i soli maschi)
2. Gli aplotipi sono inseriti in banche di dati genealogici per trovare i possibili cognomi del donatore.
3. Questi cognomi, insieme alle informazioni circa l'età e la posizione di un donatore del DNA, possono essere inseriti in banche dati demografici per individuare identità dell'individuo.
GENOMICA TRASCRITTOMICA EPIGENETICA
WHOLE GENOMEDe novo sequencing
WHOLE GENOMERe- sequencing
ESOMA (~50MB)
RNA-Seq
small RNA
WHOLE GENOMEBisulfite sequencing
MeDIP - Sequencing
ChIP - Sequencing
Genotyping
OMICHE
HUMAN GENOME
HUMAN GENOME
Trascritti
Geni codificantiGeni non codificantiPseudogeni
3.1 GBp
50M di varianti corte
10M di varianti strutturali
Nature Genetics 42, 13–14 (2010) doi:10.1038/ng0110-13
Exome sequencing makes medical genomics a reality
Sequenziamento (Next Generation Seq)
ALLA RICERCA DELLA VARIANTE DAMAGING
Seleziono i migliori candidatiSeleziono i migliori candidati
Se sono già descritti come polimorfismi comuni allora NON mi interessano
ANALISI BIOINFORMATICAConservazioni in specie omologhe, alterazioni della struttura 3D, interazioni con il sito di legame, etc ...
FILTRARE LE VARIANTI PER INDIVIDUARE LE MIGLIORI CANDIDATE
VARIANTI RARE CANDIDATE
GENOMA UMANO: regioni conservate
● 3-8% del genoma umano è dato da sequenze conservate che si trovano nei vertebrati e/o altri mammiferi euteri
● D. melanogaster : 37-53%● C. elegans : 18-37%● S. cerevisiae : 47-68%
http://www.genome.org/cgi/doi/10.1101/ gr.3715005.
46
• A human gut microbial gene catalogue established by metagenomic sequencing
• TotalDNA from faecal samples of 124 European adults
• 576.7 Gb of sequence
• Predicte 3.3 million uniqueopen reading frames (ORFs)
Mar 2010
MetaHIT project
CARATTERISCHE DEI LGC E DEI HGC
2 gruppi di individui che differisco per il numero di geni microbici (ricchezza di batteri
intestinali)
Gli indivui con una bassa ricchezza batterica (23% degli individui studiati) sono
caratterizzati da una più marcata adiposità generale, insulina resistenza e dislipidemia, da
un più pronunciato fenotipo infiammatorio.
Gli individui obesi guadagnano più peso nel tempo si presentano una bassa ricchezza
batterica
I 2 gruppi possono essere distinti utilizzando un piccolo sottogruppo di batteri (anche per
magri ed obesi)
22
1999, BGI-Beijing
2001, BGI-Hangzhou
2007, BGI-Shenzhen
2009, BGI-HongKong
2010, BGI-Wuhan
2010, BGI-San Francisco
2010, BGI-Copenhagen
BGI wet lab
51
Facilities:
• 137 Illumina Hi-Seq 2000
• 27 Life Tech SOLiD 4
• 16 AB/3730xl
• 2 Illumina iScan (2010)
Data production:
• ~5 Tb / day (end of 2010)
• About 50 human genome (30X) per day
BGI dry lab (~2010)
52
# CPUS Flops RAM Storage
2009.01 1,500 18T 4TB 2PB
2009.08 3,000 50T 10TB 5PB
2009.12 5,000 100T 20TB 10PB
2010.09 50,000 1,000T 200TB 1,000PB
LA NOSTRA STANZA CON IL NOSTRO SERVER (2013)
Dr. Craig Venter
LA RIVOLUZIONE GENOMICA secondo Craig Venter:
➢ Il primo genoma rappresenta la linea di partenza➢ Almeno 10000 genomi + fenotipi per poter parlare di medicina preventiva