Programma
description
Transcript of Programma
Programma
• 1. Equilibrio e fattori di scostamento: linkage disequilibrium e mutazione
• 2. Equilibrio e fattori di scostamento: deriva, flusso genico e selezione
• 3. Mantenimento dei polimorfismi
• 4. Introduzione al coalescente
Programma 3
1. Generalità sul coalescente
2. Un’applicazione
La genetica studia la trasmissione ereditaria dal passato al presente
forward
Ma quando si lavora su popolazioni si raccolgono dati sul presente e si cerca di risalire al passato
? ?
backward
Cos’è un modello?
La teoria coalescente è un modello di evoluzione, vista come processo genealogicoNella teoria coalescente la trasmissione ereditaria viene trattata indipendentemente dal processo di mutazione
Definire il modello
Esplorarne le proprietà
Stimare parametri dai dati
Confrontare dati osservati e attese del modello
Costruiamo (procedendo verso il passato) la genealogia materna di un gruppo di individui
Due possibilità: o ogni individuo ha una madre diversa:
O due individui hanno la stessa madre
Chiamo questo fenomeno coalescenza
Assunzioni del coalescente classico (Kingman 1982)
1. Neutralità2. Siti infiniti3. Se gli individui sono diploidi e le dimensioni della
popolazione sono N, il modello vale per 2N copie aploidi e indipendenti del gene
4. Unione casuale entro la popolazione 5. Dimensioni della popolazione costanti (*)6. Generazioni non sovrapposte
Parliamo di caratteri a trasmissione uniparentale
Ricostruire la storia di una popolazione
Passato
Presente
Genealogie
N = 10N costanten = 69 generazioni
GenealogieMRCA
GenealogieMRCA
Mutazione
Mutazione
1
CAATG
CAATA
CAGTG
TAATA
CAATG CAGTG CAGTGCGGTG TAACA TAATA
TAACA1 2 3 3 4 5
Non sempre l’albero ricostruito sulla base delle mutazioni è molto informativo
2 3 1 4 5
CAATGCGGTG CAGTG TAATA TAACA
Possiamo capire qualcosa di più?
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza.
Conseguenze:
1. In un campione di r individui alla generazione 0, il numero di antenati 1, 2,…n generazioni fa (ξ1, ξ2, ..ξn) decresce fino ad arrivare a 1:
r = ξ0 ξ1 ξ2 , ..ξn
Ogni genealogia viene ricondotta necessariamente a un singolo antenato comune (MRCA). Non è possibile discriminare fra monofilia e polifilia
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:
2. Se la popolazione è stazionaria (N costante), N donne hanno una madre fra le N donne della generazione precedente. La probabilità di coalescenza è vicina a 1/N
N1=8
N0=8?
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:
3. La probabilità P(n) che n alleli abbiano n antenati distinti alla generazione precedente diminuisce con le dimensioni del campione (più grande il campione, più grande la P di almeno un evento di coalescenza)
campione P(ant.com) P(n)
2 1/N 1-(1/N)
3 2/N 1-(2/N)
n n /N
2
1- n /N
2
Dimensioni effettive
A A A AY X X Xmt mt
A A A A
Y X X X
mt mt
4. La dimensione effettiva della popolazione è proporzionale a:
NC = 2NeA = 4NeX = 3NeY = 1Ne mt = 1
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza.
Conseguenze:
5. I tempi medi di coalescenza aumentano procedendo verso il passato
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza.
Conseguenze:
6. Il tempo atteso fra due eventi di coalescenza è distribuito esponenzialmente. E(T)=4N: Wright-Fisher
Tempo atteso per passare da k a (k-1) antenati: Tk = 4N/[k(k-1)], o 2N per geni a trasm. uniparentale
1. Possiamo stimare alcuni parametri: E(TMRCA)=2N= 20 generazioni
2. Possiamo simulare genealogia e mutazioni
1
CAATG CAGTG CAGTGCGGTG TAACA TAATA
1 2 3 3 4 5
Programma 3
1. Generalità sul coalescente
2. Un’applicazione
SE-NW gradients in European allele frequencies (Piazza, 1993)
The starting point: genetic variation
Correlations with archaeology
A map describing the diffusion of Neolithic industries
from Cavalli-Sforza et al. (1994)
Estimated ages of mitochondrial haplogroups (Kyrs)
Richards Sykes Richards et al. 1996 1999 et al. 2000
H(1) 23.5 11.0-14.0 15.0 - 17.2
HV 29.3 - 37.6
J(2A) 23.5 8.5 6.9 - 10.9
T(2B) 35.5 11.0-14.0 9.6 - 17.7
IWX(3) 50.5 11.0-14.0
X: 20.0 I: 19.9 - 32.7
K(4) 17.5 11.0-14.0 10.0 - 15.5
U(5) 36.5 5: 50.0 44.6 - 54.4
Major extant lineages throughout Europe predate the Neolithic expansion
Is the European gene pool derived from the
genes of the first Paleolithic colonisers?
Or did the ancestors of most Europeans live in the Levant before the Neolithic period?
W E W E
There are significant practical implications
Frequency of theF-508 mutation on total CF mutations (from CFGAC 1994)
approx. age52,000 years
Why are genes distributed the way they are?
• Because they could not be distributed otherwise: selection
• Because their distribution reflects demographic history: random genetic drift and migration
How can we tell selection from drift/gene flow?
a. By neutrality tests (Tajima’s D, Fu’s Fs, etc.)
• However: D<0: Excess of rare alleles:
Selection against deleterious alleles or population expansion
• D>0: Excess of intermediate-frequency alleles:
Balancing selection or population bottleneck
How can we tell selection from drift/gene flow?
b. Gene flow, bottlenecks, founder effects, etc. affect all genes equally, whereas selection acts differently upon different genes
• Compare patterns of variation across some of the 30,000 human loci
Difficult to infer migration from studies of single genes
Gene trees, population trees
Gene trees are unknown, but we can reconstructsome of their features assuming mutations occurred at a constant rate (=no selection)
T2=2N
T5=N/5
4N
For nuclear genes, Exp time from k to (k-1) ancestors: Tk = 4N/[k(k-1)] generations (large std. errors)
Population-genetics theory describes the expected features of gene trees in
terms of population parameters
present
past
If two populations are isolated, the final coalescence is 2N generations before the split
Origin of the B population
A B
T2=2N
T: gene divergence
: population divergence
Exp (T) = 4NExp(T2) = 2NExp = T/2
present
past
If there is initial polymorphism, the final coalescence may be much more than 2N generations before the split
Origin of the B population
A B
T>>
T2=2N
: populationdivergence
E(T-) = 2 Ne
generationsT: gene divergence
past
present
Gene divergence predates population divergence: T is equal to only if 2 Ne =0
T
2Ne very small
present
past
Only if there is a population bottleneck or a founder effect does approximate T
Phylogeographic analyses require the assumption of strong founder effects
Is it safe to assume that most human populations originated from a founder
effect?
Evidence for rapid expansion (110-40 Kyrs ago) in farming populations
Evidence for shrinking in hunting-gathering populations, possible caused by competition with early farmers
(Excoffier & Schneider 1999)
Necessary to test for founder effects reduced genetic diversity at several loci in a population
Simulation of two expanding populations:
No founder effectN0 = N0 = 400
Founder effectN0 = N0 = 4
Ages of molecules are not ages of populations
Initial polymorphism results in overestimation of the population’s age
Population’s age
Coalescence time
From Krings et al. (1997)
Any conclusions?
• Robust inferences on past population processes are complicated
• No shortcuts: allele genealogies are not population genealogies
• Archaeologists need geneticists to tell demographic from cultural processes
• Geneticists need archeologists to identify good hypotheses to test
Sintesi 1
• Il coalescente fornisce un modello di evoluzione basato sull’indipendenza fra processo genealogico e processo mutazionale
• Tramite il coalescente si possono stimare parametri sulla base di assunzioni esplicite e simulare geenalogie di geni
Sintesi 2
Vantaggi del coalescente:• Rende esplicite le assunzioni; • fornisce misure di incertezza;• non tratta (a differenza degli approcci
filogeografici) i polimorfismi come mutazioni fissate.
Però:
• Se avessimo raccolto dati 10mila anni fa avremmo individuato un MRCA più antico
• Dati raccolti fra 10mila anni individueranno un MRCA più recente
e quindi • Il nostro MRCA può avere un valore speciale
per noi, ma non ha alcun particolare significato evolutivo
Appendice: mismatch distribution in genealogie
femminili e maschili
Expanding population Stationary population
Maternal or paternal genealogies
past
present
Nucleotide substitutions in thechromosomes of different
individuals
Only a few are shared Many are shared
Unimodal MultimodalPeak ◄► age of expansion Many peaksTajima’s D < 0 Tajima D n.s.(= balancing selection) (= stabilizing selection)
Distributions of pairwise sequence differences, or mismatch distributions
1. Rapid pop. growth inferred from mtDNA, 110-40 Kyrs BP (Excoffier & Schneider 1999)
2. No evidence of growth in Y SNP mismatch distributions (Pereira et al. 2001; Dupanloup et al. 2003)
Tajima’s D < 0 Tajima’s D = 0
3. Evidence of growth for Y STRs, <20 Kyrs BP (Pritchard et al. 1999)
4. Ascertainment bias may render SNPs insensitive to recent population growth (Dupanloup et al. 2003)5. Patrilocality? (Seielstad et al. 1998)
Long-term high Ne for females but not males: Extensive
polygyny is a possibility