Genpop10coal e abc
-
Upload
genetica-ferrara-university-italy -
Category
Engineering
-
view
1.281 -
download
0
description
Transcript of Genpop10coal e abc
Genetica di popolazioni 10: Il coalescente
Programma del corso
1. Diversità genetica
2. Equilibrio di Hardy-Weinberg
3. Inbreeding
4. Linkage disequilibrium
5. Mutazione
6. Deriva genetica
7. Flusso genico e varianze genetiche
8. Selezione
9. Mantenimento dei polimorfismi e teoria neutrale
10. Introduzione alla teoria coalescente
11. Struttura e storia della popolazione umana
+ Lettura critica di articoli
La genetica studia la trasmissione ereditaria dal passato al presente
forward
Ma quando si lavora su popolazioni si raccolgono dati sul presente e si cerca di risalire al passato
? ?
backward
Cos’è un modello?
La teoria coalescente è un modello di evoluzione, vista come processo genealogico.Nella teoria coalescente la trasmissione ereditaria viene trattata indipendentemente dal processo di mutazione
Definire il modello
Esplorarne le proprietà
Stimare parametri dai dati
Confrontare dati osservati e attese del modello
Costruiamo (procedendo verso il passato) la genealogia materna di un gruppo di individui
Due possibilità: o ogni individuo ha una madre diversa:
O due individui hanno la stessa madre:
Chiamo questo fenomeno coalescenza
Assunzioni del coalescente classico (Kingman 1982)
1. Neutralità
2. Siti infiniti
3. Se gli individui sono diploidi e le dimensioni dellapopolazione sono N, il modello vale per 2N copie aploidie indipendenti del gene
4. Unione casuale entro la popolazione
5. Dimensioni della popolazione costanti (*)
6. Generazioni non sovrapposte
Parliamo di caratteri a trasmissione uniparentale
Ricostruire la storia di una popolazione
Passato
Presente
Genealogie
N = 10N costanten = 69 generazioni
GenealogieMRCA
GenealogieMRCA
Mutazione
Mutazione
1
CAATG
CAATA
CAGTG
TAATA
CAATG CAGTG CAGTGCGGTG TAACA TAATA
TAACA1 2 3 3 4 5
CGGTG
Non sempre l’albero ricostruito sulla base delle mutazioni è molto informativo
2 3 1 4 5
CAATGCGGTG CAGTG TAATA TAACA
Possiamo capire qualcosa di più?
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:
1. In un campione di r individui alla generazione 0, il numero di antenati 1, 2,…n generazioni fa (ξ1, ξ2, ..ξn) decresce fino ad arrivare a 1:
r = ξ0 ξ1 ξ2 , ..ξn
Ogni genealogia viene ricondotta necessariamente a un singolo antenato comune (MRCA). Non è possibile discriminare fra monofilia e polifilia
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:
2. Se la popolazione è stazionaria (N costante), N donne hanno una madre fra le N donne della generazione precedente. La probabilità di coalescenza è vicina a 1/N
N1=8
N0=8?
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:
3. La probabilità P(n) che n alleli abbiano n antenati distinti alla generazione precedente diminuisce con le dimensioni del campione (più grande il campione, più grande la P di almeno un evento di coalescenza)
campione P(ant.com) P(n)
2 1/N 1-(1/N)
3 2/N 1-(2/N)
n n /N
2
1- n /N
2
Dimensioni effettive
A A A AY X X Xmt mt
A A A A
Y X X X
mt mt
4. La dimensione effettiva della popolazione è proporzionale a:
NC = 2NeA = 4NeX = 3NeY = 1Ne mt = 1
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:
5. I tempi medi di coalescenza aumentano procedendo verso il passato
Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:
6. Il tempo atteso fra due eventi di coalescenza è distribuito esponenzialmente. E(T)=4N: Wright-Fisher
Tempo atteso per passare da k a (k-1) antenati: Tk = 4N/[k(k-1)], o 2N per geni a trasm. uniparentale
Come si può arricchire il coalescente classico?
1. Selection
2. Recurrent and back mutation
3. Recombination
4. *Non-random mating: eg geographic subdivision with specified migration between subpopulations
5. Population size fluctuation, including bottlenecks and expansions
6. Non-’Poisson’ distributions of offspring numbers
7. Unequal generation intervals between lineages
Utilizzo del coalescente: simulazione diprocessi genetici complicati
• Per capire la demografia di popolazioni passate (colli dibottiglia, espansioni...)
• Per stimare il momento più probabile in cui sonoavvenute mutazioni, migrazioni, cambiamenti dellepressioni selettive...
• Per valutare se i dati disponibili sono sufficienti a discriminare fra diverse ipotesi
ABC (Approximate Bayesian Computations)
1. Alternative models are defined
2. For each model, millions of genealogies are generated by coalescent simulations, sampling parameters from broad prior distributions
3. Summary statistics are estimated from observed and simulated data
4. A subset of simulations is retained, i.e. those showing the closest correspondencebetween observed and simulated statistics
5. MODEL CHOICE: The posterior probability of each model is evaluated by countingits occurrences among the best simulations
6. PARAMETER ESTIMATION: The modes are calculated of the parameter valuesproducing the best simulations under the chosen model, and credible intervalsabout the modes are estimated
7. VALIDATION OF THE RESULTS: by further simulations in which pseudodata are generated according to the models, and the power of the method to (a) tell modelsapart and (b) identify the right model, is tested
ABC (Approximate Bayesian Computations)
1. Alternative models are defined
Mod 3
E M
C
27
26
a1 a2
Mod 2
E
M
27
26
a1 a2
Mod 1Mod 1
C
E
M
27
26
C
ABC (Approximate Bayesian Computations)
2. For each model, millions of genealogies are generated, sampling parameters from broad prior distributions
10 000 – 50 000Ne Medieval Tuscans
4000 – 21 000 Ne Etruscans
100 – 2000Ne at split
10 000 – 100 000Ne Generation 27
100 – 10 000Ne Generation 26
101 – 1500T estimated (bottleneck)
0.0003 – 0.0075μ
50 000 – 500 000Ne Modern Tuscans
PriorsParameters
ABC (Approximate Bayesian Computations)
3. A subset of simulations is retained, i.e. those with the shortest distances between observed and simulated statistics
Observed statistics
ABC (Approximate Bayesian Computations)
4. MODEL CHOICE: The posterior probability of each model is estimated from the frequency among the best simulations of the simulations generated under that model
P=0.20
E M
C
27
26
a1 a2
P=0.10
E
M
27
26
a1 a2
Mod 1P=0.70
C
E
M
27
26
C
Observed statistics
ABC (Approximate Bayesian Computations)
5. PARAMETER ESTIMATION: the mode and the highest
probability density interval of the parameters are estimated
from the best simulations under the best model
0
100
40
27
26Ne generation 40
Ne generation 100
Ne Generation 27
Ne Generation 26
T bottleneck
μ
Ne generation 0
Observed statistics
Filogeografia: mtDNA
Filogeografia: Y
Filogeografia: Interpretazioni
Filogeografia: di male in peggio
Gene trees, population trees
Gene trees are unknown, but we can reconstructsome of their features assuming mutations occurred at a constant rate (=no selection)
T2=2N
T5=N/5
4N
For nuclear genes, Exp time from k to (k-1) ancestors: Tk = 4N/[k(k-1)] generations (large std. errors)
Population-genetics theory describes the expected features of gene trees in
terms of population parameters
present
past
If two populations are isolated, the final coalescence is 2N generations before the split
Origin of the B population
A B
T2=2N
T: gene divergence
: population divergence
Exp (T) = 4NExp(T2) = 2NExp = T/2
present
past
If there is initial polymorphism, the final coalescence may be much more than 2N generations before the split
Origin of the B population
A B
T>>
T2=2N
: populationdivergence
E(T- ) = 2 Ne
generationsT: gene divergence
past
present
Gene divergence predates population divergence: T is equal to only if 2 Ne =0
T
2Ne very small
present
past
Only if there is a population bottleneck or a founder effect does approximate T
Phylogeographicanalyses require the assumption of strong founder effects
Is it safe to assume that most human populations originated from a founder
effect?
Evidence for rapid expansion (110-40 Kyrs ago) in farmingpopulations
Evidence for shrinking in hunting-gathering populations, possible caused by competition with early farmers
(Excoffier & Schneider 1999)
Necessary to test for founder effects causing reducedgenetic diversity at several loci in a population
Ages of molecules are not agesof populations
Initial polymorphismresults in overestimationof the population’s age
Population’s age
Coalescence time
From Krings et al. (1997)
Any conclusions?
• Robust inferences on past populationprocesses are complicated
• No shortcuts: allele genealogies are notpopulation genealogies
• Archaeologists need geneticists to telldemographic from cultural processes
• Geneticists need archeologists to identifygood hypotheses to test
Sintesi 1
• Il coalescente fornisce un modello dievoluzione basato sull’indipendenza fraprocesso genealogico e processomutazionale
• Tramite il coalescente si possono stimareparametri sulla base di assunzioni esplicitee simulare geenalogie di geni
Sintesi 2
Vantaggi del coalescente:
• Rende esplicite le assunzioni;
• fornisce misure di incertezza;
• non tratta (a differenza degli approccifilogeografici) i polimorfismi come mutazioni fissate.