Genpop9coal e abc

51
Programma del corso 1. Diversità genetica 2. Equilibrio di Hardy-Weinberg 3. Unione assortativa 4. Linkage disequilibrium 5. Mutazione 6. Deriva genetica 7. Flusso genico e varianze genetiche 8. Selezione 9. Mantenimento dei polimorfismi e teoria neutrale 10. Introduzione al coalescente 11. Evidenze genetiche sull’evoluzione umana

Transcript of Genpop9coal e abc

Page 1: Genpop9coal e abc

Programma del corso

1. Diversità genetica

2. Equilibrio di Hardy-Weinberg

3. Unione assortativa

4. Linkage disequilibrium

5. Mutazione

6. Deriva genetica

7. Flusso genico e varianze genetiche

8. Selezione

9. Mantenimento dei polimorfismi e teoria neutrale

10. Introduzione al coalescente

11. Evidenze genetiche sull’evoluzione umana

Page 2: Genpop9coal e abc

Test di selezione: TajimaIn assenza di ricombinazione, se un locus si è evoluto in condizioni di

neutralità, due statistiche (numero di siti polimorfici; mismatch medio) sono entrambi funzione di 4Nμ.

Se S è il numero di siti polimorfici, e K il mismatch medio

S/ a1 = K, e d = K – (S/ a1)

La statistica di Tajima è D = d / Var(d)

Il test di Tajima calcola la differenza, D, fra due stime di 4Nμ (basate rispettivamente su numero di siti polimorfici e mismatch medio) e la confronta con una distribuzione casuale.

In una popolazione all’equilibrio fra deriva e mutazioneE(π) = a1 4Nμ E(k) = 4Nμ

Page 3: Genpop9coal e abc

http://cmpg.unibe.ch/software/arlequin3/

Page 4: Genpop9coal e abc

Test di selezione: Tajima

D>0Eccesso di mismatch:selezione stabilizzante

D<0Eccesso di siti polimorfici:selezione diversificante

Page 5: Genpop9coal e abc

Un esempio.DNA di 5 individui

Position 12345 67890 12345 67890Person Y 00000 00000 00000 00000Person A 00100 00000 00100 00010Person B 00000 00000 00100 00010Person C 00000 01000 00000 00010Person D 00000 01000 00100 00010

Page 6: Genpop9coal e abc

You vs APerson Y 00000 00000 00000 00000Person A 00100 00000 00100 000103 polymorphismsYou vs BPerson Y 00000 00000 00000 00000Person B 00000 00000 00100 000102 polymorphismsYou vs CPerson Y 00000 00000 00000 00000Person C 00000 01000 00000 000102 polymorphisms

And so on, for 10 comparisons

Page 7: Genpop9coal e abc

The average number of polymorphisms is

And the number of polymorphic sites is 4:

Position 12345 67890 12345 67890Person Y 00000 00000 00000 00000Person A 00100 00000 00100 00010Person B 00000 00000 00100 00010Person C 00000 01000 00000 00010Person D 00000 01000 00100 00010

d = 2 − 4 = − 2

Page 8: Genpop9coal e abc

Expanding population Stationary population

Un problema col test di Tajima

past

present

Page 9: Genpop9coal e abc

Nucleotide substitutions in thechromosomes of different

individuals

Only a few are shared Many are shared

Page 10: Genpop9coal e abc

Unimodal MultimodalPeak ◄► age of expansion Many peaksTajima’s D < 0 Tajima D >0(= diverisfying selection) (= stabilizing selection)

Distributions of pairwise sequence differences, or mismatch distributions

Page 11: Genpop9coal e abc

La genetica studia la trasmissione ereditaria dal passato al presente

forward

Page 12: Genpop9coal e abc

Ma quando si lavora su popolazioni si raccolgono dati sul presente e si cerca di risalire al passato

? ?

backward

Page 13: Genpop9coal e abc

Cos’è un modello?

La teoria coalescente è un modello di evoluzione, vista come processo genealogico.Nella teoria coalescente la trasmissione ereditaria viene trattata indipendentemente dal processo di mutazione

Definire il modello

Esplorarne le proprietà

Stimare parametri dai dati

Confrontare dati osservati e attese del modello

Page 14: Genpop9coal e abc

Costruiamo (procedendo verso il passato) la genealogia materna di un gruppo di individui

Due possibilità: o ogni individuo ha una madre diversa:

O due individui hanno la stessa madre:

Chiamo questo fenomeno coalescenza

Page 15: Genpop9coal e abc

Assunzioni del coalescente classico (Kingman 1982)

1. Neutralità2. Siti infiniti3. Se gli individui sono diploidi e le dimensioni della

popolazione sono N, il modello vale per 2N copie aploidi e indipendenti del gene

4. Unione casuale entro la popolazione 5. Dimensioni della popolazione costanti (*)6. Generazioni non sovrapposte

Parliamo di caratteri a trasmissione uniparentale

Page 16: Genpop9coal e abc

Ricostruire la storia di una popolazione

Passato

Presente

Page 17: Genpop9coal e abc

GenealogieN = 10N costanten = 69 generazioni

Page 18: Genpop9coal e abc

GenealogieMRCA

Page 19: Genpop9coal e abc

GenealogieMRCA

Page 20: Genpop9coal e abc

Mutazione

Page 21: Genpop9coal e abc

Mutazione

1

CAATG

CAATA

CAGTG

TAATA

CAATG CAGTG CAGTGCGGTG TAACA TAATA

TAACA1 2 3 3 4 5

CGGTG

Page 22: Genpop9coal e abc

Non sempre l’albero ricostruito sulla base delle mutazioni è molto informativo

2 3 1 4 5

CAATGCGGTG CAGTG TAATA TAACA

Possiamo capire qualcosa di più?

Page 23: Genpop9coal e abc

Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza.

Conseguenze:

1. In un campione di r individui alla generazione 0, il numero di antenati 1, 2,…n generazioni fa (ξ1, ξ2, ..ξn) decresce fino ad arrivare a 1:

r = ξ0 ≥ ξ1 ≥ ξ2 ≥, ..ξn

Ogni genealogia viene ricondotta necessariamente a un singolo antenato comune (MRCA). Non è possibile discriminare fra monofilia e polifilia

Page 24: Genpop9coal e abc

Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:

2. Se la popolazione è stazionaria (N costante), N donne hanno una madre fra le N donne della generazione precedente. La probabilità di coalescenza è vicina a 1/N

N1=8

N0=8?

Page 25: Genpop9coal e abc

Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza. Conseguenze:

3. La probabilità P(n) che n alleli abbiano n antenati distinti alla generazione precedente diminuisce con le dimensioni del campione (più grande il campione, più grande la P di almeno un evento di coalescenza)

campione P(ant.com) P(n)

2 1/N 1-(1/N)

3 ≈2/N 1-(2/N)

n n /N

2

1- n /N

2

Page 26: Genpop9coal e abc

Dimensioni effettive

A A A AY X X Xmt mt

A A A A

Y X X X

mt mt

4. La dimensione effettiva della popolazione è proporzionale a:

NC = 2NeA = 4NeX = 3NeY = 1Ne mt = 1

Page 27: Genpop9coal e abc

Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza.

Conseguenze:

5. I tempi medi di coalescenza aumentano procedendo verso il passato

Page 28: Genpop9coal e abc

Nel risalire dal presente al passato incontriamo una successione di eventi di coalescenza.

Conseguenze:

6. Il tempo atteso fra due eventi di coalescenza è distribuito esponenzialmente. E(T)=4N: Wright-Fisher

Tempo atteso per passare da k a (k-1) antenati: Tk = 4N/[k(k-1)], o 2N per geni a trasm. uniparentale

Page 29: Genpop9coal e abc

Come si può arricchire il coalescente classico?

1. Selection

2. Recurrent and back mutation

3. Recombination

4. *Non-random mating: eg geographic subdivision with specified migration between subpopulations

5. Population size fluctuation, including bottlenecks and expansions

6. Non-’Poisson’ distributions of offspring numbers

7. Unequal generation intervals between lineages

Page 30: Genpop9coal e abc

Utilizzo del coalescente: simulazione di processi genetici complicati

• Per capire la demografia di popolazioni passate (colli di bottiglia, espansioni...)

• Per stimare il momento più probabile in cui sono avvenute mutazioni, migrazioni, cambiamenti delle pressioni selettive...

• Per valutare se i dati disponibili sono sufficienti a discriminare fra diverse ipotesi

Page 31: Genpop9coal e abc

ABC (Approximate Bayesian Calculations)

1. Alternative models are defined2. For each model, millions of genealogies are generated by

coalescent simulations, sampling parameters from broad prior distributions

3. Summary statistics are estimated from observed and simulated data

4. A subset of simulations is retained, i.e. those showing the closest correspondence between observed and simulated statistics

5. MODEL CHOICE: The posterior probability of each model is evaluated by counting its occurrences among the best simulations

6. PARAMETER ESTIMATION: The modes are calculated of the parameter values producing the best simulations under the chosen model, and credible intervals about the modes are estimated

Page 32: Genpop9coal e abc

ABC (Approximate Bayesian Computations)

1. Alternative models are defined

Mod 3

E M

C

27

26

a1 a2

Mod 2

E

M

27

26

a1 a2

Mod 1Mod 1

C

E

M

27

26

C

Page 33: Genpop9coal e abc

ABC (Approximate Bayesian Computations)

2. For each model, millions of genealogies are generated, sampling parameters from broad prior distributions

10 000 – 50 000Ne Medieval Tuscans4000 – 21 000 Ne Etruscans

100 – 2000Ne at split10 000 – 100 000Ne Generation 27100 – 10 000Ne Generation 26101 – 1500T estimated (bottleneck)0.0003 – 0.0075μ50 000 – 500 000Ne Modern TuscansPriorsParameters

Page 34: Genpop9coal e abc

ABC (Approximate Bayesian Computations)

3. A subset of simulations is retained, i.e. those with the shortest distances between observed and simulated statistics

Observed statistics

Page 35: Genpop9coal e abc

ABC (Approximate Bayesian Computations)

4. MODEL CHOICE: The posterior probability of each model is estimated from the frequency among the best simulations of the simulations generated under that model

P=0.20

E M

C

27

26

a1 a2

P=0.10

E

M

27

26

a1 a2

Mod 1P=0.70

C

E

M

27

26

C

Observed statistics

Page 36: Genpop9coal e abc

ABC (Approximate Bayesian Computations)

5. PARAMETER ESTIMATION: the mode and the highest probability density interval of the parameters are estimated from the best simulations under the best model

0

100

40

27

26Ne generation 40

Ne generation 100

Ne Generation 27Ne Generation 26T bottleneck

μ

Ne generation 0

Observed statistics

Page 37: Genpop9coal e abc

Filogeografia: mtDNA

Page 38: Genpop9coal e abc

Filogeografia: Y

Page 39: Genpop9coal e abc

Filogeografia: Interpretazioni

Page 40: Genpop9coal e abc

Filogeografia: di male in peggio

Page 41: Genpop9coal e abc

Gene trees, population trees

Gene trees are unknown, but we can reconstructsome of their features assuming mutations occurred at a constant rate (=no selection)

Page 42: Genpop9coal e abc

T2=2N

T5=N/5

4N

For nuclear genes, Exp time from k to (k-1) ancestors: Tk = 4N/[k(k-1)] generations (large std. errors)

Population-genetics theory describes the expected features of gene trees in

terms of population parameters

Page 43: Genpop9coal e abc

present

past

If two populations are isolated, the final coalescence is 2N generations before the split

Origin of the B population

A B

T2=2N

T: gene divergence

τ: population divergence

Exp (T) = 4NExp(T2) = 2NExp τ = T/2

Page 44: Genpop9coal e abc

present

past

If there is initial polymorphism, the final coalescence may be much more than 2N generations before the split

Origin of the B population

A B

T>>τ

T2=2N

Page 45: Genpop9coal e abc

τ: populationdivergence

E(T-τ) = 2 Ne

generationsT: gene divergence

past

present

Gene divergence predates population divergence: T is equal to τ only if 2 Ne =0

Page 46: Genpop9coal e abc

τ ≈ T

2Ne very small

present

past

Only if there is a population bottleneck or a founder effect does τ approximate T

Phylogeographic analyses require the assumption of strong founder effects

Page 47: Genpop9coal e abc

Is it safe to assume that most human populations originated from a founder

effect?

Evidence for rapid expansion (110-40 Kyrs ago) in farming populations

Evidence for shrinking in hunting-gathering populations, possible caused by competition with early farmers

(Excoffier & Schneider 1999)

Necessary to test for founder effects causing reduced genetic diversity at several loci in a population

Page 48: Genpop9coal e abc

Ages of molecules are not ages of populations

Initial polymorphism results in overestimation of the population’s age

Population’s age

Coalescence time

From Krings et al. (1997)

Page 49: Genpop9coal e abc

Any conclusions?

• Robust inferences on past population processes are complicated

• No shortcuts: allele genealogies are not population genealogies

• Archaeologists need geneticists to tell demographic from cultural processes

• Geneticists need archeologists to identify good hypotheses to test

Page 50: Genpop9coal e abc

Sintesi 1

• Il coalescente fornisce un modello di evoluzione basato sull’indipendenza fra processo genealogico e processo mutazionale

• Tramite il coalescente si possono stimare parametri sulla base di assunzioni esplicite e simulare geenalogie di geni

Page 51: Genpop9coal e abc

Sintesi 2

Vantaggi del coalescente:• Rende esplicite le assunzioni; • fornisce misure di incertezza;• non tratta (a differenza degli approcci

filogeografici) i polimorfismi come mutazioni fissate.