Il Dilemma del Prigioniero e la teoria del Punctuated Equilibrium Fabio Ruini...
-
Upload
annetta-porcu -
Category
Documents
-
view
217 -
download
0
Transcript of Il Dilemma del Prigioniero e la teoria del Punctuated Equilibrium Fabio Ruini...
Il Dilemma del Prigioniero e la teoria del Punctuated
Equilibrium
Fabio Ruini ([email protected])
Università degli Studi di Modena e Reggio EmiliaFacoltà di Scienze della Comunicazione e dell’Economia
Corso di Laurea Specialistica in Economia e Gestione delle Reti e dell’Innovazione
Anno Accademico 2004/05Corso di Teoria della Complessità e dell’Informazione
Prof. David Avra Lane
Il Dilemma del Prigioniero(Von Neumann e Morgenstern, 1944)
2 persone, sospettate di aver commesso un grave crimine insieme, vengono arrestate
la polizia non ha sufficienti prove per dimostrare la loro colpevolezza
e quindi può solo incriminarli per reati minori
… a meno che uno dei due confessi!
Una proposta
Chiusi in celle separate a ciascuno dei due prigionieri viene fatta una proposta:
“se confessi il crimine ed accetti di testimoniare contro il tuo compagno, ti libereremo!”
Prospettiva interessante, ma…
se entrambi accettano la proposta, si discrediteranno a vicenda agli occhi del giudice, ed incapperanno in una dura condanna;
se nessuno dei due accetta, la pena sarà molto lieve per entrambi.
Formalizzando la situazione
Prigioniero B
Non parla
Confessa contro il
compagno
Prig
ion
iero A
Non parla
Pena molto lieve per entrambi
Scarcerazione per B,
massima pena per A
Confessa contro il
compagno
Scarcerazione per A,
massima pena per B
Pena piuttosto
severa per entrambi
Quale scelta prendere?
Se i due prigionieri potessero interagire e scegliere una strategia
comune, con ogni probabilità opterebbero per non parlare.
Ma la scelta è individuale…
Dovendo scegliere senza conoscere l’intenzione del compagno, la
strategia che minimizza il rischio risulta essere quella di tradire.
Dimostrazione
Scegliendo di tradire, infatti:
si viene scarcerati, nel caso in cui il compagno non confessi a sua volta;
si evita la pena massima, nel caso in cui il compagno tradisca.
Il dilemma
Siccome il singolo individuo è portato a tradire, la situazione raggiunta è per
forza di cose una soluzione sub-ottimale del problema!
Iterazione
Il dilemma si manifesta in misura ancora maggiore se prendiamo in
considerazione una versione iterata del gioco.
Gli studi di Axelrod (1984)
Axelrod, alla ricerca di una strategia ottimale per giocare la versione iterata del Dilemma
del Prigioniero, lanciò due “tornei” aperti all’intera comunità scientifica.
I partecipanti potevano sottoporre ad Axelrod la propria strategia, che al massimo poteva
essere di “memoria 6”
I due tornei
I tornei, di tipo round-robin, vennero giocati al computer.
1° torneo: 14 programmi;
2° torneo: 63 programmi + 1 (che si comportava in maniera totalmente casuale)
Matrice dei payoff
Per stabilire quali fossero le strategie migliori, Axelrod assegnò dei valori numerici alle varie situazioni che potevano verificarsi nel gioco:
(fonte: Mitchell, 1999)
And the winner is…
La strategia che risultò vincente in entrambi i tornei, fu la più semplice tra tutte quelle
ricevute:
la “Tit-for-Tat”
Strategia Tit-for-Tat (TFT)
La strategia TFT ha un comportamento estremamente semplice:
come prima mossa, sceglie la cooperazione;
successivamente, ripropone l’ultima mossa giocata dell’avversario.
Domanda
Un algoritmo genetico (GA) potrebbe sviluppare strategie in grado di giocare con successo il Dilemma del Prigioniero
nella sua versione iterata?
Per rispondere alla questione, Axelrod sviluppò due diversi algoritmi.
Primo GA: ambiente stabile
Axelrod analizzò le strategie utilizzate nei tornei precedenti e ne estrapolò le 8 maggiormente
rappresentative.
Queste strategie costituivano l’ambiente contro cui si scontravano le strategie elaborate dal
GA per ottenere un valore di fitness.
Primo GA: risultati
Il GA venne eseguito con una popolazione iniziale di 20 elementi e fermato dopo sole 50 generazioni (1000 individui generati, su uno
spazio possibile di 270);
Questo fu tuttavia sufficiente per far evolvere strategie con performance decisamente
superiori a quella ottenuta dalla TFT!
Secondo GA: ambiente in evoluzione
In alternativa ad un ambiente stabile, nel suo secondo GA, Axelrod eliminò le 8 strategie
“umane”.
Tutti i membri della popolazione, in ciascuna generazione, giocavano contro tutti gli altri.
Secondo GA: risultati
Inizialmente, il GA faceva evolvere strategie non-cooperative.
Dopo 10/20 generazioni, però, l’algoritmo inizia a scoprire strategie che ricambiano la
cooperazione e puniscono il tradimento.
Implicazioni degli studi di Axelrod
Gli studi di Axelrod portarono a due risultati decisamente rilevanti:
un GA poteva far evolvere soluzioni ad un problema interessante;
un GA poteva servire per creare modelli di evoluzione e di co-evoluzione.
La strada era così aperta a nuovi utilizzi degli algoritmi genetici.
Dilemma del Prigioniero con rumore (Lindgren, 1991)
Lindgren realizzò un nuovo GA dedicato al Dilemma del Prigioniero iterato.
Gli elementi di novità introdotti erano due:
l’introduzione del rumore;
la possibilità che le strategie modifichino la propria memoria nel corso dell’evoluzione.
Codifica binaria delle storie
Lindgren adottò una codifica binaria per le mosse compiute dai giocatori
(0: tradimento, 1: cooperazione).
E’ così possibile identificare con un numero binario la storia (di lunghezza m) di due giocatori:
(dove a0 è l’ultima azione dell’avversario, a1 la propria ultima azione, a2 la penultima azione dell’avversario, ecc…).
Ad esempio: h2 = (10)
L’ordinamento delle storie
A seconda della lunghezza m delle storie considerate, è possibile ordinarle con un
numero sequenziale.
Ad esempio, per m=2, abbiamo:
la storia (00) -> corrispondente a 1; la storia (01) -> corrispondente a 2; la storia (10) -> corrispondente a 3; la storia (11) -> corrispondente a 4.
Codifica genetica delle strategie
Analogamente alle storie, anche le strategie dei singoli individui (che costituiscono il loro
genoma) sono rappresentabili mediante un numero binario:
(dove A0 è l’azione intrapresa al verificarsi della storia 0, A1 è l’azione intrapresa al verificarsi della storia 1, ecc…).
esempio: strategie di memoria 1
Le strategie di memoria 1, prendono in considerazione l’ultima mossa giocata dall’avversario e possono così riferirsi a 2 storie
diverse:
(0), ossia la storia 1; (1), ossia la storia 2.
Esistono dunque 4 strategie a memoria 1:
S1 = [00] = tradisce in qualunque caso (ALL-D); S2 = [01] = coopera quando l’avversario coopera (TFT); S3 = [10] = coopera quando l’avversario tradisce (A-TFT); S4 = [11] = coopera in qualunque caso (ALL-C).
Dinamiche della popolazione
La popolazione di partenza è composta da N individui.
In ciascuna generazione, ciascun individuo gioca contro tutti gli altri,
ottenendo un certo punteggio(la matrice dei payoff è la stessa utilizzata
da Axelrod).
esempio di gioco: ALL-C contro ALL-D
giocata punteggio
realizzato
ALL-C [11] 1 0
ALL-D [00] 0 5
Ad esempio, nel momento in cui si incontrano due individui, il cui genoma codifica
rispettivamente le strategie ALL-C ed ALL-D, il punteggio che essi totalizzano è:
Calcolo del punteggio
Il punteggio si conseguito da un individuo con genotipo i risulta essere:
Più in generale, il punteggio medio totalizzato dall’intero sistema è dato dalla formula:
Fitness
La fitness wi di un individuo viene calcolata come la differenza tra il suo punteggio individuale ed il punteggio
medio del sistema:
ssw ii
Crescita della popolazione
)()()1( txdwtxtx iiii
Da una generazione t ad una generazione t+1, assumiamo che, per via delle
interazioni, la frazione xi della popolazione per il genotipo i cambi
secondo la formula:
(dove d è una costante di crescita che attenua l’effetto moltiplicativo della fitness wi).
Gli operatori genetici
Ma gli operatori genetici possono influire su questo processo riproduttivo.
Lindgren utilizza infatti tre tipi di operatori, oltre alla selezione (proporzionale alla fitness):
mutazione puntuale; duplicazione genica; split mutation.
La crescita per effetto delle mutazioni
La numerosità di una popolazione può dunque variare anche per effetto delle mutazioni che hanno luogo
durante le dinamiche evolutive.
Se i tassi di mutazione sono sufficientemente bassi(pp + pd + ps << 1/N), allora tale effetto può essere ben
approssimato dalla formula:
(dove Qij è una variabile che assume il valore 1 se l’individuo j muta in i).
j
jiiji QQN
m )(1
Equazione di crescita (completa)
L’equazione di crescita della popolazione, comprensiva del termine aggiuntivo che tiene
in considerazione le possibili mutazioni da una specie differente, risulta dunque essere:
iiiii mtxdwtxtx )()()1(
Parametri utilizzati nel modello
N = 1000; p = 0.01; pp = 2 * 10-5;
pd = ps = 10-5;
d = 0.1; max lunghezza genoma = 32; x00 = x01 = x10 = x11 = 1/4.
Studio delle dinamiche evolutive
(fonte: Lindgren, 1991)
Comportamento iniziale del sistema
Inizialmente, con tutte e 4 le strategie presenti, quella che fa registrare il comportamento
migliore è ALL-D, che si impone su ALL-C ed A-TFT, fino a portarle all’estinzione.
Una volta estinte ALL-C ed A-TFT, le condizioni diventano favorevoli per TFT (non più
exploitata dalle due specie in questione), che si impone su ALL-D.
Prime estinzioni e dominazioni
In figura è possibile osservare l’estinzione
delle strategie [11], [10] e [00].
(fonte: rielaborazioneda Lindgren, 1991 )
Gli effetti del rumore
TFT sembrerebbe in grado di mantenere a lungo il proprio dominio sulla popolazione, ma i risultati che consegue sono penalizzati dalle
interferenze dovute al rumore:
TFT1 C C … C D C … D D
TFT2 C C … D C D … D D
Rumore
Il ritorno in gioco di ALL-C…
Così, attraverso una mutazione puntuale[01] [11], la strategia ALL-C rientra in gioco,
trovando terreno fertile per riprodursi.
A farne le spese è ovviamente TFT, in quanto unica popolazione presente al momento, che
decresce rapidamente.
… e quello di A-TFT ed ALL-D
Le dinamiche, fortemente oscillatorie, portano alla ricomparsa di A-TFT e
ALL-D, che si impongono, in due momenti temporali
seguenti, sulla popolazione
(fonte: rielaborazioneda Lindgren, 1991 )
Dinamiche di più lungo periodo
Dopo alcune migliaia di generazioni, il sistema si stabilizza con un mix di
TFT ed A-TFT.
(fonte: rielaborazioneda Lindgren, 1991 )
Stasi evolutiva
Sia TFT che ATFT ottengono ottimi punteggi contro le mutanti ALL-D ed ALL-C,
impedendo loro di proliferare.
Quella che si verifica è dunque una situazione di stasi evolutiva: nessuna strategia a
memoria 1 è ora in grado di imporsi nella popolazione.
Uno spiraglio
L’unica strategia che potrebbe imporsi su una popolazione di TFT ed A-TFT è la
strategia a memoria 2 [1100].
Ma è una strategia molto difficile da ottenere: a partire da TFT sono infatti necessarie una duplicazione genica e
due mutazioni puntuali.
La strategia [1100]
Tale strategia alterna tra cooperazione e tradimento indipendentemente
dall’azione dell’avversario:
(00) o (01) 1
(10) o (11) -> 0
In questo modo, la strategia è in grado di exploitare, a turno, sia TFT che A-TFT.
L’interruzione della stasi
La difficoltà nell’ottenere la nascita della strategia [1100] fa sì che la stasi del sistema si protragga per diverso tempo (ca. 3/4000
generazioni).
In seguito, anche la popolazione composta da strategie a memoria 2 incapperà in una stasi
evolutiva, risolta soltanto dalla nascita di strategie a memoria 3. Le quali, a loro volta,
cederanno il passo a quelle a strategia 4.
Dinamica complessiva del sistema
(fonte: Lindgren, 1991)
L’evoluzione del punteggio medio e della dimensionalità del sistema
(fonte: Lindgren, 1991)
Osservazioni
Non vi è una tendenza generale del sistema verso configurazioni a punteggio più alto.
La dimensionalità del sistema varia nel corso dell’evoluzione.
Strategie evolutivamente stabili
Una strategia si definisce “evolutivamente stabile”, quando tutta la popolazione è composta da individui il cui genoma
rappresenta tale strategia e non vi sono mutanti in grado di sopravvivere.
Gli studi di Boyd e Lobermann (1987)
Boyd e Lobermann dimostrarono che, nel Dilemma del Prigioniero, non esiste alcuna
strategia “pura” che possa definirsi “evolutivamente stabile”.
Queste si trovano invece nel modello di Lindgren, grazie al rumore, che fa sì che ogni strategia possa essere vista come un mix di
due strategie pure distinte.
Un altro effetto del rumore
E’ dunque il rumore la principale causa del particolare comportamento del
sistema, caratterizzato da lunghi periodi di stasi, alternati a brevi periodi di
brusco cambiamento.
Tale dinamica non è una novità in senso assoluto.
La teoria del Punctuated Equilibrium(Gould ed Eldredge, 1972)
Gould ed Eldredge, giovani neo-laureati in paleontologia, vennero incaricati di
compiere uno studio empirico sull’evoluzione, così come evidenziata
dai reperti fossili.
Il problema dei fossili
I due giovani incapparono presto in un problema ben conosciuto dai paleontologi: le enormi lacune presenti nella documentazione
paleontologica.
In altre parole, il loro data base principale non conteneva alcun esempio del fenomeno che
avevano intenzione di studiare.
La spiegazione tradizionale
Nel contesto di un modello rigidamente gradualista, il mancato ritrovamento di fossili
che documentino la gradualità delle variazioni tra le specie può essere interpretato con il
carattere discontinuo della documentazione paleontologica.
Non una semplice giustificazione
Il processo di sedimentazione non è quasi mai continuo, non solo negli ambienti continentali,
ma anche negli ambienti marini.
Le lacune di sedimentazione a piccola o grande scala, dovute a mancata deposizione o a fenomeni di erosione, costituiscono una
regola più che un fatto eccezionale.
Speciazione filetica
La speciazione filetica consiste nella trasformazione di una specie in un’altra lungo
la stessa linea.
Il patrimonio genetico di una popolazione, sottoposta alla pressione selettiva delle
variazioni ambientali, va a modificarsi dando luogo a popolazioni “vissute a diversi livelli di
tempo” (Dobzansky, 1962).
Speciazione allopatrica (Mayr 1963)
Per speciazione allopatrica si intende la separazione di una specie a causa di barriere geografiche che provocano l’impossibilità di interscambio del pool genico, permettendo così l’evoluzione di una stessa specie in
diverse direzioni.
I processi di speciazione s.s., tra cui quella allopatrica, sono gli unici che possono causare la moltiplicazione delle specie.
Un raffronto grafico:speciazione s.s. v. speciazione filetica
(fonte: Raffi e Serpagli, 1999)
La teoria sintetica
La moderna teoria sintetica dell’evoluzione, che integrò gli studi sulla genetica delle
popolazioni con la sistematica, considerava la speciazione “sensu stricto” un semplice
corollario della speciazione filetica(Huxley, 1957).
Il solo Simpson (1949, 1954) ammise che, in alcuni casi, anche la speciazione s.s. potesse
essere altrettanto importante.
L’intuizione di Gould ed Eldredge
Agli occhi dei due giovani scienziati, il carattere discontinuo della documentazione
paleontologica apparve invece come il fedele riflesso fossile di eventi di speciazione
allopatrica.
Da questo derivò la loro convinzione secondo cui l’evoluzione biologica fosse basata, in
massima parte, proprio su eventi di speciazione allopatrica.
Stasi e improvvisi sconvolgimenti
Considerare la speciazione allopatrica come il principale fenomeno evolutivo giustifica in maniera esaustiva le dinamiche emergenti
dalla documentazione paleontologica:
lunghi periodi di stasi, alternati a brevi ed improvvisi periodi di forte
sconvolgimento.
Un raffronto grafico: gradualismo filetico v. Punctuated Equilibrium
(fonte: Raffi e Serpagli, 1999)
Il contesto storico
Il lavoro di Gould ed Eldredge fu pubblicato in un momento storico in cui le lobby
creazionistiche stavano esercitando le massime pressioni sull’opinione pubblica,
affinché all’insegnamento dell’evoluzionismo, nelle scuole, fosse affiancato anche quello
del creazionismo.
Equal-time bills
La pressione lobbystica dei creazionisti fece sì che, in alcuni stati degli USA, venissero promulgate leggi che imponevano agli insegnanti di dedicare lo stesso tempo
all’insegnamento della teoria darwinista e di quella creazionista.
La parola fine a questa assurda situazione fu sancita da un tribunale, nell’ambito della
causa “Edwards v. Aguillard” (1987)
Una teoria anti-darwinista?
In un contesto del genere, la teoria del Punctuated Equilibrium attirò un enorme
attenzione mediatica, in quanto venne vista come un attacco alle fondamenta stesse delle
teoria darwinista.
Malgrado le numerose smentite di Gould ed Eldredge, dovettero passare diversi anni
prima che questa etichetta venisse scrollata di dosso.
Critiche alla teoria del Punctuated Equilibrium
Furono mosse diverse critiche alla teoria di Gould ed Eldredge:
“falsa o inutile nel principio e nella logica” (Gingerich): i fenomeni di stasi sarebbero spiegabili in un’ottica gradualista come momenti di “gradualism at zero rate”;
non verificabile, data la natura dei record fossili;
verificabile, ma non testato.
L’importanza delle gerarchie
Una delle caratteristiche peculiari della teoria del Punctuated Equilibirum è il suo forte
carattere gerarchico.
I fenomeni di stasi e di bruschi cambiamenti si riferiscono infatti ad aggregati di livello
“macro”.
esempio: proloculo
(fonte: Raffi e Serpagli, 1999)
esempio: Homoeorhynchia
(fonte: Raffi e Serpagli, 1999)