1 Strumenti della Teoria dei Giochi per lInformatica A.A. 2009/2010 Sebastiano Panichella.

51
Convergence to Approximate Nash Equilibria in Congestion Games 1 Strumenti della Teoria dei Giochi per l’Informatica A.A. 2009/2010 Sebastiano Panichella

Transcript of 1 Strumenti della Teoria dei Giochi per lInformatica A.A. 2009/2010 Sebastiano Panichella.

  • Slide 1
  • 1 Strumenti della Teoria dei Giochi per lInformatica A.A. 2009/2010 Sebastiano Panichella
  • Slide 2
  • Scenario Lemergente ricerca di algoritmi di game theory ha portato a una fondamentale riesaminazione dei classici concetti relativi agli equilibri di Nash, con grosse prospettive computazionali Tratteremo i Congestion Game Esempio di Congestion Game: siano e due giocatori; sia che vogliono andare da S (Sorgente) a D (Destinazione); le strade disponibili per andare da S a D sono due, A e B SD A B Tabella dei payoff /AB A4 32 B1 3 4 2
  • Slide 3
  • I Congestion Game hanno attirato lattenzione dei ricercatori per varie ragioni: Riguardano una gran parte di scenari con problemi di allocazione delle risorse, e di routing dove sempre presente un equilibrio di Nash puro: a differenza di altri giochi, hanno sempre un N.E. dove ogni giocatore sceglie ununica strategia Per il meccanismo noto come Nash dynamics, dove a ogni passo qualche giocatore cambia la sua strategia verso unaltra ritenuta pi conveniente, garantita la convergenza a un pure Nash equilibria. Motivazioni 3
  • Slide 4
  • Definizione di Congestion Game: n giocatori ; a ciascun giocatore i viene assegnato un insieme finito di strategie (ossia un insieme di risorse disponibili alli-esimo giocatore); a ciascun giocatore i viene assegnata una funzione di costo che desidera minimizzare (il costo di ogni strategia dipende solo dal numero di giocatori che usano la risorsa in questione) Congestion Game Maggiore il numero dei giocatori che utilizzano una risorsa Maggiore il costo 4
  • Slide 5
  • Formalmente il costo per p i Uno stato una qualsiasi combinazione di strategie per gli n giocatori. equilibrio di Nash puro: uno stato un equilibrio di Nash se numero di giocatori che usano la risorsa e funzione di costo (non negativa) Congestion Game Per ogni giocatore Il costo della strategia scelta da p i Il giocatore p i non incentivato a cambiare Per ogni altra strategia 5
  • Slide 6
  • Nella Classe di Congestion Game che consideriamo: i giocatori condividono un insieme di risorse (gioco simmetrico) chiamate archi linsieme di strategie,, di un giocatore p i una collezione arbitraria di sottoinsiemi di E la strategia del giocatore p i, un sottoinsieme di E a ogni arco associata una funzione di costo (o ritardo) non decrescente Classe di Congestion Game 6
  • Slide 7
  • Se t giocatori utilizzano larco e ciascuno di essi pagher un costo d e (t) In uno stato s=(s 1,, s n ) il costo del giocatore p i numero di giocatori che usano larco e nello stato s Classe di Congestion Game d strada ( 1 )= 2 d strada ( 2 )= 4 d strada ( 3 )= 8 Esempio In generale d strada (t)= 7
  • Slide 8
  • Funzione potenziale: i giochi a congestione sono in possesso una precisa funzione potenziale definita come propriet: il cambiamento in rispecchia esattamente la variazione dei costi del giocatore Per ogni arco Funzioni Potenziali Sommiamo i costi sostenuti in base ai giocatori che lo utilizzano Variazione del potenziale se il giocatore p i cambia la sua strategia da s i a s i Variazione del costo per p i = 8
  • Slide 9
  • Osservazione: Funzioni Potenziali Se a ogni passo permettiamo ai giocatori di modificare la propria strategia (pi conveniente) fino a raggiungere un minimo locale diminuir ossia un equilibrio di Nash puro ma Niente ci assicura la rapida convergenza a un equilibrio di Nash 9
  • Slide 10
  • Approssimazione di equilibri di Nash ottimo Accuratezza Tempo 10
  • Slide 11
  • Definizioni -equilibrio di Nash: sia, uno stato un -equilibrio di Nash se Dinamiche best response -approssimate: dinamiche best response nelle quali ciascun giocatore pu fare solo -mosse, ossia movimenti che migliorano il costo di un fattore maggiore di . Pi formalmente se il giocatore p i si sposta da s i a s i allora Per ogni giocatore Per ogni strategia Il giocatore p i non ha pi di un -incentivo a cambiare strategia 11
  • Slide 12
  • -N.E. e Dinamiche -Nash Se pi di un giocatore ha una -mossa disponibile, solo il giocatore il cui relativo guadagno il pi grande effettuer la sua mossa. In altre parole, il giocatore p i effettua la sua mossa se, tale mossa massimizza il rapporto Se i giocatori non hanno pi -mosse da effettuare I giocatori hanno raggiunto un -equilibrio di Nash Costo ottenuto nel caso in cui il giocatore effettua la mossa s i Minore tale costo e maggiore il rapporto R Costo Precedente 12
  • Slide 13
  • Definizioni Bounded Jump: dato un grafo G(V,E) con funzione di peso sugli archi, diciamo che larco e soddisfa la condizione di -bounded jump se sia t 0 il numero di giocatori costante 1 la sua funzione di costo soddisfa la condizione costo dellarco e per ( t +1 ) giocatori costo dellarco e per t giocatori quando un nuovo player sceglie di utilizzare un determinato arco, il costo che pagheranno tutti i giocatori che lo usano sar incrementato di un fattore di al pi 13
  • Slide 14
  • ENUNCIATO In un gioco a congestione simmetrico dove, ogni arco soddisfa la condizione -bounded jump, se nelle dinamiche -approssimate nello stato s la prossima mossa fatto dal giocatore p i,allora Lemma 3.2 Per ogni giocatore p j diverso dal giocatore p i Il costo del giocatore p j al pi volte il costo del giocatore p i 14
  • Slide 15
  • Lemma 3.2 DIMOSTRAZIONE Supponiamo che il gioco si trovi in uno stato Supponiamo che un giocatore p i voglia effettuare una mossa da s i a s i con guadagno relativo Supponiamo che un altro giocatore p jp i voglia effettuare la stessa mossa,ossia, si muove da s j a s j = s i con guadagno relativo Per come abbiamo definito il gioco, solo il giocatore con il massimo guadagno relativo effettua la sua mossa; quindi se nel gioco, solo il giocatore p i effettua la sua mossa, deve valere che R jR i 15
  • Slide 16
  • Lemma 3.2 Ossia A questo punto, confrontiamo il costo che il giocatore p i paga per effettuare la sua mossa con quanto avrebbe pagato il giocatore p j per effettuare la sua mossa da s j (se vedessimo vincere luno o laltro giocatore): arco che il giocatore p i vuole usare, possiamo avere che (1)(1) Per la condizione di bounded jump abbiamo che. 1. p i sta gi usando larco e prima della mossa p j paga al pi per usare larco e p i paga per usare larco e (perch p j stesso potrebbe essere il nuovo giocatore che utilizza larco e) 16
  • Slide 17
  • Lemma 3.2 2. p i non sta gi usando larco e prima della mossa p j paga al pi lo stesso prezzo p i paga per usare larco e Sommando su tutti gli archi abbiamo che (2)(2) Sostituendo la ( 2 ) nella disequazione ( 1 ) abbiamo che 17
  • Slide 18
  • 18 Lemma 3.2 Semplificando, abbiamo
  • Slide 19
  • Il fattore di approssimazione > 0 Bounded condition Limite superiore al costo di ciascun giocatore Teorema 3.1 ENUNCIATO In qualsiasi gioco a congestione simmetrico, dove n il numero di giocatori tutti gli archi soddisfano l-bounded jump condition C un limite superiore al costo di ciascun giocatore le dinamiche -approssimate convergono partendo da un qualsiasi stato iniziale in numero di passi pari a 19
  • Slide 20
  • Teorema 3.1 il costo che paga il giocatore di almeno volte il pi grande costo di ogni giocatore DIMOSTRAZIONE Dal Lemma 3.2 sappiamo che se p i il giocatore che si muove da s i a s i allora Siccome Il potenziale costo complessivo Il costo del giocatore p i la media del potenziale 20
  • Slide 21
  • Teorema 3.1 Da cui, dopo un movimento di p i stato s allo stato s Variazione del potenziale Variazione del costo per p i = Trattandosi di un -mossa la variazione del costo per p i pi di -volte il costo dello stato precedente s Dato che In generale Nello stato iniziale = max = potenziale iniziale; dato che Ad ogni passo Numero totale di passi per la convergenza 21
  • Slide 22
  • PLS-completezza di giochi con Bounded Jump Proposition 3.3 Il problema della ricerca di un equilibrio di Nash in giochi a congestione simmetrici che soddisfano la condizione di bounded jump con = 2 PLS-completo Mentre un -equilibrio di Nash viene raggiunto in un numero di passi polinomiale ( il Teorema 3.1 ) lo stesso non accade per un equilibrio di Nash puro I risultati finora ottenuti sugli equilibri di Nash esatti non hanno effetti hanno effetti significativi sugli -equilibri di Nash 22
  • Slide 23
  • LEsempio Anche se gode della Bounded Jump condition questo semplice problema di allocazione di risorse d strada ( 1 )= 2 d strada ( 2 )= 4 d strada ( 3 )= 8 Esempio In generale d strada (t)= PLS-completo 23
  • Slide 24
  • Meccanismi di coordinamento Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa 1) Domanda: quando vengono utilizzati altri meccanismi di coordinamento cosa succede? Per queste varianti dell -Nash dynamics, il teorema 3.1 ancora valido (convergenza polinomiale a -equilibri di Nash)? 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a - equilibri di Nash? 24
  • Slide 25
  • Varianti della -Nash dynamics Largest gain dynamics: ad ogni passo, tra tutti i giocatori con un - mossa disponibili, quello che si muove quello il cui miglioramento dei costi (assoluto) il maggiore. Una variante della -Nash dynamics Costo Precedente Costo del giocatore se effettua la mossa s i Unaltra variante della -Nash dynamics Heaviest first dynamics: ad ogni passo, tra tutti i giocatori con un -mossa disponibili, si consente la mossa al giocatore con il maggior costo corrente 25
  • Slide 26
  • 1) Domanda: per queste varianti dell -Nash dynamics, il teorema 3.1 ancora valido? Varianti della -Nash dynamics Dai teoremi Teorema 3.4 Il Teorema 3.1 continua a essere valido anche nel Largest gain dynamics. Teorema 3.5 Il Teorema 3.1 continua a essere valido anche per Heaviest first -Nash dynamics Risposta: Si 26
  • Slide 27
  • 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a - equilibri di Nash? The unrestricted dynamics un meccanismo in cui i giocatori: possono muoversi in un ordine arbitrario sono soggetti ad una sola condizione necessaria: a ogni giocatore deve essere data la possibilit di fare la propria mossa entro un certo limite di tempo Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa Le dinamiche senza restrizioni 27
  • Slide 28
  • Pi formalmente la dinamica senza restrizioni una sequenza di q 1, q 2,,q n dove ogni q t indica un giocatore al passo t al giocatore q t data la possibilit di muoversi Le dinamiche senza restrizioni Si Fa la mossa q t ha un -mossa? No Non fa nulla Vogliamo che per qualche costante T ogni giocatore p i compaia almeno una volta in ogni intervallo di sequenza con lunghezza T 28
  • Slide 29
  • Esempio: La Round-Robin dynamics Le dinamiche senza restrizioni A turno a ogni player p i viene data la possibilit di fare la sua mossa 29
  • Slide 30
  • Le dinamiche senza restrizioni 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a - equilibri di Nash? Risposta: Si Dal Teorema 4.1 In ogni gioco a congestione simmetrico con n giocatori i cui archi soddisfano -bounded jump condition, qualsiasi -Nash- dynamics, in cui a ogni giocatore viene data la possibilit di fare la propria mossa all'interno di ogni intervallo di tempo di lunghezza t, converge da qualsiasi stato iniziale in un numero di passi pari a un limite superiore al costo di ogni giocatore 30
  • Slide 31
  • Le dinamiche senza restrizioni Per provare il teorema 4.1 utile enunciare (e dimostrare) il seguente Lemma: Lemma 4.2 Sia c i (s) il costo sostenuto dal giocatore p i nello stato s, e sia c i (s) il costo di p i in uno stato futuro s in cui non si mosso. Allora Concettualmente mette in relazione il miglioramento della funzione potenziale nessuna mossa per molti steps la variazione del costo per p i, anche quando il giocatore non fa nessuna mossa per molti steps 31
  • Slide 32
  • Dimostrazione lemma Le dinamiche senza restrizioni Sappiamo che la variazione del costo per p i I contributi positivi a questa somma sono dati dagli archi e che altri giocatori hanno liberato Sapendo che il primo giocatore p j che rinuncia a e aveva un costo di almeno allora la funzione potenziale migliora di almeno 32
  • Slide 33
  • valore che ha assunto la funzione potenziale all'inizio dell'intervallo Il miglioramento totale di Le dinamiche senza restrizioni Dimostrazione Teorema 4.1 Ai fini della prova sufficiente mostrare che durante ogni intervallo in cui a ogni giocatore data la possibilit di effettuare una mossa, la funzione potenziale diminuisce di almeno Convergenza in al pi -volte quanto ci guadagna p i 33
  • Slide 34
  • Siano gli stati durante questo intervallo (non necessariamente differenti) Le dinamiche senza restrizioni Sia p h il giocatore con il maggior costo in s 0 Sia t 0 la prima volta in cui,durante lintervallo, al giocatore p h data la possibilit di muoversi Avremo due casi: Caso(i): al tempo t, p h ha un -mossa a disposizione Caso(ii): al tempo t, p h non ha un -mossa a disposizione 34
  • Slide 35
  • Le dinamiche senza restrizioni Caso(i) dal Lemma 4.2, abbiamo la garanzia che il miglioramento della funzione potenziale nessuna mossa per molti steps la variazione del costo per p h, anche quando il giocatore non fa nessuna mossa per molti steps Dopo l -mossa di p h, sar migliorata di almeno -Media del potenziale iniziale Il teorema soddisfatto Convergenza in al pi 35
  • Slide 36
  • Le dinamiche senza restrizioni Caso(ii) Non avendo un -mossa a disposizione non vogliamo che p h possa fare un -mossa adottando semplicemente la strategia di un altro giocatore, p i Al momento t, dobbiamo avere Costo di p h per simulare la mossa di p i Utilit di p h per simulare la mossa di p i 36
  • Slide 37
  • Le dinamiche senza restrizioni ( 1 caso) Consideriamo un giocatore p i, a cui data la possibilit di fare la sua mossa al tempo t > t ossia, dopo che a p h stata data la possibilit di muoversi ( 2 caso) Consideriamo lultimo giocatore, p i,a cui data la possibilit di fare la sua mossa al tempo t < t Analizzeremo due casi: 37
  • Slide 38
  • ( 1 caso) Sia p i, un giocatore che fa la sua mossa al tempo t > t ossia, dopo che a p h stata data la possibilit di muoversi, avremo che Le dinamiche senza restrizioni = = La variazione della funzione = potenziale Il teorema soddisfatto 38
  • Slide 39
  • Le dinamiche senza restrizioni ( 2 caso) Sia p i, lultimo giocatore che fa la sua mossa al tempo t < t, Nellistante t Infatti da ( 3 ) la condizione deve essere soddisfatta da p i anche al tempo t (e anche subito dopo) Dato che fare la mossa pu solo ridurre il suo costo, soddisfa la condizione anche al tempo t 39
  • Slide 40
  • Allora la variazione di potenziale Le dinamiche senza restrizioni Deriva dalla condizione massimo miglioramento ottenuto da p i per la sua mossa Deriva dal LEMMA 4.2 40
  • Slide 41
  • Le dinamiche senza restrizioni Allora la variazione di potenziale massimo miglioramento ottenuto da p i per la sua mossa minima quando soddisfatta Deriva dal LEMMA 4.2 41
  • Slide 42
  • Le dinamiche senza restrizioni Risposta: Si 2) Domanda: quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E possibile convergere polinomiale a -equilibri di Nash? 3) Domanda: se generalizziamo il gioco permettendo a ciascun giocatore di dichiarare il proprio (che in un certo qual modo indica la tolleranza allinfelicit o, se vogliamo, la propensione a accontentarsi del giocatore). E possibile convergere polinomiale a -equilibri di Nash? Parliamo di Giocatori eterogenei 42
  • Slide 43
  • Giocatori eterogenei Heterogeneouse players: una generalizzazione delle impostazione precedenti dove ciascun giocatore p i ha un proprio valore , che chiameremo i che specifica la sua tolleranza allinfelicit Per ogni giocatore Per ogni strategia Il giocatore p i non ha pi di un i -incentivo a cambiare strategia -equilibrio di Nash: per, uno stato un - equilibrio di Nash se 43
  • Slide 44
  • Dinamiche best response -approssimate: dinamiche best response nelle quali ciascun giocatore p i pu fare solo i -mosse, ossia movimenti che migliorano il costo di un fattore maggiore di i. pi formalmente se il giocatore p i si sposta da s i a s i allora Giocatori eterogenei Cambiare strategia non conviene pi di i volte il costo della strategia attuale 44
  • Slide 45
  • Giocatori eterogenei Vedremo che questa dinamica converge in passi il numero di passi di tempo in cui un giocatore con tolleranza i "sar" infelice "(cio, avr un -move disponibile) essenzialmente a prescindere dagli j -valori degli altri giocatori. 45
  • Slide 46
  • Giocatori eterogenei Teorema 5.2 Sia max < 1 il valore massimo di i, tra tutti i giocatori p i. Allora,, ci sono al massimo volte in cui qualche giocatore p j con j sar in grado di muoversi prima che l - Nash dynamics converga Dimostrazione Teorema 5.2 Sia s =(s 1,,s n ), uno stato in cui un giocatore p j con j ha una j -move disponibile. Ai fini della prova sufficiente dimostrare che la riduzione della funzione potenziale almeno 46
  • Slide 47
  • Giocatori eterogenei Sia p h il giocatore con il maggior costo in s Analizzeremo due casi: Caso(i): p h = p i, ossia, p i ha il maggior costo Caso(ii): p h p i ossia, p i non ha il maggior costo Sia p i il giocatore che si muove attualmente dallo stato s a.. 47
  • Slide 48
  • Giocatori eterogenei Se il p h = p i allora abbiamo gi finito, dal momento che ad ogni passo il potenziale si riduce di almeno Caso(i) Il teorema soddisfatto Convergenza in al pi n. passi pari a 48
  • Slide 49
  • Giocatori eterogenei Supponiamo che p h possa muoversi da s a s simulando la strategia s i del giocatore p i. Siccome non vogliamo che p h possa muoversi da s, dato che non il suo turno Caso( 2 ): il guadagno relativo per p h non pi grande del guadagno relativo che ottiene consentendo a p i di effettuare la sua mossa. Analizziamo due casi: Caso( 1 ): la mossa da s a s non deve essere una h -move per p h Caso(ii): p h p i ossia, p i non ha il maggior costo 49
  • Slide 50
  • Sappiamo che Combinando le due disequazioni, abbiamo Giocatori eterogenei Caso( 1 ): la mossa da s a s non deve essere una h -move per p h 50 (Dal teorema 3.1) Allora Il teorema soddisfatto
  • Slide 51
  • 51 Allora Giocatori eterogenei Dato che Caso( 2 ): il guadagno relativo per p h non pi grande del guadagno relativo che ottiene consentendo a p i di effettuare la sua mossa,ossia, Siccome