Game2Vec - DataBeers Tuscany

28
Usare le recensioni degli utenti per creare un modello di similarità tra videogiochi Paolo Verdini [email protected] showeet.com

Transcript of Game2Vec - DataBeers Tuscany

Page 1: Game2Vec - DataBeers Tuscany

Usare le recensioni degli utenti per creare un modello di similarità tra videogiochi

Paolo Verdini

[email protected]

showeet.com

Page 2: Game2Vec - DataBeers Tuscany

2

Obiettivi del Progetto

1) Ottenere un sistema di similarità tra videogiochi a partire da dati non strutturati, come le recensioni.

2) Mettere a punto un sistema di recommendation che

provveda a suggerire titoli di interesse per l'utente...

...senza supervisione umana.

Page 3: Game2Vec - DataBeers Tuscany

3

Motivazione

Rimuovere, nel contesto di un'operazione di Sentiment

Analysis e di Machine Learning, il costo del labeling

necessario per mettere a punto un training set, e costruire

un modello di apprendimento efficace.

Page 4: Game2Vec - DataBeers Tuscany

4

Page 5: Game2Vec - DataBeers Tuscany

5

Perché i videogiochi?

Page 6: Game2Vec - DataBeers Tuscany

6

Page 7: Game2Vec - DataBeers Tuscany

7

Page 8: Game2Vec - DataBeers Tuscany

8

Page 9: Game2Vec - DataBeers Tuscany

9

Domain Exploration

Page 10: Game2Vec - DataBeers Tuscany

10

Caratteristiche dei Dati

Quasi 60 milioni di utenti registrati.

Database di videogiochi più ampio in assoluto (più di 2000 giochi, recensioni utenti).

Dati consistenti.

Solo qualche perdita dovuta alle esclusive su console.

Page 11: Game2Vec - DataBeers Tuscany

11

Page 12: Game2Vec - DataBeers Tuscany

12

Page 13: Game2Vec - DataBeers Tuscany

13

Word embeddings e il problema del significato

In una rappresentazione discreta o tassonomica di due termini come “hotel” e “motel” in un

documento D potrebbe essere la seguente:

h = [0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]

m = [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0], dove |Vh,m| = |D|.

Dunque Vh ˄ Vm = 0.

Page 14: Game2Vec - DataBeers Tuscany

14

Si può conoscere il significato di una parola conoscendone il contesto di utilizzo (Harris, 1954)

Intuizione alla base del moderno approccio

Distributional Semantic Representation

Page 15: Game2Vec - DataBeers Tuscany

15

Page 16: Game2Vec - DataBeers Tuscany

16

Page 17: Game2Vec - DataBeers Tuscany

17

Page 18: Game2Vec - DataBeers Tuscany

18

Visualizzazione

Abbiamo operato sulla distanza tra i document embeddings per indicare una soglia minima di similarità, e successivamente procedere alla visualizzazione (tramite un codice JavaScript e D3) di un grafo di connessioni pesato.

Abbiamo infine completato l'operazione di ristrutturazione dell'informazione attraverso la costruzione di un grafo a raggera, uno per ogni videogioco processato, la cui soglia di similarità con documenti a lui più vicini fosse risultata superabile e in grado di presentare degli esempi di connessione.

Page 19: Game2Vec - DataBeers Tuscany

19

Page 20: Game2Vec - DataBeers Tuscany

20

Page 21: Game2Vec - DataBeers Tuscany

21

Page 22: Game2Vec - DataBeers Tuscany

22

E il recommendation system?

Page 23: Game2Vec - DataBeers Tuscany

23

Page 24: Game2Vec - DataBeers Tuscany

24

Page 25: Game2Vec - DataBeers Tuscany

25

Page 26: Game2Vec - DataBeers Tuscany

26

È possibile fare altro?

Page 27: Game2Vec - DataBeers Tuscany

27

Page 28: Game2Vec - DataBeers Tuscany

28

Conclusione Il modello di similarità tra videogiochi è cost-effective: considerando la prospettiva

dell'offerta di un servizio, il costo ipotetico del labeling è assorbito dalla possiblità di procedere senza supervisione alcuna.

Costruire un'informazione basata sulle opinioni degli utenti e non pilotata da qualche strategia pubblicitaria apre allora prospettive più moderne di indagine di mercato e di sondaggio, e senz'altro rispecchia più fedelmente il comportamento medio del consumatore odierno.