Game2Vec - DataBeers Tuscany

Post on 16-Apr-2017

56 views 0 download

Transcript of Game2Vec - DataBeers Tuscany

Usare le recensioni degli utenti per creare un modello di similarità tra videogiochi

Paolo Verdini

sicofanzia@gmail.com

showeet.com

2

Obiettivi del Progetto

1) Ottenere un sistema di similarità tra videogiochi a partire da dati non strutturati, come le recensioni.

2) Mettere a punto un sistema di recommendation che

provveda a suggerire titoli di interesse per l'utente...

...senza supervisione umana.

3

Motivazione

Rimuovere, nel contesto di un'operazione di Sentiment

Analysis e di Machine Learning, il costo del labeling

necessario per mettere a punto un training set, e costruire

un modello di apprendimento efficace.

4

5

Perché i videogiochi?

6

7

8

9

Domain Exploration

10

Caratteristiche dei Dati

Quasi 60 milioni di utenti registrati.

Database di videogiochi più ampio in assoluto (più di 2000 giochi, recensioni utenti).

Dati consistenti.

Solo qualche perdita dovuta alle esclusive su console.

11

12

13

Word embeddings e il problema del significato

In una rappresentazione discreta o tassonomica di due termini come “hotel” e “motel” in un

documento D potrebbe essere la seguente:

h = [0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]

m = [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0], dove |Vh,m| = |D|.

Dunque Vh ˄ Vm = 0.

14

Si può conoscere il significato di una parola conoscendone il contesto di utilizzo (Harris, 1954)

Intuizione alla base del moderno approccio

Distributional Semantic Representation

15

16

17

18

Visualizzazione

Abbiamo operato sulla distanza tra i document embeddings per indicare una soglia minima di similarità, e successivamente procedere alla visualizzazione (tramite un codice JavaScript e D3) di un grafo di connessioni pesato.

Abbiamo infine completato l'operazione di ristrutturazione dell'informazione attraverso la costruzione di un grafo a raggera, uno per ogni videogioco processato, la cui soglia di similarità con documenti a lui più vicini fosse risultata superabile e in grado di presentare degli esempi di connessione.

19

20

21

22

E il recommendation system?

23

24

25

26

È possibile fare altro?

27

28

Conclusione Il modello di similarità tra videogiochi è cost-effective: considerando la prospettiva

dell'offerta di un servizio, il costo ipotetico del labeling è assorbito dalla possiblità di procedere senza supervisione alcuna.

Costruire un'informazione basata sulle opinioni degli utenti e non pilotata da qualche strategia pubblicitaria apre allora prospettive più moderne di indagine di mercato e di sondaggio, e senz'altro rispecchia più fedelmente il comportamento medio del consumatore odierno.