Presentation Master Degree

80
Tesi di Laurea Magistrale in Accesso all’Informazione ed Elaborazione del Linguaggio Naturale Selezione automatica di attributi estratti dalla Linked Open Data cloud in un recommender system basato su grafi Simone Rutigliano Corso di Laurea Magistrale in Informatica 29 Aprile 2015 Relatore: Chiar.mo Prof. Giovanni Semeraro Correlatore: Dr. Cataldo Musto

Transcript of Presentation Master Degree

Page 1: Presentation Master Degree

Tesi di Laurea Magistralein

Accesso all’Informazione ed Elaborazione del Linguaggio Naturale

Selezione automatica di attributi estrattidalla Linked Open Data cloud in

un recommender system basato su grafi

Simone Rutigliano

Corso di Laurea Magistrale in Informatica

29 Aprile 2015

Relatore:Chiar.mo Prof. Giovanni Semeraro

Correlatore:Dr. Cataldo Musto

Page 2: Presentation Master Degree

Recommender System

Simone Rutigliano 29 Aprile 2015 1

Page 3: Presentation Master Degree

Recommender System - graph-based representation

NodiUtentiItem

ArchiPreferenza dell’utenteverso quell’item

Simone Rutigliano 29 Aprile 2015 2

Page 4: Presentation Master Degree

Come raccomandare gli item?

Algoritmo utilizzato per determinare l’importanza di un nodo in ungrafo e PageRank

Sviluppato da Larry Page e Sergey Brin nel 1998 presso laStanford University

Algoritmo di ricerca di Google“The heart of our software is PageRank TM. . . it provides thebasis for all of our web search tools.”

Lo score restituito dal PageRank per ogni item puo essereutilizzato per ordinare gli item dal piu rilevante al menorilevante

Simone Rutigliano 29 Aprile 2015 3

Page 5: Presentation Master Degree

PageRank

Valuta l’importanza di un documento sulla base del numero edella qualita di connessioni che quel documento avra all’interno delgrafo di appartenza

Simone Rutigliano 29 Aprile 2015 4

Page 6: Presentation Master Degree

PageRank con Priorita

Il pageRank classico assegna una equa probabilita ad ogniarco del grafoVariante con Priorita definita in [Hav03] introduce un bias afavore di alcuni nodi

enfatizza maggiormente le preferenze dell’utente

Simone Rutigliano 29 Aprile 2015 5

Page 7: Presentation Master Degree

Applicazione del PageRank in un RS

E possibile utilizzare il PageRank come algoritmo diraccomandazione in un Recommender System graph-based

Simone Rutigliano 29 Aprile 2015 6

Page 8: Presentation Master Degree

Applicazione del PageRank in un RS

Simone Rutigliano 29 Aprile 2015 7

Page 9: Presentation Master Degree

Applicazione del PageRank in un RS

Simone Rutigliano 29 Aprile 2015 8

Page 10: Presentation Master Degree

Applicazione del PageRank in un RS

Simone Rutigliano 29 Aprile 2015 9

Page 11: Presentation Master Degree

Estensione del RS

E possibile arricchire il grafo aggiungendo nuove informazionirelative agli item?

Simone Rutigliano 29 Aprile 2015 10

Page 12: Presentation Master Degree

Linked Open Data cloud

Metodologia per pubblicare, condividere e collegaredati strutturati sul web

Simone Rutigliano 29 Aprile 2015 11

Page 13: Presentation Master Degree

Linked Open Data cloud

Collezione (Cloud) di dataset:

Interconnessi fra loro (Linked)

Fruibili liberamente e gratuitamente (Open)

Descritti attraverso RDF

Simone Rutigliano 29 Aprile 2015 12

Page 14: Presentation Master Degree

DBpedia

Centro della LinkedOpen Data cloud

Conversione diWikipedia in RDF

Simone Rutigliano 29 Aprile 2015 13

Page 15: Presentation Master Degree

Partendo da Wikipedia. . .

Simone Rutigliano 29 Aprile 2015 14

Page 16: Presentation Master Degree

. . . otteniamo DBpedia

Simone Rutigliano 29 Aprile 2015 15

Page 17: Presentation Master Degree

Integrare LOD nel Recommender System. . .

Partendo dal grafo User-Item

Simone Rutigliano 29 Aprile 2015 16

Page 18: Presentation Master Degree

. . . Integrare LOD nel Recommender System. . .

Espandendo il film Inglorious Basterds attraverso la Linked OpenData

Simone Rutigliano 29 Aprile 2015 17

Page 19: Presentation Master Degree

. . . Integrare LOD nel Recommender System. . .

Espandendo il film Django attraverso la Linked Open Data

Simone Rutigliano 29 Aprile 2015 18

Page 20: Presentation Master Degree

. . . Integrare LOD nel Recommender System. . .

Espandendo anche gli altri film presenti nel grafo avremo

Simone Rutigliano 29 Aprile 2015 19

Page 21: Presentation Master Degree

. . . PageRank nel nuovo grafo

Riapplicando il PageRank si potrebbe avere un nuovo ranking

Simone Rutigliano 29 Aprile 2015 20

Page 22: Presentation Master Degree

PageRank + LOD: pro e contro

PROnuove connessioni nel grafo

CONTROmaggiore costo computazionaleper l’esecuzione del PageRank

alcune proprieta non sonorilevanti

Simone Rutigliano 29 Aprile 2015 21

Page 23: Presentation Master Degree

PageRank + LOD: pro e contro

PROnuove connessioni nel grafo

CONTROmaggiore costo computazionaleper l’esecuzione del PageRank

alcune proprieta non sonorilevanti

Simone Rutigliano 29 Aprile 2015 21

Page 24: Presentation Master Degree

PageRank + LOD: pro e contro

PROnuove connessioni nel grafo

CONTROmaggiore costo computazionaleper l’esecuzione del PageRank

alcune proprieta non sonorilevanti

Simone Rutigliano 29 Aprile 2015 21

Page 25: Presentation Master Degree

Tecniche di feature selection

SOLUZIONE: Applicare tecniche di feature selection!

Simone Rutigliano 29 Aprile 2015 22

Page 26: Presentation Master Degree

Research question

1 L’uso delle proprieta della LODmigliorano le performance delrecommender?

2 Si possono trarre vantaggidall’utilizzo di tecniche di FS sullaLOD?

3 Esiste una connessione tra la sceltadella tecnica di FS e ilcomportamento dell’algoritmo?

4 Come si comporta la nostrametodologia rispetto allo statodell’arte?

Simone Rutigliano 29 Aprile 2015 23

Page 27: Presentation Master Degree

Research question

1 L’uso delle proprieta della LODmigliorano le performance delrecommender?

2 Si possono trarre vantaggidall’utilizzo di tecniche di FS sullaLOD?

3 Esiste una connessione tra la sceltadella tecnica di FS e ilcomportamento dell’algoritmo?

4 Come si comporta la nostrametodologia rispetto allo statodell’arte?

Simone Rutigliano 29 Aprile 2015 23

Page 28: Presentation Master Degree

Research question

1 L’uso delle proprieta della LODmigliorano le performance delrecommender?

2 Si possono trarre vantaggidall’utilizzo di tecniche di FS sullaLOD?

3 Esiste una connessione tra la sceltadella tecnica di FS e ilcomportamento dell’algoritmo?

4 Come si comporta la nostrametodologia rispetto allo statodell’arte?

Simone Rutigliano 29 Aprile 2015 23

Page 29: Presentation Master Degree

Research question

1 L’uso delle proprieta della LODmigliorano le performance delrecommender?

2 Si possono trarre vantaggidall’utilizzo di tecniche di FS sullaLOD?

3 Esiste una connessione tra la sceltadella tecnica di FS e ilcomportamento dell’algoritmo?

4 Come si comporta la nostrametodologia rispetto allo statodell’arte?

Simone Rutigliano 29 Aprile 2015 23

Page 30: Presentation Master Degree

Protocollo Sperimentale - Datasets

Movielens dataset

Rating di film estratto dal sito di MovieLens dal GroupLensResearch (http://movielens.org)

Users: 943

Films: 1.682

Binary ratings: 100.000

Sparsity: 93,69%Positive Rating: 55,17%Avg. Rating per user: 84,83Avg. Rating per item: 48,48

Simone Rutigliano 29 Aprile 2015 24

Page 31: Presentation Master Degree

Protocollo Sperimentale - Datasets

Books dataset

Rating di libri usato per la Challenge di ESWC 2014

Users: 6.181

Books: 6.733

Binary ratings: 72.372

Sparsity: 99,83%Positive Rating: 45,85%Avg. Rating per user: 11,70Avg. Rating per item: 10,74

Molto sparso

Sbilanciato verso rating negativi

Simone Rutigliano 29 Aprile 2015 25

Page 32: Presentation Master Degree

Protocollo Sperimentale - Setup

Ogni esperimento sara dato dalla combinazione dei seguenti fattori

TecnicaPageRank conpriorita

SplitMovielens: 5 foldBooks: training etest fisso

RappresentazioniGraphGraph + LODGraph + LOD + FS

Proprieta totali60 per Movielens70 per Books

Tecniche di FSPageRankχ2

Info GainGain RatiomRMRPCASVM

Featuresselezionate

103050

MetricheF1Diversity (ILD)

Simone Rutigliano 29 Aprile 2015 26

Page 33: Presentation Master Degree

Protocollo Sperimentale - Setup

Ogni esperimento sara dato dalla combinazione dei seguenti fattori

TecnicaPageRank conpriorita

SplitMovielens: 5 foldBooks: training etest fisso

RappresentazioniGraphGraph + LODGraph + LOD + FS

Proprieta totali60 per Movielens70 per Books

Tecniche di FSPageRankχ2

Info GainGain RatiomRMRPCASVM

Featuresselezionate

103050

MetricheF1Diversity (ILD)

Simone Rutigliano 29 Aprile 2015 26

Page 34: Presentation Master Degree

Protocollo Sperimentale - Setup

Ogni esperimento sara dato dalla combinazione dei seguenti fattori

TecnicaPageRank conpriorita

SplitMovielens: 5 foldBooks: training etest fisso

RappresentazioniGraphGraph + LODGraph + LOD + FS

Proprieta totali60 per Movielens70 per Books

Tecniche di FSPageRankχ2

Info GainGain RatiomRMRPCASVM

Featuresselezionate

103050

MetricheF1Diversity (ILD)

Simone Rutigliano 29 Aprile 2015 26

Page 35: Presentation Master Degree

Protocollo Sperimentale - Setup

Ogni esperimento sara dato dalla combinazione dei seguenti fattori

TecnicaPageRank conpriorita

SplitMovielens: 5 foldBooks: training etest fisso

RappresentazioniGraphGraph + LODGraph + LOD + FS

Proprieta totali60 per Movielens70 per Books

Tecniche di FSPageRankχ2

Info GainGain RatiomRMRPCASVM

Featuresselezionate

103050

MetricheF1Diversity (ILD)

Simone Rutigliano 29 Aprile 2015 26

Page 36: Presentation Master Degree

Protocollo Sperimentale - Setup

Ogni esperimento sara dato dalla combinazione dei seguenti fattori

TecnicaPageRank conpriorita

SplitMovielens: 5 foldBooks: training etest fisso

RappresentazioniGraphGraph + LODGraph + LOD + FS

Proprieta totali60 per Movielens70 per Books

Tecniche di FSPageRankχ2

Info GainGain RatiomRMRPCASVM

Featuresselezionate

103050

MetricheF1Diversity (ILD)

Simone Rutigliano 29 Aprile 2015 26

Page 37: Presentation Master Degree

Protocollo Sperimentale - Setup

Ogni esperimento sara dato dalla combinazione dei seguenti fattori

TecnicaPageRank conpriorita

SplitMovielens: 5 foldBooks: training etest fisso

RappresentazioniGraphGraph + LODGraph + LOD + FS

Proprieta totali60 per Movielens70 per Books

Tecniche di FSPageRankχ2

Info GainGain RatiomRMRPCASVM

Featuresselezionate

103050

MetricheF1Diversity (ILD)

Simone Rutigliano 29 Aprile 2015 26

Page 38: Presentation Master Degree

Protocollo Sperimentale - Setup

Ogni esperimento sara dato dalla combinazione dei seguenti fattori

TecnicaPageRank conpriorita

SplitMovielens: 5 foldBooks: training etest fisso

RappresentazioniGraphGraph + LODGraph + LOD + FS

Proprieta totali60 per Movielens70 per Books

Tecniche di FSPageRankχ2

Info GainGain RatiomRMRPCASVM

Featuresselezionate

103050

MetricheF1Diversity (ILD)

Simone Rutigliano 29 Aprile 2015 26

Page 39: Presentation Master Degree

Experiment 1

L’uso delle proprieta della LOD migliorano le performance delrecommender?

Movielens Books

Graph Graph + LOD Graph Graph + LOD

F1@5 0,5389 0,5424 0,5502 0,5504F1@10 0,6023 0,6083 0,6431 0,6421F1@15 0,5941 0,5963F1@20 0,5662 0,5686

Time(min) 72 880 +1122% 104 2.433 +2239%

Nodes 2.466 53.734 +2078% 12.649 211.661 +1573%Edges 44.300 178.646 +303% 33.189 534.841 +1511%

Tutte differenze statisticamente significative(Wilcoxon p-value < 0.01)

Simone Rutigliano 29 Aprile 2015 27

Page 40: Presentation Master Degree

Experiment 2 - Movielens

Si possono trarre vantaggi dall’utilizzo di tecniche di FS sulla LOD?

N Feature PageRank mRMR χ2 SVM GainRatio InfoGain PCA

F1@510 0,5418 0,5397 0,5414 0,5382 0,5372 0,5397 0,540630 0,5429 0,5429 0,5419 0,5413 0,5398 0,5396 0,541350 0,5412 0,5421 0,5420 0,5421 0,5406 0,5412 0,5431

F1@1010 0,6069 0,6039 0,6056 0,6043 0,6033 0,6039 0,604530 0,6084 0,6072 0,6070 0,6074 0,6059 0,6055 0,608150 0,6070 0,6077 0,6079 0,6081 0,6078 0,6072 0,6088

F1@1510 0,5964 0,5950 0,5955 0,5943 0,5938 0,5950 0,594830 0,5967 0,5962 0,5967 0,5964 0,5960 0,5955 0,596750 0,5955 0,5962 0,5972 0,5966 0,5968 0,5962 0,5970

F1@2010 0,5684 0,5668 0,5672 0,5669 0,5666 0,5668 0,566730 0,5684 0,5679 0,5679 0,5679 0,5675 0,5675 0,568950 0,5682 0,5685 0,5686 0,5683 0,5687 0,5685 0,5689

Ad esclusione del PageRank, tutte le altre tecniche hanno illoro picco su 50 features

Tutte differenze statisticamente significative(Friedman p-value < 0.01)

Simone Rutigliano 29 Aprile 2015 28

Page 41: Presentation Master Degree

Experiment 2 - Movielens

Si possono trarre vantaggi dall’utilizzo di tecniche di FS sulla LOD?

Simone Rutigliano 29 Aprile 2015 29

Page 42: Presentation Master Degree

Experiment 2 - Movielens Riepilogo

Paragonando i risultati migliori con le baseline

Graph Graph + LOD Graph + LOD + PCA

F1@5 0,5389 0,5424 0,5431F1@10 0,6023 0,6083 0,6088F1@15 0,5941 0,5963 0,5970F1@20 0,5662 0,5686 0,5689

Time(min) 72 880 585 -33%

Nodes 2.466 53.734 48.327 -10%Edges 44.300 178.646 167.319 -6%

Simone Rutigliano 29 Aprile 2015 30

Page 43: Presentation Master Degree

Experiment 2 - Books

Si possono trarre vantaggi dall’utilizzo di tecniche di FS sulla LOD?

N Feature PageRank mRMR χ2 SVM GainRatio InfoGain PCA

F1@510 0,5515 0,5493 0,5512 0,5507 0,5524 0,5540 0,551330 0,5518 0,5519 0,5517 0,5519 0,5524 0,5519 0,551050 0,5517 0,5511 0,5505 0,5512 0,5503 0,5511 0,5513

F1@1010 0,6431 0,6435 0,6423 0,6434 0,6435 0,6445 0,643330 0,6422 0,6427 0,6420 0,6430 0,6431 0,6427 0,643250 0,6418 0,6419 0,6419 0,6426 0,6425 0,6419 0,6428

I risultati migliori con 10 e 30 feature

Tutte differenze statisticamente significative(Friedman p-value < 0.01)

Simone Rutigliano 29 Aprile 2015 31

Page 44: Presentation Master Degree

Experiment 2 - Books

Si possono trarre vantaggi dall’utilizzo di tecniche di FS sulla LOD?

InfoGain risulta essere la tecnica piu performante

Simone Rutigliano 29 Aprile 2015 32

Page 45: Presentation Master Degree

Experiment 2 - Books Riepilogo

Paragonando i risultati migliori con le baseline

Graph Graph + LOD Graph + LOD + InfoGain

F1@5 0,5502 0,5504 0,5540F1@10 0,6431 0,6421 0,6445

Time(min) 104 2.433 1.341 -45%

Nodes 12.649 211.661 88.669 -58%Edges 33.189 534.841 142.334 -73%

Simone Rutigliano 29 Aprile 2015 33

Page 46: Presentation Master Degree

Experiment 3 - Movielens

Esiste una connessione tra la scelta della tecnica di FS e ilcomportamento dell’algoritmo?

Simone Rutigliano 29 Aprile 2015 34

Page 47: Presentation Master Degree

Experiment 3 - Movielens

Esiste una connessione tra la scelta della tecnica di FS e ilcomportamento dell’algoritmo?

Simone Rutigliano 29 Aprile 2015 35

Page 48: Presentation Master Degree

Experiment 3 - Movielens

Esiste una connessione tra la scelta della tecnica di FS e ilcomportamento dell’algoritmo?

Simone Rutigliano 29 Aprile 2015 36

Page 49: Presentation Master Degree

Experiment 3 - Books

Esiste una connessione tra la scelta della tecnica di FS e ilcomportamento dell’algoritmo?

Simone Rutigliano 29 Aprile 2015 37

Page 50: Presentation Master Degree

Experiment 3 - Books

Esiste una connessione tra la scelta della tecnica di FS e ilcomportamento dell’algoritmo?

Simone Rutigliano 29 Aprile 2015 38

Page 51: Presentation Master Degree

Experiment 3 - Books

Esiste una connessione tra la scelta della tecnica di FS e ilcomportamento dell’algoritmo?

Simone Rutigliano 29 Aprile 2015 39

Page 52: Presentation Master Degree

Experiment 4 - Movielens

Come si comporta la nostra metodologia rispetto allo statodell’arte?

Simone Rutigliano 29 Aprile 2015 40

Page 53: Presentation Master Degree

Experiment 4 - Movielens

Come si comporta la nostra metodologia rispetto allo statodell’arte?

Simone Rutigliano 29 Aprile 2015 41

Page 54: Presentation Master Degree

Experiment 4 - Books

Simone Rutigliano 29 Aprile 2015 42

Page 55: Presentation Master Degree

Experiment 4 - Books

Simone Rutigliano 29 Aprile 2015 43

Page 56: Presentation Master Degree

Conclusioni

L’uso delle proprieta della LOD migliora leperformance del recommender

Si possono trarre vantaggi dall’utilizzo ditecniche di FS sulla LOD sia in termini di F1 chein tempo di esecuzione

Alcune tecniche di FS sono in grado di migliorareun particolare aspetto anziche altri

Rispetto allo stato dell’arte il sistema realizzatoriesce a produrre risultati migliori

Simone Rutigliano 29 Aprile 2015 44

Page 57: Presentation Master Degree

Conclusioni

L’uso delle proprieta della LOD migliora leperformance del recommender

Si possono trarre vantaggi dall’utilizzo ditecniche di FS sulla LOD sia in termini di F1 chein tempo di esecuzione

Alcune tecniche di FS sono in grado di migliorareun particolare aspetto anziche altri

Rispetto allo stato dell’arte il sistema realizzatoriesce a produrre risultati migliori

Simone Rutigliano 29 Aprile 2015 44

Page 58: Presentation Master Degree

Conclusioni

L’uso delle proprieta della LOD migliora leperformance del recommender

Si possono trarre vantaggi dall’utilizzo ditecniche di FS sulla LOD sia in termini di F1 chein tempo di esecuzione

Alcune tecniche di FS sono in grado di migliorareun particolare aspetto anziche altri

Rispetto allo stato dell’arte il sistema realizzatoriesce a produrre risultati migliori

Simone Rutigliano 29 Aprile 2015 44

Page 59: Presentation Master Degree

Conclusioni

L’uso delle proprieta della LOD migliora leperformance del recommender

Si possono trarre vantaggi dall’utilizzo ditecniche di FS sulla LOD sia in termini di F1 chein tempo di esecuzione

Alcune tecniche di FS sono in grado di migliorareun particolare aspetto anziche altri

Rispetto allo stato dell’arte il sistema realizzatoriesce a produrre risultati migliori

Simone Rutigliano 29 Aprile 2015 44

Page 60: Presentation Master Degree

Sviluppi futuri

Testare altre tecniche di Feature Selection

Combinare le tecniche di FS in base ai risultati ottenuti

Unire o intersecare le tecniche migliori

Trovare il numero esatto di feature da utilizzare in ognitecnica di FS

Simone Rutigliano 29 Aprile 2015 45

Page 61: Presentation Master Degree

Sviluppi futuri

Testare altre tecniche di Feature Selection

Combinare le tecniche di FS in base ai risultati ottenuti

Unire o intersecare le tecniche migliori

Trovare il numero esatto di feature da utilizzare in ognitecnica di FS

Simone Rutigliano 29 Aprile 2015 45

Page 62: Presentation Master Degree

Sviluppi futuri

Testare altre tecniche di Feature Selection

Combinare le tecniche di FS in base ai risultati ottenuti

Unire o intersecare le tecniche migliori

Trovare il numero esatto di feature da utilizzare in ognitecnica di FS

Simone Rutigliano 29 Aprile 2015 45

Page 63: Presentation Master Degree

Simone Rutigliano 29 Aprile 2015 46

Page 64: Presentation Master Degree

References I

Taher H. Haveliwala.

Topic-sensitive pagerank: A context-sensitive ranking algorithm for websearch.

IEEE Trans. on Knowl. and Data Eng., 15(4):784–796, July 2003.

Simone Rutigliano 29 Aprile 2015 47

Page 65: Presentation Master Degree

Funzionamento del PageRank

Consideriamo un grafo composto da sei documenti cosi connessi

1 2

3

56

4

Simone Rutigliano 29 Aprile 2015 48

Page 66: Presentation Master Degree

Funzionamento del PageRank

Creazione della matrice di Google per righe P del grafo

1 2

3

56

4

P =

0 12

12 0 0 0

0 0 0 0 0 013

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0

Simone Rutigliano 29 Aprile 2015 49

Page 67: Presentation Master Degree

Funzionamento del PageRank

Creazione della matrice di Google per righe P del grafo

1 2

3

56

4

P =

0 12

12 0 0 0

0 0 0 0 0 013

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0

Simone Rutigliano 29 Aprile 2015 50

Page 68: Presentation Master Degree

Funzionamento del PageRank

Creazione della matrice di Google per righe P del grafo

1 2

3

56

4

P =

0 12

12 0 0 0

0 0 0 0 0 013

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0

Simone Rutigliano 29 Aprile 2015 51

Page 69: Presentation Master Degree

. . . Funzionamento PageRank - Stocasticita . . .

Considerato che il nodo 2 e un nodo dangling1 sara necessariotrasformare il grafo e rendere stocastica la matrice corrispondente

1 2

3

56

4

P =

0 12

12 0 0 0

16

16

16

16

16

16

13

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0

s1Privo di link uscenti

Simone Rutigliano 29 Aprile 2015 52

Page 70: Presentation Master Degree

. . . Funzionamento PageRank - irriducibilita. . .

Il grafo dovra subire un’ulteriore trasformazione rendendo lamatrice di Google per righe irriducibile

1 2

3

56

4

P =

0 12

12 0 0 0

16

16

16

16

16

16

13

13 0 0 1

3 0

0 0 0 0 12

12

0 0 0 12 0 1

2

0 0 0 1 0 0

s

Simone Rutigliano 29 Aprile 2015 53

Page 71: Presentation Master Degree

. . . Funzionamento PageRank - irriducibilita. . .

Per rendere irriducibile la matrice i valori verranno ricalcolatisecondo la formula:

¯P = 0.85 ∗ P +0.15 ∗ 11ᵀ

6

1 2

3

56

4

¯P =

0.025 0.45 0.45 0.03 0.03 0.03

0.17 0.17 0.17 0.17 0.17 0.17

0.31 0.31 0.03 0.03 0.31 0.03

0.03 0.03 0.03 0.03 0.45 0.45

0.03 0.03 0.03 0.45 0.03 0.45

0 0.03 0.03 1 0.03 0.03

sSimone Rutigliano 29 Aprile 2015 54

Page 72: Presentation Master Degree

. . . Funzionamento PageRank

Attraverso il metodo delle potenze si andranno a calcolare gliautovalori della matrice ottenendo i valori del PageRank

1 2

3

56

4

π =

0.372

0.054

0.042

0.375

0.206

0.286

sIl ranking dei documenti sara quindi: 4 - 1 - 6 - 5 - 2 - 1

Simone Rutigliano 29 Aprile 2015 55

Page 73: Presentation Master Degree

PageRank

Utilizza la stessa tecnica utilizzata nella raccomandazione pereffettuare anche la feature selection

Cerca le feature piu importanti in base a quante volte sonopresenti nella Linked Open Data

Simone Rutigliano 29 Aprile 2015 56

Page 74: Presentation Master Degree

Chi Squared

Verifica se esiste una correlazione tra le feature e l’attributo diclasse usando la statistica χ2

Il test statistico sara:

χ2 =C∑i=1

(Oi − Ei )2

Eicon gradi di liberta pari a C − 1

dove

C = numero di categorie

Oi = frequenze osservate per la categoria i

Ei = frequenze attese per la categoria i

Simone Rutigliano 29 Aprile 2015 57

Page 75: Presentation Master Degree

Information Gain

Valuta gli attributi sulla base del guadagno di informazione cheapporta al dataset

Guadagno ottenuto riducendo l’incertezza iniziale

IG (S ,Attr) = Entropy(S)−∑

v∈Values(Attr)

|Sv ||S |· Entropy(Sv )

dove:

S : dataset di training

Attr : rappresenta l’attributo da analizzare

v : valori degli attributi Attr

Sv : subset di istanze con attributo Attr valorizzato con v

Simone Rutigliano 29 Aprile 2015 58

Page 76: Presentation Master Degree

Gain Ratio

Estensione dell’information gain classico

Mira a penalizzare gli attributi con un numero elevato di valori

Normalizza l’InfoGain usando l’entropia di S in relazioneall’attributo Attr (Split information)

SplitInformation(S ,Attr) = −∑

v∈Values(Attr)

|Sv ||S |

log

(|Sv ||S |

)

Definizione di GainRatio:

GainRatio(S ,Attr) =IG (S ,Attr)

SplitInformation(S ,Attr)

Simone Rutigliano 29 Aprile 2015 59

Page 77: Presentation Master Degree

mRMR

Consiste nel trovare il subset di feature che riesconocontemporaneamente a garantire:

minima ridondanza tra le features

features tra loro piu dissimilari possibili

massima rilevanza delle features con la classe target

features piu discriminanti per la classe target

Simone Rutigliano 29 Aprile 2015 60

Page 78: Presentation Master Degree

Principal Component Analysis (PCA)

Riduce la dimensionalita del dataset combinando le variabili ingioco

Mantiene lo stesso apporto informativo del dataset originale

Le nuove variabili, chiamate Principal Components (PC), sononon correlate, e sono ordinate in base all’informazione cheessa contiene

Simone Rutigliano 29 Aprile 2015 61

Page 79: Presentation Master Degree

Principal Component Analysis (PCA)

Trova l’asse che meglio rappresenta la piu grande variazione(First principal component) e proietta tutti i punti suquest’asse

Definisce la nuova dimensionalita sulla base degli autovettoridella matrice di covarianza associata

Simone Rutigliano 29 Aprile 2015 62

Page 80: Presentation Master Degree

Support Vector Machine (SVM)

SVM massimizza il margine di separazione tra gli iperpiani

La funzione di decisione viene creata sulla base del subset diesempi (support vectors)

Simone Rutigliano 29 Aprile 2015 63