Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando:...

23
Realizzazione di un motore di ricerca semantico basato sul contesto Tesi di laurea in Informatica Università degli studi di Modena e Reggio Emilia Dipartimento di Scienze Fisiche, Matematiche e Informatiche Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini

Transcript of Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando:...

Page 1: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Realizzazione di un motore di ricerca semantico basato sul contesto

Tesi di laurea in Informatica

Università degli studi di Modena e Reggio Emilia

Dipartimento di Scienze Fisiche, Matematiche e Informatiche

Anno Accademico 2013/2014

Relatore:Ing. Riccardo Martoglia

Laureando:Marco Valerio Manzini

Page 2: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

AMBIT “Algorithms and Models for Building context-dependent Information delivery Tools”

Obiettivi :

◦Studiare e Sviluppare un’architettura software prototipale:

Fornire servizi personalizzati ad utenti in base al contesto

Soddisfare l’User Information Need

Il Progetto AMBIT

Page 3: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Ideare tecniche di ricerca per :-Trovare il ranking ottimale delle pagine del sito di e-commerce, in linea con il contesto dell’utente

Obiettivo della tesi

Page 4: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Scenario del motore di ricerca

Profilo dell’utente Sito di e-commerce

PAGINE CONSIGLIATE

RICHIESTA Cronologia Prodotti

Page 5: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

1. Progettazione e Implementazione

2. Prove sperimentali e Risultati

3. Conclusione e Sviluppi Futuri

Realizzazione di un motore di ricerca semantico basato sul contesto

Page 6: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Tipi di pagine web

COGITO

Espressioni regolari

Page 7: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Estrazione dei termini dal testo

Termini rilevanti

Libreria Python

Classi IPTC*

ENTITIES

DOMAINS

MAINLEMMAS

Espressioni

regolari

*Internation Press Telecomunication Councilhttp://cv.iptc.org/newscodes/mediatopic

Page 8: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Generazione dei glossari dei termini

Termini rilevanti

Termini rilevanti

Termini rilevantiEntities

DomainsMainlemmas

Termini rilevantiEntities

DomainsMainlemmas

GlossarioProfilo

GlossarioPagine sito

GlossarioPagine sito

GlossarioProfilo

Array Termine, TFDictTermine : IDF

Struttura

Page 9: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Generazione degli Inverted Index

GlossarioPagine sito

GlossarioPagine sito

Dict Termine : DocumentiDict Termine : TFDict Termine : SinonimiDict Termine : Correlati

Inverted IndexInverted Index

Struttura

Page 10: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Scelta cruciale Numero di termini sinonimi e contrari◦Per una misura di similarità e un ranking corretto

Vincoli tramite WordNet:◦SINONIMI Tutti quelli che hanno un numero di

significati uguale a 1.◦CORRELATI Tutti quelli ad una distanza minore o

uguale a 2 sull’albero degli iponimi e degli iperonimi.

Scelta del numero di sinonimi e correlati

Page 11: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Similarità - Modello Vettoriale Esteso *PC, 3 Computer, 2 Mouse, 1 Keyboard, 1Vettore profilo

TV, 3 Computer, 2

Television, 3 Screen, 2 PC, 3 Mouse, 2

Vettore pagina

Sinonimo SinonimoCorrelato Correlato

Score =(3*3*1) + (2*2*1) + (1*2*0,7) + 0 = 14,4PC Computer Mouse Keyboard

* Sonia Bergamaschi, Riccardo Martoglia, and Serena Sorrentino. A semantic method for searching knowledge in a software development context. In SEBD, pages 115–122, 2012.

Page 12: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Similarità costruite:

◦Con solo i termini uguali TF-IDF puro BASELINE

◦Con termini uguali, sinonimi e correlati

◦Con solo i termini uguali e sinonimi

Similarità - Modello Vettoriale Esteso

Page 13: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Similarità - Classi IPTC

IPTC/Televisione , 600 IPTC/Cinema , 300

IPTC/Televisione , 200 IPTC/Intrattenimento/Musica , 500

Classi del profilo

Classi di una pagina del sito di e-commerce

Score =(600*1) + (0,52) + (0,70) + (0,52) = 601,74

12 3

3

- log10(distanza/2*H)

Page 14: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Passo preliminare normalizzare score

◦Somma dei singoli score

◦Ogni singolo score diviso per la somma precedente

Ranking Fusion – Normalizzare score

Page 15: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Ranking Fusion – Algoritmo pesato WE *

len(i)+1 lunghezza dell’i-esimo ranking e(i) posizione dell’elemento all’interno del ranking r(i) punteggio dell’elemento nell’ i-esimo ranking n ranking che includono l’elemento m ranking coinvolti nel fusion k numero totale di oggetti all’interno del ranking max(len(r)) lunghezza massima tra i ranking da fondere

Risultato ranking influenzato dalle posizioni [len(i)+1 – e(i)] e dai pesi degli elementi r(i) .

* Leonidas Akritidis, Dimitrios Katsaros, and Panayiotis Bozanis. Effective ranking fusion methods for personalized metasearch engines. In Informatics, 2008. PCI’08. Panhellenic Conference on, pages 39–43. IEEE, 2008.

Page 16: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

1. Progettazione e Implementazione

2. Prove sperimentali e Risultati

3. Conclusione e Sviluppi Futuri

Realizzazione di un motore di ricerca semantico basato sul contesto

Page 17: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Sito di e-commerce◦12 pagine web da amazon.com :3 Televisori (TV1, TV2, TV3)3 Videogiochi(GAME1, GAME2, GAME3)3 Libri (BOOK1, BOOK2, BOOK3)3 Cellulari (CELL1, CELL2, CELL3)

Set di dati

Page 18: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 1 alla ricerca di una TV

TV1TV3

TV2

BOOK3

CELL3

CELL2

BOOK2

BOOK1

GAME3

GAME2

CELL1

GAME1

0.0000

0.0500

0.1000

0.1500

0.2000

0.2500

0.3000

0.3500

0.4000

0.4500

MVE HTML MVE XML Classi IPTC Ranking Fusion

Pagine del sito di e-commerce

Scor

e di

sim

ilar

ità

otte

nuto

1 – TV22 – TV13 – GAME34 – BOOK15 – GAME16 – CELL17 – TV38 – BOOK39 . CELL310 – BOOK211 – GAME212 – CELL2

Page 19: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 2 interessato ai

prodotti Sony

TV2

CELL1

GAME3

GAME1

TV1

CELL3

CELL2

GAME2

BOOK2

BOOK1TV3

BOOK30.0000

0.0500

0.1000

0.1500

0.2000

0.2500

0.3000

MVE HTML MVE XML Classi IPTC Ranking Fusion

Pagine del sito di e-commerce

Scor

e di

sim

ilar

ità

otte

nuto

1 – GAME32 – GAME23 – GAME14 – BOOK35 – CELL36 – CELL27 – TV18 – BOOK29 – BOOK110 – TV311 – CELL112 – TV2

Page 20: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

1. Progettazione e Implementazione

2. Prove sperimentali e Risultati

3. Conclusione e Sviluppi Futuri

Realizzazione di un motore di ricerca semantico basato sul contesto

Page 21: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Motore di ricerca semantico basato sul contesto :

Conclusioni

Algoritmo di similarità basato sul

modello spazio vettoriale esteso

Algoritmo di similarità basato sulle classi IPTC

Ranking Fusion

Specifico GeneraleOttimale

Page 22: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

Ampliamento del set di dati e prove sperimentali

Parallelizzazione della creazione di glossari e inverted index

Uso di altri contesti ( GPS, Facebook, ecc…)

Introduzioni di tecniche di Word Sense Disambiguation (WSD)

Sviluppi Futuri

Page 23: Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando: Marco Valerio Manzini.

GRAZIE A TUTTI PER L’ATTENZIONE