Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando:...
-
Upload
mattia-corso -
Category
Documents
-
view
216 -
download
0
Transcript of Tesi di laurea in Informatica Anno Accademico 2013/2014 Relatore: Ing. Riccardo Martoglia Laureando:...
Realizzazione di un motore di ricerca semantico basato sul contesto
Tesi di laurea in Informatica
Università degli studi di Modena e Reggio Emilia
Dipartimento di Scienze Fisiche, Matematiche e Informatiche
Anno Accademico 2013/2014
Relatore:Ing. Riccardo Martoglia
Laureando:Marco Valerio Manzini
AMBIT “Algorithms and Models for Building context-dependent Information delivery Tools”
Obiettivi :
◦Studiare e Sviluppare un’architettura software prototipale:
Fornire servizi personalizzati ad utenti in base al contesto
Soddisfare l’User Information Need
Il Progetto AMBIT
Ideare tecniche di ricerca per :-Trovare il ranking ottimale delle pagine del sito di e-commerce, in linea con il contesto dell’utente
Obiettivo della tesi
Scenario del motore di ricerca
Profilo dell’utente Sito di e-commerce
PAGINE CONSIGLIATE
RICHIESTA Cronologia Prodotti
1. Progettazione e Implementazione
2. Prove sperimentali e Risultati
3. Conclusione e Sviluppi Futuri
Realizzazione di un motore di ricerca semantico basato sul contesto
Tipi di pagine web
COGITO
Espressioni regolari
Estrazione dei termini dal testo
Termini rilevanti
Libreria Python
Classi IPTC*
ENTITIES
DOMAINS
MAINLEMMAS
Espressioni
regolari
*Internation Press Telecomunication Councilhttp://cv.iptc.org/newscodes/mediatopic
Generazione dei glossari dei termini
Termini rilevanti
Termini rilevanti
Termini rilevantiEntities
DomainsMainlemmas
Termini rilevantiEntities
DomainsMainlemmas
GlossarioProfilo
GlossarioPagine sito
GlossarioPagine sito
GlossarioProfilo
Array Termine, TFDictTermine : IDF
Struttura
Generazione degli Inverted Index
GlossarioPagine sito
GlossarioPagine sito
Dict Termine : DocumentiDict Termine : TFDict Termine : SinonimiDict Termine : Correlati
Inverted IndexInverted Index
Struttura
Scelta cruciale Numero di termini sinonimi e contrari◦Per una misura di similarità e un ranking corretto
Vincoli tramite WordNet:◦SINONIMI Tutti quelli che hanno un numero di
significati uguale a 1.◦CORRELATI Tutti quelli ad una distanza minore o
uguale a 2 sull’albero degli iponimi e degli iperonimi.
Scelta del numero di sinonimi e correlati
Similarità - Modello Vettoriale Esteso *PC, 3 Computer, 2 Mouse, 1 Keyboard, 1Vettore profilo
TV, 3 Computer, 2
Television, 3 Screen, 2 PC, 3 Mouse, 2
Vettore pagina
Sinonimo SinonimoCorrelato Correlato
Score =(3*3*1) + (2*2*1) + (1*2*0,7) + 0 = 14,4PC Computer Mouse Keyboard
* Sonia Bergamaschi, Riccardo Martoglia, and Serena Sorrentino. A semantic method for searching knowledge in a software development context. In SEBD, pages 115–122, 2012.
Similarità costruite:
◦Con solo i termini uguali TF-IDF puro BASELINE
◦Con termini uguali, sinonimi e correlati
◦Con solo i termini uguali e sinonimi
Similarità - Modello Vettoriale Esteso
Similarità - Classi IPTC
IPTC/Televisione , 600 IPTC/Cinema , 300
IPTC/Televisione , 200 IPTC/Intrattenimento/Musica , 500
Classi del profilo
Classi di una pagina del sito di e-commerce
Score =(600*1) + (0,52) + (0,70) + (0,52) = 601,74
12 3
3
- log10(distanza/2*H)
Passo preliminare normalizzare score
◦Somma dei singoli score
◦Ogni singolo score diviso per la somma precedente
Ranking Fusion – Normalizzare score
Ranking Fusion – Algoritmo pesato WE *
len(i)+1 lunghezza dell’i-esimo ranking e(i) posizione dell’elemento all’interno del ranking r(i) punteggio dell’elemento nell’ i-esimo ranking n ranking che includono l’elemento m ranking coinvolti nel fusion k numero totale di oggetti all’interno del ranking max(len(r)) lunghezza massima tra i ranking da fondere
Risultato ranking influenzato dalle posizioni [len(i)+1 – e(i)] e dai pesi degli elementi r(i) .
* Leonidas Akritidis, Dimitrios Katsaros, and Panayiotis Bozanis. Effective ranking fusion methods for personalized metasearch engines. In Informatics, 2008. PCI’08. Panhellenic Conference on, pages 39–43. IEEE, 2008.
1. Progettazione e Implementazione
2. Prove sperimentali e Risultati
3. Conclusione e Sviluppi Futuri
Realizzazione di un motore di ricerca semantico basato sul contesto
Sito di e-commerce◦12 pagine web da amazon.com :3 Televisori (TV1, TV2, TV3)3 Videogiochi(GAME1, GAME2, GAME3)3 Libri (BOOK1, BOOK2, BOOK3)3 Cellulari (CELL1, CELL2, CELL3)
Set di dati
Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 1 alla ricerca di una TV
TV1TV3
TV2
BOOK3
CELL3
CELL2
BOOK2
BOOK1
GAME3
GAME2
CELL1
GAME1
0.0000
0.0500
0.1000
0.1500
0.2000
0.2500
0.3000
0.3500
0.4000
0.4500
MVE HTML MVE XML Classi IPTC Ranking Fusion
Pagine del sito di e-commerce
Scor
e di
sim
ilar
ità
otte
nuto
1 – TV22 – TV13 – GAME34 – BOOK15 – GAME16 – CELL17 – TV38 – BOOK39 . CELL310 – BOOK211 – GAME212 – CELL2
Ranking delle pagine del sito di e-commerce per il profilo dell’ utente 2 interessato ai
prodotti Sony
TV2
CELL1
GAME3
GAME1
TV1
CELL3
CELL2
GAME2
BOOK2
BOOK1TV3
BOOK30.0000
0.0500
0.1000
0.1500
0.2000
0.2500
0.3000
MVE HTML MVE XML Classi IPTC Ranking Fusion
Pagine del sito di e-commerce
Scor
e di
sim
ilar
ità
otte
nuto
1 – GAME32 – GAME23 – GAME14 – BOOK35 – CELL36 – CELL27 – TV18 – BOOK29 – BOOK110 – TV311 – CELL112 – TV2
1. Progettazione e Implementazione
2. Prove sperimentali e Risultati
3. Conclusione e Sviluppi Futuri
Realizzazione di un motore di ricerca semantico basato sul contesto
Motore di ricerca semantico basato sul contesto :
Conclusioni
Algoritmo di similarità basato sul
modello spazio vettoriale esteso
Algoritmo di similarità basato sulle classi IPTC
Ranking Fusion
Specifico GeneraleOttimale
Ampliamento del set di dati e prove sperimentali
Parallelizzazione della creazione di glossari e inverted index
Uso di altri contesti ( GPS, Facebook, ecc…)
Introduzioni di tecniche di Word Sense Disambiguation (WSD)
Sviluppi Futuri
GRAZIE A TUTTI PER L’ATTENZIONE