Faceted Search
-
Upload
dannyz -
Category
Technology
-
view
3.262 -
download
0
description
Transcript of Faceted Search
Introduzione alla “Faceted Search”IntelliSemantic
www.intellisemantic.com 2
Sommario
• Introduzione • Navigazione, Classificazione, Tassonomie• Ricerca per categorie (faceted search)
• Tecnologie utilizzate• Applicazioni
www.intellisemantic.com 3
Introduzione
• Differenze tra navigazione, classificazione e tassonomia sul web
• Faceted search, molto più che una ricerca avanzata• Apporto della semantica
• Architettura dell'informazione
www.intellisemantic.com 4
Navigazione
• La navigazione è la rappresentazione del modello mentale del designer che sta provando a prevedere il modello mentale
dell'utente.
• Non esiste una “navigazione corretta” di un sito web, ma molti modi di navigare
• Il menu di navigazione può essere visto come l'indice di un libro, fornisce una struttura per l'accesso alle informazioni.
www.intellisemantic.com 5
Classificazione e categorie
• La classificazione (categorizzazione) è un'astrazione
• Uno schema di classificazione può essere usato in molti contesti
• Il menu di navigazione è invece specifico per un contesto
• E' possibile utilizzare le categorie come un menu di navigazione (es. yahoo, dmoz, etc.)
www.intellisemantic.com 6
Tassonomie
• La tassonomia è uno schema di classificazione in cui gli elementi possono essere ordinati in base alla gerarchia
• Le tassonomie sono diverse dal menu di navigazione perchè:
1)possono essere (ri-)utilizzate in contesti diversi
2)tassonomie simili possono integrarsi facilmente (matching)
www.intellisemantic.com 7
Facets (“Categorie”)
• E' possibile navigare mediante le “faccette”
• Come etichetta si utilizza la categoria padre di un tassonomia. Viene tradotta in italiano con il termine di “faccetta”.
• Una “faccetta” (in inglese "facet") è un particolare aspetto sotto il quale un argomento viene trattato, una coppia proprietà-valore (es. “vino rosso”-”merlot”)
www.intellisemantic.com 8
Ricerca per categorie (1)
www.intellisemantic.com 9
Ricerca per categorie (2)
www.intellisemantic.com 10
Faceted search
• E' diversa dalla semplice advanced search
• L'utente conosce in anticipo il numero di risposte
• La ricerca può essere rifinita in modo consapevole
• Si possono avere “n” faccette per ogni argomento, grande precisione nella search
• Ad es. l'abbigliamento si può trovare per “taglia”, “colore”, “prezzo”, “tipologia” etc..
www.intellisemantic.com 11
La semantica
• La semantica è molto utile nel creare le faccette
0. possono essere (ri-)utilizzate in contesti diversi
1. tassonomie simili possono integrarsi facilmente (matching)
2. si possono applicare tecniche di estrazione automatica di contenuti
3. Si può “istruire” il motore di ricerca annotando le risorse
www.intellisemantic.com 12
Parole chiave
• Vocabolario controllato• Tassonomie• Thesaurus• Ontologie
www.intellisemantic.com 13
IntelliFacet
• Il prototipo Intellifacet è stato realizzato per dimostrare la possibilità e l'efficacia di acquisire informazioni da fonti strutturate e non strutturate e presentarle all'utente in forma semplice e facilmente consultabile.
• I risultati vengono infatti raggruppati per categorie e visualizzati con il sistema “a faccette”, che permette di raffinare la ricerca secondo la direzione voluta, avendo al contempo una visione d'insieme delle informazioni disponibili.
www.intellisemantic.com 14
Architettura (1)
• Architettura e moduli:
0. Acquisizione dei dati
1. Trattamento dei dati
2. Inserimento dei dati in un db e/o indicizzazione
3. Pubblicazione online con interfaccia a faccette e full-text search
www.intellisemantic.com 15
Architettura (2)
www.intellisemantic.com 16
Acquisizione dei dati
• I dati in forma non strutturata (html, pdf, doc testi etc)• Dati strutturati, (data base, xml, etc)• Dati “semantici” (in particolare rdf)
www.intellisemantic.com 17
Trattamento dei dati
• Uso di framework per estrarre metadati da fonti non strutturate (entity extraction/auto classification)
• Dati strutturati, tipicamente provenienti da un db, trattati in funzione del tool utilizzato per gestire le faccette (xml, json o rdf)
• Lucene Java utilizzato per analizzare i documenti testuali al fine di fornire una ricerca lessicale.
www.intellisemantic.com 18
Indicizzazione
• Apache SOLR, tool open-source per il metadada faceted search• RDF come eventuale formato di scambio dati.
www.intellisemantic.com 19
Applicazioni
• Interfaccia “a faccette” sul browser per l'utente online• Solr gestisce chiamate via java (embedded)• Solr supporta anche chiamate http (post e get)• Possibilità di avere un server centralizzato per l'indexing• Diverse interfacce utente “custom” (php, jsp, asp, etc)
www.intellisemantic.com 20
Interfaccia utente
• Interfaccia “a faccette” sul browser per l'utente online• Solr gestisce chiamate via java (embedded)• Solr supporta anche chiamate http (post e get)• Possibilità di avere un server centralizzato per l'indexing• Diverse interfacce utente “custom” (php, jsp, asp, etc)
www.intellisemantic.com 21
Applicazioni
• Enterprise Search, con ricerca su fonti non strutturate• CMS: estensioni a livello di acquisizione delle informazioni e a livello di
presentazione delle stesse. Integrazione a livello di annotazione/modifica dei contenuti.
• Web publishing di contenuti• Search engine sito verticale: applicazione al momento più semplice da
realizzare• Integrazione in un sito e-commerce: a livello di search o come soluzione
tout-court.