Seminario IBM - 17 set 09

32
STaR: a Social Tag Recommender @ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09 Cataldo Musto mercoledì 16 settembre 2009

description

Presentazione effettuata in IBM per introdurre gli ultimi sviluppi del gruppo

Transcript of Seminario IBM - 17 set 09

Page 1: Seminario IBM - 17 set 09

STaR: a Social Tag Recommender

@ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09

Cataldo Musto

mercoledì 16 settembre 2009

Page 2: Seminario IBM - 17 set 09

ECML/PKDD Discovery Challenge 2009

• Discovery Challenge

• Competizione collaterale alla conferenza

• L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag Recommendation

• Dominio: www.bibsonomy.org

• Raccomandazione di tag per bookmark e BibTeX pubblicati sulla piattaforma

mercoledì 16 settembre 2009

Page 3: Seminario IBM - 17 set 09

Social Tagging• Nel contesto del Web 2.0 si sta assistendo a una

sempre maggiore diffusione dei sistemi di Tagging Collaborativo

• es) Flickr (www.flickr.com) , Delicious (http://del.icio.us) , Bibsonomy (www.bibsonomy.org) , ecc.

• Un utente fruisce di una risorsa (testuale o multimediale) e la annota con dei termini ritenuti adatti a descriverne il contenuto sulla base del proprio modello mentale

• Questa attività di annotazione collaborativa permette di associare un insieme di tag liberamente definito dagli utenti a ciascuna risorsa fruibile sulla piattaforma. Questo insieme di tag è detto folksonomia

mercoledì 16 settembre 2009

Page 4: Seminario IBM - 17 set 09

Tag Cloud

mercoledì 16 settembre 2009

Page 5: Seminario IBM - 17 set 09

Folksonomie

• Una folksonomia è un modello di rappresentazione delle informazioni costruito liberamente dagli utenti in modo collaborativo

• Vantaggi: Curva di apprendimento molto rapida, gli utenti possono immediatamente modellare gli oggetti utilizzando il proprio lessico, facilità di ritrovamento dell’informazione

• Svantaggi: La rappresentazione delle informazioni nelle folksonomie avviene in maniera puramente sintattica

• Problemi di sinonimia, polisemia e rappresentazione su differenti livelli di astrazione

• es) Oggetti annotati con il tag “Apple” o “Rinascimento”

mercoledì 16 settembre 2009

Page 6: Seminario IBM - 17 set 09

Tag Recommender

• Componente che si occupa di filtrare lo spazio dei tag suggerendo all’utente quelli più adatti a modellare una certa risorsa

• Vantaggi: Condivisione del lessico, velocizzazione della tag convergence, riduzione dei problemi di sinonimia, polisemia, ecc.

• Modello di raccomandazione:

• Analisi del comportamento dell’utente

• Analisi del comportamento della comunità

• Analisi del contenutomercoledì 16 settembre 2009

Page 7: Seminario IBM - 17 set 09

STaR: a Social Tag Recommender

• Concetti chiave

• Risorse “simili” possono essere modellate con tag simili

• I tag precedentemente usati dall’utente per modellare una certa classe di risorse devono essere valorizzati nei meccanismi di raccomandazione

mercoledì 16 settembre 2009

Page 8: Seminario IBM - 17 set 09

STaR: a Social Tag Recommender

• Modello di raccomandazione

• Preprocessing

• Indicizzazione di contenuti precedentemente taggati

• Filtraggio

• Ritrovamento di contenuti “simili” a quello da taggare

• Estrazione delle folksonomie sulle risorse simili

• Fusione delle folksonomie e pesatura dei tag

• Ordinamento e filtraggio dei tag candidati

mercoledì 16 settembre 2009

Page 9: Seminario IBM - 17 set 09

Architettura

mercoledì 16 settembre 2009

Page 10: Seminario IBM - 17 set 09

Preprocessing• Indexer

• basato su Apache Lucene

• costruisce un indice personale per ciascun utente e un indice della comunità

• Query Processor

• si prende carico della risorsa da taggare

• processa la risorsa estraendo i metadati testuali necessari (titolo della pagina, descrizione, ecc.)

• estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente, ecc.)

• inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità

mercoledì 16 settembre 2009

Page 11: Seminario IBM - 17 set 09

• Sostituzione della funzione di similarità di Lucene con una implementazione Java della BM25

• Interpretazione “probabilistica” del modello di pesatura TF/IDF

Scenario, step 1

mercoledì 16 settembre 2009

Page 12: Seminario IBM - 17 set 09

Architettura

mercoledì 16 settembre 2009

Page 13: Seminario IBM - 17 set 09

Filtering• Tag Extractor

• estrae le folksonomie per ciascuna delle risorse simili restituite dall’Indice Personale e dall’Indice Sociale

• fonde le folksonomie assegnando a ciascun tag uno score

• direttamente proporzionale al numero di occorrenze e alla similarità della risorsa sorgente

• pesato a seconda che il tag provenga dalla componente personale o sociale

• Filter

• filtra i tag che non raggiungono uno score sufficiente e restituisce le raccomandazioni

mercoledì 16 settembre 2009

Page 14: Seminario IBM - 17 set 09

Scenario, step 2

mercoledì 16 settembre 2009

Page 15: Seminario IBM - 17 set 09

Discovery Challenge• Test Set

• sorgente: www.bibsonomy.org

• 17.000 bookmark, 26.000 BibTeX, 1.600 utenti

• 48 ore per produrre i risultati

• Metriche di riferimento: Precision, Recall, F1-Measure

• calcolate sui primi cinque tag

• 16 diversi partecipanti

• 13 nazioni

mercoledì 16 settembre 2009

Page 16: Seminario IBM - 17 set 09

Risultati

http://www.kde.cs.uni-kassel.de/ws/dc09/results/mercoledì 16 settembre 2009

Page 17: Seminario IBM - 17 set 09

Conclusioni• Lo sviluppo di STaR è nato per scopi puramente didattici

• Confronto con gli altri partecipanti della Challenge

• Viaggio in Slovenia :)

• La validità del primo prototipo permette di delineare degli sviluppi futuri

• Il prototipo manca di una componente di estrazione automatica di tag a partire dal contenuto.

• Applicazioni di STaR

• Miglioramento nell’efficacia della classificazione/browsing di documenti testuali

• Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente

• Migliore accuratezza in componenti di personalizzazione tag-based

• Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo produce profili più efficaci che portano a raccomandazioni migliori

mercoledì 16 settembre 2009

Page 18: Seminario IBM - 17 set 09

Recommender System e Personalizzazione

Sviluppi futuri

Cataldo Musto

mercoledì 16 settembre 2009

Page 19: Seminario IBM - 17 set 09

Sviluppi futuri

• Miglioramento dei modelli di filtraggio

• Utilizzo di Linked Data

• Analisi dei Social Media per la personalizzazione

• Interoperabilità di Profili Utente

mercoledì 16 settembre 2009

Page 20: Seminario IBM - 17 set 09

Miglioramento dei modelli di filtraggio

• I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di Lucene invitano a riflettere

• Molti modelli, compresa la classica TF/IDF, portano a semplificazioni eccessive nei meccanismi di rappresentazione dei documenti

• Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo probabilistico o orientati a far emergere la caratterizzazione semantica latente dei documenti

• es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic Vectors (legata ai principi della meccanica quantistica)

• L’utilizzo di queste tecniche in ambito di Information Filtering è senza dubbio da investigare

mercoledì 16 settembre 2009

Page 21: Seminario IBM - 17 set 09

Utilizzo di Linked Data

• Termine coniato da Tim Berners-Lee

• Denota dati rilasciati dagli utenti e modellati seguendo RDF o degli specifici microformati

• Garantisce interoperabilità e reasoning tra dati

• L’esempio più importante è DBPedia

• Un piccolo passo verso il Semantic Web

mercoledì 16 settembre 2009

Page 22: Seminario IBM - 17 set 09

Linked Data

mercoledì 16 settembre 2009

Page 23: Seminario IBM - 17 set 09

Linked Data e Recommender Systems• Gli approcci più comuni alla raccomandazione sono legati

a interpretazioni di tipo probabilistico/frequentista

• es) Quante più volte un certo termine appare in elementi graditi, tanto più è probabile che siano graditi altri elementi simili a questo

• Problemi tipici: ridotta serendipità nelle raccomandazioni

• L’integrazione di Linked Data potrebbe attivare dei meccanismi di reasoning più raffinati per arricchire il profilo con termini con termini correlati o classi più astratte

mercoledì 16 settembre 2009

Page 24: Seminario IBM - 17 set 09

Analisi dei Social Media

• L’elicitazione delle preferenze dell’utente è uno degli aspetti più delicati legati alla personalizzazione e filtraggio

• L’utente spesso è poco motivato ad espletare procedure di addestramento (es. votare un insieme di film)

• I meccanismi di elicitazione impliciti (es. osservazione del comportamento, analisi dei click, ecc.) spesso ci forniscono dati troppo rumorosi

• La continua crescita dei Social Media fornisce uno spunto per ovviare a queste problematiche

mercoledì 16 settembre 2009

Page 25: Seminario IBM - 17 set 09

Analisi dei Social Media (2)

mercoledì 16 settembre 2009

Page 26: Seminario IBM - 17 set 09

Analisi dei Social Media (3)

mercoledì 16 settembre 2009

Page 27: Seminario IBM - 17 set 09

Analisi dei Social Media (4)

• I dati disponibili su queste piattaforme rappresentano un buon compromesso

• Sono dati reali, perchè prodotti liberamente dagli utenti

• Forniscono informazioni esplicite sulle preferenze

• Acquisire e processare questi dati può portare a miglioramenti nella costruzione dei profili e nella generazione di raccomandazioni valide

mercoledì 16 settembre 2009

Page 28: Seminario IBM - 17 set 09

Interoperabilità tra profili utente

• I modelli attuali di raccomandazione non sono ancora così efficaci da permettere la costruzione di un recommender “universale”

• Le informazioni acquisite in uno specifico dominio, però, possono anche essere riutilizzate in altri ambiti

• es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre all’utente un viaggio

• es) Una buona recensione di un libro sulla fotografia potrebbe suggerire di proporre all’utente degli accessori

• Cross-Domain Personalization

mercoledì 16 settembre 2009

Page 29: Seminario IBM - 17 set 09

Cross-Domain Personalization

• Alcune tendenze recenti sottolineano l’utilità di investire in questo ambito (es. OpenID)

• L’obiettivo a lungo termine è quello di creare un’unica “identità” per utente in cui integrare tutte le informazioni

• In contesti di filtragigo e personalizzazione, questi scopi possono essere raggiunti in più modi

• Costruzione di profili analoghi

• Utilizzo di Standard per la Profilazione

mercoledì 16 settembre 2009

Page 30: Seminario IBM - 17 set 09

APML (www.apml.org)

• APML (www.apml.org)

• Attention Profiling Markup Language

• Linguaggio di modellazione XML-based

• Orientato alla costruzione di “profili di attenzione”

• Racchiude dati “impliciti” ed “espliciti” sulle attività degli utenti in Rete

• Molto utile per scopi di filtraggio e personalizzazione

mercoledì 16 settembre 2009

Page 31: Seminario IBM - 17 set 09

APML (www.apml.org)

mercoledì 16 settembre 2009

Page 32: Seminario IBM - 17 set 09

fine

mercoledì 16 settembre 2009