Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo...

24
Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione Università di Trento OKKAM id: http://www.okkam.org/entity/ok200706301185791252056

Transcript of Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo...

Page 1: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Tecniche di integrazione semantica dei dati sul Web

Un approccio web-based ed entity-centric

Paolo Bouquet

Dip. di Ingegneria e Scienza dell'Informazione

Università di TrentoOKKAM id: http://www.okkam.org/entity/ok200706301185791252056

Page 2: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Outline

• Un semplice scenario e il problema

• Cosa significa integrazione semantica:– Web-based– Entity-centric

• Vantaggi e svantaggi rispetto ad altri approcci

• Una soluzione: il progetto OKKAM

• Esempi di applicazioni e progetti

• Conclusioni

Page 3: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Paolo Bouquet @ UNITN

Anagrafica

Dati personali

Pubblicazioni Didattica

Ricerca

Progetti

Page 4: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Paolo Bouquet @ WWW

Professional network Twits

Video lectures Social Network

Publications Personal data

Page 5: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Riassumendo ...• Informazione che cresce

– ... in modo aperto e decentralizzato– ... in sistemi eterogenei (gestionali, CRM, portali,

reporting, documentali, ecc.)– ... in formati eterogenei (RDB, testo, XML,

multimedia, fogli di calcolo, ecc.)– ... basati su schemi e vocabolari diversi– ... spesso senza connessioni esplicite– ... per scopi di diversi

• Confini tra “dentro” e “fuori” sempre più labili

• Il valore come capacità di collegare e aggregare dati e informazione distribuiti

• La necessità di flessibilità e tolleranza all'errore nell'uso dei dati e nell'integrazione semantica

Page 6: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Problema

Come rispondere a una semplice domanda come: cosa “sa” UNITN di Paolo Bouquet?

Il Web oggi Il Web of Entities

Page 7: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Una possibile soluzione: il Web of Entities

Web-based & entity-centric

Page 8: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Ingrediente 1: le tecnologie Web I

• Il Web attuale è una rete di risorse digitali tra loro collegate:

– Ogni risorsa è indentificata da una URI (per es. una URL del tipo http://www.unitn.it/)

– I collegamenti tra risorse si creano indicando la URI della risorsa veso cui si vuole creare il link

– Gli utenti e le applicazioni possono navigare da una risorsa all'altra grazie ai collegamenti (link)

– I link sono solo di un tipo: HREF (collegamento ipertestuale)

Page 9: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Ingrediente 1: le tecnologie Web I

Il Web oggi

Page 10: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Ingrediente 1: le tecnologie Web

• Il Web dei Dati è una rete di risorse di qualsiasi tipo (persone, eventi, aziende, prodotti, luoghi, ecc) tra loro collegate:

– Ogni risorsa è indentificata da una URI (per es. una URL del tipo http://semanticweb.org/wiki/Nicola_Guarino)

– I collegamenti tra risorse esprimono un'asserzione su quella risorsa (per esempio che Nicola conosce Paolo)

– Gli utenti e le applicazioni possono navigare tra insiemi di asserzioni pubblicate sul Web

– Le asserzioni possibili sono definiti in vocabolari web o ontologie

Page 11: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Ingrediente 2: entity-centric view

• Gli elementi atomici non sono più i documenti, ma le entità (persone, aziende, luoghi, eventi, prodotti, documenti, ...)

• Idealmente, ogni entità è identificata da una singola URI in qualunque luogo della rete essa appaia

• Il valore dell'informazione (la conoscenza) sta nelle relazioni che esistono tra entità

• Informazioni sullo stesso oggetto possono provenire da sorgenti diverse e tra loro indipendenti

• La capacità di raccogliere questa conoscenza e integrarlo (semantic mashup) diventa elemento chiave

Page 12: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

abita a

abita aconosce

possiede

ha curato

lavora per

si trova a

Ingrediente 2: entity-centric view I

Page 13: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Ingrediente 2: entity-centric view - II

DB1

DB2

DB3

http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2de

http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2dehttp://www.okkam.org/entity/ok200706301185791252056

http://www.okkam.org/entity/ok200706301185791252056

http://www.okkam.org/ens/id88f216f2-4aa8-4f06-9924-806c2aa7bc62

http://www.okkam.org/ens/id88f216f2-4aa8-4f06-9924-806c2aa7bc62

http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2de

Page 14: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

The Entity Name System (ENS)

ENS-Plugin ENS-Plugin ENS-Plugin

ENS-Plugin

ENS-Plugin

Entity Name System

= http://www.okkam.org/ens/id47371904-6218-41e1-8b6d-af806de3dabb

Page 15: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Integrazione Entity-Centric dei dati

• L'integrazione avviene in primo luogo intorno a una o più entità, non intorno a uno schema

• Lo spazio delle entità e delle loro relazioni è non solo navigabile, ma anche interrogabile con query strutturate

• I servizi sono progettati e organizzati intorno alle entità (quali servizi e/o dati posso offrire ai miei utenti rispetto a “Nicola Guarino”)

• Le applicazioni devono essere entity-aware (client e/o plugin ENS + funzionalità)

• L'Entity Name System come abilitatore dello spazio dell'informazione (il “DNS” del entity-centric Web)

Page 16: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Esempi di applicazioni in corso

Page 17: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Trentino Riscossioni

Sorgenti di dati

Profilo integrato del contribuente

Page 18: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Enterprise KM in SAP

SAP Community Network 1.3 million business users

◦ Customers

◦ End-users

◦ Consultants

◦ Developers, etc.

150.000 daily accesses

5000 to 10000 new posts daily

Challenges Improve the search capabilities of

the portal

Provide instantaneous answers to those user queries that have been already answered into the forums

Expand the search

beyond the boundaries of the portal and

beyond the information captured by corporate data

SAP Community Network (SCN)

Page 19: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

News sul Web con ANSACreating richer News

eventplace person

1919

Page 20: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

OKKAM Tutorial – Vienna – ESTC 2009, Dec. 2 + 3, 2009

Use Case: Academic Web Site

Page 21: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

E ancora ...

• Editoria (articoli scientifici con Elsevier)

• Web search (sub-project Sig.ma with DERI Galway)

• Smart Cities (aggregazione di servizi intorno a entità nel mondo fisico su piattaforme mobile)

• Aggregazione di dati con il Ministero dell'Innovazione Fiammingo

Page 22: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Per concludere

• Integrazione semantica basata sul paradigma del Web (aperto, flessibile, decentralizzato, tollerante alle imperfezioni, ridondante, talvolta incompleto)

• Integrazione costruita intorno a elementi semplici (le entità), ma vicine all'utente finale

• Costi relativamente modesti dell'integrazione e scalabilità della soluzione e approccio incrementale

• Compatibile con l'integrazione a livello di schemi, per esempio introducendo vocabolari/ontologie condivise per esprimere relazioni tra entità

• Vicino all'idea del Web2.0 e della produzione distribuita di dati e conoscenza

• Richiede poca “manutenzione” (e questa puà essere distribuita)

Page 23: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

Grazie!

Per chi vuole saperne di più:

http://project.okkam.org/

http://community.okkam.org/

[email protected]

Page 24: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione.

The future

• Creation of an OKKAM Foundation for maintaining and developing the ENS public infrastructure

– Not-for-profit founders– Independence and neutrality– Strongly R&D oriented

• Using Trentino as a lab for the first Entity-Centric Region worldwide

• Verticalizations in different business sectors (KM, publishing, advertisement, public administration, healthcare, master data management, etc.)