DBpedia nel contesto Linked Data

UNIVERSITA’ DEGLI STUDI DI TRENTO

FACOLTA’ DI ECONOMIA

Corso di LS in “Net Economy: Tecnologia e Management dell’informazione e della

conoscenza”

Anno Accademico 2008-2009

Corso di “Modelli di rappresentazione della conoscenza”

DBpedia nel contesto Linked Data

Docente: Dott. Paolo Bouquet

Studente: Andrea Casagrande 133393

Sommario

1 Introduzione .................................................................................................................................. 3

2 Linked Data .................................................................................................................................. 4

2.1 Principi del Linked Data........................................................................................................ 6

2.2 Il progetto “Linking Open Data” ........................................................................................... 7

3 DBpedia ........................................................................................................................................ 9

3.1 Base di conoscenza di DBpedia .......................................................................................... 10

3.2 Estrazione di informazioni strutturate da Wikipedia ........................................................... 16

3.3 Accesso al set di dati di DBpedia sul Web .......................................................................... 17

3.4 Interfacce utente .................................................................................................................. 18

3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data” ........................ 22

4 Lavori collegati ........................................................................................................................... 23

5 Conclusioni ................................................................................................................................. 24

FONTI ................................................................................................................................................ 26

1 Introduzione

E’ ormai quasi universalmente riconosciuto il fatto che tenere insieme l’informazione

strutturata e la conoscenza del mondo per rispondere semanticamente alle interrogazioni è una delle

principali sfide della scienza informatica e una delle cose che in futuro potrebbe avere enormi

ripercussioni sul mondo intero. Ciò ha portato a quasi 30 anni di ricerca sull’integrazione delle

informazioni e recentemente sul Semantic Web e le tecnologie correlate. Tali sforzi hanno in genere

ricevuto attenzione solo in domini relativamente piccoli e specializzati, dove potrebbero essere

utilizzati un’ontologia chiusa, un vocabolario o uno schema. Tuttavia, la più ampia visione del

Semantic Web non è ancora stata realizzata, e una delle maggiori sfide affrontando questi sforzi è

stata quella di capire come rendere abbastanza interessante e largamente utilizzabile l’informazione

nel sistema, rendendola utile e accessibile ad un pubblico generale.

Un problema da risolvere è quello che il tradizionale modello “top-down” di progettazione di uno

schema o un’ontologia crolla rispetto alla scala del Web, ancora prima di iniziare sviluppare i dati:

sia i dati che i metadati dovrebbero infatti evolvere costantemente e servire a molte comunità

diverse. Per risolvere questo problema c’è stato un movimento recente per costruire uno stile di base

per il Semantic Web, usando approcci collaborativi ispirati al Web 2.0. Si sta studiando un nuovo

modello di rappresentazione e gestione strutturata delle informazioni: si deve innanzitutto gestire in

modo uniforme inconsistenza, ambiguità, incertezza, provenienza dei dati e conoscenza implicita.

Forse il modo più efficace per spingere la ricerca sinergica lungo queste direzioni è quello di fornire

un ricco corpus di dati diversi. Ciò consentirebbe ai ricercatori di sviluppare, confrontare e valutare

differenti estrazioni, ragionamenti e tecniche di gestione dell’incertezza, e distribuire sistemi

operazionali sul Web.

All’interno dello sforzo della comunità “W3C Linking Open Data1” (LOD), un numero crescente di

provider di dati ha iniziato a pubblicare e connettere dati sul Web secondo i principi “Linked Data2”

di Tim Berners-Lee. Il risultante Web dei dati3 consiste attualmente di diversi miliardi di triple RDF

e include domini come informazioni geografiche, persone, società, comunità on-line, film, musica,

libri e pubblicazioni scientifiche. In aggiunta alla pubblicazione e alla connessione di set di dati, c’è

1 http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

2 http://www.w3.org/DesignIssues/LinkedData.html

3 Traduzione di “Web of Data”

anche un continuo lavoro su browser Linked Data, crawler4 Linked Data, motori di ricerca per il

Web dei dati e altre applicazioni che utilizzano i Linked Data dal Web.

Un esempio di applicazione che opera in questo Web dei dati e secondo i principi Linked Data è

DBpedia. La base di conoscenza di DBpedia è utile come Linked Data sul Web. Come DBpedia

definisce URI Linked Data per milioni di concetti, vari provider di dati hanno iniziato a collocare

collegamenti RDF dai loro set di dati a DBpedia, rendendo DBpedia uno dei centri di connessione5

centrali dell’emergente Web dei dati.

Di seguito verrà presentato il Web dei dati e i principi Linked Data su cui si basa e successivamente

una delle principali applicazioni che maggiormente fa uso di questi nuovi dati: DBpedia. Infine

verranno presentati i progetti correlati e le conclusioni con i possibili sviluppi futuri che potranno

avvenire in questo ambito.

2 Linked Data

In questo momento il Web si sta trasformando da un medium per pubblicare e condividere

documenti testuali a un medium per pubblicare e condividere dati. Questa transizione è facilitata

dalle idee provenienti dalla comunità del Semantic Web e da iniziative come il progetto “W3C

Linking Open Data”.

Linked Data è un metodo per pubblicare dati RDF sul Web e per connettere dati tra fonti di dati

differenti. Si può accedere ai Linked Data sul Web usando un browser del Semantic Web, proprio

come ai documenti del Web tradizionale si può accedere usando un browser HTML. Comunque,

invece di seguire collegamenti tra pagine HTML, i browser del Semantic Web permettono agli

utenti di navigare tra diverse fonti di dati seguendo link RDF. Ciò permette all’utente di accedere ad

una data risorsa, e poi di muoversi attraverso un Web di fonti di dati connessi attraverso link RDF

potenzialmente infiniti. Ciò permette inoltre ai robot dei motori di ricerca del Semantic Web di

seguire questi link per eseguire la scansione del Semantic Web.

Il World Wide Web ha radicalmente alterato il modo di condividere la conoscenza, abbassando le

barriere per pubblicare e accedere a documenti come parte di uno spazio informatico globale. I link

ipertestuali consentono all’utente di attraversare questo spazio informativo usando i browser Web,

mentre i motori di ricerca indicizzano i documenti e analizzano la struttura dei collegamenti tra essi

4 Software che analizzano i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per

conto di un motore di ricerca 5 Interlinking-hub

per dedurre una potenziale rilevanza con la ricerca effettuata dall’utente. Questa funzionalità è stata

permessa dalla natura generica, aperta ed estensibile del Web, la quale è anche vista come una

caratteristica chiave nella libera crescita del Web.

Nonostante i vantaggi indiscutibili che offre il Web, fino a poco tempo fa gli stessi principi che

consentivano al Web dei documenti di prosperare non erano applicate ai dati. Tradizionalmente i

dati pubblicati sul Web erano resi disponibili come dati grezzi, in formati come file CSV o XML, o

contrassegnati come tabelle HTML, sacrificando gran parte della loro struttura e della loro

semantica. Nel convenzionale ipertesto Web, la natura delle relazioni tra due documenti collegati è

implicita, come il formato dei dati, per esempio HTML, e non è sufficientemente espressiva per

permettere a singole entità descritte in un particolare documento di essere connesse alle relative

entità attraverso link. Mentre le unità primarie dell’ipertesto Web sono i documenti HTML connessi

da iperlink non tipizzati, Linked Data si basa su documenti contenenti dati in formato RDF

(Resource Description Framework). Ma, piuttosto che connettendo semplicemente questi

documenti, Linked Data usa RDF per fare dichiarazioni scritte che collegano arbitrariamente le cose

nel mondo. Il risultato, il cosiddetto Web of Data, può essere descritto più accuratamente come un

web di cose nel mondo, descritte dai dati sul Web.

Tuttavia, negli ultimi anni il Web si è evoluto da uno spazio di informazione globale di documenti

collegati ad uno spazio in cui sia i documenti sia i dati sono collegati tra loro. Alla base di questa

evoluzione vi è un insieme di best practice6 per la pubblicazione e la connessione di strutture dati

sul Web. L’adozione delle best practice Linked Data ha condotto all’estensione del Web ad uno

spazio di dati globale dove sia possibile la connessione tra dati provenienti da differenti domini

come persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e

radiofonici, geni, proteine, farmaci e sperimentazioni cliniche, comunità on-line, dati statistici e

scientifici, recensioni, ecc. Questo Web of Data permette nuovi tipi di applicazioni. Ci sono generici

browser Linked Data che consentono agli utenti di iniziare a navigare in una fonte di dati e poi

passare per mezzo di link in fonti di dati collegate. Ci sono motori di ricerca Linked Data che

scansionano il Web of Data seguendo link tra fonti di dati e forniscono capacità di interrogazioni

espressive su dati aggregati, in modo simile a come al giorno d’oggi vengono interrogati i database

locali. Il Web dei dati si apre anche a nuove possibilità per applicazioni di specifici domini. A

differenza dei mashup7 Web 2.0 che lavorano su un gruppo fisso di fonti di dati, le applicazioni

6 tecnica, metodo, processo o attività, più efficacie nel raggiungere un particolare risultato, di qualunque altra tecnica,

metodo, processo, ecc 7 sito o applicazione web di tipo ibrido, cioè tale da includere dinamicamente informazioni o contenuti provenienti da

più fonti

Linked Data operano sulla cima di uno spazio di dati illimitato e globale. Ciò permette loro di

fornire risposte più complete man mano che nuove fonti di dati appaiono sul Web.

In sintesi, Linked Data riguarda semplicemente l’utilizzo del Web per creare collegamenti tra dati

provenienti da diverse fonti. Questi possono essere diversi quanto i database mantenuti da due

organizzazioni situate in diverse locazioni geografiche, o semplicemente sistemi eterogenei in una

sola organizzazione che, storicamente, non sono semplicemente interoperabili a livello di dati.

Tecnicamente, Linked Data si riferisce a dati pubblicati sul Web che siano leggibili dalle macchine

(machine-readable), il cui significato sia definito esplicitamente, che siano collegati ad altri set di

dati esterni e che possano essere a loro volta collegati a fonti esterne di set di dati.

2.1 Principi del Linked Data

Tim Barners-Lee (nel 2006) ha delineato una serie di regole per la pubblicazione di dati sul Web in

modo che tutti i dati pubblicati diventino parte di un unico spazio globale dei dati:

1. Usare URI come nomi per le cose.

2. Usare URI HTTP in modo che le persone possano cercare questi nomi.

3. Quando qualcuno cerca un URI fornire informazioni utili, usando gli standard (RDF,

SPQRQL).

4. Includere link ad altre URI, in modo che si possano scoprire più cose.

Questi sono conosciuti come i principi del Linked Data, e forniscono una ricetta di base per

pubblicare e connettere dati usando l’infrastruttura del Web, pur rispettando la sua architettura e i

suoi standard.

Impiegando URI HTTP per identificare le risorse, il protocollo HTTP come meccanismo di

recupero e il modello dati RDF per rappresentare descrizioni di risorse, Linked Data si basa

direttamente sull’architettura generale del Web. Il Web of Data può quindi essere visto come un

ulteriore livello che è strettamente intrecciato con il classico documento Web e ha molte delle stesse

proprietà:

Il “Web of Data” è generico e può contenere ogni tipo di dati.

Chiunque può pubblicare dati sul Web of Data.

Chi pubblica i dati non è vincolato nella scelta dei vocabolari con i quali rappresentare i dati.

Le entità sono connesse da link RDF, creando un grafo globale dei dati che abbraccia e

consente la scoperta di nuove fonti di dati.

Dalla prospettiva dello sviluppo di un’applicazione il Web of Data ha le seguenti caratteristiche:

I dati sono rigorosamente separati da aspetti di formattazione e presentazione.

I dati sono auto-descrittivi. Se un’applicazione che utilizza Linked Data incontra dati

descritti con un vocabolario sconosciuto, l’applicazione può dereferenziare le URI che

identificano i termini del vocabolario per trovare la loro definizione.

L’uso di HTTP come un meccanismo standardizzato di accesso ai dati e RDF come un

modello standardizzato di dati semplifica l’accesso ai dati in confronto alle Web API, le

quali si basano sui modelli di dati eterogenei e sulle interfacce di accesso.

Il Web of Data è aperto, nel senso che le applicazioni non devono essere implementate

rispetto ad un fissato insieme di fonti di dati, ma può scoprire nuove fonti di dati nel tempo

di esecuzione seguendo link RDF.

2.2 Il progetto “Linking Open Data”

L’esempio più visibile di adozione e applicazione dei principi Linked Data è il progetto “Linking

Open Data”, uno sforzo di base della comunità fondata nel gennaio 2007 e supportata dal W3C

Semantic Web Education and Outreach Group8. L’obiettivo originale e ancora in corso del progetto

è di popolare il Web dei dati, individuando insiemi di dati esistenti che sono disponibili sotto

licenze open, convertendo questi in RDF in accordo coi principi Linked Data, e pubblicandoli sul

Web.

Il progetto è cresciuto considerevolmente: all’inizio i partecipanti erano solo sviluppatori,

ricercatori universitari, piccole aziende, ora sono coinvolti grandi aziende come la BBC, la

Thomson Reuters e la Library of Congress. Questa crescita è stata possibile dalla natura open del

progetto, dove ognuno può partecipare semplicemente pubblicando un insieme di dati in accordo

con i principi del Linked Data e connettendoli con i set di dati esistenti. Un’indicazione del range e

della grandezza del Web of Data originato dal progetto “Linking Open Data” è fornito in Figura 1.

Ogni nodo in questo diagramma a nuvola rappresenta un insieme di dati distinto pubblicato come

Linked Data, alla data di Marzo 2009.

8 http://www.w3.org/2001/sw/sweo/

Figura 1. Diagramma a nuvola Linking Open Data (LOD) che da una visione d’insieme dei set di

dati pubblicati e delle loro relazioni di connessione.

Gli archi in Figura 1 indicano che esistono collegamenti tra oggetti tra due set di dati connessi. Gli

archi più spessi corrispondono approssimativamente ad un numero di link tra due set di dati più

grande. Il contenuto della nuvola è di diversa natura: comprende dati su locazioni geografiche,

persone, società, libri, pubblicazioni scientifiche, film, musica, programmi televisivi e radiofonici,

geni, proteine, farmaci e sperimentazioni cliniche, comunità online, dati statistici, risultati di

censimenti e recensioni.

Calcolare l’esatta dimensione del Web of Data rappresenta una sfida dovuta al fatto che gran parte

dei dati vengono generati da involucri intorno ai database relazionali esistenti o alle API e pertanto

necessitano innanzitutto di essere sottoposti a scansione prima di essere inclusi o analizzati. In

alternativa, la dimensione del Web of Data può venire stimata sulla base delle statistiche sui set di

dati che vengono raccolti dalla comunità LOD nel wiki ESW9. In base a tali statistiche il Web of

9 http://esw.w3.org/topic/

Data consiste attualmente di 4.7 miliardi di triple RDF, le quali sono connesse da circa 142 milioni

di link RDF (Maggio 2009).

La Figura 1 mostra come alcuni set di dati servano come collegamento tra hub nel Web of Data.

Per esempio il set di dati di DBpedia consiste di triple RDF estratte dagli “infobox” comunemente

presenti sul lato destro degli articoli presenti su Wikipedia, mentre Geonames fornisce descrizioni

RDF di milioni di locazioni geografiche in tutto il mondo. Dal momento che questi due insiemi di

dati forniscono URI e descrizioni RDF per molte entità e concetti comuni, essi sono spesso citati in

altri set di dati maggiormente specializzati e hanno quindi sviluppato al loro interno hub ai quali

sono collegati un numero crescente di altri insiemi di dati.

3 DBpedia

Il progetto DBpedia ha ricavato un corpus di dati dall’enciclopedia Wikipedia. Wikipedia è molto

visitata e in costante revisione (ad esempio, secondo alexa.com, Wikipedia è stato il 6° sito più

visitato nel corso del 200910

). Le edizioni di Wikipedia sono disponibili in oltre 250 lingue, con

quella inglese che contiene più di 3 milioni di articoli. Come molte altre applicazioni web,

Wikipedia ha il problema che le sue capacità di ricerca sono limitate alla ricerca full-text, che

permette solo un accesso limitato a questa preziosa base di conoscenza. Come è stato ampiamente

pubblicizzato, Wikipedia presenta anche molte delle impegnative e allo stesso tempo ambiziose

proprietà di poter editare i dati in modo collaborativo: dispone di conseguenza di dati contradditori,

di convenzioni tassonomiche incoerenti, di errori e anche di spam.

Il progetto DBpedia si concentra sul compito di convertire i contenuti di Wikipedia in conoscenza

strutturata, in modo che le tecniche di Semantic Web possano essere impiegate rispetto a tali

informazioni. In sintesi DBpedia è uno sforzo della comunità di estrarre informazioni strutturate da

Wikipedia e di rendere queste informazioni disponibili sul Web. DBpedia permette di effettuare

sofisticate interrogazioni da Wikipedia e di collegare altri set di dati presenti sul Web ai dati stessi

di Wikipedia. Il fine ultimo è rendere più facile l’utilizzo dell’incredibile quantità di informazioni di

Wikipedia in modi nuovi e interessanti, che potrebbero ispirare nuovi meccanismi per la

navigazione, collegando e migliorando l'enciclopedia stessa.

Gli autori di DBpedia hanno fornito i seguenti contributi:

10

http://www.alexa.com/topsites/global

Hanno sviluppato un quadro di estrazione delle informazioni, che converte il contenuto di

Wikipedia in file RDF. Gli elementi di base formano un fondamento su cui la ricerca in

materia di estrazione di informazioni, il clustering, la gestione dell’incertezza e i processi di

interrogazione possono essere effettuati.

Hanno fornito al contenuto di Wikipedia un grande set di dati RDF multidominio, che può

essere utilizzato in una varietà di applicazioni del Semantic Web. Il set di dati di DBpedia

consiste in 103 milioni di triple RDF.

Hanno sviluppato una serie di interfacce e moduli di accesso, in modo tale che il set di dati

possa essere accessibile tramite Web Services e collegato ad altri siti.

Il set di dati di DBpedia può anche essere importato in applicazioni di terze parti oppure è possibile

accedervi online usando varie interfacce utente di DBpedia.

La Figura 2 fornisce una panoramica sul processo di estrazione delle informazioni di DBpedia e

mostra come i dati estratti sono pubblicati sul Web. Queste principali interfacce di DBpedia

attualmente usano Virtuoso e MySQL come depositi back-end.

Figura 2 : visione d’insieme dei componenti di DBpedia

3.1 Base di conoscenza di DBpedia

Le basi di conoscenza stanno giocando sempre più un importante ruolo nell’accrescere

l’intelligenza del Web e nel supportare l’integrazione delle informazioni. Al giorno d’oggi molte

basi di conoscenza includono solo specifici domini, sono create da gruppi relativamente piccoli di

specialisti della conoscenza ed è molto costoso tenerle aggiornate ai cambi di dominio. Allo stesso

tempo, Wikipedia è diventata una delle sorgenti di conoscenza centrale per il genere umano,

mantenuta da migliaia di partecipanti. Il progetto DBpedia usa abilmente questa gigantesca risorsa

di conoscenza estraendo informazioni strutturate da Wikipedia e rendendo queste informazioni

accessibili sul Web alle condizioni della “Creative Commons Attribution-Share Alike 3.0 License”

e della “GNU Free Documentation License”.

La base di conoscenza di DBpedia descrive correntemente più di 2,9 milioni di “cose”, inclusi

almeno 282.000 persone, 339.000 luoghi (inclusi 241.000 luoghi popolati), 88.000 album musicali,

44.000 film, 15.000 videogames, 119.000 organizzazioni (incluse 20.000 società e 29.000

istituzioni educative), 130.000 specie e 4.400 malattie. La base di conoscenza di DBpedia distingue

etichette e abstract per questi argomenti in 91 linguaggi differenti (le 13 lingue principali

corrispondenti ad altrettante versioni di Wikipedia sono inglese, tedesco, francese, spagnolo,

italiano, portoghese, polacco, svedese, olandese, giapponese, cinese, russo, finlandese e norvegese);

807.000 collegamenti ad immagini e 3.840.000 collegamenti a pagine web esterne; 4.878.100

collegamenti esterni in altri set di dati esterni, 415.000 categorie di Wikipedia, e 75.000 categorie di

YAGO. La base di conoscenza è composta di 479 milioni di pezzi di informazioni (triple RDF), di

cui 190 milioni sono stati ricavati dall’edizione inglese di Wikipedia e 289 milioni sono stati estratti

dalle edizioni in altri linguaggi. Il set di dati è organizzato per il download come un insieme di files

RDF più piccoli. La Tabella 1 fornisce una panoramica su questi files.

Set di dati Descrizione Triple

Articoli Descrizione di tutti i 3.2 milioni di concetti all’interno della versione

inglese di Wikipedia, compresi titoli, brevi abstract, miniature e

collegamenti agli articoli corrispondenti.

7.6 M

Abstract estesi Abstract estesi supplementari. 2.1 M

Linguaggi Titoli aggiuntivi, brevi abstract e collegamenti ad articoli di Wikipedia

in tedesco, francese, spagnolo, italiano, portoghese, polacco, svedese,

olandese, giapponese, cinese, russo, finlandese e norvegese.

5.7 M

Linguaggi abstract Abstract estesi in 13 lingue. 1.9 M

Infobox Attributi dei dati per i concetti che sono stati estratti dagli infobox di

Wikipedia.

15.5 M

Link esterni Collegamenti a pagine web esterne riguardanti un concetto. 1.6 M

Categorie di articoli Collegamenti da concetti a categorie usando SKOS. 5.2 M

Categorie Informazione il cui concetto è una categoria e le cui categorie sono

collegate.

1 M

Tipi YAGO Set di dati contenente la dichiarazione rdf:type per tutte le istanze di

DBpedia usando la classificazione di YAGO.

1.9 M

Persone Informazioni riguardanti 80.000 persone (date e luogo di nascita, etc.)

rappresentate usando il vocabolario FOAF.

0.5 M

Link a pagine Collegamenti interni tra le istanze di DBpedia derivate dai link alle

pagine interne tra gli articoli di Wikipedia.

62 M

Collegamenti RDF Collegamenti tra DBpedia e GeoNames, US Census, Musicbrainz,

Progetto Gutenberg, la bibliografia DBLP e l’RDF Book Mash-up.

180 K

Tabella 1: Il set di dati di DBpedia

Alcune serie di dati (come ad esempio le Persone o il set di dati Infobox) sono semanticamente

ricche, nel senso che contengono informazioni molto specifiche. Altre (come il seti di dati dei Link

a pagine) contengono meta-dati (come ad esempio collegamenti tra articoli) senza una semantica

specifica. Tuttavia, queste ultime possono risultare utili ad esempio per le misure di vicinanza tra

concetti o di rilevanza nei risultati di ricerca.

Ciascuna delle 2.9 milioni di risorse descritte nel set di dati di DBpedia è identificata da un’URI di

riferimento della forma http://dbpedia.org/resource/Name, dove Name è preso dall’URL

dell’articolo di sorgente di Wikipedia, che ha la forma http://en.wikipedia.org/wiki/Name. Così ogni

risorsa è legata direttamente ad un articolo in lingua inglese di Wikipedia. Questo produce

certamente proprietà benefiche agli identificatori di DBpedia:

Essi coprono una vasta gamma di argomenti dell’enciclopedia.

Essi sono definiti dal consenso della comunità.

Ci sono chiare politiche in atto per la loro gestione.

Un’ampia definizione testuale dei concetti è disponibile in una zona ben conosciuta del web

(la pagina di Wikipedia).

Quindi la base di conoscenza di DBpedia ha numerosi vantaggi rispetto alle basi di conoscenza

esistenti: essa include molti domini; essa rappresenta accordi reali tra comunità; essa evolve

automaticamente con i cambiamenti di Wikipedia, ed è perfettamente multilingue.

http://dbpedia.org/resource/Name

http://en.wikipedia.org/wiki/Name

La base di conoscenza di DBpedia permette inoltre di effettuare abbastanza sorprendenti

interrogazioni da Wikipedia, per esempio “Dimmi tutte le città nel New Jersey con più di 10.000

abitanti” o “Dimmi tutti i musicisti italiani del XIIX secolo”. Complessivamente, i casi d’uso della

base di conoscenza di DBpedia sono diffusi e variano dalla gestione della conoscenza d’impresa,

fino alla ricerca Web, rivoluzionando la ricerca su Wikipedia.

Il set di dati di DBpedia funziona come Linked Data, nel senso che tutte le URI di DBpedia sono

dereferenziabili. Ciò permette di navigare il set di dati di DBpedia con browser del Semantic Web

come DISCO, Marbles, Objectviewer, OpenLink Data Explorer, Tabulator o Zitgist Data Viewer.

Al fine di consentire agli utenti di DBpedia di scoprire ulteriori informazioni, il set di dati di

DBpedia è interconnesso con varie altre fonti di dati sul Web tramite collegamenti RDF. I link RDF

consentono ai navigatori del web di navigare da dati all’interno di una fonte a dati collegati

all’interno di altre fonti utilizzando un browser web semantico. I link RDF possono anche essere

seguiti dai crawler dei motori di ricerca del Semantic Web, i quali possono offrire ricerche

sofisticate e funzionalità di interrogazione sui dati scansionati.

Lo sforzo di interconnessione di DBpedia è parte del progetto della comunità Linking Open Data11

del gruppo di interesse W3C Semantic Web Education and Outreach (SWEO). Con questo progetto

la comunità si è impegnata a fare enormi dataset e ontologie, come il censimento degli Stati Unitn

(US Census), GeoNames, MusicBraiz, la bibliografia DBLP, WordNet, Cyc e molti altri,

interoperabili sul Semantic Web. DBpedia, con la sua ampia copertura di argomenti, si interseca

praticamente con tutti questi set di dati e, pertanto, rappresenta un eccellente “linking hub” per tali

sforzi. In Figura 3 è fornita una panoramica sui set di dati attualmente interconnessi con DBpedia.

Complessivamente questo Web of Data ammonta a quasi 5 miliardi di triple RDF. Utilizzando

questi link RDF, i navigatori possono per esempio navigare in DBpedia passando da un esperto di

informatica alle sue pubblicazioni nel database DBLP, da un libro alla recensione e alle offerte di

vendita per questo libro fornite dal RDF Book Mashup, o da una band musicale a una lista delle

loro canzoni fornite da Musicbrainz o DBtune.

11

http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

Figura 3: Principali fonti di dati interconnesse con DBpedia

Nella seguente tabella vengono descritte maggiormente nel dettaglio le principali fonti di dati

interconnesse con DBpedia:

Set di dati Descrizione Numero di

link

Esempi di Link

(owl:sameAs)

Geonames Fornisce informazioni riguardanti caratteristiche

geografiche. 85.000 Cambridge

MusicBrainz Fornisce informazioni riguardanti artisti e

musica. 23.000 Portishead

WordNet Rappresentazione W3C RDF/OWL

dell’ontologia Word Net. 330.000 Air France

World

Factbook

Fornisce informazioni riguardanti le nazioni. 200 France

EuroStat

Fornisce informazioni riguardanti gli Stati e le

regioni europee. 200 France

http://www.geonames.org/ontology/

http://dbpedia.org/resource/Cambridge

http://musicbrainz.org/

http://dbpedia.org/resource/Portishead

http://esw.w3.org/topic/WordNet

http://dbpedia.org/resource/Air_France

http://www4.wiwiss.fu-berlin.de/factbook/

http://www4.wiwiss.fu-berlin.de/factbook/

http://dbpedia.org/resource/France

http://www4.wiwiss.fu-berlin.de/eurostat/

http://dbpedia.org/resource/France

Book Mashup Fornisce informazioni riguardanti i libri. 7.000

DBLP

Bibliography

Fornisce informazioni riguardanti pubblicazioni

scientifiche. 200 Tim Berners-Lee

Project

Gutenberg

Fornisce informazioni riguardanti autori e

accessi aperti ai loro lavori. 2.500 John Bunyan

flickr wrappr

Un involucro attorno a flickr che cerca di

generare una raccolta di foto per ogni concetto

di DBpedia.

1.950.000 Brandenburg Gate

Freebase Un database a licenza open riguardante milioni

ci cose di vari domini. 2.400.000 Tetris

OpenCyc Una versione a licenza open dell’ontologia Cyc. 60.000 Woody Allen

UMBEL Una struttura di riferimento per concetti derivati

da Cyc. 20.000 Place

US Census

Fornisce dati “US Census” sul censimento delle

città americane. 12.000 Los Angeles

Dailymed Fornisce informazioni riguardanti le medicine. 50 Eli Lilly

and Company

Diseasome

Fornisce informazioni riguardanti le malattie e i

geni. 2000 Asthma

Drugbank

Fornisce informazioni riguardanti le droghe e i

geni. 700 ZNF3

Sider

Fornisce informazioni riguardanti gli effetti

collaterali delle droghe. 750 Claudication

Tabella 2: Descrizione delle principali fonti di dati a cui è connesso DBpedia

http://sites.wiwiss.fu-berlin.de/suhl/bizer/bookmashup/index.html

http://www4.wiwiss.fu-berlin.de/dblp/

http://www4.wiwiss.fu-berlin.de/dblp/

http://dbpedia.org/resource/Tim_Berners-Lee

http://www4.wiwiss.fu-berlin.de/gutendata/

http://www4.wiwiss.fu-berlin.de/gutendata/

http://dbpedia.org/resource/John_Bunyan

http://www4.wiwiss.fu-berlin.de/flickrwrappr/

http://www4.wiwiss.fu-berlin.de/flickrwrappr/photos/Brandenburg_Gate

http://www.freebase.com/

http://dbpedia.org/resource/Tetris

http://sw.opencyc.org/

http://dbpedia.org/page/Woody_Allen

http://www.umbel.org/

http://umbel.zitgist.com/reporter_subject_concept.php?source_subject_concept=http://umbel.org/umbel/sc/Place

http://www.rdfabout.com/demo/census/

http://www.rdfabout.com/rdf/usgov/geo/us/ca/counties/los_angeles_county/los_angeles

http://www4.wiwiss.fu-berlin.de/dailymed/

http://www4.wiwiss.fu-berlin.de/dailymed/resource/organization/Eli_Lilly_and_Company

http://www4.wiwiss.fu-berlin.de/dailymed/resource/organization/Eli_Lilly_and_Company

http://www4.wiwiss.fu-berlin.de/diseasome/

http://www4.wiwiss.fu-berlin.de/diseasome/resource/diseases/116

http://www4.wiwiss.fu-berlin.de/drugbank/

http://www4.wiwiss.fu-berlin.de/drugbank/resource/targets/3835

http://www4.wiwiss.fu-berlin.de/sider/

http://www4.wiwiss.fu-berlin.de/sider/resource/side_effects/C1456822

3.2 Estrazione di informazioni strutturate da Wikipedia

Gli articoli di Wikipedia sono composti prevalentemente da testo libero, ma contengono anche

differenti tipi di informazioni strutturate, come template infobox, informazioni categorizzate,

immagini, coordinate geografiche, collegamenti a pagine Web esterne e link tra le edizioni in lingue

diverse di Wikipedia.

MediaWiki è il software utilizzato per l’esecuzione di Wikipedia. A causa della natura di questo

sistema Wiki, sostanzialmente tutte le modifiche, i collegamenti, le annotazioni con metadati sono

effettuate all’interno del testo dell’articolo con l’aggiunta di speciali costrutti sintattici.

Poiché MediaWiki sfrutta alcune di queste stesse informazioni per rendere l’interfaccia utente,

alcune informazioni vengono memorizzate nella cache in tabelle di database relazionali. Il

riversamento delle cruciali tabelle dei database relazionali (compresi quelli che contengono i testi

degli articoli) per differenti versioni linguistiche di Wikipedia è pubblicato sul Web in una base

regolare. Sulla base di questi riversamenti di database, attualmente si usano due differenti metodi di

estrazione delle relazioni semantiche: (1) vengono mappate le relazioni che sono già memorizzate

in tabelle di database relazionali su RDF e (2) vengono estratte informazioni addizionali

direttamente dai testi dell’articolo e dai template dell’infobox all’interno dell’articolo.

Di seguito viene illustrata l’estrazione della semantica dal testo di un articolo con un esempio di

template infobox di Wikipedia. La Figura 4 mostra il template dell’infobox (codificato all’interno

di un articolo di Wikipedia) e l’uscita resa della città sud coreana Busan. L’algoritmo di estrazione

dell’infobox rileva i template e riconosce la loro struttura utilizzando le tecniche di matching dei

pattern. Vengono selezionati i template significativi, i quali vengono poi analizzati e trasformati in

triple RDF. L’algoritmo utilizza tecniche di post-processing per incrementare la qualità

dell’estrazione. I collegamenti MediaWiki vengono riconosciuti e trasformati in URI appropriate,

unità comuni vengono rilevate e trasformate per i tipi di dati. Inoltre, l’algoritmo è in grado di

rilevare elenchi di oggetti che vengono trasformati in liste RDF. Tutti gli algoritmi di estrazione

sono implementati usando PHP e sono disponibili sotto licenza open source.

Figura 4: Esempio di template Wikipedia e resa dell’uscita (estratto)

3.3 Accesso al set di dati di DBpedia sul Web

Vengono messi a disposizione tre meccanismi di accesso al dataset di DBpedia: Linked Data, il

protocollo SPARQL e il riversamento RDF scaricabile. L’accesso a queste interfacce secondo diritti

d’autore liberi è concesso nel rispetto dei termini della GNU Free Documentation License.

1. Linked Data. Linked Data è un metodo di pubblicazione di dati RDF sul Web che si basa su

URI http:// come identificatori di risorsa e il protocollo HTTP per recuperare le descrizioni

delle risorse. Le URI sono configurate per restituire le informazioni significative sulla risorsa,

tipicamente una descrizione RDF contenente tutto ciò che è noto su di essa. Una tale

descrizione cita generalmente risorse collegate da URI, alle quali una alla volta si può avere

accesso ai campi delle loro descrizioni. Ciò costituisce una fitta rete di descrizioni di risorse

accessibili dal web in grado di attraversare i server ed i confini dell’organizzazione. Gli

identificatori di risorse di DBpedia, come http://dbpedia.org/resource/Busan, sono configurati

per restituire descrizioni RDF quando vi si accede da agenti web semantici, e una semplice

visualizzazione HTML delle stesse informazioni quando vi si accede da tradizionali browser

http://dbpedia.org/resource/Busan

Web. La negoziazione del contenuto HTTP viene utilizzata per fornire un formato

appropriato.

Agenti Web che possono accedere a Linked Data includono: 1) browser web semantici, come

Disco12

, Tabulator o il browser web OpenLink Data13

; 2) crawler web semantici, come

SWSE14

e Swoogle15

; 3) agenti di interrogazione web semantici come la Semantic Web Client

Library16

e il client Semantic Web per SWI prolog17

.

2. Endpoint SPARQL. Viene fornito un endpoint SPARQL per interrogare il dataset di dBpedia.

Le applicazioni client possono inviare interrogazioni tramite il protocollo SPARQL a questo

endpoint al sito http://dbpedia.org/sparql. L’endpoint è fornito usando OpenLink Virtuoso

come motore database back-end. Questa interfaccia è appropriata quando lo sviluppatore

dell’applicazione client conosce in anticipo esattamente di quali informazioni ha bisogno. In

aggiunta allo standard SPARQL, l’endpoint supporta diverse estensioni del linguaggio di

interrogazione che si sono rivelate utili per lo sviluppo delle interfacce utente: ricerca di testo

completo sui predicati RDF selezionati e funzioni di aggregazione, in particolare COUNT.

Per proteggere il servizio dal sovraccarico, sono messi in atto limiti ai costi di interrogazione

e alla grandezza dei risultati. Ad esempio, una query che interroga l’intero contenuto del

negozio è respinta perché troppo costosa. I risultati di SELECT sono troncati alle millesima

riga.

Va notato che non tutti i set di dati di DBpedia sono caricati nell’endpoint SPARQL. In

particolare, solo il set di dati dell’infobox inglese è caricato mentre il set di dati dell’infobox

negli altri linguaggi non è caricato per evitare confusione.

3. Riversamento RDF. Le serializzazioni di N-Triple dei dataset sono disponibili per il

download sul sito di DBpedia e possono essere usate da siti che sono interessati a parti più

grandi del set di dati.

3.4 Interfacce utente

Le interface utente per DBpedia possono variare da una semplice tabella all’interno di una classica

pagina web fino a interfacce di navigazione per differenti tipi di interrogazione. Questa sezione

fornisce una panoramica sulle diverse interfacce utente che sono state finora realizzate.

12

http://www4.wiwiss.fu-berlin.de/bizer/ng4j/disco/ 13

http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html 14

http://swse.org/ 15

http://swoogle.umbc.edu/ 16

http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/ 17

http://moustaki.org/swic/

http://dbpedia.org/sparql

http://dbpedia.org/page/Virtuoso_Universal_Server

Semplice integrazione dei dati di DBpedia all’interno di pagine Web

DBpedia è una preziosa fonte di dati per fini generali che può essere utilizzata all’interno di

pagine web. Pertanto, se si desidera una tabella contenente ad esempio capitali della Germania,

musicisti africani, giochi per computer Amiga o qualsiasi altra cosa sul vostro sito, è possibile

generare questa tabella utilizzando una query SPARQL verso l’endpoint DBpedia. Wikipedia è

tenuta aggiornata da una comunità di grandi dimensioni e una bella caratteristica di tali tabelle

è che anche esse rimarranno aggiornate con le modifiche di Wikipedia, e quindi anche di

DBpedia. Tali tabelle possono essere implementate utilizzando Javascript sul client o con un

linguaggio di scripting come PHP sul server.

Search DBpedia.org

“Search DBpedia.org” è una semplice applicazione che permette agli utenti di esplorare il

dataset di DBpedia insieme con le informazioni provenienti da set di dati interconnessi, come

ad esempio GeoNames, l’RDF Book Mashup o la bibliografia DBLP. In contrasto con ricerche

basate su parola chiave full-text (solamente testuali) che si trovano comunemente sul Web, la

ricerca su dati strutturati offre l’opportunità di fare un uso produttivo delle relazioni tra i dati,

consentendo un graduale restringimento dei risultati della ricerca in diverse dimensioni. Questo

aggiunge un componente di navigazione per l’attività di ricerca e può ridurre il comune

problema del decidere o no se cliccare su un risultato trovato (“keyword-hit-or-not-hit”).

Una sessione di”Search DBpedia” inizia con una ricerca per parola chiave. Una prima serie di

risultati è calcolato dalla corrispondenza diretta della parola chiave. Le corrispondenze

collegate vengono aggiunte utilizzando le relazioni tra le entità fino ad una profondità di due

nodi. Così, ad esempio una ricerca per la parola chiave “Scorsese” includerà il regista Martin

Scorsese così come tutti i suoi film e gli attori di questi film.

Il passo successivo è classificare il risultato. Gli esperimenti effettuati hanno dimostrato che

articoli importanti ricevono maggiori link di pagine in entrata da altri articoli. Viene utilizzata

una combinazione di conteggio dei link in entrata, rilevante ai fini della fonte del link, e della

profondità della relazione per calcolare una graduatoria di pertinenza.

Dopo aver inserito un termine di ricerca, all’utente sono presentati una lista di risultati

classificati, e un insieme di tag costruiti dalle classi trovate nei risultati, utilizzando una

combinazione delle classificazioni di DBpedia e di YAGO18

. Il peso di ogni classe è calcolato

dalla somma dei pesi dei risultati associati e dalla frequenza dell’occorrenza. L’insieme di tag

18

http://www.mpi-inf.mpg.de/yago-naga/yago/

permette all’utente di restringere i risultati ad un tipo specifico di entità, come ad esempio

“Attore”, anche se una semplice ricerca per parole chiave può non avere portato a nessun

attore.

Quando una risorsa viene selezionata da una serie di risultati, all’utente è presentata una visione

dettagliata di tutte le informazioni che sono conosciuti su quella risorsa (Figura 5). Etichetta,

immagine e descrizione sono riportati in alto. Le proprietà dei singoli e dei multi valori sono

mostrate separatamente. I dati provenienti da set di dati interconnessi sono automaticamente

recuperati seguendo i link RDF all’interno dei dataset e i dati recuperati da set di dati

interconnessi sono mostrati assieme con i dati di DBpedia.

Figura 5: Risultati della ricerca e visione dettagliata per Busan

Interrogazione dei dati di Wikipedia

Rispetto alla maggior parte delle altre basi di conoscenza del Semantic Web attualmente

disponibili, per l’estrazione dell’RDF da Wikipedia si ha a che fare con un diverso tipo di

conoscenza strutturata, si ha uno schema di informazione molto grande e una notevole quantità

di dati che si attengono a questo schema.

Se si ha un voluminoso set di dati o un schema di dati di grandi dimensioni, il deposito degli

RDF elaborati con motori di interrogazione integrati da solo non è molto utile. A causa delle

grandi dimensioni dello schema di dati, gli utenti possono difficilmente conoscere quali

proprietà e identificatori sono usati nella base di conoscenza e quindi possono utilizzare per

l’esecuzione di interrogazioni. Di conseguenza, gli utenti devono essere guidati quando

costruiscono le interrogazioni e gli si dovrebbero suggerire ragionevoli alternative.

E’ stato appositamente sviluppato un generatore di pattern grafici per interrogare i contenuti

estratti da Wikipedia. Gli utenti interrogano la base di conoscenza per mezzo di un pattern

grafico che consiste di molteplici modelli di triple. Per ogni modello di triple tre campi

catturano variabili, identificatori o filtri per il soggetto, predicato e oggetto di una tripla. Mentre

gli utenti digitano i nomi degli identificatori in un campo del form, una ricerca “look-ahead”

(che guarda avanti) propone opzioni adatte. Queste sono ottenute non solo con la ricerca di

identificatori corrispondenti ma eseguendo la query che si sta costruendo e iniziando subito il

matching con la stringa di ricerca fornita dall’utente. Questo metodo assicura che

l’identificatore proposto sia davvero usato in congiunzione con il modello grafico in

costruzione e che la query restituisca effettivamente dei risultati. Inoltre, i risultati della ricerca

di identificatori sono classificati in ordine di numero di utilizzo, mostrando prima gli

identificatori comunemente usati. Tutto questo viene eseguito in background, usando la

tecnologia Web 2.0 AJAX e quindi è tutto completamente invisibile per l’utente. La Figura 6

mostra uno screenshot del costruttore di pattern grafici.

Figura 6: form basato sul costruttore di query

Interfacce utente di terze parti

Il progetto DBpedia mira a fornire un focolaio per le applicazioni e i mashup basati su informazioni

di Wikipedia. Anche se DBpedia non è stata lanciata da moltissimo, c’è già un certo numero di

applicazioni di terze parti che utilizzano i dataset.

Alcuni esempi inludono:

Un installazione SemanticMediaWiki eseguita dall’università di Karlsruhe, la quale ha

importato il dataset di DBpedia insieme con l’edizione inglese di Wikipedia.

WikiStory, che consente agli utenti di sfogliare gli articoli di Wikipedia riguardanti persone

lungo una linea temporale di grandi dimensioni.

L’ambiente di dati visivi Objectsheet JavaScript, che consente calcoli su fogli elettronici

basati su dati di DBpedia.

3.5 DBpedia all’interno del progetto comunitario “W3C Linking Open Data”

DBpedia fa parte del progetto comunitario “W3C Linking Open Data”, uno sforzo per pubblicare e

connettere varie fonti di dati open. Nel novembre 2009 questo sforzo è sfociato nella costruzione di

un Web di fonti di dati interconnesse che ammontano a più di 6 miliardi di triple RDF.

Il Linking Open Data è un progetto del W3C SWEO che ha lo scopo di estendere il Web creando

una rete di dati aperti e disponibili a tutti – offerti dall’ Open Data Movement – pubblicando in

formato RDF insiemi di dati provenienti da diverse sorgenti e connettendone gli elementi definendo

le relazioni che esistono tra questi, in modo da poter passare da un informazione ad un’altra a questa

legata anche se appartengono a due sorgenti diverse; questa possibilità vale anche per i crawler dei

motori di ricerca, facilitando il recupero delle informazioni. Questo progetto copre diversi domini di

riferimento delle risorse ed è un esempio di evoluzione verso il data-web globale, che può essere

sfruttato dalle applicazioni semantiche.

In questo modo DBpedia può essere anche vista come un’ontologia multi dominio (caratteristica

che la differenzia notevolmente dalla maggior parte delle ontologie che trattano un dominio

singolo) che definisce univocamente – tramite le URI – diverse entità che possono essere riusate, ad

esempio, in un profilo FOAF19

personale per descrivere un certo interesse che altrimenti non

sarebbe identificabile, oppure per definire tag in maniera strutturata con Faviki20

. Le risorse

catalogate in DBpedia possiedono inoltre delle proprietà che le definiscono, come un abstract (nelle

19

http://www.foaf-project.org/ 20

http://www.faviki.com/pages/welcome/

http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

http://www.w3.org/2001/sw/sweo/

http://en.wikipedia.org/wiki/Open_Data

lingue per cui è disponibile) che le descrive, la categoria di appartenenza, le informazioni della

relativa Infobox, collegamenti a pagine HTML con dbpedia:resource o foaf:homepage o a

documenti RDF con owl:sameAs, coordinate geografiche. Al di là dell’enorme quantità di dati che

rende disponibile sul web, il progetto DBpedia è di grande importanza poiché permette il

collegamento di queste risorse con altre provenienti da sorgenti diverse, come ad esempio gli

85.000 link con il database geografico Geonames. La pubblicazione dei dati in formato RDF ne

rende possibile il riuso e fa sì che possano essere effettuate delle query SPARQL complesse sugli

articoli di Wikipedia, che invece supporta solo la ricerca basata sulle parole chiave, utilizzando

tools come ad esempio SNORQL Query Explorer.

4 Lavori collegati

Un secondo progetto che funziona anch’esso sull’estrazione delle informazioni strutturate è il

progetto YAGO. YAGO estrae solo 14 tipi di relazioni, come subClassOf, type, familyNameOf,

locatedIn da differenti fonti di informazione su Wikipedia. Una fonte è il sistema di categorie di

Wikipedia (per subClassOf, locatedIn, diedInYear, bornInYear) e un’altra sono i reindirizzamenti di

Wikipedia. YAGO non esegue un’estrazione dell’infobox come nell’approccio di DBpedia. Per la

determinazione delle relazioni di sottoclasse, YAGO non usa pienamente la gerarchia di categoria

di Wikipedia, ma le categorie di collegamenti a foglia della gerarchia di WordNet.

Il progetto Semantic MediaWiki mira anch’esso a permettere il riutilizzo delle informazioni

all’interno dei Wiki, nonché a migliorare la ricerca e a facilitare la navigazione. Semantic

MediaWiki è un’estensione del software MediaWiki che consente di aggiungere dati strutturati

all’interno di Wiki usando una sintassi specifica. In definitiva, DBpedia e Semantic Wiki hanno

obiettivi simili: entrambi vogliono offrire i vantaggi delle informazioni strutturate di Wikipedia per

gli utenti, ma usano differenti approcci per raggiungere questo scopo. Semantic MediaWiki richiede

agli autori di affrontare una nuova sintassi, ma includere tutte le informazioni strutturate all’interno

di Wikipedia richiede di conseguenza di convertire tutte le informazioni in questa sintassi. DBpedia,

invece, sfrutta la struttura che già esiste all’interno di Wikipedia e quindi non necessita di profonde

modifiche di carattere tecnico o metodologico. Tuttavia, DBpedia non è strettamente integrata in

Wikipedia come è previsto per Semantic MediaWiki e quindi è limitata nelle restrizioni degli autori

di Wikipedia per quanto riguarda la coerenza sintattica e strutturale e l’omogeneità.

http://www.geonames.org/

http://en.wikipedia.org/wiki/SPARQL

http://dbpedia.org/snorql/

Un altro approccio interessante è seguito da Freebase21

. Il progetto mira a costruire un enorme

database online che gli utenti possano modificare in maniera simile a come essi fanno attualmente

per gli articoli di Wikipedia. La comunità di DBpedia collabora con Metaweb e presto collegherà i

dati proveniente da entrambe le fonti, Freebase e Metaweb.

5 Conclusioni

DBpedia è una delle più grandi ontologie multi dominio che esistono al giorno d’oggi. In confronto

ad altre ontologie che solitamente includono solo domini specifici, sono create per gruppi

relativamente piccoli di ingegneri della conoscenza, e sono molto costose da tenere aggiornate ai

cambiamenti di dominio, DBpedia ha il vantaggio che:

1. include molti domini e contiene molte istanze;

2. rappresenta autentici accordi tra comunità;

3. evolve automaticamente seguendo i cambiamenti di Wikipedia.

Gli svantaggi di DBpedia confrontati con ontologie artigianali come SUMO, Open Cyc o WordNet

sono che:

1. DBpedia è meno strutturata formalmente;

2. la qualità dei dati è inferiore e ci sono incongruenze all’interno di DBpedia.

Un approccio per combinare i vantaggi di entrambi i mondi è connettere DBpedia con le ontologie

artigianali, in modo da consentire alle applicazioni di usare la conoscenza formale da queste

ontologie assieme con le istanze dati da DBpedia. Connettendo DBpedia con queste ontologie si

potrebbe estendere ulteriormente le potenzialità delle interrogazioni. Ma estraendo dati strutturai da

tutte le 251 versioni di DBpedia e collegando questi dati con il contesto di conoscenza derivante da

ontologie come Open Cyc, SUMO, o WordNet, sono necessari differenti tipi di controlli di

coerenza. Perciò, una direzione promettente verso cui muoversi in futuro è usare la conoscenza di

DBpedia per controlli di coerenza e per sviluppare strumenti che supportino gli autori di Wikipedia

nell’offrire suggerimenti correttivi.

Come obiettivi futuri ci si dovrà concentrerà in primo luogo sul miglioramento della qualità del

dataset di DBpedia. Dovrà essere automatizzato ulteriormente il processo di estrazione dei dati al

fine di aumentare la ricorrenza del set di dati di DBpedia e sincronizzarla con le modifiche di

Wikipedia. In parallelo, bisognerà continuerà ad esplorare differenti tipi di interfacce utente e casi

21

http://www.freebase.com/

d’uso per l’insieme di dati di DBpedia. All’interno della comunità del progetto W3C Linkin Open

Data sono interconnessi il set di dati di DBpedia con ulteriori set di dati che man mano che vengono

pubblicati come Linked Data sul Web. Si è intenzionati anche a sfruttare le sinergie tra le versioni

di Wikipedia nelle varie lingue al fine di incrementare ulteriormente la copertura di DBpedia e

fornire strumenti di garanzia della qualità per la comunità di Wikipedia. Un tale strumento potrebbe,

ad esempio, informare un autore di Wikipedia riguardo a contraddizioni tra il contenuto degli

infobox contenuti nelle varie versioni linguistiche di un articolo. L’interconnessione di DBpedia

con altre basi di dati come ad esempio Cyc (e il loro utilizzo come conoscenza di background)

potrebbe portare ad ulteriori metodi per il semi-automatico controllo della coerenza per il contenuto

di Wikipedia.

DBpedia è una delle principali fonti di dati open e royalty-free sul Web. Ci si augura che

l’interconnessione di DBpedia con ulteriori fonti di dati potrebbe costituire un nucleo per

l’emergere definitivo del Web of Data.

FONTI

[1] C. Bizer, T.Heath, Tim Barners-Lee; “Linked Data - The Story So Far”; International

Journal on Semantic Web and Information Systems (IJSWIS) (2009)

<http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf>

[2] C.Bizer, T.Heath, D.Ayers, Y.Raimond; “Interlinking Open Data on the Web”

<http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkingOpenData.pdf>

[3] C.Bizer, T.Heath, K.Idehen, Tim Berners-Lee; “Linked Data on the Web (LDOW2008)”.

Workshop Summary; April 21-25, 2008, Beijing, China.

<http://www2008.org/papers/pdf/p1265-bizer.pdf>

[4] Linked Data Web architecture note by Tim Berners-Lee

< http://www.w3.org/DesignIssues/LinkedData.html>

[5] Sito web del progetto DBpedia

<http://dbpedia.org/About>

[6] S.Auer, C.Bizer, G.Kobilarov, J.Lehmann, R.Cyganiak, Z.Ives; “DBpedia: A Nucleus for a

Web of Open Data”. In Proceedings of the 6th

International Semantic Web Conference and

2nd Asian Semantic Web Conference (ISWC/ASWC2007)

<http://www.cis.upenn.edu/~zives/research/dbpedia.pdf>

[7] C.Bizer, S.Auer, G.Kobilarov, J.Lehmann, C.Becker, S.Hellmann; “Querying Wikipedia

like a database and an interlinking-hub in the Web of Data”

<http://www4.wiwiss.fu-berlin.de/bizer/pub/WikiMediaDevMeeting-DBpedia-Talk.pdf>

http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkingOpenData.pdf

http://www2008.org/papers/pdf/p1265-bizer.pdf

http://www.w3.org/DesignIssues/LinkedData.html

http://dbpedia.org/About

http://www.cis.upenn.edu/~zives/research/dbpedia.pdf

http://www4.wiwiss.fu-berlin.de/bizer/pub/WikiMediaDevMeeting-DBpedia-Talk.pdf

DBpedia nel contesto Linked Data

Technology

Transcript of DBpedia nel contesto Linked Data