Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei...

31
Linked Open Data: pubblicazione, arricchimento semantico e linking di dataset pubblici attraverso il sistema MOMIS Università degli Studi di Modena e Reggio Emilia Ingegneria ‘Enzo Ferrari’ Corso di Laurea Magistrale (D. M. 270/04) in Ingegneria Informatica Relatore: Prof.ssa Sonia Bergamaschi Correlatore: Dott. Ing. Serena Sorrentino Candidato: Elisa Fusari 1/31

Transcript of Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei...

Page 1: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Linked Open Data: pubblicazione, arricchimento semantico e linking di dataset pubblici attraverso

il sistema MOMIS

Università degli Studi di Modena e Reggio Emilia

Ingegneria ‘Enzo Ferrari’ Corso di Laurea Magistrale (D. M. 270/04) in Ingegneria Informatica

Relatore: Prof.ssa Sonia Bergamaschi Correlatore: Dott. Ing. Serena Sorrentino

Candidato: Elisa Fusari

1/31

Page 2: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Open Data

2/31

www.data.gov

www.data.gov.uk

www.data.gov.it

Open Government Open Science

www.linkedscience.org

Page 3: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Da Open Data a LINKED Open Data

Utilizzare gli standard W3C, RDF e SPARQL (Simple

Protocol and RDF Query Language), per la pubblicazione e l’interrogazione delle risorse

3/31

Principi dei Linked Data :

Usare URI (Uniform Resource Identifier), per identificare le risorse

Utilizzare il protocollo HTTP (HyperText Transfer Protocol),

per facilitare la ricerca e il recupero delle risorse

Inserire link ad altri URI, per permettere la scoperta di risorse attinenti

Resource Description Framework

Page 4: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

1 Stella = Dati nel Web e con Licenza Aperta

4/31

Da Open Data a LINKED Open Data

Classificazione “5 stelle”:

2 Stelle = Dati ‘machine-readable’

3 Stelle = Dati in formato NON-proprietario

4 Stelle = Dati in RDF

5 Stelle = Dati in RDF e con Link

Page 5: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

LOD Project

5/31

Progetto Linking Open Data (LOD), attività del W3C (World Wide Web Consortium) iniziata nel 2007, che al momento

comprende 295 dataset e 31.634.213.770 triple RDF.

Page 6: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

6/31

LOD Project

Page 7: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Semantica nei LOD

Relationship Link: se legano fonti di dati diverse

7/31

Vocabulary Link: se collegano i dati alle definizioni dei termini usati, o se collegano le definizioni tra loro

Identity Link: se collegano URI-alias, ovvero diverse

fonti di dati che descrivono lo stesso oggetto

Tipi di RDF Link:

owl:sameAs

Page 8: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

8/31

owl:equivalentClass

rdfs:subClassOf

Semantica nei LOD

owl:equivalentProperty

rdfs:subPropertyOf

Predicati mancanti:

Page 9: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

9/31

owl:equivalentClass

rdfs:subClassOf

owl:equivalentProperty

rdfs:subPropertyOf

Predicati mancanti:

owl:AnnotationProperty

Semantica nei LOD

Page 10: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

10/31

owl:AnnotationProperty

Semantica nei LOD

Annotazione Semantica:

Operazione che permette di esprimere in modo formale il significato delle risorse, rendendole contestualizzate e facilitandone l’integrazione.

rdfs:label rdfs:comment

Page 11: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

11/31

Pubblicazione LOD

Arricchimento

semantico e Linking

Conversione

RDF

RDF

Public Data

Pubblicazione e

SPARQL endpoint

LOD

Trasformare i dati semplici in dati strutturati

Convertire i dati in RDF

Arricchire semanticamente i dati e

creare link con altri dataset

Rendere i dati pubblici ed interrogabili, attraverso punti d’accesso SPARQL

Fasi del processo:

Page 12: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Progetto PRECARIETA’ GIOVANILI

Raccolta dati utile allo studio della situazione di insicurezza e instabilità dei giovani, non solo in ambito lavorativo,

ma anche formativo, famigliare ed affettivo.

12/31

Page 13: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Processo di pubblicazione

13/31

Modello E/R

DBMS MySql

SPSS

Modellazione dati e

creazione database

Dataset ‘Precarietà

Giovanili’

DATI

Statistical Package for the Social Sciences

Page 14: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

14/31

Modellazione dati

Page 15: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Creazione database

15/31

Page 16: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Processo di pubblicazione

16/31

Dataset ‘Precarietà

Giovanili’

D2R Server

Modello E/R

DBMS MySql

SPSS

Modellazione dati e

creazione database

Conversione

RDF

DATI

Excel

Database

Page 17: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

D2R Server D2R (Database To RDF), è un server HTTP che permette la

pubblicazione del contenuto dei database relazionali nel Semantic Web.

17/31

Page 18: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Processo di pubblicazione

18/31

Dataset ‘Precarietà

Giovanili’

D2R Server

Modello E/R

DBMS MySql

SPSS

Modellazione dati e

creazione database

Annotazione

semantica e Linking

DATI

RDF/XML

Excel

Conversione

RDF

Database

Page 19: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Annotazione semantica con WordNet MOMIS (Mediator envirOnment for Multiple Information

Sources), sistema per l’integrazioni di sorgenti dati eterogenee sviluppato da DBGroup e DataRiver.

19/31

WordNet in RDF

‘Precarietà Giovanili’

in RDF

link

link

link

link

Page 20: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

20/31

Annotazione semantica con WordNet

WordNet in RDF

‘Precarietà Giovanili’

in RDF

MultiWordNet

Page 21: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Processo di pubblicazione

21/31

Dataset ‘Precarietà

Giovanili’

Protégé

SPSS

DATI

D2R Server

Modello E/R

DBMS MySql

Modellazione dati e

creazione database

Annotazione

semantica e Linking

Conversione

RDF

Excel

RDF/XML

Database

Page 22: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Protégé Protégé, editor open-source di ontologie OWL (Ontology Web

Language), sviluppato dal Centro di Biomedical Informatics Research all’Università di Medicina di Stanford.

22/31

Page 23: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Protégé Annotazione

semantica e Linking

Processo di pubblicazione

23/31

Dataset ‘Precarietà

Giovanili’

LMF

SPSS

DATI

Pubblicazione e

SPARQL endpoint

D2R Server

Modello E/R

DBMS MySql

Modellazione dati e

creazione database

Conversione

RDF

Excel

RDF e OWL

RDF/XML

Database

Query

RDF

Page 24: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

LMF – Linked Media Framework

24/31

LMF, è un’applicazione server che offre diversi servizi relativi al Web semantico. Si compone di un server centrale e diversi

moduli, tra cui il sevizio di interrogazione SPARQL, Snorql.

Page 25: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Processo di pubblicazione

25/31

Dataset ‘Precarietà

Giovanili’

Fuseki

SPSS

DATI

Grafici CSV

Protégé Annotazione

semantica e Linking

LMF Pubblicazione e

SPARQL endpoint Query

D2R Server

Modello E/R

DBMS MySql

Modellazione dati e

creazione database

Conversione

RDF

RDF

RDF e OWL

RDF/XML

Database

Excel

Page 26: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Fuseki Fuseki, è un SPARQL server che fornisce dati RDF sul protocollo

HTTP, sviluppato nel progetto Apache Jena. Esso supporta l’utilizzo di operatori di raggruppamento (GROUP BY) e funzioni

di conteggio (COUNT())nel protocollo SPARQL.

26/31

“Quanti intervistati hanno indicato stabilità tra un anno, nei diversi ambienti sociali? E quanti precarietà?”

Page 27: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

01020304050607080

STABILITA' - PRECARIETA' tra 10 anni

stabilità

precarietà

27/31

Risultati query

01020304050607080

STABILITA' - PRECARIETA' tra 1 anno

stabilità

precarietà

Page 28: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

1% 1%

1%

1%

2%

2% 1%

1% 2%

1%

4% 1%

1%

60%

5%

1%

1%

1% 1%

5%

1%

1% 1%

1%

Intervistati - Luogo di nascita

Ambato (Ecuador) Bacau (Romania)

Benevento (Italia) Bogota (Colombia)

Bologna (Italia) Cagliari (Italia)

Caltagirone (Italia) Capua (Italia)

Carpi (Italia) Caserta (Italia)

Correggio (Italia) Manfredonia (Italia)

Milano (Italia) Modena (Italia)

Napoli (Italia) Pavullo (Italia)

Pistoia (Italia) Reggio_Calabria (Italia)

Reggio_Emilia (Italia) Sassuolo (Italia)

Timisuara (Romania) Trieste (Italia)

Visaginas (Lituania) Zevio (Italia)

11% 1%

77%

1%

2% 2% 6%

Intervistati - Stato occupazionale

DISOCCUPATO: cerca primo lavoro

DISOCCUPATO

STUDENTE

STUDENTE: tirocinante

LAVORATORE: a contratto

LAVORATORE: tempoindeterminato

LAVORATORE: tempo determinato

28/31

Altri Risultati

Page 29: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Protégé Annotazione

semantica e Linking

D2R Server

Modello E/R

DBMS MySql

Modellazione dati e

creazione database

Conversione

RDF

29/31

Dataset ‘Precarietà

Giovanili’ SPSS

DATI

Excel

Processo di pubblicazione

Fuseki Grafici CSV

LMF Pubblicazione e

SPARQL endpoint Query

RDF

RDF e OWL

LOD

RDF/XML

Database

Page 30: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

Conclusioni Panoramica sugli Open Data, sui Linked Data e sul

progetto LOD

30/31

Applicazione della metodologia ad un caso concreto

Panoramica sullo sugli strumenti a disposizione per l’elaborazione dei Linked Open Data

Sviluppo di una metodologia generale per la pubblicazione dei Linked Open Data

Inserimento di un dataset pubblico nella LOD Cloud: il dataset è ora confrontabile ed incrociabile con altri miliardi di dati !

Page 31: Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei database relazionali nel Semantic Web. 17/31 . Processo di pubblicazione 18/31 Dataset

31/31

Sviluppi Futuri

Grazie per l’attenzione

Creazione di un wrapper per dati RDF

Integrazione del thesaurus MultiWordNet per l’annotazione

di sorgenti in italiano

Implementare l’esportazione in RDF dei dati integrati

Estendere il sistema MOMIS per l’utilizzo nella sfera dei Linked Open Data:

Automatizzare le fasi del processo di pubblicazione dei Linked Open Data