Dataset Andrototal Davide Quarta Federico Maggi Stefano Zanero [email protected].
Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei...
Transcript of Linked Open Data: pubblicazione, arricchimento semantico e ... · pubblicazione del contenuto dei...
Linked Open Data: pubblicazione, arricchimento semantico e linking di dataset pubblici attraverso
il sistema MOMIS
Università degli Studi di Modena e Reggio Emilia
Ingegneria ‘Enzo Ferrari’ Corso di Laurea Magistrale (D. M. 270/04) in Ingegneria Informatica
Relatore: Prof.ssa Sonia Bergamaschi Correlatore: Dott. Ing. Serena Sorrentino
Candidato: Elisa Fusari
1/31
Open Data
2/31
www.data.gov
www.data.gov.uk
www.data.gov.it
Open Government Open Science
www.linkedscience.org
Da Open Data a LINKED Open Data
Utilizzare gli standard W3C, RDF e SPARQL (Simple
Protocol and RDF Query Language), per la pubblicazione e l’interrogazione delle risorse
3/31
Principi dei Linked Data :
Usare URI (Uniform Resource Identifier), per identificare le risorse
Utilizzare il protocollo HTTP (HyperText Transfer Protocol),
per facilitare la ricerca e il recupero delle risorse
Inserire link ad altri URI, per permettere la scoperta di risorse attinenti
Resource Description Framework
1 Stella = Dati nel Web e con Licenza Aperta
4/31
Da Open Data a LINKED Open Data
Classificazione “5 stelle”:
2 Stelle = Dati ‘machine-readable’
3 Stelle = Dati in formato NON-proprietario
4 Stelle = Dati in RDF
5 Stelle = Dati in RDF e con Link
LOD Project
5/31
Progetto Linking Open Data (LOD), attività del W3C (World Wide Web Consortium) iniziata nel 2007, che al momento
comprende 295 dataset e 31.634.213.770 triple RDF.
6/31
LOD Project
Semantica nei LOD
Relationship Link: se legano fonti di dati diverse
7/31
Vocabulary Link: se collegano i dati alle definizioni dei termini usati, o se collegano le definizioni tra loro
Identity Link: se collegano URI-alias, ovvero diverse
fonti di dati che descrivono lo stesso oggetto
Tipi di RDF Link:
owl:sameAs
8/31
owl:equivalentClass
rdfs:subClassOf
Semantica nei LOD
owl:equivalentProperty
rdfs:subPropertyOf
Predicati mancanti:
9/31
owl:equivalentClass
rdfs:subClassOf
owl:equivalentProperty
rdfs:subPropertyOf
Predicati mancanti:
owl:AnnotationProperty
Semantica nei LOD
10/31
owl:AnnotationProperty
Semantica nei LOD
Annotazione Semantica:
Operazione che permette di esprimere in modo formale il significato delle risorse, rendendole contestualizzate e facilitandone l’integrazione.
rdfs:label rdfs:comment
11/31
Pubblicazione LOD
Arricchimento
semantico e Linking
Conversione
RDF
RDF
Public Data
Pubblicazione e
SPARQL endpoint
LOD
Trasformare i dati semplici in dati strutturati
Convertire i dati in RDF
Arricchire semanticamente i dati e
creare link con altri dataset
Rendere i dati pubblici ed interrogabili, attraverso punti d’accesso SPARQL
Fasi del processo:
Progetto PRECARIETA’ GIOVANILI
Raccolta dati utile allo studio della situazione di insicurezza e instabilità dei giovani, non solo in ambito lavorativo,
ma anche formativo, famigliare ed affettivo.
12/31
Processo di pubblicazione
13/31
Modello E/R
DBMS MySql
SPSS
Modellazione dati e
creazione database
Dataset ‘Precarietà
Giovanili’
DATI
Statistical Package for the Social Sciences
14/31
Modellazione dati
Creazione database
15/31
Processo di pubblicazione
16/31
Dataset ‘Precarietà
Giovanili’
D2R Server
Modello E/R
DBMS MySql
SPSS
Modellazione dati e
creazione database
Conversione
RDF
DATI
Excel
Database
D2R Server D2R (Database To RDF), è un server HTTP che permette la
pubblicazione del contenuto dei database relazionali nel Semantic Web.
17/31
Processo di pubblicazione
18/31
Dataset ‘Precarietà
Giovanili’
D2R Server
Modello E/R
DBMS MySql
SPSS
Modellazione dati e
creazione database
Annotazione
semantica e Linking
DATI
RDF/XML
Excel
Conversione
RDF
Database
Annotazione semantica con WordNet MOMIS (Mediator envirOnment for Multiple Information
Sources), sistema per l’integrazioni di sorgenti dati eterogenee sviluppato da DBGroup e DataRiver.
19/31
WordNet in RDF
‘Precarietà Giovanili’
in RDF
link
link
link
link
20/31
Annotazione semantica con WordNet
WordNet in RDF
‘Precarietà Giovanili’
in RDF
MultiWordNet
Processo di pubblicazione
21/31
Dataset ‘Precarietà
Giovanili’
Protégé
SPSS
DATI
D2R Server
Modello E/R
DBMS MySql
Modellazione dati e
creazione database
Annotazione
semantica e Linking
Conversione
RDF
Excel
RDF/XML
Database
Protégé Protégé, editor open-source di ontologie OWL (Ontology Web
Language), sviluppato dal Centro di Biomedical Informatics Research all’Università di Medicina di Stanford.
22/31
Protégé Annotazione
semantica e Linking
Processo di pubblicazione
23/31
Dataset ‘Precarietà
Giovanili’
LMF
SPSS
DATI
Pubblicazione e
SPARQL endpoint
D2R Server
Modello E/R
DBMS MySql
Modellazione dati e
creazione database
Conversione
RDF
Excel
RDF e OWL
RDF/XML
Database
Query
RDF
LMF – Linked Media Framework
24/31
LMF, è un’applicazione server che offre diversi servizi relativi al Web semantico. Si compone di un server centrale e diversi
moduli, tra cui il sevizio di interrogazione SPARQL, Snorql.
Processo di pubblicazione
25/31
Dataset ‘Precarietà
Giovanili’
Fuseki
SPSS
DATI
Grafici CSV
Protégé Annotazione
semantica e Linking
LMF Pubblicazione e
SPARQL endpoint Query
D2R Server
Modello E/R
DBMS MySql
Modellazione dati e
creazione database
Conversione
RDF
RDF
RDF e OWL
RDF/XML
Database
Excel
Fuseki Fuseki, è un SPARQL server che fornisce dati RDF sul protocollo
HTTP, sviluppato nel progetto Apache Jena. Esso supporta l’utilizzo di operatori di raggruppamento (GROUP BY) e funzioni
di conteggio (COUNT())nel protocollo SPARQL.
26/31
“Quanti intervistati hanno indicato stabilità tra un anno, nei diversi ambienti sociali? E quanti precarietà?”
01020304050607080
STABILITA' - PRECARIETA' tra 10 anni
stabilità
precarietà
27/31
Risultati query
01020304050607080
STABILITA' - PRECARIETA' tra 1 anno
stabilità
precarietà
1% 1%
1%
1%
2%
2% 1%
1% 2%
1%
4% 1%
1%
60%
5%
1%
1%
1% 1%
5%
1%
1% 1%
1%
Intervistati - Luogo di nascita
Ambato (Ecuador) Bacau (Romania)
Benevento (Italia) Bogota (Colombia)
Bologna (Italia) Cagliari (Italia)
Caltagirone (Italia) Capua (Italia)
Carpi (Italia) Caserta (Italia)
Correggio (Italia) Manfredonia (Italia)
Milano (Italia) Modena (Italia)
Napoli (Italia) Pavullo (Italia)
Pistoia (Italia) Reggio_Calabria (Italia)
Reggio_Emilia (Italia) Sassuolo (Italia)
Timisuara (Romania) Trieste (Italia)
Visaginas (Lituania) Zevio (Italia)
11% 1%
77%
1%
2% 2% 6%
Intervistati - Stato occupazionale
DISOCCUPATO: cerca primo lavoro
DISOCCUPATO
STUDENTE
STUDENTE: tirocinante
LAVORATORE: a contratto
LAVORATORE: tempoindeterminato
LAVORATORE: tempo determinato
28/31
Altri Risultati
Protégé Annotazione
semantica e Linking
D2R Server
Modello E/R
DBMS MySql
Modellazione dati e
creazione database
Conversione
RDF
29/31
Dataset ‘Precarietà
Giovanili’ SPSS
DATI
Excel
Processo di pubblicazione
Fuseki Grafici CSV
LMF Pubblicazione e
SPARQL endpoint Query
RDF
RDF e OWL
LOD
RDF/XML
Database
Conclusioni Panoramica sugli Open Data, sui Linked Data e sul
progetto LOD
30/31
Applicazione della metodologia ad un caso concreto
Panoramica sullo sugli strumenti a disposizione per l’elaborazione dei Linked Open Data
Sviluppo di una metodologia generale per la pubblicazione dei Linked Open Data
Inserimento di un dataset pubblico nella LOD Cloud: il dataset è ora confrontabile ed incrociabile con altri miliardi di dati !
31/31
Sviluppi Futuri
Grazie per l’attenzione
Creazione di un wrapper per dati RDF
Integrazione del thesaurus MultiWordNet per l’annotazione
di sorgenti in italiano
Implementare l’esportazione in RDF dei dati integrati
Estendere il sistema MOMIS per l’utilizzo nella sfera dei Linked Open Data:
Automatizzare le fasi del processo di pubblicazione dei Linked Open Data