ODDI 2013 DCAT per descrivere gli Open Data della PA
-
Upload
matteo-busanelli -
Category
Technology
-
view
1.236 -
download
1
description
Transcript of ODDI 2013 DCAT per descrivere gli Open Data della PA
Agenda
DCAT PER DESCRIVERE GLI OPEN DATA DELLA PAOpen Data Day Italia 2013 - Pubblicazione OD e LOD
Eventualmente clicca per inserire una immagine Scopo dell’attività Fonti censite Ontologie usate: DCAT e VOID Mapping CKAN – DCAT/VOID Importazione con ckan2triple Pubblicazione come LOD Osservazioni
Scopo delle attività
Avviare un censimento dei cataloghi open data delle PA attualmente pubblicati
Valutare le piattaforme di pubblicazione usate e i servizi erogati per l’accesso
Sviluppare un sistema di importazione/page-scraping e allineamento (semi)
automatico rispetto ad un sub-set di fonti preselezionato
Valutare e testare gli attuali vocabolari standard per descrivere i metadati di
cataloghi e dataset
Aggregare e ripubblicare le meta informazioni acquisite in formato Linked Open
Data
Stabilire i primi punti di contatto e sovrapposizioni in termini classificazione e
tagging dei dataset pubblicati
Open Data Day 2013 – Pubblicazione OD & LOD 2
Fonti censite
Allo stato attuale sono state censite le seguenti fonti:1. Open Data della Provincia di Roma2. Open Data della Regione Toscana3. Open Data della Regione Piemonte4. Open Data del Comune di Firenze
Le prime tre pubblicano i dati tramite portale basato su piattaforma CKAN
[http://ckan.org/]
Dati accessibili tramite chiamate a servizi REST
Formati di risposta JSON direttamente usabili
Compatibilità con gli standard de facto per la descrizione di cataloghi OD: DCAT e VOID
Open Data Day 2013 – Pubblicazione OD & LOD 3
Ontologie per descrivere dataset: DCAT e VOID
Per descrivere i cataloghi e i relativi dataset sono stati utilizzati due
vocabolari definiti appositamente per tali scopi e attualmente supportati
dal W3C e da molte piattaforme Open Data.
DCAT [http://www.w3.org/TR/vocab-dcat/]: è un vocabolario RDF/OWL per descrivere cataloghi e
Dataset Open Data sul web a prescindere dai formati di distribuzione. Attualmente è un
Working Draft del W3C.
VOID [http://www.w3.org/TR/void/]: è un vocabolario RDF/OWL per la descrizione di cataloghi
e dataset di tipo Linked Open Data. E’ un “Interest Group” del W3C.
Open Data Day 2013 – Pubblicazione OD & LOD 4
DCAT e VOID: considerazioni
Le due ontologie non sono esplicitamente correlate fra loro
Entrambe definiscono il concetto di Dastaset
DCAT è gerneral-purpose e particolarmente adatto a descrivere qualsiasi
Open Data
VOID è specifica per chi pubblica i dati in modalità LOD e quindi usando RDF
come formato standard
VOID può essere vista come una specializzazione di DCAT. Per le nostre
attività è stata considerata proprio in questi termini
Sia DCAT che VOID utilizzano altri vocabolari standard del Semantic Web
come dc-terms e foaf.Open Data Day 2013 – Pubblicazione OD & LOD 5
DCAT più in dettaglio
Esempio di catalogo e dataset inDCAT
:catalog a dcat:Catalog ;
dct:title "Imaginary catalog" ;
rdfs:label "Imaginary catalog" ;
foaf:homepage <http://example.org/catalog> ;
dct:publisher :transparency-office ;
dcat:themes :themes ;
dct:language "en"^^xsd:language ;
dcat:dataset :dataset/001 ; .
:dataset/001 a dcat:Dataset ;
dct:title "Imaginary dataset" ;
dcat:keyword
"accountability","transparency" ,"payments" ;
dcat:theme :themes/accountability ;
dct:issued "2011-12-05"^^xsd:date ; dct:updated
"2011-12-05"^^xsd:date ;
dct:publisher :agency/finance-ministry ;
dct:accrualPeriodicity "every six months" ;
dct:language "en"^^xsd:language ;
dcat:Distribution :dataset/001/csv ; .
Introduzione all’approccio semantico alla governance IT 6
VOID più in dettaglio
Open Data Day 2013 – Pubblicazione OD & LOD 7
Mapping CKAN JSON –> DCAT/VOID
Open Data Day 2013 – Pubblicazione OD & LOD 8
CKAN mette a disposizione diversi servizi REST richiamabili tramite URL. In particolare due di questi sono stati usati per ottenere
l’elenco dei dataset di un catalogo e il dettaglio di ogni singolo dataset (esempio con catalogo provincia Roma):
Es. di chiamata per elenco dataset: http://www.opendata.provincia.roma.it/api/rest/package
Es. di chiamata per dettaglio di un dataset: http://www.opendata.provincia.roma.it/api/rest/package/<id_dataset>
JSON di un dataset
Dataset descritto con DCAT (RDF)
Mapping JSON/DCAT
Tabella di mapping CKAN-JSON -> DCAT
Open Data Day 2013 – Pubblicazione OD & LOD 9
Importazione con CKAN2Triples
CKAN2Triples interroga prima l’url per avere la lista dei dataset di un catalogo : <provider>/api/rest/package
poi per ogni dataset nella lista restituita: <provider>/api/rest/package/<dataset-id>
CKAN2Triples ha un file di configurazione per ogni “provider” che esplicita il mapping fra i
campi dei JSON di risposta e le proprietà ontologiche da generare
Open Data Day 2013 – Pubblicazione OD & LOD 10
Per importare in maniera automatica i meta
dati dei cataloghi e dataset pubblicati su
piattaforma CKAN (Prov. Roma, Toscana e
Piemonte) è stato sviluppato un piccolo tool
con node.js chiamato CKAN2Triples
API REST
API REST
API REST
JSON
JSON
JSON
provinciaRoma.n3
regioneToscana.n3
regionePiemonte.n3
RDF
RDF
RDF
CKAN2Triples: esempio di triple prodotte
Open Data Day 2013 – Pubblicazione OD & LOD 11
<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/publisher> "Provincia di Roma".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/modified> "2012-07-16T12:22:41.252403".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/created> "2012-07-04T15:44:55.299869".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.xml>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://purl.org/dc/terms/description> "Popolazione residente nei comuni (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://rdfs.org/ns/void#format> "xml".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.csv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://purl.org/dc/terms/description> "CSV - Popolazione residente nei comuni (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://rdfs.org/ns/void#format> "csv".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.tsv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://purl.org/dc/terms/description> "TSV - Popolazione residente nei comuni (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://rdfs.org/ns/void#format> "tsv".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.xml>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://purl.org/dc/terms/description> "Residenti suddivisi per fasce di età (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://rdfs.org/ns/void#format> "xml".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEtaExIta.csv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://purl.org/dc/terms/description> "CSV Excel Ita - Residenti suddivisi per fasce di età (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://rdfs.org/ns/void#format> "csv".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.tsv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://purl.org/dc/terms/description> "TSV - Residenti suddivisi per fasce di età (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://rdfs.org/ns/void#format> "tsv".
Pubblicare i meta dati come LOD
I meta dati in formato RDF/DCAT sono poi stati importati dentro un triplestore e resi
accessibili nei seguenti modi:
Interrogabili direttamente via endpoint SPARQL : http://data.opendataday.it/sparql
Consultabile in modalità Linked Data: es. http://data.opendataday.it/page/dati.provinciaRoma
Consultabile in modalità LOD grafica: http://lodlive.it/?http://data.opendataday.it/resource/dati.provinciaRoma
Open Data Day 2013 – Pubblicazione OD & LOD 12
VIRTUOSO(triplestore)
SPARQL end-point
PUBBY(Linked Data Browsing)
LODLive(LD Browsing grafico)
RDF
RDF
RDF
Il portale dei dati censiti
Open Data Day 2013 – Pubblicazione OD & LOD 13
Per vedere i risultati vistate http://data.opendataday.it
Il portale dell’Open Data Day Italianohttp://opendataday.it/
Considerazioni …
Non esiste una piattaforma unica di pubblicazione degli Open Data della PA e quindi neanche un formato
comune di interoperabilità
DCAT e VOID sono vocabolari sufficientemente ricchi e completi per descrivere gli open data e quindi
potenzialmente candidabili come standard
DCAT e VOID devono essere integrati in modo da poter essere uno la generalizzazione dell’altro.
Open Data Day 2013 – Pubblicazione OD & LOD 14
I dati importati si sono dimostrati immediatamente sovrapponibili e
integrabili rispetto ad alcuni tag di classificazione comune:
il tag "turismo" via SPARQL (link alla query)
il tag "università" via Pubby (http://data.opendataday.it/page/tag/universita)
Si possono immediatamente avere alcune metriche rispetto al campione
considerato su:
Numero di dataset pubblicati (link alla query)
Numero di file distribuiti (link alla query)
Contributors
Diego Valerio Camarda (Regesta.com) Infrastruttura del portale http://data.opendataday.it
Homepage del portale http://data.opendataday.it
LODLive
Ideazione e sviluppo CKAN2Triples
Matteo Busanelli (Imola Informatica) Integrazione DCAT - VOID
Mapping semantico JASON – DCAT/VOID
Configurazione Linked Data Browser tool (Pubby)
Ideazione e sviluppo RSS2RDF_DCAT
Open Data Day 2013 – Pubblicazione OD & LOD 15
Riferimenti utili
Open Data Day 2013 – Pubblicazione OD & LOD 16
CKAN: http://ckan.org/
ckan2Triples: https://github.com/dvcama/ckan2triples
data.openadataday.it: http://data.opendataday.it/
DCAT: http://www.w3.org/TR/vocab-dcat/
DCTerms: http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=terms#
FOAF: http://www.foaf-project.org/
Linked Open Data: http://linkeddata.org/
LODLive: http://lodlive.it/
Node.js: http://nodejs.org/
Open Data Day 2013: http://opendataday.org/
Open Data Day Italia 2013: http://opendataday.it/
OWL: http://www.w3.org/TR/owl-features/
Pubby: http://wifo5-03.informatik.uni-mannheim.de/pubby/
RDF: http://www.w3.org/RDF/
SPARQL: http://www.w3.org/TR/rdf-sparql-query/
Virtuoso: http://virtuoso.openlinksw.com/
VOID: http://www.w3.org/TR/void/