ODDI 2013 DCAT per descrivere gli Open Data della PA

16
Agenda DCAT PER DESCRIVERE GLI OPEN DATA DELLA PA Open Data Day Italia 2013 - Pubblicazione OD e LOD Eventualmente clicca per inserire una immagine Scopo dell’attività Fonti censite Ontologie usate: DCAT e VOID Mapping CKAN – DCAT/VOID Importazione con ckan2triple Pubblicazione come LOD Osservazioni

description

 

Transcript of ODDI 2013 DCAT per descrivere gli Open Data della PA

Page 1: ODDI 2013 DCAT per descrivere gli Open Data della PA

Agenda

DCAT PER DESCRIVERE GLI OPEN DATA DELLA PAOpen Data Day Italia 2013 - Pubblicazione OD e LOD

Eventualmente clicca per inserire una immagine Scopo dell’attività Fonti censite Ontologie usate: DCAT e VOID Mapping CKAN – DCAT/VOID Importazione con ckan2triple Pubblicazione come LOD Osservazioni

Page 2: ODDI 2013 DCAT per descrivere gli Open Data della PA

Scopo delle attività

Avviare un censimento dei cataloghi open data delle PA attualmente pubblicati

Valutare le piattaforme di pubblicazione usate e i servizi erogati per l’accesso

Sviluppare un sistema di importazione/page-scraping e allineamento (semi)

automatico rispetto ad un sub-set di fonti preselezionato

Valutare e testare gli attuali vocabolari standard per descrivere i metadati di

cataloghi e dataset

Aggregare e ripubblicare le meta informazioni acquisite in formato Linked Open

Data

Stabilire i primi punti di contatto e sovrapposizioni in termini classificazione e

tagging dei dataset pubblicati

Open Data Day 2013 – Pubblicazione OD & LOD 2

Page 3: ODDI 2013 DCAT per descrivere gli Open Data della PA

Fonti censite

Allo stato attuale sono state censite le seguenti fonti:1. Open Data della Provincia di Roma2. Open Data della Regione Toscana3. Open Data della Regione Piemonte4. Open Data del Comune di Firenze

Le prime tre pubblicano i dati tramite portale basato su piattaforma CKAN

[http://ckan.org/]

Dati accessibili tramite chiamate a servizi REST

Formati di risposta JSON direttamente usabili

Compatibilità con gli standard de facto per la descrizione di cataloghi OD: DCAT e VOID

Open Data Day 2013 – Pubblicazione OD & LOD 3

Page 4: ODDI 2013 DCAT per descrivere gli Open Data della PA

Ontologie per descrivere dataset: DCAT e VOID

Per descrivere i cataloghi e i relativi dataset sono stati utilizzati due

vocabolari definiti appositamente per tali scopi e attualmente supportati

dal W3C e da molte piattaforme Open Data.

DCAT [http://www.w3.org/TR/vocab-dcat/]: è un vocabolario RDF/OWL per descrivere cataloghi e

Dataset Open Data sul web a prescindere dai formati di distribuzione. Attualmente è un

Working Draft del W3C.

VOID [http://www.w3.org/TR/void/]: è un vocabolario RDF/OWL per la descrizione di cataloghi

e dataset di tipo Linked Open Data. E’ un “Interest Group” del W3C.

Open Data Day 2013 – Pubblicazione OD & LOD 4

Page 5: ODDI 2013 DCAT per descrivere gli Open Data della PA

DCAT e VOID: considerazioni

Le due ontologie non sono esplicitamente correlate fra loro

Entrambe definiscono il concetto di Dastaset

DCAT è gerneral-purpose e particolarmente adatto a descrivere qualsiasi

Open Data

VOID è specifica per chi pubblica i dati in modalità LOD e quindi usando RDF

come formato standard

VOID può essere vista come una specializzazione di DCAT. Per le nostre

attività è stata considerata proprio in questi termini

Sia DCAT che VOID utilizzano altri vocabolari standard del Semantic Web

come dc-terms e foaf.Open Data Day 2013 – Pubblicazione OD & LOD 5

Page 6: ODDI 2013 DCAT per descrivere gli Open Data della PA

DCAT più in dettaglio

Esempio di catalogo e dataset inDCAT

:catalog a dcat:Catalog ;

dct:title "Imaginary catalog" ;

rdfs:label "Imaginary catalog" ;

foaf:homepage <http://example.org/catalog> ;

dct:publisher :transparency-office ;

dcat:themes :themes ;

dct:language "en"^^xsd:language ;

dcat:dataset :dataset/001 ; .

 :dataset/001 a dcat:Dataset ;

dct:title "Imaginary dataset" ;

dcat:keyword

"accountability","transparency" ,"payments" ;

dcat:theme :themes/accountability ;

dct:issued "2011-12-05"^^xsd:date ; dct:updated

"2011-12-05"^^xsd:date ;

dct:publisher :agency/finance-ministry ;

dct:accrualPeriodicity "every six months" ;

dct:language "en"^^xsd:language ;

dcat:Distribution :dataset/001/csv ; .

Introduzione all’approccio semantico alla governance IT 6

Page 7: ODDI 2013 DCAT per descrivere gli Open Data della PA

VOID più in dettaglio

Open Data Day 2013 – Pubblicazione OD & LOD 7

Page 8: ODDI 2013 DCAT per descrivere gli Open Data della PA

Mapping CKAN JSON –> DCAT/VOID

Open Data Day 2013 – Pubblicazione OD & LOD 8

CKAN mette a disposizione diversi servizi REST richiamabili tramite URL. In particolare due di questi sono stati usati per ottenere

l’elenco dei dataset di un catalogo e il dettaglio di ogni singolo dataset (esempio con catalogo provincia Roma):

Es. di chiamata per elenco dataset: http://www.opendata.provincia.roma.it/api/rest/package

Es. di chiamata per dettaglio di un dataset: http://www.opendata.provincia.roma.it/api/rest/package/<id_dataset>

JSON di un dataset

Dataset descritto con DCAT (RDF)

Mapping JSON/DCAT

Page 9: ODDI 2013 DCAT per descrivere gli Open Data della PA

Tabella di mapping CKAN-JSON -> DCAT

Open Data Day 2013 – Pubblicazione OD & LOD 9

Page 10: ODDI 2013 DCAT per descrivere gli Open Data della PA

Importazione con CKAN2Triples

CKAN2Triples interroga prima l’url per avere la lista dei dataset di un catalogo : <provider>/api/rest/package

poi per ogni dataset nella lista restituita: <provider>/api/rest/package/<dataset-id>

CKAN2Triples ha un file di configurazione per ogni “provider” che esplicita il mapping fra i

campi dei JSON di risposta e le proprietà ontologiche da generare

Open Data Day 2013 – Pubblicazione OD & LOD 10

Per importare in maniera automatica i meta

dati dei cataloghi e dataset pubblicati su

piattaforma CKAN (Prov. Roma, Toscana e

Piemonte) è stato sviluppato un piccolo tool

con node.js chiamato CKAN2Triples

API REST

API REST

API REST

JSON

JSON

JSON

provinciaRoma.n3

regioneToscana.n3

regionePiemonte.n3

RDF

RDF

RDF

Page 11: ODDI 2013 DCAT per descrivere gli Open Data della PA

CKAN2Triples: esempio di triple prodotte

Open Data Day 2013 – Pubblicazione OD & LOD 11

<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/publisher> "Provincia di Roma".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/modified> "2012-07-16T12:22:41.252403".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://purl.org/dc/terms/created> "2012-07-04T15:44:55.299869".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.xml>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://purl.org/dc/terms/description> "Popolazione residente nei comuni (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis0> <http://rdfs.org/ns/void#format> "xml".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.csv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://purl.org/dc/terms/description> "CSV - Popolazione residente nei comuni (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis1> <http://rdfs.org/ns/void#format> "csv".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/PopolazionePerComuneEdAnno.tsv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://purl.org/dc/terms/description> "TSV - Popolazione residente nei comuni (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis3> <http://rdfs.org/ns/void#format> "tsv".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.xml>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://purl.org/dc/terms/description> "Residenti suddivisi per fasce di età (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis4> <http://rdfs.org/ns/void#format> "xml".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEtaExIta.csv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://purl.org/dc/terms/description> "CSV Excel Ita - Residenti suddivisi per fasce di età (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis6> <http://rdfs.org/ns/void#format> "csv".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione> <http://www.w3.org/ns/dcat#distribution> <http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://www.w3.org/ns/dcat#Distribution>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://www.w3.org/ns/dcat#accessURL> <http://85.18.173.117/mappe/ResidentiPerFasciaDiEta.tsv>.<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://purl.org/dc/terms/description> "TSV - Residenti suddivisi per fasce di età (anni 2002-2011)".<http://data.opendataday.it/resource/dati.provinciaRoma/dati-statistici-sulla-popolazione/distribution/dis7> <http://rdfs.org/ns/void#format> "tsv".

Page 12: ODDI 2013 DCAT per descrivere gli Open Data della PA

Pubblicare i meta dati come LOD

I meta dati in formato RDF/DCAT sono poi stati importati dentro un triplestore e resi

accessibili nei seguenti modi:

Interrogabili direttamente via endpoint SPARQL : http://data.opendataday.it/sparql

Consultabile in modalità Linked Data: es. http://data.opendataday.it/page/dati.provinciaRoma

Consultabile in modalità LOD grafica: http://lodlive.it/?http://data.opendataday.it/resource/dati.provinciaRoma

Open Data Day 2013 – Pubblicazione OD & LOD 12

VIRTUOSO(triplestore)

SPARQL end-point

PUBBY(Linked Data Browsing)

LODLive(LD Browsing grafico)

RDF

RDF

RDF

Page 13: ODDI 2013 DCAT per descrivere gli Open Data della PA

Il portale dei dati censiti

Open Data Day 2013 – Pubblicazione OD & LOD 13

Per vedere i risultati vistate http://data.opendataday.it

Il portale dell’Open Data Day Italianohttp://opendataday.it/

Page 14: ODDI 2013 DCAT per descrivere gli Open Data della PA

Considerazioni …

Non esiste una piattaforma unica di pubblicazione degli Open Data della PA e quindi neanche un formato

comune di interoperabilità

DCAT e VOID sono vocabolari sufficientemente ricchi e completi per descrivere gli open data e quindi

potenzialmente candidabili come standard

DCAT e VOID devono essere integrati in modo da poter essere uno la generalizzazione dell’altro.

Open Data Day 2013 – Pubblicazione OD & LOD 14

I dati importati si sono dimostrati immediatamente sovrapponibili e

integrabili rispetto ad alcuni tag di classificazione comune:

il tag "turismo" via SPARQL (link alla query)

il tag "università" via Pubby (http://data.opendataday.it/page/tag/universita)

Si possono immediatamente avere alcune metriche rispetto al campione

considerato su:

Numero di dataset pubblicati (link alla query)

Numero di file distribuiti (link alla query)

Page 15: ODDI 2013 DCAT per descrivere gli Open Data della PA

Contributors

Diego Valerio Camarda (Regesta.com) Infrastruttura del portale http://data.opendataday.it

Homepage del portale http://data.opendataday.it

LODLive

Ideazione e sviluppo CKAN2Triples

Matteo Busanelli (Imola Informatica) Integrazione DCAT - VOID

Mapping semantico JASON – DCAT/VOID

Configurazione Linked Data Browser tool (Pubby)

Ideazione e sviluppo RSS2RDF_DCAT

Open Data Day 2013 – Pubblicazione OD & LOD 15

Page 16: ODDI 2013 DCAT per descrivere gli Open Data della PA

Riferimenti utili

Open Data Day 2013 – Pubblicazione OD & LOD 16

CKAN: http://ckan.org/

ckan2Triples: https://github.com/dvcama/ckan2triples

data.openadataday.it: http://data.opendataday.it/

DCAT: http://www.w3.org/TR/vocab-dcat/

DCTerms: http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=terms#

FOAF: http://www.foaf-project.org/

Linked Open Data: http://linkeddata.org/

LODLive: http://lodlive.it/

Node.js: http://nodejs.org/

Open Data Day 2013: http://opendataday.org/

Open Data Day Italia 2013: http://opendataday.it/

OWL: http://www.w3.org/TR/owl-features/

Pubby: http://wifo5-03.informatik.uni-mannheim.de/pubby/

RDF: http://www.w3.org/RDF/

SPARQL: http://www.w3.org/TR/rdf-sparql-query/

Virtuoso: http://virtuoso.openlinksw.com/

VOID: http://www.w3.org/TR/void/