Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia Corcione

Post on 25-Jul-2015

224 views 3 download

Transcript of Ontologie per i linked open data / Stefano De Luca, Paola De Caro, Claudia Corcione

CONDIVIDERE, COLLABORARE, CREARE

Ontologie per i Linked Open Data Stefano De Luca

Paola De Caro,

Claudia Corcione

12/03/2015

info su www.evodevo.it

EVODEVO: CHI SIAMO

Evodevo è azienda di innovazione per progetti Enterprise per clienti istituzionali e privati

Fornisce consulenza specializzata sulle tematiche dei dati e modelli

info su www.evodevo.it

FOCUS: KNOWLEDGE EXTRACTION AND VISUALIZATION

Big Data

GIS Semantica

• Personale altamente specializzato sulle tematiche indicate • Ontologi ed esperti di meta-dati e knowledge

management • Statistici e matematici • Informatici e GIS

• Focus su estrazione e visualizzazione della conoscenza attraverso • data and text mining, • tecnologie semantiche, • GIS (sistemi geografici)

• Realizzazione di • portali di accesso e uso di dati • sistemi di supporto delle decisioni • gestione della conoscenza ed open

data

I nostri prodotti e servizi sono specializzati su:

• Open Data

• Semantic web e sistemi intelligenti

• Knowledge management

• Sistemi geografici (GIS, GIScience)

• Sistemi di supporto alle indagini

• Data Visualization

• Business intelligence e Location intelligence

• Sistemi di supporto alle decisioni

• Data mining e text mining

info su www.evodevo.it

CLIENTI PRINCIPALI

info su www.evodevo.it

PROGETTI DI RICERCA PRINCIPALI

info su www.evodevo.it

PUBBLICAZIONE DEI DATI

• Realizzazione degli open data INPS

• Sviluppo di una metodologia OD

• Organizzatori Open Government Summit 2012

• Azienda invitata G8 UK per trasparenza e OD e Open Data Charter

• Supporto alla redazione di documenti normativi

• Sviluppo di applicazioni web e mobile su OD

• Citati come caso di eccellenza dalla World Bank

• OD per Comuni (pubblicazione e riuso)

• Sviluppato prodotto di trasformazione e pubblicazione, OpenDataGround

• Membri Open Knowledge Foundation (OKF)

• Soci fondatori e consiglieri dell’ Istituto Italiano Open Data

info su www.evodevo.it

IL WEB

• L’attuale web è rivolto alle PERSONE

• Il focus è su: • Contenuti (testi, immagini, video…) • Pagine che raccolgono i contenuti • Collegamenti tra pagine: hyperlink

• Esistono degli standard per definire come «costruire» il web, ad es:

• HTML: per la definizione delle pagine • HTTP: protocollo di comunicazione per ricevere pagine e chiederne di nuove

• Gli standard sono definiti e controllati dal W3C, World Wide Web Consortium

info su www.evodevo.it

IL SEMANTIC WEB

• Alla fine degli anni ‘90 il «padre» del web, Tim Berners-Lee ha proposto l’estensione dal WEB al SEMANTIC WEB

• Il semantic web è rivolto ai SOFTWARE

• L’idea di fondo è che agenti software intelligenti possano «leggere» il web e usare le informazioni per interagire tra loro e il web per rispondere a dei compiti

info su www.evodevo.it

“… an extension of the current web in which

information is given well-defined meaning,

better enabling computers and people to work in

cooperation …”

“… a set of connected applications … forming

a consistent logical web of data …”

info su www.evodevo.it

AGENTI IN AZIONE: LUCY PRENOTA IL MEDICO PER LA MADRE

info su www.evodevo.it

ONTOLOGIE

• La base del semantic web. E’ un oggetto composto da: • Un vocabolario usato per descrivere un dominio (ambito) • Un’esplicita specificazione del significato inteso per il vocabolario

• Spesso include informazioni di classificazione • Vincoli che catturino la conoscenza tacita (background knowledge) del

dominio

• Una buona ontologia dovrebbe: • Catturare il signicato condiviso di un dominio • Forire un modello formale ed usabile della macchine (software)

info su www.evodevo.it

LINGUAGGI DELLE ONTOLOGIE: RDF, RDFS

• Si è creato un linguaggio che permettesse di definire le risorse

• Il primo di questi linguaggi è RDF (Resource Description Framework , aumentato successivamente da RDFS (RDF Schema)

• Permettono di definire:

• Classi e proprietà

• Sub/super-classi (e proprietà )

• Range e domain ( delle properties)

• È stato un buon inizio, ma troppo debole per descrivere le risorse in dettaglio e consentire la possibilità di dedurre nuove informazioni

info su www.evodevo.it

LINGUAGGI DELLE ONTOLOGIE: OWL - WEB ONTOLOGY LANGUAGE

• RDF è stato esteso per creare un linguaggio che fosse capace di descrivere un dominio e di permettere un reale reasoning

• Il reasoning (ragionamento automatico) è la capacità di estrarre nuova conoscenza a partire dalle informazioni che si hanno a disposizione

• Il nuovo linguaggio si chiama WEB ONTOLOGY LANGUAGE (OWL)

• Esiste in diverse versioni, progressivamente più complesse: • OWL-LITE: semplice da implementare ma poco espressivo

e oramai praticamente deprecato • OWL-DL: basato sulla logica descrittiva, finalizzato

soprattutto al reasoning • OWL-FULL: massima espressività rispetto alla descrizione

di un dominio di conoscenza, pertanto meno adatto al reasoning (problema della indecidibilità)

• La versione attuale è OWL 2,

info su www.evodevo.it

ESEMPIO DI ONTOLOGIA: DEFINIZIONE DI PIZZA ITALIANA IN PROTÉGÉ

info su www.evodevo.it

LA BASE DELLE ONTOLOGIE: LE TRIPLE

• Le ontologie rappresentano ogni informazione sotto forma di TRIPLE composte da: • SOGGETTO • RELAZIONE • OGGETTO

• Nell’esempio di lato,

rappresentiamo il fatto che Evodevo si occupa di ontologie

Evodevo

Ontologie

Si occupa di

info su www.evodevo.it

LA BASE DELLE ONTOLOGIE: LE TRIPLE /2

• Usando le triple, si possono aggiungere altri fatti

• Nella figura abbiamo esteso il fatto precedente con altre informazioni (altri due fatti)

Evodevo

Ontologie

Si occupa di

Azienda

È (is-a)

Intelligenza artificiale

parte di (part-of)

info su www.evodevo.it

RIFERIMENTI ASSOLUTI

• Le ontologie ereditano molto dalle reti semantiche • Aggiungono a queste un concetto essenziale

OGNI ELEMENTO IN UNA ONTOLOGIA DEVE ESSERE UNICO SU TUTTO IL WEB

• Questo vuol dire che non basta comporre una tripla dicendo <evodevo, è, Azienda>

• Perché sia evodevo che azienda sono ambigui sulla rete: qualcuno potrebbe definire un altro evodevo o un altro modo di intendere azienda

• Il ragionamento che sta dietro questo problema è che LE ONTOLOGIE SI POSSONO UNIRE TRA DI LORO e quindi ogni elemento deve essere UNICO

info su www.evodevo.it

RIFERIMENTI ASSOLUTI: LE URI

• Per rendere unici gli elementi, si usano le URI (Uniform Resource Identifier) o meglio ancora IRI (Internationalized Resource Identifier), che sono URI con caratteri internazionali

• Questo vuol dire che la tripla

<evodevo, è, Azienda> • Diventa:

<http://www.evodevo.it/ontology#Evodevo, http://www.w3.org/1999/02/22-rdf-syntax-ns#type,

http://www.evodevo.it/ontology#Azienda>

• Abbiamo colorato in arancione le parti di prefisso, la componente che con il nome rende unico il riferimento

info su www.evodevo.it

URI NON URL

• Ogni elemento di un’ontologia RDF o OWL dovrà quindi essere definito con una URI

• Le URI sono molto simili agli indirizzi che usiamo sul web, i cosidetti URL (Uniform Resource Locator): • http://www.evodevo.it/ • http://it.wikipedia.org/wiki/Ontologia_(informatica) • mailto:info@evodevo.it

• Le URI però non devono puntare a qualcosa che esista davvero su Internet

• Se cercate una URI tramite il browser potreste non trovare nulla

info su www.evodevo.it

FATTI E DEFINIZIONI

• Le ontologie sono composte da fatti e definizioni

• Le definizioni compongono la TBOX (Terminological Box) • Es. le persone sono umani, le ruote fanno parte di un’automobile

• I fatti compongono la ABOX (Assertional Box):

• Claudia e Paola sono persone • Stefano guida una Volvo

• La somma delle due parti è un’ontologia completa

P A R T N E R

OPEN DATA

info su www.evodevo.it

COSA SONO GLI OPEN DATA

• Nati come variante semplice del semantic web • Il semantic web chiede di pubblicare i dati in formato ontologico pochi lo

hanno fatto • Con gli open data l’idea è:

pubblicate i dati in qualunque formato! • Gli open data sono dati accompagnati da:

• licenza che li renda riusabili senza limiti, anche per scopi commerciali • Metadati che permettano di trovarli e capirli

info su www.evodevo.it

OPEN DATA ED OPEN GOVERNMENT

• Gli open data sono legati ai principi dell’open government

• Per questo sono stati sposati principalmente dalle pubbliche amministrazioni

info su www.evodevo.it

L’ecosistema degli open data

info su www.evodevo.it

I CINQUE LIVELLI OPEN DATA

dati in formato testo (.PDF, .TXT)

dati disponibili in struttura proprietaria (.XLS)

dati disponibili in formato non-proprietario (.CSV, .XML)

dati strutturati con URL ed URI

dati collegati (linked data) in formato semantico (RDF /OWL + link)

info su www.evodevo.it

ESEMPIO DI OPEN DATA: LE BIBLIOTECHE DEL COMUNE DI FIRENZE

• I dati vengono pubblicati sul web • Sono scaricabili in almeno uno dei formati open • Questi dati possono essere usati per mera consultazione o elaborati

• Chi li scarica li può usare per:

• Analisi • Statistiche • Costruire applicazioni • Integrarli con altri dati

• Vediamo ad es. come si distribuiscono i dati delle Biblioteche di Firenze

info su www.evodevo.it

COSA E COME PUBBLICARE

La Legge n. 221/2012, con modificazioni, del Decreto legge n. 179 del 18 Ottobre 2012, denominato “Decreto Crescita 2.0” stabilisce per le PA l’obbligo di: • pubblicazione sul sito web di una sezione «Amministrazione trasparente» in cui esporre in

formato open informazioni relative a somme di danaro superiori a 1000 €, erogate a qualsiasi titolo

• pubblicazione del catalogo dei dati, delle banche dati e dei metadati in loro possesso e i regolamenti che ne disciplinano l’accesso e il riutilizzo

• principio dell’Open Data by default, ovvero che i dati si intendono rilasciati come dati aperti se non hanno un’espressa adozione di licenza.

il D.lgs 33/2013 detto “Decreto trasparenza” ha imposto dei requisiti fondamentali per i dati sulla trasparenza: • Elenco dei dati con obbligo di pubblicazione per la trasparenza, anche per un maggiore

controllo sulle prestazioni erogate dalla PA • accessibilità, riuso, formato leggibili i dalle macchine, metadati, licenza, formati destinati alla

fruizione del pubblico. • Rispetto per il trattamento dei dati personali.

info su www.evodevo.it

ESEMPIO DI USO: INCIDENTI STRADALI – LOROS LOCAL ROAD SAFETY

• Evodevo ha realizzato una piattaforma per l’analisi degli incidenti stradali

• Inizialmente creata per la Polizia, è stata successivamente evoluta

• Consente di avere informazioni su: • Dati degli incidenti • Strade e incroci più pericolosi • Ragioni della pericolosità • Differenze nel tempo (orari, giorni

della settimana, feriale/festivo etc.) • Previsione futura del rischio stradale

• Disponibile plugin per integrare i dati messi a disposizione da ISTAT tramite SISTAN

• Presentato alla XI Conferenza Nazionale dell’ISTAT come caso di eccellenza

info su www.evodevo.it

ESEMPIO D’USO: RICERCA DELLA SCUOLA MIGLIORE

29

info su www.evodevo.it

ONTOLOGIE PER I LINKED OPEN DATA

info su www.evodevo.it

LINKED OPEN DATA: PROBLEMATICHE E OBIETTIVI

I motivi per cui incentivare lo sviluppo e l’utilizzo dei Linked Open Data possono essere analizzati da due punti di vista:

• Interoperabilità semantica, per una maggiore condivisione e riutilizzo delle informazioni.

• Nuova conoscenza, dedotta ed esplicitata dal collegamento delle informazioni.

info su www.evodevo.it

BEST PRACTICE LOD NELLE PUBBLICHE AMMINISTRAZIONI

• Sfruttamento del proprio patrimonio informativo

• Collegamento dei propri dati con quelli di altre amministrazioni

• Deduzione di nuova conoscenza attraverso il collegamento di dati e informazioni

• Dati e metadati in un’unica struttura e linguaggio, in RDF/OWL

• Riutilizzo automatico dei dati attraverso software

• Scelta di metodologie specifiche per gli open data e linked open data (ODMC, Open Data

Management Cycle, Evodevo Open Process)

• Web of data

info su www.evodevo.it

E-GOV, AMMINISTRAZIONI E LOD

• Interesse crescente da parte delle pubbliche amministrazioni verso l’interoperabilità semantica, anche attraverso la pubblicazioni di:

• Studio sulle best practices e raccomandazioni nell'uso delle Persistent URI (con iniziative che riguardano i Linked Open Data e il Semantic Web) (AGID, 2012)

• Interoperabilità semantica attraverso i Linked Open Data (AGID, 2012)

• Linee Guida Nazionali Per La Valorizzazione Del Patrimonio Informativo Pubblico (AGID 2013)

• e-GLU 2.0 (Gruppo di Lavoro per l’Usabilità, 2014).

info su www.evodevo.it

VANTAGGI DEI LINKED OPEN DATA RISPETTO AGLI OPEN DATA

• I LOD sono più potenti in quanto:

• È possibile collegare i dati e le ontologie tra di loro (linked)

• È possibile distribuirli tramite un punto di accesso real-time (end point sparql) su cui operare interrogazioni ed ottenere i dati anche in altri formati

info su www.evodevo.it

LINKED!

• Ai dati di una ontologia si possono unire dati di altre ontologie

• Così gli open data permettono di muoversi da un’ontologia all’altra, con una grande ricchezza informativa

• Si usa l’ecosistema delle ontologie

• A fianco uno schema molto parziale delle ontologie publiche e i loro collegamenti

info su www.evodevo.it

ESEMPI DI LINKED OPEN DATA

info su www.evodevo.it

LOD E AMMINISTRAZIONI: IL SENATO

info su www.evodevo.it

LOD E AMMINISTRAZIONI: CAMERA DEI DEPUTATI

info su www.evodevo.it

LOD E AMMINISTRAZIONI: AGID - SPC

info su www.evodevo.it

UN ESEMPIO DI RIUTILIZZO DEI DATI APERTI: OPENSANITÀ

info su www.evodevo.it

OPENSANITÀ

info su www.evodevo.it

RAPPRESENTAZIONE DEL GRAFO

info su www.evodevo.it

AGENDA DIGITALE EUROPEA

info su www.evodevo.it

RISPOSTA METODOLOGICA AL PROBLEMA DELL’INTEROPERABILITA’:

STANDARDIZZARE TUTTI I LIVELLI DI INTEROPERABILITA’

• Livello sintattico-strutturale della risorsa: linguaggio di rappresentazione (es. RDF/OWL, standard W3C) e linguaggio che modella la struttura della risorsa (es. RDF DATA CUBE Vocabulary, standard W3C);

• Livello lessicale delle dimensioni, attributi e misure : nome o tipo di dimensioni, misure, attributi (tipici di risorse statistiche), standardizzati con insiemi di metadati statistici standard come SDMX;

• Livello dei valori delle dimensioni, attributi e misure : valore delle dimensioni, misure, attributi, attinti dove possibile da basi di conoscenza note come lo stesso SDMX o Dbpedia ecc..

• Livello lessicale dei metadati delle risorse: tipologia di metadati con cui descrivere una risorsa, standardizzati tramite vocabolari riconosciuti come Dublin core, SKOS, FOAF ecc..

• Livello dei valori dei metadati delle risorse : contenuto dei metadati, come il titolo, l’autore, la data di pubblicazione;

• Livello dei valori dei metadati semantici : gli argomenti trattati nelle risorse, standardizzati quando possibile, con basi di conoscenza in formato semantico come Dbpedia, FreeBase, UKAT ecc..

info su www.evodevo.it

ESEMPIO DI LOD CON TUTTI I LIVELLI DI INTEROPERABILITÀ: INPS LOD

info su www.evodevo.it

MODELLARE LA CONOSCENZA PER AUMENTARE L’INTEROPERABILITÀ DEI LOD INPS

• I dataset INPS hanno una struttura simile alle tabelle OLAP, ovvero sono dati multidimensionali;

• Le tabelle OLAP sono trasformate in grafi OWL attraverso RDF Data Cube Vocabulary.

• Questo approccio consente la conversione di dati multidimensionali mantenendo le relazioni tra le dimensioni, le misure e gli attributi.

• L’Observation è il fenomeno da descrivere, espresso dal valore della cella, definito attraverso le relazioni con dimensioni, misure e attributi.

info su www.evodevo.it

SPEZZONE DEL GRAFO ONTOLOGICO DI UN LOD INPS

info su www.evodevo.it

RISPOSTA METODOLOGICA AL PROBLEMA DI DEDURRE NUOVA CONOSCENZA

• STRUTTURA A GRAFO: la struttura stessa dei dati permette di navigarli e trovare nuovi collegamenti non esplicitati dai produttori dei dati;

• COLLEGAMENTI ESTERNI: i livelli di standardizzazione permettono di collegare i dati con altre informazioni esterne e dunque dedurre nuovi fatti da tali legami;

• REGOLE LOGICHE: la creazione di restrizioni e regole (causa-effetto) per organizzare la conoscenza a seconda degli scopi da raggiungere;

• REASONING: i meccanismi di deduzione logica permettono di verificare le regole e riclassificare le informazioni, scoprendone di nuove.

info su www.evodevo.it

SCOPERTA DI NUOVA DEDUZIONE DA LINKED CLOSED DATA

Evodevo Fraud Detection System

• Strumento per la ricerca di sospetti di frodi all’interno di un sistema. • Dal DB relazionale al DB semantico. • Creazione di un’ontologia per la modellazione dei dati. • Creazione di regole personalizzate (SWRL) per l’individuazione di soggetti

perseguibili per frode, in base all’ambito di applicazione. • Possibilità di azioni inferenziali sulla base di conoscenza.

info su www.evodevo.it

DECISION SUPPORT SYSTEM (DSS) AD USO DEL COMUNE DI FIRENZE

Il sistema consente di: • Utilizzare i dati già in possesso del

Comune. • Trasformare i dati in formato

semantico. • Conservare i dati in triple (N-

triple). • Definire regole per

l’individuazione di fasce di sospetto.

• Classificare gli utenti in base al grado di sospetto.

• Interrogare il sistema con interfaccia user-friendly, collegato all’ endpoint SPARQL del triple store.

info su www.evodevo.it

ESEMPIO DI REGOLA PER SCOPRIRE NUOVE INFORMAZIONI

Possibili evasori fiscali nel Comune di Firenze Dato un cittadino iscritto all’ A.I.R.E* C: C è possibile Evasore di grado Alto se

C possiede utenza elettrica U and C ha consumo annuo superiore alla soglia S and C possiede richieste di occupazione del suolo pubblico R

* AIRE = Associazione Italiani Residenti all’Estero

info su www.evodevo.it

SCOPRIRE NUOVE INFORMAZIONI PER NUOVE ANALISI

Con il collegamento tra linked (closed) data e linked (open) data, si possono dedurre nuove informazioni. Esempio di reasoning geografico per il Comune di Firenze:

Con i dati dei consumi delle utenze dei cittadini e i dati geografici di localizzazione dei cittadini e dei quartieri si può capire quali di essi sono fuori soglia dei consumi relativi a quel quartiere

info su www.evodevo.it

SITOGRAFIA

Standard per il Semantic Web: http://www.w3.org/standards/semanticweb/ Vocabolari e ontologie RDF/OWL: http://lov.okfn.org/dataset/lov/ Specifiche tecniche Data Cube Vocabulary: http://www.w3.org/TR/vocab-data-cube/ Linee Guida per utilizzare il protocollo SDMX: http://sdmx.org/wp-content/uploads/2009/01/00_sdmx_content-oriented_guidelines_2009.pdf Semantic Web Tutorial: http://www.w3.org/People/Ivan/CorePresentations/SWTutorial/ Strumenti: http://protege.stanford.edu/ https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki http://lodlive.it/ http://stardog.com/ http://virtuoso.openlinksw.com/ http://www.oracle.com/us/products/database/options/spatial/overview/index.html http://logd.tw.rpi.edu/technology/csv2rdf4lod Casi d'uso: http://www.inps.it/portale/default.aspx?iIDLink=43&bi=08&link=Open+Data http://dati.camera.it/it/linked-data/ http://dati.senato.it/23 http://www.opensanita.it/open-data/2014-02-14-11-44-29 http://www.opensanita.it/naviga-dati/ http://digital-agenda-data.eu/ http://www.opencoesione.gov.it http://parlamentocasadivetro.openpolis.it

54

info su www.evodevo.it

55

RIFERIMENTI

Per informazioni: Stefano De Luca s.deluca@evodevo.it Paola De Caro p.decaro@evodevo.it Claudia Corcione c.corcione@evodevo.it

Evodevo srl Via dei Castelli Romani 12a 00040 Pomezia (Roma) Tel. 06 9108509

info@evodevo.it www.evodevo.it