09 siias2007

42
Catalogazione, inferenza di conoscenza, semantica ed uso di ontologie IASUMMIT 2007 Trento, 16-17/11/2007 Carlo Batini, Matteo Palmonari, Gialuigi Viscusi / Riccardo Grosso Universita’ di Milano Bicocca / CSI Piemonte

Transcript of 09 siias2007

Page 1: 09 siias2007

Catalogazione, inferenza di conoscenza, semantica ed

uso di ontologie

IASUMMIT 2007

Trento, 16-17/11/2007

Carlo Batini, Matteo Palmonari, Gialuigi Viscusi / Riccardo Grosso

Universita’ di Milano Bicocca / CSI Piemonte

Page 2: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

2

Indice

Storia dell’esperienza CSI nella catalogazione metadati (infodir, sitad)

Il passaggio al “nuovo infodir” modello “facet-based” Origine delle tassonomie, metadati e ontologie Navigazione di infodir mediante uso di ontologie Sperimentazione con metodi e tool per la mappatura

di schemi concettuali PA con schemi logici delle basi dati catalogate (in collaborazione con l’universita’ di Milano Bicocca )

Estensioni di Infodir

Page 3: 09 siias2007

Storia dell’esperienza CSI nella catalogazione metadati (infodir, sitad)

Page 4: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

4

Il CSI-Piemonte:consorzio pubblico regionale

con organizzazione privatistica

Fondato nel 1977 da:

Politecnico di Torino

Universita’ di Torino

Page 5: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

5

Il CSI-Piemonte, come corpo ICT della Pubblica Amministrazione Locale piemontese, gestisce una grande quantita’ di dati, sia alfanumerici che geografici, che insieme

rappresentano una biblioteca di descrizioni dettagliate del patrimonio regionale dei dati

Page 6: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

6

Information Directory

Infodir e’ il catalogo dei metadati delle istituzioni PA locali

Infodir contiene informazioni correlate a dati, applicazioni, componenti e prodotti dei seguenti enti principali ed altri:

Regione PiemonteProvincia di TorinoComune di Torino

Page 7: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

7

Il catalogo puo’ essere navigato per:

Istituzione (Organizzazione) Statistica (classificazione ISTAT) Tematismo trasversale Novita’ (dal meno recente al piu’ recente) Ricerca libera Ricerca per parole (vocabolario di lemmi) Ricerca avanzata (con l’uso di criteri SQL di uguaglianza e/o

somiglianza)

Page 8: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

8

L’oggetto cardine del catalogo metadati è la collezione, intesa come tralcio del grappolo di metadati ad essa associato, costituito da: Data base

• Tavole (componenti informative, archivi)– Attributi

Applicativi• Componenti

Page 9: 09 siias2007

Il passaggio al “nuovo infodir” modello “facet-based”

Page 10: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

10

Ad inizio 2007 è stata rilasciata una nuova versione di Information Directory che supera alcuni limiti architetturali del vecchio infodir nato nel 1999.

Esso è stato infatti generalizzato e potenziato, nonchè condiviso tra le 3 principali pubbliche amministrazioni piemontesi (Regione, Città e Provincia di Torino), e riconosciuto come “il nuovo infodir”.

Il nuovo infodir annovera tra le sue principali caratteristiche le seguenti:

Page 11: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

11

Caratteristiche principali: backend decentrato (data stewardship) presso i centri di

competenza per materia presenti in CSI e presso gli enti viste separate e viste condivise dei metadati, sia di business

che tecnici oggetti generalizzati modello dimensionale o facet-based (a faccette e focus) classificazioni dinamiche, ovvero tassonomie, generalizzate,

ed associabili a criteri di text mining che permettono di classificare automaticamente gli oggetti via via censiti

search, browse e ricerche avanzate tra loro intersecabili

Page 12: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

12

Metamodello del catalogo descritto

Page 13: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

13

Classificazione automatica in infodir Nella migrazione di una delle tassonomie previste, si

e’ fatto un esperimento di text mining Clusterizzando gli oggetti in automatico classificandoli

nella vecchia tassonomia Confrontando i risultati automatici con quelli manuali

dati dagli oggetti classificati manualmente nella vecchia tassonomia

Usando i risultati del confronto per affinare gli algoritmi automatici

Usando infine gli algoritimi automatici affinati applicandoli alla nuova tassonomia e migrando in automatico gli oggetti

Chiedendo ai power-user di verificare la migrazione risparmiando loro manualita’

Page 14: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

14

Searching & Browsing in infodir Le ricerche sono possibili partendo indifferentemente

da searching e da browsing di: Tassonomie Tipi di oggetto

Partendo ad esempio da un search, posso affinare la ricerca per Tassonomia Tipo di oggetto Singolo metadato (ad esempio fase)

Di seguito si mostra una sequenza di screenshot di esempio

Page 15: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

15

Esempio I

Page 16: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

16

Esempio II

Page 17: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

17

Esempio III

Page 18: 09 siias2007

Origine delle tassonomie, metadati e ontologie

Page 19: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

19

Per valorizzare il patrimonio di metadati censiti, a supporto di Infodir è stata sperimentata una metodologia, implementata in un tool, che fa uso di ontologie “leggere”.

In particolare, la metodologia sfrutta tassonomie derivate dalle gerarchie di generalizzazione di un’ontologia della conoscenza gestita dalle pubbliche amministrazioni centrali (PAC).

La metodologia e il tool hanno come principali obiettivi: fornire nuovi metadati che arricchiscano le tassonomie esistenti

attraverso un processo matching supportato da criteri di somiglianza (implementati nel tool come criteri ‘like’ di SQL) tra

• i nomi degli elementi presenti nelle tassonomie PAC • i nomi degli elementi estratti dalla nuove sorgenti informative.

Sfruttare le tassonomie PAC e i constraints presenti nelle strutture delle basi dati logiche censite per strutturare il patrimonio di metadati estratto dalla nuove sorgenti informative (abilitando un’attività di Data Reverse Engineering).

Metadati e ontologie: finalità

Page 20: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

20

Ontologie “leggere” e ontologia PAC

L’ontologia PAC è stata costruita a partire da un insieme di schemi concettuali relativi alla PAC, integrati/astratti a diversi livelli, e dalle gerarchie di generalizzazione definite dal livello di integrazione/astrazione degli schemi.

Ciascuno schema contiene: • Entità e attributi • Gerarchie di generalizzazione Is-A• Relazioni tra entità

Relazioni interschema definiscono le relazioni di generalizzazione tra concetti e i rapporti tra i diversi schemi

Le ontologie “leggere” di infodir sono costituite da : Entità e attributi Relazioni tra entità Gerarchie di generalizzazione

Page 21: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

21

Ontologie in infodir usate in duplice senso:

1. Creazione di tassonomie di concetti di rilievo per le PA a supporto della navigazione e del recupero delle informazioni presenti nelle basi di dati locali

2. Estrazione di conoscenza da schemi logici di basi di dati locali, con inferenza di ontologie specifiche relative a tali basi di dati

Duplice uso delle ontologie in infodir

Page 22: 09 siias2007

Navigazione di infodir e recupero delle informazioni mediante uso di

ontologie

Page 23: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

23

Inferenza di Supertipi di Entità PAL

Riutilizzando la tassonomia derivata dall’ontologia PAC sono stati derivati supertipi di entita’ degli schemi logici delle basi di dati locali Mapping dinamici tra concetti della tassonomia PAC e entita’ degli schemi

logici delle basi PAL Utilizzo di tali mapping per per recuperare concetti e informazioni delle

basi di dati PAL Sono stati ottenuti 261 supertipi specializzati per tematica di business (ad

es. Imprese) riguardanti principalmente:• La tematica di business “Imprese”• La gerarchia “soggetto”• La gerarchia “bene”• La gerarchia “documento” • La gerarchia “geografia” (luogo, urbanistica, territorio)

Ciascun livello delle singole tassonomie ha associato un criterio di somiglianza che “pesca” dai metadati descrittivi tecnici delle componenti delle basi dati (tavole, campi).

Page 24: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

24

In questo modo è possibile ricondurre concetti molto specifici di dominio a concetti più astratti quali Soggetto, Documento, Proprietà, Luogo e utilizzare criteri di ricerca più intuitivi per l’utente.

Questa tecnica di inferenza tassonomico-ontologica attuata su infodir, consente, per ogni singolo concetto della PA, di verificare in quali basi dati questo concetto e’ fisicamente istanziato, come e’ correlato o correlabile sia top-down che bottom-up.

Risultati

Page 25: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

25

Un esempio: Geografia Urbanistica

Page 26: 09 siias2007

Sperimentazione con metodi e tool per la mappatura di schemi concettuali PA con schemi

logici delle basi dati catalogate (in collaborazione con l’universita’ di Milano

Bicocca )

Page 27: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

27

Per incrementare e valorizzare il patrimonio esistente di metadati, abbiamo quindi sperimentato tali vie metodologiche e progettuali, per permettere poi lo sviluppo di un tool per la creazione di uno schema repository

E’ stato preso come riferimento il repository della PA centrale (realizzato alcuni anni or sono), con l’obiettivo di costruirne uno specifico per la PA locale piemontese, fondato sulle similitudini concettuali dei due diversi livelli di PA

In CSI abbiamo ideato e realizzato metodo e tool grazie ad una collaborazione molto importante con il professor Carlo Batini dell’Universita’ di Milano Bicocca, che ringrazio pubblicamente di cuore, depositario degli schemi concettuali PA centrale rilevati in passato. Con Manuel Garasi abbiamo realizzato il tool che implementa il metodo.

Utilizzo dell’ontologia PAC per la costruzione di ontologie specifiche PAL

Page 28: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

28

Tipi di conoscenza estratta a partire dagli schemi logici locali

La metodologia sfrutta due approcci principali: Approccio top-down (a partire da ontologie PAC):

• Entità affini a concetti delle ontologie PAC e loro attributi• Gerarchie IS-A tra entità (inferenza super-tipi) • Relazioni tra entità

Approccio bottom-up (a partire da tabelle PAL):• Relazioni tra entità

Page 29: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

29

Si sfruttano le relazioni tra le tassonomie/gerarchie, ad esempio:

cittadino paga tributo (cittadino elemento della gerarchia soggetto fisico, tributo elemento della gerarchia bene)

per inferire dall’alto al basso relazioni tra gli oggetti censiti Con questi metodi abbiamo creato numerose ontologie.

Mutuamente, gli oggetti logico-fisici censiti delle basi dati, avendo tra di loro dei constraints, forniscono inferenza dal basso all’alto, quindi relazioni, tra gli elementi delle tassonomie/gerarchie.

Gerarchie di generalizzazione, Constraints e ontologie

Page 30: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

30

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

CONCETTUALE

FISICO

Subject

Citizen

Juridical person/

legal entity

Physical subject/ person

“Good”

Tax/Tributepay

like “cittadin” like “tribut”

Page 31: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

31

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

FISICO

CONCETTUALE

Agricolture

Bovine

Sheep farming

Breeding

Health

Vaccination

Text mining retrieval

Page 32: 09 siias2007

Estensioni di infodir

Page 33: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

33

Estensioni future: verso uno strumento semantico integrato

Verso infodir come strumento semantico integrato:

Estendere l’approccio proposto alla navigazione delle basi integrate di conoscenza nell’ambito del Web Fornire strumenti di navigazione di arbitrari oggetti disponibili via

web (dati semi-strutturati, non strutturati e multimediali), sfruttando l’ontologia creata

Fornire strumenti di navigazione non basati solo su tassonomie ma su mappe concettuali più estese sfruttando la natura ontologica dei modelli creati

Arricchimento della semantica delle ontologie utilizzate per supportare tecniche di ragionamento più sofisticato

Page 34: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

34

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Subject

Citizen

Juridical person/

legal entity

Physical subject/ person

“Good”

Tax/Tributepay

Text mining retrieval

Oggetti del portale

Page 35: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

35

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Agricolture

Bovine

Sheep farming

Breeding

Health

Vaccination

Text mining retrieval

Oggetti del portale

Page 36: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

36

Analizzando i risultati delle nostre sperimentazioni, ed altre soluzioni presenti sul web e descritte in letteratura, e’ possibile classificare le soluzioni ontologico-semantiche in livelli, precisando che il numero di livello crescente NON vuole essere indice di miglior soluzione: 1 livello ne’ ontologico ne’ semantico 2 livello solo ontologico 3 livello solo semantico 4 livello ontologico e semantico

Page 37: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

37

1 livello ne’ ontologico ne’ semantico

sviluppare la navigazione tassonomica sotto forma di mappe concettuali, come in questo esempio (http://oasisvilweb01.csi.it/RelationBrowser/RelationBrowser.html ).

Tale livello per cosi’ dire "alla moda" e' solo un altro modo di vedere rappresentata una tassonomia con i suoi oggetti collegati, non aggiunge nulla in termini di intelligenza

Page 38: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

38

2 livello solo ontologico: http://www.diviana.net http://arianna.diviana.net/Arianna/default.asp

3 livello solo semantico http://www.expertsystem.net/

Page 39: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

39

4 livello ontologico e semantico

ovvero utilizzo uno o piu' schemi entity relationship esistenti, e in base a criteri di somiglianza cerco nel portale gli oggetti che somigliano alle entita' dello schema. Con un esempio, se dico cittadino<paga>tributo, cerco oggetti che somigliano a cittadino e quelli che somigliano a tributo, sfrutto la relazione che gia' conosco (paga) e metto in relazione le 2 famiglie di oggetti. Questo e' cio' che gia’ abbiamo fatto con le sperimentazioni sulle basi dati insieme al professor Batini (vedi ad esempio http://www.iseing.org/egov/eGOV05/Source%20Files/Papers/CameraReady-7-P.pdf ).

Page 40: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

40

4 livello ontologico e semantico

In tali sperimentazioni descritte e' l'ontologia che prevale sulla semantica, cioe' ho delle ontologie ricche e della semantica povera (criteri sql like, gerarchie di generalizzazione)

La semantica povera non e’ sufficientemente bilanciata rispetto alle ontologie, cioe’ non riesce ad arricchire ulteriormente quest’ultime.

E’ necessario creare meccanismi di autoapprendimento dove i criteri semantici piu’ sofisticati “creano” o perfezionano le ontologie esistenti.

Page 41: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

41

4 livello ontologico e semantico

In altre parole un portale ontologico-semantico generalizzato, ovvero un qualcosa che ha nella parte alta le ontologie, e nella parte bassa gli oggetti dei portali. Le ontologie a disposizione guidano la parte bassa, ma anche la parte bassa con opportune inferenze induttive (vedi Cogito) e' in grado di "apprendere" nuove ontologie da regalare alla parte alta.

Page 42: 09 siias2007

16-17/11/2007C.Batini,M.Palmonari,G.Viscusi/R.Grosso

IASUMMIT 2007

Catalogazione,inferenza di conoscenza,semantica e uso di ontologie

42

Grazie... Domande?

"'Carlo Batini'" [email protected]"Matteo Palmonari" [email protected]

"'Gianluigi Viscusi'" [email protected]@csi.it