Catalogazione, inferenza di conoscenza, semantica ed uso ... · Catalogazione, inferenza di...

42
Catalogazione, inferenza di conoscenza, semantica ed uso di ontologie. In questo documento si descrivono le esperienze e le sperimentazioni fatte in merito all’oggetto. In particolare si descrive: 1) la storia dell’esperienza CSI nella catalogazione metadati (infodir vecchio e nuovo, sitad) con riferimenti ad infodir 2) il passaggio al “nuovo infodir” modello “facet-based” 3) l’esperienza di estrazione di conoscenza (i supertipi di entita’) con esempi tratti dall’uso delle gerarchie di entita’ PA geografiche (luogo, territorio, urbanistica) 4) la sperimentazione di inferenza di conoscenza, ovvero i metodi e i tool applicati con l’universita’ di Milano Bicocca mappando gli schemi concettuali PA con gli schemi logici delle basi dati catalogate 5) le ipotesi di generalizzazione al web dei metodi e tool sperimentati, quindi la nostra idea di web semantico 6) l’uso di ontologie (schemi concettuali arricchiti) per la navigazione web nei portali

Transcript of Catalogazione, inferenza di conoscenza, semantica ed uso ... · Catalogazione, inferenza di...

Catalogazione, inferenza di conoscenza, semantica ed uso di ontologie.

In questo documento si descrivono le esperienze e le sperimentazioni fatte in merito all’oggetto.

In particolare si descrive:

1) la storia dell’esperienza CSI nella catalogazione metadati (infodir vecchio e nuovo, sitad) con riferimenti ad infodir

2) il passaggio al “nuovo infodir” modello “facet-based”3) l’esperienza di estrazione di conoscenza (i supertipi di entita’)

con esempi tratti dall’uso delle gerarchie di entita’ PA geografiche (luogo, territorio, urbanistica)

4) la sperimentazione di inferenza di conoscenza, ovvero i metodi e i tool applicati con l’universita’ di Milano Bicocca mappando gli schemi concettuali PA con gli schemi logici delle basi dati catalogate

5) le ipotesi di generalizzazione al web dei metodi e tool sperimentati, quindi la nostra idea di web semantico

6) l’uso di ontologie (schemi concettuali arricchiti) per la navigazione web nei portali

2 Errore. Nel documento non esiste testo dello stile specificato.

Storia dell’esperienza CSI nella catalogazione metadati (infodir vecchio e nuovo, sitad) con riferimenti ad infodir

Il catalogo metadati della PAL piemontese nasce nel 1999, col nome di infodir (information directory), e come evoluzione di precedenti esperienze di catalogazione metadati.

Tale catalogo contiene e classifica inizialmente i metadati di business dei sistemi decisionali della Regione Piemonte.

Nel 2002 cresce e progredisce secondo 3 principali dimensioni:

- enti e loro metadati censiti (non più solo Regione Piemonte, ma dapprima Città di Torino e successivamente Provincia di Torino, e via via i vari enti consorziati, ivi comprese le ASL e il sistema informativo interno del CSI stesso, che ha in carico la gestione dei metadati dei vari enti che popolano il catalogo)

- tipologia di servizi e basi dati censite, non più solo i sistemi decisionali ma anche gli operazionali

- granularità dei metadati, ovvero introduzione dei metadati tecnici delle basi dati (tavole, campi) e dei servizi applicativi (componenti architetturali)

L’oggetto cardine del catalogo metadati è la collezione, intesa come tralcio del grappolo di metadati ad essa associato, costituito da

- basi datio tavole

campi- applicativo

o componente

Ogni singolo oggetto e’ corredato da un set di metadati standard Dublin Core, tra i quali le descrizioni degli oggetti che sono la base per ricerche libere e guidate da criteri di ricerca testuale per somiglianza.

L’oggetto cardine, la collezione, e’ classificabile principalmente:- per ente proprietario

Errore. Nel documento non esiste testo dello stile specificato. 3

- per materia della PA- per tematismo trasversale a più materie ed enti

Le classificazioni consentono il browsing, le ricerche libere il searching.

Browsing e searching sono completamente indipendenti e non combinabili tra loro.

Le modalita’ di searching possono essere sia top-down (dalla collezione all’attributo del data base) che bottom-up (dal singolo campo del data base a risalire fino alle collezioni e alle classificazioni che le contengono).

4 Errore. Nel documento non esiste testo dello stile specificato.

I metadati tecnici censiti delle varie basi dati sono perlopiù fotografie degli schemi logico-fisici delle basi dati stesse.

Errore. Nel documento non esiste testo dello stile specificato. 5

Il passaggio al “nuovo infodir” modello “facet-based”

Ad inizio 2007 è stata rilasciata una nuova versione di Information Directory che supera alcuni limiti architetturali del vecchio infodir nato nel 1999.Esso è stato infatti generalizzato e potenziato, nonchè condiviso tra le 3 principali pubbliche amministrazioni piemontesi (Regione, Città e Provincia di Torino), e riconosciuto come “il nuovo infodir”.

Il nuovo infodir annovera tra le sue principali caratteristiche le seguenti:- il backend decentrato (data stewardship) presso i centri di

competenza per materia presenti in CSI e presso gli enti- viste separate e viste condivise dei metadati, sia di business che

tecnici- oggetti generalizzati- modello dimensionale o facet-based (a faccette e focus)- classificazioni dinamiche, ovvero tassonomie, generalizzate, ed

associabili a criteri di text mining che permettono di classificare automaticamente gli oggetti via via censiti

- search, browse e ricerche avanzate tra loro intersecabili

A corredo il metamodello del catalogo descritto:

6 Errore. Nel documento non esiste testo dello stile specificato.

A riguardo delle tassonomie dinamiche e’ stato compiuto un interessante esperimento.

Una delle tassonomie, gia’ utilizzate sul vecchio infodir, e’ stata pesantemente ridiscussa dai 3 enti principali (Regione Piemonte, Citta’ di Torino e Provincia di Torino) per condividerla.

Per cui bisognava trovare un metodo per ricollocare, col minor dispendio possibile di tempo, gli oggetti catalogati dalla vecchia alla nuova tassonomia.

Per fare questo si e’ usato il text mining di SAS.

Abbiamo fatto lavorare il tool con la vecchia tassonomia, facendogli clusterizzare gli oggetti e tarando le regole per far si’ che “in automatico” il tool associasse gli oggetti il piu’ possibile alle classificazioni manuali gia’ esistenti.

Errore. Nel documento non esiste testo dello stile specificato. 7

Il test di verifica era appunto confrontare la collocazione degli oggetti tra la classificazione manuale gia’ a disposizione, e quella automatica fatta dal tool.

Quanto piu’ i cluster erano simili, tanto meglio avevano funzionato gli algoritmi automatici.

Raggiunto un livello di automazione oltre il quale non era possibile spingersi col tool, e verificata la sua rispondenza, abbiamo poi fatto lavorare il tool stesso sulla nuova classificazione, chiedendo agli utenti solo di verificare i cluster ottenuti.

8 Errore. Nel documento non esiste testo dello stile specificato.

Di seguito si approfondiscono i criteri di search, browse e ricerche avanzate tra loro intersecabili, adottati nel nuovo infodir.

La videata iniziale del nuovo infodir si presenta con 2 possibili punti di partenza per avviare ed affinare le ricerche:

- search libero- browse di N tassonomie- browse di M tipi di oggetto (basi dati,

applicativi, etc.)

Per ciascuna delle N tassonomie vengono visualizzati i primi 3 elementi di primo livello, con la possibilita’ per ciascuna di vedere gli altri elementi e gli altri livelli.

La figura seguente, che rappresenta una ricerca effettuata sulla vista “Citta’ di Torino” del nuovo infodir, sintetizza i concetti appena espressi:

Errore. Nel documento non esiste testo dello stile specificato. 9

Supponendo di partire dalla ricerca libera con il termine “imprese”, raggiungo la possibilita’ di specializzare ulteriormente la ricerca per:

- tassonomia- tipo oggetto- fase (singolo metadato, attributo, che permette di selezionare ad

esempio solo gli oggetti “in produzione”, trascurando ad esempio quelli in bozza o altra fase)

Di seguito si rappresenta quanto appena descritto:

Scegliendo ad esempio la divisione infrastrutture e mobilita’ all’interno della tassonomia “organizzazione Citta’ di Torino”, raggiungo un set sufficientemente limitato di oggetti censiti:

10 Errore. Nel documento non esiste testo dello stile specificato.

Errore. Nel documento non esiste testo dello stile specificato. 11

Esperienza di estrazione di conoscenza (i supertipi di entita’) con esempi tratti dall’uso delle gerarchie di entita’ PA geografiche (luogo, territorio, urbanistica)

Nel 2004, per valorizzare il patrimonio di metadati censiti, è stato sperimentato un metodo ed un tool a corredo di Infodir, che consentisse il raggiungimento dei seguenti principali obiettivi:

- addivenire ad un embrione di tassonomia dinamica, corredata da criteri like, per “raggiungere” i metadati per somiglianza dei nomi degli elementi delle tassonomie stesse

- consentire un mutuo scambio di inferenza tra le tassonomie utilizzate, in realtà costituite dagli schemi concettuali della Pubblica Amministrazione centrale, e i constraints presenti nelle strutture delle basi dati logiche censite

Per fare questo si sono implementate le tassonomie, intese come gerarchie di entità, afferenti alle entità principali della PA centrale:

- soggettoo fisico (persona fisica)

lavoratore• autonomo• dipendente

o pubblico• imprenditore

o giuridico (imprese)- cosa

o beneo documento

- geografiao luogoo territorioo urbanistica

Ciascun livello delle singole tassonomie ha associato un criterio di somiglianza che “pesca” dai metadati descrittivi tecnici delle componenti delle basi dati (tavole, campi).

Si sfruttano inoltre le relazioni tra le tassonomie/gerarchie, ad esempio:

12 Errore. Nel documento non esiste testo dello stile specificato.

- cittadino paga tributo (cittadino elemento della gerarchia soggetto fisico, tributo elemento della gerarchia bene)

per inferire dall’alto al basso relazioni tra gli oggetti censiti

Mutuamente, gli oggetti logico-fisici censiti delle basi dati, avendo tra di loro dei constraints, forniscono inferenza dal basso all’alto, quindi relazioni, tra gli elementi delle tassonomie/gerarchie.

Questa tecnica di inferenza tassonomico-ontologica attuata su infodir, consente, per ogni singolo concetto della PA, di verificare in quali basi dati questo concetto e’ fisicamente istanziato, come e’ correlato o correlabile sia top-down che bottom-up.

Di seguito gli esempi riferiti all’ontologia geografica (luogo, territorio, urbanistica), tratti dal vecchio catalogo infodir.

Errore. Nel documento non esiste testo dello stile specificato. 13

14 Errore. Nel documento non esiste testo dello stile specificato.

Nella pratica, ogni livello della gerarchia (ad esempio la gerarchia U01_URBANISTICA) ha associato un criterio semi-automatico, di semplice ricerca sql-like, che “pesca” per somiglianza il concetto nei nomi e nelle descrizioni di tavole e campi.

Come nel caso immediatamente superiore, se viene selezionato il livello di gerarchia U04___COMUNE, l’analisi di impatto ottenuta consente di navigare nel metamodello del repository:

- risalendo dall’attributo all’archivio del database e vedere gli altri attributi

- risalendo alla base dati che contiene l’archivio e vedere gli altri archivi e relativi attributi

- risalendo alla collezione che contiene la base dati e da essa vedere altre basi dati, archivi, attributi ma anche servizi applicativi

La collezione, nel metamodello del repository di metadati infodir, e’ l’oggetto che contiene gli applicativi e le basi dati.

Errore. Nel documento non esiste testo dello stile specificato. 15

Ecco i 3 esempi di navigazione a ritroso appena descritti:

16 Errore. Nel documento non esiste testo dello stile specificato.

Errore. Nel documento non esiste testo dello stile specificato. 17

18 Errore. Nel documento non esiste testo dello stile specificato.

Sperimentazione di inferenza di conoscenza, ovvero i metodi e i tool applicati con l’universita’ di Milano Bicocca mappando gli schemi concettuali PA con gli schemi logici delle basi dati catalogate

Nel paragrafo precedente e’ stato illustrato, con l’esperienza descritta per i supertipi di entita’, come reperire, da un singolo concetto, tutte le istanze presso le basidati ove tale concetto e’ presente.

In questo paragrafo si illustra l’esprerienza inversa, ovvero da una struttura logico-fisica di basedati come derivare tutti i concetti che tale struttura contiene

I due schemi seguenti sintetizzano le sperimentazioni effettuate:

Errore. Nel documento non esiste testo dello stile specificato. 19

20 Errore. Nel documento non esiste testo dello stile specificato.

Errore. Nel documento non esiste testo dello stile specificato. 21

Nella pratica, e’ stata realizzata una metodologia atta a:

- mappare gli oggetti catalogati con ontologie (schemi concettuali) esistenti e afferenti alla PA centrale, con l’uso di criteri di ”somiglianza” tra i nomi e le descrizioni di archivi ed attributi rispetto ai nomi delle entita’ concettuali presenti nelle gerarchie di concetti validi per la PA

- integrare (“sommare”) ed astrarre gli schemi concettuali “inferiti”, tenendo conto rispettivamente delle classificazioni multilivello (organizzazione ente, materia) e dei livelli gerarchici delle entita’ della PA

In ALLEGATO 1 si riporta un estratto dell’analisi tecnica degli algoritmi per il mapping concettuale.

22 Errore. Nel documento non esiste testo dello stile specificato.

Ipotesi di generalizzazione al web dei metodi e tool sperimentati, quindi la nostra idea di web semantico

A seguito dell’esperienza condotta insieme all’Universita’ di Milano Bicocca, ci siamo posti alcune riflessioni sul come generalizzarla.

Poichè il focus è sui metadati descrittivi (nomi, descrizioni) ai quali si applicano i criteri di ricerca, cosa c’e’ di diverso tra:

- una struttura dati (tavola, campo)- un servizio descritto in un portale (servizio, componente

architetturale)- altro oggetto, ad esempio un filmato

In altre parole, e’ possibile sofisticare i criteri (ad esempio usando il text mining) per far si che

- incrementando la base di conoscenza concettuale- facendo “lavorare” la base di conoscenza e i criteri su qualsiasi

oggetto di portale

si giunga a quella che e’ la nostra interpretazione di web semantico ?

I prossimi disegni sintetizzano la nostra idea:

Errore. Nel documento non esiste testo dello stile specificato. 23

24 Errore. Nel documento non esiste testo dello stile specificato.

Errore. Nel documento non esiste testo dello stile specificato. 25

Uso di ontologie (schemi concettuali arricchiti) per la navigazione web nei portali

L’idea che fa seguito al lavoro svolto sinora con i metodi e i tool descritti, consentirebbe di fornire ai power-user degli enti PA piemontesi uno strumento basato su mappe concettuali.

L’ipotesi di fondo e’ quella di generalizzare i metodi e i tool descritti, realizzando un “prodotto logico”

Tale prodotto logico deve avere una interfaccia grafica simile a quella di tool come ad esempio CMAP, e deve essere costituito da:

- una parte alta che contiene librerie di schemi concettuali (ad esempio della PA)

- una parte bassa costituita da oggetti censiti nei portali (ad esempio oggetti della PA, di varia tipologia, basi dati, servizi, prodotti, filmati, etc.)

E’ generalizzabile, ovvero, coerentemente con la materia della quale si vuole fornire una interfaccia semantico-ontologica, e’ possibile ad esempio:

- inserire in parte alta una libreria di schemi concettuali di sistemi gestionali

- inserire in parte bassa i metadati degli oggetti di un portale di e-commerce

Il prodotto deve essere in grado di inferire conoscenza, con le tecniche sperimentate e descritte prima, sia bottom-up che top-down.

Con queste premesse, ecco quali sono i punti deboli, da rinforzare, dei tool sviluppati:

- il tool grafico attivabile, cioe’ erwin, che anche se consente export xml di strutture dati e metadati non e’ adatto al web, non consente entita’ cliccabili con ipertesti

- meglio altre realizzazioni quali http://cmap.ihmc.us/

26 Errore. Nel documento non esiste testo dello stile specificato.

Inoltre, se i metadati sono poco descritti, la riconcettualizzazione “per somiglianza” e’ debole.

E’ possibile attuare alcune leve migliorative:- migliorare la qualita’ dei metadati aumentando le descrizioni- aumentare la base di conoscenza concettuale del tool, la sua

intelligenza, la precisione del retrieval sia sui nomi che sulle descrizioni

- consentire, oltre alla funzione gia’ esistente di import nuove gerarchie di generalizzazione, anche

o import nuova base di conoscenza, ad esempio PA-egov o import schemi

import entita’

import attributi

import relazioni

A questo punto, se la base di conoscenza “alta” utilizzata per l’inferenza dei concetti e’ generalizzabile, e’ possibile fare riuso anche della parte “bassa”, ovvero i metadati descrittivi, che oltre a tavole e campi possono essere qualsiasi oggetto censito in un portale, purche’ corredato da metadati descrittivi Dublin Core.

Errore. Nel documento non esiste testo dello stile specificato. 27

Cosi’ come i criteri di retrieval agiscono su:- nomi tavole- descrizioni tavole- nomi campi- descrizioni campi

generalizzando possiamo far agire i criteri su- nomi oggetti padre- descrizioni oggetti padre- nomi oggetti figlio- descrizioni oggetti figlio

Padre e figlio possono essere oggetti metadatati e correlati censiti in un portale, ad esempio servizi e prodotti della PA.

Si vorrebbe quindi sperimentare la strada della generalizzazione dei tool realizzati con l’universita’ di Milano Bicocca (librerie di schemi concettuali usate per le inferenze sui metadati descrittivi degli oggetti dei portali):

- sofisticando i criteri di retrieval con metodi e tools di text mining- “accorciando” se necessario le stringhe di retrieval per migliorare

il retrieval stesso sui nomi degli oggetti, ove mancano le descrizioni

- arricchendo le gerarchie di concetti, e le relazioni, anche al di sotto del valore soglia, fino ad utilizzare per il retrieval le entita’ (e i criteri di retrieval associati) degli schemi base PA

- arricchendo le gerarchie di concetti, e le relazioni, con gli schemi PA-egov di Arianna-Diviana

28 Errore. Nel documento non esiste testo dello stile specificato.

Altre possibili generalizzazioni ed evoluzioni dei metodi descritti

Analizzando le idee di generalizzazione sopra descritte, ed altre realizzazioni presenti nel web, e’ possibile classificare le soluzioni ontologico-semantiche in livelli, precisando che il numero di livello crescente NON vuole essere indice di miglior soluzione:

1) livello ne’ ontologico ne’ semantico, cioe' sviluppare la navigazione tassonomica sotto forma di mappe concettuali, come in questo esempio (http://oasisvilweb01.csi.it/RelationBrowser/RelationBrowser.html ).Tale livello per cosi’ dire "alla moda" e' solo un altro modo di vedere rappresentata una tassonomia con i suoi oggetti collegati, non aggiunge nulla in termini di intelligenza

Un esempio migliore, che consente di percorrere tutte le strade possibili per navigare tra tassonomie usando gli oggetti come correlazioni (o viceversa) e’ la seguente:http://mappadelpotere.casaleggioassociati.it/ applicandola ad esempio alle tassonomie e agli oggetti di infodir http://www.sistemapiemonte.it/mrspin/searchidir?type=search&term_query=&xsl=areesp3&isoptimized=on&qu_ruoliPubblici_idr=7&public=true&qu_type=obj

2) livello solo ontologico:http://www.diviana.net http://arianna.diviana.net/Arianna/default.asp

3) livello solo semanticohttp://www.expertsystem.net/

4) livello ontologico e semantico, ovvero utilizzo uno o piu' schemi entity relationship esistenti, e in base a criteri di somiglianza cerco nel portale gli oggetti che somigliano alle entita' dello schema. Con un esempio, se dico cittadino<paga>tributo, cerco oggetti che somigliano a cittadino e quelli che somigliano a tributo, sfrutto la relazione che gia' conosco (paga) e metto in relazione le 2 famiglie di oggetti. Questo e' cio' che gia’ abbiamo fatto con le sperimentazioni sulle basi dati insieme al professor Batini (vedi http://www.iseing.org/egov/eGOV05/Source%20Files/Papers/CameraReady-7-P.pdf ).

In tali sperimentazioni descritte e' l'ontologia che prevale sulla semantica, cioe' ho delle ontologie ricche e della semantica povera (criteri sql like)

Errore. Nel documento non esiste testo dello stile specificato. 29

La semantica povera non e’ sufficientemente bilanciata rispetto alle ontologie, cioe’ non riesce ad arricchire ulteriormente quest’ultime.

E’ necessario creare meccanismi di autoapprendimento dove i criteri semantici piu’ sofisticati “creano” o perfezionano le ontologie esistenti.

In altre parole un portale ontologico-semantico generalizzato, ovvero un qualcosa che ha nella parte alta le ontologie ovvero gli schemi concettuali entity-relationship, e nella parte bassa gli oggetti dei portali. Le ontologie a disposizione guidano la parte bassa, ma anche la parte bassa con opportuna inferenza semantica (vedi Cogito) e' in grado di "apprendere" nuove ontologie da regalare alla parte alta.

30 Errore. Nel documento non esiste testo dello stile specificato.

ALLEGATO 1: estratto dell’analisi tecnica degli algoritmi per il mapping concettuale

1-GENERAZIONE ENTITA'

input:a) le entita' delle ontologieb) le tavole della base dati

output:x) le tavole "pescate" dall'algoritmoy) le entita' delle ontologie corrispondenti alle tavole pescate in x

ALGORITMO: - PER OGNI ENTITA' DELLE ONTOLOGIE (LOOP) - PER OGNI TAVOLA DELLA BASE DATI - SE C'E' ALMENO 1 ATTRIBUTO DELLA TAVOLA CHE SIA"SOMIGLIANTE" AL NOME DELL'ENTITA' DELL'ONTOLOGIA - SCELGO L'ENTITA' - ENDIF - END LOOP - END LOOP

SOMIGLIANTE = LIKE "STRINGA" IN NOME E/O DESCRIZIONE ATTRIBUTO------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------2-GENERAZIONE GENERALIZZAZIONI

input:a) le entita' trovate in generazione entita'b) le tavole trovate in generazione entita'

output:x) le generalizzazioni delle entita'y) le generalizzazioni delle tavole

algoritmo:- osservando le generalizzazioni complete delle entita' delle ontologie,riporto quelle presenti nelle entita' selezionate in generazione entita'- per analogia, le tavole corrispondenti alle entita' "sposano" le medesimegeneralizzazioni

Con un esempio astratto, se ho una ontologia completaA B C D

Errore. Nel documento non esiste testo dello stile specificato. 31

E

se precedentemente ho selezionato A, B, D le generalizzazioni trovatesarannoA B D

Se avevamo corrispondenza tra A e TAV1, B e TAV2, D e TAV4, avremo lagerarchia di generalizzazione tavole:TAV1 TAV2 TAV4------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3-GENERAZIONE RELAZIONI

input:a) le entita' selezionate ai passi precedenti

output:x) le relazioni tra le entita' selezionate

algoritmo:- per ogni entita' delle ontolologie selezionata (loop) - cerco nei 500 schemi le entita' (dei 500 schemi) - con riferimento all'esempio astratto di cui sopra avremo adesempio: per A: A1,A2,...AN per B: B1,B2,..BN per C: C1,C2,...CN per D: D1,D2,...DN per E: E1,E2,...EN - supponiamo di trovare A1-B4 (A-B) A7-B5 (A-B) B3-D9 (B-D) C8-C4 (C-C) C6-D2 (C-D) C1-E8 (C-E) - in casi di molteplicita' scelgo 1 sola relazione, piu' o menoarbitrariamente... - nell'esempio scegliero': A-B (una delle 2 relazioni trovate) B-D C-D C-E non scelgo ma potrei farlo C-C

32 Errore. Nel documento non esiste testo dello stile specificato.

- il cammino relazionale selezionato sara' A-B-D-C-E------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------4-GENERAZIONE ATTRIBUTI

input:a) le entita' selezionate in passo 1b) le tavole selezionate in passo 1c) gli attributi delle tavole selezionate in passo 1 (vedasi algoritmo delpasso 1)

output:x) per ciascuna entita' i suoi attributi

algoritmo:importo IN ciascuna entita' gli attributi delle tavole corrispondenti

Con il solito esempio, se avevamoA corrisponde a TAV1 (CAMPO1, CAMPO2)B corrisponde a TAV2 (CAMPO3, CAMPO4)D corrisponde a TAV4 (CAMPO5, CAMPO6)

l'output sara'A (CAMPO1, CAMPO2)B (CAMPO3, CAMPO4)D (CAMPO5, CAMPO6)------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------5-GENERAZIONE RELAZIONI (PASSO ADDITIVO FATTO SUI CONSTRAINTS FISICI)

input:a) le tavole pescate al punto 1 di generazione entita'

output:x) le tavole selezionate unite dagli eventuali constraints, piu' eventualitavole che si frappongono per costituire il cammino dei constraints

algoritmo:- con un tool (generalmente erwin) si effettuano sulla base dati operazionidi "infer relationship" considerando: - chiavi primarie e chiavi straniere esistenti - indici univoci - somiglianza di nomi campi- si derivano i constraints (relazioni fisiche)

Con un esempio, se avevamo individuato precedentemente le tavole TAV1, TAV2

Errore. Nel documento non esiste testo dello stile specificato. 33

e TAV4, il cammino relazionale fisico ottenuto dai constraints potrebbeessere: TAV1-tav5-TAV4-TAV2 (tav5 viene introdotto perche' necessaria alcammino per unire TAV1 e TAV4)------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------6-VERIFICA CON REFERENTE DATI

input:a) tutto il materiale prodotto nei passi precedentib) le indicazioni del referente dati che in generale saranno di 2 tipi: - mi aspettavo venisse pescata ANCHE questa tavola - NON mi aspettavo venisse pescata quest'altra tavola

output:x) il modello dati con i concetti in piu' e/o in meno verificati colreferente dati

algoritmo:- per ogni entita' pescata impropriamente, la rimuovo (il criterio disomiglianza spara nel mucchio)- per ogni entita' mancante, la aggiungo con la consulenza del referentedati, corredandola di attributi e relazioni

34 Errore. Nel documento non esiste testo dello stile specificato.

ALLEGATO2: ESPERIMENTI IN CORSO

Migrazione patrimonio schemi repostory PA centrale e PA locale piemontese dai cataloghi, da Erwin e da UML verso OWLUso di Protege come “Caronte”, veicolo di migrazione verso OWL

Export in OWL/XML (OWL2Prefuse) verso Prefuse, tool free open source per disegno di interfaccia grafica ontologico-semantica, o verso altri strumenti in fase di individuazioneCon l’obiettivo di arrivare alle query ontologiche sui dati

•QUONTO – prof. Lenzerini - http://www.dis.uniroma1.it/quonto-demo/•JENA•…Tenendo conto che ogni entita’ di uno schema ontologico puo’ sottendere a N basi

dati, ogni base dati sappiamo sottende a M tavole

Errore. Nel documento non esiste testo dello stile specificato. 35

36 Errore. Nel documento non esiste testo dello stile specificato.

Errore. Nel documento non esiste testo dello stile specificato. 37

38 Errore. Nel documento non esiste testo dello stile specificato.

Errore. Nel documento non esiste testo dello stile specificato. 39

40 Errore. Nel documento non esiste testo dello stile specificato.

Errore. Nel documento non esiste testo dello stile specificato. 41

42 Errore. Nel documento non esiste testo dello stile specificato.