Esperimenti di estrazione e correlazione di concetti bis

Post on 13-Jun-2015

302 views 0 download

Transcript of Esperimenti di estrazione e correlazione di concetti bis

Esperimenti di estrazione e correlazione di concetti

A cura di Riccardo Grosso

CSI-Piemonte

Esperimenti di estrazione e correlazione di concetti

• Estrarre e derivare conoscenza dai metadati descrittivi degli oggetti dei portali

• Utilizzare criteri di somiglianza per l’estrazione della conoscenza

Esperimenti di estrazione e correlazione di concetti

• Cosa dicono i guru (fonte Zach Wahl)• La nostra interpretazione• Quali strade percorrere ? • Le esperienze fatte coi tool Bicocca in ambito

strutture dati concettuali e fisiche• I punti deboli• Le migliorie per aumentare la “intelligenza”• Le migliorie per generalizzarlo al web

Cosa dicono i guru (fonte Zach Wahl)

Cosa dicono i guru (fonte Zach Wahl)

La nostra interpretazione applicata alle basi dati

• People– Soggetto

• Places– Geografia

• Luogo • Territorio • Urbanistica

• Things– Bene– Documento

GEOGRAFIA LUOGOGEOGRAFIA LUOGO

GEOGRAFIA TERRITORIOGEOGRAFIA TERRITORIO

GEOGRAFIA URBANISTICAGEOGRAFIA URBANISTICA

BENE (COSA)BENE (COSA)

DOCUMENTO (COSA)DOCUMENTO (COSA)

SOGGETTO FISICOSOGGETTO FISICO

SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)

SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)

Quali strade percorrere ?

• Nelle precedenti trasparenze abbiamo visto come da un singolo concetto (es. SOGGETTO) e’ possibile, con criteri di somiglianza, verificare in quali strutture dati il concetto e’ presente

• Nelle prossime vedremo come, per ogni struttura dati, con gli stessi criteri di somiglianza, e’ possibile risalire ai concetti che la struttura dati contiene

Quali strade percorrere ?

• Ma se il focus e’ sui metadati descrittivi (nomi, descrizioni) ai quali si applicano i criteri di ricerca, cosa c’e’ di diverso tra:– Una struttura dati

• (tavola, campo)

– Un servizio descritto in un portale• (servizio, componente)

– Un filmato• (collezione, prodotto= filmato)

Quali strade percorrere ?

• In altre parole, e’ possibile sofisticare i criteri (usando il text mining ?) per far si che– Incrementando la base di conoscenza concettuale

– Facendo lavorare la base di conoscenza e i criteri su qualsiasi oggetto di portale

• Si giunga al web semantico ?• Meglio non affrettare le conclusioni…

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

CONCETTUALE

FISICO

Soggetto

Cittadino

Soggetto giuridico

Soggetto fisico/Persona fisica

Bene

Tributopaga

like “cittadin” like “tribut”

DATA BASE

NOME,DESCTAVOLA

NOME,DESCCAMPO

(Da 1 database recupero N concetti)

FISICO

CONCETTUALE

Agricoltura

Bovini

PastoriziaAllevamento

Sanità

Vaccinazioni

Text mining retrieval

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Soggetto

Cittadino

Soggetto giuridico

Soggetto fisico/Persona fisica

Bene

Tributopaga

Text mining retrieval

Oggetti del portale

PORTALEMetadati testualidegli oggetti

CONCETTUALE

FISICO

Agricoltura

Bovini

PastoriziaAllevamento

Sanità

Vaccinazioni

Text mining retrieval

Oggetti del portale

Generalizzazione

Esempio di schema nel modello Entita’ Relazione

PersonaCodice

Cognome

UomoDonna

ComuneCodiceNomenato

ProvinciaCodiceNome

in in

Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome

RegioneCodiceNome

Entita’Relazion

e

Attributo

Dal Cobol,al modello

Entita’ Relazione al linguaggio naturale

PersonaCodice

Cognome

UomoDonna

ComuneCodiceNomenato

ProvinciaCodiceNome

In inRegioneCodiceNome

• DATA DIVISION.

• WORKING-STORAGE SECTION.

• 01 PERSONA.

• 05 UOMo.

• 10 COD-UOMO PIC X(5).

• 10 DESC-UOMO PIC X(80).

• 05 DONNA REDEFINES UOMO.

• 10 TIPO-RECORD PIC X.

• 10 COD-DONNA PIC 9(5).

• 10 DESC-DONNA PIC X(80).

• 01 AMMINISTRAZIONE.

• 05 REGIONE.

• 10 COD-REGIONE PIC X(3).

• 10 COD-DUMMY PIC X(6).

• 10 DES-REGIONE PIC X(80).

• 05 PROVINCIA REDEFINES REGIONE.

• 10 COD-REGIONE PIC X(3).

• 10 COD-PROVINCIA PIC X(3).

• 10 COD-DUMMY2 PIC X(3).

• 10 DES-PROVINCIA PIC X(80).

• 05 COMUNE REDEFINESREGIONE.

• 10 COD-REGIONE PIC X(3).

• 10 COD-PROVINCIA PIC X(3).

• 10 COD-COMUNE PIC X(3).

• 10 DES-COMUNE PIC X(80).

• 01 PERSONA-AMMINISTRAZIONE.

• 05 LEGAME.

• 10 COD-PERSONA PIC X(5).

• 10 COD-AMMIN PIC X(3).

Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome

Le esperienze fatte coi tool Bicocca in ambito strutture dati

concettuali e fisiche• Versione client• Versione web (necessario XP 32-

bit)• Screenshot del tool

» screenshot.ppt

I punti deboli

• Il tool grafico scelto, cioe’ erwin– Adatto per strutture dati– Non adatto al web (non consente entita’

cliccabili - ipertesti)– Meglio http://www.musicplasma.com – Meglio ancora http://cmap.ihmc.us/

I punti deboli

• Se i metadati sono poco descritti, la riconcettualizzazione e’ debole

• Quali leve– Migliorare la qualita’ dei metadati aumentando

le descrizioni– Aumentare la base di conoscenza concettuale

del tool, la sua intelligenza, la precisione del retrieval sia sui nomi che sulle descrizioni

I punti di forza del tool

• Import gerarchie

• Presenza sul web

• Java / MySql (open source oriented)

Le migliorie per aumentare l’intelligenza

• import base di conoscenza (PAC, PAL, PAegov, nuova base di conoscenza)– import schemi

• import entita‘– Import attributi

• import generalizzazioni (gia' esistente)

• import relazioni

Parentesi su PAegov

• http://www.diviana.net– http://arianna.diviana.net/Arianna/default.asp

• Registrarsi per vedere i cataloghi oggetti e servizi

Le migliorie per generalizzarlo al web

• A questo punto, se la base di conoscenza "alta" utilizzata per la riconcettualizzazione e' generalizzabile, e' possibile fare riuso anche della parte "bassa" della base di conoscenza, cioe' i metadati descrittivi di tavole e campi.

Le migliorie per generalizzarlo al web

• Cosi' come i criteri di retrieval agiscono su

• - nomi tavole• - descrizioni tavole• - nomi campi• - descrizioni campi• generalizzando possiamo far agire i

criteri su• - nomi <OGGETTI PADRE>• - descrizioni <OGGETTI PADRE>• - nomi <OGGETTI FIGLIO>• - descrizioni <OGGETTI FIGLIO>

Le migliorie per generalizzarlo al web

• PADRE e FIGLIO possono essere oggetti metadatati e correlati censiti in un portale, ad esempio:– SERVIZIO e COMPONENTE

ARCHITETTURALE

Conclusioni

• Si vorrebbe sperimentare la strada della generalizzazione del tool Bicocca (librerie di schemi concettuali usate per il retrieval sui metadati descrittivi degli oggetti dei portali)

• Sofisticando i criteri di “retrieval” con metodi e tools di text mining

• “Accorciando” se necessario le stringhe di retrieval per migliorare il retrieval stesso sui nomi degli oggetti, ove mancano le descrizioni

Conclusioni

• Arricchendo le gerarchie di concetti, e le relazioni, anche al di sotto del valore soglia, fino ad utilizzare per il retrieval le entita’ (e criteri di retrieval associati) degli schemi base PA

• Arricchendo le gerarchie di concetti, e le relazioni, con gli schemi PA egov di Arianna-Diviana