La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh

27
assificazione e la struttura relazionale nel Thesau l’esperienza di EARTh Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO Italian IA Summit 24 febbraio 2006

description

Italian IA Summit. La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh. Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO. 24 febbraio 2006. Premessa. Consiglio Nazionale delle Ricerche. Environmental Knowledge Organisation Laboratory. - PowerPoint PPT Presentation

Transcript of La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh

Page 1: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh

Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO

Italian IA Summit

24 febbraio 2006

Page 2: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

• Aspetti generali della terminologia ambientale

• Il progetto del CNR relativo allo sviluppo di un thesaurus generale per l’ambiente (EARTh)

• La struttura di classificazione e il modello semantico di EARTh

• La struttura delle relazioni di EARTh

• Il contenuto terminologico di EARTh

• SuperThes: il software utilizzato per la gestione del thesaurus

Premessa

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 3: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Nella società attuale “l’ambiente” riveste un’importanza cruciale:

• la nascita continua di nuove tematiche (es. l’inquinamento biologico)

• la rapida evoluzione delle conoscenze nel settore ambientale • la creazione e l’utilizzo di nuove tecnologie

Alcune considerazioni generali sulla terminologia ambientale

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

La dinamicità di questo dominio si riflette anche nello sviluppo della terminologia ambientale

Page 4: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

L’ambiente è un dominio multidisciplinare.Ogni termine può essere definito in modi differenti a seconda del contesto in

cui viene considerato.

Per esempio il termine “benzene”:

• un esperto di pianificazione ambientale può considerarlo come una sostanza inquinante che entra nel ciclo biologico creando danni potenziali all’ambiente

• un biologo può considerarne la tossicità e i differenti percorsi attraverso i quali può entrare in un organismo.

• un ingegnere lo considererà come un combustibile per un motore a combustione

• un chimico potrà vederlo come un appartenente a una certa classe di composti chimici

• ecc.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Alcune considerazioni generali sulla terminologia ambientale (2)

Page 5: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Problemi di sovrapposizione semantica Ad esempio: conservazione ambientale, protezione ambientale, salvaguardia ambientale

Fattori bioculturali L’ambiente può essere concettualizzato in modi differenti a seconda dei diversi punti di vista culturali. Esiste una forte relazione tra il linguaggio, la conoscenza e l’ambiente (vedi come es. le iniziative di Terralingua, http://www.terralingua.org).

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Alcune considerazioni generali sulla terminologia ambientale (3)

Page 6: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Il bisogno di un sistema capace di razionalizzare la gestione dell’informazione ambientale è un argomento molto dibattuto.

Un’iniziativa importante sulla terminologia ambientale è rappresentata da ECOinformatics/ECOTerm (http://ecoinfo.eionet.eu.int/).

Questa iniziativa nasce per “mettere insieme i maggiori fornitori di terminologia ambientale per discutere sullo status delle loro terminologie, come vengano applicate le nuove tecnologie e come queste risorse possano essere rese più valide dalla comunità attraverso l’integrazione e la collaborazione reciproche”.

Vede coinvolte le seguenti istituzioni (UNEP, FAO, EEA, US EPA, USGS, JRC, CCLRC, CNR, UBA).

Si sono già tenuti due incontri a Ginevra and Berlino, il prossimo sarà quest’anno a Roma.

ECOTerm

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 7: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Il contributo del CNR nella terminologia ambientale/la nascita di EARTh

UNEP

ThesaurusInfoterra

1990

CNR

EARTh2002-2005

CNR/UBA per

EEA

GEMET1999

NBOI per

EU-EEA TF

MET1998

NBOI/CNR/UBA

QuadrilingualThesaurus

1995

EU

MultilingualDescriptor

System1983

Livello

Thesauri ambientali

UNEP

EnVoc1997

contenuto aggiornato e rivistonuova struttura

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 8: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Stiamo lavorando a un nuovo modello di thesaurus che possa essere applicato al dominio ambientale.

Il thesaurus dovrà:

L’idea

assicurare l’esportazione del thesaurus in differenti applicazioni tecnologiche.

rappresentare una mappa semantica e terminologica aggiornata del dominio ambientale;

permettere vari livelli di comprensione e applicazione per utenti con differenti caratteristiche ed esperienza;

essere uno strumento ben strutturato e rifinito, capace di combinare una solida base concettuale alla flessibilità richiesta dalle diverse applicazioni;

tenere conto della dimensione culturale dell’organizzazione della conoscenza;

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 9: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

L’architettura di EARTh

Relazioni del thesaurus– differenziazione e migliore espressione semantica delle relazioni

– in particolare verrà rinforzata, la struttura trasversale delle RT (il thesaurus come connettore semantico)

Struttura a matrice semantica – struttura verticale basata su un sistema di categorie

– organizzazione tematica da sviluppare per applicazioni specifiche

Software SQL, Unicode, Client/Server

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 10: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Lo schema di classificazione di EARTh

Lo schema di classificazione di EARTh è basato su un sistema di categorie.

Seguendo una prospettiva dal basso verso l’alto, i termini possono essere analizzati secondo una scala progressiva gerarchica. In questa scala le caratteristiche concettuali sono via via abbandonate a favore di una prospettiva “intensionale” (mentre in una prospettiva “estensionale” il numero di cose associate all’intensione aumenta). Si raggiunge così il massimo livello di genericità.

Le categorie rappresentano il vertice di questa struttura verticale.

EARTh: categorie di primo e secondo livello

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 11: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Lo schema di classificazione di EARTh:perché adottare un approccio per categorie?

L’approccio per categorie assicura:

•una base concettuale stabile per l’organizzazione della conoscenza;

•uno strumento per classificare i concetti partendo dal loro significato di base, riferito alla logica inerente al sistema;

•un forte controllo sulla disposizione semantica;

•applicabilità ai differenti domini, enfatizzando l’interdisciplinarietà.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 12: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Il modello a matrice di EARTh la struttura verticale

La struttura verticale

La struttura verticale di EARTh è basata su differenti livelli classificatori e gerarchici.

La struttura verticale è uno strumento operativo che, fornendo un interpretazione categoriale al significato del termine e posizionandolo in un albero semantico, mira a orientare l’utente verso le caratteristiche “essenziali” della semantica del termine.

Questo, però, non limita l’analisi concettuale dei termini in una visione statica e univoca.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 13: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

L’organizzazione tematica per le applicazioni

Il modello consente la possibilità di sviluppare una ulteriore organizzazione della terminologia. La struttura verticale può essere completata da un “micro-mondo” di termini connessi tematicamente (temi).

Mentre la struttura ad albero tende a spargere i termini nelle loro categorie di riferimento, i temi accorpano i termini secondo la loro prospettiva espressa dai temi stessi.

Questo modello deve anche permettere la rappresentazione di un significato secondo accezioni secondarie.

Il modello a matrice di EARTh Temi

suolo - soil

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 14: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

La rappresentazione del significato: il caso del “Benzene”

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

I temi in EARTh forniscono una prospettiva aggiuntiva per l’interpretazione del termine e agiscono come strumenti per rappresentare altri tratti semantici.

Tema SALUTE benzene come sostanza tossica.

Tema INQUINAMENTO benzene come inquinante.

Tema SICUREZZA benzene come sostanza pericolosa.

“il benzene è tossico”“il benzene è inquinante”“il benzene è pericoloso”

“Il benzene è una sostanza organica aromatica”.

aromatica, organica, sostanza sembrano essere i tratti semantici “essenziali”, che non possono essere ignorati (nella concettualizzazione occidentale attuale)

tossico, inquinante, pericoloso sono tre tratti “tipici”. Hanno un peso minore nella rappresentazione del significato, anche se rappresentano proprietà importanti nel contesto ambientale.

Page 15: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Il modello a matrice di EARTh – il caso “Benzene”

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 16: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Relazioni semantiche nei thesauri tradizionali: alcune limitazioniI thesauri tradizionali forniscono una serie limitata di relazioni fra i termini, distinguendo solo tra relazioni gerarchiche, relazioni associative e relazioni di equivalenza.

Inoltre le relazioni nel thesaurus sono spesso applicate in modo incongruo. Questo causa ambiguità nell’interpretazione e può dare luogo a strutture semantiche imprevedibili.

Forse la relazione gerarchica generica è la più abusata. Molti thesauri esistenti forniscono relazioni targate come BT/NT ma potrebbero essere interpretate più come relazioni di tipo associativo.

Monitoraggio Riciclaggio

NT Tecnica di monitoraggio NT Percentuale di riciclaggio

(GEMET, 1999) (GEMET, 1999)

Molte relazioni sono indicate come associative, ma la loro natura non viene specificata.

Telerilevamento Gestione della qualità dell’aria Eutrofizzazione

RT Cartografia RT Qualità dell’aria RT Reflui

(EnVoc, 1997) (EnVoc, 1997) (EnVoc, 1997)

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 17: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Perfezionamento della struttura relazionale del thesaurus

Una delle soluzioni comunemente proposte per superare le limitazioni, prevede la reingegnerizzazione dei thesauri tradizionali in sistemi provvisti di un network esteso di relazioni ben definite.

L’incremento delle relazioni del thesaurus:

• supporta un controllo semantico migliore

• mostra nuove possibilità per il recupero delle informazioni

• può essere usato per il processamento automatico.

In EARTh, la realizzazione di un insieme di relazioni semantiche è attualmente in costruzione. Le relazioni standard saranno arricchite con sottotipi, di cui sarà specificato il contenuto semantico. Le strutture linguistiche esprimeranno le relazioni semantiche.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 18: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Relazioni gerarchiche

Gli standard per i thesauri e la letteratura scientifica includono tre tipologie di relazioni gerarchiche: “Genere-specie”, “Parte-tutto” e “Esemplificativa”, che convergono in una generica “relazione gerarchica”.

In EARTh le relazioni genere-specie, parte-tutto ed esemplificativa saranno differenziate. Si cercherà anche di identificare per ognuna di esse differenti sottotipi.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 19: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Applicazione delle etichette di snodo

Le etichette di snodo indicheranno l’uso dei diversi criteri di suddivisione nelle relazioni gerarchiche generiche.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 20: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Relazioni associative

Specificare e incrementare relazioni associative permetterà di sviluppare una struttura a rete che enfatizzi il sistema di interrelazioni, i legami “connettivi” che limitino il grado di separazione dal campo concettuale e che non possono essere rappresentati dal modello ad albero tassonomico-gerarchico (fondamentale nel dominio ambientale).

Le relazioni associative coprono un insieme di relazioni eterogeneo e indifferenziato. Possono esprimere molti tipi di associazione di carattere non gerarchico tra i termini.

Le ISO 704 definiscono come relazioni che “esistono quando un collegamento tematico può essere stabilito tra concetti in virtù dell’esperienza”.

In questo lavoro si proverà a specificare la natura delle relazioni e a differenziare le RT in sottotipi.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 21: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Relazioni di equivalenza

La sinonimia si riferisce a una somiglianza nel significato. È stata anche definita come una interscambiabilità fra termini, nonostante sia molto difficile pensare all’esistenza di una sinonimia assoluta o perfetta in presenza di interscambiabilità in tutti i contesti.

Le varianti lessicali sono parole differenti utilizzate per la stessa espressione e derivano dalle variazioni morfologiche e grammaticali.

La categoria dei quasi-sinonimi non verrà inclusa per adesso nel sistema.

Le relazioni di equivalenza coprono almeno le tipologie di base seguenti: sinonimi, varianti lessicali e quasi-sinonimi. “Veri” sinonimi e varianti lessicali saranno distiniti r verranno identificati i diversi sottotipi.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 22: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Un altro obiettivo da raggiungere è assicurare una alta modularità del sistema.

Non tutti gli utenti sono interessati nelle sottili distinzioni delle relazioni del thesaurus.

Sarà possibile navigare nella struttura del thesaurus per differenti livelli, a partire dalla versione tradizionale della struttura relazionale del thesaurus.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Portabilità per differenti utenti

Page 23: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

La raccolta e la selezione dei termini di EARTh

Il nostro obiettivo è quello di produrre una mappa semantica del dominio ambientale aggiornata e valida.

La fonte principale (circa 4000 termini selezionati) of termini relativi all’ambiente è GEMET-General European Multilingual Environmental Thesaurus (1999) sviluppato da CNR-EKOLab e UBA-Umweltbundesamt per l’Agenzia Ambientale Europea.

Altre fonti sono (la base terminologica è di circa 20.000 termini).

fonti di terminologia ambientale generale – UN Environment and Development (1992)

fonti di terminologia di domini specifici– Thesaurus Italiano of Scienze della Terra (2000)

– Terminologia Inland Water (2001)

– Terminologia Snow and Ice (2003)

– Thesaurus for Emergency and Disasters (1998/2003)

– Terminologia Remote Sensing (2004)

– Altri documenti di riferimento in campi specifici o relativi alla scienza contemporanea (teoria del caos, complessità) o relativi alla diversità bioculturale.

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 24: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Il contenuto terminologico di EARTh

Al momento EARTh contiene circa 7.500 termini già selezionati e organizzati

~ 1.500 termini sono relativi alla pressione ambientale (es. attività industriali e agricole).

~ 2.500 termini descrivono lo stato dell’ambiente (es. i componenti e i processi naturali).

~ 1.000 termini sono relativi all’impatto ambientale (es. rifiuti, inquinamento, perdita di biodiversità).

~ 2.500 termini riguardanti temi sociali (es. misure legislative, educazione ambientale, ricerca).

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 25: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

SuperThes è un software di gestione del thesaurus; realizzato da TBHS e finanziato nel quadro di una cooperazione internazionale tra CNR, UBA-A, UBA-D e TBHS.

Si basa su una tecnologia per basi dati open source client-server DB (Interbase-Firebird)Per piccole istallazioni, client e server possono risiedere nello stesso computer.

Supporta l’Unicode e immagazzina i dati in formato UCS-2.Vi sono predefiniti tutti I linguaggi delle ISO 639-1.

Prospettive e attività in corso:•Visualizzatore per thesauri SuperThes-based•Interfaccia web per thesauri SuperThes-based•Ulteriore espansione delle capacità multilingue (selezione, codifiche UTF8 e UTF32)

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Page 26: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

1. Un interfaccia grafica utilizzabile in modalità “drag and drop” e menu contestuali che permettono una gestione dei dati veloce ed efficiente

2. Un potente plug-in per il word processor• supporta tavole e immagini• legge e scrive in formato RTF e HTML• legge e scrive documenti di MS Word

3. Editor multimediale di suoni e immagini:• supporta file in formati (jpg, bmp, ico, emf, wmf)• possibilità di scambio data exchange con le altre applicazioni attraverso file,

clipboard e drag & drop

4. SuperThes supporta un’ampia gamma di tipi di dati: booleani, decimali, liste, memo, short & long text, coordinate geografiche, altri (adattabili)

Caratteristiche principali

Page 27: La classificazione e la struttura relazionale nel Thesaurus:  l’esperienza di EARTh

http://uta.iia.cnr.it [email protected]

+39 06 90672 712/270 +39 06 90672 660

Grazie!

Environmental Knowledge Organisation Laboratory

Con

sig

lio N

azi

onale

d

elle

Ric

erc

he

Informazioni su SuperThes:[email protected]