La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh
description
Transcript of La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh
La classificazione e la struttura relazionale nel Thesaurus: l’esperienza di EARTh
Fulvio MAZZOCCHI, Paolo PLINI, Sabina DI FRANCO
Italian IA Summit
24 febbraio 2006
• Aspetti generali della terminologia ambientale
• Il progetto del CNR relativo allo sviluppo di un thesaurus generale per l’ambiente (EARTh)
• La struttura di classificazione e il modello semantico di EARTh
• La struttura delle relazioni di EARTh
• Il contenuto terminologico di EARTh
• SuperThes: il software utilizzato per la gestione del thesaurus
Premessa
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Nella società attuale “l’ambiente” riveste un’importanza cruciale:
• la nascita continua di nuove tematiche (es. l’inquinamento biologico)
• la rapida evoluzione delle conoscenze nel settore ambientale • la creazione e l’utilizzo di nuove tecnologie
Alcune considerazioni generali sulla terminologia ambientale
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
La dinamicità di questo dominio si riflette anche nello sviluppo della terminologia ambientale
L’ambiente è un dominio multidisciplinare.Ogni termine può essere definito in modi differenti a seconda del contesto in
cui viene considerato.
Per esempio il termine “benzene”:
• un esperto di pianificazione ambientale può considerarlo come una sostanza inquinante che entra nel ciclo biologico creando danni potenziali all’ambiente
• un biologo può considerarne la tossicità e i differenti percorsi attraverso i quali può entrare in un organismo.
• un ingegnere lo considererà come un combustibile per un motore a combustione
• un chimico potrà vederlo come un appartenente a una certa classe di composti chimici
• ecc.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Alcune considerazioni generali sulla terminologia ambientale (2)
Problemi di sovrapposizione semantica Ad esempio: conservazione ambientale, protezione ambientale, salvaguardia ambientale
Fattori bioculturali L’ambiente può essere concettualizzato in modi differenti a seconda dei diversi punti di vista culturali. Esiste una forte relazione tra il linguaggio, la conoscenza e l’ambiente (vedi come es. le iniziative di Terralingua, http://www.terralingua.org).
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Alcune considerazioni generali sulla terminologia ambientale (3)
Il bisogno di un sistema capace di razionalizzare la gestione dell’informazione ambientale è un argomento molto dibattuto.
Un’iniziativa importante sulla terminologia ambientale è rappresentata da ECOinformatics/ECOTerm (http://ecoinfo.eionet.eu.int/).
Questa iniziativa nasce per “mettere insieme i maggiori fornitori di terminologia ambientale per discutere sullo status delle loro terminologie, come vengano applicate le nuove tecnologie e come queste risorse possano essere rese più valide dalla comunità attraverso l’integrazione e la collaborazione reciproche”.
Vede coinvolte le seguenti istituzioni (UNEP, FAO, EEA, US EPA, USGS, JRC, CCLRC, CNR, UBA).
Si sono già tenuti due incontri a Ginevra and Berlino, il prossimo sarà quest’anno a Roma.
ECOTerm
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Il contributo del CNR nella terminologia ambientale/la nascita di EARTh
UNEP
ThesaurusInfoterra
1990
CNR
EARTh2002-2005
CNR/UBA per
EEA
GEMET1999
NBOI per
EU-EEA TF
MET1998
NBOI/CNR/UBA
QuadrilingualThesaurus
1995
EU
MultilingualDescriptor
System1983
Livello
Thesauri ambientali
UNEP
EnVoc1997
contenuto aggiornato e rivistonuova struttura
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Stiamo lavorando a un nuovo modello di thesaurus che possa essere applicato al dominio ambientale.
Il thesaurus dovrà:
L’idea
assicurare l’esportazione del thesaurus in differenti applicazioni tecnologiche.
rappresentare una mappa semantica e terminologica aggiornata del dominio ambientale;
permettere vari livelli di comprensione e applicazione per utenti con differenti caratteristiche ed esperienza;
essere uno strumento ben strutturato e rifinito, capace di combinare una solida base concettuale alla flessibilità richiesta dalle diverse applicazioni;
tenere conto della dimensione culturale dell’organizzazione della conoscenza;
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
L’architettura di EARTh
Relazioni del thesaurus– differenziazione e migliore espressione semantica delle relazioni
– in particolare verrà rinforzata, la struttura trasversale delle RT (il thesaurus come connettore semantico)
Struttura a matrice semantica – struttura verticale basata su un sistema di categorie
– organizzazione tematica da sviluppare per applicazioni specifiche
Software SQL, Unicode, Client/Server
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Lo schema di classificazione di EARTh
Lo schema di classificazione di EARTh è basato su un sistema di categorie.
Seguendo una prospettiva dal basso verso l’alto, i termini possono essere analizzati secondo una scala progressiva gerarchica. In questa scala le caratteristiche concettuali sono via via abbandonate a favore di una prospettiva “intensionale” (mentre in una prospettiva “estensionale” il numero di cose associate all’intensione aumenta). Si raggiunge così il massimo livello di genericità.
Le categorie rappresentano il vertice di questa struttura verticale.
EARTh: categorie di primo e secondo livello
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Lo schema di classificazione di EARTh:perché adottare un approccio per categorie?
L’approccio per categorie assicura:
•una base concettuale stabile per l’organizzazione della conoscenza;
•uno strumento per classificare i concetti partendo dal loro significato di base, riferito alla logica inerente al sistema;
•un forte controllo sulla disposizione semantica;
•applicabilità ai differenti domini, enfatizzando l’interdisciplinarietà.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Il modello a matrice di EARTh la struttura verticale
La struttura verticale
La struttura verticale di EARTh è basata su differenti livelli classificatori e gerarchici.
La struttura verticale è uno strumento operativo che, fornendo un interpretazione categoriale al significato del termine e posizionandolo in un albero semantico, mira a orientare l’utente verso le caratteristiche “essenziali” della semantica del termine.
Questo, però, non limita l’analisi concettuale dei termini in una visione statica e univoca.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
L’organizzazione tematica per le applicazioni
Il modello consente la possibilità di sviluppare una ulteriore organizzazione della terminologia. La struttura verticale può essere completata da un “micro-mondo” di termini connessi tematicamente (temi).
Mentre la struttura ad albero tende a spargere i termini nelle loro categorie di riferimento, i temi accorpano i termini secondo la loro prospettiva espressa dai temi stessi.
Questo modello deve anche permettere la rappresentazione di un significato secondo accezioni secondarie.
Il modello a matrice di EARTh Temi
suolo - soil
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
La rappresentazione del significato: il caso del “Benzene”
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
I temi in EARTh forniscono una prospettiva aggiuntiva per l’interpretazione del termine e agiscono come strumenti per rappresentare altri tratti semantici.
Tema SALUTE benzene come sostanza tossica.
Tema INQUINAMENTO benzene come inquinante.
Tema SICUREZZA benzene come sostanza pericolosa.
“il benzene è tossico”“il benzene è inquinante”“il benzene è pericoloso”
“Il benzene è una sostanza organica aromatica”.
aromatica, organica, sostanza sembrano essere i tratti semantici “essenziali”, che non possono essere ignorati (nella concettualizzazione occidentale attuale)
tossico, inquinante, pericoloso sono tre tratti “tipici”. Hanno un peso minore nella rappresentazione del significato, anche se rappresentano proprietà importanti nel contesto ambientale.
Il modello a matrice di EARTh – il caso “Benzene”
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Relazioni semantiche nei thesauri tradizionali: alcune limitazioniI thesauri tradizionali forniscono una serie limitata di relazioni fra i termini, distinguendo solo tra relazioni gerarchiche, relazioni associative e relazioni di equivalenza.
Inoltre le relazioni nel thesaurus sono spesso applicate in modo incongruo. Questo causa ambiguità nell’interpretazione e può dare luogo a strutture semantiche imprevedibili.
Forse la relazione gerarchica generica è la più abusata. Molti thesauri esistenti forniscono relazioni targate come BT/NT ma potrebbero essere interpretate più come relazioni di tipo associativo.
Monitoraggio Riciclaggio
NT Tecnica di monitoraggio NT Percentuale di riciclaggio
(GEMET, 1999) (GEMET, 1999)
Molte relazioni sono indicate come associative, ma la loro natura non viene specificata.
Telerilevamento Gestione della qualità dell’aria Eutrofizzazione
RT Cartografia RT Qualità dell’aria RT Reflui
(EnVoc, 1997) (EnVoc, 1997) (EnVoc, 1997)
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Perfezionamento della struttura relazionale del thesaurus
Una delle soluzioni comunemente proposte per superare le limitazioni, prevede la reingegnerizzazione dei thesauri tradizionali in sistemi provvisti di un network esteso di relazioni ben definite.
L’incremento delle relazioni del thesaurus:
• supporta un controllo semantico migliore
• mostra nuove possibilità per il recupero delle informazioni
• può essere usato per il processamento automatico.
In EARTh, la realizzazione di un insieme di relazioni semantiche è attualmente in costruzione. Le relazioni standard saranno arricchite con sottotipi, di cui sarà specificato il contenuto semantico. Le strutture linguistiche esprimeranno le relazioni semantiche.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Relazioni gerarchiche
Gli standard per i thesauri e la letteratura scientifica includono tre tipologie di relazioni gerarchiche: “Genere-specie”, “Parte-tutto” e “Esemplificativa”, che convergono in una generica “relazione gerarchica”.
In EARTh le relazioni genere-specie, parte-tutto ed esemplificativa saranno differenziate. Si cercherà anche di identificare per ognuna di esse differenti sottotipi.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Applicazione delle etichette di snodo
Le etichette di snodo indicheranno l’uso dei diversi criteri di suddivisione nelle relazioni gerarchiche generiche.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Relazioni associative
Specificare e incrementare relazioni associative permetterà di sviluppare una struttura a rete che enfatizzi il sistema di interrelazioni, i legami “connettivi” che limitino il grado di separazione dal campo concettuale e che non possono essere rappresentati dal modello ad albero tassonomico-gerarchico (fondamentale nel dominio ambientale).
Le relazioni associative coprono un insieme di relazioni eterogeneo e indifferenziato. Possono esprimere molti tipi di associazione di carattere non gerarchico tra i termini.
Le ISO 704 definiscono come relazioni che “esistono quando un collegamento tematico può essere stabilito tra concetti in virtù dell’esperienza”.
In questo lavoro si proverà a specificare la natura delle relazioni e a differenziare le RT in sottotipi.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Relazioni di equivalenza
La sinonimia si riferisce a una somiglianza nel significato. È stata anche definita come una interscambiabilità fra termini, nonostante sia molto difficile pensare all’esistenza di una sinonimia assoluta o perfetta in presenza di interscambiabilità in tutti i contesti.
Le varianti lessicali sono parole differenti utilizzate per la stessa espressione e derivano dalle variazioni morfologiche e grammaticali.
La categoria dei quasi-sinonimi non verrà inclusa per adesso nel sistema.
Le relazioni di equivalenza coprono almeno le tipologie di base seguenti: sinonimi, varianti lessicali e quasi-sinonimi. “Veri” sinonimi e varianti lessicali saranno distiniti r verranno identificati i diversi sottotipi.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Un altro obiettivo da raggiungere è assicurare una alta modularità del sistema.
Non tutti gli utenti sono interessati nelle sottili distinzioni delle relazioni del thesaurus.
Sarà possibile navigare nella struttura del thesaurus per differenti livelli, a partire dalla versione tradizionale della struttura relazionale del thesaurus.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Portabilità per differenti utenti
La raccolta e la selezione dei termini di EARTh
Il nostro obiettivo è quello di produrre una mappa semantica del dominio ambientale aggiornata e valida.
La fonte principale (circa 4000 termini selezionati) of termini relativi all’ambiente è GEMET-General European Multilingual Environmental Thesaurus (1999) sviluppato da CNR-EKOLab e UBA-Umweltbundesamt per l’Agenzia Ambientale Europea.
Altre fonti sono (la base terminologica è di circa 20.000 termini).
fonti di terminologia ambientale generale – UN Environment and Development (1992)
fonti di terminologia di domini specifici– Thesaurus Italiano of Scienze della Terra (2000)
– Terminologia Inland Water (2001)
– Terminologia Snow and Ice (2003)
– Thesaurus for Emergency and Disasters (1998/2003)
– Terminologia Remote Sensing (2004)
– Altri documenti di riferimento in campi specifici o relativi alla scienza contemporanea (teoria del caos, complessità) o relativi alla diversità bioculturale.
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Il contenuto terminologico di EARTh
Al momento EARTh contiene circa 7.500 termini già selezionati e organizzati
~ 1.500 termini sono relativi alla pressione ambientale (es. attività industriali e agricole).
~ 2.500 termini descrivono lo stato dell’ambiente (es. i componenti e i processi naturali).
~ 1.000 termini sono relativi all’impatto ambientale (es. rifiuti, inquinamento, perdita di biodiversità).
~ 2.500 termini riguardanti temi sociali (es. misure legislative, educazione ambientale, ricerca).
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
SuperThes è un software di gestione del thesaurus; realizzato da TBHS e finanziato nel quadro di una cooperazione internazionale tra CNR, UBA-A, UBA-D e TBHS.
Si basa su una tecnologia per basi dati open source client-server DB (Interbase-Firebird)Per piccole istallazioni, client e server possono risiedere nello stesso computer.
Supporta l’Unicode e immagazzina i dati in formato UCS-2.Vi sono predefiniti tutti I linguaggi delle ISO 639-1.
Prospettive e attività in corso:•Visualizzatore per thesauri SuperThes-based•Interfaccia web per thesauri SuperThes-based•Ulteriore espansione delle capacità multilingue (selezione, codifiche UTF8 e UTF32)
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
1. Un interfaccia grafica utilizzabile in modalità “drag and drop” e menu contestuali che permettono una gestione dei dati veloce ed efficiente
2. Un potente plug-in per il word processor• supporta tavole e immagini• legge e scrive in formato RTF e HTML• legge e scrive documenti di MS Word
3. Editor multimediale di suoni e immagini:• supporta file in formati (jpg, bmp, ico, emf, wmf)• possibilità di scambio data exchange con le altre applicazioni attraverso file,
clipboard e drag & drop
4. SuperThes supporta un’ampia gamma di tipi di dati: booleani, decimali, liste, memo, short & long text, coordinate geografiche, altri (adattabili)
Caratteristiche principali
http://uta.iia.cnr.it [email protected]
+39 06 90672 712/270 +39 06 90672 660
Grazie!
Environmental Knowledge Organisation Laboratory
Con
sig
lio N
azi
onale
d
elle
Ric
erc
he
Informazioni su SuperThes:[email protected]