STRUMENTI E RISORSE PER IL TRATTAMENTO...

14
1. IL TRATTAMENTO AUTOMATICO DELLA LINGUA N ella società dell’informazione differenti categorie di utenti (professionisti, am- ministratori pubblici e comuni cittadini) de- vono confrontarsi con la necessità quotidia- na di accedere a grandi quantità di contenu- ti digitali semi-strutturati o non strutturati, all’interno di basi documentali in linguaggio naturale disponibili sul Web o su Intranet lo- cali. Un’alta percentuale delle conoscenze e processi che regolano le attività di gruppi di lavoro, istituzioni e imprese risiede, infatti, all’interno di documenti dalle forme e tipo- logie più varie (testi normativi, manuali, agenzie stampa, rapporti tecnici, e-mail ecc.), talvolta in lingue diverse e, sempre più di frequente, accompagnati da materia- le multimediale. La natura non strutturata di tale informazione richiede due passi fon- damentali per una sua gestione efficace: ovvero, la selezione dei documenti rilevanti rispetto alle necessità specifiche dell’uten- te e l’estrazione dell’informazione dai testi, per garantire il suo impiego in altre applica- zioni o per compiti specifici. La facilità di ta- le accesso, la capacità di recuperare l’infor- mazione adeguata in tempi rapidi, la sua gestione e usabilità sono, dunque, parame- tri chiave per garantire il successo di impre- se economiche, lo sviluppo imprenditoriale, la competitività professionale, così come anche l’integrazione sociale e occupaziona- le e la formazione permanente. Gli sviluppi più recenti della linguistica com- putazionale e del natural language enginee- ring hanno creato soluzioni tecnologiche dal- le enormi potenzialità per migliorare la ricerca e gestione intelligente dell’informazione con- tenuta nei documenti testuali. Le nuove tec- nologie della lingua, infatti, permettono ai si- stemi informatici di accedere ai contenuto di- gitale attraverso il Trattamento Automatico della Lingua (TAL) o Natural Language Proces- sing (NLP). Il problema di come acquisire e ge- stire la conoscenza depositata nei documenti testuali dipende dal suo essere codificata al- l’interno della rete di strutture e relazioni grammaticali e lessicali che costituiscono la natura stessa della comunicazione linguisti- MONDO DIGITALE • n.2 - giugno 2004 Le ricerche sul TAL hanno aperto nuove prospettive per la creazione di ap- plicazioni per l’accesso intelligente al contenuto documentale. Sviluppi si- gnificativi riguardano i sistemi per l’analisi “robusta” del testo, i metodi per l’acquisizione automatica di conoscenza dai documenti e le infrastrutture per lo sviluppo e gestione di risorse linguistiche di grandi dimensioni, grazie ai quali è oggi possibile realizzare modelli e strumenti per il trattamento del- la lingua utilizzabili in contesti operativi reali. Nicoletta Calzolari Alessandro Lenci LINGUISTICA COMPUTAZIONALE STRUMENTI E RISORSE PER IL TRATTAMENTO AUTOMATICO DELLA LINGUA 56 4.7

Transcript of STRUMENTI E RISORSE PER IL TRATTAMENTO...

Page 1: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

1. IL TRATTAMENTOAUTOMATICO DELLA LINGUA

N ella società dell’informazione differenticategorie di utenti (professionisti, am-

ministratori pubblici e comuni cittadini) de-vono confrontarsi con la necessità quotidia-na di accedere a grandi quantità di contenu-ti digitali semi-strutturati o non strutturati,all’interno di basi documentali in linguaggionaturale disponibili sul Web o su Intranet lo-cali. Un’alta percentuale delle conoscenze eprocessi che regolano le attività di gruppi dilavoro, istituzioni e imprese risiede, infatti,all’interno di documenti dalle forme e tipo-logie più varie (testi normativi, manuali,agenzie stampa, rapporti tecnici, e-mail

ecc.), talvolta in lingue diverse e, semprepiù di frequente, accompagnati da materia-le multimediale. La natura non strutturatadi tale informazione richiede due passi fon-damentali per una sua gestione efficace:ovvero, la selezione dei documenti rilevantirispetto alle necessità specifiche dell’uten-te e l’estrazione dell’informazione dai testi,per garantire il suo impiego in altre applica-

zioni o per compiti specifici. La facilità di ta-le accesso, la capacità di recuperare l’infor-mazione adeguata in tempi rapidi, la suagestione e usabilità sono, dunque, parame-tri chiave per garantire il successo di impre-se economiche, lo sviluppo imprenditoriale,la competitività professionale, così comeanche l’integrazione sociale e occupaziona-le e la formazione permanente.Gli sviluppi più recenti della linguistica com-

putazionale e del natural language enginee-

ring hanno creato soluzioni tecnologiche dal-le enormi potenzialità per migliorare la ricercae gestione intelligente dell’informazione con-tenuta nei documenti testuali. Le nuove tec-nologie della lingua, infatti, permettono ai si-stemi informatici di accedere ai contenuto di-gitale attraverso il Trattamento Automatico

della Lingua (TAL) o Natural Language Proces-

sing (NLP). Il problema di come acquisire e ge-stire la conoscenza depositata nei documentitestuali dipende dal suo essere codificata al-l’interno della rete di strutture e relazionigrammaticali e lessicali che costituiscono lanatura stessa della comunicazione linguisti-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

Le ricerche sul TAL hanno aperto nuove prospettive per la creazione di ap-

plicazioni per l’accesso intelligente al contenuto documentale. Sviluppi si-

gnificativi riguardano i sistemi per l’analisi “robusta” del testo, i metodi per

l’acquisizione automatica di conoscenza dai documenti e le infrastrutture

per lo sviluppo e gestione di risorse linguistiche di grandi dimensioni, grazie

ai quali è oggi possibile realizzare modelli e strumenti per il trattamento del-

la lingua utilizzabili in contesti operativi reali.

Nicoletta Calzolari Alessandro Lenci

LINGUISTICACOMPUTAZIONALESTRUMENTI E RISORSE PER IL TRATTAMENTOAUTOMATICO DELLA LINGUA

56

4.7

Page 2: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

ca. Sono il lessico e le regole per la combina-zione delle parole in strutture sintatticamentecomplesse che nel linguaggio si fanno veicolidegli aspetti multiformi e creativi dei contenu-ti semantici. Attraverso l’analisi linguistica au-tomatica del testo, gli strumenti del TAL sciol-gono la tela del linguaggio per estrarre e ren-dere espliciti quei nuclei di conoscenza chepossono soddisfare i bisogni informativi degliutenti. Dotando il computer di capacità avan-zate di elaborare il linguaggio e decodificarnei messaggi, diventa così possibile costruireautomaticamente rappresentazioni del conte-nuto dei documenti che permettono di poten-ziare la ricerca di documenti anche in linguediverse (Crosslingual Information Retrieval),l’estrazione di informazione rilevante da testi(Information Extraction), l’acquisizione dina-mica di nuovi elementi di conoscenza su uncerto dominio (Text Mining), la gestione e or-ganizzazione del materiale documentale, mi-gliorando così i processi di elaborazione econdivisione delle conoscenze.

2. UN PO’ DI STORIA:IL TAL IERI E OGGI

Nata come disciplina di frontiera, di fatto aimargini sia del mondo umanistico che delleapplicazioni informatiche più tradizionali, lalinguistica computazionale in poco più di 50anni è riuscita a conquistare una posizione diindiscussa centralità nel panorama scientifi-co internazionale. In Italia, alla storica cullapisana rappresentata dall’Istituto di Lingui-stica Computazionale del CNR – fondato e di-retto per lunghi anni da Antonio Zampolli – sisono affiancati molti centri e gruppi di ricercaattivi su tutto il territorio nazionale. Sul ver-sante applicativo, le numerose iniziative im-prenditoriali nel settore delle tecnologie del-la lingua testimoniano l’impatto crescentedella disciplina (sebbene con ritmi molto piùlenti che nel resto dell’Europa, come risultadal rapporto finale del progetto comunitarioEuromap [12]) al di fuori dello specifico ambi-to accademico, prova del fatto che i tempi so-no diventati maturi perché molti dei suoi ri-sultati affrontino la prova del mercato e dellacompetizione commerciale.Quali i motivi di questa crescita esponenzia-le? Sebbene facilitato dai progressi nel setto-

re informatico e telematico, unitamente al-l’effetto catalizzante di Internet, sarebbe im-proprio spiegare lo sviluppo della disciplinasolo in termini di fattori meramente tecnolo-gici. In realtà, la linguistica computazionalepossiede, oggi, una sua maturità metodolo-gica nata dalla conquista di un preciso spaziodi autonomia disciplinare anche rispetto allesue anime originarie, l’indagine umanistica ela ricerca informatica. Questa autonomia sicontraddistingue per un nuovo e delicatoequilibrio tra lingua e computer. Le elabora-zioni computazionali sono, infatti, chiamatea rispettare la complessità, articolazione, emultidimensionalità della lingua e delle suemanifestazioni testuali. Al tempo stesso, idocumenti testuali emergono come una ri-sorsa di conoscenza che può essere gestitaed elaborata con le stesse tecniche, metodo-logie e strumenti che rappresentano lo statodell’arte nella tecnologia dell’informazione.A tale proposito è utile ricordare come la lin-guistica computazionale affondi le sue radiciin due distinti paradigmi di ricerca. Da un la-to, è possibile trovare i temi caratteristici del-l’applicazione di metodi statistico-matemati-ci e informatici allo studio del testo nellescienze umane, di cui Padre Roberto Busa eAntonio Zampolli rappresentano i pionierinazionali. Il secondo paradigma fondante èrappresentato dall’Intelligenza Artificiale (IA)e, in particolare, dall’ideale delle “macchineparlanti”, che hanno promosso temi di ricer-ca rimasti “classici” per il settore, come latraduzione automatica, i sistemi di dialogouomo-macchina ecc..Il TAL si è sviluppato alla confluenza di questedue tradizioni promuovendo il faticoso supe-ramento di alcune forti dicotomie che hannocaratterizzato le anime della linguistica com-putazionale ai suoi esordi, dicotomie riassu-mibili proprio in diverse, e a tratti ortogonali,concezioni della lingua e dei metodi per le sueelaborazioni computazionali. Da un lato, lalingua, come prodotto complesso e dinamicorealizzato nella variabilità delle sue tipologietestuali, si è a lungo opposta alla lingua in vi-

tro di esperimenti da laboratorio troppo spes-so decontestualizzati e riduttivi rispetto allesue reali forme e usi. A questo bisogna unireanche la prevalenza dei metodi statistici per lostudio delle regolarità distribuzionali delle pa-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

57

0

0

0

1

Page 3: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

role tipico di molta linguistica matematica ap-plicata al testo, in forte contrasto col prevale-re di tecniche simboliche che hanno costitui-to, per lungo tempo, il modello dominante perla progettazione dei primi algoritmi per il TAL.Il superamento di tale dicotomia è stato resopossibile grazie al radicale mutamento di pa-radigma avvenuto nel TAL, a partire dalla se-conda metà degli anni ’80, caratterizzato daldiffondersi, e poi dal netto prevalere, di un’e-pistemologia neo-empirista. Questo cambia-mento si è concretizzato nella diffusione deimetodi statistico-quantitativi per l’analisicomputazionale del linguaggio [19], e nellarinnovata centralità dei dati linguistici.La disponibilità crescente di risorse linguisti-

che, in particolari corpora testuali e lessicicomputazionali, ha costituito un fattore de-terminante in questa svolta metodologica etecnologica nel TAL. La disponibilità di corpo-

ra di grandi dimensioni è diventata una varia-bile fondamentale in ogni fase di sviluppo evalutazione degli strumenti per l’elaborazio-ne dell’informazione linguistica. Gli strumen-ti per il TAL sono, infatti, ora chiamati a con-frontarsi non con pseudolinguaggi di labora-torio, ma con testi di grande complessità evariabilità linguistica e strutturale. A sua vol-ta, questo ha portato al diffondersi di tecni-che di elaborazione linguistica più “robuste”di quelle simboliche tradizionali, in grado diaffrontare la variabilità lessicale e strutturaledel linguaggio, e anche quel suo continuo re-sistere ai vincoli grammaticali che è così evi-dente in molte sue manifestazioni, prima fratutte, la lingua parlata. La possibilità di acce-dere a quantità sempre crescenti di dati lin-guistici digitali ha indubbiamente facilitatotale innovazione metodologica, fornendo idati linguistici necessari per un uso intensivodei metodi statistici, che hanno incominciatoa ibridare le architetture e gli algoritmi piùtradizionali. Un ulteriore fattore di accelera-zione è stato fornito dalla necessità della tec-nologia della lingua di passare da prototipi dilaboratorio a sistemi funzionanti in grado dioffrirsi agli utenti come affidabili strumentiper la gestione dell’informazione linguistica.Il banco di prova del World Wide Web, persua natura risorsa di informazione documen-tale multiforme e magmatica, ha imposto aisistemi per il TAL di acquisire una capacità di

adeguarsi alle complessità della lingua reale,prima impensabile.

3. DAL TESTOALLA CONOSCENZA

All’interno dell’ampio spettro di attività delTAL, che coinvolgono quasi tutti i domini del-l’Information Technology1, di particolare inte-resse e impatto sono le possibilità offertedalle più recenti tecnologie della lingua pertrasformare i documenti testuali in risorse di

informazione e conoscenza. Alla base di que-sto processo di accesso e analisi del contenu-to digitale risiedono tre tipi di tecnologie, fon-damentali per ogni sistema basato sul TAL:1. strumenti per l’analisi linguistica di testi e

l’acquisizione dinamica di conoscenza – ana-lizzatori morfologici, parser sintattici2, acqui-sitori automatici di terminologia e informa-zione semantica dai testi ecc.;2. risorse linguistiche – lessici computazio-nali, reti semantico-concettuali multilingui,corpora testuali anche annotati sintattica-mente e semanticamente per lo sviluppo e lavalutazione di tecnologia del linguaggio;3. modelli e standard per la rappresentazio-

ne dell’informazione linguistica – ontologieper il knowledge sharing e la codifica lessica-le, modelli per la rappresentazione e inter-scambio di dati linguistici.Grazie anche alle nuove opportunità offertedalla tecnologia XML (eXtensible Markup

Language) è possibile realizzare una mag-giore integrazione tra i diversi moduli per l’e-laborazione della lingua, e la standardizza-zione della rappresentazione dei dati, neces-saria per assicurare la loro interscambiabilità

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

0

0

0

1

58

1 Questi vanno dal riconoscimento automatico delparlato alla traduzione automatica, dallo sviluppodi interfacce uomo-macchina multimodali ai siste-mi di question-answering che permettono di in-terrogare una base documentale formulando la ri-chiesta come una domanda in linguaggio natura-le. Un’ampia rassegna delle varie applicazioni delTAL è disponibile in [11, 13].

2 Il parsing è il processo di analisi linguistica attra-verso cui viene ricostruita la struttura sintattica diuna frase, rappresentata dall’articolazione dei co-stituenti sintagmatici e dalle relazioni di dipen-denza grammaticale (esempio soggetto, comple-mento oggetto ecc.).

Page 4: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

e la coerenza del trattamento dell’informa-zione. Strumenti di analisi, risorse linguisti-che e standard di rappresentazione vengono,dunque, a costituire un’infrastruttura per ilTAL che attraverso l’analisi linguistica auto-matica dei documenti testuali permette diestrarre la conoscenza implicitamente conte-nuta in essi, trasformandola in conoscenzaesplicita, strutturata e accessibile sia da par-te dell’utente umano che da parte di altriagenti computazionali (Figura 1).È importante sottolineare l’aspetto di stret-ta interdipendenza tra i vari componenti peril TAL, illustrata in maggior dettaglio in figu-ra 2. Gli strumenti di analisi linguistica co-struiscono una rappresentazione avanzatadel contenuto informativo dei documenti at-traverso elaborazioni del testo a vari livellidi complessità: analisi morfologica e lem-matizzazione, analisi sintattica, interpreta-zione e disambiguazione semantica ecc.. Imoduli di elaborazione sono solitamente in-terfacciati con database linguistici, che rap-presentano e codificano grandi quantità diinformazione terminologica e lessicale,morfologica, sintattica e semantica, che nepermettono sofisticate modalità di analisi.Le analisi linguistiche forniscono l’input peri moduli di estrazione, acquisizione e strut-turazione di conoscenza. La conoscenzaestratta costituisce una risorsa per l’utentefinale, e permette allo stesso di popolare edestendere i repertori linguistico-lessicali eterminologici che sono usati in fase di anali-si dei documenti. Si realizza, così, un ciclovirtuoso tra strumenti per il TAL e risorse lin-guistiche. Le risorse linguistiche lessicali etestuali permettono di costruire, ampliare,rendere operativi, valutare modelli, algorit-mi, componenti e sistemi per il TAL, sistemiche sono, a loro volta, strumenti necessariper alimentare dinamicamente ed estende-re tali risorse.Un esempio di architettura per il trattamen-to automatico dell’Italiano è Italian NLP,sviluppato dall’Istituto di Linguistica Com-putazionale – CNR in collaborazione con ilDipartimento di Linguistica – Sezione di Lin-guistica Computazionale dell’Università diPisa. Italian NLP è un ambiente integrato distrumenti e risorse che consentono di effet-tuare analisi linguistiche incrementali dei

testi. Ciascun modulo di Italian NLP proce-de all’identificazione di vari tipi di unità lin-guistiche di complessità strutturale cre-scente, ma anche utilizzabili singolarmentecome fonte di informazione sull’organizza-zione linguistica dei testi.Come si vede in figura 3, un aspetto significa-tivo di Italian NLP è il carattere ibrido dellasua architettura. Moduli simbolici di parsing

(basati su metodologie consolidate nella lin-guistica computazionale, come le tecnologiea stati finiti) sono affiancati a strumenti stati-stici che sono usati per operare disambigua-zioni sintattiche e semantiche, filtrare “rumo-re” dalle analisi e anche arricchire le risorselessicali con informazioni direttamenteestratte dai testi oggetto di analisi, permet-tendo l’aggiornamento e specializzazionecontinua delle risorse linguistiche, e garan-tendo una maggiore robustezza e portabilità

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

59

0

0

0

1

Documenti testuali(conoscenza implicita)

NaturalLanguageProcessingestrazionedi conoscenza

NaturalLanguageProcessing

analisidel testo

Contenuto strutturato(conoscenza esplicita)

Strutturazionedinamica

del contenuto

FIGURA 1Dalla conoscenza implicita alla conoscenza esplicita

Strumentidi NLP

analisi del testo

Strumentidi estrazione

di conoscenza

Conoscenza strutturata

Risorse lessicalie terminologiche

FIGURA 2Un’architettura perl’estrazionedi conoscenza daitesti basata sul TAL

Page 5: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

degli strumenti di analisi del linguaggio sudomini e registri linguistici diversi.Uno dei livelli di analisi linguistica più im-pegnativi è l’analisi sintattica automatica.In Italian NLP, questa è realizzata in due fa-si successive. Dopo un processo di tokeniz-zazione3 e analisi morfologica, viene effet-tuato un parsing “leggero” del testo (shal-

low parsing), in cui un chunker realizzacontemporaneamente la disambiguazionemorfosintattica delle parole, cioè l’identifi-cazione della categoria sintattica con cuiuna forma occorre in un dato contesto lin-guistico, e la segmentazione del testo in se-quenze di gruppi sintattici non ricorsivi(chunk) di cui vengono individuati il tipo(nominale, verbale ecc.) e la testa lessicale[15]. Per esempio, la frase “Il Presidentedella Repubblica ha visitato la capitale del-

la Francia” viene segmentata dal chunkernel modo seguente4:

[N_C Il Presidente][P_C della Repubblica][FV_Cha visitato][N_C la capitale][P_C della Francia]

Come risultato del chunking, si ottiene dun-que una strutturazione del testo in unità lin-guisticamente rilevanti sia per processi diestrazione dell’informazione e text mining,sia come input per la seconda fase di parsingin cui il testo segmentato è analizzato a livel-lo sintattico-funzionale, per identificare rela-zioni grammaticali tra gli elementi nella frasecome soggetto, oggetto, complemento, mo-dificatore ecc.. In Italian NLP questo tipo dianalisi è realizzato da IDEAL, Italian DEpen-

dency AnaLyzer [1, 2], un compilatore digrammatiche a stati finiti definite su sequen-ze di chunk. Le regole della grammatica fan-no uso di test sulle informazioni associate aichunk (per esempio, informazioni morfosin-tattiche, tratti di accordo) e su informazionilessicali esterne (il lessico che viene usato aquesto fine comprende circa venticinquemilaframe sintattici di sottocategorizzazione)5.L’output di IDEAL è costituito da relazionigrammaticali binarie tra una testa lessicale eun suo dipendente che forniscono una rap-presentazione della struttura sintattica comela seguente6:

sogg (visitare, presidente)comp (presidente, repubblica.<intro=di>)ogg (visitare, capitale)comp (capitale, Francia.<intro=di>)

Simili rappresentazioni della struttura lingui-stica del testo forniscono l’input fondamen-tale per processi di estrazione della cono-scenza. Un esempio di applicazione di questotipo è l’acquisizione semi-automatica di on-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

0

0

0

1

60

Moduli di analisi linguistica

Testi

Tokenizzazione

Disambiguazione

Lessici sintattici

Lessici semantici

Estrazionedi conoscenza

Analisimorfologica

Chunking

Analisi sintatticaa dipendenze

Moduli statistici

Risorse Lessicali

FIGURA 3Strumenti di analisi

e risorselinguistiche

in Italian NLP

3 La tokenizzazione consiste nella segmentazione del testo in unità minime di analisi (parole). In questa fase l’input è sottopo-sto a un processo di normalizzazione ortografica (esempio separazione di virgolette e parentesi della parole, riconoscimentodei punti di fine frase ecc.), nell’ambito del quale vengono anche identificate le sigle, gli acronimi e le date.

4 N_C, P_C e FV_C stanno rispettivamente per chunk di tipo nominale, preposizionale e verbale5 Un frame di sottocategorizzazione specifica il numero e tipo di complementi che sono selezionati da un termine lessicale. Per

esempio, il verbo mangiare seleziona per un complemento oggetto opzionale (cfr. Gianni ha mangiato un panino; Gianni ha

mangiato), mentre il verbo dormire, in quanto intransitivo, non può occorrere con un complemento oggetto.6 sogg = soggetto; comp = complemento; ogg = oggetto diretto

Page 6: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

tologie (ontology learning) da testi comesupporto avanzato alla gestione documenta-le [8, 18]. Un’ontologia [9, 22] è un sistemastrutturato di concetti e relazioni tra concettiche viene a costituire una “mappa” della co-noscenza di un certo dominio od organizza-zione. Gli strumenti e le risorse del TAL per-mettono di trasformare le conoscenze impli-citamente codificate all’interno dei documen-ti testuali in conoscenza esplicitamente strut-turata come un’ontologia di concetti. Attra-verso il TAL è possibile, dunque, dotare i si-stemi informatici di una chiave di accesso se-mantica alle basi documentali, consentendoagli utenti di organizzare e ricercare i docu-menti su base concettuale, e non solo attra-verso l’uso di parole chiave. Le ontologieestratte dinamicamente dai testi vengono acostituire un ponte tra il bisogno di informa-zione degli utenti - rappresentato da idee,concetti o temi di interesse - e i documenti incui l’informazione ricercata rimane nascostaall’interno dell’organizzazione linguistica deltesto, che spesso ne ostacola il recupero. An-che in un linguaggio tecnico e apparente-mente controllato, infatti, lo stesso concettopuò essere espresso con una grande varia-zione di termini, e la scelta di uno di questi daparte dell’utente in fase di ricerca o indicizza-zione, può impedire il recupero di documentiugualmente rilevanti, ma in cui lo stesso con-cetto appare sotto forme linguistiche diverse. Le tecnologie della lingua rendono possibilelo sviluppo di un ambiente per la creazione

dinamica di ontologie a partire dall’analisi

linguistica dei documenti. Diventa così possi-bile velocizzare il processo di gestione del-l’indicizzazione e della classificazione dellabase documentale, e ridurre il grado di arbi-trarietà dei criteri di classificazione. La que-stione è, infatti, come fare a determinare iconcetti rilevanti e più caratterizzanti per idocumenti di un certo dominio di interesse.Per affrontare questo problema le tecnichelinguistico-computazionali si basano su un’i-potesi molto semplice: i documenti sonoestremamente ricchi di termini che con buo-na approssimazione veicolano i concetti e itemi rilevanti nel testo. Termini sono nomipropri, nomi semplici come museo o pinaco-

teca, oppure gruppi nominali strutturalmen-te complessi come museo archeologico, mi-

nistero dei beni culturali, soprintendenza ar-

cheologica ecc.. I termini possono essere aloro volta raggruppati, in quanto esprimonoconcetti molto simili. Per esempio, scultura,

affresco e quadro condividono tutti un con-cetto più generico di “opera artistica” a cuipossono essere ricondotti a un certo grado diastrazione. Attraverso l’uso combinato ditecniche statistiche e di strumenti avanzatiper l’analisi linguistica come quelli di Italian

NLP è possibile analizzare il contenuto lin-guistico dei documenti appartenenti a un da-to dominio di conoscenza, individuare i ter-mini potenzialmente più significativi e rico-struire una “mappa” dei concetti espressi daquesti termini, ovvero costruire un’ontologiaper il dominio di interesse. Come si vede nel-la figura 4, alla base dell’ontologia risiede unglossario di termini (semplici e complessi)estratti dai testi dopo una fase di analisi lin-guistica, effettuata con moduli di parsing. Itermini estratti vengono successivamente fil-trati con criteri statistici per selezionarne ipiù utili per caratterizzare una certa collezio-ne di documenti. I termini sono organizzati estrutturati come in un Thesaurus di tipo clas-sico, sulla base di alcune relazioni semanti-che di base. L’ontologia viene, dunque, a es-sere composta di unità concettuali definitecome insiemi di termini semanticamente affi-ni. I concetti possono, inoltre, essere orga-nizzati secondo la loro maggiore o minorespecificità articolando l’ontologia come unatassonomia. Dal momento che un sistema diconoscenza non è fatto solo di concetti che siriferiscono a entità del dominio, ma anche diprocessi, azioni ed eventi che vedono coin-volte queste entità secondo ruoli e funzionidiverse, uno stadio più avanzato di estrazio-ne può puntare anche all’identificazione direlazioni non tassonomiche tra concetti (peresempio, la funzione tipica di una certa en-tità, la sua locazione ecc.). È importante sot-tolineare che il processo di ontology learning

attraverso l’analisi linguistica dei documentiavviene generalmente in stretta cooperazio-ne con gli utenti, che sono chiamati a interve-nire nelle varie fasi di estrazione della cono-scenza per validarne i risultati. Come in altrisettori di applicazione del TAL, anche in que-sto caso le tecnologie della lingua utilmentecontribuiscono alla gestione dei contenuti di

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

61

0

0

0

1

Page 7: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

informazione a supporto dell’esperto uma-no, senza pretendere di sostituirsi ad esso.Gli strumenti di Italian NLP sono usati in mol-teplici contesti applicativi, in cui hanno dimo-strato l’ampiezza e rilevanza delle opportu-nità pratiche offerte dal TAL. Tra gli esempipiù significativi a livello nazionale è possibilecitare i moduli linguistico-computazionaliSALEM (Semantic Annotation for LEgal Ma-

nagement) [3] - sviluppato nell’ambito delprogetto Norme in Rete (NIR) del Centro Na-zionale per l’Informatica nella Pubblica Am-ministrazione (CNIPA) - e T2K (Text-2-Know-ledge) - realizzato nell’ambito del progettoTRAGUARDI del Dipartimento della FunzionePubblica - FORMEZ7. SALEM è un modulo perl’annotazione automatica della struttura lo-gica dei documenti legislativi, integrato nel-l’editore normativo NIREditor, sviluppatodall’Istituto di Teoria e Tecnica dell’Informa-zione Giuridica - CNR. Attraverso l’analisicomputazionale del testo, SALEM rendeespliciti gli aspetti più rilevanti del contenutonormativo, individuando elementi quali il de-

stinatario della norma, la sanzione previstaecc.. Questi elementi di contenuto sono an-notati esplicitamente sul testo con metadatiXML, garantendo una migliore gestione e ri-cerca della documentazione legislativa. Ilmodulo T2K è, invece, finalizzato alla costru-zione semi-automatica di thesauri di terminie di ontologie di metadati semantici per lagestione documentale nella pubblica ammi-nistrazione. A livello internazionale, gli stru-menti per il TAL, illustrati sopra, sono statiapplicati in numerosi progetti finanziati dal-l’Unione Europea, tra i quali si vogliono quicitare POESIA (Public Open-source Environ-

ment for a Safer Internet Access) [10], dedica-to alla creazione di sistemi avanzati di filte-

ring di siti web, e VIKEF (Virtual Information

and Knowledge Environment Framework)8,in cui gli strumenti di Italian NLP sono utiliz-zati per l’annotazione semantica di testi e lacostruzione di ontologie, nell’ambito delleiniziative relative al Semantic Web. Questisono solo alcuni dei numerosi esempi di pro-getti e iniziative in cui i prodotti del TAL la-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

0

0

0

1

62

7 Il progetto TRAGUARDI, di cui è responsabile la dott.ssa Anna Gammaldi di FORMEZ, è un’azione di soste-gno alle pubbliche amministrazioni per la gestione dei fondi strutturali.

8 http://www.vikef.net

Estrazione di termini dai testi

{museo, quadro, pinacoteca, biblioteca,sito_archeologico, museo_archeologico,museo_etrusco, scultura, affresco, ...}

C_MUSEO: {museo, pinacoteca, ...}

C_MUSEO_ARCHEOLOGICO: {museo_archeologico, museo_etrusco, ...}

C–OPERA_ARTISTICA: {quadro, scultura, affresco, ...}

Clustering concettuale dei termini

Strutturazione dei concetti

TAL

C_MUSEO

C_MUSEO_ARCHEOLOGICO

is_aOntologia

FIGURA 4TAL e ontology

learning

Page 8: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

sciano i centri di ricerca per entrare a direttocontatto con l’utenza e il mercato. Inoltre èimportante notare come i contesti applicativiriguardino tipologie di testi completamentediverse, che vanno dai documenti legislativialla documentazione della pubblica ammini-strazione, fino al linguaggio dei siti web.Questo testimonia la versatilità della ricercaattuale sul TAL nella sua capacità di affronta-re il linguaggio naturale nella complessitàdelle sue più diverse e varie manifestazioni.

4. RISORSE LESSICALIPER IL TAL

Gli strumenti e le applicazioni del TAL hannobisogno di poter interpretare il significatodelle parole, porta di accesso al contenuto diconoscenza codificato nei documenti. I lessici

computazionali hanno lo scopo di fornire unarappresentazione esplicita del significato del-le parole in modo tale da poter essere diretta-mente utilizzato da parte di agenti computa-zionali, come, per esempio, parser, moduliper Information Extraction ecc.. I lessici com-putazionali multilingui aggiungono alla rap-presentazione del significato di una parola leinformazioni necessarie per stabilire delleconnessioni tra parole di lingue diverse.Nell’ultimo decennio numerose attività han-no contribuito alla creazione di lessici com-putazionali di grandi dimensioni. All’esempiopiù noto, la rete semantico-concettualeWordNet [7] sviluppata all’università di Prin-ceton, si sono affiancati anche altri repertoridi informazione lessicale, come PAROLE [21],SIMPLE [14] e EuroWordNet [23] in Europa,Comlex e FrameNet negli Stati Uniti, ecc.. Perquanto riguarda l’italiano, è importante cita-re i lessici computazionali ItalWordNet e CLI-PS, entrambi sviluppati nell’ambito di dueprogetti nazionali finanziati dal MIUR e coor-dinati da Antonio Zampolli.ItalWordNet è una rete semantico-lessicaleper l’italiano, strutturata secondo il modellodi WordNet e consiste in circa 50.000 entrate.Queste sono costituite da uno o più sensi

raggruppati in synset (gruppi di sensi sinoni-mi tra loro). I synset sono collegati tra loroprincipalmente da relazioni di iperonimia9,che permettono di strutturare il lessico in ge-rarchie tassonomiche. I nodi più alti delle tas-sonomie sono a loro volta collegati agli ele-menti di una ontologia (Top Ontology), indi-pendente da lingue specifiche, che ha la fun-zione di organizzare il lessico in classi seman-tiche molto generali. Infine, ogni synset dellarete è collegato, tramite una relazione diequivalenza, a synset del WordNet america-no. Questo collegamento costituisce l’indiceinterlingue (Interlingual Index – ILI) e attra-verso di esso ItalWordNet viene a essere inte-grata nella famiglia di reti semantiche svilup-pata nel progetto europeo EuroWordNet, di-ventando così una vera e propria risorse les-sicale multilingue (Figura 5). L’ILI è anche col-legato alla Domain Ontology, che contieneun’ontologia di domini semantici. Oltre all’i-peronimia, il modello ItalWordNet compren-de anche una grande varietà di altre relazioni

semantiche che, collegando sensi di lemmianche appartenenti a categorie morfosintat-tiche differenti, permettono di evidenziare di-verse relazioni di significato, operanti sia a li-vello paradigmatico sia a livello sintagmatico.Il progetto SIMPLE (Semantic Information for

Multipurpose Plurilingual LExica) ha portatoalla definizione di un’architettura per lo svi-luppo di lessici computazionali semantici ealla costruzione di lessici computazionali per12 lingue europee (Catalano, Danese, Finlan-dese, Francese, Greco, Inglese, Italiano, Olan-dese, Portoghese, Spagnolo, Svedese, Tede-sco). I lessici di SIMPLE rappresentano uncontributo estremamente innovativo nel set-tore delle risorse lessicali per il TAL, offrendouna rappresentazione articolata e multidi-mensionale del contenuto semantico dei ter-mini lessicali. Il modello di rappresentazionesemantica di SIMPLE è stato usato anche perla costruzione di CLIPS, che include 55.000entrate lessicali con informazione fonologica,morfologica, sintattica e semantica.Il modello SIMPLE costituisce un’architettura

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

63

0

0

0

1

9 Un termine lessicale x è un iperonimo di un termine lessicale y se, e solo se, y denota un sottoinsieme del-le entità denotate da x. Per esempio, animale è un iperonimo di cane. La relazione simmetrica è quella diiponimia, per cui cane è un iponimo di animale.

Page 9: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

per lo sviluppo di lessici computazionali nelquale il contenuto semantico è rappresenta-to da una combinazione di diversi tipi di en-tità formali [14] con i quali si cerca di catturarela multidimensionalità del significato di unaparola. In tal modo, SIMPLE tenta di fornire

una risposta a importanti questioni che coin-volgono la costruzione di ontologie di tipi les-sicali, facendo emergere allo stesso tempoproblemi cruciali relativi alla rappresentazio-ne della conoscenza lessicale. Al cuore delmodello SIMPLE è possibile trovare un reper-torio di tipi semantici di base e un insieme diinformazioni semantiche che devono esserecodificate per ciascun senso. Tali informazio-ni sono organizzate in template, ovvero strut-ture schematiche che rappresentano formal-mente l’articolazione interna di ogni tipo se-mantico, specificando così vincoli semantico-strutturali per gli oggetti lessicali apparte-nenti a quel tipo. I tipi semantici formano laCore Ontology di SIMPLE (Tabella 1), uno deicui modelli ispiratori è la Struttura Qualia de-finita nella teoria del Lessico Generativo [5,20]. I tipi semantici sono, infatti, organizzatisecondo principi ortogonali, quali la funzionetipica delle entità, la loro origine o costituzio-ne mereologica ecc., nel tentativo di superarei limiti quelle ontologie che troppo spesso ap-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

0

0

0

1

64

1. TELIC

2. AGENTIVE

2.1. Cause

3. CONSTITUTIVE

3.1. Part

3.1.1. Body_part

3.2. Group

3.2.1. Human_group

3.3. Amount

4. ENTITY

4.1. Concrete_entity

4.1.1. Location

...

Traffico Entità di 2° ordine

Indice Inter-Linguistico

Dominio - Ontologico Apice - Ontologico

MODULO DI LINGUAGGIO INDIPENDENTE

III I

III

III

III

III

III

III

III

III

II

II II

Sede DinamicoRijden

Guidare Cavalcare

Andaremuoversi

Berijden

ILI-registrazione{guidare}

WordnetInglese

Movetravel go Bewegen

reizen gaan

Ride

Cabalgarjinetear

Conducir

Movertransitar

Tabella di elementi lessicali Tabella di elementi lessicali

Tabella di elementi lessicali Tabella di elementi lessicali

Drive

WordnetSpagnolo

WordnetTedesco

WordnetItaliano

Trafficoaereo

Trafficostradale

I = Collegamento a linguaggio indipendente

II = Collegamento da linguaggio specifico aindice inter-linguistico

III = Collegamento a linguaggio dipendente

FIGURA 5L’architettura di EuroWordNet

TABELLA 1Un frammento della

Core Ontologydi SIMPLE

Page 10: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

piattiscono la ricchezza concettuale sulla so-la dimensione tassonomica.Il modello di SIMPLE fornisce le specificheper la rappresentazione e la codifica diun’ampia tipologia di informazioni lessicali,tra le quali il tipo semantico, l’informazionesul dominio, la struttura argomentale per itermini predicativi, le preferenze di selezio-ne sugli argomenti, informazione sul com-portamento azionale e aspettuale dei termi-ni verbali, il collegamento delle strutturepredicative semantiche ai frame di sottoca-tegorizzazione codificati nel lessico sintatti-co di PAROLE, informazioni sulle relazioni diderivazione tra parole appartenenti a partidel discorso diverse (per esempio, intelli-

gente – intelligenza; scrittore – scrivere

ecc.). In SIMPLE, i sensi delle parole sono co-dificati come Unità Semantiche o SemU. Adogni SemU viene assegnato un tipo semanti-co dall’ontologia, più altri tipi di informazio-ni specificate nel template associato a cia-scun tipo semantico. La tabella 2 fornisceuna rappresentazione schematica di due en-trate lessicali (per il nome violino e il verbo

guardare) codificate secondo le specifichedel modello SIMPLE. Il potere espressivo diSIMPLE è costituito da un ampio insieme direlazioni organizzate lungo le quattro di-mensioni della Struttura Qualia proposta nelLessico Generativo come assi principali delladescrizione lessicale, cioè Formal Role, Con-

stitutive Role, Agentive Role e Telic Role. Ledimensioni Qualia vengono usate per coglie-re aspetti diversi e multiformi del significatodi una parola. Per esempio il Telic Role ri-guarda la funzione tipica di un’entità o l’atti-vità caratteristica di una categoria di indivi-dui (esempio, la funzione prototipica di unprofessore è insegnare). L’Agentive Role ri-guarda, invece, il modo in cui un’entità ècreata (esempio, naturalmente o artificial-mente), mentre il Constitutive Role rappre-senta la composizione o struttura interna diun’entità (per esempio, le sue parti o il ma-teriale di cui è composta). In SIMPLE, è pos-sibile discriminare fra i vari sensi delle paro-le calibrando l’uso dei diversi tipi di informa-zione resi disponibili dal modello. Per esem-pio, la figura 6 mostra una possibile caratte-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

65

0

0

0

1

Lemma: Violino

SEMU_ID: #V1

POS: N

GLOSS: Tipo di strumento musicale

DOMAIN: MUSIC

SEMANTIC_TYPE: Instrument

FORMAL_ROLE: Isa strumento_musicaleCONSTITUTIVE_ROLE: Has_as_part corda

Made_of legnoTELIC_ROLE: Used_by violinista

Used_for suonare

Lmma: Guardare

SEMU_ID: #G1

POS: V

GLOSS: Rivolgere lo sguardo verso qualcosa per osservarlo

SEMANTIC_TYPE: Perception

EVENT_TYPE Process

FORMAL_ROLE: Isa percepireCONSTITUTIVE_ROLE: Instrument occhio

Intentionality = yes

PRED_REPRESENTATION: Guardare (Arg0: aniùate)(Arg1: entity)

SYN_SEM_LINKING: Arg0 = subj_NP

Arg1 = obj NP

TABELLA 2Entrate lessicalidi SIMPLE perviolino e guardare

Page 11: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

rizzazione di una porzione di spazio seman-tico associato alla parola “ala” il cui conte-nuto può essere articolato in quattro SemUche hanno in comune lo stesso tipo semanti-co (ovvero PART), ma che possono comun-que essere distinte attraverso le relazioniche esse hanno con altre unità semantiche.Per esempio, se da una parte la SemU_1 e laSemU_3 sono simili per quanto concerne ladimensione della funzionalità (entrambe siriferiscono a entità usate per volare), sonodistinte per quanto riguarda gli aspetti costi-tutivi, poiché la SemU_1 si riferisce a unaparte di un aereo e la SemU_3 alla parte diun uccello ecc.. Nonostante si sia ancoralontani dal poter fornire rappresentazioniveramente soddisfacenti del contenuto diuna parola, l’architettura di SIMPLE tenta diavvicinarsi alla complessità del linguaggionaturale fornendo un modello altamenteespressivo e versatile per descrivere il con-tenuto linguistico.I lessici computazionali devono essere conce-piti come sistemi dinamici il cui sviluppo si in-tegra strettamente con processi di acquisizio-ne automatica di informazione dai testi. Dalmomento che i significati delle parole vivono,crescono e mutano nei contesti linguistici incui occorrono, la loro rappresentazione nei re-pertori lessicali deve tenere necessariamentein considerazione le modalità con le qualil’informazione lessicale emerge dal materialetestuale e come quest’ultimo contribuisce al-la creazione e alla variazione del significato.Conseguentemente, i lessici computazionali –anche di grandi dimensioni – non possono es-

sere mai concepiti come repertori statici echiusi. Al contrario, i lessici computazionalisono in grado al più di fornire nuclei di descri-zione semantica che comunque devono esse-re costantemente personalizzati, estesi eadattati a diversi domini, applicazioni, tipolo-gie di testo ecc.. In questo senso, il processodi creazione di risorse semantico-lessicali sideve accompagnare allo sviluppo di strumen-ti e metodologie per il lexical tuning, ovveroper l’adattamento dell’informazione semanti-ca ai concreti contesti d’uso [4]. Questa sem-bra essere una condizione essenziale affinchéle risorse linguistiche possano diventare stru-menti versatili e adattativi per l’elaborazionedel contenuto semantico dei documenti.Gli strumenti per affrontare questo problemavengono dalla ricerca sull’acquisizione auto-

matica della conoscenza e, più in generale,dall’uso di tecniche di apprendimento auto-

matico, sia supervisionato che non supervi-sionato. Molti di questi metodi sono basatisu un modello distribuzionale del significato,secondo il quale il contenuto semantico diuna parola o termine è derivabile dal modo incui esso si distribuisce linguisticamente, ov-vero dall’insieme dei contesti in cui è usato[16]. Secondo questo approccio, a ciascunaparola di un testo viene associata una rap-presentazione in forma di vettore distribuzio-nale. Le dimensioni dei vettore sono datedalle dipendenze grammaticali del terminecon altri termini lessicali (verbi, nomi, agget-tivi ecc.) nei documenti, oppure più sempli-cemente dalle parole che occorrono con iltermine all’interno di una certa finestra dicontesto. I vettori distribuzionali vengonogeneralmente estratti dai testi in maniera au-tomatica con gli strumenti del TAL. Attraversol’applicazione di algoritmi di clustering allerappresentazioni vettoriali è possibile rico-struire spazi di similarità semantica tra i ter-mini, ovvero classi di termini o parole seman-ticamente simili [17]. Infatti, il grado di simila-rità semantica tra due termini è proporziona-le al grado di similarità della loro distribuzio-ne grammaticale nei testi. In questo modo, èpossibile arricchire ed estendere le risorselessicali con nuove informazioni sul compor-tamento semantico delle parole e che diret-tamente rispecchiano il loro l’uso nei testi.Nuovi sensi o usi specifici di un certo domi-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

0

0

0

1

66

FabbricareAla

SemU: 3232Type: [Part]Parte di aeroplano

SemU: 3268Type: [Part]Parte di edificio

SemU: D358Type: [Body_part]Organo degli uccelli

SemU: 3467Type: [Role]Ruolo nel gioco del calcio

Aeroplano

Uccello

Agentive

Used_for

Used_for

Part_for

Part_for

Member_for

Part_for

Agentive

Volare

Edificio

GiocatoreIsa

Squadra

FIGURA 6Rappresentazione dei significati di ala in SIMPLE

Page 12: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

nio o registro linguistico sono, quindi, deriva-bili automaticamente attraverso l’uso combi-nato del TAL e di algoritmi di apprendimento.Una maggiore comprensione dei problemi ri-guardanti le profonde interrelazioni tra rap-presentazione e acquisizione del significatodei termini lessicali potrebbe avere impor-tanti ripercussioni su come le risorse lingui-stiche verranno in futuro costruite, sviluppa-te e usate per le applicazioni.

5. STANDARD PER LE RISORSELINGUISTICHE

Un altro aspetto di fondamentale importanzaper il ruolo delle risorse lessicali (e più in ge-nerale linguistiche) nel TAL è come ottimizza-re la produzione, mantenimento e interscam-bio tra le risorse linguistiche, così come il pro-cesso che porta alla loro integrazione nelleapplicazioni. La precondizione essenziale perraggiungere questi risultati è stabilire unastruttura comune e standardizzata per la co-struzione dei lessici computazionali che pos-sa garantire la codifica dell’informazione lin-guistica in maniera tale da assicurare la suariutilizzazione da parte di applicazioni diver-se e per compiti diversi. In questo modo, sipuò rafforzare la condivisione e la riusabilitàdelle risorse lessicali multilingui promuoven-do la definizione di un linguaggio comune perla comunità degli sviluppatori e utilizzatori dilessici computazionali. Un’importante inizia-tiva internazionale in questa direzione è statarappresentata dal progetto ISLE (Internatio-

nal Standards for Language Engineering) [6],continuazione di EAGLES (Expert Advisory

Group for Language Engineering Standards),ambedue ideati e coordinati da Antonio Zam-polli. ISLE è stato congiuntamente finanziatodall’Unione Europea e dal National Science

Foundation (NSF) negli USA e ha avuto comeobiettivo la definizione di una serie di stan-dard e raccomandazioni in tre aree crucialiper le tecnologie della lingua:1. lessici computazionali multilingui, 2. interattività naturale e multimedialità, 3. valutazione. Per quanto riguarda il primo tema, Il Computa-

tional Lexicon Working Group (CLWG) di ISLE siè occupato di definire consensualmente un’in-frastruttura standardizzata per lo sviluppo di

risorse lessicali multilingui per le applicazionidel TAL, con particolare riferimento alle specifi-che necessità dei sistemi di traduzione auto-matica e di Crosslingual Information Retrieval.Nel corso della sua attività, ISLE ha fatto suo ilprincipio metodologico secondo il quale il pro-cesso di standardizzazione, nonostante persua natura non sia intrinsecamente innovati-vo, deve comunque procedere a stretto con-tatto con la ricerca più avanzata. Il processo distandardizzazione portato avanti da ISLE ha,infatti, perseguito un duplice obiettivo:1. la definizione di standard sia a livello dicontenuto che di rappresentazione per que-gli aspetti dei lessici computazionali che so-no già ampiamente usati dalle applicazioni;2. la formulazione di raccomandazioni per learee più di “frontiera” della semantica com-putazionale, ma che possono comunque for-nire un elevato contributo di innovazione tec-nologica nel settore del TAL.Come strumento operativo per raggiungerequesti obiettivi, il CLWG di ISLE ha elaboratoMILE (Multilingual ISLE Lexical Entry), un mo-dello generale per la codifica di informazionelessicale multilingue. MILE è uno schema di entrata lessicale carat-terizzata da un’architettura altamente modu-

lare e stratificata [6]. La modularità riguardal’organizzazione “orizzontale” di MILE, nellaquale moduli indipendenti ma comunquecorrelati coprono diverse dimensioni del con-tenuto lessicale (monolingue, multilingue,semantico, sintattico ecc.). Dall’altro lato, allivello “verticale” MILE ha adottato un’orga-nizzazione stratificata per permettere varigradi di granularità nelle descrizioni lessicali.Uno degli scopi realizzativi di MILE è statoquello di costruire un ambiente di rappresen-tazione comune per la costruzioni di risorselessicali multilingui, allo scopo di massimiz-zare il riutilizzo, l’integrazione e l’estensionedei lessici computazionali monolingui esi-stenti, fornendo al tempo stesso agli utilizza-tori e sviluppatori di risorse linguistiche unastruttura formale per la codifica e l’inter-scambio dei dati. ISLE ha, dunque, cercato dipromuovere la creazione di un’infrastrutturaper i lessici computazionali intesi come risor-se di dati linguistici aperte e distribuite. Inquesta prospettiva, MILE agisce come unmeta-modello lessicale per facilitare l’intero-

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

67

0

0

0

1

Page 13: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

perabilità a livello di contenuto in due dire-zioni fondamentali: interoperabilità tra risor-se linguistiche, per garantire la riusabilità eintegrazione dei dati e interoperabilità tra ri-sorse linguistiche e sistemi del TAL che devo-no accedere ad esse.Il ruolo infrastrutturale delle risorse linguisti-che nell’ambito del TAL richiede che essevengano armonizzate con le risorse di altrelingue, valutate con metodologie riconosciu-te a livello internazionale, messe a disposi-zione della intera comunità nazionale, man-tenute e aggiornate tenendo conto dellesempre nuove esigenze applicative. All’inter-no di questo contesto si inserisce, oggi, il di-segno, promosso da chi scrive di un “cam-biamento di paradigma” nella produzione euso di una nuova generazione di risorse estrumenti linguistici, concepiti come Open

Linguistic Infrastructure, attraverso l’utilizzodi metadati e di standard che permettono lacondivisione di tecnologie linguistiche svi-luppate anche in ambiti diversi, e il loro usodistribuito in rete. Questa nuova concezioneè anche determinante per realizzare appienola visione del Semantic Web, ovvero l’evolu-zione del web in uno spazio di contenuti ef-fettivamente “comprensibili” dal calcolatoree non solo da utenti umani e con accessomultilingue e multiculturale.

6. CONCLUSIONIE PROSPETTIVE

Una delle priorità a livello nazionale ed euro-peo è costruire una società basata sullainformazione e sulla conoscenza. La lingua è

veicolo e chiave di accesso alla conoscenza,e oggi più che mai è urgente la realizzazionedi una infrastruttura consolidata di tecnolo-gie linguistiche. Gli sviluppi recenti nel TAL ela crescente diffusione di contenuti digitalimostrano che i tempi sono maturi per unasvolta nella capacità di elaborare grandiquantità di documenti testuali al fine di ren-derli facilmente accessibili e usabili per un’u-tenza sempre più vasta e composita.Alcuni temi su cui articolare il TAL per una so-cietà della conoscenza sono:1. accesso “intelligente” all’informazione

multilingue e trattamento del “contenuto”

digitale - è urgente aumentare la disponibi-

lità di strumenti e risorse capaci di automa-tizzare le operazioni linguistiche necessarieper produrre, organizzare, rappresentare, ar-chiviare, recuperare, elaborare, navigare, ac-quisire, accedere, visualizzare, filtrare, tra-durre, trasmettere, interpretare, utilizzare, inuna parola condividere la conoscenza;2. interattività naturale e interfacce intelli-

genti - si devono sviluppare sistemi cheagevolino la naturalezza dell’interazioneuomo-macchina e aiutare la comunicazioneinterpersonale mediando l’interazione tralingue diverse;3. il patrimonio culturale e il contenuto digita-

le - le tecnologie del TAL favoriscono la cresci-ta dell’industria dei “contenuti”, con ampieopportunità per un Paese, come l’Italia, tradi-zionale produttore di industria culturale:4. promozione della ricerca umanistica nella

società dell’informazione - le tecnologie delTAL forniscono nuovi strumenti anche per lescienze umanistiche, facilitando la produzio-ne e fruizione dei contenuti culturali, e evi-denziano il contributo potenziale anche dellericerche umanistiche sul piano delle oppor-tunità economiche e dello sviluppo sociale.Per realizzare l’obiettivo di un accesso avan-zato al contenuto semantico dei documenti ènecessario affrontare la complessità del lin-guaggio naturale. L’attuale esperienza nelTAL dimostra che una tale sfida si può vinceresolo adottando un approccio interdisciplina-re e creando un ambiente altamente avanza-to per l’analisi computazionale della lingua,l’acquisizione di conoscenze attraverso l’ela-borazione automatica dei testi e lo sviluppodi una nuova generazione di risorse linguisti-che basate sul rappresentazioni avanzate estandardizzate del contenuto lessicale.

Bibliografia

[1] Bartolini R., Lenci A., Montemagni S., Pirrelli V.:Grammar and Lexicon in the Robust Parsing of

Italian: Towards a Non-Naïve Interplay. Procee-dings of the Workshop on Grammar Enginee-ring and Evaluation, COLING 2002 Post-Confe-rence Workshop, Taipei, Taiwan, 2002.

[2] Bartolini R., Lenci A., Montemagni S., Pirrelli V.:Hybrid Constraints for Robust Parsing: First Ex-

periments and Evaluation. Proceedings of LREC2004, Lisbona, Portugal, 2004.

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

0

0

0

1

68

Page 14: STRUMENTI E RISORSE PER IL TRATTAMENTO …archivio-mondodigitale.aicanet.net/Rivista/04_numero_tre/Lenci p... · logie più varie (testi normativi, manuali, agenzie stampa, rapporti

[3] Bartolini R., Lenci A., Montemagni S., Pirrelli, V.,Soria C.: Semantic Mark-up of Italian Legal

Texts through NLP-based Techniques. Procee-dings of LREC 2004, Lisbona, Portugal, 2004.

[4] Basili R., Catizone R., Pazienza M-T., StevensonM., Velardi P., Vindigni M., Wilks Y.: An Empirical

Approach to Lexical Tuning. Proceedings of theLREC1998 Workshop on Adapting Lexical andCorpus Resources to Sublanguages and Appli-cations, Granada, Spain, 1998.

[5] Busa F., Calzolari N., Lenci A., Pustejovsky J.:Building a Semantic Lexicon: Structuring and

Generating Concepts. In Bunt H., Muskens R.,Thijsse E. (eds.): Computing Meaning Vol. II.Kluwer, Dordrecht, 2001.

[6] Calzolari N., Bertagna F., Lenci A., Monachini M.:Standards and best Practice for Multilingual

Computational Lexicons and MILE (Multilingual

ISLE Lexical Entry). ISLE deliverables D2.2 – D3.2http://lingue.ilc.cnr.it/EAGLES96/isle/ISLE_Ho-me_Page.htm, 2003.

[7] Fellbaum C., (ed.): WordNet. An Electronic Lexi-

cal Database. MIT Press, Cambridge (MA), 1998.

[8] Gómez-Pérez A., Manzano-Macho D.: A Survey of

Ontology Learning Methods and Techniques. On-toweb Deliverable 1.5 http://ontoweb.aifb.uni-karlsruhe.de/About/Deliverables, 2003.

[9] Gruber T.R.: A Translation Approach to PortableOntologies. Knowledge Acquisition, Vol. 5, 1993.

[10] Hepple M., Ireson N., Allegrini P., Marchi S.,Montemagni S., Gomez Hidalgo J.M.: NLP-

enhanced Content Filtering within the POESIA

Project. Proceedings of LREC 2004, Lisbona,Portugal, 2004.

[11] Jackson P, Moulinier I.: Natural Language Pro-

cessing for Online Applications: Text Retrieval,

Extraction, and Categorization. John Benja-mins, Amsterdam, 2002.

[12] Joscelyne A., Lockwood R.: Benchmarking HLT

Progress in Europe. HOPE, Copenhagen, 2003.

[13] Jurafsky D., Martin J.H.: Speech and Language

Processing. Prentice Hall, Upper Saddle River(NJ), 2000.

[14] Lenci A., Bel N., Busa F., Calzolari N., Gola E.,Monachini M., Ogonowsky A., Peters I., PetersW., Ruimy N., Villegas M., Zampolli A.: SIMPLE:A General Framework for the Development ofMultilingual Lexicons. International Journal of

Lexicography, Vol. 13, 2000.

[15] Lenci A., Montemagni S., Pirrelli V.: CHUNK-IT. AnItalian Shallow Parser for Robust Syntactic An-notation. Linguistica Computazionale, Vol. 16-17, 2003.

[16] Lenci A., Montemagni S., Pirrelli V., (eds.): Se-

mantic Knowledge Acquisition and Representa-

tion, Giardini Editori. Pisa, in stampa.

[17] Lin D., Pantel P.: Concept Discovery from Text.Proceedings of the Conference on Computatio-nal Linguistics 2002, Taipei, Taiwan, 2002.

[18] Maedche A., Staab S.: Ontology Learning forthe Semantic Web. IEEE Intelligent Systems,Vol. 16, 2001.

[19] Manning C.D., Sch_tze H.: Foundations of Stati-

stical Natural Language Processing. MIT Press,Cambridge (MA), 1999.

[20] Pustejovsky J.: The Generative Lexicon. MITPress, Cambridge (MA), 1995.

[21] Ruimy N., Corazzari O., Gola E., Spanu A., Calzo-lari N., Zampolli A.: The European LE-PAROLE

Project: The Italian Syntactic Lexicon. Procee-dings of the LREC1998, Granada, Spain, 1998.

[22] Staab S., Studer R. (eds.): Handbook of Ontolo-

gies. Springer Verlag, Berlin, 2003.

[23] Vossen P.: Introduction to EuroWordNet. Com-

puters and the Humanities. Vol. 32, 1998.

M O N D O D I G I T A L E • n . 2 - g i u g n o 2 0 0 4

1

69

0

0

0

1

NICOLETTA CALZOLARI è direttore dell’Istituto di Linguistica Computazionale del CNR di Pisa. Lavora nel settoredella Linguistica Computazionale dal 1972. Ha coordinato moltissimi progetti nazionali, europei e internazio-nali, è membro di numerosi Board Internazionali (ELRA, ICCL, ISO, ELSNET ecc.), Conference Chair di LREC2004, invited speaker e membro di Program Committee dei maggiori convegni del [email protected]

ALESSANDRO LENCI è ricercatore presso il Dipartimento di Linguistica dell’Università di Pisa e docente di Lingui-stica Computazionale. Ha conseguito il perfezionamento alla Scuola Normale Superiore di Pisa e collaboracon l’Istituto di Linguistica Computazionale del CNR. Autore di numerose pubblicazioni, i suoi interessi di ri-cerca riguardano la semantica computazionale, i metodi per l’acquisizione lessicale, e le scienze [email protected]