RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica...

5
71 All'interno del progetto "Linguistica Computazionale: ricerche monolingui e multi- lingui" finanziato con la legge 488/1999, l'Istituto è stato coinvolto nello studio e svilup- po di strumenti e risorse per la lingua araba all'interno dell'obiettivo "Corpus bilingue Italiano - Arabo". In tale obiettivo sono stati coinvolte le unità operative: Istituto Universitario Orientale di Napoli, il Dipartimento Scienze Storiche del Mondo Antico dell'Università di Pisa e l'Istituto di Linguistica Computazionale del CNR di PISA. Lo sviluppo del progetto si è articolato nella creazione di risorse linguistiche e di strumenti informatici per la gestione e l'analisi di tale risorse. Compito dll'Istituto di Linguistica Computazionale è stato quello di sviluppare gli strumenti e di coordinare il progetto dal punto di vista informatico. Del gruppo di svi- luppo e coordinamento hanno fatto parte : Eugenio Picchi, Eva Sassolini, Ouafae nahli, Sebastiana Cucurullo. Risorse linguistiche " corpora testuali di riferimento: i com- ponenti del corpus, italiano ed arabo, devono essere comparabili; cioè disegnati, composti, strutturati, collegati ed analizzati con gli stessi criteri; il corpus generico sarà costituito da 8 milioni di parole per ogni lingua; " dizionari: costruzione dei lessici di rife- rimento per i motori morfologici; " corpora di testi bilingui paralleli: una parte sostanziale dei corpora sarà costituita da testi paralleli, cioè da testi arabi e dalla loro traduzione italiana, e/o viceversa; il corpus bilingue parallelo allineato sarà di 4 milioni di parole; " corpora testuali con annotazione lessi- cale e morfosintattica: un sottoinsieme dei corpora sarà annotato, cioè analizzato, a livel- lo morfosintattico, in maniera automatica e con controllo in post-editing; il corpus relativo sarà di 2 milioni. Strumenti linguistici - Motori morfologici automatici per la generazione e l'analisi delle due lingue, utiliz- zando le risorse lessicali (lessici e template flessionali) disponibili; - disambiguatori automatici per l'annota- zione morfosintattica dei testi: procedure di disambiguazione operanti su base statistica con fase di controllo in post-editing; - allineatore automatico dei testi paralle- li arabi e italiani: procedura di allineamento automatica su base statistica con funzione di post-editing interattiva per il controllo dei risul- tati; - acquisizione, analisi e funzioni di accesso (con relativo query system) dei testi dei corpora per le due lingue, nelle varie fasi di elaborazione con adattamento del sistema DBT per poter gestire testi in lingua araba. Le esperienze e le competenze per lo svi- luppo degli strumenti di analisi linguistica RISORSE E STRUMENTI LINGUISTICI BILINGUI PER L'ITALIANO E L'ARABO EUGENIO PICCHI Istituto di Linguistica Computazionale Consiglio Nazionale delle Ricerche

Transcript of RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica...

Page 1: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

71

All'interno del progetto "LinguisticaComputazionale: ricerche monolingui e multi-lingui" finanziato con la legge 488/1999,l'Istituto è stato coinvolto nello studio e svilup-po di strumenti e risorse per la lingua arabaall'interno dell'obiettivo "Corpus bilingueItaliano - Arabo". In tale obiettivo sono staticoinvolte le unità operative: IstitutoUniversitario Orientale di Napoli, ilDipartimento Scienze Storiche del MondoAntico dell'Università di Pisa e l'Istituto diLinguistica Computazionale del CNR di PISA.Lo sviluppo del progetto si è articolato nellacreazione di risorse linguistiche e di strumentiinformatici per la gestione e l'analisi di talerisorse. Compito dll'Istituto di LinguisticaComputazionale è stato quello di svilupparegli strumenti e di coordinare il progetto dalpunto di vista informatico. Del gruppo di svi-luppo e coordinamento hanno fatto parte :Eugenio Picchi, Eva Sassolini, Ouafae nahli,Sebastiana Cucurullo.

Risorse linguistiche" corpora testuali di riferimento: i com-

ponenti del corpus, italiano ed arabo, devonoessere comparabili; cioè disegnati, composti,strutturati, collegati ed analizzati con gli stessicriteri; il corpus generico sarà costituito da 8milioni di parole per ogni lingua;

" dizionari: costruzione dei lessici di rife-rimento per i motori morfologici;

" corpora di testi bilingui paralleli: unaparte sostanziale dei corpora sarà costituitada testi paralleli, cioè da testi arabi e dalla loro

traduzione italiana, e/o viceversa; il corpusbilingue parallelo allineato sarà di 4 milioni diparole;

" corpora testuali con annotazione lessi-cale e morfosintattica: un sottoinsieme deicorpora sarà annotato, cioè analizzato, a livel-lo morfosintattico, in maniera automatica econ controllo in post-editing; il corpus relativosarà di 2 milioni.

Strumenti linguistici

- Motori morfologici automatici per lagenerazione e l'analisi delle due lingue, utiliz-zando le risorse lessicali (lessici e templateflessionali) disponibili;

- disambiguatori automatici per l'annota-zione morfosintattica dei testi: procedure didisambiguazione operanti su base statisticacon fase di controllo in post-editing;

- allineatore automatico dei testi paralle-li arabi e italiani: procedura di allineamentoautomatica su base statistica con funzione dipost-editing interattiva per il controllo dei risul-tati;

- acquisizione, analisi e funzioni diaccesso (con relativo query system) dei testidei corpora per le due lingue, n e l l evarie fasi di elaborazione con adattamento delsistema DBT per poter gestire testi in linguaaraba.

Le esperienze e le competenze per lo svi-luppo degli strumenti di analisi linguistica

RISORSE E STRUMENTILINGUISTICI BILINGUI PERL'ITALIANO E L'ARABO

EUGENIO PICCHIIstituto di Linguistica ComputazionaleConsiglio Nazionale delle Ricerche

Page 2: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

72

saranno messi a disposizione dall'Istituto diLinguistica Computazionale il quale utilizzerà,come background per quello che riguarda lalingua italiana e gli algoritmi di sviluppo dell'in-tero progetto, gli strumenti di analisi linguisticasviluppati all'interno dellla linea di sviluppoPiSystem (vedere www.ilc.cnr.it/pisystem).

Il Motore per l'analisi testuale sarà realiz-zato attraverso una specializzazione del siste-ma DBT (Data Base Testuale) gestione,visualizzazione e navigazione di testi in linguaaraba. (vedere fig. 1)

Lo sviluppo per tale lingua è stato fattoattraverso la creazione di un sistema proprie-tario, in grado cioè di funzionare anche sutastiera e sistema operativo non specializzatiper tale lingua.

Il motore morfologico.

I sistemi morfologici automatici per l'italia-no e per l'arabo sono stati realizzati attraversolo sviluppo di: lessici specializzati di riferimen-to, modelli (template) flessionali, strumentiinformatici per la generazione (vedere fig. 2) e

strumenti informatici per l'analisi (vedere fig.3).

Procedure guidano i linguisti nella crea-zione delle risorse lessicali e morfologiche,nella verifica dei risultati del meccanismo fles-sionale; le funzioni di generazione e di analisisono state realizzate, oltre che come strumen-ti immediati stand-alone, anche come libreriaAPI in grado di essere utilizzata anche da pro-cedure di elaborazione linguistica più com-plesse.

Page 3: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

73

Page 4: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

Strumenti e risorse per l'allineamento

E' stato sviluppato un sistema per l'alli-neamento automatico di testi bilingui (uno tra-duzione dell'altro) in italiano ed arabo per con-sentire l'analisi contrastiva di testi delle duelingue.

Tale strumento ha adottato l'approcciostatistico per generare una "sincronizzazione"dei testi bilingui, permettendo (anche attraver-so una eventuale fase di verifica in post-edi-ting) le creazione di banche testuali dati di cor-pora "allineati" e permettendo infine l'interro-gazione e navigazione di corpora paralleli inmaniera contrastiva. (vedere figura 4)

Lemmatizzazione / annotazione lingui-stica

La procedura di classificazione automati-

ca lessicale e morfologica di testi in linguaaraba è stata realizzata utilizzando lo stessoalgoritmo impiegato per il sistema sviluppatoper la lingua italiana. Tale sistema provvedealla disambiguazione automatica operando subase statistica disponendo delle risorsenecessarie che sono costituite: dal relativo

motore morfologico utilizzato in fase di analisied in grado di fornire le ipotesi di analisi perciascuna parola del testo; da un corpus di testigià analizzati e lemmatizzati (detto Trainingcorpus) dal quale sono ricavate le conoscenzelinguistiche per operare le scelte di disambi-guazione su base statistica.

Un post-editing interattivo permette laverifica e la correzione dei risultati, mentre iltesto lemmatizzato entra a costituire la bancadati di corpora annotati. Sono stati implemen-tati strumenti per l'interrogazione e la naviga-zione di corpora arabi annotati.

74

Page 5: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

75

BIBLIOGRAFIA

CHURCH K.W., GALE W., Concordancesfor Parallel Text - Using Corpora, inProceedings of 7th Annual Conference of theUW Centre for the New OED and TextResearch, OUP, Oxford, 1991, 40-62.

CHURCH K.W., GALE W., A Program forAligning Sentences in Bilingual Corpora,Computational Linguistics, 1993, 72-102.

EL-DAHDAH A., A dictionary of Arabicgrammar in charts and tables, Librairie duLiban, Publishers, 1999.

MARINAI E., PETERS C., PICCHI E.,The Pisa Multilingual Lexical Data BaseSystem, in Esprit BRA 3030. Twelve MonthDeliverable, 1990, ILC-ACQ-2-90.

MARINAI E., PETERS C., PICCHI E.,Bilingual Reference Corpora: A System forParallel Text Retrieval, in Using Corpora,Proceedings of 7th Annual Conference of the

UW Centre for the New OED and TextResearch: OUP, Oxford, 1991, 63-70.

MARINAI E., PETERS C., PICCHI E., APrototipe System for the semi-automaticsense linking and merging of mono-and bilin-gual LDBS, in N. IDE, S. HOKEY Research inHumanities Computing, (ed.), OUP, Oxford,1994.

PICCHI E., D.B.T.: A Textual Data BaseSystem, in Computational Lexicology andLexicography, Special issue dedicated toBernard Quemada, (II ed.), LinguisticaComputazionale, Pisa, 1991.

VECCIA VALIERI L., GrammaticaTeorico-Pratica della lingua Araba, vol. I e vol.II, Istituto per l'Oriente, Roma, 2000.

Paragon Software (Smart HandheldDevices Division), www.penreader.com

Zerboni,F., www.sit5.com/recensioni/soft-ware.