Download - RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

Transcript
Page 1: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

71

All'interno del progetto "LinguisticaComputazionale: ricerche monolingui e multi-lingui" finanziato con la legge 488/1999,l'Istituto è stato coinvolto nello studio e svilup-po di strumenti e risorse per la lingua arabaall'interno dell'obiettivo "Corpus bilingueItaliano - Arabo". In tale obiettivo sono staticoinvolte le unità operative: IstitutoUniversitario Orientale di Napoli, ilDipartimento Scienze Storiche del MondoAntico dell'Università di Pisa e l'Istituto diLinguistica Computazionale del CNR di PISA.Lo sviluppo del progetto si è articolato nellacreazione di risorse linguistiche e di strumentiinformatici per la gestione e l'analisi di talerisorse. Compito dll'Istituto di LinguisticaComputazionale è stato quello di svilupparegli strumenti e di coordinare il progetto dalpunto di vista informatico. Del gruppo di svi-luppo e coordinamento hanno fatto parte :Eugenio Picchi, Eva Sassolini, Ouafae nahli,Sebastiana Cucurullo.

Risorse linguistiche" corpora testuali di riferimento: i com-

ponenti del corpus, italiano ed arabo, devonoessere comparabili; cioè disegnati, composti,strutturati, collegati ed analizzati con gli stessicriteri; il corpus generico sarà costituito da 8milioni di parole per ogni lingua;

" dizionari: costruzione dei lessici di rife-rimento per i motori morfologici;

" corpora di testi bilingui paralleli: unaparte sostanziale dei corpora sarà costituitada testi paralleli, cioè da testi arabi e dalla loro

traduzione italiana, e/o viceversa; il corpusbilingue parallelo allineato sarà di 4 milioni diparole;

" corpora testuali con annotazione lessi-cale e morfosintattica: un sottoinsieme deicorpora sarà annotato, cioè analizzato, a livel-lo morfosintattico, in maniera automatica econ controllo in post-editing; il corpus relativosarà di 2 milioni.

Strumenti linguistici

- Motori morfologici automatici per lagenerazione e l'analisi delle due lingue, utiliz-zando le risorse lessicali (lessici e templateflessionali) disponibili;

- disambiguatori automatici per l'annota-zione morfosintattica dei testi: procedure didisambiguazione operanti su base statisticacon fase di controllo in post-editing;

- allineatore automatico dei testi paralle-li arabi e italiani: procedura di allineamentoautomatica su base statistica con funzione dipost-editing interattiva per il controllo dei risul-tati;

- acquisizione, analisi e funzioni diaccesso (con relativo query system) dei testidei corpora per le due lingue, n e l l evarie fasi di elaborazione con adattamento delsistema DBT per poter gestire testi in linguaaraba.

Le esperienze e le competenze per lo svi-luppo degli strumenti di analisi linguistica

RISORSE E STRUMENTILINGUISTICI BILINGUI PERL'ITALIANO E L'ARABO

EUGENIO PICCHIIstituto di Linguistica ComputazionaleConsiglio Nazionale delle Ricerche

Page 2: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

72

saranno messi a disposizione dall'Istituto diLinguistica Computazionale il quale utilizzerà,come background per quello che riguarda lalingua italiana e gli algoritmi di sviluppo dell'in-tero progetto, gli strumenti di analisi linguisticasviluppati all'interno dellla linea di sviluppoPiSystem (vedere www.ilc.cnr.it/pisystem).

Il Motore per l'analisi testuale sarà realiz-zato attraverso una specializzazione del siste-ma DBT (Data Base Testuale) gestione,visualizzazione e navigazione di testi in linguaaraba. (vedere fig. 1)

Lo sviluppo per tale lingua è stato fattoattraverso la creazione di un sistema proprie-tario, in grado cioè di funzionare anche sutastiera e sistema operativo non specializzatiper tale lingua.

Il motore morfologico.

I sistemi morfologici automatici per l'italia-no e per l'arabo sono stati realizzati attraversolo sviluppo di: lessici specializzati di riferimen-to, modelli (template) flessionali, strumentiinformatici per la generazione (vedere fig. 2) e

strumenti informatici per l'analisi (vedere fig.3).

Procedure guidano i linguisti nella crea-zione delle risorse lessicali e morfologiche,nella verifica dei risultati del meccanismo fles-sionale; le funzioni di generazione e di analisisono state realizzate, oltre che come strumen-ti immediati stand-alone, anche come libreriaAPI in grado di essere utilizzata anche da pro-cedure di elaborazione linguistica più com-plesse.

Page 3: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

73

Page 4: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

Strumenti e risorse per l'allineamento

E' stato sviluppato un sistema per l'alli-neamento automatico di testi bilingui (uno tra-duzione dell'altro) in italiano ed arabo per con-sentire l'analisi contrastiva di testi delle duelingue.

Tale strumento ha adottato l'approcciostatistico per generare una "sincronizzazione"dei testi bilingui, permettendo (anche attraver-so una eventuale fase di verifica in post-edi-ting) le creazione di banche testuali dati di cor-pora "allineati" e permettendo infine l'interro-gazione e navigazione di corpora paralleli inmaniera contrastiva. (vedere figura 4)

Lemmatizzazione / annotazione lingui-stica

La procedura di classificazione automati-

ca lessicale e morfologica di testi in linguaaraba è stata realizzata utilizzando lo stessoalgoritmo impiegato per il sistema sviluppatoper la lingua italiana. Tale sistema provvedealla disambiguazione automatica operando subase statistica disponendo delle risorsenecessarie che sono costituite: dal relativo

motore morfologico utilizzato in fase di analisied in grado di fornire le ipotesi di analisi perciascuna parola del testo; da un corpus di testigià analizzati e lemmatizzati (detto Trainingcorpus) dal quale sono ricavate le conoscenzelinguistiche per operare le scelte di disambi-guazione su base statistica.

Un post-editing interattivo permette laverifica e la correzione dei risultati, mentre iltesto lemmatizzato entra a costituire la bancadati di corpora annotati. Sono stati implemen-tati strumenti per l'interrogazione e la naviga-zione di corpora arabi annotati.

74

Page 5: RISORSE E STRUMENTI LINGUISTICI BILINGUI PER … · VECCIA VALIERI L., Grammatica Teorico-Pratica della lingua Araba, vol. I e vol. II, Istituto per l'Oriente, Roma, 2000. Paragon

75

BIBLIOGRAFIA

CHURCH K.W., GALE W., Concordancesfor Parallel Text - Using Corpora, inProceedings of 7th Annual Conference of theUW Centre for the New OED and TextResearch, OUP, Oxford, 1991, 40-62.

CHURCH K.W., GALE W., A Program forAligning Sentences in Bilingual Corpora,Computational Linguistics, 1993, 72-102.

EL-DAHDAH A., A dictionary of Arabicgrammar in charts and tables, Librairie duLiban, Publishers, 1999.

MARINAI E., PETERS C., PICCHI E.,The Pisa Multilingual Lexical Data BaseSystem, in Esprit BRA 3030. Twelve MonthDeliverable, 1990, ILC-ACQ-2-90.

MARINAI E., PETERS C., PICCHI E.,Bilingual Reference Corpora: A System forParallel Text Retrieval, in Using Corpora,Proceedings of 7th Annual Conference of the

UW Centre for the New OED and TextResearch: OUP, Oxford, 1991, 63-70.

MARINAI E., PETERS C., PICCHI E., APrototipe System for the semi-automaticsense linking and merging of mono-and bilin-gual LDBS, in N. IDE, S. HOKEY Research inHumanities Computing, (ed.), OUP, Oxford,1994.

PICCHI E., D.B.T.: A Textual Data BaseSystem, in Computational Lexicology andLexicography, Special issue dedicated toBernard Quemada, (II ed.), LinguisticaComputazionale, Pisa, 1991.

VECCIA VALIERI L., GrammaticaTeorico-Pratica della lingua Araba, vol. I e vol.II, Istituto per l'Oriente, Roma, 2000.

Paragon Software (Smart HandheldDevices Division), www.penreader.com

Zerboni,F., www.sit5.com/recensioni/soft-ware.