i
PARTE PRIMA PREMESSA 1
1. LA TRADUZIONE
1.1 Introduzione 3
1.1.1 Una buona traduzione 4
1.2 Alcuni presupposti linguistici per la traduzione 7
2. NATURAL LANGUAGE PROCESSING
2.1 Introduzione 14
2.2 Livelli di analisi 18
2.2.1 Analisi morfologica 18
2.2.2 Analisi sintattica 22
2.2.3 Analisi semantica 28
2.2.4 Analisi del discorso 34
2.3 Generazione di linguaggio naturale 35
3. LA TRADUZIONE AUTOMATICA
3.1 Introduzione 37
3.2 Storia della traduzione automatica 38
3.3 Modelli di traduzione 46
3.3.1 Approccio Diretto 48
3.3.2 Approccio Transfer 48
3.3.3 Approccio Interlingua 50
3.4 Sistemi di traduzione automatica 54
4. IL LESSICO MULTILINGUE E I DIZIONARI
4.1 Introduzione 67
4.2 Multi-words 68
ii
4.2.1 Frasi idiomatiche 68
4.2.2 Collocazioni 71
4.2.3 Il progetto XMELLT 73
4.3 I Dizionari 75
4.3.1 ISLE 77
4.3.2 PAROLE-SIMPLE 78
4.4 MILE 81
PARTE SECONDA
5. UNIVERSAL NETWORKING LANGUAGE
5.1 Introduzione 88
5.2 Componenti 89
5.2.1 Specifiche : Relazioni ed Attributi 90
5.2.2 Dizionario delle Parole Universali 103
5.2.3 Base di Conoscenza 107
5.3 Master Dictionary 109
5.4 Dizionario di Co-occorrenze 110
5.5 Il Server Linguistico 111
CONCLUSIONI 118
SUMMARY 120
APPENDICE 129
APPENDICE 2 134
BIBLIOGRAFIA 144
iii
RINGRAZIAMENTI
Un ringraziamento sentito va ai ricercatori tutti dell’Istituto di Linguistica Computazionale
del CNR di Pisa ed in modo particolare alla Dott.ssa Irina Prodanof, per il costante e
puntuale supporto; Dott.ssa Gabriella Pardelli, per la pazienza avuta nel consigliarmi e
seguirmi nella ricerca bibliografica; Dott. Vito Pirrelli, Dott. Alessandro Lenci, Dott.ssa
Nicoletta Calzolari; Dott. Alessandro Paccosi; Dott.ssa Daniela Giorgetti; Dott.ssa Claudia
Soria; Dott.ssa Francesca Bertagna; Dott.ssa Francesca Carota.
Un grazie particolare alla Dott.ssa Michela Cislaghi, Dott.ssa Donella Antelmi, Dott.ssa
Frances Hotimsky dell’Università IULM per avermi seguito sempre con grande disponibilità
nella stesura di questo lavoro.
Grazie anche ai miei genitori, che hanno permesso tutto questo, agli amici di sempre e a
quelli nuovi per l’incoraggiamento.
iv
A mio nonno
v
PREMESSA
Lo scopo di questo lavoro è quello di mettere in evidenza quali siano i problemi legati
all’analisi e alla produzione di linguaggio naturale attraverso l’utilizzo di metodi
computazionali. In modo particolare ho rivolto la mia attenzione alla traduzione automatica,
uno strumento che fin dalla nascita dei primi calcolatori è stato oggetto di studio da parte di
studiosi impegnati in ricerche in linguistica computazionale.
Ho inizialmente tentato di individuare alcune teorie linguistiche che sono poi servite come
base teorica allo sviluppo di tecniche computazionali di traduzione (cap. 1); mi sono poi
dedicata all’analisi degli strumenti che la linguistica computazionale ha ideato per la
creazione di modelli adatti all’interpretazione e alla riproduzione di linguaggi naturali
(cap.2).
I capitoli 3 e 4 sono interamente dedicati alla traduzione automatica, presentando le diverse
strategie adottate per la progettazione dei sistemi e alcuni prototipi o sistemi commerciali;
quindi, ho preso in esame uno degli aspetti più spinosi del linguaggio in un contesto di
traduzione automatica: quello delle frasi idiomatiche e delle collocazioni.
Infine ho presentato il progetto UNL (Universal Networking Language) il linguaggio
artificiale che consente applicazioni non solo nel campo della traduzione automatica, ma in
generale studiato per la presentazione multilingue di documenti.
Il progetto, che ho avuto modo di seguire da vicino al CNR di Pisa, ha come fondamento
l’interlingua; si presenta cioè come un linguaggio artificiale autonomo ed indipendente che
funge da passaggio tra due linguaggi naturali; mi preme qui sottolineare che si differenzia da
altri linguaggi artificiali, quali ad esempio l’Esperanto, in quanto la conoscenza dei suoi
vocaboli e sintassi non è necessaria data la presenza di un software apposito per la
conversione e deconversione di UNL da e in linguaggi naturali.
UNL è stato studiato per trovare la sua collocazione in Internet e avere quindi il duplice
vantaggio di lavorare con uno strumento veloce e capillarmente diffuso.
UNL dovrebbe presto diventare una realtà commerciale, un mezzo che potrà essere inserito
nei nostri computer per abbattere una delle ultime barriere di Internet, il nostro prediletto
strumento informativo e comunicativo: la diversità linguistica.
vi
La presentazione del sistema Universal Networking Language è stata resa possibile grazie al
supporto fornito dall’Istituto di Linguistica Computazionale del CNR di Pisa, presso il quale
ho avuto l’occasione di trascorrere un periodo di tempo prolungato.
Durante la mia permanenza ho potuto usufruire di tutti gli spazi dell’area, dei mezzi
informatici, della biblioteca e della completa disponibilità dei ricercatori dell’Istituto.
Preziosissmo è stato il supporto datomi dalla Dott.ssa Irina Prodanof, responsabile dello
sviluppo del progetto UNL in Italia, che con competenza, pazienza e costanza mi ha seguito
in ogni fase della stesura di questa tesi, consigliandomi materiale bibliografico, tenendomi
sempre aggiornata sulle evoluzioni che interessavano il progetto, aiutandomi inoltre a
comprendere gli aspetti più tecnici che si accompagnano al trattamento del linguaggio
naturale.
1
1. LA TRADUZIONE
1.1 INTRODUZIONE
Quando si pensa alla traduzione, si ha l’immagine di un processo quasi meccanico per cui un
testo scritto in una determinata lingua viene trasformato in un testo equivalente, ma in una
lingua differente. Portare avanti una convinzione del genere è riduttivo ed estremamente
superficiale, sia per quanto riguarda la “filosofia” della traduzione, sia perché i processi
concreti di traduzione si configurano come un elaborato insieme di conoscenze linguistiche
che devono essere apprese nella loro totalità e combinate a seconda delle esigenze (mi
riferisco alla sintassi, semantica, morfologia e fonetica delle lingue del mondo).
Quando parlo di “filosofia della traduzione” mi riferisco a tutte quelle riflessioni di carattere
filologico-culturale necessarie per capire che cosa sia esattamente una traduzione, come si
inserisca in un contesto mondiale multilingue e in che modo si configuri come elemento di
trasmissione culturale.
La traduzione deve essere considerata come un mezzo privilegiato per venire in contatto con
culture diverse, che si manifestano attraverso sistemi linguistici differenti che sono
un’espressione della propria esperienza, una particolare visione del mondo.
Tale idea è stata proposta dal linguista tedesco Wilhelm von Humboldt che, nel suo trattato
del 1836 “La variabilità linguistica e lo sviluppo intellettuale”, presenta la prima
affermazione sistematica relativa alla lingua come visione del mondo:
“ogni lingua traccia intorno al popolo cui appartiene un cerchio da cui è possibile
uscire solo passando, nel medesimo istante, nel cerchio di un’altra lingua.
L’apprendimento di una lingua straniera dovrebbe essere pertanto l’acquisizione di
una nuova prospettiva nella visione del mondo fino allora vigente e lo è in effetti in
un certo grado, dato che ogni lingua contiene l’intera trama dei concetti e la
maniera di rappresentazione di una parte dell’umanità. Solo perché in una lingua
straniera si trasporta sempre, in misura maggiore o minore, la propria visione del
mondo, anzi la visione della propria lingua, si ha la sensazione di non aver
raggiunto un risultato pieno e assoluto”.1
1 Citazione tratta da A. Duranti, Antropologia del linguaggio, Maltemi, Roma, 2000, pg. 65
2
La traduzione è una strategia comunicativa, che propone un’analisi intelligente di un testo2
per portarlo in una nuova dimensione culturale senza la presunzione di sostituirsi ad esso.
Infatti, quando si parla di traduzione di un testo, non dobbiamo pensare ad una sola
traduzione, ma a più possibili traduzioni: un processo traduttivo non è solo linguistico, ma
anche mentale che aiuta al rinnovamento della lingua, che la fa evolvere.
Il fine ultimo che deve essere rintracciato nella riproduzione di un messaggio non è solo
quello di rispettare una certa correttezza dal punto di vista formale, ma anche saper trasporre
elementi culturali e pragmatici caratteristici della comunità che parla una determinata lingua
e che trasmette attraverso il suo proprio sistema linguistico.
1.1.1 UNA BUONA TRADUZIONE
A questo punto è però necessario chiedersi che cosa voglia dire tradurre e quali siano i
parametri che consentono di stabilire il grado di esattezza di una traduzione (quando cioè il
significato del testo nella lingua di partenza è uguale a quello della lingua di arrivo).
Per capire questo possiamo costruire una similitudine con il sistema fonologico, per cui si
dice che due foni sono equivalenti se hanno in comune gli stessi tratti minimi che li
costituiscono; allo stesso modo possiamo dire che due espressioni linguistiche – della stessa
lingua3 o di lingue diverse – sono equivalenti se hanno lo stesso significato, quando è cioè
possibile ricondurle ad una stessa unità di senso.4
A questo proposito Saumjan5 parla di lingua semantica o genotipica: è una lingua formata da
minime unità di senso che compongono le strutture più complesse; in questo modo, se in una
lingua non esiste il corrispondente di un’espressione complessa, sarà comunque possibile
tradurla componendola in unità semantiche più piccole.
Inoltre lo stesso Saumjan cerca di delineare una correlazione esistente tra lingua e cultura per
cui il sistema semantico di una determinata lingua, nel momento in cui si trova a contatto
con altri sistemi, assume il ruolo di identificare il legame che esiste tra il parlante e la sua
cultura.
2U. Rapallo, La ricerca in linguistica, La Nuova Italia Scientifica, Roma, 1994, pg.221 3 cfr, il pensiero di Jakobson p. 7 4 Ibid. 5 Cfr. E. Rigotti, La traduzione nelle teorie linguistiche contemporanee, in “Processo traduttivi: teorie ed applicazioni”, Atti del seminario su “La traduzione”, Brescia, 19/20 novembre 1981, Editrice La Scuola, Brescia, 1982, p. 93
3
Figura 1: Schematizzazione del processo traduttivo.6
Concretamente, quando un parlante utilizza la propria lingua, fa un’operazione di scelta
all’interno delle numerose possibilità di materiali espressivi che ha a disposizione e questi
differiscono per la funzione che andranno a ricoprire all’interno del testo; queste scelte
vengono effettuate in base al patrimonio culturale del parlante. Risulta chiaro quindi come al
momento della traduzione, nonostante possano essere state utilizzate meticolose perifrasi, il
testo della lingua di arrivo (L2) non possa ritenersi esattamente equivalente a quello di
partenza (L1) in quanto esisteranno diverse funzioni testuali (cioè il rapporto che si crea tra il
significato di ciò che il parlante vuole comunicare e il significato stesso del linguaggio).
6 E. Rigotti, op.cit, pg. 95
Rappresentazione intensionale ed estensionale
Proiezione dell’autore
Proiezione del traduttore
Testo in L1
Decodificazione del traduttore
Testo in L2
Decodificazione del nuovo destinatario
4
Inoltre, risulta importante anche l’apporto del traduttore e del nuovo destinatario del
messaggio (testo) in quanto a loro volta interpreteranno il testo secondo un diverso
patrimonio culturale. Il nodo cruciale resta la base di conoscenza condivisa: l’emittente può
dare per scontato che il ricevente possa facilmente ricostruire le parti non esplicite
dell’enunciato.
In questo senso possiamo dire la traduzione si identifica come un vero e proprio atto
linguistico, nel senso che ogni testo va a modificare in qualche modo il sistema linguistico
introducendo innovazioni all’interno del sistema stesso, come dimostrano i fenomeni del
prestito e del calco.7
L’estensione di una parola indica l’insieme degli oggetti ai quali si può riferire una
determinata parola; ad esempio gli oggetti che hanno una copertina e hanno pagine scritte,
saranno l’estensione della parola “ libro “ (potrebbero infatti essere cataloghi o brochure
informative).
L’intensione di una parola è l’insieme delle proprietà che definiscono un oggetto in modo da
categorizzarli in una specifica estensione; ed esempio il fatto di essere femmina e essere
genitore di un essere animato, è l’intensione della parola “ madre “.
Vedremo poi che l’estensione e l’intensione della parola saranno concetti ripresi ed adattati
alle esigenze della traduzione automatica, in modo particolare per quanto riguarda la
costruzione dell’ontologia.8
Una buona traduzione deve essere in grado di rispettare determinati criteri, quali la
corrispondenza, la stabilità, l’equivalenza e la fedeltà.9
!" Corrispondenza di elementi che si trovano nell’uno e nell’altro sistema, creare cioè una
corrispondenza di strutture;
!" Stabilità : seguire cioè lo stesso metodo traduttivo quando si devono trasformare le stesse
strutture:
7 Con prestito si intende il fenomeno per cui una lingua trae da un’altra un elemento linguistico, generalmente lessicale, assumendolo nella sua forma originaria (es. bar, film, club, etc.) o adattandolo al proprio sistema fonomorfologico (es. “bistecca” dall’inglese “beafsteak”; il calco è invece quel fenomeno per cui un vocabolo, una locuzione o un costrutto di una lingua, vengono riprodotti nei loro elementi costitutivi con le corrispondenti forme in un’altra lingua (es. order of the day = ordine del giorno). 8 Cfr. p. 50 9 R. Titone, Problemi psicologici e psicolinguistici del traduzttore, in “Processi traduttivi: teorie ed applicazioni”, Atti del seminario su “La traduzione”, Brescia, 19/20 novembre 1981, Editrice La Scuola, Brecia, 1982
5
!" Fedeltà : rappresenta la validità dell’equazione che il traduttore stabilisce tra L1 e L2 (è
qui implicito il rapporto significato / significante per cui cambiando i significanti si
mantiene il significato). E’ comunque da rilevare come non esista una equivalenza
perfetta tra due sistemi linguistici diversi – si veda ad esempio il caso in cui è necessario
ricorrere a perifrasi per tradurre parole lessicalizzate (es. francese haranguier, che
corrisponde all’italiano “ barca per la pesca delle aringhe);
!" Equivalenza : per stabilire quanto una traduzione sia fedele si può utilizzare il metodo
della retroversione; in questo modo vengono ripercorse le tappe del processo traduttivo
cambiando però le procedure; nei due processi, quindi, non sarà possibile ottenere delle
perfette equivalenze, quanto meno dal punto di vista lessicale, soprattutto a causa della
frequenza d’uso di termini parzialmente equivalenti (es. italiano scatola = inglese box,
case, tin…).
1.2 ALCUNI PRESUPPOSTI LINGUISTICI PER LA TRADUZIONE
La ricerca linguistica ha trascurato di considerare la traduzione come oggetto di studio per
quasi tutto il secolo passato; la ragione di questo atteggiamento è da rintracciare nella
difficoltà, dal punto di vista teoretico, di inquadrare debitamente il processo traduttivo
all’interno delle concezioni dello strutturalismo classico.
Uno dei concetti fondanti dello strutturalismo, è quello di “ langue “, proposto da Ferdinand
de Saussure secondo cui la langue è la parte sociale che esiste nel linguaggio, cioè un codice,
un insieme di convenzioni essenziali che permettono ad una determinata comunità
linguistica di avere un’efficiente comunicazione.
In quest’ottica la lingua viene rappresentata come un sistema linguistico chiuso e strutturato
in se stesso.10
Partendo da questo presupposto, la traduzione si configura come un procedimento illecito in
quanto, volendo utilizzare una similitudine con il linguaggio matematico, tenta di stabilire
un’equivalenza tra grandezze appartenenti a due sistemi linguistici diversi.11
La posizione di Saussure sembra essere troppo radicale per non sollevare alcune perplessità
di carattere filologico (ad esempio sarebbe impossibile spiegare il fenomeno dei prestiti
linguistici per cui oggi la parola inglese “computer” è entrata a far parte a pieno titolo nei 10 M. Negri (a cura di), Navadhyayi, Ed. Il Calamo, Roma, 1999, pp. 3-4. 11 E. Rigotti, op.cit.
6
lemmi dei dizionari di italiano), ma offre comunque, a mio avviso, un ottimo spunto di
riflessione: possiamo immaginare una lingua come la rappresentazione del mondo fatta dai
parlanti di quella determinata lingua, come un sistema complesso di articolare l’esperienza;
in questo senso quindi non si può pensare di trasferire intatto il significato da una lingua ad
un’altra. Si può semmai parlare di traduzione come il procedimento che trasferisce ciò che è
significativo in una lingua in quello che di significativo esiste nella lingua di arrivo.
Tentativi di ovviare a questa visione limitata di sistema linguistico, ma soprattutto limitativa
se pensiamo ai processi di traduzione, sono stati condotti dagli studi linguistici di Roman
Jakobson, Noam Chomsky, così come dalle proposte della semantica generativa.
Roman Jakobson viene ricordato soprattutto per la sua teoria universalista di descrizione
fonologica attraverso dodici opposizioni binarie (compatto~diffuso; sonoro~non sonoro…)
Tale universalismo è rintracciabile anche nella sua analisi del processo di traduzione: la
traduzione non solo viene riconosciuta e giustificata a livello teorico, ma diventa un
momento estremamente significativo del processo semiotico.
Riprendendo i postulati saussuriani dei due assi associativi della similarità e della contiguità,
in una lingua Roman Jakobson distingueva un asse della selezione, o paradigma, da un asse
della combinazione, o sintagma. Il primo, verticale, permette di selezionare fra le indefinite
possibilità di scelta di un oggetto linguistico, il secondo consente di scegliere la sequenza o
sintassi di combinazione degli elementi. Quando si articola o si scrive la frase: “Il cavallo
corre sul prato” attuo le due possibilità: combino sintatticamente gli elementi che fanno parte
del mio bagaglio linguistico e li metto in un preciso rapporto fra loro in base al loro ordine
reciproco. Sono libero sul piano sintagmatico e paradigmatico: potrei infatti dire ugualmente
“il cane corre sul prato”, ma anche “il personal computer corre sul prato”, “il cavallo
formatta sul floppy”, o persino “sul il cavallo prato corre”. In entrambi i casi, sia che mi
muova verticalmente, sia che mi muova orizzontalmente cambierò radicalmente il senso del
mio enunciato fino a raggiungere risultati imprevedibili, il cui contenuto di informazione
varierà da zero a infinito (valori semiologicamente omologhi).12
In questa prospettiva è importante chiarire cosa il linguista intendesse per interpretazione
dell’enunciato, dato che – come abbiamo visto – è possibile costruire frasi
grammaticalmente corrette, ma comunque incomprensibili; per Jakobson interpretare è
12 tratto dal sito http://www.brocku.ca/commstudies/courses/2F50/jackobson
7
tradurre : dare il significato ad un’espressione vuol dire trasportarlo in un altro segno
sostituibile a quell’espressione.13
Per quanto riguarda Noam Chomsky, è difficile proporre una definizione precisa del suo
lavoro in quanto si interessò di problemi di diversa natura, non sempre seguendo un
percorso lineare; certo è che l’avvento della grammatica generativa, con la pubblicazione di
Syntactic Structure nel 1957, fu una vera rivoluzione scientifica; Chomsky infatti propose di
considerare la lingua dall’interno, come fa la psicologia cognitiva. Lo scopo del linguista
americano era quello di individuare gli elementi che concorrono alla conoscenza del
linguaggio e come tale conoscenza viene appresa.
Uno dei temi centrali della teoria chomskiana è l’ipotesi dell’innatismo sull’origine e il
funzionamento del linguaggio.
Con questa teoria, Chomsky cerca di spiegare il fenomeno per cui il parlante di una qualsiasi
lingua riesce a comprendere e a produrre un numero illimitato di enunciati usando un
numero limitato di regole grammaticali che permettono di formulare gli enunciati stessi: in
ogni persona esisterebbe un meccanismo innato di acquisizione del linguaggio, chiamato
LAD (dall’inglese Language Acquisition Device); questo stesso meccanismo si adatterebbe
poi con il tempo alla lingua parlata nell’ambiente in cui il soggetto si trova a vivere.
La formula che combina innatismo e adattamento, sottintende processi universali che si
attivano nel momento in cui si viene a contatto con una lingua specifica. Tali meccanismi
universali sono rintracciabili riducendo le varie strutture profonde (cioè le regole, le
categorie e le funzioni universali necessarie per l’interpretazione semantica) in strutture
superficiali(cioè le specifiche realizzazioni nelle diverse lingue)
In altre parole, ogni parlante ha una naturale conoscenza della lingua – tratto che Chomsky
definisce come competenza – che si manifesta in modi diversi (l’esecuzione) .
Il problema di fondo che si manifesta a questo punto, è quello di stabilire come riconoscere
frasi corrette e non all’interno di una determinata lingua. Chomsky cerca di dare una
dimostrazione pratica presentando un modello per la struttura dell’enunciato; opera una
distinzione tra frasi nucleari e frasi non nucleari, intendendo con le prime frasi semplici,
assertive e attive; le non nucleari sono le frasi più complesse (negative, passive,
interrogative) derivanti dalla trasformazione delle frasi nucleari.14
13 R. Jackobson, Aspetti linguistici della traduzione, in L. Heilman (a cura di), “Saggi di linguistica generale”, Feltrinelli, Milano, 1966, p. 57 14 F. Antinucci nella traduzione a Noam Chomsky, Syntactic Structure, Editori Laterza, Bari, 1970, p. xxiii.
8
Per l’argomento che qui stiamo trattando, dobbiamo rilevare che Chomsky non parla mai
esplicitamente di traduzione, ma alcuni punti della sua teoria possono esser utili per una
riflessione sui processi che creano la traduzione.
In modo particolare, voglio prendere in esame due aspetti : da un lato l’idea dell’esistenza di
strutture superficiali e profonde e, dall’altro, l’analisi della struttura interna dell’enunciato.
Per quanto riguarda la distinzione superficiale, bisogna rilevare come in quest’ottica la
traduzione si verrebbe a configurare come un semplice strumento meccanico di passaggio fra
le due strutture; si svilirebbe insomma uno degli scopi principali della traduzione, cioè
quello di essere una nuova strategia comunicativa in grado di inserirsi in un altro contesto
culturale (si pensi soprattutto all’immagine di lingua come visione del mondo, come
rappresentazione di esperienza).
Decisamente più significativa è la costruzione del modello di analisi interna dell’enunciato :
in questo modo il traduttore è in grado di ricostruire la struttura della frase tradotta
verificandone l’esattezza, almeno dal punto di vista sintattico, confrontandola con le regole
grammaticali e le relative combinazioni della lingua nella quale si sta traducendo.15
Diamo qui di seguito un esempio dello schema chomskiano di rappresentazione interna
dell’enunciato : “la bambina mangia la mela che ha comprato”:
16
15 Cfr. Noam Chomsky, Le strutture della sintassi, Editori Laterza, Bari, 1970, p.74 16 S = frase; SV = sintagma verbale; SN = sintagma nominale; SP = sintagma preposizionale; V = verbo
S
SN SVLa bambina
V
SN
SP
che mangia la mela
S
SNLa bambina ha comprato
SV
9
Partendo dalle osservazioni di Chomsky in merito alla sintassi, sul finire degli anni ’60 si
sviluppò la teoria linguistica della “semantica generativa”; lo stesso linguista americano in
Syntactic Structure sostiene che uno dei risultati dello studio formale della grammatica, sia
quello di evidenziare uno schema che sostenga l’analisi semantica.17
Il problema di fondo è quello di spiegare come vengano comprese le frasi nucleari,
considerate come “ elementi di contenuto” fondamentali.18
Il legame tra sintassi e semantica viene rintracciato nell’analisi dell’enunciato per cui la
prima ne studia la struttura interna e l’altra ne dà un’interpretazione.
In particolare due aspetti possono considerarsi lontani dai procedimenti traduttivi :
innanzitutto il fatto di limitarsi ad analizzare strutture enunciative, senza prendere in esame
l’intera struttura testuale ; in secondo luogo, manca la contestualizzazione – uno dei punti
cardine della traduzione.
Pensiamo infatti alle primissime fasi del processo traduttivo: due regole universalmente
riconosciute sono quella di compiere inizialmente una lettura generale del testo per avere
un’idea del contenuto complessivo, dell’argomento; quindi cercare di evitare la cosiddetta
traduzione parola per parola per cui si avrebbe una mera trascrizione lessicale senza
precisazioni o trasformazioni di carattere grammaticale o sintattico.
Sempre per quanto riguarda la contestualizzazione, dobbiamo ricordare che, in fase di
traduzione, per poter assegnare un certo significato ad una parola si devono rispettare
determinate regole che agiscono a tutti i livelli linguistici, vengono cioè analizzate tutte le
possibili alternative restringendo via via il campo.
Prendiamo come esempio l’ausiliare inglese “ will” che, all’interno di una frase, può
assumere diverse valenze :
1. corrisponde all’italiano futuro semplice :
!" “ Tomorrow she will be in Rome” = “ domani sarà a Roma”
2. si usa quando si vuole esprimere una decisione presa nell’immediatezza del momento,
per esprimere offerte, richieste, minacce e promesse:
!" I know what I’ll do: I’ll write her a letter = so cosa fare: le scriverò una lettera
!" Will you turn on the light, please? = puoi accendere la luce per favore?
17 Ibid. p. 159 18 Ibid. p. 138
10
!" I’ll break every bone of your body if you don’t shut up! = ti rompo tutte le ossa se
non stai zitto!
!" I’ll give it back to you, I promise = prometto di restituirtelo
3. si usa per indicare un comportamento abituale; in questo caso può essere utilizzato anche
il presente semplice, ma “will” vuole porre più enfasi alla frase:
!" Every time we go there she’ll offer us coffee though she knows we don’t like it =
tutte le volte che andiamo da lei ci offre del caffè anche se sa che non ci piace.
4. Se l’enfasi viene posta sull’ausiliare sta ad indicare una forte determinazione :
!" If you will sit in a draught, you’re bound to catch a cold = se insisti a stare seduto in
mezzo alla corrente, sei sicuro di prenderti un raffreddore.19
Esistono principalmente due modalità di contestualizzazione :
1. esiste ambiguità a livello semantico e quindi la contestualizzazione serve per rendere
univoco il rapporto tra lessema e significato;
2. l’unità linguistica è generica e la contestualizzazione serve per la una specificazione
o determinazione del contenuto.
Questi due processi sono ben distinti dal punto di vista semantico in quanto dal rapporto
univoco è possibile passare alla specificazione mentre non è possibile il contrario; quindi,
per esempio, se dico di avere una casa grande ed una piccola posso dire di avere due case, se
dico di avere incontrato un pastore sardo, un pastore protestante ed un pastore bergamasco,
non posso dire di avere incontrato tre pastori.20
19 Esempi tratti da G. Dowling, A study of the English Verb for Italians, Supernova, Venezia, 1993, pp. 22-28 20 Esempi tratti da E. Rigotti, op. cit., p. 88
11
Segno nella lingua Segno nel testo
"""""""""""""""""""""""""""#################"a
…………. b
…………. i
…………. n
A
Figura 2: schematizzazione di processi di disambiguazione e specificazione21
Le lettere maiuscole rappresentano i significanti (aspetto fonico del segno linguistico),
mentre le minuscole i significati (contenuto semantico del segno linguistico); all’interno
della classe dei significati, l’uguaglianza di lettera vuole indicare l’appartenenza ad uno
stesso genere. Con il processo di disambiguazione si vuole indicare l’esatto significato da
attribuire ad un determinato significante; la specificazione permette invece di ridurre
l’estensione del significante.
In questa breve panoramica ho cercato di mettere in evidenza come l’analisi delle dinamiche
del linguaggio, le problematiche legate alla sua interpretazione e riflessioni legate ai processi
di traduzione siano da molti decenni oggetti di studio della linguistica.
Nei prossimi capitoli vedremo come tutti questi temi siano stati affrontati con l’ausilio dei
calcolatori e quali siano stati i passaggi che hanno portato a pensare alla traduzione
automatica come possibile strumento ideale di comunicazione in un contesto sempre più
multilingue.
21 Tratto da E. Rigotti, op. cit., p.87
A $ Processo di disambiguazione
A i
a1
a2
a3
a4
Processo di specificazione
A a3
12
NATURAL LANGUAGE PROCESSING
2.1 INTRODUZIONE
L’automazione di particolari processi che riguardano l’analisi e la produzione del linguaggio
naturale (Trattamento Automatico del Linguaggio Naturale) si è sviluppato di pari passo con
l’evoluzione tecnologica che ha interessato la nostra società: il crescente valore attribuito alla
comunicazione e all’informazione ha introdotto nuove tecniche che mettono in grado l’uomo
di relazionarsi in modo completo con il resto del mondo.
Possiamo individuare alcuni fattori chiave che hanno rivoluzionato il nostro modo di
utilizzare le lingue:22
!" La rapida evoluzione dei sistemi di comunicazione ha trasformato le società nazionali
in società multilingue e si sono quindi resi necessari strumenti in grado di affrontare
questo nuovo assetto;
!" La crescita tecnologica ha permeato ogni aspetto della società e ha prodotto nuove
attività economiche, molte delle quali si basano su un’efficiente comunicazione e sul
reperimento di informazioni attendibili;
!" Le relazioni politico-internazionali, culturali ed economiche hanno subito una
crescita esponenziale, il che ha richiesto un nuovo modo di concepire la traduzione;
!" Il linguaggio in sé è diventato una merce del mercato culturale e, ora più che mai, in
un momento in cui globalizzazione e individualismo vanno di pari passo, si avverte
la necessità di preservare le differenze linguistiche come simbolo di identità
culturale.
!" Internet: è lo strumento per eccellenza della globalizzazione; attraverso la rete è
possibile accedere a qualsiasi tipo di informazione semplicemente collegandosi con
un computer ad una linea telefonica.
È evidente come uno strumento come Internet, i cui utenti, che parlano le lingue più diverse,
hanno la possibilità di accedere all’informazione, necessiti di un’elasticità linguistica molto
ampia; se è vero che ancora oggi la maggior parte delle pagine Internet è redatta in inglese,
non dobbiamo dimenticare che milioni di persone non hanno ancora ottenuto la preparazione
necessaria per poter comprendere ed utilizzare tale lingua. Se è vero che con Internet è
possibile abbattere le barriere di discriminazione razziale perché strumento fruibile da
22 J.C. Sager, Language Engineering and Translation, Benjamins Translation Library,Amsterdam/Philadelphia, 1993
13
chiunque, lo stesso deve accadere per quanto riguarda la lingua e quindi fornire la possibilità
di ottenere informazioni nel proprio idioma.
In questo senso, si può parlare di una vera e propria “industria del linguaggio” in grado di
produrre tutta una serie di strumenti che consentano una comunicazione più rapida ed
efficace.
L’industria del linguaggio si è potuta evolvere avendo alla base la collaborazione di due
discipline che all’apparenza hanno pochi punti in comune: l’informatica e lo studio delle
lingue; insieme hanno dato vita a quell’area di ricerca chiamata NATURAL LANGUAGE
PROCESSING (vale a dire Elaborazione del Linguaggio Naturale); la linguistica ha fornito
basi teoriche, dati e risorse linguistici, mentre l’informatica ha ideato tutti gli strumenti
computazionali adatti per trattare i dati linguistici stessi.
Inizialmente i calcolatori vennero utilizzati per compiere semplici analisi dei testi, come ad
esempio isolare parole e sistemarle in ordine alfabetico, oppure eseguire calcoli statistici per
determinare la frequenza, all’interno di un particolare testo, di una parola specifica (Text
Processing).
Parallelamente si pensò di poter trattare il linguaggio naturale in modo più complesso ed
approfondito, ideando sistemi in grado di simulare la comprensione e la produzione di
linguaggio naturale.
Da questo secondo filone di ricerca discendono diversi campi di applicazione:23
1. Interazione uomo-macchina
Questo aspetto del Natural Language Processing si occupa della progettazione di sistemi in
grado di offrire determinati servizi all’utente, quali ad esempio l’accesso e la manipolazione
dell’informazione (interrogazione di basi di dati, richiesta di informazioni), o l’insegnamento
(Intelligent Computer Aided Instruction)
Pensiamo ad esempio ad alcuni servizi forniti dalla pubblica amministrazione, oppure alla
Telecom Italia, che ha costruito un’interfaccia interattiva per la ricerca del numero di un
abbonato, o ancora alle Ferrovie dello Stato che forniscono automaticamente informazioni su
destinazioni e orari dei treni dopo aver “dialogato” con l’utente.
23 G. Ferrari, Introduzione al Natural Language Processing, Calderini, Bologna, 1991
14
L’obiettivo che si tenta di raggiungere è quello di instaurare un dialogo tra uomo e macchina
che sia il più naturale possibile; da un punto di vista filosofico, si è tentato di verificare se
una macchina può superare l’intelligenza umana (compiere cioè le stesse azioni);
premettiamo fin da ora che al momento tale verifica ha dato risultati negativi.
Possiamo ricordare in questo senso il “test di Turing” che aveva come scopo quello di
stabilire se le macchine possono pensare. Il test consiste nel disporre in una stanza un uomo
e una donna; in un’altra stanza c’è un interrogatore che può formulare delle domande, per
mezzo di una telescrivente, nel tentativo di identificare chi sia l’uomo e chi la donna,
nonostante gli sforzi dell’uomo di camuffare la propria identità.
Il test consiste nel fatto che, se dall’altra parte la persona non si accorge della sostituzione
della persona con la macchina, allora il test è riuscito e si dimostra che una macchina può
compiere le stesso operazioni “intelligenti” di una persona.
Una valutazione di tali sistemi in termini di rendimento e di esattezza, ha portato a ritenere
soddisfacenti i risultati ottenuti, anche se provengono delle critiche per quanto riguarda
l’ammontare delle risorse economiche impiegate.
È necessario però pensare che, oggi come oggi, in un contesto sempre più multilingue, la
possibilità, e in molti casi la necessità, di accedere a informazioni fornite in linguaggi
naturali diversi (pensiamo ed esempio alle lingue cosiddette marginali, parlate da
popolazioni che non riescono ancora ad avere un alto grado di scolarizzazione), può e deve
giustificare anche lo stanziamento di cospicui fondi per la ricerca in questo settore.
2. Text Understanding
L’esigenza di studiare sistemi in grado di analizzare ed interpretare interi testi e non solo
singole frasi, risponde alle richieste di utenti provenienti da diversi ambiti.
Da un lato la necessità, in ambienti lavorativi molto vasti, di poter gestire un’ingente
quantità di messaggi organizzati secondo principi di accessibilità; può essere il caso di
ambienti militari, oppure, come si sta verificando in tempi recentissimi, la possibilità fornita
da alcuni gestori di posta elettronica di filtrare automaticamente i messaggi che riportano un
particolare contenuto sgradito all’utente.
Dall’altro si ha la necessità di acquisire ed estrarre informazione da libri e manuali, ma anche
e-mail, siti web, giornali, etc.; da qui, la progettazione di sistemi computazionali in grado di
snellire il processo di apprendimento e dotati di capacità di riassumere porzioni di testo.
15
3. Report Generation
In questo settore, il Natural Language Processing viene utilizzato per la produzione
automatica di testi in linguaggio naturale.
È un campo di applicazione che vede implicata la possibilità, da parte dell’utente, di chiedere
informazioni riguardo un determinato argomento, come ad esempio la richiesta di dati
aggiornati ad una specifica data, o la descrizione di una particolare procedura.
4. Traduzione automatica
È l’applicazione che fin dall’inizio dell’impiego di calcolatori in ambito linguistico,
affascinò i ricercatori.
Il primo obiettivo che si posero fu quello di raggiungere un grado qualitativo di traduzione
molto elevato, paragonabile al lavoro svolto da traduttori professionisti.
Le difficoltà oggettive derivanti dalla complessità dei fenomeni riguardanti il linguaggio
naturale, ha spinto i ricercatori verso soluzioni meno ambiziose e più funzionali, come ad
esempio la costruzione di strumenti che aiutassero il traduttore nel suo lavoro (dizionari
bilingui elettronici o database terminologici).
Uno tra i primi sistemi di traduzione automatica, ALPS (1971), forniva un sistema di
traduzione assistita dal calcolatore per cui a richiesta si eseguivano traduzioni di parole,
identificazione di sinonimi ed espressioni idiomatiche, ristretti controlli sintattici e scansione
di un dizionario.
Al giorno d’oggi la tendenza predominante è quella di realizzare sistemi di traduzione
automatica che, pur non riuscendo a raggiungere il grado di accuratezza dato da un
professionista, riescono a rispondere alle esigenze immediate della nostra società, quali ad
esempio una comunicazione veloce e multilingue o la traduzione immediata di pagine
scaricate da Internet.
Da non dimenticare è l’importanza che la traduzione automatica assume all’interno di
organizzazioni internazionali come la Comunità Europea, dove è urgente l’esigenza di
redigere documenti in tutte le lingue dei paesi membri (come ad esempio i sistemi Systran ed
Eurotra).
16
2.2 LIVELLI di ANALISI
Per costruire un efficace sistema computazionale in grado di trattare in modo adeguato il
linguaggio naturale, qualunque sia il campo di applicazione, è necessaria la creazione di un
modello per i diversi livelli linguistici: fonetico (riconoscimento del parlato e sua
sintetizzazione) morfologico, sintattico, semantico e, almeno in parte, del discorso e del
dialogo.
In un contesto di traduzione automatica, ciò che a noi interessa in modo particolare sono i
livelli morfologico, sintattico, semantico e del discorso.
Vediamo ora nel dettaglio quali sono le procedure adatte all’analisi di ogni livello,
precisando che questa panoramica vuole semplicemente fornire un’idea generale sulle
strategie e tecniche utilizzate senza nessuna pretesa di esaustività.
2.2.1 ANALISI MORFOLOGICA24
Il primo passo di analisi del linguaggio naturale, è l’identificazione delle parole; è piuttosto
evidente come non sia sufficiente individuarle prendendo come punto di riferimento gli spazi
tra l’una e l’altra o la punteggiatura; un approccio simile può essere valido nella maggior
parte delle lingue europee, ma non ed esempio per molte lingue asiatiche. È invece
necessario che la parola venga analizzata nei suoi elementi costitutivi : radice, prefissi,
suffissi e desinenze.
Attraverso la consultazione del dizionario si rintracciano anche informazioni riguardanti
alcune proprietà sintattiche della parola; quindi, accanto alle informazioni morfologiche,
abbiamo alcune caratteristiche sintattiche che permettono di definire i “tratti morfosintattici”
della parola presa in esame.
L’identificazione dei tratti e la loro importanza, varia a seconda della lingua: ad esempio
l’inglese richiederà un’analisi morfologica meno ricca rispetto all’italiano dove i suffissi
racchiudono tutta una serie di informazioni essenziali per la comprensione stessa della parola
(come nel caso delle declinazioni dei verbi, dove le desinenze forniscono informazioni
necessarie par la concordanza con il soggetto o l’identificazione del modo e del tempo).
24 Cfr. G. Ferrari, ibid.
17
Il modello più semplice di analisi lessicale è la ricerca tabulare, per cui nel dizionario
vengono inserite tutte le parole senza alcun tipo di suddivisione in parti costituenti
(segmenti); la ricerca avviene secondo una semplice scansione sequenziale.
Parola in input
Scansione dizionario
Categorie grammaticali
Tratti morfosintattici
semantica
La scansione sequenziale del dizionario può avvenire secondo tre modalità; in questo caso
possiamo parlare di una semplice consultazione del dizionario, differente, come vedremo,
dall’utilizzo di un analizzatore morfologico vero e proprio.
!" Lista piena : le parole sono inserite nel dizionario in ordine alfabetico e la scansione
confronta semplicemente la parola in input con quelle contenute nel dizionario ed
estrae quella uguale.
Se ad esempio la parola da ricercare è “seminato”, questo tipo di ricerca darà come
risultato: - seminato, N maschile singolare
- seminato, verbo participio passato di “seminare”.
!" Lista dei segmenti : nel dizionario vengono inserite le parti costitutive, i segmenti di
ciascuna parola; la ricerca viene eseguita in più fasi, cercando di combinare i
segmenti in modo da ricostruire la parola data in input.
1. ato, participio passato
2. semin+
3. -o indicativo presente prima persona singolare
4. -o sostantivo maschile singolare
!" Suddivisione del dizionario : il dizionario viene diviso in modo da contenere,
suddivise in diverse liste, prefissi, radici, suffissi e desinenze. Ogni segmento
contenuto in una specifica lista, porta le informazioni in merito al dizionario nel
18
quale andare ad individuare il successivo segmento. In questo modo si saltano
passaggi di ricerca nel caso in cui il segmento riconosciuto comporti l’esclusione di
qualche lista.
Un altro tipo di ricerca è quella strutturata : si procede sempre per strutture ad albero che
possono avere diversi livelli di complessità.
In questo caso è però necessario un analizzatore morfologico inserito in un più complesso
sistema di analisi del testo; come avremo modo di notare parlando dei vari sistemi di
traduzione automatica, un analizzatore ha il compito di fornire un output che possa essere
utilizzato come stringa di ingresso per gli altri moduli di analisi (sintattico e semantico)
fornendo tutte le informazioni utili per i successivi livelli di analisi.
Il metodo più semplice è quello ad albero binario, in cui il dizionario viene ripartito ad ogni
passaggio e l’algoritmo di ricerca identifica, un livello alla volta, il ramo in cui il segmento
della parola può trovarsi; una volta identificato, si compie una ricerca tabulare.
Un metodo più complesso consiste nel costruire un albero in cui i segmenti vengano
rappresentati carattere per carattere, componendo in fattori le parti comuni.
Da quanto abbiamo detto fin qui, emerge come non sia possibile fermarsi alla prima
rappresentazione della parola; infatti anche a livello morfologico esiste un certo livello di
ambiguità come dimostra il fatto che la parola “seminato” possa essere sia il participio
passato del verbo seminare, sia un sostantivo.
La piena applicazione di questi modelli risulta efficiente solo nel caso in cui, accanto alla
consultazione del dizionario, vengano inserite delle regole morfologiche che rendano conto
del corretto modo di formarsi delle parole, fornendo inoltre informazioni a carattere
sintattico e semantico.
Lo schema di rappresentazione dell’analisi sarà quindi:
19
Parola in input
+ categoria grammaticale
+ tratti morfosintattici
+ semantica
……………………..
Figura 3: Rappresentazione del processo di analisi morfologica25
Ai fini della traduzione, uno degli aspetti più interessanti, e allo stesso tempo problematici,
dell’analisi morfologica, è quello dei composti; con composto si intende indicare una parola
che è formata da due o più morfemi lessicali corrispondenti ad unità significative. Esempi di
composto sono ad esempio le parole “portaombrelli” e “asciugamano”.
I due casi sopra riportati possono essere considerati “motivati”, nel senso che è possibile
derivare il loro significato dall’analisi dei singoli morfemi lessicali di cui sono composti.
Se però pensiamo alla traduzione, dobbiamo constatare il fatto che se in una determinata
lingua una parola viene considerata un composto, questa può non esserlo necessariamente
anche in un altro sistema linguistico.
Per dare dimostrazione di questo fenomeno, riprendiamo gli esempi “portaombrelli” e
“asciugamano” e vediamone la traduzione in inglese e spagnolo: portaombrelli è tradotto in
inglese come umbrella stand (composto) e in spagnolo come paraguero (non composto);
“asciugamano” corrisponde all’inglese towel (non composto) e allo spagnolo toalla (non
composto).
25 Cfr. G. Ferrari, op. cit., p. 98
scansione
Processore di regole
dizionari
regole morfografemiche
tests di compatibilità
20
In pratica, quindi, i composti devono essere considerati delle parole alla stregua di tutte le
altre ed essere inserite nel dizionario come singole unità lessicali; nei dizionari verranno poi
indicati gli equivalenti nelle diverse lingue, indipendentemente dai costituenti.
Un altro aspetto interessante dei composti è quello per cui essi vengono tradotti in altre
lingue con intere frasi, come ad esempio avviene tra l’inglese e l’italiano dove, in alcuni casi,
un composto inglese è tradotto da una frase preposizionale italiana. Più in generale possiamo
affermare che questo fenomeno è piuttosto frequente quando le due lingue implicate nella
traduzione sono una di origine germanica (come l’inglese) e l’altra appartenente al ceppo
delle lingue romanze (italiano o spagnolo).
La preposizione di appoggio cambia a seconda dell’interpretazione del composto; prendiamo
ad esempio i composti inglesi book donation e library donation : nel primo caso la
preposizione italiana reggente è “di” (donazione di libri), mentre nel secondo è “a”
(donazione a una libreria).
In questi casi diventa necessario rendere esplicite le relazioni semantiche che si instaurano
tra i costituenti interni dell’inglese e la corretta preposizione dell’italiano.26
Un altro aspetto interessante riguardante il modo con cui le parole si vengono a formare e
occorrono, è quello delle parole multiple (vale a dire frasi idiomatiche e collocazioni).
Data l’importanza che questo tipo di parole riveste all’interno di un discorso di traduzione
automatica, ho preferito dedicare loro un intero capitolo27, fornendo non solo la teoria
linguistica di base, ma anche le strategie computazionali per la loro risoluzione.
2.2.2 ANALISI SINTATTICA
Compiere l’analisi sintattica di un testo significa identificare le componenti rilevanti
all’interno della frase e descriverle dal punto di vista delle strutture sintagmatiche (struttura
della frase) o funzionale (rappresentazione delle funzioni).
La tecnica computazionale per analizzare una frase e determinarne le relazioni interne in
base ad una grammatica, si chiama parsing.
26 V. Pirrelli, Morphology, Analogy and Machine Translation, Ph. D. Thesis, 1993, Salford University. 27 Cfr. p. 66
21
Il parser è un processore costruito in modo tale che data in input una frase in un determinato
linguaggio naturale e applicando un insieme di regole28, si ottiene in output una struttura (per
esempio ad albero di derivazione), attraverso la quale vengono messe in evidenza le relazioni
interne e di dipendenza della frase stessa.
Se ad esempio la frase in input è “ Laura mangia la mela”, la struttura ad albero che il
calcolatore darà in output sarà
NP VP
NOME V NP
Laura mangia
ART N
La mela
Per produrre la struttura ad albero in modo corretto, il parser deve poter attingere alle
informazioni grammaticali della lingua che sta trattando, in modo da stabilire quali relazioni
siano consentite e quali non lo siano per quel determinato linguaggio naturale:
Frase ---! Processore --! struttura ad albero
grammatica
La grammatica da cui trarre le regole da applicare deve rispettare due caratteristiche di base:
!" deve essere in grado di esprimere la maggior parte dei fenomeni del linguaggio
naturale che deve trattare;
!" deve essere in grado di rappresentare solo le costruzioni corrette di quel determinato
linguaggio naturale.
28 Il parser è un processore che interpreta delle regole di grammatica.
S
22
Il problema di costruire grammatiche adeguate alla generazione, è uno dei nodi cruciali per
ottenere delle produzioni linguistiche corrette.
Alcune tra le grammatiche che hanno ottenuto maggior successo, sono state la Functional
Unification Grammar (FUG) e la Augmented Phrase Structure Grammar (APSG).
La FUG, che ha il vantaggio di poter essere utilizzata sia in fase di analisi sia al momento
della generazione, è costruita per la rappresentazione, in termini di coppie attributo=valore,
della funzione degli elementi costitutivi della frase.
Le coppie, indicate con il termine di features sono rappresentate come negli esempi cat=n
(categoria grammaticale=numero); nb=sg (numero=singolre); gender=masc
(genere=maschile), etc. Sostanzialmente, quindi, ogni coppiaè il risultato di una funzione di
assegnazione dal dominio degli attributi, cioè quelli ammissibili a livello della
rappresentazione, al codominio di tutti i valori che quegli attributi possono assumere; le
opportune restrizioni vengono individuate seguendo regole di compatibilità sintattica e di co-
occorrenza.
L’operazione mediante la quale la grammatica compie la generazione, viene chiamata
unificazione e consiste nell’eguagliare i dati in input –costruiti secondo lo stesso schema
attributo=valore – con le coppie contenute nella grammatica.29
Uno degli attributi più importanti è il PATTERN, quello cioè incaricato di fornire l’ordine
dei costituenti all’interno della frase.
La grammatica APSG, nonostante si stata ideata ormai trent’anni fa, ha posto le basi per lo
sviluppo di altri formalismi grammaticali anche in tempi recenti.
Le regole di tale grammatica sono costruite con uno scheletro di base formato da frasi
strutturate che vengono poi “aumentate” in base a condizioni che devono essere verificate.
Un tipo di grammatica molto semplice utilizzato per i parser è la cosiddetta context-free
aumentate30; nel corso degli anni e con il progredire della ricerca, è stata implementata e resa
più completa, ma viene ancora oggi impiegata in alcuni sistemi di traduzione automatica31;
tale grammatica fornisce le regole, per ogni elemento della frase, che servono per costruire
una corretta rappresentazione della struttura interna della frase stessa.
29 D. Jurafsky, J. H. Martin, Speech and Language Processing, Prentice Hall, New Jersey, 2000 30 Il termine “aumentate” deriva dal concetto di “augmentation”, vale a dire particolari azioni che consentono di assegnare modificatori al soggetto o all’oggetto, di manipolare tratti semantici, di verificare concordanze, etc… Per un confronto si veda p.35 31 Cfr. il progetto Atlas II a p. 61
23
Per meglio capire come sia costruita, torniamo all’esempio della frase “Laura mangia la
mela”; il periodo (S) è costituito inizialmente da una frase nominale (NP) e da una frase
verbale (VP); a sua volta la parte nominale è formata da un sostantivo semplice (NOME); la
frase verbale è composta da un verbo (V) e da un’ulteriore frase nominale (NP) a sua volta
ancora suddivisa in articolo (ART) e sostantivo (N).
La grammatica per questa specifica frase sarà pertanto della forma :
S ! NP VP
VP ! V NP
NP ! NOME
NP ! ART N
NOME ! Laura
V ! mangia
ART ! la
N ! mela
La frase che ho utilizzato qui come esempio, ha una struttura base del tipo soggetto, verbo e
complemento oggetto ed è quindi di facile analisi per il parser; in genere gli enunciati sono
molto più complessi e in alcuni casi presentano anche delle costruzioni ambigue che danno
adito a diverse rappresentazioni.
A seconda di come procede l’algoritmo del parser nella sua analisi, possiamo distinguere due
grandi classi di parser che tengono più o meno conto della presenza di ambiguità:
a) deterministici: ad ogni passo dell’analisi viene fatto seguire un unico passo successivo,
senza quindi offrire eventuali alternative da scegliersi a seguito dell’analisi.
b) non deterministici: ad ogni passo vengono presentate le alternative da scegliere; tali
alternative di analisi si possono presentare tutte insieme (strategia breadth-first) oppure
una alla volta (strategia depth-first); conseguentemente, se una delle alternative dovesse
rivelarsi errata, esiste un meccanismo di ritorno, detto backtrack, per cui è possibile
riprendere l’analisi intraprendendo un’alternativa successiva.
24
Esistono però vari livelli di ambiguità:32
1. Lessicale/categoriale : accade quando una parola appartiene a più di una categoria
morfosintattica, come ad esempio nella frase “la vecchia porta cigola”; la parola “vecchia”
può essere considerata come un aggettivo di porta oppure come sostantivo (persona anziana),
così come “ porta” può essere il sostantivo oppure la terza persona singolare del verbo
portare.
Il parser darà in output due diverse rappresentazioni :
oppure:
S
SN SV
ART NOME porta
La vecchia
SV
cigola
La seconda rappresentazione non corrisponde alle regole sintattiche dell’italiano e verrà
pertanto automaticamente eliminata.
32 G. Ferrari, op.cit.
S
SV
cigola
SN
ART La
ATT vecchia
NOME porta
25
2. strutturale : si presenta quando è possibile attribuire alla stessa frase più di una
struttura sintagmatica, come ad esempio nella frase “la bambina vede il signore con il
binocolo”; l’ambiguità risiede nel fatto che si può intendere sia che la bambina possiede il
binocolo grazie al quale riesce a vedere il signore, sia che è il signore ad avere il binocolo.
Una possibile soluzione a questo tipo di ambiguità si ottiene eseguendo una verifica
preventiva delle restrizioni semantiche; ad esempio, si possono fare osservazioni a carattere
statistico per determinare la posizione all’interno di una frase di un particolare tipo di
complemento (se vicino al nome a cui si riferisce oppure no).
3. funzionale : si verifica quando la caratterizzazione funzionale di un costituente
influisce sulla struttura sintagmatica, come nella frase “Giovanni fu visto da Maria”.
“ Da Maria” può essere complemento d’agente o di luogo; per il parser entrambe le soluzioni
sono accettabili e quindi la risoluzione dell’ambiguità si dovrà basare sulla ricerca all’interno
del testo che permettano di scegliere tra le diverse interpretazioni.
Se prendiamo come punto di riferimento, le strategie che i parser utilizzano per compiere
l’analisi, ne possiamo distinguere due tipi principali: i top-down e i bottom-up.
I parser top-down iniziano la loro analisi partendo dal simbolo S e applicano le regole
grammaticali passando agli elementi sottostanti, fino ad arrivare ad ottenere le singole parole
che costituivano la frase data in input.
La frase che ho utilizzato da esempio, sarebbe quindi rappresentata con un parser di questo
tipo nel modo seguente:
S ! NP VP
NP ! NOME
VP ! V NP
NP ! ART N
I parser bottom-up, sostanzialmente compiono il procedimento inverso rispetto ai top-down:
partono dalle unità minime di informazione date in input e le raggruppa in insieme
ulteriormente riducibili.
La frase del nostro esempio verrà in questo caso rappresentata nel seguente modo:
26
NOME V ART N
NOME ! NP
ART N ! NP
V NP ! VP
VP NP ! S
Il vantaggio di utilizzare un parser ti tipo bottom-up risiede nel fatto che tutte le
interpretazioni vengono portate avanti contemporaneamente; quelle non valide verranno poi
automaticamente scartate nel corso dell’analisi.
Al termine del processo di analisi, la struttura disponibile è un insieme di alberi sintattici, ma
soltanto quelli che contengono un solo nodo S saranno il risultato finale dell’analisi.
2.2.3 ANALISI SEMANTICA
L’analisi sintattica della frase è solo il primo passo verso la sua comprensione; in effetti,
perché una traduzione possa considerarsi efficace e valida, è necessario che il testo venga
interpretato, che ne sia esplicitato il significato.
Il primo passaggio da compiere per un’interpretazione semantica è quello di cercare il
significato di ogni parola in un dizionario; molte parole possono però avere più di un
significato e il processo di disambiguazione viene effettuato associando ad ogni parola
contenuta nel dizionario delle informazioni riguardanti il contesto entro il quale ciascun
significato può presentarsi.
Per quanto riguarda la traduzione automatica non è sufficiente l’ausilio di semplici dizionari
comunemente utilizzati; i processi di disambiguazione, infatti, richiedono tecniche molto
sofisticate ed è per questo che si ricorre all’uso di dizionari speciali, quali ad esempio
WordNet o dizionari concettuali.33
Ogni parola di una frase può contribuire a determinare il contesto entro il quale si identifica
il significato di altre parole34; questo fenomeno è piuttosto visibile se vengono costruiti
dizionari specifici per argomento per cui se si deve affrontare un testo di matrice economica-
33 Per WordNet cfr. p. 32; i dizionari concettuali contengono, anziché parole, i relativi concetti, strutturati in una rete dove vengono esplicitate relazioni complesse (iperonimia, iopnimia, ma anche causa/effetto, parte/tutto, etc.) e il contesto associativo; il senso di una parola è risultato della porzione di rete che questa parola investe (es. cappello+papa= tiara) 34 E. Rich, K. Knight, Artificial Intelligence, Mc-Graw Hill Inc., New York, 1991
27
finanziaria, la parola inglese bank verrà tradotta in italiano con il significato di “banca”,
mentre in un contesto di natura ecologica - ambientale, alla stessa parola bank verrà
attribuito il significato di “argine, riva”.
Nella prospettiva della traduzione automatica, il problema dell’ambiguità semantica del
lessico, assume una rilevanza particolare; nello sviluppo di metodi automatizzati di analisi
dei testi, sarà quindi necessario studiare sistemi in grado di affrontare l’analisi del lessico e
di tenere conto di eventuali ambiguità che una parola porta con sé.
Se è vero quindi che alcune parole possono avere più di un significato, è altrettanto vero che
si possono costruire classi più vaste attraverso cui l’uomo opera una categorizzazione del
mondo; già Aristotele aveva individuato delle classi, quali gli oggetti fisici, qualità, quantità,
relazione, spazio, tempo, posizione, stato e azione.
Nell’analisi del linguaggio naturale dobbiamo però aggiungere ulteriori categorie : eventi,
idee, concetti e programmi; tra queste le più rilevanti ai fini di un’analisi computerizzata
sono gli eventi e le azioni.
Gli eventi risultano importanti ai fini di una teoria semantica in quanto forniscono una
struttura per l’organizzazione e l’interpretazione della frase, mentre le azioni rappresentano
ciò che compie l’agente per causare quel determinato evento.35
Ma perché è importante definire le categorie?
Le categorie in effetti sono l’elemento costitutivo del contesto, cioè il complesso delle
circostanze e situazioni entro il quale si verifica un determinato vento e senza il quale
diventerebbe assai difficile ricostruire il significato di una parola nel caso presenti qualche
livello di ambiguità.
Nel campo del Natural Language Processing, sono stati studiati diversi sistemi automatizzati
per l’analisi semantica, tra cui :
1. Grammatiche semantiche: nella maggioranza dei casi si tratta di grammatiche
context-free che utilizzano categorie legate allo specifico dominio di applicazione,
anziché categorie determinate su base linguistica;
2. Modello basato su Frames (Case Grammars): l’idea di base consiste nel fatto che
il verbo viene considerato il perno di tutta la frase, strettamente associato ad una
struttura di predicati; contemporaneamente agli altri componenti della frase
vengono associati dei ruoli (il case-frame, quali ad esempio Agente (umano),
35 J. Allen, op. cit., pg. 231
28
Strumento (oggetto)) congiuntamente ad alcune restrizioni riguardanti le
caratteristiche degli elementi che possono ricoprire i diversi ruoli.
3. Semantica composizionale (Grammatica di Montague): l’idea di fondo consiste
nell’ipotesi per cui ad ogni rappresentazione sintattica esista una corrispondente
interpretazione semantica (principio fondante della grammatica composizionale;
ogni qual volta costituenti sintattici vanno a formare una unità sintattica più ampia,
le corrispondenti interpretazioni semantiche possono essere combinate per formare
unità semantiche più vaste. Questo è possibile in quanto le regole che sottostanno
alla composizione delle strutture semantiche sono associate con quelle che
consentono la composizione delle strutture sintattiche.36
Il sistema che però, a parere mio, può risolvere la maggioranza dei problemi legati
all’interpretazione semantica anche in una prospettiva di traduzione automatica, è
rappresentato dalle reti semantiche.
La prima formulazione delle reti semantiche viene fatta risalire a Quillian, nel 1968, il quale
se ne servì per rappresentare il significato di parole in inglese.37
Le reti semantiche sono schemi di rappresentazione della conoscenza; tentano di riprodurre i
processi di ragionamento e immagazzinamento delle informazioni umani attraverso il
collegamento tra i concetti appartenenti a specifici domini, a particolari categorie.
Concretamente gli schemi vengono costruiti con “nodi” collegati tra loro da “archi”; questo
permette di realizzare un gran numero di inferenze significative tramite tecniche di ricerca a
grafo. I collegamenti hanno una direzione e vengono “etichettati”, viene cioè dato loro un
nome che corrisponde al tipo di relazione che esiste fra i nodi collegati.
La direzione degli archi è un elemento fondamentale per cui si da la chiave di lettura per
quella specifica relazione.
nodo arco nodo
36 E. Rich, K. Knight, op. cit., p. 410 37 F. Sebastiani, Alcuni approcci alla rappresentazione della conoscenza, Technical Report, Istituto di Linguistica Computazionale, 1986, CNR Pisa, p. 33
29
Perché una rete semantica possa essere un efficace strumento di rappresentazione della
conoscenza ai fini della traduzione automatica, possiamo individuare una dimensione
caratteristica della rete, vale a dire un livello concettuale: a tale livello gli oggetti descritti
risultano essere indipendenti dalle specifiche lingue e i legami si definiscono come relazioni
semantiche o concettuali.38
Come avremo modo di notare più avanti trattando il sistema UNL, risulterà evidente come
quest’ultimo aspetto sia particolarmente rilevante in sistemi che adottano una strategia
interlingua, soprattutto per quanto riguarda la strutturazione e l’organizzazione della
conoscenza del sistema stesso.
Esistono diversi tipi di relazione che si possono instaurare fra i nodi, come ad esempio “
genere di “ (AKO dall’inglese “a kind of “) per cui si identifica una relazione che stabilisce
insiemi e sottoinsiemi, passando dall’elemento particolare a quello generale.
cane ! animale
Oppure una relazione di inclusione ; è un genere di collegamento fra nodi contraria a quella
esaminata in precedenza in quanto si passa dall’elemento generale a quello particolare:
animale! cane
La rappresentazione di un concetto implica l’utilizzo di altri concetti e quindi il diagramma
potrebbe essere ampliato all’infinito :
38 F. Sebastiani, ibid. p 35
cane
pechinese
beagle
dalmata
animale Essere vivente
rettili
uccelli
mammiferi
ako
ako
ako isa
isa
isa
is
30
Ancora, esiste un tipo di relazione chiamata ISA (dall’inglese “is a”) per cui se abbiamo un
cane di razza beagle che si chiama Tom, possiamo affermare – in base a questa rete
semantica – che è un essere vivente.
La caratteristica che emerge con chiarezza, e che rappresenta anche uno dei punti di forza
delle reti semantiche, è che gli oggetti presenti nella parte bassa del diagramma “ereditano”
le caratteristiche dei nodi superiori.
Ma in una prospettiva di traduzione automatica, come si rendono utili le reti semantiche ?
Partiamo dal presupposto che le reti semantiche siano uno strumento in grado di collegare
concetti, intendendo per concetto ciò che la mente umana intende e comprende per mezzo
dell’osservazione, dell’esperienza; sono cioè rappresentazioni mentali, idee di un oggetto.
A questo punto ipotizziamo di dover tradurre un testo e di voler utilizzare le reti semantiche
come metodo di analisi semantica in modo da dare una rappresentazione dei concetti presenti
negli enunciati; prendiamo ad esempio la frase “Giovanni compra un libro per Laura; la rete
semantica dirà solo che Giovanni ISA persona, libro ISA oggetto-fisico, comprare ISA
Azione su ruoli come Agente, Tema, Strumento, etc; cioè indica la natura dei concetti.
Per definire che Laura è un Agente bisogna riconoscere il ruolo di Agente con un oggetto di
tipo Persona.
Si sono quindi individuati i concetti basi che costituiscono la frase; se il nostro scopo è
quello farne la traduzione, è necessario compiere un ulteriore processo di analisi, questa
volta a livello sintattico. Partendo dalle relazioni concettuali stabilite con la rete semantica,
pechinese
beagle
dalmata rettili
uccelli
mammiferi
ako
ako
ako isa
isa
Tom
isa
cane animale Essere vivente
isa
is
31
possiamo utilizzare un parser che ricostruisce la frase nella lingua di arrivo della traduzione
in modo che vengano rispettate le stesse relazioni e, nello stesso tempo queste vengano
ricomposte secondo gli schemi grammaticali consentiti dalla stessa lingua di arrivo.
Una concreta applicazione delle reti semantiche utile per svolgere disambiguazione, è il
dizionario WORDNET.39
Il progetto nasce nel 1985, grazie agli impulsi dati da studi di psicolinguistica nei quali
emerge chiaramente come il processo umano di costruzione del significato si basi su di un
complesso sistema di reti di relazioni.
Per arrivare a questa conclusione, vennero condotti studi sui processi di apprendimento del
linguaggio da parte dei bambini e si scoprì come i concetti venivano assimilati partendo da
categorie molto vaste per poi scendere sempre più nel particolare; in sostanza, si ragiona per
sinonimi posizionati in base ad una gerarchia.
Il cuore di WordNet è proprio un vasto insieme di sinonimi denominato synset, in grado di
rappresentare i concetti e descrivere la matrice lessicale della parola: in pratica avviene una
mappatura tra forma e significato delle parole.
In effetti, però, per ottenere la completa disambiguazione lessicale, ragionare per reti di
sinonimi non è sufficiente in quanto il ruolo più importante per l’individuazione di un
significato viene compiuta dal contesto.
È a questo proposito che emerge la caratteristica più interessante di WordNet: l’analisi del
contesto basato sull’applicazione del concetto di distanza; questo significa cioè che l’affinità
semantica viene misurata in termini di distanza che esiste fra due parole gerarchicamente
collegate all’interno del synset. In effetti, in WordNet è possibile rintracciare, per ogni
parola ricercata, non solo il significato/i, ma anche iponimi (cioè parole che racchiudono un
significato meno esteso, più circoscritto ad uno specifico ambito) e iperonimi (parole che
rappresentano significati dal concetto più vasto) e per ciascuno vengono inoltre indicate frasi
esemplificative sul contesto entro il quale le parole ricercate vengono utilizzate.
Per avere un esempio concreto dei risultati ottenuti con l’utilizzo di WordNet, si veda
l’Appendice Uno.
39 C. Felbaum (ed), WordNet, An Electronic Lexical Database, MIT Press, Cambridge, 1998
32
2.2.4 ANALISI DEL DISCORSO
Fino ad ora abbiamo preso in considerazione i processi di analisi rivolti a singole parole o a
brevi frasi; ma il significato di una frase può dipendere da quelle che precedono e
influenzare il senso di ciò che segue.
Per questo, se si vuole compiere un’analisi accurata, è necessario considerare l’intera
struttura del testo: è indispensabile cioè comprendere i collegamenti interni che mettono in
relazione le singole frasi e, in effetti, non dobbiamo dimenticare che l’oggetto primo della
traduzione automatica è il testo.
Al fine di comprendere i rapporti interni di un testo, il programma di analisi deve fondarsi su
di una solida base di conoscenza e il modo con cui essa viene organizzata rappresenta il nodo
cruciale per un buon funzionamento del sistema stesso.
Per quello che a noi qui interessa, e cioè dare una visione d’insieme delle problematiche
legate alla traduzione automatica, gli elementi che risultano maggiormente implicati nei
sistemi automatici di traduzione, sono l’individuazione della referenza e il contesto40.
La referenza viene definita come la funzione in base alla quale un segno linguistico rimanda
al mondo extra-linguistico; si configura cioè come un problema di conoscenza: l’uomo
utilizza cioè la referenza per interpretare parole, relazioni interne ad un determinato discorso,
il significato implicito nel modo di esprimersi.41
Il primo passo quindi per compiere l’analisi del discorso, sarà quello di individuare il
referente; a questo scopo, la linguistica computazionale ha seguito due diversi approcci: uno
logico, dove l’obiettivo è quello di costruire una struttura logica del discorso entro la quale
individuare i meccanismi di risoluzione della referenza; tale approccio risulta però
abbastanza inadeguato per trattare tutta la complessità implicita nel discorso e si preferisce
quindi utilizzare l’altro sistema, quello strutturale, che risulta più articolato e completo.
L’elemento principale di tale approccio è il focus; con tale termine si vuole indicare
l’insieme delle conoscenze che permetto un’efficace comunicazione.
Possiamo distinguere due tipi di focus : quello globale e il locale. 42
Il focus globale si riferisce alla struttura del discorso o, più precisamente, alla struttura
dell’argomento specifico trattato nel testo; il focus locale è più strettamente legato ai
fenomeni linguistici presenti nel testo stesso.
40 G. Ferrari, op. cit., p. 135 41 Juan Sager, op.cit., p. 97 42 H. Bunt, W. Black (eds), Abduction, Belef and Context in Dialogue, John Benjamins Publishing Company, New York, 2000, p.268
33
Per determinare il focus si possono seguire due strategie:43una, chiamata top-down, più
adatta per l’individuazione del focus globale che è applicabile a testi (dialoghi) task-oriented
(cioè orientati a svolgere un compito) in cui vengono specificate nel dettaglio tutte le
procedure che devono essere seguite per raggiungere un determinato scopo (è questo il caso
di ricette, manuali di assemblaggio di componenti, istruzioni d’uso…); l’altra strategia, la
bottom-up, adatta per identificare il focus locale, consiste nella memorizzazione dei sintagmi
nominali che vengono menzionati nelle sequenze di frasi.
L’identificazione del focus globale, si può ottenere prendendo in considerazione alcune
particolari locuzioni, dette cue-words, quali ad esempio “bene”, “ora…”, “andiamo
avanti”…, che demarcano l’inizio o la fine di un argomento o di un turno di battuta, o anche
elementi non linguistici, come ad esempio la punteggiatura.
Per quanto riguarda il focus locale, la sua determinazione dipende dall’elemento che
all’interno della frase ricopre una importanza maggiore per capire quale sia l’argomento
della frase stessa; quindi per determinare quale sia tale elemento rilevante interno alla
struttura della frase, vengono generalmente utilizzate regole grammaticali, come ad esempio
la posizione del pronome all’interno della frase; in questo modo si tenta di stabilire una
priorità di ricerca dei singoli foci sulla base di parametri sintattci e posizionali.44
La differenza tra i due procedimenti risiede nel modo di immagazzinare le informazioni
contenute nelle frasi, ma l’aspetto più importante si riscontra invece in quello che hanno in
comune: in entrambi i casi l’attenzione è rivolta alla fase di spostamento del focus (focus-
shifting), il momento cioè nel quale si verifica il passaggio da un focus ad un altro.
2.3 GENERAZIONE DI LINGUAGGIO NATURALE
Con il termine “generazione di linguaggio” naturale si vuole indicare quel procedimento in
base al quale, partendo da rappresentazioni fornite dalla fase di analisi, vengono prodotte
frasi in una particolare lingua; il generatore è quindi uno degli elementi essenziali per la
costruzione di sistemi adatti a compiere traduzione automatica.
Un generatore deve essere in grado di compiere alcune scelte:
Lessicali: attraverso la consultazione di un dizionario specifico per la lingua di traduzione,
deve scegliere quale sia il termine più adeguato per descrivere un determinato concetto .
43 G. Ferrari, op. cit. 44 ibid. p. 143
34
Sostanzialmente l’input del generatore consiste in una rappresentazione dei concetti
contenute nelle frasi e da questi risalire ai termini corrispondenti; in linea generale possiamo
dire che quando l’algoritmo del generatore individua il termine corrispondente al dato
concetto, inserisce tale termine nel testo; in caso contrario il generatore sceglie un termine di
gerarchia superiore, un iperonimo, aggiungendo eventualmente modificatori restrittivi.45
Strutturali: il generatore deve essere in grado di strutturare correttamente sia le singole frasi
(con l’ausilio di una grammatica), sia l’intero discorso; non dobbiamo infatti dimenticare che
nelle diverse lingue, il modo di articolare i periodi varia non solo in base a convenzioni
grammaticali, ma anche stilistiche.
Le regole che più interessano per la generazione, sono quelle di codifica, in grado cioè di
trasformare diagrammi (generazione a livello alto) in sequenze di parole (generazione bassa).
Tali regole possono essere considerate come un’estensione delle regole per la descrizione di
grammatiche context-free.46
Prendiamo ad esempio la forma tipica di una regola in grammatiche context-free
S > NP VP
In questo modo non si riesce a intuire come la frase nominale e quella verbale siano derivate
dal diagramma concettuale e non possiamo neppure stabilire come la persona e il numero del
soggetto della frase nominale influenzino la frase verbale.
È a questo punto che interviene l’innovazione della grammatica ASPG: per ogni nodo non
terminale (NP VP), vengono specificati degli attributi che devono esser verificati.
Così avremo :
S (condizioni per applicare tale regola) !
NP (spostare nodo del concetto verso il soggetto;
prendere numero e persona dal concetto)
VP ( spostare il nodo del concetto verso l’AZIONE principale;
copiare numero e persona dal record NP;
copiare modo e tempo dal record S)
In linea generale possiamo dire che S rappresenti lo scopo che deve essere raggiunto, mentre
NP e VP sono dei sottoprocedimenti da attuare.
45 N. Sondheimer, S. Cumming, R. Albano, How to realize a concept: Lexical selection and the conceptual network in text generation, Machine Translation, 1 marzo 1990 46 Cfr p. 23
35
TRADUZIONE AUTOMATICA
3.1 INTRODUZIONE La traduzione automatica, vale a dire la traduzione da un linguaggio naturale ad un altro
attraverso l’uso di computer, è stato uno tra i primi obiettivi che si è posta la linguistica
computazionale.
In linea generale possiamo dire che attualmente quasi tutti i sistemi di traduzione automatica
non si prefiggono come obiettivo quello di raggiungere una completa traduzione automatica
ad alta qualità, ma piuttosto tentano di conseguire un livello qualitativo in grado di
rispondere alle esigenze del consumatore, degli utilizzatori di servizi di traduzione
automatica, che già da qualche tempo stanno diffondendosi gratuitamente anche in rete. Una
traduzione automatica approssimativa ha inoltre il vantaggio di rappresentare una buona base
di partenza per la fase di post-editing, cioè una correzione manuale dell’output dato dal
calcolatore.
I problemi legati alla traduzione automatica sono di diversa natura: innanzitutto bisogna
tenere in considerazione le diversità strutturali che riguardano le diverse lingue; possiamo
infatti catalogare, seppur in modo molto generale, le lingue in base all’ordine nel quale
vengono posizionati soggetto, verbo e oggetto in semplici frasi assertive; avremo così lingue
“preorder”, dalla forma VSO (verbo, soggetto, oggetto), come nel caso dell’arabo o
dell’irlandese; lingue “postorder” dalla forma SOV (soggetto, oggetto, verbo) come nel
giapponese e infine lingue “inorder” con la forma SVO (soggetto, verbo, oggetto) come per
l’inglese o il francese.
In secondo luogo è necessario tenere presenti i vari livelli di ambiguità (semantica,
sintattica), che abbiamo già avuto modo di esaminare nella descrizione della fase di analisi
del linguaggio naturale, e i problemi legati alla generazione; infine esistono delle
considerazioni più a carattere operativo, in modo particolare per quanto riguarda le diverse
strategie ed approcci che si sono seguiti nel corso dei decenni per la costruzione di sistemi
adeguati per la traduzione automatica.
Le difficoltà maggiori si riscontrano soprattutto quando si voglia progettare un sistema in
grado di analizzare un testo di qualsiasi natura, senza cioè aver pensato alla costruzione di un
sistema di traduzione automatica ad hoc per un argomento specifico : infatti, soprattutto agli
albori degli studi sulla traduzione automatica, i sistemi venivano realizzati per rispondere a
36
particolari esigenze di traduzione, come ad esempio previsioni metereologiche o documenti
militari. Se l’argomento della traduzione è ristretto, vengono di molto semplificati i problemi
di ambiguità lessicale, polisemia, ambiguità del contesto. Riprendiamo l’esempio della
parola “bank”47 e consideriamone le sue accezioni di “istituto bancario” e “riva del fiume”;
ora, se avessimo il dizionario di lingua, inserito in un sistema di traduzione automatica,
specifico per il dominio finanziario, il significato “riva del fiume” non sarebbe neppure
contemplato e il sistema tradurrebbe senza alcun problema di ambiguità lessicale la parola
“bank” con il corrispondente “istituto bancario”.
Negli ultimi anni, però la tendenza è stata quella di arrivare a traduzione sempre più
perfezionate e in grado di trattare testi dalla più svariata natura e prova ne è il fatto che,
sistemi gratuiti on-line di traduzione automatica sono in larga diffusione (come ad esempio
quelli dei browser yahoo, google o altavista).
Vediamo quindi quale è stato lo sviluppo delle ricerche nel campo della traduzione
automatica dagli inizi ai nostri giorni.
3.2 STORIA DELLA TRADUZIONE AUTOMATICA48
Le origini della traduzione automatica possono essere fatte risalire al diciassettesimo secolo
con l’idea di trovare linguaggi universali, ma le prime vere proposte apparvero nel 1933 con
i brevetti del francese Georges ARTSROUNI e del russo Petr TROJANSKIJ.
Artsrouni propose un dizionario multilingue automatizzato, mentre il progetto di Trojanskij
si basava sulla codifica e interpretazione delle funzioni grammaticali utilizzando simboli
universali (sulla falsariga dell’Esperanto).
Trojanskij individuò tre fasi nel processo di traduzione automatica: nella prima era
necessario che un esperto della lingua da tradurre predisponesse le forme base della lingua;
quindi il traduttore automatico trasformava tali sequenze base e le strutture grammaticali in
equivalenti strutture funzioni nella lingua di arrivo; da ultimo un esperto della lingua nella
quale è stata eseguita la traduzione, compie una revisione dell’output del testo.
47 Cfr. p. 28 48 J. Hutchins, Machine translation: a brief history, in “Concise History of the language sciences: from the Sumerians to the cognitivists”. Edito da E.F.K. Koerner e R.E Asher, Pergamon, Oxford, 1995, pp. 431-445.
37
La possibilità di usare computer per la traduzione venne ripresentata circa dieci anni dopo,
da Andrew BOOTH e Warren WEAVER, stimolati dallo sviluppo di nuovi software.
Nel 1949 Weaver si concentrò soprattutto nella risoluzione del problema dell’ambiguità
semantica, basandosi sulle sue specifiche conoscenze in crittografia, statistica e logica.
A seguito di questi nuovi impulsi, nel 1951 venne istituito al Massachusetts Institute of
Technology, un gruppo di ricerca sulla traduzione automatica guidata da Yehoshua BAR-
HILLEL e l’anno seguente venne convocata la prima conferenza nella quale vennero
tracciate le linee guida per diversi approcci praticabili in traduzione automatica.
Dalla conferenza emerse chiaramente un punto fondamentale : una completa automazione
del processo traduttivo che portasse a risultati paragonabili a quelli proposti da traduttori
umani, era in pratica impossibile; si rendevano quindi necessarie le fasi di pre e post-editing
(preparazione dell’input e revisione dell’output).
Il 7 gennaio 1954, Leon DOSTERT della Georgetown University, organizzò una
dimostrazione pubblica di un sistema di traduzione automatica costruito in collaborazione
con l’IBM : vennero tradotte dal russo all’inglese un set di 49 frasi usando un dizionario
costituito da sole 250 parole e una grammatica contenente sei regole.
Nonostante lo scarso valore scientifico di tale esperimento, esso ebbe l’indiscusso merito di
sensibilizzare l’opinione pubblica e i governi, soprattutto quello americano, tanto che
ricerche in traduzione automatica vennero iniziate in tutti gli Stati Uniti.
Nel 1954 venne fondata la prima rivista specialistica “Mechanical Translation” e pubblicato
il primo libro che trattava in modo rigoroso i paradigmi di traduzione automatica.
A seguito dei numerosi progetti portati avanti negli Stati Uniti, così come in Unione
Sovietica, si formarono gruppi di ricerca anche in Europa (come ad esempio quello di
Cambridge sotto la guida di Margaret MASTERMAN o a Milano con il coordinamento di
Silvio CECCATO), Cina e Giappone.
Nel corso di tutti gli anni sessanta vennero seguiti soprattutto due filoni di ricerca : uno di
impostazione più empirica, basato sull’analisi statistica in grado di dar conto di regolarità
grammaticali e lessicali; l’altro seguì un approccio più rigoroso nella ricerca linguistica
stretta.
38
Gli empiristi adottano l’approccio della traduzione automatica diretta, per cui il sistema
viene costruito in ogni dettaglio per poter lavorare con una specifica coppia di lingue; i
dizionari bilingui vengono semplificati in modo da proporre per ciascuna parola della lingua
da tradurre un solo equivalente nella lingua di traduzione che coprisse il maggior numero di
significati possibili; sostanzialmente veniva tralasciata l’analisi del contesto e veniva
mantenuto in modo piuttosto fedele l’ordine delle parole della lingua tradotta.
I ricercatori che affrontavano ricerche linguistiche più approfondite, proponevano un
approccio alla traduzione automatica basato sul sistema dell’interlingua; la traduzione
avveniva pertanto in due fasi : dalla lingua da tradurre all’interlingua e quindi
dall’interlingua alla lingua di arrivo; l’interlingua si viene quindi a configurare come un
linguaggio artificiale di passaggio tra due lingue.
Il problema più grosso era però rappresentato dall’inadeguatezza degli strumenti
computazionali a disposizione, per cui gli sforzi si concentrarono soprattutto nello sviluppo
di software e strumenti per il trattamento del linguaggio naturale.49
Nonostante le difficoltà di carattere pratico, il fervore per un ampliamento di nuovi progetti
di traduzione automatica, in modo particolare negli Stati Uniti, non si arrestò e anzi si
cominciò a pensare alle applicazioni più diverse, sia in campo militare, sia per uso privato.
Erwin REIFLER, all’università di Washington, propose un approccio basato sullo sviluppo
di dizionari : le informazioni lessicografiche contenute nei dizionari bilingui venivano
utilizzate non solo per trovare i significati equivalenti in copie di lingue, ma avrebbero anche
dovuto risolvere problemi di carattere grammaticale senza compiere un’analisi sintattica.
Un’applicazione pratica di questo sistema venne utilizzato dall’aviazione statunitense fino al
1970, anno in cui si cominciò a lavorare con Systran.50
Altri ricercatori seguirono modelli basati sull’analisi di testi a più livelli linguistici, come nel
caso del gruppo di ricercatori guidati da Michael ZARECHNAK alla Georgetown
University, che propose il sistema GAT (Georgetown Automatic Translation) : la lingua
naturale veniva analizzata nelle sue componenti morfologiche (inclusa l’identificazione di
idiomi), sintagmatica (concordanza di nomi ed aggettivi, verbi, modificazione di aggettivi) e
sintattica (relazioni tra frasi, soggetti e predicati…).
Alla Harvard University, Anthony OETTINGER preferì seguire un approccio graduale, per
cui in una prima fase ci si concentrò nella compilazione di enormi dizionari bilingui
49 Vedi il precedente capitolo sul Natural Language Processing, p. 13 50 Cfr. p. 53
39
inglese/russo in modo da realizzare una traduzione parola-per-parola; in un secondo
momento si pensò alla progettazione di un analizzatore sintattico in grado di compiere
previsioni di tipo statistico sulle possibili sequenze grammaticali.
Al Massachusetts Institute of Technology, si puntò soprattutto sull’analisi sintattica: in una
prima fase si costruirono grammatiche adeguate alla lingua che si doveva tradurre; quindi
segue una conversione delle strutture individuate nella lingua di partenza in equivalenti
strutture nella lingua di traduzione; infine, una grammatica costruita appositamente per la
lingua di traduzione, produceva frasi in output.
A Berkeley, sotto la direzione di Sydeny LAMB, venne costruita una grammatica
“stratificata” con reti, nodi e relazioni; la traduzione viene considerata come un insieme di
processi di codifica e decodifica: dallo strato grafemico della lingua di partenza, si passa agli
strati morfemici e sememici; il testo nella lingua d’arrivo viene generato passando attraverso
questi diversi strati. Ogni parola viene cioè esaminata in un contesto che non sia
esclusivamente quello del testo, ma il più vasto possibile.
È facile notare come le ricerche americane prediligessero una approccio basato sul transfer51
linguistico per compiere traduzioni automatiche, tralasciando l’aspetto dell’interlingua; tale
secondo approccio venne però seguito in altre parti del mondo.
A Cambridge, il gruppo guidato da Margaret MASTERMAN, adottò due linee essenziali: da
un lato lo sviluppo di un’interlingua che si configurasse come una lingua pidgin (nel senso
di lingua ausiliaria); dall’altro lato si guardò alla costruzione di strumenti per la revisione
degli output (post-editing), in modo particolare sotto forma di complesse reti semantiche
applicate a thesaurus.
A Milano, Silvio CECCATO propose un modello di interlingua basato sull’analisi dei
processi cognitivi52, soprattutto per quanto riguarda le parole (genere, specie, proprietà..) e le
diverse correlazioni esistenti tra le parole all’interno di un testo.
51 Con transfer si intende la trasformazione delle strutture della lingua sorgente in corrispondenti strutture della lingua di arrivo. 52 Attraverso lo studio dei processi cognitivi si tentano di spiegare le attività con le quali l’uomo giunge a conoscere il mondo esterno ed entra in relazione con esso. I processi cognitivi comprendono quindi attenzione, percezione, riconoscimento, memoria, pensiero e, per quello che a noi qui interessa, il linguaggio, sia per i rapporti tra esso e il pensiero, sia per la sua funzione comunicativa.
40
In Unione Sovietica gli studi più interessanti in merito alla creazione di un’interlingua,
vennero portati avanti da MEL’CHUCK, che propose un modello basato sul “significato del
testo” ; l’idea di fondo era quella di poter individuare particolari aspetti di analisi: fonetico,
fonematico, morfemico, sintattico di superficie e profondo, semantico, con particolare
attenzione agli aspetti lessicografici. Infatti vennero identificate 50 funzioni lessicali
universali dal applicare all’interlingua in modo da ricoprire altrettante relazioni
paradigmatiche.
A seguito di questi straordinari e nuovi impulsi alla ricerca, nacquero numerosi altri progetti
in tutta Europa, Cina, Messico e Giappone.
Purtroppo, questo entusiasmo che aveva caratterizzato tutti gli anni cinquanta, fino alla metà
degli anni sessanta, venne notevolmente frenato dal cosiddetto “Rapporto ALPAC”.
Tale rapporto, venne pubblicato nel novembre del 1966 ad opera della Automatic Language
Processing Advisory Committee.
Fin dalle prime battute, apparve evidente il giudizio estremamente negativo dato dalla
commissione nei riguardi della traduzione automatica, ma soprattutto era largamente diffusa
l’opinione per cui non fosse possibile immaginare soluzioni soddisfacenti nel breve periodo.
I punti principali sui quali si concentrò il rapporto, erano la qualità, la velocità e i costi della
traduzione automatica, messi a confronto con quelli che erano i risultati e le spese dei
traduttori umani professionisti; per ciascuno di questi aspetti, la commissione espresse
un’opinione più favorevole verso la traduzione “ manuale”.
La commissione suggerì quindi di concentrare gli sforzi, e le risorse finanziarie, verso lo
sviluppo di strumenti che aiutassero i traduttori professionisti, come ad esempio glossari per
ricerche incrociate in più testi o database terminologici.
In effetti, bisogna riconoscere che il panorama, sia per quanto riguarda i progetti sia per i
risultati ottenuti, era qualitativamente scarso e non si vedevano situazioni risolutive a breve
termine, scoraggiando quindi anche i finanziamenti governativi.
È però altrettanto vero che ci si limitò a pensare alle esclusive esigenze degli enti federali
statunitensi o quantomeno alla quasi esclusiva applicazione della traduzione automatica in
campo militare, tralasciando la possibilità di impiegare tali prodotti per le organizzazioni
internazionali o per la distribuzione su larga scala nelle aziende, soprattutto in un momento
in cui l’economia globale era in piena espansione.
Come prima reazione a seguito del rapporto, le ricerche in traduzione automatica negli Stati
Uniti, cessarono quasi completamente; fortunatamente nuove esigenze in altre parti del
41
mondo continuarono ad alimentare la fiducia nel raggiungimento di buono risultati, come nel
caso del Canada, che seguiva una politica atta a mantenere il bilinguismo anglo-francese, e
dell’Europa, che vedeva in quegli anni lo sviluppo della Comunità Economica Europea.
A Montreal nacque così nel 1970 il progetto TAUM, che perseguiva due obiettivi principali:
innanzitutto vennero poste la basi per la creazione di un linguaggio di programmazione
(PROLOG) da utilizzare per il trattamento del linguaggio naturale, e inoltre la costruzione di
un sistema di traduzione automatica per le previsione meteorologiche (Météo).
In Europa, gli studi più interessanti si ebbero a Grenoble, con lo sviluppo di progetti basati
sull’approccio interlingua. Bernard VAUQUOIS, del Centro per gli Studi sulla Traduzione
Automatica propose un “linguaggio pivot”, un modello cioè in grado di rappresentare
unicamente le proprietà delle relazioni sintattiche, mentre il lessico veniva tradotto da un
semplice sistema bilingue a transfer.
Nonostante i buoni risultati raggiunti con sistemi ad approccio interlingua, verso la metà
degli anni settanta le difficoltà individuate per la costruzione di un linguaggio intermedio,
soprattutto per quanto riguarda i diversi livelli di analisi, fecero optare per soluzioni meno
ambiziose e si puntò soprattutto su un approccio transfer.
Un sistema di questo tipo, che portasse con sé vaste possibilità di applicazione, venne
studiata proprio dal gruppo di Grenoble: ARIANE, che influenzò numerosi altri progetti di
traduzione automatica lungo tutto l’arco degli anni ottanta.
I punti di forza di Ariane erano la flessibilità e la modularità53, ma soprattutto il trasduttore,
dispositivo in grado di manipolare rappresentazioni a grafo orientato: diversi tipi di
rappresentazioni (logiche, della struttura della frase, delle relazioni di dipendenza interna…)
potevano essere ricondotte ad un unico grafo con tutte le informazioni contenute nei vari
moduli.
L’influenza che il gruppo francese ebbe anche su altri progetti, si riscontrò in modo
particolare in Asia; alcune sostanziali somiglianze sono infatti evidenti tra Ariane e Mu, il
sistema sviluppato da MAKOTO NAGAO all’Università di Kyoto: l’analisi grammaticale, le
rappresentazioni ad albero delle relazioni di dipendenza e la metodologia per la scrittura di
grammatiche, avevano alla base la stessa filosofia di modularità.
53 Con modularità si intende indicare la possibilità di scomporre il sistema in moduli, ciascuno dei quali ha una specifica funzione all’interno del processo di traduzione.
42
Un altro progetto che ha dei punti in comune con Ariane è EUROTRA, sviluppato per la
Comunità Europea; il suo scopo era quello di costruire un sistema transfer multilingue per la
traduzione delle lingue dei paesi membri della comunità.
Era un progetto che prevedeva una struttura modulare, disegnato in modo tale da combinare
informazioni riguardanti il lessico, la sintassi e la semantica in interfacce multilivello con un
elevato grado di astrattezza; restava comunque necessario un post-editing da parte di esperti
traduttori.
Nonostante il progetto non ebbe seguito, uno dei suoi meriti fu sicuramente quello di aver
formalizzato teorie sintattiche, di parsing e di analisi del discorso.
Sul finire degli anni ottanta, si assiste ad un ritorno di interesse per sistemi ad approccio
interlingua, in modo particolare per quanto riguarda la creazione di dispositivi costruiti sulla
base della rappresentazione della conoscenza.
Progetti di questo tipo si svilupparono soprattutto in Olanda; il primo di questi fu DLT
(Distributed Language Translation): venne inteso come un sistema multilingue interattivo
che lavorasse attraverso reti di computer; ogni terminale doveva essere la macchina
traduttrice da e verso una specifica lingua; i testi dovevano quindi essere trasmessi in un
linguaggio intermedio (costruito seguendo le linee guida dell’Esperanto).
L’analisi del linguaggio avveniva solo a livello morfologico e sintattico.
Un altro progetto olandese è il ROSETTA, creato dal gruppo guidato da Jan
LANDSBERGER; lo scopo era quello di utilizzare la grammatica di Montague54 in
rappresentazioni interlingua: le rappresentazioni vengono derivate dalle strutture sintattiche
seguendo i principi della composizionalità; per ciascuna struttura di derivazione sintattica
esiste una corrispondente struttura semantica che a sua volta è rappresentazione interlingua.
Un altro aspetto interessante del progetto Rosetta è la possibilità della reversibilità delle
grammatiche: la compilazioni di regole grammaticali e trasformazionali avrebbe lavorato in
un senso per le fasi di analisi sintattica e semantica di una particolare lingua; nell’altra
direzione sarebbe invece servita per la generazione (produzione) di frasi corrette in quella
stessa lingua.
Anche negli Stati Uniti, la ricerca in traduzione automatica riprese vigore, e prova ne è la
creazione alla Carnegie-Mellon University di Pittsburgh, sotto la guida di Jaime
CARBONELL e Sergei NIRENBURG, di sistemi che lavorano su base di conoscenza.
54 Cfr. p. 29
43
I componenti essenziali di tali sistemi erano piccoli dizionari concettuali costruiti per
specifici domini, dizionari per analisi e generazione, parser, mappatori semantici per
l’individuazione dei significati, generatori semantici e sintattici. Tali componenti
confluivano poi nella rappresentazione interlingua di testi sotto forma di reti di proposizioni.
All’inizio degli anni novanta, emerse l’esigenza di creare supporti e strumenti di controllo da
utilizzare durante le varie fasi di analisi e generazione implicate nel processo automatico di
traduzione.
Nacquero così le prime postazioni di lavoro per traduttori, in grado di combinare
l’elaborazione multilingue di parole, software specifico per il trattamento delle terminologie
e soprattutto corpora fraseologici bilingue; tali corpora avevano la specifica funzione di
immagazzinare testi nelle due versioni, originale e tradotto; i due testi venivano quindi
disposti uno accanto all’altro in modo da poter creare e ricercare corrispondenze tra frasi in
lingue diverse.
Il traduttore sarà inoltre in grado di eseguire ricerche per singole frasi o interi periodi e
trovare corrispondenze tra coppie di lingue.
Oltre alle postazioni di lavoro, gli anni novanta sono caratterizzati anche dall’emergere di un
nuovo metodo di eseguire traduzione automatica, cioè quello di basarsi sulla compilazione di
vastissimi corpora linguistici multilingue ai quali affiancare metodi di analisi statistica.55
Un progetto di questo tipo, il Candidate dell’IBM, portò a risultati estremamente
interessanti: circa la metà delle frasi tradotte con questo sistema risultarono identiche a
quelle contenute nel corpus e per la rimanente metà, la traduzione risultava comunque
accettabile.
La nascita di vasti corpora e gli studi in psicologia cognitiva, diedero nuova linfa a progetti
di traduzione automatica ad approccio interlingua, ancora una volta in ambito statunitense.
È interessante notare come in questo periodo, l’attenzione si sposti da studi concentrati
prevalentemente sulla sintassi, ad analisi più approfondite sul lessico: aumenta cioè il
bagaglio di informazioni legato ai lemmi (cioè alle voci) contenuti nei dizionari.
Le informazioni relative ai lemmi non sono più solo di carattere morfologico, sintattico e di
corrispondenza lessicale, ma hanno anche una caratterizzazione semantica.
55 L’utilizzo di vasti corpora favorì anche lo sviluppo di nuovi studi in psicologia cognitiva a scopi linguistici, con particolare attenzione ai meccanismi di produzione del pensiero e reti neurali; ai fini della linguistica computazionale, questi studi permisero di irrobustire i calcolatori grazi e alla realizzazione di collegamenti più stretti fra categorie grammaticali (struttura sintattica) e lessico (reti semantiche).
44
Questo aspetto risulta particolarmente importante ai fini di una traduzione automatica basata
su sistemi di interlingua dove i sistemi fanno uso di una forte componente semantica
(ontologie, dizionari concettuali, relazioni logiche e semantiche…).
Attualmente è possibile individuare due principali filoni di ricerca: il primo tenta di
sviluppare sistemi di traduzione automatica in grado di riconoscere e produrre il parlato e di
fare quindi analisi e generazione linguistica di conversazioni e dialoghi (come ad esempio il
progetto Janus della Carnegie-Mellon University).
In secondo luogo, le ricerche in traduzione automatica hanno dovuto far fronte alla crescita
esponenziale di mezzi per la comunicazione globale, Internet in testa.
L’influenza di Internet si può riscontrare nel fatto che negli ultimi anni sono nati software di
traduzione automatica specifici per applicazioni su Web; precursori sono stati Babelfish, sul
sito del portale Altavista, utilizzabile in ricerca, o CompuServe, sistema applicabile a
messaggi e-mail o chat-room.
Diversi tipi di traduzione automatica vengono oggi studiati per rispondere alle esigenze più
diverse, a partire dalle grandi organizzazioni internazionali e industrie, passando per la
creazione di strumenti sempre più potenti da affiancare ai traduttori professionisti, per
arrivare all’uso privato di tali sistemi di traduzione così da consentire, da un lato, una reale
comunicazione multilingue che rappresenta oggi una delle grandi risorse della nostra società
e, contemporaneamente, preservare le numerosissime varietà linguistiche e culturali che sono
per tutti un valore imprescindibile.
3.2 MODELLI DI TRADUZIONE
Come si è visto da questa breve esposizione, da quando si è sviluppato l’interesse per la
traduzione automatica, sono stati creati sistemi che hanno adottato strategie diverse e trattato
quindi i problemi di analisi e generazione con filosofie spesso agli antipodi.
I modelli adottati per sistemi di traduzione automatica possono essere organizzati
sostanzialmente in tre categorie: modelli per la traduzione diretta, basata su transfer e
interlingua.
Schematicamente, i tre principali approcci possono essere rappresentati dal seguente
triangolo:
45
Figura 4: Raprresentazione dei diversi approcci utilizzati in traduzione automatica
I metodi che si basano sull’analisi della parola, producono traduzioni parola-per-parola; i
metodi transfer costruiscono una rappresentazione strutturata della lingua di partenza a
diversi livelli (sintattico o semantico), la trasformano in una rappresentazione della lingua di
arrivo (usando delle regole specifiche di transfer per ogni livello di analisi) e generano una
stringa di caratteri.
I metodi che si basano su un approccio interlingua, oltre ad utilizzare una rappresentazione
sintattica e semantica della lingua, inseriscono un nuovo livello di astrazione facendo uso di
un linguaggio intermedio ed indipendente dalle lingue coinvolte nel processo di traduzione.56
56 C.D. Manning, H. Schutze, Foundation of Statistical Natural Language Processing, MIT Press, Cambridge, 1999
Interlingua Rappresentazione della conoscenza
Inglese ( rappresentazione
semantica )
Italiano ( rappresentazione
semantica )
Inglese ( parsing sintattico )
Italiano ( parsing sintattico )
Testo in inglese ( stringa di parole )
Testo in italiano ( stringa di parole )
Transfer semantico
Transfer sintattico
Parola per parola
Transfer sintattico
46
3.3.1 APPROCCIO DIRETTO
I sistemi ad approccio diretto possono essere considerati come una semplificazione di
modelli ad approccio transfer; infatti la filosofia di base rimane la stessa e cioè quella di
voler considerare solo una coppia di lingue alla volta e costruire quindi un modello di
traduzione ad hoc per quella specifica coppia
Il risultato di una traduzione operata con questo sistema è una sequenza di parole nella
lingua di arrivo che è stata direttamente sostituita a quella della lingua di partenza, così che
anche l’ordine delle parole nel testo tradotto rispecchia fedelmente quello del testo originale.
Un sistema di traduzione ad approccio diretto si articola in linea generale in diverse fasi,
ciascuna delle quali si concentra su uno specifico problema: analisi morfologica, transfer
lessicale (traduzione parola per parola dei termini), eventuale analisi delle preposizioni (le
preposizioni hanno infatti in diversi casi il compito di stabilire quale verbo deve seguire,
come ad esempio nel caso dei phrasal verbs inglesi), transfer sintattico (ordine delle parole)
e quindi la generazione.
Il problema maggiore che si verifica in questi tipi di sistemi è quello della scelta dei termini:
infatti non è possibile risolvere con un semplice transfer lessicale le varie ambiguità che si
possono presentare, non essendo fatta alcuna analisi semantica vera e propria; se è vero
infatti che un testo poco corretto grammaticalmente può ugualmente essere compreso, lo
stesso non si può dire se manca del tutto un senso logico al discorso.
La mancanza di un’analisi semantica non consente di avere dei risultati di traduzione
soddisfacenti in quanto non viene in alcun modo preso in considerazione il contesto entro il
quale una parola si viene a trovare.
L’unica soluzione è quella di applicare questo tipo di approccio a testi il cui argomento sia
estremamente specifico e costruire quindi dizionari ad hoc, facendo riferimento ai particolari
contesti entro i quali una determinata parola può occorrere.57
3.3.2 APPROCCIO TRANSFER
Anche per quanto riguarda l’approccio transfer, la struttura di base è organizzata in modo da
tradurre da una specifica lingua in un’altra specifica lingua.
57 In effetti, i sistemi diretti fanno spesso uso di collezioni bilingue o multilingue di espressioni fraseologiche, soprattutto se il sistema si rivolge ad un dominio circoscritto.
47
Possiamo identificare tre fasi essenziali: l’analisi, il transfer vero e proprio e la generazione,
dove la fase di transfer rappresenta il collegamento tra gli output derivanti dall’analisi e
l’input del generatore.
Figura 5: Schema dell’approccio transfer58
L’idea di base di tale modello è quello di fornire testi generati correttamente dal punto di
vista grammaticale grazie ad opportune trasformazioni operate a livello della struttura
sintattica o semantica della lingua che si vuole tradurre; si passa quindi dalla struttura
sintattica o semantica della lingua d’origine ad una rispettiva struttura nella lingua di arrivo.
Un concetto simile, si trova anche in modelli interlingua; la differenza risiede nel fatto che il
transfer deve trattare specifiche coppie di lingue, mentre l’interlingua si configura come uno
stadio di passaggio tra una qualsiasi lingua e un’altra qualsiasi lingua avendo un
supplementare livello di astrazione.
Uno dei punti deboli di tali sistemi ad approccio transfer, è proprio quello di dover costruire
regole di trasformazione per ogni coppia di lingue per cui un sistema in grado di tradurre n
numero di lingue, avrà bisogno di nxn insiemi di regole di transfer; un’ulteriore difficoltà
risiede nel fatto che il set di regole costruite per la traduzione dall’inglese all’italiano dovrà
essere completamente riscritto per una traduzione dall’italiano all’inglese. 58 Tratto da D. Jurafsky, J.H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall, New Jersey, 2000, p. 808
Parole della lingua di partenza
Parole della lingua di arrivo
Parsing Generazione
Struttura ad albero della lingua di partenza
Struttura ad albero della lingua di arrivo
TRANSFER
48
Una caratteristica importante di questi sistemi è quella di poter risolvere un certo grado di
ambiguità lessicale: a partire dall’analisi sintattica, si è in grado di risalire alla categoria
lessicale in cui rientra una determinata parola nella lingua che si vuole tradurre.
Tentare di risolvere un’ambiguità lessicale attraverso le informazioni derivanti dalla sintassi
non è sempre possibile, soprattutto per frasi complesse; si rende quindi necessaria la
compilazione di regole specifiche per il transfer semantico vero e proprio, così da poterle
implementare con le informazioni derivanti dall’analisi sintattica.
Il transfer semantico si fonda soprattutto su considerazioni riguardanti il contesto, con
l’analisi di informazioni di carattere pragmatico e del discorso con l’ausilio anche di
dizionari bilingui completi, che riportino non solo gli equivalenti terminologici, ma diano
anche informazioni di carattere grammaticale e facciano riferimento ai diversi contesti in cui
una parola può occorrere.
3.3.3 APPROCCIO INTERLINGUA
Innanzitutto dobbiamo chiarire cosa si intende per interlingua: l’interlingua si configura
come un metalinguaggio, un livello astratto di passaggio tra due lingue, predisposto come
una rappresentazione autonoma indipendente dalle specifiche delle singole lingue.
I problemi principali affrontati da un sistema ad approccio interlingua ed i traguardi che si
propone di raggiungere sono sostanzialmente l’utilizzo di una base di conoscenza
indipendente dal tipo di lingua che si vuole tradurre, il tentativo di rappresentare il
significato di un testo utilizzando un’interlingua, la volontà di raggiungere un grado di
“universalità” nella descrizione di qualsiasi lingua e la natura astratta, “profonda”, della
rappresentazione interlingua.
Uno degli elementi che si riscontrano con più frequenza in sistemi che adottino un approccio
interlingua per la traduzione, è un insieme prefissato di “ruoli tematici”59, elementi cioè in
grado di descrivere la funzione che i componenti delle frasi assumono all’interno di esse,
indicandone i reciproci collegamenti.
59 D. Jurafsky, J.H. Martin, op. cit., p 812
49
Nel momento in cui si utilizza l’interlingua, i ruoli tematici vengono assunti come universali
del linguaggio.60
La nozione di universale linguistico, nella prospettiva di confrontare strutturalmente due
linguaggi, viene rintracciata attraverso la catalogazione degli elementi che appaiono in tutte
le lingue; questa posizione ritiene che una data caratteristica possa ritenersi universale se
viene rintracciata in tutte le lingue che sono state prese in esame; in questo senso gli
universali si configurano come un insieme di proprietà, una rilevazione e classificazione di
elementi.61
In altre parole, possiamo dire che in ogni lingua ci sono costrutti sintattici che identificano
concetti relativi a persone, oggetti, azioni, eventi, processi… e relazioni generali come
agente di un’azione, tempi, luogo, causa, etc, indipendentemente dalla traduzione che
ciascun specifico termine ha nelle diverse lingue: concetti e relazioni tra concetti sono quindi
identici in ogni sistema linguistico.62
Strettamente legata agli universali è l’ontologia, una complesso sistema per la strutturazione
dei concetti e le loro relative relazioni che possono essere di iperonimia, iponimia,
metonomia, casualità, etc.
L’ontologia si configura come la descrizione di concetti e delle relazioni che intercorrono tra
essi; è quindi una strutturazione della conoscenza.
Lo scopo della costruzione di un’ontologia è quello di rendere fruibile ed utilizzabile la
conoscenza in essa contenuta, soprattutto se inserita in un più complesso sistema di
traduzione automatica, dove le relazioni esplicitate nell’ontologia possono essere parte
integrante dell’intero processo traduttivo.
Il modo con cui viene organizzata l’ontologia, nonostante lasci abbastanza libertà al
progettista del sistema, resta uno dei nodi cruciali per il buon funzionamento del sistema
stesso.63
60 I ruoli tematici sono categorie semantiche per la caratterizzazione di alcuni argomenti dei verbi; essi sono agent, instrument, cause, experiencer, benefactive, goal, path, measure, theme. Ad esempio nella frase “Mario ha rotto la finestra con un martello”, Mario è agent, ha rotto è cause, la finestra è benefactive mentre con il martello è instrument. 61 J. Kess, Introduzione alla psicolinguistica, Franco Angeli Editore, Milano, 1979, pg.111-112 62 A. Lehrer, Semantic fields and Lexical Structure, North Holland Publishing Company, 1974, pg. 151 63 Avremo modo di vedere trattando di UNL come l’organizzazione di una ontologia serva anche per la traduzione vera e propria di termini lessicali
50
In tal modo la parola italiana “uomo” sarà identificata nell’ontologia come “essere umano /
maschio”. A questo punto, nel processo di traduzione si andrà a rintracciare il termine che
abbia le stesse caratteristiche di “essere umano / maschio”.
Questo esempio deve però essere considerato come un’esemplificazione molto generale in
quanto, proprio la parola “uomo” può rappresentare più di un concetto (specie umana,
marito, compagno, persona forte, etc) e per questo trovarsi in più punti diversi all’interno
dell’ontologia.
L’utilità di avere una rappresentazione concettuale non ambigua dei termini (vedi ad
esempio il caso di uomo che si trova in posti diversi dell’ontologia) è particolarmente
evidente quando ci si trova a dover tradurre dei termini che non abbiano una perfetta
corrispondenza in due diverse lingue: in questo caso, grazie all’organizzazione
dell’ontologia (ed è per questo che il modo con cui viene costruita risulta fondamentale), si
può risalire ad un termine gerarchicamente superiore, vale a dire meno specifico, ma che
riproduce ugualmente il concetto che volevamo definire. Un esempio concreto possono
essere le varie definizioni presenti nel lessico delle popolazioni Inuit che designano un
termini particolare per ogni tipo di neve: in questo caso l’ontologia ci permette di definire
genericamente “neve” tutti i termini specifici ad essa correlati.
Si potrebbe obiettare che in casi come quelli appena citati si possono perdere parte delle
informazioni, sia a livello lessicale sia a livello di stile; bisogna però tenere presente che lo
scopo della traduzione automatica non è tanto quello di raggiungere una traduzione
“perfetta”, quanto piuttosto quello di rispondere alle immediate esigenze comunicative
dell’utente; in secondo luogo, l’obiettivo in genere della traduzione è quello di poter
rispettare il più possibile il significato del testo che si vuole tradurre e questo è possibile
anche se si utilizzano sinonimi meno specifici nel tradurre particolari termini.
I meriti principali di un approccio interlingua sono innanzitutto di natura economica: in uno
scenario multilingue nel quale siano coinvolte n lingue, sarà necessario costruire n
analizzatori e generatori, includendo 2n grammatiche e dizionari anziché dover costruire ad
hoc grammatiche, dizionari, analizzatori e generatori da e per una sola coppia di lingue
come accade nei sistemi transfer.
In secondo luogo un sistema basato su interlingua ha il merito di poter decentrare la
costruzione dei sistemi di traduzione automatica; è infatti impossibile pensare di poter
costruire un buon sistema d traduzione senza l’aiuto di persone competenti in merito alle
caratteristiche di ciascuna lingua, in grado quindi di adottare appropriate regole di analisi e
generazione.
51
Nell’approccio interlingua si separano completamente queste due fasi, consentendo in questo
modo lo sviluppo di sistemi di analisi e generazione per una determinata lingua
indipendentemente da quelli per altri sistemi linguistici; come vedremo, questa filosofia è
seguita anche in UNL, dove i server linguistici specializzati per lingua e mantenuti da
personale competente per ciascuna lingua, sono fisicamente dislocati in aree geografiche
diverse e quindi in grado di essere aggiornati con molta più semplicità e rapidità.
Figura 6: Rapporto tra approccio transfer e inaterlingua64
64 Tratto da D. Jurafsky, J.H. Martin, op. cit., p 814
generazione
Struttura ad albero della lingua di partenza
Struttura ad albero della lingua di arrivo
TRANSFER
Parole della lingua di partenza
Parole della lingua di arrivo
parsing
INTERLINGUA
interpretazione generazione
52
3.4 SISTEMI DI TRADUZIONE AUTOMATICA
Vediamo ora nello specifico come alcuni gruppi di ricerca hanno sviluppato sistemi di
traduzione automatica utilizzando i diversi approcci sopra elencati (in modo particolare
transfer e interlingua), prestando particolare attenzione alle soluzioni che sono state trovate
nell’affrontare i problemi di analisi e generazione.
!" SYSTRAN65
Lo sviluppo di Systran iniziò sul finire degli anni Sessanta ed è diventato il sistema di
traduzione automatica utilizzato dalla Comunità Europea.
Le caratteristiche di Systran possono essere così identificate:
- Modularità: determinata dai moduli inseriti nel sistema; ne esistono due diversi tipi, uno
relativo alla costruzione di strumenti per l’utilizzo del sistema indipendenti dalle lingue che
vengono trattate, come ad esempio il modulo di consultazione del dizionario; gli altri sono
invece più rivolti alla traduzione vera e propria e dipendono dalla lingua sorgente e risultano
pertanto modificabili in base alla lingua di arrivo.
In secondo luogo il processo di traduzione è suddiviso in fasi diverse e per ciascuna di esse
esistono programmi specializzati nel trattamento di fenomeni linguistici specifici, quali ad
esempio la risoluzione di omografie o il riconoscimento delle relazioni tra predicato e suoi
argomenti.
Infine, i programmi di traduzione sono suddivisi in tre categorie, specifici per la lingua
sorgente, per la lingua di arrivo e per la particolare coppia che di lingue coinvolte nel
processo di traduzione.
- Componenti linguistici e computazionali: in Systran non viene fatta un’adeguata
separazione tra quelli che sono i dati linguistici e gli algoritmi che devono trattarli; questo
punto risulta essere un problema nel momento in cui si vuole estendere il sistema al
trattamento di nuove lingue.
- Strategia linguistica: la difficoltà riscontrata poc’anzi, rende difficoltoso anche
l’aggiornamento del formalismo dei dati che compaiono nel sistema.
65 P. Whitelock, K. Kilby, Linguistics Techniques in Machine Translation System Design, UCL Press, Cambridge, 1995
53
Le fasi principali in cui Systran suddivise il processo di traduzione sono l’analisi, il transfer
e la generazione; Systran è stato progettato per poter rispondere alle esigenze di traduzione
tra 29 coppie di lingue.
Figura 7: Architettura del sistema Systran
ANALISI
Iniziale scansione
del dizionario
HOMOR
PASS 0
PASS 1
PASS 2
PASS 3
PASS 4 CLSLOOKUP
PREP2
LEX
TRANSFER
ESYN
PREP2
GENERAZIONE
54
Questo schema vuole mettere in evidenza la caratteristica modulare del sistema suddivisa nei
vari passaggi del processo traduttivo; una esaustiva descrizione di ciascun modulo verrà data
nel corso della presentazione del sistema stesso.66
Prima di analizzare i diversi passaggi di traduzione, è interessante vedere con Systran
organizza i dati linguistici: le parole della lingua di partenza vengono immagazzinate in una
particolare area e, grazie ad una iniziale scansione del dizionario, a ciascuna vengono
affiancati dei codici che identificano particolari caratteristiche sintattico-semantiche, quali
l’identificazione della parte del discorso, se si tratta di nome, aggettivo, articolo, verbo, e
ancora genere e numero (se si tratta di un elemento nominale), persona, transitività (per i
verbi), etc…Vedremo come questo tipo di classificazione sarà importante in fase di
traduzione per espressioni come le semantiche limitate o le omografie.
Dizionari
Il database lessicale di Systran è formato da due dizionari bilingui, uno per i lemmi singoli,
mentre l’altro per le espressioni idiomatiche.
Possiamo comunque distinguere diversi tipi di entrate contenute nei dizionari:
- abbreviazioni, segni di punteggiatura, radici di parole e intere parole (stem dictionary);
per quanto riguarda l’inglese, le forme flesse vengono inserite nel dizionario con
riferimento alla parola di base le relative informazioni grammaticali; in questo modo
viene evitata l’analisi morfologica.
- espressioni idiomatiche, nel senso di sequenze di parole che in ogni contesto occorrono
insieme. In Systran vengono inserite come uniche espressioni; nel momento in cui tali
espressioni vengono riconosciute nella lingua sorgente, la sua traduzione nella lingua di
arrivo viene rintracciata e marcata come tradotta; esempi di tali espressioni possono
essere at all costs, by the way, on the one hand.
- espressioni semantiche limitate (LS): differiscono dalle espressioni idiomatiche in
quanto una o più parole dell’espressione possono avere forme flesse; tipi esempi tra
l’inglese e l’italiano sono developing nation / paese in via di sviluppo oppure kitchen
garden /orto.67 Nel dizionario vengono inserite le forme base mentre le forme flesse
vengono rintracciate grazie ai codici identificativi che vengono affiancati alle parole
66 Ripreso e adattato da http://www.fi.muni.cz/usr/teaching/mt/notes/img10/png 67 Da notare che le espressioni semantiche limitate contemplano variazioni soltanto nella parte nominale; le variazioni della parte verbale sono contemplate nelle espressioni semantiche limitate condizionate.
55
durante la scansione iniziale del dizionario; ne consegue che ogni parola costituente delle
espressioni semantiche limitate deve avere un’entrata nello stem dictionary.
a) espressioni semantiche limitate condizionate (CLS): sono un particolare tipo di
espressioni LS, analizzate da un insieme di regole che impongono delle condizioni (che
coinvolgono le relazioni sintattiche o semantiche tra le differenti parole) per le quali si
selezionano specifici significati della lingua di arrivo per particolari espressioni o parole
della lingua sorgente. Prendiamo come esempio l’espressione “to make provision for”,
che corrisponde all’italiano “provvedere a”; le regole per questa espressione ci dicono
che “provision” deve essere l’oggetto di “make” che a sua volta deve governare “for”.
L’eventuale forma flessa viene riconosciuta attraverso i codici attribuiti in fase di
scansione del dizionario.
Per quanto riguarda le relazioni semantiche, in Systran vengono utilizzati dei semplici
indicatori semantici da affiancare ad alcuni categorie lessicali (ad esempio PROF per
professione, FPROD per gli alimenti, GEOLOC per luoghi geografici o MATER per
materiali); è da notare che non c’è stato alcun intento di organizzare tali indicatori in un
determinato ordine gerarchico (caratteristica invece dei sistemi basati sull’interlingua che
utilizzano le ontologie) e la decisione incorporare tali indicatori dipende esclusivamente
dalla loro utilità nel risolvere specifici problemi di analisi o traduzione: ad esempio la parola
inglese “employ” sarà tradotta in italiano con “dare lavoro” piuttosto che con “utilizzare” se
il suo oggetto viene indicato con l’indicatore PROF.
Strettamente legata alla consultazione del dizionario è l’analisi morfologica: viene compiuta
per tutte le lingue tranne per l’inglese in quanto le sue forme vengono inserite nei dizionari
in modo non segmentabile; per le altre lingue esistono due programmi di analisi, uno
dedicato al riconoscimento delle forme flesse di sostantivi e aggettivi, mentre l’altro per le
forme verbali.
In linea generale i programmi consistono in tabelle di terminazioni flessionali accompagnate
da informazioni grammaticali (nome e genere per i nome e aggettivi; persona e tempo per i
verbi).
A seguito dell’analisi morfologica, segue la fase dell’analisi sintattica; tale fase di analisi è
condotta da diversi moduli, ciascuno dei quali ha un compito ben preciso.
56
Vediamo ora i passaggi più significativi dell’analisi:
b) Modulo HOMOR : risoluzione delle omografie attraverso le informazioni assegnate
nell’iniziale scansione del dizionario; in Systran si considerano omografie le parole che
possono fungere da più di una parte del discorso, come ad esempio “caduta” (sostantivo
o participio passato del verbo cadere) o l’inglese “read” ( verbo all’infinito, al passato e
participio e sostantivo).
c) Modulo STRPASS 0 : stabilisce i confini tra i diversi periodi e li suddivider in frasi per il
successivo modulo di analisi; tale operazione viene eseguita attraverso l’individuazione
di pronomi relativi, congiunzioni di dipendenza e punteggiatura.
d) Modulo STRPASS 1 : stabilisce relazioni sintattiche primarie, vele a dire relazioni di
reggenza e qualificazione tra le parole; tali relazioni vengono indicate affiancando le
parole hanno un determinato tipo di legame indicando inoltre il loro codice di riferimento
(ad esempio: 16-26 modificatore aggettivale + sostantivo; 22-32 antecedente + pronome
relativo).
e) Modulo STRPASS 2: amplia le relazioni sintattiche attraverso la creazione di
collegamenti tra gli elementi costitutivi di un periodo; consideriamo ad esempio la frase
“Prendi la macchina fotografica e l’altro l’equipaggiamento necessario”: “macchina
fotografica” e “equipaggiamento” vengono riconosciuti come sostantivi, ma l’aggettivo
“altro” sarà fatto corrispondere ad “equipaggiamento”.
f) Modulo STRPASS 3 : vengono identificati i soggetti e i predicati di ciascuna frase e se
ne indicano le relazioni
g) Modulo STRPASS 4 : vengono identificate le relazioni semantiche, quali ad esempio
verbo-agente, verbo-soggetto; oggetto-modificatore; tali funzioni vengono utilizzate per
completare le informazioni sintattiche e per poter collegare i vari elementi.68
Transfer
Anche per la fase di transfer, come per quella di analisi, possiamo individuare dei moduli
specifici, orientati verso la traduzione di specifiche coppie di lingue; in linea generale essi
riguardano la selezione delle strutture della lingua di arrivo e degli oggetti lessicali sulla base
della delle caratteristiche della lingua sorgente.
È importante notare come questi moduli riprendano in gran parte le procedure che sono già
state utilizzate in fase di analisi; ne consegue che la distinzione tra analisi e transfer in
68 Cfr. espressioni CLS a p. 56
57
Systran risulta meno evidente rispetto ad altri sistemi che non si affidano così marcatamente
all’utilizzo dei dizionari.
Vediamo ora i principali passaggi della fase di transfer:
"#Modulo CLSLOOKUP: viene selezionata l’adeguata traduzione nella lingua di arrivo
rifacendosi alle informazioni già utilizzate per le espressioni semantiche limitate
condizionate.69
"#Modulo PREP2 : seleziona le adeguate traduzioni per ciascuna preposizione della lingua
sorgente.
"#Modulo LEX: vengono richiamati particolari programmi per trattare singole parole e
costruzioni, come ad esempio aggiungere, togliere e riordinare gli elementi in modo da
soddisfare la struttura della lingua di arrivo.
Generazione
Per la fase di generazione vengono utilizzati due moduli specifici:
"#ESYN: traduce ogni oggetto lessicale della frase sulla base delle selezioni operate dai
precedenti moduli; ad esempio vengono scelti i verbi ausiliari, vengono determinati la
persona, il numero, il genere di un sostantivo, il tempo di un verbo e si selezionano le
classi flessionali sulla base di tabelle di paradigmi regolari ed irregolari.
"#REARR: è il modulo che consente di ricostruire il corretto ordine delle parole in base
alle regole della lingua di arrivo.
!" GETA ARIANE-7870
Il sistema Ariane-78, ideato nel 1971 dal gruppo di ricercatori GETA (Groupe d’Etude pour
la Traduction Automatique) dell’Univrsità di Grenoble, nacque per la traduzione di testi
carattere scientifico dal russo al francese; a queste due lingue iniziali se ne sono aggiunte
altre, quali l’inglese, il tedesco, il portoghese e il giapponese.
È un sistema basato sull’approccio transfer e possiamo suddividere l’intero processo di
traduzione in sei fasi principali:
69 Cfr. p. 56 70 J. Slocum, Machine Translation System, Cambridge University Press, Cambridge, 1987
58
- analisi morfologica e analisi preliminare delle strutture sintattiche (ATEF);
- analisi sintattica vera e propria (ROBRA);
- transfer lessicale (TRANSF);
- transfer delle strutture interne alle frasi (ROBRA);
- generazione sintattica (ROBRA);
- generazione morfologica (SYGMOR).
Figura 8: Architettura del sistema Geta-Ariane
L’analisi morfologica e il preliminare esame delle strutture interne della frase consentono di
individuare le parole all’interno del testo dato in input (unità lessicali) e di affiancare a
queste tutta una serie di informazioni che verranno poi utilizzate nelle altre fasi del processo
di traduzione; tali informazioni, tutte estratte a seguito della consultazione di dizionari
specifici, sono di carattere morfo-sintattico, come ad esempio l’individuazione di radici e
Transfer lessicale
(TRANSF)
Analisi sintattica
(ROBRA)
Dizionario
transfer
Regole di
trasformazione
Analisi
morfologica
Grammatica
Dizionari
Transfer
strutturale
Generazione
sintattica
Generazione
morfologica
Grammatica Dizionari
59
suffissi, tempo verbale, numero, persona, la valenza di un verbo o di un aggettivo e proprietà
semantiche.
L’output reso da questa iniziale fase di analisi, ha una struttura ad albero nella quale vengono
messe in evidenza le informazioni linguistiche ricavate dalla consultazione del dizionario; in
secondo luogo, tale rappresentazione serve per impostare una struttura generale del testo, in
cui i nodi terminali dell’albero sono costituiti dalle variabili ( ad esempio i possibili morfemi
riconducibili ad una parola) caratterizzanti le parole.
Un primo livello di interpretazione vera e propria del testo si ottiene attraverso la seconda
fase, quella dell’analisi della struttura interna del testo.
La coerenza morfologica e sintattica (vale a dire la scelta di una variabile sulle altre) viene
risolta con l’utilizzo di una grammatica in grado stabilire la compatibilità di tale forma in
relazione alle quattro forme che precedono e a quella che immediatamente segue.
Il componente ROBRA riceve in input la struttura di ATEF e, grazie a regole di
trasformazione, la struttura iniziale viene modificata in modo da individuare le classi
sintagmatiche, vale a dire il tipo di frase che si sta trattando, (come ad esempio frasi verbali,
nominali, aggettivali); in secondo luogo si stabiliscono le relazioni che esistono tra le parole
in termini di funzioni sintattiche (soggetto, attributo, modificatore…), relazioni logiche (cioè
tra predicato e suoi argomenti) e relazioni semantiche.
Nella fase del transfer lessicale, eseguita dal componente TRANSF, le parole della lingua di
arrivo si sostituiscono a quelle della lingua che si vuole tradurre; la selezione della parola da
sostituire deve sottostare a determinate condizioni che possono riguardare da un lato le
singole parole e dall’altro il contesto entro cui occorrono le parole stesse.
Per quanto riguarda le singole parole possiamo distinguere diversi casi di corrispondenza:
- una unità lessicale sostituita da un’altra unità lessicale;
- unità lessicale sostituita da una locuzione (come ad esempio nel caso “mediante” = “by
means of”);
- locuzione sostituita da una singola unità lessicale o sostituzione tra due locuzioni, come ad
esempio nei casi “computer science” = “informatica” o “let…know” = “informare”.
Per quanto concerne invece il contesto, dobbiamo tenere presente che in lingue diverse può
non mantenersi, ad esempio, la presenza di un argomento predicativo, come nel caso della
frase inlgese “John was given a book” per cui in italiano si utilizza il verbo “ricevere” ( John
ha ricevuto un libro).
In linea generale il transfer si basa sulla consultazione di un dizionario bilingue che lascia
spazio a diverse possibilità di sostituzione che verranno poi risolte nel passaggio successivo,
60
cioè grazie al transfer strutturale; pensiamo ad esempio al verbo inglese “tagliare”: nelle sue
forme del presente, passato e participio passato viene coniugato nello stesso modo “cut”,
mentre in italiano le forme sono “ io taglio”, “io tagliai” “io ho tagliato”, etc.
Il transfer strutturale e la generazione sintattica, utilizzano lo stesso formalismo ROBRA, già
analizzato per la fase di analisi sintattica; grazie a questi due passaggi, da un lato si completa
il transfer lessicale, risolvendo casi come quello mostrato poc’anzi del verbo inglese “cut”
sulla base di caratteristiche semantiche che permettono un’analisi del contesto entro cui le
parole occorrono e, dall’altro, viene fornito il corretto ordine delle parole nella lingua di
arrivo, si generano gli articoli, si rispettano tempi e modi verbali, si generano verbi ausiliari
L’ultima fase è quella della generazione morfologica (formalismo SYGMOR) e ha il
compito di convertire la rappresentazione fornita dalla generazione sintattica in parole e
punteggiatura della lingua di arrivo con l’ausilio di dizionari - in grado di rendere conto ad
esempio delle classi flessionali attraverso le variabili indicanti la persona, il numero o il
tempo – e di una grammatica, in grado di formare le parole in base a radici, prefissi, affissi,
desinenze, etc.
!" ATLAS II
ATLAS II è un sistema di traduzione automatica con una forte impronta semantica nella sua
strutturazione; l’idea di base è quella di raggiungere una traduzione multilingue ad alta
qualità e precisione.
Per fare questo, è stato adottato un approccio interlingua che, riuscendo a separare le fasi di
analisi e generazione, riesce e trattare un gran numero di lingue senza dover apportare
modifiche alla struttura del software.
Il progetto nasce in Giappone nel 1984 con l’idea di costruire un sistema di traduzione
automatica in grado di simulare la traduzione umana; la considerazione di partenza è stata
quella per cui ciascuna lingua viene compresa dal significato delle parole che la esprimono e
dal contesto entro il quale tali parole occorrono.
Un lemma inserito nel dizionario di ATLAS II contiene informazioni relative alle sue
caratteristiche grammaticali e, soprattutto, esprime il concetto al quale è legata quella parola.
La conoscenza necessaria per comprendere i concetti, viene scritta in una formula tale da
poter essere compresa dal computer, chiamata struttura concettuale, cioè l’interlingua; tale
struttura concettuale viene espressa in termini di relazioni binarie, contenute in una base di
61
conoscenza, che collegano concetti: in questo modo la frase in input viene rappresentata
attraverso una rete semantica.71
Abbiamo già detto che ATLAS II si pone come obiettivo quello di simulare la traduzione
umana; così come gli umani fanno uso della loro conoscenza quando deve comprendere una
frase, ATLAS II ricorre alla sua base di conoscenza quando deve tradurre una frase
nell'’nterlingua. La base di conoscenza è strutturata in modo tale da definire ogni possibile
relazione tra concetti; in altre parole, sono contenute tutte le strutture concettuali
significative.
Così, il concetto “gli uccelli volano” viene espressa attraverso le relazioni binarie
UCCELLO, VOLARE, <AGENT>, mentre “gli uccelli volano con le ali” sarà UCCELLO,
VOLARE <AGENT> e ALA, VOLARE <INSTRUMENT>.
Figura 9: Architettura del sistema Atlas
71 Vedremo poi come questi stessi elementi si ritroveranno anche in UNL.
Analisi della frase
Lingua sorgente
Generazione
della frase
Lingua di arrivo
Dizionario di parole
Regole di analisi
Base di conoscenza
Dizionario di parole
Regole di generazion
Relazioni di co-
occorrenza
Struttura concettuale
Regole di transfer
INTERLINGUA
62
Le relazioni devono collegare concetti che sono il più possibile universali, cioè indipendenti
dalle specifiche di lingue particolari e proprio per questo anch’esse devono essere il più
generali possibile; il problema sorge quando un concetto che viene espresso in una
determinata lingua non trova il suo corrispondente in un altro sistema linguistico. In questi
casi, tali concetti dipendenti dalla lingua, vengono inseriti come vocabolario proprio della
lingua e, come vedremo, saranno trattati in modo diverso in fase di generazione.
!" La fase di ANALISI
La fase di analisi consente di produrre una rappresentazione del significato della frase in
un’interlingua.
In questo procedimento sono previsti due moduli: SEGMENT, per l’analisi morfologica, e
ESPER per quella sintattica e semantica.
SEGMENT ha il compito di scomporre le parole nei suoi morfemi costitutivi grazie
all’ausilio di un dizionario e deve verificare le relazioni che intercorrono tra i vari morfemi.
L’output di SEGMENT è rappresentato da una lista di nodi che sarà poi analizzata da
ESPER.
Ogni morfema, al quale vengono affiancate informazioni di tipo sintattico e semantico
recuperate dalla consultazione del dizionario, viene considerato come un nodo terminale di
una più complessa struttura ad albero che si completerà nella fase successiva di analisi
sintattica e semantica.
ESPER ha proprio il compito di proseguire l’analisi del testo dato in input e per fare questo
utilizza sostanzialmente regole context-free aumentate.72
Per quanto riguarda la sintassi, ESPER deve verificare delle condizioni affinché determinate
regole grammaticali possano essere applicate, stabilendo inoltre un grado di priorità riguardo
quale regola debba essere applicata per prima (nei casi in cui possa essere valida più di una
costruzione).
.
!" La fase di GENERAZIONE
Una volta terminata la fase di analisi e verificata la correttezza della struttura concettuale, è
necessario che quest’ultima venga trasformata in una frase in linguaggio naturale.
72 Cfr. p. 23
63
La fase di generazione in ATLAS II è divisa in due procedimenti: il transfer e la
generazione.
La fase di transfer viene utilizzata per la traduzione di espressioni particolari che, se presenti
nella lingua di partenza, non trovano loro i corrispondenti nella lingua di arrivo.
Tali espressioni possono spesso apparire come semplici differenze nel lessico e nella
grammatica, ma più spesso rappresentano differenze culturali, modi di pensare e di vedere il
mondo.
In UNL abbiamo due modalità di risoluzione di problemi di questo tipo: se nella lingua di
arrivo non è contemplato l’oggetto lessicale presente nella lingua sorgente, si ricorre alla
base di conoscenza, dove i concetti sono organizzati gerarchicamente e si può quindi risalire
ad un termine più generale, che comprenda quello specifico di cui si sta svolgendo la
traduzione73; se le differenze tra le due lingue sono di carattere culturale, vedi ad esempio la
distinzione tra i nostri modi di rivolgersi alle persone con il “tu” e il “lei”, la soluzione viene
rintracciata negli attributi, la cui funzione è quella di mettere in evidenza l’attitudine, il punto
di vista del parlante.74
La fase di generazione consiste in una finestra di generazione (lo spazio cioè dove
concretamente avviene la generazione) e in un interprete di regole.
L’interprete attraversa ciascun nodo costituente della struttura concettuale spostando la
finestra di generazione e dà come output la lista con i risultati della traduzione; nel
meccanismo intervengono anche un dizionario, relazioni che intercorrono tra parole e regole
di occorrenza.
Fino ad oggi questo sistema ha tradotto in giapponese, francese, inglese, tedesco, cinese,
innuit e swahili senza che venisse portata alcuna modifica al software.
Quello che mi premeva mettere in rilievo presentando questo sistema non era tanto
analizzare dettagliatamente ogni fase del processo di traduzione (come per i sistemi Systran
e Geta-Ariane), quanto piuttosto evidenziare la rivoluzione dell’approccio che sta alla base
di questo sistema. I presupposti teorici di partenza sono infatti agli antipodi: nei sistemi ad
approccio transfer, ci si basa sostanzialmente sul trasferimento delle strutture interne di
73 Cfr. p. 104 31 Cfr. p. 93
64
superficie alle frasi e necessariamente si devono utilizzare due sole lingue alla volta,
costruendo componenti e processori specifici per quella coppia.
Systran ha l’indubbio vantaggio di avere una struttura modulare, il che consente di
intervenire sui singoli componenti senza intaccare l’intero sistema; Geta-Ariane ha il merito
di impostare fin dalla prima fase di analisi morfologica, una struttura generale del testo
mettendo in evidenza le variabili morfologiche e sintattiche riguardanti ciascuna forma
analizzata sulle quali intervenire nel corso dei successivi passaggi.
Resta però il problema derivante dalla natura stessa di un approccio transfer: si concentra
soprattutto sulle strutture sintattiche e scarse sono le componenti semantiche. Trattando il
capitolo riguardante il Natural Language Processing, abbiamo messo in evidenza come
l’analisi semantica e la disambiguazione fossero dei nodi cruciali per ottenere una buona
traduzione; in Systran non esiste neppure un modulo specifico, ma si utilizzano
all’occorrenza solo degli indicatori per risolvere particolari problemi di traduzione.
Inoltre, se si volesse aggiungere una nuova lingua nel sistema di traduzione, questo dovrebbe
essere riscritto quasi completamente.
I sistemi ad approccio interlingua, invece, basano la loro struttura su di una forte
componente semantica, fra tutte la base di conoscenza e le relazioni tra concetti.
Un’interlingua si propone come un linguaggio artificiale indipendente, in grado di
oltrepassare le caratteristiche specifiche di lingue individuali; il limite dell’interlingua risiede
forse proprio in questa sua tendenza all’”universalità”, ad elevato grado di astrazione e di
analisi profonda dei legami interni di una frase.
Perché quindi preferire un approccio interlingua?
Sostanzialmente per due ordini di motivi: da un lato per la separazione che viene fatta delle
fasi analisi e generazione; si permette così lo sviluppo di sistemi di analisi e generazione per
una lingua indipendentemente da quelli per altre lingue. Ne consegue che i responsabili dello
sviluppo di tali sistemi devono solo conoscere le proprietà dell’interlingua e della lingua da
analizzare o da generare.
In secondo luogo, l’interlingua permette l’uso della conoscenza, elemento necessario per
un’efficace analisi semantica ed essenziale per raggiungere elevati standard qualitativi di
traduzione.
65
IL LESSICO MULTILINGUE E I DIZIONARI
4.1 INTRODUZIONE
Uno degli aspetti più importanti che deve trattare un sistema di traduzione automatica, è
quello del lessico e dell’organizzazione dei dizionari.
I dizionari, infatti, giocano un ruolo che potremmo considerare quasi decisivo per la
costruzione di efficienti sistemi di traduzione automatica: sono in effetti la componente più
grande in termini di quantità di informazioni che possono contenere, e il modo con cui tali
informazioni vengono organizzate e rese consultabili determina il grado di qualità del
sistema stesso.
Ciò che interessa maggiormente è quindi stabilire quale tipo di informazioni sia necessario
attribuire ai lemmi che vogliamo inserire nel dizionario.
Innanzitutto bisogna compiere una distinzione tra le caratteristiche proprie della parola e i
vincoli ad essa posti in virtù di determinate proprietà di selezione sulla base della vicinanza
con altre parole; ad esempio, informazioni in merito al contesto grammaticale entro il quale
una parola può occorrere, riguardano da un lato il contesto sintattico e dall’altro quello più
strettamente semantico.
Uno tra i metodi spesso utilizzati per descrivere le caratteristiche proprie di un parola e
quelle che derivano dalla sua vicinanza con altre, per poter essere poi inserite in un
dizionario facente parte di un sistema di traduzione automatica, è quello di rappresentarle in
termini di attributi e valori; ad esempio la parola “mela” sarà così rappresentata:
lex (lessico) = mela
cat (categoria) = sostantivo
ntype (tipo di sostantivo) = comune
genere = femminile
umano = no
concreto = si
Vero è che esistono molti altri metodi di rappresentazione, come ad esempio abbiamo avuto
modo di mostrare presentando i modelli dei sistemi di traduzione automatica, che
contemplano anche la punteggiatura, le classi flessionali, le radici, relazioni semantiche,
etc.75
75 Cfr. Systran e Geta-Ariane p. 53 e p. 58
66
Proprio per questa varietà nella rappresentazione dei lemmi, ci si sta sempre più sforzando di
creare standard per i lessici e per le caratteristiche da affiancare ai lemmi.76
Inoltre il dizionario deve riportare le caratteristiche morfologiche della parola dalle quali sarà
possibile estrarre informazioni di carattere morfo-sinatattico e semantico; non è escluso
infatti che partendo dall’output reso dalla fase di analisi morfologica, indipendentemente dal
formalismo scelto per la rappresentazione, si possa passare all’analisi sintattica vera e
propria, come abbiamo già avuto modo di vedere nel caso di Systran.77
4.2 MULTI-WORDS
4.2.1 ESPRESSIONI IDIOMATICHE
Nei linguaggi naturali esistono espressioni, identificate con il termine inglese “multi-words”,
che, nonostante siano formate da più parole, devono essere analizzate come un unicuum, allo
scopo di evitare un completo fallimento nell’analisi e nell’interpretazione del loro
significato; in modo particolare mi riferisco a frasi idiomatiche e collocazioni, anche se in
questa categoria di parole rientrano altre tipologie di espressioni, come ad esempio i
composti, dei quali abbiamo già parlato.78
Le multi-words sono da sempre state considerate una sfida nelle ricerche in Natural
Language Processing e in modo particolare per la traduzione automatica; in effetti
comportano particolari problemi nelle fasi di analisi e generazione.79
I lessemi composti sono costituiti da un gruppo piuttosto eterogeneo di espressioni, quali
frasi idiomatiche, verbi di supporto (come ad esempio fare/compiere un’analisi = analizzare),
verbi accompagnati da particolari preposizioni (soprattutto in inglese nel caso dei phrasal
verbs), etc.
In alcuni casi è possibile che un’espressione idiomatica possa essere tradotta in più lingue
mantenendo la stessa struttura e significato; prendiamo ad esempio la frase “prendere il toro
per le corna” (il cui significato è quello di “affrontare un problema con decisione”): in
inglese viene tradotta con “take the bull by the horns” e corrisponde allo spagnolo “coger el
toro por los cuernos”; ma nella maggior parte dei casi non è possibile compiere traduzioni
letterali o utilizzare le normali regole.
76 Cfr. ISLE, PAROLE-SIMPLE, MILE p. 76 77 Cfr. p. 53 78 Cfr. p. 20 79 P. Steffens (ed), Machine Translation and the Lexicon, Springer, London, 1995
67
Per quanto riguarda la traduzione automatica nello specifico, esistono due diverse strategie
per trattare le frasi idiomatiche.80
La prima consiste nel considerare l’idioma come singola unità lessicale contenuta nei
dizionari monolingue, così che il lemma si presenti con la forma “prendere il toro per le
corna”; la fase successiva sarà quella di costruire particolari regole per rappresentare
l’espressione prima che venga compiuta l’analisi sintattica.81.
È chiaro che un procedimento simile implica l’applicazione di sequenze di procedure di
analisi: la consultazione del dizionario non potrà quindi essere compiuta una sola volta, ma
deve permettere alle regole di analisi di sostituire frammenti di struttura attraverso le
informazioni contenute nel dizionario a vari livelli del processo82. Questo significa che la
rappresentazione dell’espressione idiomatica “prendere il toro per le corna” e quella della
frase non idiomatica “prendere il toro per la coda” saranno simili in questo primo livello
dell’analisi, ma successivamente, in una fase più astratta della rappresentazione, tale
espressione sarà contenuta in un solo nodo e quindi analizzata come parola singola.
La complessità della traduzione per questo particolare tipo di espressioni dipende dal grado
di corrispondenza di struttura e lessico tra le due lingue implicate nel procedimento.
Ci sono casi in cui esiste una perfetta corrispondenza strutturale e lessicale, come abbiamo
visto nell’esempio sopracitato, per cui non esistono particolari problemi né per la costruzione
di un’adeguata rappresentazione, né per la traduzione vera e propria.
In molti altri casi si può avere corrispondenza strutturale ma non lessicale, come nel caso
della frase inglese “spill the beans” che corrisponde all’italiano “vuotare il sacco”; in questo
caso interviene il dizionario, nel quale porzioni di frasi idiomatiche sono state
immagazzinate mettendo in evidenza gli equivalenti per quella particolare coppia di lingue
che si sta trattando.
I maggiori problemi sorgono nel momento in cui si trovano espressioni idiomatiche che in
due diverse lingue non hanno alcun tipo di corrispondenza, né strutturale né lessicale. In
questi casi la rappresentazione della struttura dell’espressione nella lingua target, dovrà
necessariamente essere più complessa; una possibile soluzione potrebbe essere quella di
optare per una rappresentazione in termini di relazioni concettuali: questa opzione, tipica dei
80 D. Arnold (et al.), Machine Translation: An Introductory Guide, NCC Blackwell, Manchester-Oxford, 1994, p. 116 81 In effetti molto spesso i sistemi di traduzione automatica utilizzano dizionari specifici di parole multiple che vengono consultati prima di quelli normali; è chiaro come questa soluzione faccia risparmiare in termini di analisi e di correttezza interpretativa. 82 Cfr. ARIANE p. 58
68
sistemi ad approccio interlingua, permette quindi di creare corrispondenze non tanto sulla
base di corrispondenze, ma concettuali.
In questo modo l’espressione inglese “to be over the moon” potrà trovare la sua traduzione
italiana “non stare più nella pelle” in riferimento al concetto che esprimono (essere
contentissimo).
Un altro problema che sorge in frasi che contengono idiomi è il fatto che queste sono
sostanzialmente ambigue, nel senso che può essere possibile un’interpretazione sia letterale
sia idiomatica. Ad esempio l’espressione inglese “kick the bucket” ( che tradotta in italiano
come frase idiomatica diverrebbe “tirare le cuoia”) può realmente avere a che a fare con
l’atto di tirare un calcio ad un secchio.
Una soluzione possibile potrebbe essere quella di dividere il dizionario in sotto-dizionari
specializzati per argomento: in questo caso l’espressione sopracitata avrebbe più probabilità
di essere interpretata come idiomatica se si sta trattando di cronaca nera; allo stesso modo
“prendere il toro per le corna” dovrebbe essere tradotto letteralmente se si fosse in contesto
sportivo, relativo ad esempio ad una corrida.
Un ulteriore problema delle espressioni idiomatiche è rappresentato dal fatto che non tutte
sono espressioni fisse, ma presentano variazioni al loro interno, come ad esempio nel caso di
flessioni.
Un caso tipico è quello che riguarda i verbi, che cambiano relativamente al tempo, alla
persona e al numero; prendiamo ad esempio la frase “vuotare il sacco”: può variare in
“ha/hanno vuotato il sacco, vuoterà/vuoteranno il sacco, dovrebbe/dovrebbero vuotare il
sacco…”. Un altro caso frequente di variazione è quello che riguarda i pronomi possessivi in
espressioni come “to burn one’s bridges” (= tagliarsi i ponti alle spalle); in questa frase la
variazione del pronome concorda il soggetto :
he has burned HIS bridges
she has burned HER bridges
Per trattare tali variazioni possiamo pensare di avere nel dizionario la forma base
dell’espressione “to burn one’s bridges” e di indicare quindi quali elementi sono soggetti a
variazione e quali sono le possibili opzioni (pronomi possessivi, coniugazione del verbo,
etc.).
69
4.2.2 COLLOCAZIONI
Un particolare tipo di multi-words, sono le collocazioni, cioè espressioni formate da due o
più termini che si presentano insieme, il cui significato è deducibile dall’analisi dei singoli
componenti grazie alla caratteristica per cui ogni elemento oltre ad essere un costituente
lessicale è anche costituente semantico.
Il termine “collocazione” è stato definito da Sinclair : “Collocation is the occurance of two
or more words within a short space of each other in a text”.83
Le collocazioni denotano co-occorrenze ripetute con frequenza o significative dal punto di
vista statistico; rappresentano l’evidenza per cui alcune parole non si combinano a caso, ma
seguono delle regole, principi e motivazioni provenienti dal mondo reale.84
Le collocazioni possono essere trattate differentemente dalle frasi idiomatiche in quanto
possiamo pensare ad una porzione specifica dell’espressione come dipendente o prevedibile
dall’analisi delle porzioni contigue.85
Esempi di collocazioni sono “accanito fumatore”, “pioggia torrenziale”, “rosa dei venti”…
Esistono tre diversi approcci per trattare le collocazioni.86
La prima è di carattere puramente lessicografico: i dizionari forniscono le informazione
necessarie per stabilire ciò che non è prevedibile o ciò che invece è caratteristico
dell’espressione.
Frasi del tipo “commettere un omicidio” o “compilare un dizionario sono caratterizzate da
due elementi: uno fisso, base (commettere e compilare) e un altro variabile, “collocato”
(omicidio e dizionario).
La parte fissa è semanticamente autonoma, mentre quella variabile non può essere
semanticamente interpretato come termine isolato. In altre parole, l’insieme delle parti
variabili che si combinano con quelle fisse, non è prevedibile e vanno quindi inserite nel
dizionario con l’indicazione delle collocazioni nelle quali possono occorrere.
Vedremo poi, parlando del dizionario di co-occorrenze del sistema UNL come questo
problema relativo alle collocazioni venga risolto attraverso il collegamento che tale
dizionario instaura con la Basi di Conoscenza.87
83 J. Sinclair, Corpus, Concordance, Collocation, Oxford University Press, Oxford, 1991, p. 170 84 R. Moon, Fixed Expressions and Idioms in English, Clarendon Press, Oxford, 1998, p. 26 85 D. Arnold, ibid. 86 http://budling.nytud.hu/~kalman/reading/siggen94/node4.html 87 Cfr. p. 107
70
In secondo luogo esiste un approccio statistico, per cui è possibile considerare come
collocazioni gli insiemi di parole che appaiono con maggiore frequenza in qualsiasi contesto,
o in domini particolari.
Il terzo approccio, ed è quello che offre una soluzione interessante ai fini della traduzione
automatica in quanto prospetta una specie di interlingua, è quello basato sostanzialmente su
considerazioni di tipo linguistico.
Una proposta specifica in merito al modo di trattare le collocazioni in un modello linguistico,
è stata sviluppata da Mel’!uks: la Meaning-Text Theory (MTT); questa teoria descrive il
linguaggio naturale come una sorta di dispositivo che associa ad ogni significato M l’insieme
di tutti i testi T (intendendosi come testo ogni produzione linguistica, dai morfemi ai
paragrafi) di quella particolare lingua.
In altre parole, la teoria vuole modellare il linguaggio attraverso un insieme di regole in
grado di convertire i significati nei corrispondenti testi.
La conoscenza lessicale viene codificata in un lemma da inserire nell’Explanatory
Combinatorial Dictionary; le informazioni relative a ciascun lemma vengono suddivise in
tre aree principali: una semantica (una rete semantica che rappresenta il significato del
lemma stesso), una sintattica (contenente le proprietà grammaticali) e quella delle
combinazioni lessicali (le funzioni lessicali sono utilizzate per mettere in relazione i
lessemi).
Una funzione lessicale può essere definita come la corrispondenza che associa un termine
con un insieme di altri oggetti lessicali.
Prendiamo l’esempio della funzione lessicale Magn, dove il rapporto tra parole è
caratterizzato da un’intensificazione di significato che un termine ha sull’altro; la funzione
lessicale viene cioè applicata a diverse categorie grammaticali per attribuire un certo valore
alla collocazione.
Ad esempio : Magn (fumatore) = accanito [fumatore]
Magn (largo) = eccessivamente [largo]
Ma come possono essere utili le funzioni lessicali in un contesto di traduzione automatica?
Prendiamo proprio l’esempio di “accanito fumatore”.
In italiano la funzione lessicale Magn indicherà che il corretto aggettivo da affiancare alla
parola fumatore sarà proprio “accanito” e non ad esempio “pesante”; in inglese, invece,
l’aggettivo richiesto sarà heavy, mentre in spagnolo empedernido.
71
Quindi:
Italiano Magn (fumatore) = accanito
Inglese Magn (smoker) = heavy
Spagnolo Magn (fumador) = empedernido
Se a questo punto vogliamo tradurre la frase italiana “accanito fumatore” in inglese,
dovremo mappare “fumatore” in “smoker” congiuntamente all’informazione che al termine
smoker è attribuita la funzione lessicale Magn, così come avviene per l’italiano.
Spetta poi al generatore dell’inglese estrarre il valore di Magn (smoker) = heavy e inserire
quindi correttamente l’aggettivo.
4.2.3 Il progetto XMELLT
Come abbiamo avuto modo di vedere, il ruolo delle parole multiple è di primaria importanza
nella traduzione automatica; nonostante questo, nei dizionari che vengono utilizzati in
sistemi di traduzione automatica, a fronte di consistenti informazioni riguardanti le
caratteristiche morfologiche, sintattiche e semantiche legate ai lemmi, si riscontra una scarsa
presenza di multi-words, anche se i problemi riguardanti la loro struttura e trattamento in
contesto di traduzione automatica è piuttosto sentito.
In effetti esistono dei dizionari di collocazioni e co-occorrenze, ma si tratta per lo più di
dizionari monolingue, quali ad esempio il BBI Dictionary (Combinatory Dictionary of
English: A Guide to Word Cominations) oppure il SEC (Selected English Collocations). In
contesto di traduzione automatica, dove i sistemi sempre più si trovano a dover affrontare
traduzioni multilingue e non solo bilingue, la creazione di dizionari multilingue di
collocazioni e multi-words in genere è più che auspicabile; basti pensare che tali costruzioni
rappresentano circa il 30% del materiale lessicale totale.
È da questi presupposti e considerata l’importanza delle multi-words per le varie
applicazioni del Natural Language Processing, che nasce il progetto XMELLT (Cross-
lingual Multi-word Expresisons Lexicons for Language Technology), il cui scopo è quello di
studiare la possibilità di sviluppare dizionari appositi per le multi-words che contengano sia
informazioni morfosintattiche sia semantiche.
I punti principali della strategia seguita per lo sviluppo del progetto sono:
72
- stabilire standard uniformi per la descrizione di espressioni multiple;
- determinare il tipo e le dimensioni delle informazioni necessarie che meglio servono per le
diverse applicazioni del Natural Language Processing;
- specificare l’architettura generale della multi-word;
- esplorare le possibilità di identificare la struttura del dizionario;
- esplorare la possibilità di creare corpora di multi-words.
La complessità strutturale e la varietà di multi-words, deve essere considerata la possibilità
di variazioni interne in termine di modificatori, determinanti, sostituzione di parole, presenza
di flessioni; il lavoro di ricerca che si trova alla base del progetto, serve per stabilire le linee
guida per la creazione di dizionari di multi-words.88
Tale modello di rappresentazione è stato pensato per risultare compatibile con gli standard
adottati per la creazione di altri dizionari, come ad esempio i PAROLE-SIMPLE.89
A questo punto è necessario vedere quali siano le informazioni linguistiche riguardanti le
entrate lessicali:
- categorizzazione sintattica della parte nominale e di quella verbale della multi-word;
- morfosintassi del gruppo nominale (genere, numero, caso, possibilità di avere aggettivi
qualificativi o relativi, etc.)
- relazioni semantiche e sintattiche (ad esempio la variabilità dei componenti, rapporti di
causalità, rapporto tra verbo e suoi predicati, etc.)
Risulta piuttosto evidente quale potrebbe essere l’applicazione di un dizionario di multi-
words all’interno di più complessi sistemi di traduzione automatica: un tale dizionario
potrebbe infatti essere collegato ai vari moduli impiegati nella traduzione di un testo,
riuscendo così a risolvere la fonte di un considerevole numero di ambiguità lessicali e
semantiche.
88 Il lavoro è stato suddiviso in diverse fasi che hanno coinvolto ricercatori italiani, inglesi, francesi e tedeschi. Si è proceduto inizialmente all’identificazione di cinquanta nomi presi da dizionari PAROLE-SIMPLE; quindi si sono rintracciati i lemmi corrispondenti in dizionari di tedesco, italiano e francese. Quindi sono stati creati verbi di supporto da affiancare ai 50 nomi delle quattro lingue implicate nel progetto. Contemporaneamente, 50 gruppi nominali inglesi sono stati identificati nel dizionario PAROLE-SIMPLE, rintracciando le costruzioni corrispondenti in italiano, francese e tedesco; in questo modo si è realizzata una sorta di banca dati di corrispondenze lessicali tra le lingue considerate. 89 Cfr. p. 77
73
4.3 I DIZIONARI
Come abbiamo visto fino ad ora, il dizionario riveste una particolare importanza e funzione
all’interno di sistemi di traduzione automatica, in quanto da un lato serve per trovare
equivalenti lessicali in diverse lingue e dall’altro fornisce tutta una serie di informazioni
specifiche, dei lemmi che contiene.
Ma la traduzione automatica deve oggi confrontarsi con una nuova realtà linguistica che
interessa non solo lo studio di nuove strategie per la costruzione di sistemi efficienti di
traduzione, ma anche gli strumenti stessi che devono essere inseriti nei sistemi; primo fra
tutti il dizionario.
Mi riferisco alle necessità di una comunicazione che non avviene più solo fra coppie di
lingue, ma coinvolge contemporaneamente utenti di più nazionalità e, quindi, sistemi
linguistici diversi.
La rapida diffusione di Internet come strumento per comunicare e reperire informazioni, ha
visto un aumento esponenziale del numero di lingue utilizzate in rete; al momento della
nascita di questa nuova tecnologia, quasi la totalità dei testi presenti in Internet veniva
presentato in inglese.
Questo era dovuto soprattutto a due fattori di natura diversa: da un lato l’imposizione
dell’inglese come lingua franca per trattare tutti i rapporti commerciali nell’era della
globalizzazione; dall’altro dobbiamo pensare al numero di parlanti: i madrelingua inglese
sono circa 375 milioni, altrettanti milioni lo utilizzano regolarmente come seconda lingua e
circa 750 milioni lo studiano come lingua straniera. L’inglese raggiunge quindi circa un
miliardo e mezzo di parlanti.90
Da cinque anni a questa parte, la tendenza all’utilizzo del solo inglese per la comunicazione
sta cambiando radicalmente: le informazioni contenute in rete vengono pubblicate nella
lingua del paese che fornisce tali informazioni e quasi ogni Stato ha sviluppato motori di
ricerca nella propria lingua nazionale.91
Si stima che per il 2005 circa il 78% degli utenti di Internet non sarà di madrelingua inglese
e solo il 49% delle pagine Web sarà scritta in tale lingua.92
90 R. Lockwood, Global English and Language Market Trends, in “Language International” del 10/04/1998 91 Articolo di C. Peters, P. Sheridan, Multilingual Infotmation Access, 2001, gentilmente fornito dalla Dott.ssa Peters 92 http://www. glreach.com/globstats/index.php3
74
In questa prospettiva emerge chiara l’esigenza da parte di utenti parlanti lingue diverse, di
avere accesso a tutte le informazioni contenute in rete, possibilmente con la facilitazione di
utilizzare la propria lingua.
In questo senso la traduzione automatica sembra rappresentare la risposta più adeguata per
questo nuovo scenario linguistico.
Per potersi adeguare a queste richieste, i sistemi di traduzione automatica devono essere
forniti degli strumenti adatti per poter trattare contemporaneamente più di due lingue.
Come ho già avuto modo di accennare, nei sistemi di traduzione automatica, i dizionari
costituiscono la risorsa linguistica fondamentale, senza la quale non sarebbe possibile
compiere la traduzione stessa.
A questo punto si presenta però il problema di organizzare tali risorse linguistiche per un
contesto multilingue: è così che diversi gruppi di ricerca hanno cominciato a pensare alla
realizzazione di standard di rappresentazione dei lemmi contenuti nei dizionari, in modo che
per ogni parola vengano indicate informazioni a vari livelli linguistici (morfologici,
morfosistattici, sintattici e semantici) che possano valere come rappresentazione per ogni
sistema linguistico.
In modo particolare, vorrei trattare le soluzioni fornite dal progetto ISLE (International
Standards for Language Engineering), che propone standard per la costruzione di dizionari
multilingue, indicando inoltre nel dettaglio quale deve essere l’architettura di un lemma
(MILE).
La funzione di una entrata in un dizionario multilingue è quella di fornire tutte le
informazioni necessarie affinché il sistema possa identificare uno specifico senso da
attribuire ad una parola o frase che si presentano in diversi contesti nella lingua che si vuole
tradurre e associare ciascun contesto con la traduzione più appropriata nella lingua della
traduzione.
Il primo passo è quello di determinare, tra le varie informazioni associate al lemma della
lingua di partenza, quelle che sono più rilevanti per essere codificate, a quale livello di
descrizione e quali elementi devono essere associati nella traduzione.
75
4.3.1 ISLE
Il progetto ISLE è la continuazione di un altro progetto, EAGLES (Expert Advisory Group
for Language Engineering) nato nel 1993 grazie all’impulso dato dalla Comunità Europea.
L’obiettivo principale del progetto è quella di fornire degli standard per il trattamento di
risorse linguistiche diverse, quali possono essere ad esempio la costruzione di corpora o
dizionari computazionali.
In modo particolare, per quello che a noi qui interessa, una delle aree di ricerca seguite da
ISLE è quella di creare e proporre standard per dizionari multilingue, linea portata avanti dal
Computational Language Working Group (CLWG).
La priorità del CLWG nella prima fase di sviluppo del progetto ISLE, è stata quella di
fornire una panoramica riguardo dizionari bilingue e multilingue così da coprire una vasta
gamma di risorse linguistiche. Questa fase viene considerata preliminare e necessaria per
raggiungere l’obiettivo primo del CLWG, vale a dire la definizione di MILE (Multilingual
ISLE Lexical Entry), cioè il tipo di voce lessicale che deve essere inserita in un dizionario
multilingue.
A questo punto devono essere fatte due premesse fondamentali: innanzitutto, parte delle
nozioni base che servono per la costruzione di MILE, vengono rintracciate nelle
informazioni contenute nei dizionari; in secondo luogo l’aspetto multilingue che vuole
caratterizzare MILE, dipende dalle caratteristiche dei lemmi contenuti nei dizionari
monolingue; detto questo, quindi, è importante stabilire quali siano le informazioni che
devono essere estratte dai dizionari in modo da poterle utilizzare, così come si presentano o
modificate, per la creazione di MILE.
Il rapporto tra dizionario monolingue e dizionario multilingue, diventa particolarmente
rilevante ai fini della traduzione automatica, dove sorgono due problemi di diversa natura: da
un lato la necessità di organizzare l’architettura del dizionario multilingue sulla base delle
informazioni contenute nei dizionari monolingue; dall’altro lato, la necessità di creare la
corretta corrispondenza di termini nella fase di traduzione, scegliendo termini contenuti nel
dizionario multilingue.
La funzione di un lemma contenuto in un dizionario multilingue è infatti quella di fornire
sufficienti informazioni da consentire al sistema di identificare un chiaro significato di una
parola nella lingua sorgente, in contesti differenti, e associare quindi ad ogni contesto la
traduzione più appropriata nella lingua di arrivo.
76
Dati questi presupposti, vediamo ora la descrizione di un dizionario computazionale
monolingue e, in seguito una più approfondita analisi della struttura di MILE, soprattutto in
prospettiva di una sua ipotetica realizzazione nel Master Dictionary di UNL e come base di
rappresentazione interlingua.
4.3.2 PAROLE-SIMPLE
PAROLE-SIMPLE è il nome dato a dizionari monolingue nati in seno al CLWG con lo
scopo di formalizzare standard di rappresentazione lessicale in 12 lingue (Catalano, Danese,
Tedesco, Inglese, Finlandese, Olandese, Greco, Italiano, Portoghese, Spagnolo e Svedese).
Inizialmente venne sviluppato il dizionario PAROLE, nel quale ogni lemma viene codificato
secondo le sue caratteristiche morfologiche e sintattiche; in seguito si è aggiunta la
rappresentazione semantica, codificata in SIMPLE.
Sostanzialmente quindi PAROLE-SIMPLE è un modello di dizionario strutturato in tre
strati, dove ogni lemma viene codificato a livello morfologico, sintattico e semantico.
PAROLE contiene circa 20.000 voci, mentre SIMPLE è costituito da circa 10.000 significati
relativi ai lemmi contenuti in PAROLE, ciascuno legato alle descrizioni sintattiche
pertinenti.
Nonostante PAROLE e SIMPLE corrispondano rispettivamente a dizionari morfosintattici e
semantici, devono comunque essere considerati come un unico corpo dove ogni livello di
rappresentazione della parola è strettamente connesso con gli altri; così, ad esempio,
interazioni complesse tra alternanze sintattiche e interpretazioni semantiche, possono essere
facilmente descritte.
Abbiamo detto che in PAROLE sono contenute le proprietà morfosintattiche relative a
ciascuna voce.
Il livello morfologico fornisce informazioni sulle categorie e sottocategorie grammaticali;
genere, numero, persona e modo verbale; classi flessionali.
Il livello sintattico descrive invece le funzioni grammaticali, come ed esempio la
determinazione della posizione che particolari categorie grammaticali ricoprono all’interno
77
di una frase; specifici eventi che si verificano solo se supportati da determinate regole
sintattiche, come ad esempio rendere una frase da attiva a passiva…
Il livello semantico è descritto nel dizionario SIMPLE.
SIMPLE è in grado di rappresentare le diverse dimensioni dei significati relativi ad una
parola.
I significati delle parole vengono codificati in “unità semantiche” (SemU); a ciascuna unità
viene attribuita una “caratteristica semantica” (semantic type) estratta dall’ontologia, con
l’aggiunta di altre informazioni contenute nel relativo template, che contribuisce alla
specificazione di un significato.
Le informazioni semantiche che descrivono in contenuto di ogni SemU, riguardano il
dominio, la classe semantica, le relazioni esistenti tra le varie SemU (polisemie, sinonimi,
collocazioni, Qualia…) e la rappresentazione predicativa (specifica cioè quale predicato
viene associato alla SemU, in termini di struttura argomentale, ruoli semantici, scelta degli
argomenti…).
Figura 10: Organizzazione generale di PAROLE-SIMPLE93
93 Tratto da http://www.cis.upenn.edu/~cmetz/nicoletta.ppt
Copenhagen, Oct. 2001
SemUSemU Predicate, arguments,Predicate, arguments,Selection restrictionsSelection restrictions
PredPred. Layer. Layer
QualiaQualia DerivationDerivation PolysemyPolysemy Event TypeEvent Type
InstantiationInstantiation
…
Italian lexiconItalian lexicon
TypeTypeOntologyOntology%%150 types150 types
TemplateTemplate Catalan lexiconCatalan lexiconDanish lexiconDanish lexicon
Greek lexiconGreek lexicon
Overall OrganizationOverall Organization
......
78
Ogni caratteristica semantica attribuita alla SemU, implica un’informazione strutturata che
viene rappresentata come un template.
Le stesse caratteristiche sono organizzate e immagazzinate nell’ontologia.
La strutturazione delle semantic type, rispetta quattro ruoli Qualia: a) FORMAL: fornisce informazioni che permettono di identificare un particolare oggetto all’interno di
un insieme più vasto; fornisce informazioni riguardo il colore, la forma, le dimensioni dell’oggetto
considerato;
b) AGENTIVE: relativo all’origine;
c) TELIC: relativo alla funzione o allo scopo che generalmente si attribuisce all’oggetto;
d) CONSTITUTIVE: si riferisce alle relazioni che si instaurano tra l’oggetto e i suoi costituenti.
Per esempio la rappresentazione della parola inglese “pudding” risulterà:
Formal: sostanza
Agentive: fare
Telic: mangiare
Constitutive: ingredienti Il template rappresenta uno schema strutturato la cui funzione principale è quella di
descrivere tutte le varie informazioni relative ad un lemma (significato, dominio, struttura
argomentale, polisemie…), così da poter guidare e facilitare il lavoro lessicografico.94
Figura 3: Rappresentazione del template in PAROLE-SIMPLE
94 Tratto da http://cst.ku.dk/projects/spinn/Copehn01.ppt
Copenhagen, Oct. 2001
TemplateTemplate
ContextualContextual//PolysemyPolysemy
InformationInformation
QualiaQualiaStructureStructure
PredicativePredicativeLayerLayer
Type SystemType SystemCoordinatesCoordinates
SemU: Identifier of a SemUSynU: Identifier of the SynU to which the SemU is linkedBC Number: Number of the corresponding Base Concept in
EuroWordNetTemplate_Type: Semantic type of the SemUTemplate_Supertype: Semantic type which dominates the type of the SemU in the
type-hierarchyUnification_path: Unification history of a template (only for unified top-types)Domain: Domain information from ERLI's domain listSemantic Class: One of WordNet Classes used by ERLIGlossa: Lexicographic definitionEvent Type: Event SortPredicativeRepresentation:
Predicate associated with the SemU, and its argumentstructure
Selectional Restr.: Selectional restrictions on the argumentsDerivation: Derivational relations between SemUsFormal: Formal relation between SemUsAgentive: Agentive relations between SemUsConstitutive: ! Constitutive relations between SemUs
! Constitutive semantic featuresTelic: Telic relations between SemUsSynonymy: Synonyms of the SemUCollocates: Collocate informationComplex: Polysemous class of the SemU
“redundancy”“redundancy”
79
4.4 MILE95
MILE deve essere intesa come una meta-entry per dizionari multilingue.
MILE è stata progettata come un layer di rappresentazione comune multilingue, una
rappresentazione valevole per risorse lessicali multilingue.
La sua caratteristica principale è la scomposizione delle informazioni che deve contenere e la
modularità.
Figura 12: Rappresentazione della modularità in MILE96
La modularità si può riscontrare almeno sotto tre aspetti:
a) nella sua macrostruttura e architettura generale (A): adattamento del dizionario, studio
delle interazioni tra i moduli e della struttura nella quale sono inseriti (transfer, interlingua o
sistemi misti);
95 N. Calzolari, A. Lenci, A. Zampolli, N. Bel, M. Villegas, G. Thurmair, The ISLE in the Ocean Translatantic Standards for Multilingual Lexicons (with an eye to Machine Translation), http://www.eamt.org/summitVIII/papers/calzolari/pdf 96 Tratto da http://cst.ku.dk/projects/spinn/Copehn01.ppt
Copenhagen, Oct. 2001
MILE
A. MILE Macrostructure
Meta-information
Architecture
B. MILE Microstructure
1. Monolingual 2. Collocational 3. Multilingual
C. Word-Sense Microstructure
1. Coarse-grained
2. Fine-grained
Modularity in MILEModularity in MILE
80
b) nella microstruttura (B), e cioè nei moduli di rappresentazione monolingue (1), di
informazioni sulle collocazioni (2) (composti, costruzioni fraseologiche, verbi di supporto,
etc) e dell’apparato multilingue (3) (individuazione dei casi più problematici di traduzione,
stabilire le condizioni il tipo di trasformazioni per poter stabilire una corretta mappatura
multilingue, stabilire equivalenze multilingue in relazione al tipo di approccio utilizzato dal
sistema, transfer o interlingua);
c) nelle specifiche relative alle informazioni di tipo semantico (C), sia per quanto riguarda la
rappresentazione monolingue (Coarse-grained), sia per quanto riguarda proprietà
collocazionali e sintagmatiche, utili soprattutto per la traduzione (Fine-grained).
Sono previsti tre componenti principali, di cui diamo di seguito una rappresentazione
schematica:
1) Rappresentazione monolingue: è cioè necessario identificare le informazioni
morfosintattiche, sintattiche e semantiche che caratterizzano MILE in una specifica
lingua, proprietà che sono facilmente estraibili da dizionari, quali ad esempio PAROLE-
SIMPLE.
I tipi di informazione contenuti in questo modulo hanno diversa natura:
!" Morfologico: categoria grammaticale, classi flessionali, modificatori, pluralia tantum,
nomi collettivi, etc.
!" Sintattico: comportamenti non prevedibili in relazione a particolari regole sintattiche (ad
esempio rendere una frase da attiva a passiva), verbi ausiliari, funzioni attributive o
MILE
Informazioni collocazionali
Informazioni monolingue
semantica
morfologia
sintassi
Apparato multilingue
81
predicative, indicazione del grado degli aggettivi, lista di posizioni sintattiche che
costituiscono cornici di sottocategorizzazione, caratteristiche morfosintattiche e lessicali
(concordanze, preposizioni e particelle che introducono complementi).
!" Semantico: caratterizzazione dei significati attraverso un collegamento all’ontologia,
informazioni riguardanti il dominio, struttura argomentale, ruoli semantici, relazioni
semantiche (sinonimi, iperonimi, meronimi), descrizione del senso di una parola in
termini di più specifiche relazioni tra semantica e conoscenza (come ad esempio le
strutture Qualia in SIMPLE), informazioni sulle polisemie, relazioni tra parti del
discorso.
2) Informazioni collocazionali: questo modulo include schemi sintagmatici (collocazioni,
costruzioni fraseologiche e multi-words, composti).
3) Apparato multilingue: rappresenta il cuore del lavoro svolto dal CLWG; lo scopo
principale è quello di proporre uno schema generale per il transfer multilingue.
In questa fase si rende necessario innanzitutto identificare i più comuni casi di transfer; in
secondo luogo verificare quali condizioni devono essere esprimibili e quali trasformazioni
sono necessarie per ottenere una corretta corrispondenza multilingue; quindi, identificare
metodologie per stabilire equivalenze tra la lingua sorgente e quella di arrivo.
In altre parole tale modulo multilingue agisce come un’interfaccia indipendente tra dizionari
monolingue:
APPARATO MULTILINGUE
Dizionario 1 Dizionario 2
Modulo semantico Modulo semantico Modulo sintattico Modulo sintattico
Modulo morfologico Modulo morfologico
Le corrispondenze multilingue in MILE, sono relazioni binarie che interessano un elemento
della lingua sorgente e uno della lingua di arrivo; possiamo identificare diversi aspetti che
influenza l’identificazione di tali corrispondenze.
Innanzitutto la contestualizzazione, cioè la misura in cui il contesto diviene rilevante per la
descrizione del transfer; in fase di transfer semplice, sarà sufficiente sostituire un termine
82
della lingua da tradurre con l’equivalente nella lingua di traduzione. In casi di transfer più
complesso, identificare la corrispondenza adeguata può significare dover apportare
modifiche alla struttura o dell’elemento lessicale (ad esempio può cambiare il genere) o a
livello dell’intera frase.
Per questo il layer multilingue dovrà contenere una serie di condizioni che consentano di
esprimere trasformazioni complesse implicate nella fase di transfer.
In secondo luogo, dobbiamo rilevare che la corrispondenza tra due lingue può avvenire a
qualsiasi livello, sia esso morfologico, sintattico o semantico.
Un ultimo aspetto che influisce nel individuazione di corrispondenze, è la struttura stessa
delle parole che possono presentarsi come singole unità, composti, multi-words.
Parlando dell’analisi morfologica, abbiamo già avuto modo di discutere il problema per cui
una parola composta in una lingua, può non esserlo in quella nella quale si sta traducendo.
Per far fronte a tutti questi aspetti, il layer multilingue è stato ulteriormente suddiviso in tre
parti responsabili della gestione delle corrispondenze:
- test part: è la fase nella quale si stabiliscono le condizioni da verificare perché un
determinato legame possa essere considerato valido.
- action part: riguarda le trasformazioni necessarie affinché avvenga un corretto transfer e
si stabilisca un’adeguata corrispondenza.
Prendiamo ed esempio la frase italiana “Mi piace la musica” e pensiamo di volerla tradurre
in inglese; il risultato dovrà essere “ I like the music”.
In italiano il verbo piacere ha come soggetto la musica, mentre in inglese il soggetto è “I”;
sostanzialmente quindi in questa fase è necessario compiere una trasformazione strutturale
della frase.
- typed links: è la fase che permette di identificare la corretta corrispondenza lessicale;
nella maggior parte dei casi, in due lingue possiamo rintracciare per ciascun termine il
perfetto equivalente; in altri casi però è necessario scegliere iponimi o iperonimi.
Fino ad ora abbiamo visto le applicazioni di MILE in sistemi transfer; è possibile invece
vedere un suo possibile impiego come rappresentazione interlingua; le descrizioni
semantiche sono affidate alle unità semantiche (SemU) e a ciascun lemma vengono
assegnate tante SemU quanti sono i suoi significati. A loro volta le unità semantiche sono
legate alle unità sintattiche (SynU), il cui compito è quello di rendere conto della sintassi dei
83
lemmi stessi; inoltre le SynU sono legate alle unità morfologiche (MU) che esprimono le
proprietà morfologiche del lemma.
Ciascuna unità semantica può essere descritta per mezzo di “oggetti semantici”:
!" tratti semantici: categoria semantica, dominio, restrizioni (ad esempio “umano”,
“oggetto”, etc).
!" concetti (incluse le relazioni che si vengono a determinare tra essi)
!" predicati: struttura argomentale, ruoli semantici (“agente”, “beneficiario” “scopo”, etc)
!" relazioni semantiche: tali relazioni possono unire due unità semantiche, due predicati o
due concetti (meronimia, sinonimia, iponimia, meronimia, qualia, derivazioni,
collocazioni, etc.).
Tali oggetti semantici possono essere attribuiti sia alla dimensione monolinguistica della
parola, sia a quella multilinguistica; nel primo caso, un determinato oggetto semantico ha
una valenza solo in dizionario di una specifica lingua, mentre nella seconda ipotesi l’oggetto
semantico è condiviso in più dizionari. Proprio questa condivisione diviene la base per una
descrizione interlinguistica; in questo modo è possibile far corrispondere al concetto da
“cane” le unità semantiche di lingue specifiche tutte connesse all’unico concetto.
Layer semantico
Layer sintattico
Layer morfologico
SemU
SynU
MU
Unità base per la descrizione delle proprietà semantiche MU in un dato contesto sintattico
Unità base per la descrizione del comportamento sintattico di una MU
Unità base per la descrizione di proprietà morfologiche di flessione e derivazione di una parola
84
Infine, le caratteristiche semantiche possono essere utilizzate per la descrizione di
un’ontologia in cui vengano messe in rilievo quelle che sono le proprietà indipendenti dalle
specifiche delle singole lingue in modo da poter creare corrispondenze multilingue.
In questo capitolo abbiamo messo in evidenza come le caratteristiche proprie del lessico
rappresentino l’ostacolo maggiore per il raggiungimento di una buona qualità di traduzione,
indipendentemente dalle strategie adottate per analizzare e generare linguaggio naturale;
riuscire ad individuare gli strumenti più adatti ad analizzare in profondità le dinamiche del
linguaggio, rappresenta ad oggi la sfida più impegnativa per ottenere buoni risultati in
traduzione automatica.
Abbiamo visto come le multi-words rappresentino un nodo cruciale per la traduzione in
quanto non è sempre possibile proporre le medesime regole di traduzione utilizzate per altri
tipi di costruzioni.
Per quanto riguarda i dizionari, proprio perché rappresentano una delle componenti
principali di sistemi di traduzione automatica – non dimentichiamo infatti che alcuni sistemi,
come ad esempio Systran, basano il loro processo di analisi quasi esclusivamente sulla
consultazione dei dizionari – sono stati oggetto di approfonditi studi perché potessero
rispondere alle esigenze emergenti da un contesto multilingue. Da qui gli standard per la
costruzione di dizionari multilingue e, soprattutto, il tentativo di creare un prototipo di
lemma in grado di rendersi indipendente dalle specifiche delle singole lingue e proporsi
come sistema di rappresentazione multilingue.
CANEconcetto
Cane
Dog
Perro
Chien
I
En
Sp
Fr
85
La tendenza quindi sembra essere quella di voler raggiungere gradi molto astratti e profondi
di rappresentazione del linguaggio, forme cioè in grado di render conto dei meccanismi
“universali” del linguaggio (vedi ad esempio la volontà di MILE di proporsi come base per
l’interlingua).
UNL sembra essere una concreta risposta a queste tendenze; nel sistema tutto tende ad una
rappresentazione che sia il più “universale” possibile: non parole, ma concetti, base di
conoscenza in grado di esprimere tutte le possibili relazioni tra concetti, organizzazione
stessa della base di conoscenza in modo da poter ricostruire il significato di una parola
risalendo al concetto più generale ad esso collegato.
Certo è che se vogliamo inquadrare UNL come sistema di traduzione automatica, bisogna
considerare il fatto che una traduzione è fatta di parole concrete, di specifici significati;
proprio per questo anche in UNL esistono dizionari e grammatiche specifici per lingua, ma
da notare è lo sforzo compiuto dai suoi ideatori e sviluppatori di voler comunque mantenere
legami concettuali, astratti. Prova ne è il Master Dictionary che collega dizionario di lingua
e base di conoscenza; in questo modo UNL riuslta un sistema in grado di gestire tutti quei
problemi linguistici (vedi ad esempio le multi-words) che il multilinguismo impone.
In virtù di queste sue caratteristiche UNL può essere considerato una pura interlingua,
“language-independent”, sempre in evoluzione e aggiornamento e poter così seguire ed
adattarsi alle difficili dinamiche linguistiche.
86
UNIVERSAL NETWORKING LANGUAGE
5.1 INTRODUZIONE
Nel 1973 l’Assemblea Generale delle Nazioni Unite sancì la nascita di una università
virtuale, UNU (United Nations University) con sede a Tokyo, che permettesse a studenti
provenienti da tutto il mondo, di avere accesso all’informazione.
In seno alla United Nations University è nato nel 1995 l’Institute for Advanced Studies
(IAS), un istituto di ricerca ed educazione orientato verso studi a carattere scientifico e
sociale.
UNL nasce nell’aprile del 1996 proprio all’Institute for Advanced Studies come
realizzazione di un’idea nata nei primi anni Novanta da due ricercatori giapponesi:
KAZUHIKO NISHI e HIROSHI UCHIDA; i due ricercatori, esperti di comunicazione e da
anni interessati alla traduzione automatica, pensarono di realizzare un sistema basato sullo
sviluppo di un’interlingua adatta per essere letta da un computer, per la codifica e decodifica
di testi scritti in un linguaggio naturale; UNL è infatti un linguaggio artificiale, sotto forma
di rete semantica, ideato per l’espressione e lo scambio di qualsiasi tipo di informazione.
Lo scopo di UNL è quello di mettere in evidenza non tanto la sua struttura sintattica, quanto
piuttosto il significato profondo del testo; come avremo modo di vedere più avanti, quando
tratteremo dei componenti del sistema, UNL tratta le lingue come complesse reti concettuali
e quindi come sistemi che, in un certo senso, si possono considerare processi universali (in
effetti UNL esprime informazioni attraverso una classificazione sia dell’oggettività sia della
soggettività).
La missione del programma UNL, così come presentata dai suoi stessi ideatori, è quella di
promuovere, un sistema per una comunicazione multilingue, con lo scopo di permettere alle
persone di condividere e accedere ad informazioni e conoscenza ed evitare così esclusione
scientifica, economica e culturale, principi di pari opportunità tra popoli e culture sancito
dalle Nazioni Unite.
Proprio per questo motivo UNL è stato progettato per essere fruito via Internet: riuscire ad
abbattere anche le barriere linguistiche che si presentano navigando in rete dove circa l’80%
dei documenti è redatto in inglese.
87
Il sistema UNL si presenta come un insieme di server distribuiti in rete che condividono lo
stesso linguaggio per la trasmissione e decodifica di un testo; le sue componenti principali
sono le “Specifiche” (relazioni ed attributi che servono per rappresentare gli oggetti del testo
della lingua che si sta analizzando e per indicare il tipo di rapporto che si instaura tra di essi),
un “Dizionario Universale” (dizionario di concetti) e la “Base di Conoscenza” (rete di
relazioni tra concetti).
Il ruolo dei server linguistici è quello di “convertire” e “deconvertire”, attraverso specifici
software,una lingua naturale in linguaggio UNL e da questo in un’altra lingua naturale.
Attualmente, le lingue che sono oggetto di studio per la progettazione di software UNL sono
sedici: arabo, cinese, inglese, francese, russo, spagnolo, tedesco, hindi, italiano, indonesiano,
giapponese, lettone, mongolo, portoghese, swahili e tailandese.
5.2 COMPONENTI
La natura universale del linguaggio UNL, la necessità di poterlo utilizzare nella stessa forma
per tutte le lingue da trattare e la volontà di raggiungere un elevato grado di stabilità del
sistema, sono caratteristiche assicurate dalla condivisione di alcuni elementi costitutivi
fondamentali: le Specifiche, il Dizionario delle Parole Universali e la Base di Conoscenza.
Tutti questi componenti risultano essere tra loro strettamente interconnessi e interdipendenti.
Figura 4: Schema dei componenti di UNL e loro collegamenti97 97 Tratto dal sito http://www.ias.unu.edu
88
5.2.1 SPECIFICHE: RELAZIONI e ATTRIBUTI Le Specifiche (UNL Specifications) rappresentano gli elementi caratterizzanti delle
espressioni scritte in linguaggio UNL.
Possiamo individuare due ordini di elementi : le relazioni e gli attributi.
!" Relazioni Le relazioni di UNL rappresentano un sistema economico e generale per poter collegare in
modo logico due elementi di una determinata espressione che si vuole rappresentare in
linguaggio UNL; per il fatto di collegare i diversi elementi a due a due, le relazioni vengono
anche dette “binarie”.
Si hanno diversi tipi di relazioni, a seconda del rapporto logico che si vuole esprimere tra gli
elementi da collegare, come ad esempio agente, beneficiario, scopo, modificatori, etc.
Ci sono due principi fondamentali che devono essere seguiti al momento di identificare la
corretta relazione esistente tra due concetti; innanzitutto una condizione NECESSARIA:
quando una parola universale (concetto) instaura una relazione con più di due altre parole
universali, ciascuna “etichetta” legata alla relazione deve essere in grado di identificarla con
il presupposto di avere abbastanza conoscenza rispetto al concetto espresso dalla parola
universale.
La seconda è una condizione SUFFICIENTE: ogni relazione deve essere scelta in modo che
il ruolo di ciascuna parola universale possa essere dedotto dal tipo di relazione scelto.
Vediamo ora nel dettaglio le descrizione delle diverse relazioni, suddividendole per tipo:
a) Relazioni riguardanti i partecipanti all’azione:
AGT (agent): esprime il soggetto che compie l’azione; tale soggetto può essere una persona,
un macchinario (dispositivo) o una cosa.
Qualche esempio:
!" Laura mangia una mela : agt(eat.@entry.@present, Laura) !" Il computer sta risolvendo l’equazione : agt(solve.@entry.@progressive,computer.@def) !" La procedura dà buoni risultati: agt(give.@entry.@present,procedura.@def)
89
BEN (beneficiary): esprime il beneficiario o la vittima di un evento; il beneficiario non è
però direttamente relazionato con l’evento stesso. Si può trattare di una persona, una cosa,
un’organizzazione, etc.
Posso portarti le borse?: ben(carry.@entry.@interrogation.@politeness, you)
Matteo lavora per l’università: ben(work.@entry, university)
CAG (co-agent): esprime un soggetto che è posto in secondo piano rispetto a quello
principale e che intraprende parallelamente a questo una nuova situazione.
Vivo qui con lei: agt(live.@entry, I)
cag(live.@entry, she)
plc(live.@entry, here)
COB (affected co-thing): esprime una cosa o un persona che viene direttamente influenzata
da un evento implicito che si sta svolgendo in parallelo rispetto a quello principale.
È caduto in un fiume con la macchina: obj(fall.@entry.@past, he)
gol(fall.@entry.@past, river)
cob(fall.@entry.@past, car)
OBJ (object): definisce l’oggetto che viene direttamente interessato dallo svolgimento
dell’evento.
Ho comprato un libro: agt(buy.@entry.@past, I)
obj(buy.@entry.@past, book)
PTN (partner): definisce la persona o la cosa indispensabili (diversi dal soggetto principale)
perché si compia un’azione.
Claudia è andata a parlare con i professori: agt(talk.@entry.@past, Claudia)
ptn(talk.@entry.@past, teacher.@pl)
b) Relazioni logiche
AOJ (attribute of the object): esprime un attributo o un particolare stato nel quale si trova
una cosa.
Manuela è avvocato : aoj(lawer.@entry,Manuela)
Il giglio è un fiore: aoj(flower.@entry,lily)
90
CAO (co-thing with attribute): esprime una situazione parallela a quella principale
Un cane con delle macchie: cao(spot.@pl, dog)
AND (and): esprime la congiunzione copulativa.
Leoni e leopardi cacciano le gazzelle : agt(chase.@entry.@present, :01)
and :01(lion.@entry.@generic, leopard.@generic)
obj(chase.@entry.@present, gazelle.@generic)
OR (or): rappresenta la disgiunzione tra due concetti.
Puoi fermarti o andare via: agt(:01.@entry, you)
or :01(stay.@entry.@grant.@present, leave.@grant.@present)
CNT (content): mette in relazione due concetti che sono equivalenti.
Mia sorella, Silvia, lavora in un supermercato: cnt(sister.@pos, Silvia)
NAM (name):definisce il nome di una cosa.
La città di Milano: nam(city.@def.@entry, Milan)
c) Relazioni che riguardano la situazione, l’evento:
SRC (source): definisce lo stato in cui si trova un oggetto prima che inizi l’azione.
Il semaforo è diventato da giallo a rosso: obj(change.@entry.@past, light
mod(light, traffic)
src(change.@entry.@past, yellow)
gol(change.@entry.@past, red)
RSN (reason): definisce il motivo per cui vi verifica un evento.
È scappato per paura del cane: rsn(escape.@entry, dog)
Non esce perché si è ammalato: rsn(go.@entry.@present, sick)
GOL (goal: final state): rappresenta lo stato finale nel quale si trova una cosa.
Si sta ristabilendo: obj(get.@entry.@progress, he)
gol(get.@entry.@progress, better)
91
d) Relazioni condizionali:
CON (condition): esprime la persona o la cosa che influenza l’evento o la situazione
principale.
Giovanni mangerebbe meno se stesse male: agt(eat.@entry.@apodosis-real, “Giovanni”)
aoj(be, “Giovanni”)
con(eat.@entry.@apodosis-real, be)
obj(be, sick)
PUR (purpose): definisce lo scopo del soggetto che compie l’azione o il motivo
dell’esistenza di una cosa.
Sono venuto a trovarti: agt(come.@entry.@present, I)
pur(come.@entry, visit)
obj(visit, you)
e) Relazioni di luogo
SCN (scene): identifica un luogo virtuale nel quale si verifica un evento.
Hanno dato questa notizia alla televisione: scn(give.@entry.@present, television)
In sogno, ti ho visto a Roma: agt(see.@entry.@past, I)
obj(see.@entry.@past, you)
plc(you, Rome)
scn(see.@entry.@past, dream)
PLC (place): definisce il luogo nel quale avviene un avvenimento, dove si verifica uno stato
o dove esiste una cosa.
Mio fratello vive in Canada: plc(live.@entry.@present, Canada)
PLF (initial place): definisce il luogo dove un evento inizia o uni stato diventa vero.
Vengo da casa: plf(come.@entry.@present, home)
PLT (final place): definisce il luogo dove termina un evento o uno stato diventa falso.
Viaggeremo fino a Bruxel: agt(travel.@entry.@future, we)
plt(travel.@entry.@future, Bruxel)
92
VIA (via) : identifica un luogo o uno stato intermedio, di passaggio.
Lo ha visto attraverso la finestra: via(see.@entry.@past, window.@def)
agt(see.@entry.@past, she)
obj(see.@entry.@past, he)
OPL (affected place) : identifica il luogo interessato dall’evento.
Gli ho dato una pacca sulla spalla: opl(pat, shoulder)
f) Relazioni di tempo:
TIM (time): definisce il momento in cui si verifica un evento.
È arrivato alle otto: agt(arrive.@entry.@past, he)
tim(arrive.@entry.@past, hour)
mod(hour, 8)
TMF (initial time): definisce il momento preciso in cui comincia un evento.
L’incontro è iniziato alle 10: obj(start.@entry.@past, meeting.@def)
tmf(start.@entry.@past, hour)
mod(hour, 10)
TMT (final time): definisce il momento in cui si conclude un evento.
L’incontro fu posposto al giorno seguente: tmt(postpone.@entry.@past, tomorrow)
obj(postpone.@entry.@past, meeting.@def)
DUR (duration): definisce il periodo di entro entro il quale si svolge un evento o una
situazione.
Lavoro otto ore al giorno: dur(work.@entry, hour.@pl)
SEQ (sequence): identifica la sequenza con la quale si svolgono due eventi.
Prima di attraversare, guarda: seq(cross.@entry, look)
COO (co-occurence): esprime la relazione esistente tra due eventi o situazioni che si
presentano contemporaneamente.
Mentre mangiava un gelato, inciampò: coo(eat.@entry, fall)
93
g) Relazioni circostanziali:
BAS (basis for expressing degree): è la relazione che viene usata per esprimere un grado,
ad esempio in espressioni nelle quali compaiono aggettivi superlativi o comparativi.
Mio fratello è più grande del tuo: bas(elder, you)
Carlo è il più ricco tra tutti noi: bas(most, us)
TO (to): identifica la destinazione di una persona o cosa.
È questo il treno per Monaco?: to(train, Monaco.@entry)
mod(train, this)
INS (instrument): rappresenta il mezzo che si utilizza per raggiungere uno scopo.
L’ho rotto con un martello: agt(break.@entry.@past, I)
ins(break.@entry.@past, hammer)
obj(break.@entry.@past, it)
MAN (manner): definisce il modo con il quale avviene una cosa o identifica le
caratteristiche di un particolare stato.
Parlo troppo: agt(talk.@entry.@present, I)
man(talk.@entry.@present, much)
man(much, too)
MET (method): definisce il modo con il quale si vuole raggiungere uno scopo.
Si può risolvere con un algoritmo: met(solve.@entry, algorithm)
MOD (modification): definisce la relazione che esiste tra una cosa e il suo modificatore.
Questa casa: mod(house.@entry, this)
Capelli castani: mod(hair.@entry, brown)
POF (part of): rappresenta la relazione tra due concetti, di cui uno è parte dell’altro.
Il sedile posteriore dell’auto: pof(seat.@entry.@def, car)
mod(seat.@entry.@def, back)
Le pagine di un libro: pof(page.@entry.@pl.@def, book)
94
POS (possessor): identifica il possessore di un oggetto.
La sua matita: pos(pencil.@entry, she)
FRM (from): definisce l’origine di una cosa.
Ho ricevuto una lettera da Claudia: frm(letter.@entry, Claudia)
h) Relazioni numerali:
FMT (from-to): esprime uno spazio, in termini di distanza, peso, lunghezza, grado…, che
esiste tra due cose.
Ho viaggiato dal Perù alla Colombia: fmt(Perù.@entry, Colombia)
Per andare da casa all’ufficio ci metto mezz’ora: fmt(home.@entry, office)
QUA (quantity): definisce la quantità di una cosa.
Tre metri di stoffa: qua(meter.@pl, 3)
PER (proportion, rate, distribution): definisce un grado di proporzione, una quota di
distribuzione o un valore.
Si fa vedere due volte al giorno: man(appear.@entry, twice)
per(twice.@entry, day)
La coppa America si tiene ogni due anni: per(twice, year.@pl)
!" Attributi
Gli attributi delle parole universali, marcati dal simbolo “@”, servono per descrivere ciò che
di soggettivo c’è nella frase; hanno cioè il compito di mettere in evidenza la prospettiva del
parlante in merito a quanto viene detto, le sue intenzioni, attitudini; inoltre forniscono una
collocazione temporale agli eventi, uno statuto di instanziato (conosciuto) o non-instanziato
(sconosciuto) per gli oggetti di cui si parla e informazioni riguardanti il contesto entro il
quale si sviluppa l’evento stesso.
Quello che è interessante osservare degli attributi, è la loro caratteristica di non esprimere dei
dati linguistici, ma delle informazioni pragmatiche e suprasegmentali che, spesso, possono
caratterizzare delle specifiche convenzioni culturali che si manifestano nel linguaggio.
95
Grazie agli attributi, infatti, è possibile rappresentare il modo con cui ci si esprime in una
particolare lingua in riferimento ad un determinato fatto; dobbiamo infatti ricordare che due
lingue diverse hanno spesso una differente attitudine verso particolari fenomeni sociali:
pensiamo ad esempio al giapponese e ai suoi numerosi modi di esprimere la reverenza in
base allo status sociale o allo spagnolo che scegli di utilizzare un tempo verbale piuttosto che
un altro a seconda della maggiore o minore probabilità che si verifichi un determinato
evento.
Per poter quindi rappresentare le numerose attitudini, che danno luogo e diverse espressioni
in lingue differenti, e proponendosi di coprire la più vasta gamma di possibilità, UNL ha
individuato 61 attributi suddivisi in sette classi.
Occorre notare che la lista degli attributi non è fissa, ma resta aperta: nel momento in cui
nuove lingue volessero entrare a far parte del progetto e avessero particolari necessità di
esprimere specifiche caratteristiche della lingua (ad esempio aspetti verbali), potrebbero
sempre inserirle nella lista.
Vediamo ora quali sono le classi di attributi:
a) posizione temporale dell’evento rispetto al narratore ( da notare che @present, @past,
@future non hanno nulla a che vedere con i tempi linguistici propriamente detti; è questo
il caso del cosiddetto “presente storico. Prendiamo ad esempio la frase “la terra è
rotonda”: tale affermazione è vera sempre, indipendentemente dal tempo considerato. In
questo caso l’espressione di UNL non avrebbe alcuna marca temporale)
b) aspetto
c) referenza
d) enfasi posta su una particolare parte del discorso
e) attitudini del narratore
f) punti di vista del parlante
g) convenzioni
a) La prima classe è costituita da attributi che esprimono le relazioni esistenti tra l’evento e il
tempo in cui si verifica, con riferimento al narratore:
@past: evento che si è svolto in un momento precedente rispetto a quello della narrazione.
Ieri sono andato al cinema: agt(go.@entry@past,I)
@present: evento che si realizza nel momento stesso della narrazione
Mangio una mela: agt(eat.@entry@present.@,I)
@future: l’evento si svolgerà in momento successivo rispetto a quello della narrazione.
96
Luca arriverà domani: agt(arrive.@entry.@future,Luca)
b) Alla seconda classe appartengono gli attributi che esprimono la collocazione temporale di
un evento così come viene percepita dal narratore; è l’enfasi che il narratore pone su una
determinata parte dell’evento.
@begin: indica l’inizio di un evento
Ho cominciato a lavorare: agt(work.@entry.@begin, I)
@complete: indica il momento in cui un evento si è definitivamente concluso.
Ho finito di leggere il romanzo: agt(read.@entry.@complete, I)
@continue: esprime che un evento è in svolgimento.
Ha continuato a parlare per ore: agt(talk.@entry.@continue.@past, he)
@custom: si riferisce ad un evento svolto con abitudine, consueto.
Quando ero bambino studiavo molto: agt(study.@entry.@custom.@past, I)
@end: esprime la fine di un evento [la differenza con @complete ?]
Sta smettendo di piovere: obj(stop.@entry.@end, rain)
@experience: esprime un’esperienza.
Hai mai visitato Londra?: agt(visit.@entry.@experience.@interrogation, you)
obj(visit.@entry.@experience.@interrogation, London)
@progress: esprime un evento in svolgimento
Sto mangiando: agt(est.@entry.@progress, I)
@repeat: esprime la ripetizione di un evento; la differenza con l’attributo @custom consiste
nell’indicare o meno la consuetudine nel ripetere una determinata azione.
La palla continua a rimbalzare: obj(bounce.@entry.@present.@repeat, ball.@def)
man(bounce.@entry.@present.@repeat, still)
@state: identifica gli effetti permanenti che si sono verificati a seguito di un particolare
evento.
Accanto a questi attributi è possibile affiancare dei modificatori che consentono di
specificare meglio l’attributo.
@just: indica se un evento si è appena concluso oppure è appena iniziato.
Ho appena finito di cucinare: agt(cook.@entry.@end.@just, I)
@begin_soon: esprime un evento o una condizione che è sul punto di verificarsi.
Il treno sta per partire : agt(leave.@begin_soon, train)
97
@yet: esprime un evento o una condizione che non è ancora iniziata o non si è ancora
conclusa; viene accompagnato da @not.
Non ho ancora finito i compiti: agt(finish.@entry.@present.@not.@yet, I).
c) Esistono poi attributi che specificano se l’oggetto del quale si sta parlando è conosciuto
(definito), non conosciuto (indefinito) oppure un’entità generica. Questi attributi rendono
esplicita la referenza del parlante.
Pensiamo ad esempio all’espressione “la casa”: non è possibile stabilire se si sta parlando del
genere delle case oppure se ci si sta riferendo ad una casa in particolare. È quindi necessario
specificare il tipo di referenza.
@generic: identifica un oggetto generico.
Il cane è un animale leale: aoj(animal.@entry, dog.@generic)
@def: identifica un oggetto specifico del quale si è già parlato nel testo.
La casa all’angolo è in vendita: plc(corner.@def, house.@def)
@indef: si riferisce ad un oggetto non specificato.
Un amico è venuto a parlarmi: agt(talk.@entry.@past, friend.@indef)
A questi attributi possiamo aggiungere anche:
@not: esprime una negazione e viene affiancato alla parola che nega.
Non è venuto: agt(come.@entry.@past.@not, he)
Non accaduto
Accaduto @progress
@repeat / @continue
@begin_soon
@state
@begin_just
@complete_soon @complete_just
@end_soon
@end @begin
@complete/@experience/@custom
98
Non è Italiano: aoj(italian.@entry.@not, he)
@ordinal: serve per indicare numeri ordinali
Abitiamo al secondo piano: plc(live.@entry.@present, 2.@order)
d) Alla quarta classe appartengono attributi che vengono utilizzati per sottolineare
l’importanza di una parte della frase per mostrare l’importanza che il narratore attribuisce
alla situazione descritta.
@entry: marca il termine a partire dal quale si costruisce tutta l’espressione o lo scope.
Mi promise che sarebbe venuto: agt(come.@intention, he)
obj(promise.@entry.@past, come.@intention)
agt(promise.@entry.@past, he)
@emphasis: pone in evidenza un elemento particolare all’interno della frase.
Velocemente è un avverbio: mod(adverb, it)
aoj(quicky.@emphasis.@entry, adverb)
@qfocus: mette in evidenza una parte particolare dell’espressione; nella maggior parte dei
casi viene utilizzato in frasi interrogative.
Chi è nato a Milano? : obj(be born.@entry.@past.@interrogative, who.@qfocus.@topic)
plc(bear.@entry.@past.@interrogative, Milan)
Stai dipingendo la cucina di verde?: obj(paint.@entry.@continue.@interrogative,
kitchen.@qfocus)
agt(paint.@entry.@past.@interrogative, you)
aoj(kitchen.@qfocus, green)
@title: identifica il titolo di un documento, articolo o paragrafo.
@topic: mette in evidenza l’oggetto di cui si parla nelle frasi passive
a) Alla quinta classe, appartengono attributi che esprimono l’attitudine del narratore e i suoi
sentimenti riguardo l’evento.
@affirmative: esprime un’affermazione.
@confirmation: esprime conferma.
Ti fermi, vero ?
@exclamation: esprime un’esclamazione.
Guarda!
@imperative: indica un ordine.
Sei pregato di lasciare la stanza.
99
@interrogative: esprime una domanda.
Chi è lui?
@invitation: indica l’incoraggiamento a fare qualche cosa.
Vuoi del tè?
@politeness: indica che è stato usato un tono di cortesia nell’espressione
Potresti prendermi la borsa?
@respect: serve per indicare rispetto nei confronti della persona alla quale ci si rivolge
Buongiorno, signore.
@vocative: esprime un’esortazione.
Ragazzi, siate ambiziosi!
f) La sesta classe è tra le più importanti e vaste; è formata dagli attributi che esprimo il
punto di vista del parlante rispetto all’evento che si svolge o all’azione di cui è stato
testimone.
@ability: esprime la capacità di fare qualche cosa
Giovanni parla molto bene il francese: agt(speak.@entry.@ability, Giovanni)
@apodosis-real: indica la frase principale che, all’interno di una proposizione ipotetica, si
relaizzarà.
Se vieni, cucino il tuo piatto preferito:
@apodosis-unreal: all’interno di una proposizione ipotetica, indica la frase che avrebbe
potuto realizzarsi.
Se fossi venuto, ti saresti divertito.
@apodosis-cond: esprime la condizione necessaria alla realizzazione di un evento.
Se non lo limitassi, fumerebbe troppo.
@conclusion: esprime la conseguenza dovuta ad un particolare evento o situazione.
Luca lavora e quindi è impegnato tutto il giorno.
@expectation: esprime le aspettative derivanti da un’azione.
Se glielo domandi , ti aiuterà: agt(help.@entry.@future.@expectation, he)
@grant: indica un consenso.
Puoi andare al cinema: agt(go.@entry.@grant, you)
@insistence: indica un’insistenza nel voler compiere un’azione
Vado io dal panettiere: agt(go.@entry.@present, I.@insistence)
@intention: indica la volontà di fare qualche cosa.
Voglio comprare un libro: agt(buy.@entry.@intention, I)
100
Farei una passeggiata: agt(hike.@entry.@intention, I)
@inevitability: esprime l’inevitabilità della realizzazione di un particolare evento.
@may: indica la possibilità concreta di fare qualche cosa
Potrei andare a casa di Luigi: agt(go.@entry.@may, I)
@obligation: indica un obbligo imposto a qualcuno.
Devi andare dalla nonna: agt(go.@entry.@obligation, you)
@possibility: esprime la possibilità che un evento si realizzi, rispetto a @may ha una
connotazione più positiva, nel senso che la possibilità è più reale.
Può accadere che non si raggiunga un accordo.
@probability: indica una probabilità.
Probabilmente parto domani: agt(leave.@entry.@probability, I)
@should to fell duty: indica l’atteggiamento per cui ci si sente in dovere di fare una
determinata cosa.
Dovrei studiare di più: agt(study.@entry.@should to fell duty, I)
@unexpected- presumption: esprime una supposizione contraria alle aspettative.
Sono spiacente che debba essere accaduto: obj(be disappointed.@entry.@unexpected-
presumption, it)
@unexpected-aspettative: conseguenza contraria rispetto ai propri desideri.
Avrei voluto che l’affare si concludesse.
@will: esprime una volontà; è più forte rispetto a @intention.
g) La classe delle convenzioni rappresenta una classe più marginale rispetto alle altre; a
questa categoria, infatti, appartengono attributi che non servono per specificare stati
d’animo del narratore, i suoi punti di vista o per mettere in evidenza particolari parole
all’interno delle frasi, ma vengono utilizzati per inserire dei simboli.
@pl: serve per indicare che un nome appare nella sua forma plurale.
Due persone: qua(person.@pl.@entry, 2)
@angle_bracket :viene usato > oppure <
@double parenthesis :inserisce (( ))
@double quotation : vengono utilizzate gli apici che indicano un discorso diretto “…”
@parenthesis: inserisce singole parentesi tonde ( )
@single_quotation : vengono usati apici semplici ‘ ’
@sqare_bracket: inserisce singole parentesi quadre [ ]
101
5.2.2 DIZIONARIO delle PAROLE UNIVERSALI
Abbiamo già detto che UNL, per la rappresentazione delle espressioni, utilizza i concetti; tali
concetti sono espressi in base a classi, categorie di oggetti e vengono raccolti nel Dizionario
delle Parole Universali.
Come abbiamo avuto modo di notare presentando alcuni esempi nella sezione relativa alle
relazioni, i concetti sono espressi mediante l’uso convenzionale di parole inglesi, accanto
alle quali vengono indicate tra parentesi le categorie di appartenenza.
Facciamo un esempio pratico: pensiamo di voler scrivere nel linguaggio UNL l’espressione
“Oggi Giovanni compra un libro recente di storia a sua sorella”.
La sua rappresentazione grafica che tenga conto delle relazioni che intercorrono tra gli
elementi sarà:
Vediamo ora come vengono espressi tali concetti con l’utilizzo delle parole universali:
sorella = sister(icl>relationship)
comprare = buy(icl>action)
libro = book(icl>thing)
storia = history(icl>domain)
recente = new published(equ>recent)
recente
libro
storia comprare
oggi (sua) Giovanni
sorella
Giovanni
modalità oggetto
agente
beneficiario
tempo possessore
modalità
102
Quindi la stessa frase sarà scritta nel linguaggio UNL nel seguente modo:
agt(buy(icl>action).@entry.@present, Giovanni)
ogj(buy(icl>action).@entry.@present, book(icl>thing).@indef)
mod(book(icl>thing).@indef, history(icl>domain))
mod(book(icl>thing).@indef, new published(equ>recent))
ben(buy(icl>action).@entry.@present, sister(icl>relationship))
pos(Giovanni, sister(icl>relationship))
La grafica sarà quindi:
Il fatto di definire le caratteristiche di un concetto per meglio determinarne l’esatto
significato, è uno dei punti di forza di UNL, che permette di scrivere una data espressione in
modo non ambiguo. Abbiamo infatti già avuto modo di sottolineare quanto l’ambiguità
semantica rappresenti lo scoglio maggiore da dover superare per poter ottenere dei buoni
risultati in un sistema di traduzione automatica.
Per meglio chiarire questo punto, prendiamo in considerazione la parola “swallow”; nel
dizionario delle parole universali, troviamo tre differenti rappresentazioni:
swallow(icl>bird)
swallow(icl>action)
New published
Book (icl>thing
History (icl>domain
Buy (icl>action
today (he) Giovanni
Sister (icl>relations
mod
mod
obj agt
ben
tim pos
Giovanni
103
swallow(icl>quantity)
Tutte queste rappresentazioni si riferiscono a tre concetti ben distinti: rondine, ingoiare e
boccone.
Proprio per favorire una completa disambiguazione, nel sistema UNL esistono diversi tipi di
parole universali, ciascuno dei quali serve per poter meglio specificare le caratteristiche che
devono essere affiancate al concetto per meglio definirlo.
!" Basic UW: sono le parole inglesi che non comportano alcuna restrizione di significato;
possono essere considerate come un’etichetta che è valida per tutto un insieme di
concetti espressi con quelle parole.
!" Restricted UW: sono ottenute affiancando alle Basic UW delle restrizioni; rappresentano
un sottoinsieme di concetti, concetti più specifici.
Ad esempio, le tre parole universali che vengono utilizzate per rappresentare i concetti legati
a “swallow”, fanno parte di questa categoria.
Le Restricted UW consentono al sistema di identificare correttamente quale sia il concetto
specifico che deve essere applicato in un particolare contesto.
Se in una specifica lingua non si dovesse trovare il corrispondente concetto nel dizionario
delle parole universali, il sistema ha la possibilità di risalire nell’ontologia (Base di
Conoscenza) al concetto superiore, vale a dire meno specifico, che lo include.
Sono state stabilite sette categorie di concetti, ciascuna delle quali contiene delle
sottocategorie; queste sono “thing”, “do”, “occur”, “be”, “how”, “mod<thing” e
“aoj<thing”.
“Thing” include tutti i concetti che si riferiscono agli oggetti; “do” e “occur” contengono i
concetti relativi ai verbi.
“Be” contiene tutti i concetti che si riferiscono allo stato o alla situazione di una cosa in un
particolare momento.
Concetti relativi agli aggettivi sono rappresentati dalle categorie “mod<thing” e
“aoj<thing”, mentre la categoria “how” definisce gli avverbi.
!" Extra UW: sono un particolare tipo di Restricted UW; rappresentano le parole straniere
che non trovano un corrispondente in inglese.
104
La parola straniera viene usata come Basic UW, alla quale vengono poi affiancate le
caratteristiche adeguate per restringere il dominio e identificare il concetto più vasto ai quali
tali parole appartengono.
Ad esempio, la parola giapponese “tatami”, o quella italiana “murano”, non trovano la
corrispondente inglese.
La loro rappresentazione nel linguaggio UNL sarà quindi:
tatami(icl>thing), che indica l’appartenenza alla categoria degli oggetti;
murano(icl>glass, aoj>colourful), cioè tipo di vetro dai molti colori.
!" Compound UW: la particolarità di queste parole universali è quella di non trovarsi nel
dizionario; si tratta infatti di insiemi di parole universali già esistenti che vengono
collegate tra loro attraverso relazioni.
Il motivo per cui le Compound UW si trovano solo nei documenti UNL, risiede nel fatto che
rappresentano dei concetti complessi esistenti solo in determinati contesti.
Prendiamo come esempio la frase “Si dovrebbe chiedere alle donne che indossano grandi
cappelli al cinema di andarsene.
Graficamente tale espressione assumerà la forma:
Vogliamo ora analizzare il nodo “donne che indossano grandi cappelli al cinema”; in esso
sono presenti concetti semplici, quali donna, indossare, grande, cappello e cinema.
Nel linguaggio UNL, ad ogni concetto complesso viene assegnato un codice numerico in
modo che venga analizzato dal sistema come un’unica parola universale.
La frase viene quindi scritta nel seguente modo:
Si dovrebbe chiedere
di andarsene
Donne che indossano grandi
cappelli al cinema
gol
obj agt
105
agt:01(wear(icl>do), woman(icl>person).@pl) donne indossare
obj:01(wear(icl>do), hat(icl>thing)) indossare cappello
aoj:01(big(aoj>thing), hat(icl>thing)) cappello grande
plc:01(wear(icl>do), cinema(ocl>place)) indossare al cinema
È interessante notare come le parole universali “compound” possono essere la base per la
risoluzione delle espressioni idiomatiche; abbiamo infatti avuto modo di vedere quali e
quanti siano i problemi legati alla loro rappresentazione e traduzione (interpretazione
semantica deducibile dal significato dei suoi componenti, parti che flettono, non contiguità
degli elementi, etc).
Trattare le espressioni idiomatiche come “scope” (concetto unico formato da più elementi)
permetterebbe non solo di farne un’accurata analisi semantica (vengono infatti già
rappresentate sulla base dei concetti e relazioni che intercorrono con le altre parti della
frase), ma anche di tenere conto in un unico passaggio di tutte le possibili variazioni che le
interessano.
!" Temporary UW : sono categorie di parole sconosciute che si trovano solo nei documenti
UNL, ma non hanno alcuna entrata nel dizionario delle parole universali o nella base di
conoscenza (ad esempio in nomi propri vengono indicati come “Temporary UW”).
5.2.3 BASE di CONOSCENZA
La Base di Conoscenza (KB) del sistema UNL, si configura come una rete molto estesa che
definisce tutte le possibili relazioni esistenti tra i concetti (la parole universali) utilizzati per
la rappresentazione il linguaggio UNL; ogni concetto assume all’interno della base di
conoscenza una determinata posizione che contribuisce all’organizzazione della
“conoscenza” generale del sistema”.
La funzione principale della base di conoscenza è quella di creare omogeneità nel
trattamento di concetti per tutte le lingue: infatti le risorse linguistiche specifiche per ogni
lingua, vale a dire le grammatiche e i dizionari monolingue, sono strettamente legati sia al
dizionario delle parole universali sia alla base di conoscenza.
106
I concetti rappresentati nella base di conoscenza seguono un’organizzazione gerarchica;
questo aspetto risulta particolarmente importante nel momento in cui un determinato
concetto non viene espresso in una specifica lingua.
Grazie alla struttura gerarchica è possibile risalire al concetto più generale che include quello
meno specifico del quale si vuole identificare il significato.
Per meglio chiarire questo aspetto, presentiamo una schematizzazione della struttura della
base di conoscenza.
Figura 5: Schema dell’organizzazione della Base di Conoscenza98
In altre parole, nella base di conoscenza si può identificare un determinato concetto
seguendo la linea generale>particolare, per cui “cane” viene definito come cosa>oggetto
98 Tratta da F. Cabrini, Universal Networking Language: dal mito della Lingua Universale al “traduttore” globale, Tesi, Università Cattolica, Facoltà di Scienze Politiche, Aprile 2001
thing
time place Concrete thing
event manner state
Abstract thing
action phenomenondomani
scuola
dog do
“bere”
animal pof
occur
nevicare
pof conoscere
lentamente
107
concreto>animale>cane; oppure “scuola” è definita come facente parte delle cose
appartenenti alla categoria dei “luoghi”.
5.3 MASTER DICTIONARY
Il Master Dictionary ha la funzione chiave di raccogliere le informazioni riguardanti i
collegamenti che instaurano tra il Dizionario di Lingua99, il Dizionario delle Parole
Universali e la Base di Conoscenza.
Il dizionario contiene le seguenti informazioni:
1) Lemma (o multi-word) di una lingua specifica
2) Parola Universale (concetto) legato a quel lemma (o multi-word)
3) Caratteristiche morfo-sinattiche
Le relazioni che si instaurano tra parole universali sono definite nella base di conoscenza
secondo un ordine gerarchico; le parole inglesi che vengono utilizzate per descrivere un
concetto possono però essere ambigue in quanto racchiudono tutti possibili significati che la
parola inglese ha; per questo è necessario individuare le opportune restrizioni di significato
sfruttando l’organizzazione gerarchica della Base di Conoscenza.
Da ultimo le informazioni morfo-sintattiche legate alla parola sono descritte in termini di
liste di proprietà riguardo alle classi flessionli, parte del discorso, genere, numero, insieme
ad altre proprietà sintattiche (ad esempio indicazione se il verbo principale è transitivo o
meno, se regge verbi ausiliari oppure no, etc).
Data la sua struttura e il tipo di informazioni che contiene, quindi, il Master Dictionary ha la
funzione principale di fornire indicazioni durante la traduzione nel caso in cui una
determinata parola non venga rintracciata nel dizionario di lingua: è possibile rintracciare
nella base di conoscenza il concetto gerarchicamente superiore (cioè più vasto) legato a
quella determinata parola. Proprio per questa sua funzione, il dizionario consente di
rigenerare il dizionario di lingua e di aggiornare la Base di Conoscenza e il Dizionario delle
Parole Universali.
99 Cfr.p. 108
108
Interessante notare come sia attualmente allo studio la possibilità di utilizzare MILE100 come
possibile entrata del Master Dictionary; ecco uno schema di mappatura:
MASTER DICTIONARY MILE Parole universali Concetti multilingue
Relazioni tra parole universali Relazioni multilingue tra concetti Proprietà morfo-sintattiche Componenti delle SynU e MU
Questo studio dimostra ancora una volta la vocazione del linguaggio UNL di presentarsi
come un sistema in grado di trattare in modo completo e flessibile le problematiche di
rappresentazione legate al multilinguismo.
5.4 DIZIONARIO di CO-OCCORRENZE
Le informazioni contenute nel dizionario di co-occorrenze hanno un carattere pragmatico. In
UNL una parola universale è spesso rappresentata da più di una parola; le informazioni
pragmatiche vengono usate per selezionare la parola adeguata in fase di deconversione.
Tali informazioni pragmatiche vengono fornite attraverso le definizioni delle relazioni di co-
occorrenza che si possono instaurare tra due parole all’interno della stessa frase.
Prendiamo ad esempio le espressioni “Luca guida una macchina” e “Luca guida un
aeroplano”: il verbo guidare può instaurare una relazione di co-occorrenza con la parola
“macchina”, ma non con “aeroplano” per cui si dovrebbe utilizzare il verbo “pilotare”.
Per stabilire quindi quale sia la parola corretta, il Dizionario di Co-occorrenze è strettamente
correlato con il Dizionario di Lingua, il Dizionario di Parole Universali e la Base di
Conoscenza.
Per quanto riguarda la fase di generazione, il dizionario delle co-occorrenze fornisce
informazioni riguardanti la redazione di ciascun linguaggio particolare sulla base delle
relazioni di co-occorrenza tra verbi e sostantivi, tra coppie di sostantivi, preposizioni, etc.
Quando il De-Converter applica una regola nella quale viene indicata una co-occorrenza, il
software consulta il dizionario di co-occorrenze e verifica tutte le possibili combinazioni di
parole; viene scelta quella che ha il più alto grado di plausibilità.
100 Cfr. p. 79
109
Ad esempio la parola “forte” ha come corrispondenti di significato “potente” e “robusto”; la
scelta di una o dell’altra parola dipende dalle proprietà dell’oggetto che va a modificare: il
sostantivo “personalità” ha come modificatore più appropriato “forte” piuttosto che
“potente”, così come “corporatura” instaura una relazione di co-occorrenza più plausibile
con “robusto” piuttosto che con “potente”.
Il collegamento che tale dizionario insatura con la Base di Conoscenza è fondamenatle per la
risoluzione del problema delle collocazioni.101
Abbiamo detto, infatti, che le co-occorrenze si basano sulle relazioni che si creano tra due
parole; la scelta della parte variabile dell’espressione dipende dalle proprietà dell’oggetto
che si va a modificare.
Il collegamento con la Base di Conoscenza permette proprio di selezionare i concetti (e poi
le relative specifiche parole grazie al Dizionario di Lingua) sulla base di determinate
caratteristiche semantiche di certe specifiche relazioni.
5.5 IL SERVER LINGUISTICO102
Fino ad ora abbiamo esaminato gli elementi e la metodologia per costruire espressioni in
linguaggio UNL; a questo punto è necessario descrivere l’esatto funzionamento del sistema.
Il cuore di UNL è costituito da server linguistici, specifici per ogni lingua, che sono collegati
attraverso Internet e contengono i software dedicati alla conversione e deconversione di
linguaggi naturali, accanto alle specifiche risorse linguistiche proprie di lingue particolari
(dizionario e grammatiche).
Legati ai server linguistici, esistono delle interfacce che consentono all’utente di potersi
collegare ai server linguistici stessi; questi sono l’Editor (legato alla fase di conversione) e il
Viewer (per la deconversione).
101 Cfr.p. 70 ss. 102 Immagini tratte da http://www.unl.ias.unu.edu/unlsys/introduction_main.html
110
!" ENCONVERTER
L’Enconverter è un parser indipendente dalle specifiche caratteristiche di lingue particolari il
cui compito è quello di trasformare un testo scritto in un particolare linguaggio naturale in
linguaggio UNL. La sua caratteristica principale è quella di avere una grammatica in grado
contenente pacchetti di regole in grado di riconoscere i vari elementi di un testo quali le frasi
e, all’interno di queste i concetti e le relazioni che si stabiliscono tra essi.
Strettamente legato all’Enconverter a alla grammatica di lingua, sono i Dizionari di Lingua
(un unico dizionario per la fase di conversione e deconversione): essi contengono
informazioni in merito alla radice della parola, la parola universale ad essa legata con le
relative restrizioni, le categorie grammaticali, la morfologia (flessioni), le strutture
argomentali, le reggenze verbali.103
La fase della conversione è il nodo cruciale per il funzionamento del sistema in quanto
fornire delle espressioni UNL corrette e non ambigue influenza la buona riuscita della
deconversione; abbiamo però già avuto modo di notare, trattando le tecniche di analisi
103 Un buono sviluppo dei dizionari di lingua è di fondamentale importanza per la buona riuscita dell’enconversione: infatti, le informazioni relative a ciasun lemma dovrebbero portare ad una disambiguazione sintattica in grado di identificare la giusta relazione tra concetti.
111
semantica104, che il problema della risoluzione dell’ambiguità è ancora aperto e dibattuto
nell’ambito della linguistica computazionale.
Gli enconvertitori attualmente attivi non sono ancora in grado di risolvere appieno tali
difficoltà di interpretazione e si sono quindi studiate strategie alternative per la fase di
deconversione: da un lato, eseguire un post-editing manuale dell’output e, dall’altro
ricorrere ad un Editor105 specializzato La prima soluzione prevede una conoscenza piuttosto
approfondita del linguaggio UNL ed è quindi necessaria la formazione di tecnici
specializzati; nel secondo caso, invece, l’Editor scambia delle informazioni con l’utente
domandando, ad esempio chi è l’agente, se esiste un attributo per il verbo, il soggetto o
l’oggetto, etc. con questa seconda soluzione, l’Editor prende la forma dei numerosi software
che svolgono la funzione di help in linea senza che sia necessaria una preparazione tecnica
approfondita.
Nonostante queste difficoltà, resta il pregio notevole dell’Enconverter di restare indipendente
dalle specifiche delle lingue, mentre abbiamo visto che altri sistemi di traduzione automatica
uytilizzano le regole come parte integrante del software.106
!" DECONVERTER
Il DeConverter è stato pensato come un generatore di linguaggio naturale, indipendente da
specifiche lingue; è in grado di fornire generazione morfologica e sintattica, insieme ad una
selezione di parole fatta sulla base delle co-occorrenze.
In questo modo il DeConverter può deconvertire le espressioni UNL, sviluppate
dall’Enconverter, in un linguaggio naturale facendo uso del Dizionario di lingua, delle
regole della grammatica della lingua e del Dizionario delle Co-occorrenze.
Vediamo ora schematicamente come si sviluppa UNL in rete:
104 Cfr. p. 27 ss. 105 Con Editor si vuole qui indicare u ‘interfaccia di dialogo con l’utente. 106 Cfr. i sistemi Systran e Ariane p. 53 e p. 58
112
1. Il processo di conversione e deconversione vengono forniti dal server linguistico; in
questo caso nel processo di traduzione sono implicati i server dell’arabo e dello
spagnolo.
2. Quando viene sviluppata una pagina in un determinato linguaggio naturale (in questo
caso l’arabo), entra in azione l’Editor che ha il compito di riconoscere il tipo di lingua
che è stato utilizzato per poi mandare il testo al centro linguistico specifico per la
conversione. Una volta che il testo è scritto in UNL, il server rispedisce il testo
all’Editor; a questo punto è possibile inserire la versione di UNL in rete.
113
3. Il Viewer riconosce il contenuto di una pagina scritta in UNL ed invia la richiesta di
deconversione al centro linguistico scelto per la traduzione (in questo caso quello spagnolo).
4 Una volta deconvertito, il testo viene rispedito al Viewer.
114
5. Lo stesso procedimento mostrato per l’arabo e lo spagnolo può essere effettuato per tutte
le altre lingue.
Il sistema UNL può essere utilizzato in molti campi di applicazione; non è difficile
immaginare il suo impiego nel settore dell’ e-commerce, della medicina, del lavoro, delle
librerie e dell’intrattenimento in generale.
Inoltre UNL ha possibilità di impiego in altre tecnologie, quali ad esempio il riconoscimento
automatico della voce, favorendo una comunicazione virtuale (come nelle numerose
università virtuali).
Possiamo comunque individuare delle applicazioni più concrete del sistema, come il
Multilingual Information Access, Information Retrieval, motori di ricerca in Internet, sistemi
esperti e la traduzione automatica, quadro entro il quale UNL è stato inserito in questa
monografia.
Vediamo ora come sono correlati gli elementi presenti nel sistema UNL che abbiamo
trattato:
115
I rapporti esistenti tra i diversi componenti consente al sistema di essere:
1) ASTRATTO: è indipendente dalle specifiche lingue; i software di conversione e
deconversione possono essere utilizzati per qualsiasi lingua;
2) COMPATTO: è formato da pochi elementi; abbiamo visto come in altri sistemi (vedi
Systran), per ciascun passaggio dell’analisi sia necessario un modulo specifico;
3) NON AMBIGUO: si basa sull’universalità della rappresentazione degli oggetti;
4) ESAUSTIVO: comprende tutte le relazioni logiche che si possono stabilire tra i concetti
che rappresentano la conoscenza del mondo; abbiamo infatti visto che la lista degli
attributi è sempre aggiornabile così da poter comprendere ogni aspetto delle lingue che
vengono trattate con questo sistema.
&" SPECIFICHE : !" Relazioni !" Attributi
&" PAROLE UNIVERSALI &" BASE di CONOSCENZA
SERVER LINGUISTICO &" Grammatica &" “Enconverter” &" “Deconverter” &" Dizionario di Lingua
MASTER DICTIONARY DIZIONARIO di CO-OCCORRENZE
116
CONCLUSIONI
In questo lavoro ho voluto mettere in evidenza quale sia il ruolo svolto dalla traduzione
automatica in un contesto multilingue, proprio della nostra società, e le numerose
problematiche di carattere tecnico-scientifico ad essa legate.
La traduzione automatica trova la sua giustificazione nel tentativo di fornire uno strumento
in grado di agevolare una comunicazione multilingue: il livello di professionalità dei
traduttori umani non viene certo messo in discussione, né tantomeno è oggi pensabile
ottenere delle traduzioni automatiche che raggiungano gli stessi risultati qualitativi.
È altrettanto vero, però, che le richieste di traduzioni aumentano oggi in maniera
esponenziale e difficilmente un traduttore professionista può sopperire a tutte le necessità;
inoltre, ci sono lingue che restano escluse dai normali circuiti di comunicazione
internazionale, me hanno lo stesso diritto – in quanto veicolo di cultura ed espressione di
identità di un popolo – di trovare un posto sul mercato.
Per meglio inquadrare il problema, ho prima evidenziato i procedimenti di analisi del
linguaggio naturale proposti dal Natural Language Processing, un campo di ricerca che
coinvolge tecniche computazionali e teoria linguistica. La creazione di un modello
computazionale per l’analisi del linguaggio naturale, deve essere in grado di trattare i diversi
livelli linguistici che riguardano una lingua; quindi, sono stati creati analizzatori morfologici,
sintattici, semantici e del discorso.
L’analisi di questi aspetti è il cuore dei sistemi di traduzione automatica; indipendentemente
dalla strategia adottata per compiere la traduzione (diretta, transfer, interlingua), si è visto
quanto siano diverse le soluzioni adottate per ciascuna di queste fasi di analisi.
In modo particolare è l’interpretazione semantica che costituisce un fattore discriminante di
rilievo per ottenere buoni risultati in traduzione; il metodo che sembra essere più adeguato
per questo scopo è l’utilizzazione delle cosiddette “reti semantiche”; le reti semantiche sono
schemi di rappresentazione della conoscenza attraverso l’identificazione di relazioni logiche
tra concetti. In questo modo si tende a raggiungere una sorta di “universalità” interpretativa
del linguaggio applicabile a tutte le lingue, slegandosi così dalle specifiche proprietà di
lingue particolari.
La volontà di individuare un metodo per la rappresentazione della conoscenza è alla base dei
sistemi di traduzione automatica ad approccio interlingua, che si propongono proprio come
meta-linguaggi di passaggio tra due qualsiasi lingue; la differenza sostanziale tra
l’interlingua e il transfer risiede proprio nei presupposti teorici di base, per cui il transfer si
117
propone di creare moduli di analisi e generazione di linguaggio naturale considerando le
caratteristiche proprie di una sola coppia specifica di lingue.
Nella mia ricerca ho avuto modo di constatare che la tendenza a creare standard di
rappresentazione multilingue, si ritrova non soltanto nei diversi approcci adottati per la
traduzione automatica, ma anche nella costruzione delle risorse linguistiche che entrano a far
parte di tali sistemi; prova ne sono i diversi progetti internazionali per la nascita di dizionari
monolingue che contengono lo stesso genere di informazioni legate ai lemmi e strutturati
secondo i medesimi criteri, ma soprattutto il progetto per l’organizzazione di una entrata
multilingue del dizionario.
Dato che l’argomento principale del lavoro è quello di mostrare gli strumenti di analisi ed
del linguaggio naturale, presentando in modo particolare la traduzione automatica come
strumento in grado di rispondere alle esigenze del multilinguismo, ho voluto esporre un
progetto, tuttora in evoluzione, che si propone come mezzo per la presentazione multilingue
di documenti: UNL (Universal Networking Language).
UNL è un linguaggio elettronico per computer, da usare attraverso Internet, la cui filosofia si
fonda sul presupposto di poter convertire e deconvertire linguaggi naturali passando per un
linguaggio intermedio (interlingua); le risorse linguistiche adottate da tale sistema trattano
primariamente concetti e relazioni che si vengono a creare tra essi, collegandosi a dizionari e
grammatiche specifiche di lingue particolari per poter creare espressioni in UNL e da queste
tradurle in altro linguaggio naturale.
Il fatto di poter essere utilizzato via Internet, il mezzo di comunicazione più diffuso e in
continua crescita, e la sua caratteristica di proporsi come interlingua, fanno di UNL uno
strumento tra i più adeguati per fornire uguaglianza di opportunità economiche, sociali, di
informazione, di progresso, di scambio e conoscenza culturale abbattendo l’ultima barriera
di discriminazione tra popoli: la differenza linguistica.
118
SUMMARY
In this work I tried to focus my attention on the main problems that machine translation
brings as the new way of considering the treatment of natural languages in a multilingual
context. In the first part of my dissertation I tried to show the most remarkable topics
concerning linguistic and theoretical aspects of translation in general, especially the use of
computational methods for the analysis of natural language.
I then outlined the main facts about machine translation: a brief history, the strategies
adopted to develop translation systems (some concrete examples of prototypes and
commercial systems are given), resolution of all the problems strictly connected to the
peculiarities of different languages involved in the translation process; in particular there is a
special section dedicated to multilingual lexicons and the challange for the creation of
standards in building dictionaries whose information about the entries are intended to be
language independent.
In the last part I present the UNL project, the core of the thesis. It’s a system currently being
developed and, above all, created and structured to answer the needs of our multilingual
society.
Translation
When we think about translation, we often consider it as a simple tranfer of words from a
language to another; but we should not forget that a language is the vision of the world given
by a particular population, by the community that uses that specific language: this is why
translation is a priviledged way to communicate culture and should be considered from this
point of view.
So, how can we recognize a good translation?
We can distinguish four criteria:
1. Correspondence of internal structure;
2. Stability in the method of translation;
3. Accuracy in the representation of the text;
4. Equivalence in meaning.
119
Speaking about machine translation can get one think about a totally new process; this is
partially true, but the problem of translation itself can be traced back in the origin of
linguistics. Even if not in a specific way, Saussure pointed out that a language is a set of
social acts, of conventions that allow an efficient communication; in this sense we can think
of translation as the way a people represent its own experiences of the world. Referring to
the translation process in a more explicit way, Roman Jackobson justifies it not only from a
theoretical point of view, but also recognizes it as a fundamental moment of the semiotic
process; in other words, there is a process of translation every time that a person has to
interpret a sentence even if it is pronounced in his native language.
But it is probably Noam Chomsky the one who gave the greatest support to the theory of
translation: in his “Syntactic Structure” he proposed a representation of the sentence that
considers the distinction between superficial and deep structure so that it is possible to
disassemble the sentence into different linked syntagmas; we have to notice that this method
of representation by means of internal and dependency relations between syntagmas is used
in many machine translation systems in the phase of syntactic analysis.
As regards semantics, there is a linguistic theory, Generative Semantics, that treats the
problem of interpretation of sentences; starting from the observations made by Chomsky,
many linguists assumed that representation and identification of meaning could be derived
by the previous syntactic analysis. Even if this theory does not consider one of the cricial
problems of translation, that is contestualization, it is useful to notice that in some machine
translation systems the output of the syntactic analyzer is used as the input for the semantic
module.
Natural Language Processing
Since computers made their appearance on the market, language has been one the most
interesting targets to work on; this is why development and improvement of different Natural
Language Processing applications is necessary to answer the varigated requests of a society
in need of fast, efficient and easier communication, facilities for the management of work,
tools to make information more accessible.
Here are the different fields of research:
1. Human-man interaction for information retrieval using machines able to dialogue with
the user;
120
2. Text Understanding to deal with the analysis and interpretation of texts (for example for
the exclusion of particular massages in e-mails);
3. Report Generation for the automatic production of natural language;
4. Machine translation
Irrespective of the specific application, Natural Language Processing requires a model of
analysis and generation of language; the phase of analysis is divided into different stages that
correspond to the levels of linguistic information characterising lexical items and, in a
broader sense, the context and the general structure of the text.
1. Morphological analysis
The first step to take during the analysis of a natural language is the identification of words
by means of their morphosyntactic features: root, prefix, suffix and ending. The second step
is that to trace these words in a dictionary; this may follow different strategies:
!" Sequential scanning: words can be stored in the dictionary both as unique entries and as
lists of segments (morphemes); in the second case, dictionary check is performed by
verifying the combination of segments according to composition rules; the goal is that to
reassemble the word given in input .
!" Dictionary subdivision: with this technique the dictionary is divided into lists that
correspond to the components of the word; each segment has specific information that
permits scanning of segments in other lists in order to compose the word. Some lists are
excluded from the scanning process if specific composition rules do not permit the
attachment of segments.
!" Structured research: in this case a morphological analyzer is necessary; the analyzer
disassembles the word in order to create an input string for the subsequent modules of
syntactic and semantic analysis.
One of the crucial problems related to morphological analysis is that of compounds; the
most interesting aspect is that compounds do not follow specific rules of formation and when
considering different languages we find that a compound in a language corresponds to a
simple word in another one. Machine translation deals with this item by simply storing
compounds as if they were single lexical items and uses the same rules of translation during
the translation process.
121
2. Syntactic analysis
The computational technique to make syntactic analysis is called “parsing” while “parser” is
the processor; the parser analyses an input string of words and represents the internal
structure of the sentence by showing dependency relations between words.
It is possible to classify parsers according to their method of analysis or to the kind of output
they provide. Following the method they use for the analysis, we distinguish “top-down”
parsers (they start from the initial sentence and, by dividing it in syntagmas, reconstruct the
constituent words) and “bottom-up” parser (they roughly operate in the opposite way). On
the contrary, if we consider the nature of the output, we can speak about “deterministic” and
“non deterministic” parsers: the former give only one representation of the structure of the
sentence, avoiding to consider the potential cases of ambiguity (lexical, structural or
functional) whereas the latter provide all the possible solutions.
Since a parser is an analyzer of grammatical rules, there are grammars linked to it whose
function is to supply grammatical rules for the language involved in the translation process
so as to offer the right construction of the sentence.
3. Semantic analysis
The problem of ambiguity observed for syntactic analysis is rather more contingent and
difficult to deal with from the semantic point of view; the main issue is that a single word
can have more than a meaning and during the translation process the system must choose the
correct one in order to keep the sense of the original text.
The choice of the right meaning is due to the context in which that particular word occurs;
scholars studied many strategies to cope with this problem and proposed a number of
solutions such as “Semantic Grammars” or “Case Grammars” whose characteristic is the
combination of semantic and syntactic information that should contribute to the resolution of
ambiguity. But with the increasing need of automated processes of natural language analysis
these instruments revealed their intrinsic loss of flexibility to deal with many cases of
ambiguity. This is why the strategy that seems to be suitable to this purpose is the creation of
the so called “Semantic Networks” that are schemes of representation of knowledge whose
purpose is the attempt to reproduce the mechanisms of storage and wording of information
performed by humans.
A semantic network involves nodes and arcs between nodes; nodes represent objects or
concepts and arcs represent relations between nodes; links are directed and labelled in order
to show the kind of relation that exists between concepts. In this sense, semantic networks
122
can avoid language dependent characteristics and take the shape of universal semantic
disambiguation tools; thanks to its particular structure and elements (concepts and relations
between them) a semantic nerwork is a strategy used in machine translation systems that are
based on the employment of an interlanguage: the same scheme of semantic representation
can be valid for a great variety of languages.
4. Discourse analysis
The main object of translation is the text; this is why a complete analysis of the whole text
and not only that of separated sentences is necessary; in fact, the meaning of a sentence
often depends on what precedes and follows. In the attempt to reach this goal the first step is
the identification of the “reference”, that is what the speaker or author of the text is speaking
about; for this purpose, computational techniques suggest a structural approach whose main
characteristic is the identification of the “focus”, that is the set of information that allow
efficient communication.
There are two types of focus: global focus, which refers to discourse structure, and local
focus that is connected to the linguistic phenomena present in the text; to identify global
focus, we use the top-down approach, suitable for task-oriented texts in which all the
procedures to achieve a particular goal are specified whereas a bottom-up approach is useful
to trace the local focus since it ivolves the storage of the nominal syntagmas that are present
in the text. The importance of the focus is evident in the moment of its shifting, so that it is
possible to determine all the arguments related to one another.
5. Generation of natural language
By “generation” we want to indicate the reverse process performed in the phase of analysis;
this means that a generator produces output strings of natural language starting from the
representations created by morphological, syntactic and semantic analyzers.
A generator inserted in a machine translation system must operate lexical and structural
choices to form sentences in the target language according to the amount of information
received by the modules of analysis; thus, the process is performed thanks to the
employment of specific grammars that are used to put together the words of the target
language according to the rules of that language.
123
Machine Translation
Machine Translation means the translation from one natural language into another by means
of computerized systems and has been a particularly difficult problem in the area of
Artificial Intelligence for nearly fourty years. Early approaches aimed at reaching the
standards of quality of professional human translators, but in more recent years research
turned to the development of systems that can provide translations that suit the basic needs
of the user; this means that a post-editing phase (a revision performed by human translators)
is desirable.
The first suggestions concerning machine translation were made by the Russian Smirnov-
Troyansky and the French Astsouni during the early 1930’s; however, the first serious
discussions took place in 1946 when Warren Weaver put forward the first tentative ideas for
using newly invented computers for translating natural languages. Since then, many attempts
have been made, especially in the United States and Europe, to automate the various steps of
the translation process, as the increasing development of machine translation systems during
the 1950’s and the 1960’s demonstrates.
A serious setback occured in 1964 with the ALPAC report that discouraged researches in
this field because of scientific and economic reasons and in fact the report caused a drastic
reduction of funds destined to research in machine translation. But in the early 1970’s a new
wave of optimism grew thanks to a new policy in Canada (a bilingual country) and in the
European Community: the impelling exigency of translation paved the way to new
researches and this attitude continues even today, especially in a context of multilingual
society.
1. Machine Translation approaches
We can distinguish between three major approaches that interest the strategies of
development of machine translation systems:
!" Direct: it is always between two pairs of languages; it is based on well-organized
glossaries and morphological analysis.
!" Transfer: it is still used today, in competition with the interlingua approach. First of all,
the source language is parsed into a representation that shows all the relations between
the components of the sentence; then the transfer module responsible for the creation of
structural correspondences with the target language is transferred and finally target
language sentences are generated.
124
Both direct and transfer approaches have been criticised since they require separate analysis
and generation softwares for each pair of languages with a consequent loss of time and
money.
!" Interlingua: it is the most advanced system; the rationale behind it is the creation of an
artificial language (the interlingua) able to include all the differences and peculiarities of
all languages. The translation process is roughly devided into two steps: an analyzer
transforms the source language text into the interlingua and a generator transforms the
interlingua into the target language text; in this way there is a drastic reduction of
analyzers and generators: only one analyzer and one generator are required, no matter
how many languages there are. This simplification is due to the presence of an
“ontology” which is the most important element of the interlingua approach. It is a
complex system of related concepts that are stored following hierarchical order and
relations between them. This characteristic allows the system to be suitable for
representing languages avoiding particular terminological differences and focusing on
concepts related to specific meanings.
Multilingual language and dictionaries 1. Dictionaries
The role played by dictionaries in machine translation systems is crucial. First of all, they
represent the largest component of the system in terms of the amount of information they
hold; secondly, the size and quality of dictionaries limit the scope and coverage of systems
and influence the quality of translation. Equally important is the information at different
linguistic levels (morphological, syntactic and semantic) that are attached to the headwords
stored in the dictionary itself.
Since machine translation deals with multilinguism, the need for some standards of
representation of words is evident. For this reason, some groups of scholars began to study
these standards of representation (ISLE – International Standards for Language Engineering
- project) and created monolingual lexicons for the twelve official languages of the European
Community ( PAROLE-SIMPLE lexicons); these lexicons are structured in the same way
and, above all, contain the same kind of information (phonological, morphological, syntactic
and semantic) related to the dictionary entries. Starting from this issue, scholars are planning
125
the realization of the so called “MILE” (Multilingual Isle Lexical Entry) that is intended as a
meta-entry acting as a common representational layer for multilingual lexical resources able
to create correspondences between the source language and the target language.
2. Multilingual problems in translation
One of the greatest problems connected with multilinguism in machine translation is that of
multi-word units; by multi-word units we indicate words whose principal characteristic is
their appearence in chunks of two or more words.
We can distinguish two different types of multi-word expressions:
!" Idioms: expressions whose meaning cannot be completely understood by the meanings
of the component parts; this is why it is not possible to translate them by using the
normal rules. In general the solution to this problem is to perform a complex and
accurate syntactic analysis so that it is possible to recognizetheir structure (for example
for inflectional classes); secondly, a semantic analysis will match the idiomatic
expression of the source language in an equivalent expression (idiomatic or non-
idiomatic) of the target language.
!" Collocations: expressions formed by two or more words that habitually co-occur whose
meaning can be detached from the analysis of the meanings of the component parts.
One of the best method to deal with collocations is to use the theory proposed by
Mel’chuks, i.e Lexical Functions. A lexical function can be defined as the
correspondence between two lexical items, with just one possible connection; in this way
the translation will take into consideration not only the lexical item but also the
information that regards the lexical function.
Since multi-word expressions represent more or less the 30% of the linguistic resources of a
language, some scholars thought of the creation specific lexicons of multi-words
expressions, incorporating both morpho-syntactic and semantic information (XMELLT –
Cross-lingual Multi-word Expressions Lexicons for Language Technology project).
126
Universal Networking Language
UNL, the acronym for Universal Networking Language, is an electronic language that
enables communication between different native langauges; it is a system of “enconverter”
(an encoder) and “deconverter” (a decoder) software that will reside on the Internet and will
be compatible with standard network servers. Everyone will be able to “enconvert”
(encoding process) text from a range of native languages into UNL; in the same way will be
able to “deconvert” (decoding process) the text from UNL into another native language; the
processes of “enconversion” and “deconversion” take place in different Linguistic Servers
through the Internet.
The UNL represents information in the form of hypergraphs (nodes linked by directed and
labelled arrows); these graphs are represented as sets of binary relations, each one between
two of the concepts present in a sentence. Concept are expressed by using character-strings
(an English-language word) called “Universal Word”; each relation is composed of three or
less characters that specify the kind of connection which exists between the two concepts.
Universal Words are followed by a list of constraints and attributes that are used to describe
what is said from the speaker's point of view: in UNL there are 61 attributes divided into
seven classes that attempt to account for the different attitudes of a speaker also from a
cultural point of view.
UNL also has a “Knowledge Base”, where all the possible relations between Universal
Words are stored; in this sense it can be considered as a set of knowledge-based entries.
Thanks to the organization of the Knowledge Base in a hierarchical order, it is possible to
translate even those lexical items that are not present in a specific language by using the item
that includes it, that has a more general meaning.
UNL seems to be the best answer to an increasing request on the part of our society: it will
be able to provide access to information to everyone thus avoiding linguistic barriers.
127
APPENDICE 1
Al sito Internet http://www.wordnet.com è possibile utilizzare WordNet per rintracciare
sinonimi, iperonimi ed iponimi di una data parola.
Quello che segue è il risultato della ricerca effettuata per la parola inglese bank.
&" WordNet 1.6 overview for "bank" The noun "bank" has 10 senses in WordNet. 1. depository financial institution, bank, banking concern, banking company -- (a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") 2. bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") 3. bank -- (a supply or stock held in reserve especially for future use (especially in emergencies)) 4. bank, bank building -- (a building in which commercial banking is transacted; "the bank is on the corner of Nassau and Witherspoon") 5. bank -- (an arrangement of similar objects in a row or in tiers; "he operated a bank of switches") 6. savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) for keeping money at home; "the coin bank was empty") 7. bank -- (a long ridge or pile; "a huge bank of earth") 8. bank -- (the funds held by a gambling house or the dealer in some gambling games; "he tried to break the bank at Monte Carlo") 9. bank, cant, camber -- (a slope in the turn of a road or track; the outside is higher than the inside in order to reduce the effects of centrifugal force) 10. bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially in turning)) Questa schermata rappresenta i significati individuati da WordNet per la parola “bank”.
&" WordNet 1.6 results for "Hyperonyms (this is a kind of...)" search of noun "bank" 10 senses of bank Sense 1 depository financial institution, bank, banking concern, banking company -- (a financial
128
institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") => financial institution, financial organization -- (an institution (public or private) that collects funds (from the public or other institutions) and invests them in financial assets) => institution, establishment -- (an organization founded and united for a specific purpose) => organization, organisation -- (a group of people who work together) => social group -- (people sharing some social relation) => group, grouping -- (any number of entities (members) considered as a unit) Sense 2 bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") => slope, incline, side -- (an elevated geological formation; "he climbed the steep slope"; "the house was built on the side of the mountain") => geological formation, geology, formation -- (the geological features of the earth) => natural object -- (an object occurring naturally; not made by man) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 3 bank -- (a supply or stock held in reserve especially for future use (especially in emergencies)) => reserve, backlog, stockpile -- (something kept back or saved for future use or a special purpose) => accumulation -- ((finance) profits that are not paid out as dividends but are added to the capital base of the corporation) => net income, net, net profit, lucre, profit, profits, earnings -- (the excess of revenues over outlays in a given period of time) => income -- (the financial gain (earned or unearned) accruing over a given period of time) => financial gain -- (the amount of monetary gain) => gain -- (the amount by which the revenue of a business exceeds its cost of operating) => sum, sum of money, amount, amount of money -- (a quantity of money; "he borrowed a large sum"; "the amount he had in cash was insufficient") => asset -- (anything of material value or usefulness) => possession -- (anything owned or possessed) Sense 4 bank, bank building -- (a building in which commercial banking is transacted; "the bank is on the corner of Nassau and Witherspoon") => depository, deposit, repository -- (a place where things can be deposited for safekeeping) => facility, installation -- (something created to provide a particular service; "the assembly plant is an enormous facility") => artifact, artefact -- (a man-made object) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 5 bank -- (an arrangement of similar objects in a row or in tiers; "he operated a bank of
129
switches") => array -- (an orderly arrangement: "an array of troops in battle order") => arrangement -- (an orderly grouping (of things or persons)) => group, grouping -- (any number of entities (members) considered as a unit) Sense 6 savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) for keeping money at home; "the coin bank was empty") => container -- (something that holds things, especially for transport or storage) => instrumentality, instrumentation -- (an artifact (or system of artifacts) that is instrumental in accomplishing some end) => artifact, artefact -- (a man-made object) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 7 bank -- (a long ridge or pile; "a huge bank of earth") => ridge -- (a long narrow natural elevation or striation) => natural elevation, elevation -- (a raised or elevated geological formation) => geological formation, geology, formation -- (the geological features of the earth) => natural object -- (an object occurring naturally; not made by man) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 8 bank -- (the funds held by a gambling house or the dealer in some gambling games; "he tried to break the bank at Monte Carlo") => funds, finances, monetary resource, cash in hand, pecuniary resource -- (assets in the form of money) => asset -- (anything of material value or usefulness) => possession -- (anything owned or possessed) Sense 9 bank, cant, camber -- (a slope in the turn of a road or track; the outside is higher than the inside in order to reduce the effects of centrifugal force) => slope, incline, side -- (an elevated geological formation; "he climbed the steep slope"; "the house was built on the side of the mountain") => geological formation, geology, formation -- (the geological features of the earth) => natural object -- (an object occurring naturally; not made by man) => object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects") => entity, something -- (anything having existence (living or nonliving)) Sense 10 bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially in turning)) => flight maneuver, airplane maneuver -- (an evasive maneuver by an aircraft)
130
=> maneuver, manoeuvre, evasive action -- (an action aimed at evading an enemy) => evasion -- (the act of physically escaping from something (an opponent or a pursuer or an unpleasant situation) by some adroit maneuver) => escape, flight -- (the act of escaping physically; "he made his escape from the mental hospital"; "the canary escaped from its cage"; "his flight was an indication of his guilt") => running away -- (leaving (without permission) the place you are expected to be) => deed, feat, effort, exploit -- (a notable achievement: "the book was her finest effort") => accomplishment, achievement -- (the act of accomplishing something) => action -- (something done (usually as opposed to something said); "there were stories of murders and other unnatural actions") => act, human action, human activity -- (something that people do or cause to happen)
&" WordNet 1.6 results for "Hyponyms (...is a kind of this), brief" search of noun "bank" Sense 1 depository financial institution, bank, banking concern, banking company -- (a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") => credit union -- (a cooperative depository financial institution whose members can obtain loans from their combined savings) => Federal Reserve Bank, reserve bank -- (one of 12 regional banks that monitor and act as depositories for banks in their region) => agent bank -- (a bank that acts as an agent for a foreign bank) => commercial bank, full service bank -- (a financial institution that accepts demand deposits and makes loans and provides other services for the public) => state bank -- (a bank chartered by a state rather than by the federal government) => lead bank, agent bank -- (a bank named by a multi-bank lending syndicate to protect their interests) => member bank -- (a bank that is a member of the Federal Reserve System) => merchant bank, acquirer -- (a credit card processing bank; merchants receive credit for credit card receipts less a processing fee) => acquirer -- (a bank gaining financial control over another financial institution through a payment in cash or an exchange of stock) => thrift institution -- (a depository financial institution intended to encourage personal savings and home buying) => Home Loan Bank -- (one of 11 regional banks that monitor and make short-term credit advances to thrift institutions in their region) Sense 2 bank -- (sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") => riverbank, riverside -- (the bank of a river) => waterside -- (land bordering a body of water) Sense 3
131
bank -- (a supply or stock held in reserve especially for future use (especially in emergencies)) => blood bank -- (a place for storing whole blood or blood plasma; "the Red Cross created a blood bank for emergencies") => food bank -- (a place where food is contributed and made available to those in need; "they set up a food bank for the flood victims") => soil bank -- (land retired from crop cultivation and planted with soil-building crops; government subsidies are paid to farmers for their retired land) Sense 4 savings bank, coin bank, money box, bank -- (a container (usually with a slot in the top) for keeping money at home; "the coin bank was empty") => piggy bank, penny bank -- (a child's coin bank (often shaped like a pig)) Sense 5 bank -- (a long ridge or pile; "a huge bank of earth") => bluff -- (a high steep bank (usually formed by river erosion)) => sandbank -- (a submerged bank of sand near a shore or in a river; can be exposed at low tide) Sense 6 bank -- (a flight maneuver; aircraft tips laterally about its longitudinal axis (especially in turning)) => vertical bank -- (a bank so steep that the plane's lateral axis approaches the vertical)
132
APPENDICE 2
Qui di seguito un esempio di input e output di un testo convertito e deconvertito di UNL. !" INPUT <HTML> <HEAD> <TITLE> UNL </TITLE> </HEAD> <BODY> [UD:dn=Mar Aral version 2,on=UNL Spain,[email protected]] [P] [S:1] {org:es} El mar Aral, situado entre las repúblicas de Uzbekistán y Kazajstán, era el cuarto mar interior más grande del mundo. {/org} {unl} nam(sea:01.@def, "Aral") obj(locate(icl>do).@present, sea:01.@def) man(locate(icl>do).@present, between(icl>manner)) obj(between(icl>manner), republic:01.@def) and(republic:01.@def, republic:02.@def) nam(republic:01.@def, "Uzbekistan") nam(republic:02.@def, "Kazajstan") aoj(sea:02.@def.@entry.@past, sea:01.@def) mod(sea:02.@def.@entry.@past, inland(mod<thing)) mod(sea:02.@def.@entry.@past, fourth(mod<thing)) mod(sea:02.@def.@entry.@past, large) man(large, most) frm(large, world.@def) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} El mar Aral, situado entre las repúblicas de Uzbekistán y Kazajstán, era el cuarto mar interior más grande del mundo. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:2] {org:es} Su profundidad media era de 16 metros y su extensión era de 67000 kilómetros. {/org} {unl} aoj(meter(icl>unit).@pl.@past.@entry, deepness) qua(meter(icl>unit).@pl.@past.@entry, 16) mod(deepness, average(mod<thing)) pos(deepness, it) and(meter(icl>unit).@pl.@past.@entry, kilometer.@pl.@past) aoj(kilometer.@pl.@past, width) qua(kilometer.@pl.@past, 67000) pos(width, it) {/unl}
133
{ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Su profundidad media era de 16 metros y su extensión era de 67000 kilómetros. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:3] {org:es} Los ríos Amu Dariá y Sir Dariá alimentaban y renovaban continuamente sus aguas. {/org} {unl} nam:02(river:01.@def.@entry, "Amu Dar'ya ") nam:02(river:02.@def, "Syr Dar'ya") and:02(river:01.@def.@entry, river:02.@def) and:01(feed(icl>do).@past.@entry, renew(icl>do).@past) man(:01.@entry, continuously) pos(water(icl>thing).@pl, it) agt(:01.@entry, :02) obj(:01.@entry, water(icl>thing).@pl) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Los ríos Amu Dariá y Sir Dariá alimentaban y renovaban continuamente sus aguas. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:4] {org:es} Su gran riqueza biológica hacía de él un importante caladero. {/org} {unl} mod(richness, great) mod(richness, biological(mod<thing)) mod(ground(icl>place).@indef, important) mod(ground(icl>place).@indef,fishing(mod<thing)) agt(transform(icl>do).@entry.@past, richness) gol(transform(icl>do).@entry.@past,ground(icl>place).@indef) obj(transform(icl>do).@entry.@past, it) pos(richness, it) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Su gran riqueza biológica hacía de él un importante caladero. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [/P] [P] [S:5] {org:es} En el mar Aral vivían 24 especies de peces autóctonos. {/org} {unl} nam(sea.@def, "Aral") plc(live(icl>do).@past.@entry, sea.@def) agt(live(icl>do).@past.@entry, species.@pl) qua(species.@pl, 24)
134
mod(species.@pl, fish(icl>thing).@pl) mod(fish(icl>thing).@pl, native(mod<thing)) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} En el mar Aral vivían 24 especies de peces autóctonos. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:6] {org:es} A mediados de siglo este mar daba trabajo a 60000 personas, que capturaban 49000 toneladas de pescado al año. {/org} {unl} mod(middle(icl>thing), century) mod(century,this:01) tim(provide(icl>do).@past.@entry, middle(icl>thing)) agt(provide(icl>do).@past.@entry, sea) mod(sea, this:02) obj(provide(icl>do).@past.@entry, job(icl>thing).@generic) qua(person.@pl, 60000) ben(provide(icl>do).@past.@entry, person.@pl) agt(capture(icl>do).@past, person.@pl) qua(ton.@pl, 49000) mod(ton.@pl, fish(icl>thing)) obj(capture(icl>do).@past, ton.@pl) per(ton.@pl, year) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} A mediados de siglo este mar daba trabajo a 60000 personas, que capturaban 49000 toneladas de pescado al año. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:7] {org:es} En sus aguas y en su delta habitaban 173 especies animales. {/org} {unl} pos(delta(icl>place), it) plc(inhabit(icl>do).@entry.@past, delta(icl>place)) qua(species.@pl, 173) mod(species.@pl, animal(mod<thing).@pl) and(delta(icl>place), water(icl>thing).@pl) agt(inhabit(icl>do).@entry.@past, species.@pl) pos(water(icl>thing).@pl, it) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} En sus aguas y en su delta habitaban 173 especies animales. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:8] {org:es}
135
Las aguas del mar Aral han retrocedido 100 kilómetros, dejando barcos varados en un desierto. {/org} {unl} mod(water(icl>thing).@def.@pl, sea.@def) nam(sea.@def, "Aral") obj(recede(icl>occur).@present.@entry.@complete, water(icl>thing).@def.@pl) qua(kilometer.@pl, 100) man(recede(icl>occur).@present.@entry.@complete, kilometer.@pl) agt(abandon(icl>do).@present.@entry, water(icl>thing).@def.@pl) obj(abandon(icl>do).@past, ship(icl>thing).@pl) mod(ship(icl>thing).@pl, stranded) plc(abandon(icl>do).@past, desert(icl>place).@indef) and(recede(icl>occur).@past.@entry.@complete, abandon(icl>do).@past) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Las aguas del mar Aral han retrocedido 100 kilómetros, dejando barcos varados en un desierto. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:9] {org:es} Los ríos dejaron prácticamente de llegar, taponados por presas. {/org} {unl} obj(flow(icl>occur).@past.@entry.@not, river.@def.@pl) man(flow(icl>occur).@past.@entry.@not, almost) rsn(flow(icl>occur).@past.@entry.@not, :01) obj:01(block(icl>do).@past.@entry, river.@def.@pl) agt:01(block(icl>do).@past.@entry, dam.@pl) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Los ríos dejaron prácticamente de llegar, taponados por presas. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [/P] [P] [S:10] {org:es} Ahora el mar Aral tiene tan solo una cuarta parte de su volumen. {/org} {unl} nam(sea.@def, "Aral") aoj(have(icl>state).@entry.@present, sea.@def) man(have(icl>state).@entry.@present, only) mod(part(icl>thing).@indef, fourth(mod<thing)) mod(part(icl>thing).@indef, volume) obj(have(icl>state).@entry.@present, part(icl>thing).@indef) pos(volume, sea.@def){/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Ahora el mar Aral tiene tan solo una cuarta parte de su volumen. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S]
136
[S:11] {org:es} La salinidad se ha triplicado. {/org} {unl} obj(triple(icl>do).@present.@entry.@complete, salinity.@def.@topic) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} La salinidad se ha triplicado. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:12] {org:es} Las capturas pesqueras se han reducido a cero. {/org} {unl} mod(catch(icl>action).@def.@pl.@topic, fishing) obj(reduce(icl>do).@present.@entry.@complete, catch(icl>action).@def.@pl.@topic) gol(reduce(icl>do).@present.@entry.@complete, zero) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Las capturas pesqueras se han reducido a cero. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:13] {org:es} De las 173 especies animales que vivían en su entorno, hoy solo quedan 38. {/org} {unl} man(remain(icl>occur).@entry.@present, only) tim(remain(icl>occur).@entry.@present, today) obj(remain(icl>occur).@entry.@present, species:01.@pl) qua(species:01.@pl, 38) frm(species:01.@pl, species:02.@pl) qua(species:02.@pl, 173) mod(species:02.@pl, animal(mod<thing)) pos(habitat, it) plc(live(icl>do).@past, habitat) agt(live(icl>do).@past, species:02.@pl) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} De las 173 especies animales que vivían en su entorno, hoy solo quedan 38. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:14] {org:es} Se trata de una de las mayores catástrofes ecológicas del planeta. {/org} {unl} mod(catastrophe:02.@pl.@def, large)
137
mod(large,more) mod(catastrophe:02.@pl.@def, ecological) mod(catastrophe:02.@pl.@def, planet.@def) frm(catastrophe:01.@indef.@entry, catastrophe:02.@pl.@def) aoj(catastrophe:01.@indef.@entry, it) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} Se trata de una de las mayores catástrofes ecológicas del planeta. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:15] {org:es} El clima también ha cambiado. {/org} {unl} man(change(icl>occur).@present.@entry.@complete, also) obj(change(icl>occur).@present.@entry.@complete, climate.@def) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} El clima también ha cambiado. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [S:16] {org:es} El viento esparce por la región una tóxica mezcla de polvo, restos químicos de plaguicidas y sal del lecho marino seco. {/org} {unl} agt(disperse(icl>do).@entry.@present, wind(icl>thing).@generic) plc(disperse(icl>do).@entry.@present, region.@def) obj(disperse(icl>do).@entry.@present, mixture.@indef) mod(mixture.@indef, toxic(mod<thing)) mod(mixture.@indef, dust(icl>thing)) mod(rest(icl>thing).@pl, chemical(mod<thing)) mod(rest(icl>thing).@pl, pesticide) and(mixture.@indef,rest(icl>thing).@pl) mod(salt(icl>thing), bed(icl>place).@def) mod(bed(icl>place).@def, marine(mod<thing)) mod(bed(icl>place).@def, dry(mod<thing)) and(rest(icl>thing).@pl,salt(icl>thing)) {/unl} {ab}{/ab}{cn}{/cn}{de}{/de}{el}{/el} {es} El viento esparce por la región una tóxica mezcla de polvo, restos químicos de plaguicidas y sal del lecho marino seco. {/es} {fr}{/fr}{hd}{/hd}{id}{/id}{it}{/it}{jo}{/jo}{jp}{/jp}{lv}{/lv}{mg}{/mg}{pg}{/pg}{ru}{/ru}{sh}{/sh}{th}{/th} [/S] [/P] [/UD] </BODY> </HTML>
138
!" OUTPUT [S:1] ======================== UNL ======================= sea:02(@def,@entry,@past,>aoj,>mod,>mod,>mod) -aoj>sea:01(@def,>nam,<obj,<aoj) -nam>Aral(<nam) <obj-locate(icl>do)(@present,>obj,>man) -man>between(icl>manner)(<man,>obj) -obj>republic:01(@def,<obj,>and,>nam) -and>republic:02(@def,<and,>nam) -nam>Kazajstan(<nam) -nam>Uzbekistan(<nam) -mod>inland(mod<thing)(<mod) -mod>fourth(mod<thing)(<mod) -mod>large(<mod,>man,>frm) -man>most(<man) -frm>world(@def,<frm) ==================================================== Il mare Aral che e' localizzato la repubblica Uzbekistan e la repubblica Kazajstan between(icl>manner) e' stato il quarto mare piu' vasto dal mondo interno . ;;Time 2.5 Sec ;;Done! [S:2] ======================== UNL ======================= meter(icl>unit)(@pl,@past,@entry,>aoj,>qua,>and) -aoj>deepness(<aoj,>mod,>pos) -mod>average(mod<thing)(<mod) -pos>it(<pos,<pos) <pos-width(<aoj,>pos) <aoj-kilometer(@pl,@past,<and,>aoj,>qua) <and-[meter(icl>unit)(@pl,@past,@entry,>aoj,>qua,>and)] -qua>67000(<qua) -qua>16(<qua) ==================================================== La sua profondita' media e' stata 16 metri e la sua larghezza e' stata 67000 chilometri . ;;Time 1.3 Sec ;;Done! [S:3] ======================== UNL ======================= :01(@entry,>man,>agt,>obj) -man>continuously(<man) -agt>:02(<agt) -obj>water(icl>thing)(@pl,>pos,<obj) -pos>it(<pos) :02 river:01(@def,@entry,>nam,>and) -nam>Amu Dar'ya (<nam) -and>river:02(@def,>nam,<and) -nam>Syr Dar'ya(<nam) :01 feed(icl>do)(@past,@entry,>and) -and>renew(icl>do)(@past,<and) ==================================================== Il fiume Amu Dar'ya e il fiume Syr Dar'ya hanno nutrito e hanno rinnovato le sue acque continuamente . ;;Time 1.7 Sec ;;Done! [S:4] ======================== UNL =======================
139
transform(icl>do)(@entry,@past,>agt,>gol,>obj) -agt>richness(>mod,>mod,<agt,>pos) -mod>great(<mod) -mod>biological(mod<thing)(<mod) -pos>it(<obj,<pos) <obj-[transform(icl>do)(@entry,@past,>agt,>gol,>obj)] -gol>ground(icl>place)(@indef,>mod,>mod,<gol) -mod>important(<mod) -mod>fishing(mod<thing)(<mod) ==================================================== La sua grande ricchezza biologica ha trasformato esso in un terreno importante di pesca . ;;Time 1.7 Sec ;;Done! [S:5] ======================== UNL ======================= live(icl>do)(@past,@entry,>plc,>agt) -plc>sea(@def,>nam,<plc) -nam>Aral(<nam) -agt>species(@pl,<agt,>qua,>mod) -qua>24(<qua) -mod>fish(icl>thing)(@pl,<mod,>mod) -mod>native(mod<thing)(<mod) ==================================================== 24 specie di pesci autoctoni hanno abitato nel mare Aral . ;;Time 1.1 Sec ;;Done! [S:6] ======================== UNL ======================= provide(icl>do)(@past,@entry,>tim,>agt,>obj,>ben) -tim>middle(icl>thing)(>mod,<tim) -mod>century(<mod,>mod) -mod>this:01(<mod) -agt>sea(<agt,>mod) -mod>this:02(<mod) -obj>job(icl>thing)(@generic,<obj) -ben>person(@pl,>qua,<ben,<agt) -qua>60000(<qua) <agt-capture(icl>do)(@past,>agt,>obj) -obj>ton(@pl,>qua,>mod,<obj,>per) -qua>49000(<qua) -mod>fish(icl>thing)(<mod) -per>year(<per) ==================================================== Questo mare ha fornito il lavoro a meta' di questo secolo per 60000 persone che hanno catturato 49000 tonnellate di pesce a anno . ;;Time 2.3 Sec ;;Done! [S:7] ======================== UNL ======================= inhabit(icl>do)(@entry,@past,>plc,>agt) -plc>delta(icl>place)(>pos,<plc,>and) -pos>it(<pos,<pos) <pos-water(icl>thing)(@pl,<and,>pos) <and-[delta(icl>place)(>pos,<plc,>and)] -agt>species(@pl,>qua,>mod,<agt) -qua>173(<qua) -mod>animal(mod<thing)(@pl,<mod) ==================================================== 173 specie animali hanno abitato nel suo delta e nelle sue acque . ;;Time 1.1 Sec
140
;;Done! [S:8] ======================== UNL ======================= recede(icl>occur)(@present,@entry,@complete,>obj,>man,@past,>and) -obj>water(icl>thing)(@def,@pl,>mod,<obj,<agt) -mod>sea(@def,<mod,>nam) -nam>Aral(<nam) <agt-abandon(icl>do)(@present,@entry,>agt,@past,>obj,>plc,<and) -obj>ship(icl>thing)(@pl,<obj,>mod) -mod>stranded(<mod) -plc>desert(icl>place)(@indef,<plc) <and-[recede(icl>occur)(@present,@entry,@complete,>obj,>man,@past,>and)] -man>kilometer(@pl,>qua,<man) -qua>100(<qua) ==================================================== Le acque del mare Aral hanno indietreggiato in 100 chilometri e hanno abbandon>obj in un deserto . ;;Time 1.6 Sec ;;Done! [S:9] ======================== UNL ======================= flow(icl>occur)(@past,@entry,@not,>obj,>man,>rsn) -obj>river(@def,@pl,<obj) -man>almost(<man) -rsn>:01(<rsn) :01 block(icl>do)(@past,@entry,>obj,>agt) -obj>river(@def,@pl,<obj) -agt>dam(@pl,<agt) ==================================================== I fiumi non sono scorsi almost perche' dighe hanno bloccato . ;;Time 1.2 Sec ;;Done! [S:10] ======================== UNL ======================= have(icl>state)(@entry,@present,>aoj,>man,>obj) -aoj>sea(@def,>nam,<aoj,<pos) -nam>Aral(<nam) <pos-volume(<mod,>pos) <mod-part(icl>thing)(@indef,>mod,>mod,<obj) -mod>fourth(mod<thing)(<mod) <obj-[have(icl>state)(@entry,@present,>aoj,>man,>obj)] -man>only(<man) ==================================================== Il mare Aral soltanto ha una quarta parte di volume . ;;Time 1.2 Sec ;;Done! [S:11] ======================== UNL ======================= triple(icl>do)(@present,@entry,@complete,>obj) -obj>salinity(@def,@topic,<obj) ==================================================== La salinita' e' stata triplicata . ;;Time 0.4 Sec ;;Done! [S:12] ======================== UNL ======================= reduce(icl>do)(@present,@entry,@complete,>obj,>gol) -obj>catch(icl>action)(@def,@pl,@topic,>mod,<obj) -mod>fishing(<mod) -gol>zero(<gol)
141
==================================================== Le catture di pesca sono state ridotte a zero . ;;Time 0.8 Sec ;;Done! [S:13] ======================== UNL ======================= remain(icl>occur)(@entry,@present,>man,>tim,>obj) -man>only(<man) -tim>today(<tim) -obj>species:01(@pl,<obj,>qua,>frm) -qua>38(<qua) -frm>species:02(@pl,<frm,>qua,>mod,<agt) -qua>173(<qua) -mod>animal(mod<thing)(<mod) <agt-live(icl>do)(@past,>plc,>agt) -plc>habitat(>pos,<plc) -pos>it(<pos) ==================================================== 38 specie da 173 specie animali che hanno abitato nel suo habitat soltanto rimangono oggi . ;;Time 1.4 Sec ;;Done! [S:14] ======================== UNL ======================= catastrophe:01(@indef,@entry,>frm,>aoj) -frm>catastrophe:02(@pl,@def,>mod,>mod,>mod,<frm) -mod>large(<mod,>mod) -mod>more(<mod) -mod>ecological(<mod) -mod>planet(@def,<mod) -aoj>it(<aoj) ==================================================== Esso e' una catastrofe dalle catastrofi ecologici piu' vasti del pianeta . ;;Time 1.2 Sec ;;Done! [S:15] ======================== UNL ======================= change(icl>occur)(@present,@entry,@complete,>man,>obj) -man>also(<man) -obj>climate(@def,<obj) ==================================================== Il clima e' cambiato anche . ;;Time 0.6 Sec ;;Done! [S:16] ======================== UNL ======================= disperse(icl>do)(@entry,@present,>agt,>plc,>obj) -agt>wind(icl>thing)(@generic,<agt) -plc>region(@def,<plc) -obj>mixture(@indef,<obj,>mod,>mod,>and) -mod>toxic(mod<thing)(<mod) -mod>dust(icl>thing)(<mod) -and>rest(icl>thing)(@pl,>mod,>mod,<and,>and) -mod>chemical(mod<thing)(<mod) -mod>pesticide(<mod) -and>salt(icl>thing)(>mod,<and) -mod>bed(icl>place)(@def,<mod,>mod,>mod) -mod>marine(mod<thing)(<mod) -mod>dry(mod<thing)(<mod) ====================================================
142
Il vento disperde un misto tossico di polvere , sale del letto asciutto marino rimanenze chimici di pesticida nella regione.
BIBLIOGRAFIA
AA.VV, Ricerche di psicolinguistica n°25, Franco Angeli Editore, Milano, 1975
ALBERTO P., BENNET P. (eds), Lexical Issues in Machine Translation, in Studies in
Machine Translation and Natural Language Processing, Office for Official Publications of
the European Community, 1995, vol.8
ALLEN J., Natural Language Understanding, The Benjamin/Cumming Publishing
Company, New York, 1995
ALPAC (1966), Languages and Machine: computers in translation and linguistics. A report
by the Automatic Language Processing Advisory Commette, Division of Behavioral
Sciences, National Academy of Sciences, National Research Council, Washington D.C.,
National Academy of Sciences, National Research Council, 1966, Publication 1416, 124 pg.
ANTINUCCI F. nella traduzione a N. Chomsky, Le strutture della sintassi, Editori Laterza,
Bari, 1970
ARCAINI E., Analisi linguistica e Traduzione, Pàtron Editore, Bologna, 1986
ARNOLD D., BALKAN L., HUMPHREYS R. L., MEIJER S., SADLER L., Machine
Translation: An Introductory Guide, NCC Blackwell, Manchester-Oxford, 1994
ATTI di EXPOLINGUE 1989, Il mondo delle lingue, Milano 8/11 marzo 1990
BARNBROOK G., Language and Computers, Edimburgh University Press, Edimburgh,
1996
BERTUCCELLI PAPI M., An Elementary Introduction to English Linguistics, Edizioni
ETS, Pisa, 2000
143
BOBROW D. G., COLLINS A. (eds), Representation and Understanding. Studies in
Cognitive Science, Academic Press, New York,1975
BOLC L. (ed), Natural Language Based Computer Systems, Carl Hanser Verlag,
Munchen/Wien, 1980
BUNT H., BLACK W. (eds), Abduction, Belief and Context in Dialogue, John Benjamins
Publishing Company, New York, 2000
BUTLER C., Computers in Linguistics, Basil Blackwell, Oxford, 1985
CABRINI F., Universal Networking Language: dal mito della Lingua Universale al
“traduttore” globale, Tesi, Università Cattolica, Facoltà di Scienze Politiche, Aprile 2001
CALZOLARI N., LENCI A., ZAMPOLLI A., BELL N., VILLEGAS M., THURMAIR G.,
The ISLE in the Ocean Translatantic Satndards for Multilingual Lexicon (with an eye on
Machine Translation), in http://www.eamt.org/summitVIII/papers/calzolari.pdf
CARRICO M.A., GIRARD J.E., JONES J.P., Building Knowledge Systems, Mc Graw-Hill
Book Company, New York, 1989
CHOMSKY N., Le strutture della sintassi, Editore Laterza, Bari, 1970
CINQUE G. (a cura di), Semantica Generativa, Boringhieri, Torino, 1979
CORPAS PASTOR G. (ed), Las lenguas de Europa: estudios de frseologìa y traducciòn,
Editorial Comares, Alborote (Granada), 2000
DANLOS L., The Linguistic basis of Text Generation, Cambridge University Press,
Cambridge, 1987
DEAN FODOR J., Semantics: Theories of Meaning in Generative Grammar, The Harvester
Press, Brighton, 1982
DOWLING GREGORY, A Study of the English Verb for Italians, Supernova, Venezia, 1993
144
DURANTI A., Antropologia del linguaggio, Maltemi Editore, Roma, 2000
FELBAUM C. (ed), WordNet, An Electronic Lexical Database, MIT Press, Cambridge,
1998
FERRARI G., Introduzione al Natural Language Processing, Calderini Editore, Bologna,
1991
FONTENELLE T., Turning a Bilingual Dictionary into a Lexical-Semantic Database,
Niemeyer, Tubingen, 1997
FORSYTH R., Machine Learning. Principles and Techniques, Chapman & Hall, London,
1989
FRANCESCATO G., Saggi di linguistica teorica e applicata, Ed.Dell’Orso, Alessandria,
1996
GAINES B., BOOSE J. (eds), Knowledge Adquisition for Knowledge-Based Systems,
Academic Press, New York, 1988
GENET J-P., ZAMPOLLI A. (eds), Computers and the Humanities, Dartmouth, Cambridge,
1992
GERBER L., Working Toward success in Machine Translation, in Proceedings of the
Workshop 18/22 september 2001, Santiago de Compostela, Spain
GHIGLIOZZI G., MORDENTI R., ZAMPOLLI A., La Bella e la Bestia, Tirrenia
Stampatori, Torino, 2000
GRISHAM R., Computational Linguistics, Cambridge University Press, Cambridge, 1988
HIRST G., Semantic interpretation and the Resolution of Ambiguity, Camridge University
Press, Cambridge, 1987
145
HUTCHINS J., Machine Translation over fifty years, in Histoire, Epistemologie, Langage,
Tomo XXII, fasc. 1, 2001, pg. 7-31
INTERNATIONAL JOURNAL OF TRANSLATION, n° 13, gennaio-dicembre 2001, pp.5-
20
JONES S., Text and Context, Springer-Verlag, London, 1991
JACKOBSON R., Aspetti linguistici della traduzione, in L. Heilman (a cura di), “Saggi di
linguistica generale”, Feltrinelli, Milano, 1966
JOSCELYNE A., AltaVista Translates in Real Time, in “Language International”, vol.10, n°
1, 1998
JURAFSKY D., MARTIN J.H., Speech and Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice
Hall, New Jersey, 2000
KELLY I., Progress in Machine Translation, Sigma Press, Wilmslow (UK), 1989
KESS J., Introduzione alla psicolinguistica, Franco Angeli Editore, Milano, 1979
KOERNER E.F.K., ASHER R.E. (eds), Concise History of the language sciences: from the
Sumerians to the Cognitivist, Pergamon Press, Oxford, 1995, pp. 431-445
L’HOMME M-C., Understanding specialized lexical combinations, in “Terminology”, vol.
6, n° 1, 2000
LAFFLING J., Towards High-Precision Machine translation, Foris Publications, Dordrecht
(Holland), 1991
LAVER M., Computers and Social Change, Cambridge University Press, Cambridge, 1980
LEHER A., Semantic fields and Lexical Structure, North-Holland Publishing Company,
Amsterdam- New York- Oxford, 1974
146
LOCKWOOD R., Global English and Language Market Trends, in “ Language
International”, 10/04/1998
LOCKWOOD R., The Business of Language, in “Language International”, vol. 12, n°3,
giugno 2000
MANNING C.D., SCHUTZE H., Foundation of Statistical Natural Language Processing,
MIT Press, Cambridge, 1999
MASSARIELLO MERZAGORA G., La Lessicografia, Zanichelli, Bologna, 1983
Mc KEOWN K., Text Generation, Cambridge University Press, Cambridge, 1985
MOON R., Fixed Expressions and Idioms in English, Clarendon Press, Oxford, 1988
MOUNIN G., La Machine à traduire, Mouton & Co., Paris, 1964
MOUNIN G., traduzione di Bruno Belloto, Storia della linguistica del XX secolo, Feltrinelli,
Milano, 1983
NEGRI M. (a cura di ), Navadhyayi, Il Calamaio, Roma, 1996
NIRENBURG S., Knowledge-Based Machine Translation, in “Machine Translation, n°1,
marzo 1989
NIRENBURG S., GOODMAN K., Treatment of of Meaning in Machine Translation
Systems, in “Proceedings of the Third International Conference on Theoretical and
Methodological Issues in Machine Translation of Natural Languages”, University of Texas,
June 1990
OSGOOD C.E., SEBEOK T.A, Psycholinguistics: a Survey of Theory and Research
Problems, Indiana University Press, Bloominghton, 1954
147
O’SHEA T., SELF J., THOMAS G., Intelligent Knowledge-Based Systems: An Inroduction,
Harper and Row Publishers, London, 1987
PAPEGAAJI B., SHUBERT K., Text Coherence in Translation, Foris Publications,
Dordrecht (Holland), 1988
PETERS C., SHERIDAN P., Multilingual Information Access, 2001
PICKEN C. (ed), Translating and The Computer 8, Aslib, London, 1987
PIRRELLI V., Morphology, Analogy and Machine Translation, Ph. D. Thesis, 1993,
Salford University
POWERS D.M.W., TURK C., Machine Learning of Natural Language, Sringer-Verlag,
London, 1989
PUSTEJOVSKY J. (ed), Semantics and the Lexicon, Kluwer Academic Publishers, New
York, 1993
PUSTEJOVSKY J., BOGURAEV B., Lexical Semantics: the Problem of Polisemy,
Clarendon Press, Oxford, 1996
RADFORD A., ATKINSON M., BRITAIN D., CLAHENS H., SPENCER A., Linguistics :
An Introduction, Cambridge University Press, Cambridge, 1999
RAMM W. (ed), Text and context in Machine Translation: aspects of discourse
representation and discourse processing, in Studies in Machine Translation and Natural
Language Processing, Office for Official Publications of the European Community, 1994,
vol.6
RAPALLO U., La ricerca in linguistica, La Nuova Italia Scientifica, Roma, 1994
RICH E., KNIGHT K., Artificial Intelligence, Mc Graw-Hill Inc., New York, 1991
148
RIGOTTI E., Traduzione nelle teorie linguistiche contemporanee, in “Processi traduttivi:
teorie ed applicazioni, Atti del seminario su La Traduzione”, Brescia 19/20 novembre 1981,
Editrice La Scuola, Brescia, 1982
RIGOTTI E., Principi di teoria linguistica, Editrice La Scuola, Brescia, 1983
ROLSTON D.W., Principles of Artificial Intelligence and Expert Systems Development, Mc
Graw-Hill Book Company, New York, 1988
SAGER J.C., Language Engeneering and Translation, Benjamins Translation Library,
Amsterdam/Philadelphia, 1993
SAGER J.C., Terminology: Custodian of Knowledge and Means of Knowledge Transfer, in
“Terminology”, vol.1, n° 1, 1994
DE SAUSSURE F., Corso di linguistica Generale, Editori Laterza, Bari, 1967
SCHREUDER R., WELTENS B. (eds), The Bilingual Lexicon, John Benjamins Publishing
Company, New York, 1993
SCHWARTZ S.C., Applied Natural Language Processing, Petrocelli, New York, 1987
SCHUTZ J., Terminological knowledge in Multilingual Language Processing, in Studies in
Machine Translation and Natural Language Processing, Office for Official Publications of
the European Community, 1994, vol.5
SIMONE R., Fondamenti di Linguistica, Editori Laterza, Bari, 1999
SINCLAIR J., Corpus Concordance Collocation, Oxford University Press, Oxford, 1991
SLOCUM J. (ed), Machine Translation Systems, Cambridge University Press, Canbridge,
1988
SNELL B., Translating and the Computer, Springer, London, 1985
149
SONDHEIMER S., CUMMING S., ALBANO R., How To Realize a Concept: Lexical
Selections and the Conceptual Network in Text Generation, in “Machine Translation”, n° 1,
marzo 1990
SOWA J.F., Conceptual Structure: Information Processing in Mind and Machine, Addison
Wesley Publishing Company, Boston, 1984
STEFFENS P. (ed), Machine Translation and the Lexicon, Springer, London, 1995
The Fourth Machine Translation Summit: Proceedings, Kobe, Japan, July 20/22 1993
VAN EYNDE F., ALLEGRANZA V., Semantics and Discourse: a Natural Lunguage
Processing Perspective, in Studies in Machine Translation and Natural Language
Processing, Office for Official Publications of the European Community, 1995, vol.9
VARILE G.B., ZAMPOLLI A. (eds), Survey of the State of the Art in human Language
Technology, Linguistica Computazionale vol. XII-XIII, Giardini Editori e Stampatori, Pisa,
1997
WALKER D.E., ZAMPOLLI A., CALZOLARI N. (eds), Automating the Lexicon,
Clarendon Press, Oxford, 1995
WEIGAND H., Linguistically Motivated Principles of Knowledge Base Systems, Foris
Publications, Dordrecht (Holland), 1990
WHITELOCK P., KILBY K., Linguistics Techniques in Machine Translation System
Design, UCL Press, Cambridge, 1995
WILKS Y.A., SLATOR B.M., GUTHRIE L.M., Electric Words, MIT Press,
Cambridge1996
150
http://www-2.cs.cmu.edu/ref/mlim/chapter4.html
http://accsubs.unsystem.org/iscc-intranet/work/documents/pdf/0007.pdf
http://www.aclweb.org
http://babel.altavista.com/tr
http://www.brocku.ca/commstudies/courses/2F50/iackobson
http://budling.nytud.hu/'kalman/reading/suggen94/node4.html
http://www.cis.upenn.edu/~cmetz/nicoletta.ppt
http://www.ccl.umist.ac.uk
http://www.ccl.umist.ac.uk/staff/harold/MTjnl
http://www-clips.imag.fr/geta
http://www.clsp.jhu.edu
http://www.cogsei.princeton.edu/'wn
htt://crl.nmsu.edu/Events/FWOI/PreWorkshop/prewkshop/farwell.html
http://www.cs.colorado.edu
http://www.cs.columbia.edu/'acl
http://www.cs.vassar.edu/'ide/XMELLT.html
http://www.cse.iitb.ernet.in
http://cslu.cse.ogi.edu
http://www.cst.ku.dk/project/spinn/Copenh01.ppt
http://www.dcs.kcl.ac.uk/journals/jlac
http://www.duke.edu
http://www.eamt.org/summitVIII/papers/calzolari.pdf
http://elies.rediris.es/elies9.htm
http://fox.cs.vt.edu
http://www.georgetown.edu
http://www.globalink.com/xlate.html
http://www.glreach.com/globstat/index.php3
http://www.iai.uni-sb.de/UNL/unl-specs.html
http://www.ias.uni.edu/research_prog/science_technology/universalnetwork_language.html
http://www.id.org.uk
http://www.imim.es/quark/num19/019044.htm
http://Isadc.org/kay.html
http://www.kecl.ntt.co.jp/icl/mtg
151
http://www-ksl.stanford.edu/kst/what-is-an-ontology.html
http://lhsl.com
http://www.ling.ed.ac.uk
http://ling.lancs.ac.uk
http://www.lti.cs.cmu.edu/Research
http://www.media.mit.edu
http://mitpress.mit.edu
http://mizar.org
http://www.mri.mq.edu.au
http://nespole.itc.it
http://ourworld.compuserve.com/homepages/WJHutchins/MT-93.htm
http://ourworld.compuserve.com/homepages/WJHutchins/MT-95.htm
http://ourworld.compuserve.com/homepages/WJHutchins/MT-99.htm
http://ourworld.compuserve.com/homepages/WJHutchins/MT-2001.htm
http://ourworld.compuserve.com/homepages/WJHutchins/PPF-3.doc
http://www.sslmit.unibo.it
http://stp.ling.ui.se/'fredriko/ling.html
http://www.systransoft.com
http://umiacs.umd.edu/'bonnie
http://www.undl.org
http://www.undl.org/StatuteUNLP.html
http://www.unesco.or.kr/cyberlang/eng
http://www.unicom.co.uk/3in/issue2/4Asp
http://www.unl.ias.unu.edu
http://www.unl.ias.unu.edu/unlsys/introduction_main.html
http://unl.ias.unu.edu/gm
http://unl.ias.unu.edu/publications/UNL-beyond%20MT.htm
http://www.wi-im.uni-koehn.de
http://wikipedia.com
http://www.wordnet.com
http://www.xfer.com/entry/571565
Top Related