Argomenti trattati nella lezione - Dessert Research Group ... MSTD-Mazzeo/Slide Lezione... ·...
Transcript of Argomenti trattati nella lezione - Dessert Research Group ... MSTD-Mazzeo/Slide Lezione... ·...
Traduzione automatica
1
I N T R O D U Z I O N E
Argomenti trattati nella lezione:I N T R O D U Z I O N EC O M P L E S S I T ÀM O D E L L IA P P L I C A Z I O N I C O M M E R C I A L IA P P L I C A Z I O N I C O M M E R C I A L I
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Introduzione
La Machine Translation (MT) opera una traduzione automatica di un testo in unlinguaggio naturale (la sorgente o Source Language) verso un testo in un altrolinguaggio naturale (la destinazione o Destination Language).g gg g g
Machine TranslationTranslation
Source Language Destination Language
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
g g g g
Introduzione
• Avere una vaga idea • Testi con linguaggio• Avere una vaga ideadel senso di un testo
• Velocizzare la tradu-zione operata da un
• Testi con linguaggioregolare e severa-mente limitato
Traduzione approssimativa
Traduzionea sorgente ristretta
zione operata da unumano
d i
Applicazionidella MT
Traduzione pre-editata
Traduzione letteraria• Testi con un linguag-
gio sorgente ristretto • Conservare le sfuma-g g• Efficace per traduzio-
ni verso destinazionimultiple
Conservare le sfumature linguistiche
• Compito troppo diffi-cile per i sistemi au-
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
ptomatici
Introduzione
La traduzione è un compito difficile:i hi d f dit d l t t- richiede una conoscenza approfondita del testo;
- esige una completa comprensione della situazione da comu-nicare.
La traduzione automatica deve:- operare delle distinzioni tra i vari significati di un termine; - scegliere il giusto termine;- descrivere correttamente una situazione identica, o molto descrivere correttamente una situazione identica, o molto
similare, a quella nel testo sorgente.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessitàp
Si hi i li l tt i ti h i d ll li t liSi chiamano universali le caratteristiche comuni delle lingue naturali.
Le differenze tra le lingue naturali sono, invece, dette elementi tipologici.
O i di i ti l i ò bl i d i t dOgni dimensione tipologica può causare problemi quando si opera una tradu-zione da una lingua ad un’altra.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessitàp
f l i Si i S lMorfologica Sintattica Strutturale
numero di morfe-mi per parola
SVOHead-marking
Dependent-marking
grado di
SOVVerb-framed
Satellite-framedgrado di
frammentazione dei morfemi VSO Pro-drop
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessitàp
Esempio delle dimensioni tipologiche morfologicheEsempio delle dimensioni tipologiche morfologiche
Numero di morfemi per paroleNumero di morfemi per paroleCatonese {fame -> 餓} Eskimo {Egli mangia la carne grezza -> Ayaskimeow}
Grado di frammentazioneni-na-soma leggoni-li-soma lessiSwahili { } Italiano { }ni li soma lessini-ta-soma leggerò
Swahili { } Italiano { }
La radice del verbo in swahili èfacilmente individuabile, mentre nel
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
verbo in italiano non lo è.
Complessitàp
Esempio delle dimensioni tipologiche sintatticheEsempio delle dimensioni tipologiche sintattiche
SVOItaliano {Noi andremo al cinema}
In verde è indicato il
SOVGiapponese {私達は映画館に行く}
In verde è indicato ilsoggetto della frase,in blue il verbo,mentre il comple-
VSOCebuana {Moadto kami sa sine}
mentre il complemento è in aran-cione.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessitàp
Esempio delle dimensioni tipologiche strutturaliEsempio delle dimensioni tipologiche strutturali
Head-marking Dependent-markingg p gInglese {the man-’s house}Ungherese {az ember hàz-a}
Verb-framed Satellite-framedItaliano {entrare , uscire}Inglese {go in , go out}
Pro-dropStamattina mia madre è venuta in cucina con un libro.
l h di d di i di il i d l f iItaliano { }Me lo ha mostrato, dicendo di indicare il mio dolce preferito.
This morning, my mother came in the kitchen with a book. Sh h d it t t lli t i di t f it k
Italiano { }
Inglese { }
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
She showed it to me, telling me to indicate my favourite cake.g { }
Complessitàp
Omogra-fi te-stuali
Gli omografi testuali sonorisolvibili con l’analisi sintat-tica.t ca
Gli omografi assoluti sonoaffrontabili con tecniche stati-
Ostacoli al MT
Omografi asso-
lutiUso di
pronomistiche.
Le polirematiche e le col-
li
locazioni sono individuabili conun censimento.
’ l d èPolire-matiche e colloca-
zioni
L’uso particolare dei pronomi èapprocciabile con tecniche diAnaphora Resolution.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
zioni
Complessitàp
Ricerca di possibili collocazioni o
li ti h Un serio problema è usare la stessapolirematiche pcombinazione in una forma noncristallizzata, infatti in questo caso latraduzione risulta inapproppriata
Trattamento a parte rispetto al resto del testo
delle strutture individuate
nel caso in cui si consideri lastruttura nella sua forma cristal-lizzata
In questi casi, una macchina cheimpiega solamente delle tecnichef li i l iSostituzione dei termini
dal linguaggio sorgente a quello destinazione
formali si trova un ostacolo insor-montabile
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Di i li i ll t d i t ti d i ti d di ti ti d lliDiversi sono gli approcci alla traduzione automatica, derivanti da distinti modellidi funzionameto della lingua e dalle possibilità offerte dal Natural LanguageProcessing
Probabi-li i i
SMT
l
MT
listici Example-based
TraduzionMT
Rule-based
Traduzione diretta
T-sistemibasedInter-lingua
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Il d l Un altro Il modulo morfologico analizza la forma delle
Un altro modulo
morfologico produce la
corretta parole
Individua
corretta forma flessa
Il sistema riduce al minimo leinformazioni linguistiche da ana-Individua
informazioni fornite dalla flessione e le
Ottenimento della forma
traducente di base
informazioni linguistiche da analizzare, prendendo in conside-razione solo le caratteristiche del-la lingua di partenza e di quella discomponebase la lingua di partenza e di quella diarrivo, necessarie per il proce-dimento della trasformazione.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
A li i
Trasferimento sintattico
Analisi morfo-
sintatticaSintesi
Modelloi l
Questi sistemi sono:operazionale
Q• Fondati su modelli sintattici di
grammatica formale;• Centrati sull’uso di strumenti propri del
Natural Language Processing.
Tra i sistemi basati sulle regole, quelli sintattici sono i maggiormente usati e i
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
g , q ggmigliori in termini di performance.
Modelli
Conoscenza contrastiva
Esplicitare le differenze tra le due lingue è il primo passo verso la traduzione.p g p pDa questo punto di vista occorre una ristrutturazione sintattica per conformarsialle regole della lingua target
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Questi sistemi sono caratterizzati da:R t i i t di• Rappresentazione intermedia,
• Serie di livelli astratti di rappresentazione morfologica, sintattica e semantica.
Sono necessari due passaggi di traduzione:Sono necessari due passaggi di traduzione:• T1: descrive il passaggio dalla Source Language all’interlingua,• T2: descrive il passaggio dall’interlingua al Target Language.
P i
• Modulo Morfo-sintattico Natural Pasing
SintatticoTesto in SL • Modulo Semantico
• Knowledge Bases
Interlingua Testo in TLNatural
Language Generation
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Una maniera comoda per rappresentare i tre approcci dei sistemi basati sulleregole è di utilizzare il triangolo di Vauquois, in cui si la profondità di analisi cre-sce salendo verso il vertice mentre la quantità di conoscenza richiesta decrescesce salendo verso il vertice, mentre la quantità di conoscenza richiesta decresce.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Sono sistemi con le seguenti caratteristiche:• Accesso a corpora paralleli ;• Traduzione con strutture già tradotte;• Ricorso a parametri statistici per l’attribuzione dell’ordine delle parole e del
i li did l d i migliore candidato per la traduzione. • Mancato utilizzo di regole grammaticali, ma uso delle probabilità di co-
occorrenza e di frequenza delle parole.
Le probabilità di co-occorenza sono basate principalmente su due tipi di dati: • Presenza di candidati simili nei corpora paralleli usati come riferimento• Posizione delle parole all’interno della frase confrontata con l’ordine delle Posizione delle parole all interno della frase confrontata con l ordine delle
parole all’interno del corpus.
I risultati dei sistemi di impronta statistica si sono rilevati migliori rispetto a
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
p g pquelli che fanno ricorso a regole.
Modelli
P(E | F) = P(F | E)P(E)∝P(F | E)P(E)P(E | F) =
P(F)∝P(F | E)P(E)
T di BTeorema di Bayes
dove:• P(E | F) = Probabilità di avere un frase corretta in inglese nota quella in • P(E | F) = Probabilità di avere un frase corretta in inglese nota quella in
francese (Probabilità di corretta traduzione);• P(F | E) = Probabilità di avere una frase corretta in francese nota quella in
inglese (Probabilità ottenute da corpora paralleli di riferimento);inglese (Probabilità ottenute da corpora paralleli di riferimento);• P(E) = Probabilità di avere una frase corretta in inglese;• P(F) = Probabilità di avere una frase corretta in francese (dato che è la
source language è pari a 1).
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
source language è pari a 1).
Modelli
Traduzione basata su esempi: una frase Traduzione basata su esempi: una frase viene tradotto per analogia, usando traduzioni precedenti quali esempi. Si possono anche precedenti quali esempi. Si possono anche utilizzare parti degli esempi.
Traduzione basata su memoria. Se una frase è già stata tradotta utilizza tale traduzione frase è già stata tradotta, utilizza tale traduzione come punto di partenza/bozza.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
T d i Traduzione basata su esempi
Recupero,combina-zione e ordinamen-to di frammenti
Database delleTraduzione Unità di traduzioneTraduzione Testo di
input
Preprocessingdella memoriadella memoria
Testi bilingui
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
T d i b t Confronto ed ordinamento
Traduzione basata sulla memoria
Database dellePrecedenti Database delleunità di
traduzione
Testo diinput
Traduzioniordinate
PreprocessingDella memoriaDella memoria
Testi bilinguiSelezione ed Editing manuale
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Editing manuale
Modelli
Traduzione basata su esempi
• L’obiettivo è produrre una
Traduzione basata su memoria
Q li à l l • L obiettivo è produrre una traduzione corretta.
• Usa in modo efficiente traduzioni precedenti
• Qualità molto alta, se vengono trovati i corrispondenti giusti.
• Molto utile nel caso di documenti precedenti.• Gli esempi sono usati per la
disambiguazione.l l b
molto ripetitivi o documenti da aggiornare frequentemente.Non combina traduzioni • La selezione e la combinazione
degli esempi non è cosa facile.• Fenomeni dipendenti dal
• Non combina traduzioni provenienti da frasi diverse.
• Non adatta a testi di tipo generico.contesto (per esempio, l’anafora) sono difficile da risolvere.
• Richiede preprocessing.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
p p g
Modelli
I sistemi attuali di traduzione automatica sono spesso ibridi, e tentano diarricchire per composizione le metodologie basate su regole con quelleadoperanti i corpora.
Il vantaggio è di poter sviluppare diverse strategie di risoluzione a seconda dellof bl d d ffspecifico problema traduttivo da affrontare.
Si i Ib idiSistemi Ibridi
Rule-based Probabilistici
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni commercialipp
Diverse multinazionali hanno iniziato a tradurre manualid’ d t i i t i d ttid’uso e documentazione interna con vari prodotticommerciali di traduzione automatica. La tecnica usata èquella di ricorrere al sublanguage, che favorisce latraduzione verso destinazioni multipletraduzione verso destinazioni multiple.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni commercialipp
Nei sistemi di tradu-zione on-line, l’utentepuò ottenere una tra-pduzione in temporeale di un testo o diuna pagina Web dauna qualunque linguaverso una delle nume-rose lingue suppor-
l i l òtate. Il risultato, però,è il più delle volte unatraduzione grezza più
i io meno imprecisa, aseconda delle carat-teristiche del testo dipartenza
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturaleTecnologie per il trattamento e la comprensione automatica del linguaggio naturale
partenza.
Applicazioni commercialipp
Analisi delle parolet d l i tili t T f
Dizionari Routines• metodologia utilizzata: Transfer• il cuore del sistema è composto
da ampi dizionari bilingui• non esiste un vero e proprio
Analisi delle frasi
P i
• non esiste un vero e proprio“modulo di transfer” (il trans-fer è realizzato da varie routine ingenerazione) Parsinggenerazione)
• Analisi morfo-sintattica parziale(shallow parsing) e “scor-ciatoie” per espressioni idioma-
Sintesi
Sostituzione Sistemazione
ciatoie per espressioni idiomatiche o parole composte.
• Semplice categorizzazione se-mantica (umano Vs. inumano),
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
( ),non gerarchica
Applicazioni commercialipp
METEOMETEORicerca nel
• produce bollettini meteo in inglese efrancese per tutto il Canadai b ll tti i t d d lt
Ricerca nel dizionario
• i bollettini standard sono moltocodificati (stile telegrafico) ed hanno
• un lessico limitato• la struttura delle frasi in inglese e
Analisi sintattica
• la struttura delle frasi in inglese efrancese è molto simile (approcciobasato sul transfer, ma moltolimitato)
Regole di generazionelimitato)
• sistema con task-specifico, dominiospecifico, opzioni di supporto perinterventi umani
generazione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
interventi umani
Applicazioni commercialipp
ROSETTAROSETTA
• Metodologia utilizzata: Interlingua• Approccio semantico: Grammatica• Approccio semantico: Grammatica
di Montague (il significato di un’espres-sione è il risultato della composizione
• del significato delle sue componenti)del significato delle sue componenti)• Reversibilità: la stessa grammatica è usata per analizzare e generare le frasi• Isomorfismo: la stessa derivazione semantica deve essere ottenuta per avere
una traduzione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
una traduzione
Applicazioni commercialipp
I Workbenches sono applicazioni com-ppmerciali di traduzione automatica, pensatiper traduttori professionisti.Le workbenches sono suite integrati con:g
• Word processors multilingue,• Controllori grammaticali e ortografici,• Termbancks,• Corpora paralleli e programmi di
allineamento dei testi,• Programmi di accesso e condivisione
di d i idi traduzioni.• Translation memories.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale