Argomenti trattati nella lezione - Dessert Research Group ... MSTD-Mazzeo/Slide Lezione... ·...

32
Traduzione automatica 1 INTRODUZIONE Argomenti trattati nella lezione: INTRODUZIONE COMPLESSITÀ MODELLI APPLICAZIONI COMMERCIALI APPLICAZIONI COMMERCIALI Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Transcript of Argomenti trattati nella lezione - Dessert Research Group ... MSTD-Mazzeo/Slide Lezione... ·...

Traduzione automatica

1

I N T R O D U Z I O N E

Argomenti trattati nella lezione:I N T R O D U Z I O N EC O M P L E S S I T ÀM O D E L L IA P P L I C A Z I O N I C O M M E R C I A L IA P P L I C A Z I O N I C O M M E R C I A L I

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Introduzione

La Machine Translation (MT) opera una traduzione automatica di un testo in unlinguaggio naturale (la sorgente o Source Language) verso un testo in un altrolinguaggio naturale (la destinazione o Destination Language).g gg g g

Machine TranslationTranslation

Source Language Destination Language

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

g g g g

Introduzione

• Avere una vaga idea • Testi con linguaggio• Avere una vaga ideadel senso di un testo

• Velocizzare la tradu-zione operata da un

• Testi con linguaggioregolare e severa-mente limitato

Traduzione approssimativa

Traduzionea sorgente ristretta

zione operata da unumano

d i

Applicazionidella MT

Traduzione pre-editata

Traduzione letteraria• Testi con un linguag-

gio sorgente ristretto • Conservare le sfuma-g g• Efficace per traduzio-

ni verso destinazionimultiple

Conservare le sfumature linguistiche

• Compito troppo diffi-cile per i sistemi au-

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

ptomatici

Introduzione

La traduzione è un compito difficile:i hi d f dit d l t t- richiede una conoscenza approfondita del testo;

- esige una completa comprensione della situazione da comu-nicare.

La traduzione automatica deve:- operare delle distinzioni tra i vari significati di un termine; - scegliere il giusto termine;- descrivere correttamente una situazione identica, o molto descrivere correttamente una situazione identica, o molto

similare, a quella nel testo sorgente.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Complessitàp

Si hi i li l tt i ti h i d ll li t liSi chiamano universali le caratteristiche comuni delle lingue naturali.

Le differenze tra le lingue naturali sono, invece, dette elementi tipologici.

O i di i ti l i ò bl i d i t dOgni dimensione tipologica può causare problemi quando si opera una tradu-zione da una lingua ad un’altra.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Complessitàp

f l i Si i S lMorfologica Sintattica Strutturale

numero di morfe-mi per parola

SVOHead-marking

Dependent-marking

grado di

SOVVerb-framed

Satellite-framedgrado di

frammentazione dei morfemi VSO Pro-drop

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Complessitàp

Esempio delle dimensioni tipologiche morfologicheEsempio delle dimensioni tipologiche morfologiche

Numero di morfemi per paroleNumero di morfemi per paroleCatonese {fame -> 餓} Eskimo {Egli mangia la carne grezza -> Ayaskimeow}

Grado di frammentazioneni-na-soma leggoni-li-soma lessiSwahili { } Italiano { }ni li soma lessini-ta-soma leggerò

Swahili { } Italiano { }

La radice del verbo in swahili èfacilmente individuabile, mentre nel

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

verbo in italiano non lo è.

Complessitàp

Esempio delle dimensioni tipologiche sintatticheEsempio delle dimensioni tipologiche sintattiche

SVOItaliano {Noi andremo al cinema}

In verde è indicato il

SOVGiapponese {私達は映画館に行く}

In verde è indicato ilsoggetto della frase,in blue il verbo,mentre il comple-

VSOCebuana {Moadto kami sa sine}

mentre il complemento è in aran-cione.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Complessitàp

Esempio delle dimensioni tipologiche strutturaliEsempio delle dimensioni tipologiche strutturali

Head-marking Dependent-markingg p gInglese {the man-’s house}Ungherese {az ember hàz-a}

Verb-framed Satellite-framedItaliano {entrare , uscire}Inglese {go in , go out}

Pro-dropStamattina mia madre è venuta in cucina con un libro.

l h di d di i di il i d l f iItaliano { }Me lo ha mostrato, dicendo di indicare il mio dolce preferito.

This morning, my mother came in the kitchen with a book. Sh h d it t t lli t i di t f it k

Italiano { }

Inglese { }

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

She showed it to me, telling me to indicate my favourite cake.g { }

Complessitàp

Omogra-fi te-stuali

Gli omografi testuali sonorisolvibili con l’analisi sintat-tica.t ca

Gli omografi assoluti sonoaffrontabili con tecniche stati-

Ostacoli al MT

Omografi asso-

lutiUso di

pronomistiche.

Le polirematiche e le col-

li

locazioni sono individuabili conun censimento.

’ l d èPolire-matiche e colloca-

zioni

L’uso particolare dei pronomi èapprocciabile con tecniche diAnaphora Resolution.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

zioni

Complessitàp

Ricerca di possibili collocazioni o

li ti h Un serio problema è usare la stessapolirematiche pcombinazione in una forma noncristallizzata, infatti in questo caso latraduzione risulta inapproppriata

Trattamento a parte rispetto al resto del testo

delle strutture individuate

nel caso in cui si consideri lastruttura nella sua forma cristal-lizzata

In questi casi, una macchina cheimpiega solamente delle tecnichef li i l iSostituzione dei termini

dal linguaggio sorgente a quello destinazione

formali si trova un ostacolo insor-montabile

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

Di i li i ll t d i t ti d i ti d di ti ti d lliDiversi sono gli approcci alla traduzione automatica, derivanti da distinti modellidi funzionameto della lingua e dalle possibilità offerte dal Natural LanguageProcessing

Probabi-li i i

SMT

l

MT

listici Example-based

TraduzionMT

Rule-based

Traduzione diretta

T-sistemibasedInter-lingua

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

Il d l Un altro Il modulo morfologico analizza la forma delle

Un altro modulo

morfologico produce la

corretta parole

Individua

corretta forma flessa

Il sistema riduce al minimo leinformazioni linguistiche da ana-Individua

informazioni fornite dalla flessione e le

Ottenimento della forma

traducente di base

informazioni linguistiche da analizzare, prendendo in conside-razione solo le caratteristiche del-la lingua di partenza e di quella discomponebase la lingua di partenza e di quella diarrivo, necessarie per il proce-dimento della trasformazione.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

A li i

Trasferimento sintattico

Analisi morfo-

sintatticaSintesi

Modelloi l

Questi sistemi sono:operazionale

Q• Fondati su modelli sintattici di

grammatica formale;• Centrati sull’uso di strumenti propri del

Natural Language Processing.

Tra i sistemi basati sulle regole, quelli sintattici sono i maggiormente usati e i

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

g , q ggmigliori in termini di performance.

Modelli

Conoscenza contrastiva

Esplicitare le differenze tra le due lingue è il primo passo verso la traduzione.p g p pDa questo punto di vista occorre una ristrutturazione sintattica per conformarsialle regole della lingua target

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

Questi sistemi sono caratterizzati da:R t i i t di• Rappresentazione intermedia,

• Serie di livelli astratti di rappresentazione morfologica, sintattica e semantica.

Sono necessari due passaggi di traduzione:Sono necessari due passaggi di traduzione:• T1: descrive il passaggio dalla Source Language all’interlingua,• T2: descrive il passaggio dall’interlingua al Target Language.

P i

• Modulo Morfo-sintattico Natural Pasing

SintatticoTesto in SL • Modulo Semantico

• Knowledge Bases

Interlingua Testo in TLNatural

Language Generation

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

Una maniera comoda per rappresentare i tre approcci dei sistemi basati sulleregole è di utilizzare il triangolo di Vauquois, in cui si la profondità di analisi cre-sce salendo verso il vertice mentre la quantità di conoscenza richiesta decrescesce salendo verso il vertice, mentre la quantità di conoscenza richiesta decresce.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

Sono sistemi con le seguenti caratteristiche:• Accesso a corpora paralleli ;• Traduzione con strutture già tradotte;• Ricorso a parametri statistici per l’attribuzione dell’ordine delle parole e del

i li did l d i migliore candidato per la traduzione. • Mancato utilizzo di regole grammaticali, ma uso delle probabilità di co-

occorrenza e di frequenza delle parole.

Le probabilità di co-occorenza sono basate principalmente su due tipi di dati: • Presenza di candidati simili nei corpora paralleli usati come riferimento• Posizione delle parole all’interno della frase confrontata con l’ordine delle Posizione delle parole all interno della frase confrontata con l ordine delle

parole all’interno del corpus.

I risultati dei sistemi di impronta statistica si sono rilevati migliori rispetto a

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

p g pquelli che fanno ricorso a regole.

Modelli

P(E | F) = P(F | E)P(E)∝P(F | E)P(E)P(E | F) =

P(F)∝P(F | E)P(E)

T di BTeorema di Bayes

dove:• P(E | F) = Probabilità di avere un frase corretta in inglese nota quella in • P(E | F) = Probabilità di avere un frase corretta in inglese nota quella in

francese (Probabilità di corretta traduzione);• P(F | E) = Probabilità di avere una frase corretta in francese nota quella in

inglese (Probabilità ottenute da corpora paralleli di riferimento);inglese (Probabilità ottenute da corpora paralleli di riferimento);• P(E) = Probabilità di avere una frase corretta in inglese;• P(F) = Probabilità di avere una frase corretta in francese (dato che è la

source language è pari a 1).

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

source language è pari a 1).

Modelli

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

Traduzione basata su esempi: una frase Traduzione basata su esempi: una frase viene tradotto per analogia, usando traduzioni precedenti quali esempi. Si possono anche precedenti quali esempi. Si possono anche utilizzare parti degli esempi.

Traduzione basata su memoria. Se una frase è già stata tradotta utilizza tale traduzione frase è già stata tradotta, utilizza tale traduzione come punto di partenza/bozza.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

T d i Traduzione basata su esempi

Recupero,combina-zione e ordinamen-to di frammenti

Database delleTraduzione Unità di traduzioneTraduzione Testo di

input

Preprocessingdella memoriadella memoria

Testi bilingui

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Modelli

T d i b t Confronto ed ordinamento

Traduzione basata sulla memoria

Database dellePrecedenti Database delleunità di

traduzione

Testo diinput

Traduzioniordinate

PreprocessingDella memoriaDella memoria

Testi bilinguiSelezione ed Editing manuale

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Editing manuale

Modelli

Traduzione basata su esempi

• L’obiettivo è produrre una

Traduzione basata su memoria

Q li à l l • L obiettivo è produrre una traduzione corretta.

• Usa in modo efficiente traduzioni precedenti

• Qualità molto alta, se vengono trovati i corrispondenti giusti.

• Molto utile nel caso di documenti precedenti.• Gli esempi sono usati per la

disambiguazione.l l b

molto ripetitivi o documenti da aggiornare frequentemente.Non combina traduzioni • La selezione e la combinazione

degli esempi non è cosa facile.• Fenomeni dipendenti dal

• Non combina traduzioni provenienti da frasi diverse.

• Non adatta a testi di tipo generico.contesto (per esempio, l’anafora) sono difficile da risolvere.

• Richiede preprocessing.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

p p g

Modelli

I sistemi attuali di traduzione automatica sono spesso ibridi, e tentano diarricchire per composizione le metodologie basate su regole con quelleadoperanti i corpora.

Il vantaggio è di poter sviluppare diverse strategie di risoluzione a seconda dellof bl d d ffspecifico problema traduttivo da affrontare.

Si i Ib idiSistemi Ibridi

Rule-based Probabilistici

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Applicazioni commercialipp

Diverse multinazionali hanno iniziato a tradurre manualid’ d t i i t i d ttid’uso e documentazione interna con vari prodotticommerciali di traduzione automatica. La tecnica usata èquella di ricorrere al sublanguage, che favorisce latraduzione verso destinazioni multipletraduzione verso destinazioni multiple.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

Applicazioni commercialipp

Nei sistemi di tradu-zione on-line, l’utentepuò ottenere una tra-pduzione in temporeale di un testo o diuna pagina Web dauna qualunque linguaverso una delle nume-rose lingue suppor-

l i l òtate. Il risultato, però,è il più delle volte unatraduzione grezza più

i io meno imprecisa, aseconda delle carat-teristiche del testo dipartenza

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturaleTecnologie per il trattamento e la comprensione automatica del linguaggio naturale

partenza.

Applicazioni commercialipp

Analisi delle parolet d l i tili t T f

Dizionari Routines• metodologia utilizzata: Transfer• il cuore del sistema è composto

da ampi dizionari bilingui• non esiste un vero e proprio

Analisi delle frasi

P i

• non esiste un vero e proprio“modulo di transfer” (il trans-fer è realizzato da varie routine ingenerazione) Parsinggenerazione)

• Analisi morfo-sintattica parziale(shallow parsing) e “scor-ciatoie” per espressioni idioma-

Sintesi

Sostituzione Sistemazione

ciatoie per espressioni idiomatiche o parole composte.

• Semplice categorizzazione se-mantica (umano Vs. inumano),

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

( ),non gerarchica

Applicazioni commercialipp

METEOMETEORicerca nel

• produce bollettini meteo in inglese efrancese per tutto il Canadai b ll tti i t d d lt

Ricerca nel dizionario

• i bollettini standard sono moltocodificati (stile telegrafico) ed hanno

• un lessico limitato• la struttura delle frasi in inglese e

Analisi sintattica

• la struttura delle frasi in inglese efrancese è molto simile (approcciobasato sul transfer, ma moltolimitato)

Regole di generazionelimitato)

• sistema con task-specifico, dominiospecifico, opzioni di supporto perinterventi umani

generazione

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

interventi umani

Applicazioni commercialipp

ROSETTAROSETTA

• Metodologia utilizzata: Interlingua• Approccio semantico: Grammatica• Approccio semantico: Grammatica

di Montague (il significato di un’espres-sione è il risultato della composizione

• del significato delle sue componenti)del significato delle sue componenti)• Reversibilità: la stessa grammatica è usata per analizzare e generare le frasi• Isomorfismo: la stessa derivazione semantica deve essere ottenuta per avere

una traduzione

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

una traduzione

Applicazioni commercialipp

I Workbenches sono applicazioni com-ppmerciali di traduzione automatica, pensatiper traduttori professionisti.Le workbenches sono suite integrati con:g

• Word processors multilingue,• Controllori grammaticali e ortografici,• Termbancks,• Corpora paralleli e programmi di

allineamento dei testi,• Programmi di accesso e condivisione

di d i idi traduzioni.• Translation memories.

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale