Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e...

24
Nuove Tecnologie per la Traduzione Roma, Tor Vergata,LINFO Giuseppe Forte María Lozano Zahonero Sandra Petroni 2. I corpora, le basi di dati terminologiche e testuali, le memorie di traduzione e il processo traduttivo 05-04 09:00-11:00 T12B

Transcript of Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e...

Page 1: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la

Traduzione

Roma, Tor Vergata,LINFO Giuseppe Forte María Lozano Zahonero Sandra Petroni

2. I corpora, le basi di dati terminologiche e testuali, le memorie di traduzione e il processo traduttivo

05-04 09:00-11:00

T12B

Page 2: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Computer-Assisted Translation (CAT)

“Sistema di traduzione in cui il traduttore

professionista (e non una macchina) utilizza

applicativi software specificamente sviluppati per

facilitare e migliorare il processo di traduzione”

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Traduttore

MT

Memorie di traduzione

Terminologia

Dizionari

testoLP

testoLA

TRADUZIONE ASSISTITA

Ripasso

Page 3: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Strumenti CAT

Memorie di traduzione (Translation Memory, TM) Basi di dati terminologiche (TermBase, TB) Basi di dati testuali (TextBase) Programmi di allineamento (Aligners) Project Management Localizzazione

Garanzia di coerenza stilistica e terminologica Tempi di traduzione ridotti: produttività Personalizzazione e condivisione Interattività: rialimentazione e correzione Funzioni di pre-traduzione Ricerca e consultazione Integrazione con MT!

CORPUS!

Ripasso

Page 4: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Cos’è un corpus?

Linguistica dei corpora

Ambito della Linguistica applicata che si occupa dello studio di una lingua (di unità linguistiche) all’interno di un contesto, a partire da una raccolta di grandi quantità di dati (linguistici)

Corpus

Raccolta di testi in una o più lingue organizzati secondo una serie di criteri stabiliti precedentemente, con l’obiettivo di: • rappresentare una lingua in tutte le sue varianti linguistiche; • studiare una determinata lingua o un suo aspetto specifico. • Due tipi:

Testuali: lingua scritta Orali: lingua parlata con trascrizione ortografica e fonetica. Oppure, suoni senza trascrizione

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Brevemente

Page 5: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Classificazione

Secondo la grandezza: grande, multilingue,…

Secondo la specificità dei testi che contiene: specializzato, generico, cronologico, parallelo…

Secondo la quantità di testo nei documenti: testuali, documentali, lessicali…

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Utilità

Grandi quantità di informazioni Utilità linguistica (contesto=esempio) Studio statistico (frequenza)

Brevemente

Page 6: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Brevemente

Perché si utilizzano?

Grammatica Linguistica Applicata Terminologia Sociolinguistica Lessicografia e terminografia Traduzione …

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Gestione in formato digitale

1. Estrazione terminologica (TermBase)

2. Documentazione (TextBase)

3. Allineamento (Translation Memories)

Page 7: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Prepariamo un Corpus bilingue

Documenti (paralleli) Renamer Editor Converter

Organizzarli secondo diversi criteri (ambito, concetto, data, …) Rinominarli (IMPORTANTE: estensione linguistica da specificare) Rimuovere il “rumore” e convertirli (se necessario) Allinearli per poi importarli

EN ES

EN ES

Creo un

Corpus

Organizzo

i documenti

Allineo i

documenti

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

EN1

EN2

ES2

ES1

EN1

EN1

ES1

ES2

Page 8: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

1. Download documenti paralleli http://europa.eu/legislation_summaries/index_es.htm 2. Organizzo i documenti per tipologia e lingua e rinomino 3. Allineo

EN ES

EN ES

1. Creo un

Corpus

2. Organizzo

i documenti

EN1

EN2

ES2

ES1

3. Allineo i

documenti

EN1

EN1

ES1

ES2

Prepariamo un Corpus

IMPORTANTE Renaming: ai fini dell’allineamento Estensione (formato): pdf, doc, xml,

html… Estensione linguistica: en, es, it, zh, de,

ru, ar, (ISO)

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Page 9: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Strumenti CAT

I PROGRAMMI DI ALLINEAMENTO

Software che permettono di creare memorie di traduzione. Consistono nell’analisi del TO e del TA per determinare quali segmenti corrispondono tra di loro. I segmenti allineati sono poi inseriti in un file che verrà importato all’interno di una MT (tmx).

Importanti per alimentare le MT Interattività: correzione Condivisione: tmx, html, xml, etc. Analisi del testo: filtering e cleaning

Page 10: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

WinAlign di SDL Trados Strumenti CAT

Page 11: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Esempio file tmx

Translation Memory eXchange

Page 12: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Strumenti CAT

MEMORIE DI TRADUZIONE (Translation Memory):

Archivi digitali di frasi (segmenti) allineate in coppie di lingue che vengono riproposte automaticamente alla successiva occorrenza della stessa frase (exact match) o di frasi simili (fuzzy match). Contengono informazioni utili (metadati)

Garanzia di coerenza stilistica e terminologica Tempi di traduzione ridotti: produttività Personalizzazione e condivisione (classificazione per attributi, valori, etc. Formati condivisibili: TMX) Interattività: rialimentazione e correzione Funzioni di pre-traduzione Filtri per valori, attributi, etc… Diverse opzioni di ricerca di dati: exact match, fuzzy match, concordance (percentuale di precisione)

Page 13: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

MEMORIE DI TRADUZIONE

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Strumenti CAT

Page 14: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Strumenti CAT

BASI DI DATI TERMINOLOGICHE (TermBase):

Archivi digitali monolingui o multilingui di termini appartenenti a linguaggi settoriali contenenti diverse informazioni linguistiche (definizioni, sinonimi, correlazioni, contesto, etc) e organizzati secondo diversi criteri (ambito, concetti, etc.)

Garanzia di coerenza terminologica Consultazione rapida Personalizzazione e condivisione Interattività: rialimentazione e correzione Criteri di ricerca Integrabilità (automatica) nei progetti di traduzione Riconoscimento terminologico ed Export automatico (personalizzabile) Creazione di glossari/dizionari

Page 15: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

BASI DI DATI TERMINOLOGICHE Strumenti CAT

Page 16: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

BASI DI DATI TERMINOLOGICHE Strumenti CAT

Struttura di una scheda terminologica

Contiene dati terminologici sui concetti e una serie di informazioni utili alla gestione dei dati. Le informazioni variano a seconda della funzione e dei destinatari.

** <Autore> G.FORTE

<Cambiata da> M.ROSSI

<Progetto> NUOVE TECNOLOGIE

<Campo> INFORMATICA

<Subcampo> CAT

<Subcampo>

<ES> MEMORIA DE TRADUCCIÓN

<Cat-gram> sintagma

<Genere> f

<Numero> sg

<Definizione> def…

<Fonte> fonte…

<Contesto> contesto d’uso…

<IT> MEMORIA DI TRADUZIONE

<Cat-gram> sintagma

<Genere> f

<Numero> sg

<Definizione> def…

<Fonte> fonte…

<Contesto> contesto d’uso…

<EN> TRANSLATION MEMORY

<Cat-gram> sintagma

<Genere> f

<Numero> sg

<Definizione> def…

<Fonte> fonte…

<Contesto> contesto d’uso

**

Page 17: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Esempio di export

Page 18: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Strumenti CAT

BASI DI DATI TESTUALI (TextBase):

Archivi digitali di testi allineati in diverse lingue. Garanzia di coerenza stilistica e terminologica Consultazione rapida Organizzazione per ambito Personalizzazione e condivisione Interattività: rialimentazione e correzione Criteri di ricerca Individuazione della frase/terminologia nel contesto Repository di dati

Page 19: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

MULTITRANS Strumenti CAT

Page 20: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Creo un

Corpus

1. Dwonload documenti

2. Rename, check

format

EN1

EN1

ES1

ES2

Preparazione alla traduzione…

Allineamento (segments)

Term Extraction

Allineamento (texts)

Preparation

TM

TermBase

TextBase

WO

RK

BEN

CH

Reference

and

Translation

Brevemente

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Page 21: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

COMPETENZE:

Competenze informatiche medio/alte Conoscenza medio/alta dei programmi di video scrittura Conoscenza dei diversi formati: xml, html, txt, pdf Conoscenza di Editor Localizzazione Conoscenza dei motori di ricerca Aggiornamenti Installazione

Strumenti CAT

Page 22: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

http://www.translationzone.com/en/landing/sdl-trados-studio-trial/default.asp

Consigli:

SDL Trados Studio 2011 trial version (30days)

http://translate.google.com/toolkit

Google Translate Toolkit

http://youalign.com/AlignDocs.aspx

YouAlign

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Page 23: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Crea un corpus ed un allineamento

1. Costruisci un corpus Sito multilingue (UE, UN, ecc.) download, rename, ecc… Check

format 2. Realizza un allineamento con YouAlign ed esporta il file

tmx Una volta esportato, apri il file TMX con NotePad… dai un’occhiata al

codice!!!

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

Page 24: Nuove Tecnologie per la Traduzione - Tor Vergata · Terminologia Sociolinguistica Lessicografia e terminografia Traduzione … Nuove Tecnologie per la Traduzione G.Forte, M.Lozano,

Nuove Tecnologie per la

Traduzione

Nuove Tecnologie per la Traduzione G.Forte, M.Lozano, S.Petroni

3. Creazione di corpora, allineamenti e memorie di traduzione.

12-04 09:00-11:00

T12B

Domande?

[email protected]