un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  ·...

39
5 Corpora specializzate nella redazione/traduzione Guy Aston 1. Per non reinventare la ruota Quando c'è bisogno di scrivere o tradurre un testo, non vi viene mai in mente che qualcun altro potrebbe averlo già scritto o tradotto? O almeno un testo molto simile? O almeno un pezzo di testo simile, qualche segmento che si potrebbe eventualmente copiare/aggiustare? Questo capitolo farà un elogio del plagio, in cui affronteremo due problemi: la ricerca e la raccolta di testi in qualche modo simili a quello che vogliamo produrre la ricerca all'interno di una raccolta di questo tipo, di segmenti che ci potrebbero servire come modelli da imitare Ovviamente, conviene svolgere queste operazioni su testi in formato elettronico. Oltre a permettere ricerche ed analisi più veloci, permettono anche strategie di "taglia e incolla". Chiameremo una collezione di testi in formato elettronico, raccolta e classificata secondo determinati criteri, un CORPUS, e

Transcript of un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  ·...

Page 1: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

5 Corpora specializzate nella redazione/traduzione

Guy Aston

1. Per non reinventare la ruota

Quando c'è bisogno di scrivere o tradurre un testo, non vi viene mai in mente che qualcun altro potrebbe averlo già scritto o tradotto? O almeno un testo molto simile? O almeno un pezzo di testo simile, qualche segmento che si potrebbe eventualmente copiare/aggiustare? Questo capitolo farà un elogio del plagio, in cui affronteremo due problemi:

la ricerca e la raccolta di testi in qualche modo simili a quello che vogliamo produrre

la ricerca all'interno di una raccolta di questo tipo, di segmenti che ci potrebbero servire come modelli da imitare

Ovviamente, conviene svolgere queste operazioni su testi in formato elettronico. Oltre a permettere ricerche ed analisi più veloci, permettono anche strategie di "taglia e incolla". Chiameremo una collezione di testi in formato elettronico, raccolta e classificata secondo determinati criteri, un CORPUS, e nella prossima sezione verranno illustrati dei metodi per compilare dei corpora. Prima, tuttavia, cerchiamo di chiarire a che cosa possano servire corpora di testi nella redazione e nella traduzione.

I due corpora che utilizzeremo a questo scopo contengono testi riguardanti la ceramica artistica. Il primo raccoglie dei testi in italiano, il secondo dei testi in inglese. Li utilizzeremo con tre finalità principali:

per identificare la terminologia tecnica italiana di questo settore, per poi trovare i corretti equivalenti in inglese di

Page 2: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

questi termini. Avremo così a disposizione glossari monolingue e bilingue da utilizzare nella produzione, revisione, e traduzione di testi che riguardano questo settore

per formulare delle ipotesi su possibili modi di comunicare determinati concetti

per controllare l’appropriatezza delle nostre ipotesi di scrittura e di traduzione in momenti di incertezza

2. Un corpus italiano sulla ceramica artistica

Cosa sapete della ceramica artistica? Se ne sapete quanto me (cioè pochissimo), saprete che bisogna prendere dell'argilla, modellarla e dipingerla nel modo desiderato, e cuocerla in un forno. Ma non conosco nulla dei dettagli di questi processi e dei loro nomi, né degli strumenti che vengono usati. In primo luogo, cerchiamo di allargare le conoscenze con l’aiuto di un corpus già preparato di testi italiani sulla ceramica artistica.

Fig. 5.1. Ceramica artistica

Page 3: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Andate al sito http://sst.sslmit.unibo.it, Scrivere per farsi capire, capitolo X, e scaricate sul vostro desktop il file pots.zip

Estraete i contenuti del file .zip. Dovrebbe crearsi una cartella “pots” sul vostro desktop, che contiene due sottocartelle en e it

Andate al sito http://www.antlab.sci.waseda.ac.jp/software.html, e scaricate sul vostro desktop l’ultima versione del programma AntConc

Fate doppio clic sul file scaricato (al momento della scrittura l’ultima versione per Windows si chiamava antconc3.2.4.exe) per avviare il programma

Come prima cosa, bisogna specificare il corpus che AntConc dovrà analizzare.

Dal menu File, scegliete OpenDir. Trovate la cartella pots sul desktop, e al suo interno

selezionate la cartella it. Cliccate su OK.

Page 4: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Fig. 5.2. AntConc: file selezionati

Verranno elencati tutti i file contenuti nella cartella. In fondo all'elenco vedrete l'indicazione Total No., che dovrebbe corrispondere a 350 file.

Come prima cosa, facciamo un analisi del lessico usato nel corpus.

Cliccate sulla scheda Word List. Sotto Display Options, barrate la casella Treat all data as lower case. Cliccate su Start, e aspettate che AntConc elabori i dati.

Verrà visualizzato un elenco di tutte le parole diverse presenti nel corpus, con le loro frequenze. Sono elencati secondo la frequenza, in ordine discendente: la prima parola (quella più frequente) è di, con quasi 10.000 occorrenze. Sopra l’elenco vedrete il numero totale di parole diverse (TYPES: 17.000 ca.), e il numero totale di parole nel corpus (TOKENS: 220.000 ca.)

Page 5: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

A prima vista, l’elenco non sembra particolarmente interessante, essendo composto soprattutto da parole “funzionali” – articoli, preposizioni, congiunzioni, verbi ausiliari. Scorrendo l’elenco, la prima parola pertinente al dominio della ceramica sembra proprio ceramica, con 1100 occorrenze, seguita da cottura e argilla.

Cliccate sulla parola argilla.

Verranno visualizzate tutte le occorrenze di argilla nel corpus, ciascuna con una riga di contesto, nella forma di una concordanza (CONCORDANCE). Essendovi più di 800 righe, non è facile capire granché: ma se guardate la prima schermata, vedrete che si parla di una palla di argilla, di un pane d’argilla, di blocchi di argilla, di colombini di argilla.

Quali altri pezzi di argilla sono nominati? E quali sono nominati più spesso, e pertanto probabilmente i più importanti per capire qualcosa della ceramica artistica? Potrete cercare di scorrere tutte le 800 righe, ma per rendere agevole l’analisi, conviene ordinarle in modo da raggruppare quelle che contengono le medesime sequenze di parole accanto alla parola argilla. Per esempio, per vedere le varie espressioni che comprendono di/d’argilla, dobbiamo ordinare le righe secondo le parole a sinistra di argilla.

Sotto Kwic Sort, Level 1, scegliete il valore 1L. Questo

significa che vogliamo ordinare le righe secondo la prima parola a sinistra (L(eft)) di argilla. (AntConc considera gli spazi e i segni di punteggiatura come separatori di parole).

Sotto Kwic Sort, barrate la casella posta a sinistra di Level 2. Poi scegliete per questo livello il valore 2L. Questo significa che vogliamo ordinare le righe che contengono la medesima prima parola a sinistra di argilla a secondo della seconda parola che la precede.

Cliccate su Sort.

Vedrete che tutte le righe sono state riordinate secondo le due parole che precedono argilla.

Scorrete la concordanza fino a raggiungere d’ argilla. Quali sequenze di parole si ripetono (Fig. 5.3)?

Page 6: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Fig. 5.3. Concordanza di argilla, ordinata secondo 1L e 2L

Sembra che l’argilla possa essere in forma di bastoncino/i, blocco, cordoni, palla, pane, pezzo/i, rotolino, o scarti.

Se siete furbi, andrete a controllare anche le combinazioni con di argilla. Trovate qualche altra forma da aggiungere all’elenco?

Troverete blocchi, palla, pani; nonché colombini, impasto/i, sfoglie ed altri.

Nel passaggio fra d’argilla e di argilla, forse avrete notato che è frequente anche la sequenza dell’argilla.

Page 7: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Guardando le righe con dell’argilla, noterete una serie di termini che sembrano riferirsi a processi nella ceramica artistica – colata (anche colaggio) dell’argilla, cottura, decantazione, ecc. Ce ne sono altri?

Troverete lavorazione, modellazione, preparazione ed altri.

Fra i termini che abbiamo trovato finora, ce n’è almeno uno che probabilmente non conoscevate: colombini. Sembra un termine abbastanza frequente, nelle combinazioni colombini di/d’ argilla. Ma cosa sono i colombini, e in quali processi vengono utilizzati?

Creiamo una concordanza per le parole colombino/i. AntConc offre due modi per farlo. Possiamo tornare al Word List, e cliccare sulla parola che cerchiamo. Sarà più facile trovarla se ordiniamo l’elenco in ordine alfabetico invece di in ordine di frequenza.

Nella scheda Word List, sotto Sort by, cliccate su Sort by Freq (la scelta attuale), e dal menu selezionate Sort by Word. Poi cliccate su Sort.

L’elenco sarà riordinato in ordine alfabetico. Non è necessario scorrerlo finché non arrivate a colombini (nella posizione 2960 circa!).

Sotto Search term digitate colombini e cliccate su Start. Quante occorrenze ci sono di colombini nel corpus?

E di colombino? Cliccate su colombino per generare una concordanza di questa parola.

Utilizzando sempre le medesime opzioni (Kwic Sort Level 1: 1L, Level 2: 2L), ordinate le righe della concorordanza cliccando su Sort. In quali processi viene utilizzato il colombino?

E’ chiaro che la tecnica del colombino viene impiegata nella modellazione a colombino. Ma cos’è il colombino? Non vi preoccupate: in un corpus specializzato, capita spesso trovare delle definizioni dei termini tecnici del settore.

Scorrete gli esempi di tecnica del colombino. Ci sono delle righe che sembrano far parte di una definizione?

Page 8: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Cliccate sulla parola colombino in una di queste righe. Vedrete il contesto da dove proviene quella riga, che potete leggere per esteso, come nella Fig. 5.4.

Fig. 5.4. Una definizione della tecnica del colombino

Per uscire da questo File view e tornare alla concordanza precedente, cliccate sulla scheda Concordance. (Se vi servono altre informazioni per capire cos’è la tecnica del colombino, cliccate poi sulla parola colombino in un’altra riga che contiene la sequenza tecnica del colombino per vedere un altro File view.)

Page 9: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Abbiamo visto come l’analisi di un corpus specializzato con AntConc permette di ottenere informazioni relative alla terminologia del settore e ai suoi usi, nonché ad altri termini simili o collegati. Ad esempio, avrete forse notato che un colombino può anche essere chiamato lucignolo. Scorrendo il vostro Word List alfabetico (in posizione 8720 ca.), potrete notare che lucignolo è poco frequente (occorre solo 9 volte nel corpus), e se generate una concordanza, vedrete che in quasi tutte queste occorrenze viene presentato come un termine alternativo a colombino. Si può quindi desumere che colombino è il termine “standard”.

In una delle righe della concordanza di lucignolo, noterete che viene presentata anche un’ulteriore termine equivalente a colombino/lucignolo, ossia baco. Per generare una concordanza di questa parola, adottiamo una seconda tecnica, che non richiede il ricorso al Word List.

Nella scheda Concordance, sotto Search Term, inserite la stringa bac* e cliccate su Start. Questa stringa corrisponde a qualsiasi parola che inizia con le lettere bac, e quindi troverà sia occorrenze di baco, sia di bachi, sia di eventuali diminutivi o accrescitivi.

Vedrete che fra i vari bacini e bacinelle, non sembrano esservi altri esempi che contengono forme della parola baco.

Guardando il File view riprodotto nell’immagine sopra (Fig. 5.4), noterete che fa riferimento a i c.d. colombini. Questo potrebbe darvi un’idea per trovare altri termini tecnici definiti all’interno del corpus, cercando le espressioni cosiddetto/i/a/e oppure c.d.

Generate una concordanza di c.d. come search term. Quali altri termini scoprite? Poi generate una concordanza di cosiddett*

Che cosa vuol dire il termine biscotto?

Generate una concordanza per questo termine e ordinatela secondo le parole che lo precedono, utilizzando File View dove serve vedere un contesto più grande. Se fate la vostra ricerca per biscott* (l’utilizzo dell’asterisco è sempre una buona idea

Page 10: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

quando cercate un termine nuovo), scoprirete che esiste anche il verbo biscottare.

Esplorando il Word list, e guardando le concordanze di termini presenti in esso, nonché guardando le concordanze di parole che si associano a definizioni di termini, come cosiddetto, abbiamo trovato vari termini centrali della ceramica artistica. Continuando a lavorare in questa maniera, sarebbe facile arrivare ad un centinaio di termini, che potrebbero permetterci – utilizzando i consigli di scrittura forniti negli altri capitoli di questo volume – di redigere una piccola introduzione di 2-3 pagine alla ceramica artistica.

Ma poniamo il problema di voler anche tradurre la nostra piccola introduzione in inglese. Quali sono gli equivalenti inglesi dei termini che abbiamo appena identificati nell’italiano?

Finora avete lavorato con un corpus italiano già preparato. Adesso imparerete a costruire un vostro corpus di testi inglesi, sempre riguardanti la ceramica artistica. Lasciate aperto AntConc con il corpus italiano – vi servirà per poter fare dei confronti con il corpus inglese che state per creare.

3. Creazione di un corpus inglese

In questa sezione utilizzeremo BootCaT, un programma che permette di compilare automaticamente dei corpora su un dato argomento in una determinata lingua dall’Internet, sfruttando il motore di ricerca Bing. Sviluppato presso la Scuola Superiore di Lingue Moderne per Interpreti e Traduttori a Forlì, BootCaT è scaricabile gratuitamente per fini non-commerciali. Ma per poterlo utilizzare, dovete prima disporre di un cosiddetto AppId su Bing.

Un AppId è una specie di password individuale (gratuito) che bisogna richiedere alla Microsoft: è una lunga stringa di lettere e numeri che non potete modificare.

Passate al vostro browser, e andate a http://www.bing.com/developers. Sotto Getting started, cliccate su Create your AppId.

Page 11: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Se non disponete già di un account Hotmail, cliccate su Sign up e fornite i dettagli richiesti. Fra pochi minuti dovrete ricevere un e-mail con un link per confermare il vostro account “Windows LiveID”. Se avete già un account Hotmail, il vostro Username su Hotmail costituisce un Windows LiveID.

Nella pagina di Bing, inserite i vostri dati LiveID sotto Sign in, poi cliccate su Sign in.

Nella pagina Bing webmaster, cliccate su Add. Riempite il modulo, mettendo BootCaT come Application

name, e corpus builder come Descrizione. Aggiungete i vostri dettagli e cliccate su Agree.

Si tornerà alla pagina precedente, ove troverete elencato BootCaT, insieme all’AppID che vi è stato attribuito da Microsoft. Se necessario, cliccate su Enable.

Copiate e salvate il vostro AppID in un luogo dove lo saprete ritrovare: vi servirà nella prossima fase di questo esercizio.

Uscite da Bing.

Come prossima mossa, bisogna preparare una lista di espressioni che potrebbero essere presenti nei testi che vorremo includere nel vostro corpus, e che probabilmente non saranno presenti in testi di altri tipi. Per l’italiano, abbiamo già incontrato una serie di espressioni specifiche al settore della ceramica artistica: argilla, biscotto, tecnica del colombino, ecc. Quali potrebbero essere gli equivalenti di queste espressioni in inglese? Un buon inizio può essere dato da Wikipedia, che sotto Ceramic art offre l’introduzione seguente:

In art history, ceramics and ceramic art mean art objects such as figures, tiles, and tableware made from clay and other raw materials by the process of pottery. Some ceramic products are regarded as fine art, while others are regarded as decorative, industrial or applied art objects, or as artifacts in archaeology. They may be made by one individual or in a factory where a group of people design, make and decorate the ware. Decorative ceramics are sometimes called "art pottery".

The word "ceramics" comes from the Greek keramikos (κεραμικος), meaning "pottery", which in turn comes from keramos (κεραμος), meaning "potter's clay." Most traditional ceramic products were made from clay (or clay mixed with other materials), shaped and subjected to heat, and tableware and decorative ceramics are generally still made this way. In modern ceramic engineering usage, ceramics is the art and

Page 12: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

science of making objects from inorganic, non-metallic materials by the action of heat. It excludes glass and mosaic made from glass tesserae.

There is a long history of ceramic art in almost all developed cultures, and often ceramic objects are all the artistic evidence left from vanished cultures, like that of the Nok in Africa over 2,000 years ago. Cultures especially noted for fine ceramics include the Chinese, Cretan, Greek, Persian, Mayan, Japanese, and Korean cultures, as well as the modern Western cultures.

Elements of ceramic art, upon which different degrees of emphasis have been placed at different times, are the shape of the object, its decoration by painting, carving and other methods, and the glazing found on most ceramics.

Fig. 5.5. Ceramic art in Wikipedia

Leggete questo testo, e sottolineate le espressioni inglesi che secondo voi potrebbero caratterizzare dei testi inglesi che trattano la ceramica artistica.

Fra le espressioni che avete scelto, ci sono probabilmente ceramics, ceramic art, pottery, clay, ware, decorative ceramics, art pottery, heat, shape, decoration, painting, carving, glazing. Alcune di queste espressioni, come heat, shape, decoration e painting, sono usati in molti altri domini, e pertanto potrebbero essere contenuti anche in molti testi che non ci interessano. Pertanto limitiamo il nostro elenco alle espressioni ceramic art, pottery, clay, ware, decorative ceramics, art pottery, carving, glazing.

Ora andate al sito http://BootCaT.sslmit.unibo.it/?section=download e

scaricate BootCaT, scegliendo Complete Installation. Installate il programma sul vostro computer (compreso StrawberryPerl). (Dovete avere i diritti di amministratore sul vostro computer: se non li avete, vi consigliamo di passare direttamente alla sezione 4 di questo capitolo.)

Una volta completata l’installazione, dovrete trovare un’icona BootCaT front-end sul vostro Desktop.

Fate doppio clic su BootCaT front-end. (E’ possible che venga richiesto un aggiornamento dell’installazione Java presente sul vostro computer: in tal caso seguite le istruzioni, poi avviate BootCaT di nuovo.)

Page 13: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Leggete le istruzioni. Poi cliccate su Next. Sotto Corpus name, date un nome al vostro progetto, ad

esempio Ceramic art. Sotto Language, specificate English. Cliccate su Next per passare alla prossima fase della

procedura, nella quale dovrete specificare i SEED da utilizzare nella ricerca dei testi, ossia le varie espressioni che avete scelto precedentemente.

Scrivete i vostri seed nella finestra, uno per riga (Fig. 5.6).

Fig. 5.6. BootCaT: Elenco dei seed

Barrate la casella I’m done editing seeds e cliccate su Next. (Se non vedete il bottone Next, deselezionate I’m done editing seeds e poi selezionatelo di nuovo.)

Nella prossima fase, BootCaT genera delle combinazioni casuali dei vostri seed (le combinazioni si chiamano TUPLES), da utilizzare in varie ricerche di testi sulla rete.

Page 14: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Sotto N. of tuples, specificate 25 (se il corpus risulterà troppo piccolo, potete tornare ad aumentarlo). Poi cliccate su Generate tuples.

Vedrete una lista delle varie combinazioni dei seed che BootCaT propone di utilizzare nella ricerca.

Se c’è qualche combinazione che non vi convince in quanto non sufficientemente specifica alla ceramica artistica, potete deselezionarla. Poi cliccate su Next.

Vi verrà chiesto di inserire il vostro Bing AppId.

Scrivete o incollate il vostro Bing AppId nello spazio indicato. Se state utilizzando un vostro computer personale, barrate anche la casella Remember AppId on this computer, così la prossima volta che utilizzate BootCaT non dovrete ribatterlo. Poi cliccate su Next.

Nella prossima fase, BootCaT cerca su Internet dei documenti corrispondenti per ciascun tuple nella lista.

Cliccate su Collect URLs, e aspettate che la striscia marrone arrivi a 100%. Poi cliccate su Next.

Controllate il numero complessivo di URL trovate (per avere un corpus ragionevolmente grande, devono essere almeno 100: se non lo sono, tornate indietro ed aumentare il numero dei tuples).

Scorrete l’elenco degli URL per vedere se ci sono siti che vorrete evitare, o che preferirete verificare prima di includere questi documenti nel vostro corpus.

Fra i siti da evitare, ci potrebbero essere siti non affidabili da un punto di vista linguistico (scritti da persone che non conoscono bene l’inglese), siti non affidabili da un punto di vista tecnico (scritti da persone che non son esperti del settore, ad esempio i blog), siti non affidabili da un punto di vista contenutistico (ad es. siti pornografici).

Deselezionate tutti gli URL che non vi convincono (se volete controllare, basta cliccare sul URL per vedere il documento). Poi cliccate su Next.

Page 15: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Cliccate su Build corpus ed aspettate che siano state scaricate tutte le pagine selezionate. Questa operazione può richiedere da 5 a 30 minuti, a seconda del numero delle pagine e della velocità della vostra connessione, quindi è un buon momento per prendere un caffé.

Verrà indicato il percorso del folder dove è stato salvato il corpus. Prendete nota di questo percorso, che dovrete specificare quando vorrete analizzare il corpus con AntConc.

Cliccate su Open corpus folder per controllare che esista il file corpus.txt, e che le sue dimensioni siano adeguate (non inferiore a 800kB: se è troppo piccolo, dovrete tornare indietro ed aumentare il numero di tuples).

Chiudete la finestra del corpus folder e tornate a BootCaT, poi cliccate su Finish e poi su Yes per uscire dal programma.

Congratulazioni! Avete costruito un corpus vostro di testi in inglese sulla ceramica artistica. Adesso analizziamolo, confrontandolo con il corpus italiano.

4. Analisi del corpus inglese

Siccome BootCaT sfrutta alcune scelte random nella creazione dei corpora, e i contenuti del Web sono in continua evoluzione, il corpus che avete appena creato sarà unico nei suoi contenuti. Pertanto se svolgerete gli esercizi in questa e nella prossima sezione utilizzando il vostro corpus, i risultati saranno diversi da quelli presentati qui, che si basano su un nostro corpus generato con le medesime tecniche nel momento di stesura di questo capitolo. Se vi sentite poco sicuri, potrete utilizzare il nostro corpus per svolgere questi esercizi – il nostro corpus dovrebbe essere già stato scaricato sul vostro computer – ma usare il vostro sarà senz’altro più interessante!

Avviate una seconda copia di AntConc. Dal menu File, selezionate Open File(s). Per utilizzare il vostro corpus, andate alla cartella che vi è

stata indicata da BootCaT come corpus folder (se avete dimenticato il percorso, dovrebbe terminare con …\BootCaT Corpora\Ceramic Art). Selezionate il file corpus.txt, e cliccate su Apri.

Page 16: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Se volete invece utilizzare il nostro corpus predisposto per questo esercizio, andate alla cartella sul desktop pots\en. Scegliete il file corpus.txt, e cliccate su Apri. (Se siete bravi a gestire contemporaneamente molte finestre, nulla vieta di avviare anche una terza copia di AntConc, in modo di svolgere questo esercizio contemporaneamente sia col vostro corpus sia col nostro.)

Cliccate sulla scheda Word List, barrate Treat all data as lower case, e cliccate su Start per generare un Word List del corpus inglese.

Quanti type e quanti token contiene? Più o meno del corpus italiano (che dovrete aver ancora aperto in un’altra finestra)?

Il nostro corpus contiene circa 13000 type e 150000 token – quindi un po’ meno del corpus italiano. E il vostro corpus?

Quali sono le parole lessicali più frequenti? Scorrendo le prime 20-30 parole, riconoscete un possibile equivalente ad argilla?

Cliccate su clay per ottenere una concordanza. Vi sembra clay un equivalente di argilla? Quante occorrenze ci sono? Quanti erano le occorrenze di argilla nel corpus italiano?

Nel nostro corpus, clay ha un numero di occorrenze molto simile a quello di argilla (un po’ più di 800). Pertanto sembra probabile che i due termini abbiano usi simili.

Per controllare meglio, guardate se le parole che si ritrovano prima e dopo di clay nel corpus inglese (i COLLOCATI di clay) sembrano equivalenti ai collocati di argilla nel corpus italiano. Ad esempio, vi ricorderete che in italiano avevamo trovato blocchi/colombini e pezzo/palla di/d’argilla.

Nella finestra della concordanza di clay, scegliete 1L sotto Kwic Sort Level 1 e 2L sotto Kwic Sort Level 2, e cliccate su Sort per ordinare la concordanza in base alle due parole a sinistra di clay.

Scorrete la concordanza finché non trovate la sequenza of clay: notate dei possibili equivalenti inglesi dei collocati di argilla?

Troverete ball/balls of clay, coils of clay, layer of clay, lump of clay, slabs of clay. Dovrete riconoscere almeno la prima come equivalente ad un collocato italiano!

Page 17: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Se scorrete l’intera concordanza prima e dopo le righe con of clay, noterete anche una serie di aggettivi che indicano tipi di argilla. Fra i più frequenti ci sono china, earthenware, fire, fired, granulated, liquid, Mexican, modelled, natural, pottery, red, potter’s, stoneware, white …. Sapete cosa sono? E i loro equivalenti in italiano? Li potete cercare nel corpus italiano, ordinando la vostra concordanza di argilla a secondo delle parole che lo seguono (1R e 2R: al contrario dell’inglese, in italiano gli aggettivi seguono i sostantivi!)

Fra le espressioni inglesi in questa lista che potrebbero esservi sconosciute c’è earthenware. Possiamo utilizzare i nostri corpora per scoprire cos’è, e poi per cercare l’equivalente italiano.

Generate una concordanza per earthenware, e ordinate le righe in base alle parole precedenti (1L, 2L).

Fra le occorrenze elencate, troverete varie righe con include/including che indicano che earthenware è un tipo di ceramica, contrastato con stoneware e porcelain.

Ordinate poi le righe secondo le parole successive (1R, 2R).

Vedrete varie occorrenze di earthenware clay e di earthenware is: queste ultime introducono varie spiegazioni, dalle quali si apprende che l’earthenware può essere fatto da vari tipi di argilla, è di facile lavorazione, viene cotto a basse temperature, che è più o meno rosso di colore, è che – solitamente – è glazed (se non conoscete il significato di questo termine, abbiate pazienza: lo scoprirete prima di concludere di leggere questo capitolo).

Ma qual è l’equivalente in italiano? Vorremo cercarlo nel corpus italiano, ma cosa dobbiamo cercare?

Quando non si sa quale parola cercare, una buona strategia può essere di cercare dei collocati che conosciamo. Sapendo che l’earthenware è red, possiamo cercare la parola italiano rosso e guardare quali tipi di ceramica viene usato a descrivere.

Sotto Search term nel corpus italiano, digitate ross* e cliccate su Start.

Ci sono 390 occorrenze – troppe per scorrere facilmente, ma guardate la prima in File view.

Page 18: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Scoprirete che:

Le TERRECOTTE sono ceramiche con colorazione variabile dal giallo al rosso mattone, con alta porosità. Sono ottenute per cottura in ambiente ossidante ad una temperatura compresa tra i 880 e 1000 gradi C.

Terrecotte potrebbe essere l’equivalente di earthenware?Ovviamente, per valutare questa ipotesi dobbiamo fare delle

ricerche ulteriori.

Generate una concordanza di terr*cott* La prima riga è sempre quella appena vista. Ordinate la

concordanza secondo le parole successive (1R, 2R) e guardate le stringhe con almeno tre occorrenze.

Troviamo:

terracotta: argilla cotta fra 900 terracotta comune terracotta invetriata terracotta o coccio terracotta è …

Ordinate la concordanza secondo la parole predecenti (1L, 2L). Ignorando le ricorrenze che coinvolgono più frasi, si trovano

meno porosa della terracotta tipi di ceramiche principali sono la terracotta sono tipicamente le terraglie, le maioliche e le terracotte

Con entrambi gli ordinamenti spunta all’occhio una bella lista di categorie di ceramica, con terracotta nel bel mezzo:

(porcellana, grès, terracotta comune, maiolica, terraglia)

Pertanto un possibile equivalente italiano di earthenware sembrerebbe terracotta, o forse terracotta comune, oppure forse coccio. Svolgiamo subito un’analisi di quest’ultimo.

Generate una concordanza di cocci*

Page 19: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Ci sono poche occorrenze di coccio, quasi tutti nella combinazione terracotta/e o coccio. Pertanto possiamo dedurre che l’equivalente tipico di earthenware sia terracotta oppure terracotta comune.

E qual è l’equivalente in italiano di earthenware clay (la collocazione originale che abbiamo trovato analizzando la nostra concordanza di clay)?

Nella nostra concordanza di terr*cott*, manca qualsiasi forma tipo argilla da/per terracotta. Ma ricorderete che parlando sia dell’argilla, sia della terracotta, abbiamo trovato a volte l’aggettivo comune.

Generate una concordanza per comune, e focalizzatevi sulle occorrenze di argilla comune e terracotta comune.

Scoprirete che queste righe contengono un’altra (pseudo-)definizione:

La terracotta è realizzata con argilla comune.

Finalmente, forse, abbiamo trovato l’equivalente giusta di earthenware clay. E’ stato un percorso un po’ lungo, ma c’è un morale della favola. Cerchiamo di riassumere.

1. Leggendo le righe di una concordanza, e guardando anche i contesti più estesi, si trova spesso una definizione per un termine sconosciuto.

2. Se avete un’ipotesi riguardo ad un equivalente nell’altra lingua, basta cercare questo equivalente nel corpus di quella lingua, e controllare poi che abbia un uso analogo – che proviene da contesti analoghi, e che abbia dei collocati simili (la procedura che abbiamo utilizzato per argilla = clay).

3. Se invece non avete alcuna ipotesi su un possibile equivalente, lo si potrà spesso trovare seguendo la procedura che abbiamo utilizzato per earthenware: a) identificate uno o più collocati del termine nella lingua di

partenza, dei quali credete di sapere l’equivalente (per earthenware, abbiamo identificato il collocato red = rosso)

b) generate una concordanza dell’equivalente di questo collocato nella lingua d’arrivo

c) cercate, all’interno di questa concordanza, dei possibili equivalenti del termine che vi interessa. (Se non vedete

Page 20: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

equivalenti o non ne siete soddisfatti, tornate al punto (a) e cercate altri collocati del termine che vi interessa)

d) generate una concordanza per l’equivalente ipotizzato (earthenware = terracotta) e controllate che abbia degli usi analoghi a quelli del termine originale. Se non vedete usi analoghi a quello che cercavate (per earthenware clay non c’erano occorrenze analoghe di argilla da/per terracotta), tornate al punto (b) e generate una concordanza per un possibile collocato nella lingua d’arrivo (comune) nel tentativo di formulare una nuova ipotesi da valutare.

Questa procedura è rappresentata graficamente nella Fig. 5.7.

Avete un'ipotesi di un equivalente in lingua di arrivo dell'espressione X in lingua di partenza?

| |SI’ NO | |

Generate una concordanza Generate una concordanza dell'equivalente ipotizzato di X in lingua di partenza e- Ha la medesima denotazione di X? identificate i suoi collocati (Y).- Viene usato nei medesimi contesti? Avete un'ipotesi di un

equivalente- Ha dei collocati equivalenti? di qualche Y in lingua

d'arrivo? | | | |SI’ NO SI’ NO | | | |

Usatelo! Tornate all’inizio | Leggete qualche contesto esteso | in File view e tornate all'inizio

|Generate una concordanzadell'equivalente di Y ipotizzato. Guardate i collocati dell'equivalente di Y. C'è un collocato dell'equivalente di Y che potrebbe essere l'equivalente di X? | |SI’ NO | |

Generate una concordanza Leggete qualche contesto esteso

di questo collocato per in File view e tornate all’inizio

Page 21: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

verificare l’equivalenza con X

Fig. 5.7. Ricerca di espressioni equivalenti in corpora comparabili

Nella prossima sezione, seguiremo questa procedura per risolvere alcuni problemi di traduzione dall’inglese in italiano

5. I corpora nella traduzione

Dovete tradurre un breve testo inglese preso da Wikipedia. Per farlo, utilizzeremo i nostri due corpora. Non verranno presentate tutte le istruzioni dettagliate per l’utilizzo di AntConc, ma si descriveranno i risultati che anche voi dovrete ormai essere in grado di ottenere per conto vostro.

Faience or faïence is the conventional name in English for fine tin-glazed pottery on a delicate pale buff earthenware body, originally associated with Faenza in northern Italy. The invention of a white pottery glaze suitable for painted decoration, by the addition of an oxide of tin to the slip of a lead glaze, was a major advance in the history of pottery. The invention seems to have been made in Iran or the Middle East before the ninth century. A kiln capable of producing temperatures exceeding 1000°C was required to achieve this result, the result of millennia of refined pottery-making traditions. The term is now used for a wide variety of pottery from several parts of the world, including many types of European painted wares, often produced as cheaper versions of porcelain styles.

Non c’è spazio per discutere tutti gli eventuali problemi che la traduzione di questo testo potrebbe porre, per cui ci limiteremo a considerare due segmenti:

1. Faience or faïence is the conventional name in English for fine tin-glazed pottery on a delicate pale buff earthenware body

2. By the addition of an oxide of tin to the slip of a lead glaze

Alcuni dei termini equivalenti italiani dovreste già conoscerli in base al lavoro delle sezioni precedenti (pottery = ceramica, earthenware = terracotta). Nel primo segmento, potrebbero invece essere problematici faience, tin-glazed, pale buff, e body. Sappiamo che la descrizione riguarda la ceramica faience, e ci vuole poco per immaginare che potremmo trovare alcuni

Page 22: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

riferimenti ad essa cercando nel corpus italiano parole quali faenza/e, faentino/a/i/e.

Nel corpus italiano, generate una concordanza per faen*

Una delle prime occorrenze, vista nel File view, ci da le informazioni seguenti:

Un particolare tipo di maioliche sono le faenze, che sono le maioliche del paese omonimo. Dopo una prima cottura del biscotto la maiolica viene ricoperta con smalti opachi bianchi, a base di piombo e stagno, e cotta una seconda volta a 900°C.

Leggendo questo estratto abbiamo già risolto il primo problema nella nostra traduzione: l’equivalente italiano di faience è faenze. Questo estratto ci dà anche un’idea per tin-glazed – si tratta di ceramiche con smalto a base di stagno (ma torneremo a considerare la sua traduzione in maggior dettaglio nella sezione 6 di questo capitolo).

Scorrendo ulteriormente la concordanza, troviamo

Se alla terracotta comune (detta in questo caso biscotto) si applica un rivestimento, si produce la seconda grande classe delle ceramiche, quelle delle faenze, la cui varietà più nota è la maiolica. Le altre sue suddivisioni corrispondono ai vari tipi di rivestimento (terrosa o metallico, opaco o trasparente).

Guardando i risultati di una ricerca, particolarmente se scorriamo il contesto esteso, succede spesso di incontrare delle soluzioni a problemi posti in altri punti della medesima traduzione. Se leggete anche la frase che precede l’estratto precedente, scoprirete che:

Il rivestimento terroso (che richiede un successivo involucro metallico per dare impermeabilità all'oggetto), detto da noi ingobbio, bianchetto, mezzamaiolica (voce questa che denota piuttosto una fase intermedia fra le due tecniche, con l' aggiunta cioè di una piccola quantità di ossido di stagno per rendere più ricco l' ingobbio), vien detto in fr. engobe, sp. englaba, ted. Halbamiolika, ing. slip.

Qui si scopre che l’equivalente italiano di slip nel secondo segmento potrebbe essere ingobbio o bianchetto. Se utilizzate il

Page 23: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

corpus italiano per generare delle concordanze per questi due termini, scoprirete la seguente definizione di ingobbio:

Ingobbio: argilla cremosa di colore naturale o colorata con ossidi metallici. Si applica sulla superficie dell'oggetto allo stato di durezza cuoio per modificare il colore dell' argilla sottostante.

Invece la ricerca per bianchetto ci dice che:

Anticamente si usava applicare sulle terrecotte un rivestimento alcalino, oppure produrre ceramica "ingobbiata" con un sottile strato bianco di terra sul pezzo crudo e un'altra superficie impermeabilizzante, detta "bianchetto". Oggi, invece, i rivestimenti si fanno con vernici piombifere trasparenti sugli impasti teneri, e vernici a base di borace e feldspato per le porcellane, ma anche con gli smalti che possono essere colorati diversamente con ossidi metallici.

Questo ci fornisce quindi un’ipotesi per la traduzione di slip of a lead glaze, ossia ingobbio piombifero. Tuttavia, non troviamo occorrenze di questa espressione nel corpus italiano. (Un corpus può risolvere gran parte dei problemi del traduttore ma non tutti: qui abbiamo forse una domanda da fare all’esperto di turno!) Ma non abbandonate ogni speranza - c’è un’altra occorrenza di ingobbio che ci spiega quanto segue:

Poiché la terracotta è in genere porosa, il prodotto ceramico richiede un rivestimento in funzione impermeabilizzante. In origine allo scopo si levigavano e brunivano i pezzi, ma in seguito si ebbero rivestimenti e coperte vitree; una vernice composta di sabbie silicee e ossido di piombo (vetrina piombifera), o un composto di piombo accordato con lo stagno (smalto stannifero), o con un velo di terra bianca (ingobbio).

In assenza dell’esperto (che manca anche a chi scrive), potremmo optare per la parafrasi “composto di piombo accordato con un velo di terra bianca (ingobbio)” come traduzione di slip of a lead glaze.

Tornando al primo segmento, passiamo a generare una concordanza di buff:

The iron-content of the clay used for earthenware gives a colour which ranges from buff to dark red, or even cream, grey or black,

Page 24: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

according to the amount present and the atmosphere (notably the oxygen content) in the kiln during firing.

Da questo estratto possiamo dedurre che buff indica un colore (un colore divcrso dal rosso scuro, panna, grigio e nero). Per capire di quale colore si tratta, basta digitare buff in Google Images (Fig. 5.8: anche se riprodotto in bianco e nero, vi potrà rendere l’idea).

Fig. 5.8. Esempio di buff in Google images

La traduzione in italiano di pale buff non dovrebbe, a questo punto, porre particolari problemi.

Dei problemi identificati nel primo segmento rimane la traduzione di body. Qui c’è un’ipotesi evidente, ossia corpo. Ma questa parola viene usata come termine in italiano nel campo della ceramica? Una concordanza di corp* trova 180 occorrenze, dei quali la maggior parte sembra riferirsi ad artefatti (piuttosto che a persone, font tipografici, ecc.). Ma conviene ordinarle per evidenziare le eventuali espressioni ricorrenti. Ordinandole secondo la parola che segue corp*, troviamo che un buon terzo delle occorrenze sono di corpo/i ceramico/i. Facendo un confronto con bod* nel corpus inglese, vediamo che l’espressione equivalente, ugualmente frequente, è clay body/ies. Come, allora, vogliamo tradurre earthenware body? Una soluzione possibile sembrerebbe la sequenza corpo ceramico (terracotta), presente in una riga della concordanza di corp*:

Impasto. Miscela naturale o artificiale di terra plastica e dimagrante, che forma il corpo ceramico (terra cotta o biscotto).

Page 25: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Quest’ultimo esempio, ove nella versione italiana abbiamo aggiunto la parola ceramico, sottolinea l’importanza di esaminare sempre i collocati nella ricerca degli equivalenti e delle possibili traduzioni, in modo da controllare che le combinazioni che proponiamo siano effettivamente appropriate.

6. Alla ricerca di collocazioni

Nelle sezioni precedenti abbiamo identificato alcuni termini costituiti da più di una parola, ad esempio corpo ceramico e earthenware clay. Abbiamo evidenziato queste espressioni attraverso l’ordinamento di concordanze per le parole corpo e clay. Ma AntConc offre altri modi per identificare automaticamente delle co-occorrenze di più parole, che qui presentiamo.

Oltre ad un word list delle singole parole contenute, possiamo generare liste di tutte le sequenze di parole (i cosiddetti n-grams) che si ripetono in un corpus, che possono servire per l’estrazione di altri termini complessi.

Nella finestra AntConc del corpus inglese, cliccate sulla scheda Clusters. Barrate la casella N-grams. Sotto N-gram size, selezionate Min. Size 3, Max. Size 3. Sotto Min. N-gram frequency, selezionate 10. Andate al Menu Tool preferences, e sotto Category,

selezionate Clusters e barrate la casella Treat all data as lower case. Poi cliccate su Apply.

Tornate sulla scheda N-grams. Sotto Sort, scegliete Sort by word, e cliccate su Start.

Comparirà una lista dei circa 500 trigrammi (sequenze di tre parole) che ricorrono almeno dieci volte all’interno del corpus. Molti di quelli più frequenti sono caratteristiche di documenti in Internet, tipo score http www; altri contengono solo parole funzionali, tipo as well as, one of the, e sono quindi di poco interesse da un punto di vista terminologico.

Ma ci sono altri che contengono due o tre parole lessicali¸tipo action of heat, clay pottery barn, handmade decorative ceramics, o tin-glazed pottery, che potremmo voler integrare in un elenco

Page 26: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

dei termini inglesi tipici di questo dominio. Cosa vogliono dire questi termini? Quali sono i loro equivalenti italiani? Sappiamo che tin-glazed pottery ha che fare con lo stagno: generando concordanze per stagn* e stann* nel corpus italiano, scopriamo ricoperto di smalto a base di stagno e rivestito/a di smalto stannifero.

Se queste parafrasi vi sembrano eccessivamente prolisse, possiamo invece adottare un’altra strategia basata sui collocati: qui, invece di ordinare e percorrere una concordanza di tin-glazed, utilizzeremo la funzionalità Collocates di AntConc, che permette di identificare automaticamente i collocati di un search term.

Nella finestra del corpus inglese, cliccate sulla scheda Collocates.

Sulla barra degli strumenti in alto, cliccate su Tool preferences, e sotto Category, selezionate Collocates.

Barrate la casella Treat all data as lower case e cliccate su Apply.

Nella scheda Collocates, sotto Window span, selezionate From 5L to 5R.

Sotto Min. collocate frequency, scegliete 5. Sotto Search term, digitate tin-glazed. Cliccate su Start.

In questa maniera troveremo tutti i collocati di tin-glazed che sono presenti almeno 5 volte nel corpus in un arco di 5 parole prima e 5 parole dopo il search term. Guardando l’elenco (in ordine di frequenza), dopo pottery si notano maiolica e faience (Fig. 5.9).

Page 27: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Fig. 5.9. Collocati di tin-glazed

Per entrambi questi termini conosciamo un equivalente italiano. Nel corpus italiano, se generate delle concordanze per questi equivalenti (maiolic* e faen*), scoprirete che nessuno delle due colloca regolarmente con forme di stagno/stannifero. Sembra invece che in italiano la tin-glazed pottery venga semplicemente chiamata faenze o maioliche – quest’ultima espressione essendo molto più frequente nel corpus italiano che il suo equivalente “letterale” (maiolica) nel corpus inglese. Ci confermano in questa impressione alcuni estratti dalle concordanze:

Se alla terracotta comune (detta in questo caso biscotto) si applica un rivestimento, si produce la seconda grande classe delle ceramiche, quelle delle faenze, la cui varietà più nota è la maiolica.

il termine maiolica viene principalmente utilizzato nel caso in cui lo smalto opacizzante sia smalto stannifero

Page 28: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Quindi, per tradurre tin-glazed pottery, l’esame dei collocati ci porta alla conclusione che il termine italiano più appropriato sarebbe maiolica/maioliche.

Fig. 5.10. Tin-glazed pottery

7. Conclusioni

Non so di voi, ma attraverso queste analisi dei due corpora, chi scrive ha imparato parecchio sulla ceramica artistica e sulla terminologia utilizzata per descriverla nelle due lingue. I corpora non mi permetteranno di risolvere tutti i problemi di un redattore o di un traduttore, ma molti sì, aiutando notevolmente a produrre dei testi in un linguaggio appropriato. Ma – viene da chiedere - non si potrebbero raggiungere i medesimi risultati in altre maniere, ad esempio attraverso semplici ricerche con Google e Google Translate?

Lasciamo stare Google Translate, che per tin-glazed pottery propone la traduzione tin-vetro ceramica! Una ricerca Google, invece, offrirà dei numeri di occorrenze ben superiori a quelli presenti nei nostri corpora (anche se bisogna ricordare che Google non indica il numero di occorrenze di una determinata espressione, ma il numero di documenti che la contengono). Ma

Guy Aston, 23/03/2012,
Morale?
Page 29: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

mentre il corpus, se i seed e i tuples sono ben scelti, ci riporterà dei risultati solo da documenti pertinenti, Google ci farà vedere dei risultati in base ai propri criteri (segreti) di pertinenza. Ma soprattutto, è solo attraverso la costruzione di un corpus che possiamo visualizzare, ordinare e analizzare le varie occorrenze di un’espressione: con Google, possiamo guardarne solo una alla volta. Una ricerca Google ci può confermare un’ipotesi di scrittura o di traduzione come possibile, ma non ci permette di formulare altre ipotesi attraverso l’analisi sistematica dei collocati. Se il processo di costruzione di corpora con BootCaT può sembrare macchinoso, va ricordato che questi corpora possono fungere da sostegno per altri lavori – la prossima volta che mi capita di dover redigere o tradurre un altro testo sulla ceramica artistica, avrò già dei corpora pronti per l’uso.

Ciò non significa che i corpora creati automaticamente da BootCaT sono perfetti, e se si pensa di riutilizzarli in futuro, può essere utile svolgere un lavoro di editing manuale per togliere dei testi o dei componenti di testi giudicati poco pertinenti. In particolare:

Per corpora in lingue che utilizzano lettere accentate, come l’italiano, può essere utile standardizzare la rappresentazione di queste. Alcuni documenti in Internet utilizzano forme con l’apostrofe (ad es. e’ e E’) mentre altri documenti utilizzano dei caratteri accentati (è e È). Se vogliamo che AntConc generi delle liste numericamente esatte in questi casi, sarà bene svolgere delle sostituzioni globali all’interno del file corpus.txt prima di iniziare le nostre analisi.

Bisogna stare sempre attenti ai numeri che indicano frequenze. Avrete notato dalle concordanze generate in questo capitolo che sono spesso presenti più occorrenze della medesima riga. Questo non è un difetto di BootCaT né di AntConc, ma di Internet, che è il luogo di plagio par excellence. Alcuni documenti inseriti nel corpus possono essere aggiornamenti di altri, o semplicemente parzialmente copiati. In fin dei conti, anche noi qui stiamo plagiando Internet per creare i nostri testi e le nostre traduzioni senza dover reinventare la ruota, ma sempre aggiungendo la nostra intelligenza e la nostra immaginazione nel farla.

Page 30: un casino di testi in formato elettronicohome2.sslmit.unibo.it/~guy/junk/corpora_ga120323.doc  · Web viewMa AntConc offre altri modi per identificare automaticamente delle co-occorrenze

Fig. 5.11. Marcel Duchamp: Roue de bicyclette