Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI

36
Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano

description

Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI. Sabrina Aulitto Università Cattolica del Sacro Cuore di Milano. Linee guida. Note introduttive Definire un corpus Il contenuto del corpus Corpus-Didattica: un binomio possibile? Strumenti informatici - PowerPoint PPT Presentation

Transcript of Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI

Page 1: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Sabrina Aulitto Università Cattolica del Sacro Cuore di

Milano

Page 2: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

1. Note introduttive

2. Definire un corpus

3. Il contenuto del corpus

4. Corpus-Didattica: un binomio possibile?

5. Strumenti informatici

6. Proposta di studio applicato

7. Conclusioni30/09/2010 2Sabrina Aulitto

Page 3: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

La linguistica computazionale studia tecniche di rappresentazione e modalità di elaborazione, di espressione linguistiche al fine di riprodurre su macchina alcune capacità linguistiche tipiche degli essere umani:

- Riconoscimento della correttezza di frasi; - Generazioni di frasi; - Comprensione del significato di frasi.

M. Benedetti, “Introduzione alla linguistica computazionale”, in Formare i Formatori. Una proposta di aggiornamento per gli insegnanti di lingua, a cura di M. Negri, A. Villamira e J. Villar, Roma, FrancoAngeli, 1999, p102.

30/09/2010 3Sabrina Aulitto

Page 4: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

«Una delle discipline che affonda le sue radici nelle origini della linguistica computazionale stessa è la linguistica dei corpora, la quale si occupa del trattamento del linguaggio naturale ai fini della produzione di lessici di testi specifici, di concordanze e di studi statistici».

G. WILLIAMS, Introduction , « TEXTE ET CORPUS», 3, août, 2008, Actes des Journées de la linguistique de Corpus 2007, p. 23.

30/09/2010 4Sabrina Aulitto

Page 5: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Grandi corpora di testi sono da tempo per i linguisti uno strumento d’uso quotidiano

poiché hanno contribuito e contribuiscono all’arricchimento di database finalizzati a scopi di ricerca e didattica.

I principali tipi di corpora adoperati per

finalità di ricerca descrittiva e pedagogica sono innanzitutto corpora bilingui e multilingui che a loro volta si distinguono in corpora paralleli e corpora comparabili

30/09/2010 5Sabrina Aulitto

Page 6: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

2. DEFINIRE UN CORPUS

“Un corpus parallelo comprende testi sia nella loro lingua originaria, sia in traduzioni in un’altra lingua. […] Un corpus comparabile non contiene, invece, testi in traduzione, ma testi in originale in lingue diverse. […]

I corpora comparabili permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico, dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggior grado di naturalezza, evitando le artificiosità che talvolta conseguono dall’opera di traduzione”.

Cfr, A. Lenci, Testo e computer – Elementi di linguistica computazionale, Carocci Roma, 2005, pp.31-32.

30/09/2010 6Sabrina Aulitto

Page 7: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

30/09/2010 7Sabrina Aulitto

In un corpus il numero di termini ne rappresenta la sua autenticità, conferendo a sua volta alle parole funzioni ben definite, in quanto possono essere analizzate secondo la classificazione seguente:

La parola grafica ( sequenza di caratteri compresi tra due bianchi o segni di interpunzione);

Le occorrenze o word tokens (comprendono le forme flesse, quindi anche le occorrenze delle parole testuali);

Le parole o word types (si intendono le parole diverse tra loro).

Page 8: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

In relazione a tale suddivisione un aspetto interessante da calcolare è lo studio della frequenza attraverso il rapporto tra il numero di types e il numero di tokens, che fornisce una misura della varietà lessicale di un testo.

La formula per calcolare il rapporto types/tokens ratio, è ottenuta automaticamente dai software che eseguono analisi statistiche sui testi.

30/09/2010 8Sabrina Aulitto

Page 9: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Cobuild - CollinsCollins Birmingham University International

Language Database è un fonademntale progetto di analisi lessicale computerizzato basato su coropora di lingua inglese, avviato nel 1980 dal prof. John Sinclair e i cui frutti – dizionari, corsi di lingua, corpora elettonci di riferimento per gli apprendenti- sono stati a tutt’oggi numerosi e apprezzati.

Per il suo utilizzo è necessario l’acquisto di licenze relative alle diverse sezioni di cui è composto.

30/09/2010Sabrina Aulitto 9

Page 10: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

British National Corpus – Oxford

E’ uno dei corpora più rappresentativi, in quanto conta 100 milioni di parole.

La raccolta cominciò nel 1991 e attualmente presenta sia testi scritti (90%) che testi audio (10%).

Il suo accesso non è libero, ma prevede un costo variabile in base alla sezione da consultare.

30/09/2010Sabrina Aulitto 10

Page 11: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

FRANTEXTE E’ un corpus letterario realizzato dal

centro di ricerca ATILF (Analyse et traitement informatique de la langue française) dell’Université de Nancy.

La consultazione di questa base testuale è possibile attraverso un abbonamento.

Le possibilità di interrogazione del corpus vertono sulla ricerca di parole o intere espressioni all’interno delle opere letterarie raccolte.

30/09/2010Sabrina Aulitto 11

Page 12: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Corpus multilingue comparato, ricavato dalla raccolta di articoli tratti da dieci testate giornalistiche internazionali, le quali hanno prestato particolare interesse allo sviluppo delle problematiche affrontate dalla compagnia aerea italiana “Alitalia” relative all’anno 2008.

Gli articoli sono stati acquisiti dal web e codificati.

Periodo, settembre - ottobre 2008 Numero complessivo degli articoli: 364 Numero di tokens: 161.863. Numero di types: 17. 119.

30/09/2010 12Sabrina Aulitto

Page 13: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

I quotidiani consultati per la realizzazione del corpus si riferiscono a tre codici linguistici diversi:

per la lingua italiana sono stati scelti i quotidiani come “La Repubblica”, “Il sole 24 ore” e “Milano-Finanza”;

Per la lingua francese “Les échos”, “Le parisien” e “Le figaro”;

Per la lingua inglese “Times-online”, “Guardian”, “Financial-Time” e “International Herald Tribune”.

30/09/2010 13Sabrina Aulitto

Page 14: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

30/09/2010 14Sabrina Aulitto

Un corpus multilingue con queste caratteristiche implica altresì l’analisi degli impieghi diversi che esso può avere ai fini di

ricerche di linguistica applicata o come supporto didattico per corsi di lingua orientati verso lo studio

del linguaggio di specialità, economico-finaziario, in dimensioni linguistiche e

prospettive culturali diverse.

Page 15: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

L’idea del possibile connubio corpus-didattica è legata ad un approccio

esplorativo, in cui gli studenti cercano di analizzare i fenomeni e di

verificarli nella prassi linguistica. La disponibilità di ampie basi di dati

linguistici e di programmi di concordanze per analizzarli, consente

oggi di affrontare tale complessità con qualche strumento in più.

30/09/2010 15Sabrina Aulitto

Page 16: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

DEFINIRE GLI OBIETTIVI

L’obiettivo primario della realizzazione del nostro corpus si pone dunque in una prospettiva di tipo didattico, e parte da un’ipotesi di somministrazione di una raccolta di testi inerenti ad un unico campo di indagine, ad un campione di studenti che abbia buone competenze relative alla tre dimensioni linguistiche scelte.

30/09/2010 16Sabrina Aulitto

Page 17: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Partendo dall’analisi del nostro obiettivo primario, orientato verso l’espletamento di questo corpus ai fini didattici, è importante sottolineare, come precisa Elena Tognini Bonelli, che un corpus presenta una serie di parametri che lo distingue dal singolo testo, come la sua lettura frammentaria e verticale e non per intero e orizzontale come nel caso del testo singolo, in più il corpus offre informazioni circa la langue mentre il testo è un esempio di parole.

30/09/2010 17Sabrina Aulitto

Page 18: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

30/09/2010 18Sabrina Aulitto

Quindi, come può un corpus, con queste tratti distintivi risultare un utile e proficuo

supporto didattico?

FINALITA’:

1. Esercizi di lettura e comprensione del testo o dei testi somministrati;

2. Acquisizione di una competenza interrogativa;3. Identificazione de profilo lessicale ( collocation);4. Identificazione delle regolarità lessico-

grammaticali (colligation); 5. Considerazioni riguardanti il campo semantico

comune (preferenza semantica);6. Considerazioni riguardanti le realizzazioni

pragmatiche (prosodia semantica) dove la prosodia semantica rappresenta l’elemento più importante nello studio dei rapporti tra contesto e funzione.

7. Acquisizione di un linguaggio di tipo specialistico in relazione ad un settore specifico.

Page 19: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Nella fase applicativa dello studio di un corpus è necessario l’utilizzo di programmi di concordanze che permettono di analizzare un corpus in diverse prospettive:

1. La frequenza; 2. Ricerca delle concordanze; 3. Ricerca delle collocazioni; 4. Ricerca dei clusters.

30/09/2010Sabrina Aulitto 19

Page 20: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

I programmi di concordanze sono disponibili in rete sia attraverso free download o attraverso l’acquisto di una licenza.

Alla prima categoria appartengono i programmi come: Antconc, Monoconc, Paraconc, Kwic.

Alla seconda: Wordsmith Tools 30/09/2010Sabrina Aulitto 20

Page 21: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

ANTCONC 3.2 w

- Generare file in TXT; - Inserire file nel programma; - Indicare il termine per la ricerca;- Scegliere il tipo di ricerca: Concordance, Concordance plot, File

view, Clusters, Collocates, Word Iist; - Lanciare la ricerca; - Analizzare l’output.

30/09/2010Sabrina Aulitto 21

Page 22: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

PUNTI DI SVILUPPO

Per raggiungere tali obiettivi la nostra analisi si è soffermata sullo studio delle frequenze, delle concordanze, delle collocazioni e dei clusters o segmenti ripetuti estratti dal corpus.

In relazione a quanto fin’ora precisato, il nostro percorso verso il raggiungimento delle finalità proposte è partito dall’analisi di cinque lemmi rispettivamente:

in lingua italiana accordo, offerta, partner, piano, trattativa;

in lingua francese accord, offre, partenaire, plan, négotiations;

in lingua inglese agreement, offer, partners, plan, negotiations.

30/09/2010 22Sabrina Aulitto

Page 23: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Tabella n. 11.L’analisi rivela una disomogeneità

dell’impiego dei cinque lemmi nei tre singoli sub-corpus, in cui spesso compare uno squilibrio tra le frequenze dei termini nelle diverse lingue.

2.Un caso interessante da analizzare è quello del lemma agreement, che nelle testate giornalistiche inglesi è utilizzato 46 volte, un numero inferiore rispetto all’equivalente italiano accordo (164) e all’equivalente francese accord (190).

30/09/2010 23Sabrina Aulitto

Page 24: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Si potrebbe ipotizzare l’utilizzo di un suo sinonimo. Dalla ricerca delle rispettive similarità semantiche si evince che il sinonimo che presenta più semi in comune con agreement è pact, il quale si ripete una sola volta in tutto il corpus inglese, due volte in quello italiano, patto e quattro volte in quello francese, pacte.

E’ chiaro che l’impiego di sinonimi non fornisce una spiegazione sufficiente a tale fenomeno, in realtà la disparità potrebbe anche essere dovuta al modo in cui è espressa la notizia e al paese in cui si vive l’informazione.

30/09/2010 24Sabrina Aulitto

Page 25: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

UNIONS E ACCORD

Unions con 261 occorrenze; Possibile motivazione: la tematica della mobilitazione dei sindacati è stata maggiormente affrontata dalle testate giornalistiche inglesi; contrariamente le testate giornalistiche francesi presentano il lemma syndicat solo 32 volte Una notevole frequenza del termine accord (196), nella stampa francese, anche del suo sinonimo alliance (92 volte), che potrebbe essere motivata dal coinvolgimento della Francia nelle trattativa tra Alitalia e Air France.

30/09/2010 25Sabrina Aulitto

Page 26: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Individuazione dell’habitat linguistico in cui ricorrono i lemmi selezionati. (Tabella. 2)

Ai fini didattici la visualizzazione delle concordanze e delle collocazioni, oltre a comunicare un’idea di testo e di testi frammentaria, (presentando l’elenco di tutte le parole presenti nel corpus, quante volte e come si collocano all’interno della loro stringa di appartenenza), permette allo studente di acquisire delle competenze, attraverso una metodologia innovativa di analisi testuale, prevalentemente concentrata sullo studio dell’impiego del lessico in un dato contesto.

30/09/2010 26Sabrina Aulitto

Page 27: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Tali applicazioni, consentono di visualizzare la fitta rete semantica relativa ad un termine dato, evidenziandone la sua contestualizzazione, i suoi sinonimi e i sinonimi dei verbi o aggettivi ad esso associabili, al fine di raggiungere delle competenze linguistiche approfondite in un settore specifico comparativamente in tre lingue.

Analisi dei sintagmi verbali, estrapolati dalla ricerca delle concordanze, appartenenti ai cinque lemmi selezionati a partire dal corpus italiano.

Individuare se nel corpus di lingua francese e nel corpus di lingua inglese esistono sintagmi corrispondenti o ulteriori alternative. (Tabella. 2, 3,4,5,6)

30/09/2010Sabrina Aulitto 27

Page 28: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

30/09/2010Sabrina Aulitto 28

Dall’analisi dei dati ricavati dalle cinque tabelle è percepibile una limitata corrispondenza di lemmi nelle tre lingue, in quanto non si tratta di corpora paralleli, bensì di corpora comparabili. Potremmo considerare un corpus comparabile come un serie di testi aperti e non particolarmente pigri, dai quali è possibile trarre spunto per numerose esercitazioni in aula, come colmare le corrispondenze mancanti nelle tabelle, completando il panorama relativo ai sintagmi verbali dei lemmi scelti.

Page 29: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

30/09/2010Sabrina Aulitto 29

Potrebbe essere interessante effettuare la medesima operazione di completamento analizzando i sintagmi nominali, oppure le preposizioni che seguono tale lemma, in modo da poter identificare il profilo semantico e sintattico di una serie di unità linguistiche selezionate.

Un’altra possibile applicazioni:- realizzazione di banche dati, relative ad

un settore linguistico di specialità come quello economico-finanziario in tre codici linguistici diversi.

Page 30: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Risulta, altresì, interessante e utile ai fini di un apprendimento mirato, un’analisi comparata dei clusters e delle collocazioni, che prevede l’estrapolazione di singoli lemmi ( per lo studio delle collocazioni) e di segmenti o gruppi di parole ( per l’analisi dei clusters) che si ripetono in un corpus, visualizzati attraverso un programma di concordanze.

30/09/2010Sabrina Aulitto 30

Page 31: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Collocazioni e Clusters

“Una ricerca per clusters analizza in un corpus gli spezzoni di testo che ricorrono più volte, a seconda della loro lunghezza in parole. La differenza con le collocazioni è evidente: i clusters prevedono che i segmenti ripetuti siano adiacenti e che la loro sequenza non sia interrotta da nessun altro elemento, e costituiscono per questo un tipo di relazione più stretta; quello di collocazione, è un concetto più ampio, che comprende sia i segmenti adiacenti che cooccorrenze di una parola in prossimità di altre, in base alla definizione della lunghezza del contesto”.

(A. Lenci Testo e computer – Elementi di linguistica computazionale)

30/09/2010Sabrina Aulitto 31

Page 32: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Nel caso del nostro corpus abbiamo estratto dal software i clusters e le collocazioni corrispondenti al lemma stampa.

Tra i clusters abbiamo, conferenza stampa, comunicato stampa, agenzie di stampa, sala stampa, fra le collocazioni abbiamo le preposizioni o i verbi che accompagnano l’unità linguistica stampa.

Una proposta didattica può essere quella di individuare i clusters equivalenti nei diversi codici linguistici. (Tabella. 7)

30/09/2010Sabrina Aulitto 32

Page 33: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

30/09/2010Sabrina Aulitto 33

Nel nostro caso la ricerca automatica, con l’aiuto del software AntConc, rivela l’assenza di clusters equivalenti per i segmenti individuati in lingua italiana, nel sub-corpus francese mentre un solo risultato nel sub-corpus inglese con press conference.

Si potrebbe quindi proporre anche in questo caso un tipo di esercitazione che richieda la ricerca delle traduzioni equivalenti dei clusters del lemma stampa nelle tre lingue.

Anche quest’esercitazione di scorporazione e frammentazione di un corpus, fornisce un’analisi della lingua che permette di acquisire una maggiore padronanza del lessico contestualizzato, oltre che di visualizzare il modo in cui co-occorrono all’interno del corpus.

Page 34: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

In generale, le proposte di esplorazione del linguaggio in una dimensione plurilingue richiamano ad un’idea di interattività e di costruzione di regole e significati a partire da esempi non predefiniti, ma ricavati dallo studente attraverso il supporto dei mezzi informatici, un approccio che favorisce lo sviluppo di abilità autonome di apprendimento.

30/09/2010Sabrina Aulitto 34

Page 35: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Quindi è noto come in questo contesto l’analisi dei dati linguistici tragga vantaggio dall’apporto delle nuove tecnologie, le quali dispongono di molteplici strumenti di indagine per lo sviluppo di diverse competenze e abilità, dalle nozioni di grammatica generica all’approfondimento dell’appropriatezza contestuale, quale la lingua di specialità e infine l’acquisizione di una tale proprietà di linguaggio, dovuta alla mole infinita di dati linguistici a disposizione, che tende a colmare quelle comuni lacune che differenziano un’apprendente da un nativo.

30/09/2010Sabrina Aulitto 35

Page 36: Corpus multilingue:  strumento di  osservazione e strategie d'uso IN CONTESTI DIDATTICI

Il possibile connubio tra didattica e l’impiego di corpora come strumento di

apprendimento, permette di raggiungere “una nuova concezione della lingua e una nuova concezione

della didattica”, come facendo leva su una risorsa che si avvale dell’ abilità e

della proprietà di un singolo individuo di disporre di vari tipi di competenze

linguistiche in codici diversi.

30/09/2010Sabrina Aulitto 36