La linguistica dei corpora - mobilab.unina.it MSTD-Mazzeo/Slide Lezione... · La linguistica dei...

La linguistica dei corpora

1

D E F I N I Z I O N E

Argomenti trattati nella lezione:D E F I N I Z I O N EE S E M P I O D I U T I L I Z Z OC O S T R U Z I O N EC O D I F I C A E A N N O T A Z I O N EC O D I F I C A E A N N O T A Z I O N ES T A N D A R D D I C O D I F I C A E A N N O T A Z I O N EA N A L I S I D I U N C O R P U SA N A L I S I D I U N C O R P U SL E A P P L I C A Z I O N I

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale

La codifica digitale del testog

h ti diche tipo di rappresentazione di it l d l t t ?digitale del testo?


Il testo e la sua organizzazioneIl testo e la sua organizzazione

intestazione

titolo

capitolo

testotesto


Il testo e la sua struttura linguisticaIl testo e la sua struttura linguistica

sintagma nominale

frase relativa

V andare

pass. rem. 3 sing.

articolo indefinito femminile singolarefemminile singolare

stanza come luogostanze =

oggetto di

tutti = soggetto

stanza come luogo oggetto di riscaldare


il testo come sequenza di caratteriil testo come sequenza di caratteri

Le avventure di PinocchioCapitolo ICome andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambinorideva come un bambino.C'era una volta...- Un re! - diranno subito i miei piccolilettori.- No, ragazzi, avete sbagliato. C'era unavolta un pezzo di legno.Non era un legno di lusso, ma un semplicepezzo da catasta, di quelli che d'invernosi mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze.Non so come andasse, ma il fatto gli è cheun bel giorno questo pezzo di legno capitònella bottega di un vecchio falegname, ilquale aveva nome mastr'Antonio se non chequale aveva nome mastr Antonio, se non chetutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegiamatura.


corpus, testo e unità testualip ,


Definizione

Corpus indica una qualiasi raccolta, completa ed ordinata,di scritti di uno o più autori riguardanti una determinatadi scritti, di uno o più autori, riguardanti una determinatamateria, oppure un campione di una lingua preso inesame nella descrizione della lingua.

Una popolazione è un insieme di tutte le possibili osservazioni di una lingua suun dato campo invece un campione è una sezione della popolazione che neun dato campo, invece, un campione, è una sezione della popolazione, che neingloba solo alcune possibili osservazioni.

Un campione deve essere rappresentativo per essere utile e significativo.Esistono vari metodo per valutare la rappresentatività di un campione, ma lamaggior parte delle valutazioni più accurate si basano sulla ricchezza del


gg p pvocabolario, misurata come numero di parole diverse presenti nel corpus.

Definizione

L’estensione di un corpus è la sua ampiezza, che influenza il grado dirappresentatività di un campione testuale. L’estenzione di un corpus può essere:

• Analisi condotte una sola volta e ripetibili• Facilmente distribuito

U t i i t d di tStatica • Usato in maniera standardizzata• Comparabilità dei risultati

• Analisi di tipo diacronistico• Lavoro continuativo

Maggiore difficoltà di distribuzione e trattamentoDinamica • Maggiore difficoltà di distribuzione e trattamento• Necessità di un corpus monitor


Definizione

Il world wide web può essere considerato un corpus:• enorme, • facilmente accessibile,

i • gratuito, • vario negli stili, nelle tipologie e nei contenuti.

Mancanza di varietà

Accesso ai dati filtrato

Forte tasso di errore

Rappresentazione sbilanciata elementi linguistici

Dinamicità incontrollata


Dinamicità incontrollata

Tipologia ed usoTipologia ed uso

Principali usi dei corpora

applicativotipico dell’ingegneria del linguaggio, per progettare strumenti:

dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi di un certo dominio o varietà di linguaggio“robusti” e ben adattati al linguaggio reale

analiticoper fondare analisi e descrizioni linguistiche sull’effettiva distribuzione delle costruzioni e fenomeni all’interno di un linguaggio al fine di valutare ipotesi teoriche sulla sua forma linguaggio, al fine di valutare ipotesi teoriche sulla sua forma ed organizzazione


Esempio d’usop

Il Corpus di Italiano Televisivo (CiT) sipropone di effettuare analisi linguistichedell'italiano contemporaneo, su datiquantitativi strutturati e affidabili. Più inparticolare, ha come obiettivo l'analisi e lad d ll l à l ldescrizione delle peculiarità lessicali egrammaticali della varietà trasmessadell'italiano contemporaneo.

Tale corpus annotato è stato realizzato con trascrizioni di alcune trasmissioniandate in onda sulle televisioni italiane, selezionate secondo un apposito criterio.


Esempio d’usop


Esempio d’usop

Esempio di interrogazione: tecnicismi nelle trasmissioni sportive, con POS attivo


Esempio d’usop

Esempio di interrogazione: ricerca verbi al gerundio (TOS a colori)


Esempio d’usop

Esempio di interrogazione: lista di distribuzione dei verbi al gerundio


Tipi di corporaTipi di corpora

i li ticorpus specialisticoorientato alla descrizione di una particolare varietà del linguaggio (sublanguage) o ad un ristretto dominio applicativo

analisi della terminologia biomedica, ecc.linguaggio infantilelinguaggio sportivo, economico, ecc.g gg p , ,linguaggio patologico

corpus generale o di riferimento (reference corpus)trasversale rispetto alle diverse varietà di un linguaggio Lplurifunzionaleorientato a rappresentare tutti gli aspetti caratteristici di L orientato a rappresentare tutti gli aspetti caratteristici di L, proponendosi come risorsa di riferimento per la descrizione di Lpuò essere organizzato in vari sottocorpora specializzati per varietà di Ldi L


Tipi di corpora

corpus sincronico

Tipi di corpora

corpus sincronicodescrive un particolare stadio del linguaggio (i testi appartengono tutti ad una stessa finestra temporale)

corpus diacronicodescrive il mutamento linguistico (i testi appartengono a diverse finestre temporali)

corpus monolinguecontiene testi di una sola lingua

corpus bi/plurilinguecorpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una lingua

lli i f ( l ) d ll li è li icorpus allineato – ciascuna frase (parola) della lingua L1 è esplicitamente collegata col suo traducente nella lingua L2

corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle stesse tipologie (ciascuna lingua è rappresentata da testi diversi)p g ( g pp )


Tipi di corporaTipi di corpora

corpus di scrittosolo testi di linguaggio scritto

corpus di parlatosolo trascrizioni di linguaggio parlato

i tcorpus mistotesti scritti e trascrizioni di parlato (in proporzioni variabili)

speech databasespeech databasecampioni di linguaggio parlato in forma di segnale acustico (più eventualmente la trascrizione ortografica)

lti di lcorpus multimedialetesti scritti, video, parlato in forma di segnato acustico, ecc.


Corpora parallelip p

Canadian Hansard Corpus (2001)1 3 milioni di frasi francesi inglesi allineate a livello di frase tratte dagli 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese


Corpora parallelip p

MULTEXT (1996)5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese)g800.000 parole allineate a livello di frase (inglese come lingua “pivot”)


Quante parole compongono un’unità di testo?Qua te pa o e co po go o u u tà d testo

Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, p ,posti di blocco e perquisizioni.

ma cos’è una “parola”?ma cos è una parola ?


Il “bestiario” del testo

L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sulsostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamentoe garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del26.6.1999, pag. 1), …


Ambiguità nel tokeng

Tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token essopunto fermo) è considerato un separatore di token (e un token essostesso)Ci sono casi però in cui questo non è vero

numeri con la virgola: 13,05date: 18.3.2003sigle e abbreviazioni: O N U sig ra S Sirosigle e abbreviazioni: O.N.U., sig.ra, S. Siroecc.

Tokenizzare un testo significa segmentarlo in token (parole unità) attraverso regole che risolvono i casi ambigui


Come contare? (unità e tipo)( p )

il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testoil numero totale di unità in un testo è la lunghezza del testo misurata in paroleil numero di tipi (o cardinalità dell‘insieme) di parole in un testo è uguale a quante parole diverse si trovano nel testoq pil numero totale di tipi di parole in un testo è la grandezza del suo vocabolario


Esempiop

L i h di G b i ll itLe ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.

numero di unità di preposizioni:di 2di 2per 1con 1

d i ti i di i i i 3numero dei tipi di preposizioni 3numero totale di unità di preposizioni 4


Esempio (II)p ( )

TESTO freq

Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.

di 2, 1. 1bl 1blocco 1con 1e 1elicotteri 1

il testo contiene19 “parole unità” (inclusa la punteggiatura)

elicotteri 1gabriella 1la 1le 1p ( p gg )

1 parola tipo con 2 occorrenze17 parole tipo con 1 occorrenza ciascuna

per 1perquisizio 1posti 1

it 1proseguite 1ricerche 1serata 1sono 1sono 1tutta 1

Il vocabolario di “esempio”p

TESTO freq

Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.

di 2, 1. 1bl 1blocco 1con 1e 1elicotteri 1elicotteri 1gabriella 1la 1le 1

il vocabolario V consiste di 18 “parole” diverse|V| = 18

per 1perquisizio 1posti 1

it 1

| |chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testoll |V | |V | + |V | + + |V | proseguite 1

ricerche 1serata 1sono 1

allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima con cui una

parola appare nel nostro testo sono 1tutta 1

p pp


Lunghezza di una parola e di un testog p

la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongonop gla lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testola lunghezza media di una parola dato un testo è uguale alla lunghezza totalela lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in paroledeviazione standard

lli∑ − 2)(

Ni


Lunghezza di una parola e di un testog pTESTO lunghezza token

le 2 1ricerche 8 1ricerche 8 1di 2 1gabriella 9 1sono 4 1proseguite 10 1p gper 3 1tutta 5 1la 2 1serata 6 1

4 1con 4 1elicotteri 10 1, 1 1posti 5 1di 2 1di 2 1blocco 6 1e 1 1perquisizioni 13 1. 1 1

lunghezza testo in caratteri 94numero di occorrenze di token 19

lunghezza media per token 4.947368


Quant’è ricco il vocabolario di un testo?il rapporto “tipo/unità”il rapporto tipo/unità

Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

“ t ti / ità” t t di lità d l“rapporto tipo/unità”: rapporto tra cardinalità del vocabolario e frequenza globale del testo

|V| / N| |40/44 = 0.910 < ( |V| / N ) ≤ 1


Quant’è ricco il vocabolario di un testo?il di “h l ”il numero di “hapax legomena”

Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' statae perquisizioni. Una prima segnalazione e stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

h l è l f 1un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1

|V1|/ N| 1|37/44 = 0.84


Costruzione

Acquisizione AnalisiScelta dellastruttura in ba- Concreto Eliminazione

A li i d i

Pi ifi i C i

se alla volutarappresentatività

Concreto reperimento del materiale

errori presenti Analisi dei termini

costituentiPianificazione Correzione

Fasi della costruzione di un corpus


p

Costruzione

Segmentazione Stabilire regole di analisi

Segmentazione dei confini delle

paroleDistinzione di lessemi e types

Individuazione delle occorrenze

Passi di analisi del materiale iniziale di un corpus

Valutazione di un corpus: Il rapporto tra i tipi di parole e le occorrenze testuali(type/token ratio) ci dà un’approssimazione della ricchezza del vocabolario deltesto esaminato. Esiste anche un’altra definizione di questa misura, che non tiene


q ,conto dei types, ma dei lessemi.

Codifica e annotazione

L’annotazione è una forma di codifica di un corpus, e consistenell’associazione di un’etichetta a una porzione specifica e bend li it t di t tdelimitata di testo.

Il linguaggio usato per la specifica delle etichette è detto linguaggio di markup.Il metalinguaggio di markup è un ulteriore livello di astrazione, e stabilisce laforma sintattica delle etichette Costituisce la base per il processo di validazioneforma sintattica delle etichette. Costituisce la base per il processo di validazionedelle etichette.

Il processo di annotazione può essere:p p

Semi-automatico

ManualeAutomatico


Standard di codifica e annotazione

Requisiti di uno standard di annotazione

Indipendenza di f i idi fruizione

Specificadelle operazionidelle operazioni

Esplicitazione dei criteri di annotazione

Forma standard di codifica

Esplicazione fasi di annotazione

Separazione e autonomia f


tra materiale grezzo e quello della codifica


TEI ha definito delle linee guida per l’annotazione di corpora:TEI ha definito delle linee guida per l annotazione di corpora:• Uso del formato di marcatura SGML o XML;• Codifica dei caratteri ISO 646 e Unicode;• Annotazione di tipo strutturale/semantico;Annotazione di tipo strutturale/semantico;• Ontologia di annotazione comune;• Definizione di un insieme standard di etichette;• Diversificazione del livello di annotazione in:

1. Etichettatura obbligatoria;2. Etichettatura raccomandata;3. Etichettatura opzionale.


p


La creazione di documenti TEI è fatta in conformità ad un set di DTD XML.

Set Addizionali • Elementi specialiSet Addizionali

Set Base

p• Header speciali

• Tipizzazione dei testiSet Base

Set Core

p• Elementi specifici

• Elementi comuniSet Core • Struttura dell’header



Esempio di annotazione di unEsempio di annotazione di uncorpus con TEI e di header diun corpus annotato.



ATLAS è un’architettura e un insieme di strumenti per l’analisi di risorse linguistiche lineari.Consente di segmentare il materiale e di tipizzare le annotazioniConsente di segmentare il materiale e di tipizzare le annotazioni,comprendendo un set di metainformazioni basato su Dublin Core.È caratterizzato da un modello di annotazione molto astratto, chelascia spazio all’adattamento a specifiche esigenze.p p g

AIF API Ontologia MAIA

A T L A SA T L A S


A T L A SA T L A S


Segnale

AAnnota

Ontologia

AncoraAnnotazione

RegioneContenuto



L’architettura di annotazione è relativamente generale, con pochi vincolipochi vincoli.

L’API permette la connes-sione delle ontologie di basesione delle ontologie di basecon le applicazioni, la defi-nizione di tipi (MAIA) ed unlinguaggio di interrogazionelinguaggio di interrogazione(AQL).

ATLAS fornisce anche serviziS o sce a c e se vsi Input/Output, collegati alleontologie e ai segnali d’ori-gine.


g


Mentre ATLAS e TEI si occupano soprattutto di Mentre ATLAS e TEI si occupano soprattutto di norme generali per la codifica di qualunque tipo di testo esistono altri standard che si focalizzano testo…. esistono altri standard che si focalizzano sulle annotazioni linguisticheIl Corpus Encoding Standard (CES) è un progetto di Il Corpus Encoding Standard (CES) è un progetto di codifica dei corpora ideato per applicazioni di ingegneria linguisticaingegneria linguistica



CES è uno strumento per la codifica basato su annotazioni strutturali egrammaticali. È conforme alle TEI Guidelines, e utilizza SGML e XML.C d d’ d l li i di l i di d i dComprende note d’uso del metalinguaggio, set di elementi di documentazione, edetichette.

L difi d i d ti i i i d t bitiLa codifica dei dati primari riguarda tre ambiti:• Divisione del testo in frasi e parole;• Descrizione morfosintattica delle parole;• Allineamento e collegamento di testi


• Allineamento e collegamento di testi.

Analisi di un corpusp

Analisif

L’analisi di un corpus si componefondamentalmente di tre taskdistinti.

frequenzaUn’analisi di frequenza èlo studio del numero dioccorrenze per ogni forma

Lemmatizzazione

occorrenze per ogni formache compare nel corpus.

La lemmatizzazione è la

Analisi concordanze

oriduzione della formaflessa di uno stesso lesse-ma a un solo lemma.

L’analisi delle concordanzeè l’individuazione del


cotesto di ogni parola.


L’analisi di frequenza genera una lista di frequenza, ovvero una tabella, in cuisono inserite le varie forme che compaiono nel corpus, congiuntamente a duemisure:

di l di i i l f l• Numero di occorrenze assoluto di ogni singola forma nel corpus;• Frequenza relativa delle occorrenze per ogni forma nel corpus.

Frequenza relativa = (Fw/N)

Il risultato di un’analisi di fre-quenza è detta formario del corpus.Questa operazione può esserecondotta anche a valle di una lem-matizzazione, ottenendo un formariol

Tecnologie per il trattamento e la comprensione automatica del linguaggio naturaleTecnologie per il trattamento e la comprensione automatica del linguaggio naturale

lemmatizzato.


L f (f) i di l b l t il di di ifi La frequenza (f) indica globalmente il numero di occcorrenze di una specifica parola.

La dispersione (D) evidenzia se sono presenti delle concentrazioni di occorrenze

Suddivisione corpus in parti

Frequenze relative

Misura dispersione

Misura della dispersione:p


La stima d’uso (U) di un particolare elemento linguistico è dato da U = Df


P t l l lPer poter svolgere la lemma-tizzazione in maniera automatica,un software deve:

• disporre di tutte le possibile• disporre di tutte le possibileforme flesse di un lessema;

• saperle riconoscere nel cor-pus in analisi;pus in analisi;

• poterle sostituire con il lemmagiusto.

Il risultato del processo di lemmatizzazione è una lista lemmata, con le formeflesse del corpus, il relativo inquadramento sintattico e lemma.

Per realizzare una lista lemmata, è doveroso essere in grado di risolvere ladisambiguazione degli omografi: forme flesse con la stessa scrittura, ma che siriferiscono a lemmi differentiriferiscono a lemmi differenti.



Il cotesto di una parola è l’insieme delle parole che si accompagnano a quella inesame all’interno di un corpus. Fornisce informazioni d’uso della specifica parola,e aiuta ad individuare i casi d’uso più frequenti.p q

La concordanza è lo stru-mento per estrarre da un cormento per estrarre da un cor-pus le parole e i relativi co-testi.

La concordanza presenta leparole del corpus, indican-done la frequenza di occor-done la frequenza di occorrenza e il cotesto, che vieneindicato in forma KWIC.


Le applicazioni dello studio dei corporapp p

• Individuazione accezioni delle parole• Incidenza termini nell’uso corrente• Definizione casi d’uso delle parole

Dizionarip

• Maggiore aderenza agli usi correnti della linguaGrammatiche g

• Individuazione regole d’uso della linguaGrammatiche

• Realizzazione parser tagger e lemmatiz-Trattamento • Realizzazione parser, tagger e lemmatizzatori statistici

• Traduzione automatica più accurata

Trattamento automatico

• Realizzazione testi adeguabili alle esigenze degli studenti

• Organizzazione insegnamento della linguaDidattica


g g g

La linguistica dei corpora - mobilab.unina.it MSTD-Mazzeo/Slide Lezione... · La linguistica dei...

Documents

Transcript of La linguistica dei corpora - mobilab.unina.it MSTD-Mazzeo/Slide Lezione... · La linguistica dei...