Isabella Chiari TRATTAMENTO DI TESTI ITALIANI: STRUMENTI

23
01/06/2007 1 Ruhr-Universität Bochum, Germania, 24 maggio 2007 Isabella Chiari TRATTAMENTO DI TESTI ITALIANI: STRUMENTI, RISORSE E PROBLEMI Isabella Chiari 1 CORPORA E APPLICAZIONI Perché la linguistica dei corpora è oggi tanto rilevante? Ruhr-Universität Bochum, Germania, 24 maggio 2007 rilevante? Come si integra la linguistica dei corpora con la linguistica computazionale? Quali sono i principali problemi che chi costruisce corpora deve risolvere? Esistono strumenti che aiutano chi fa ricerca linguistica a costruire corpora per la pubblicazione? 2

Transcript of Isabella Chiari TRATTAMENTO DI TESTI ITALIANI: STRUMENTI

01/06/2007

1

Ruhr-Universität Bochum, Germania, 24 maggio 2007

Isabella Chiari

TRATTAMENTO DI TESTI ITALIANI: STRUMENTI, RISORSE E PROBLEMI

Isabella Chiari

1

CORPORA E APPLICAZIONI

Perché la linguistica dei corpora è oggi tanto rilevante?

Ruhr-Universität Bochum, Germania, 24 maggio 2007

rilevante?Come si integra la linguistica dei corpora con la linguistica computazionale?Quali sono i principali problemi che chi costruisce corpora deve risolvere?Esistono strumenti che aiutano chi fa ricerca linguistica a costruire corpora per la pubblicazione?

2

01/06/2007

2

I CORPORA IN LINGUISTICA COMPUTAZIONALE

Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

•Dizionari informatizzati•Dizionari macchina corpus based

Lessicografia elettronica corpus-based

•Taggers e parsers con training corpora

Training corpora per il NLP

•Corpus-based•Example-based machine translation

Traduzione automatica

Tecnologie del parlato

•Addestramento allo speech recognition•Sintesi corpus-based

Tecnologie del parlato

•Individuazione automatica di patterns estratti dai dati

Machine learning – Information technology

IL CIRCOLO VIRTUOSO

Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Corporalinguistici

Elaborazione e trattamento del

materiale testuale

Corpora etichettati Strumenti di NLP

Applicazioni per il trattamento dei

corpora

p•Strumenti NLP

•Parsing e tagging

Training corporaper strumenti di NLP –

MACHINE LEARNING

Tecnologie del parlatoTA

Dizionari-macchina

01/06/2007

3

CORPORA PUBBLICI E CORPORA INDIVIDUALI

Ruhr-Universität Bochum, Germania, 24 maggio 2007

5

3 PROBLEMI

Normalizzazione

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• Determinazione degli insiemi ALFABETO E SEPARATORI• Ambiguità nella punteggiatura (punto, trattino, apostrofo,

accenti), ecc.• Nomi propri, di luoghi, sigle non riconosciuti, ecc.• Unità di misura, numeri (euro, 29), ecc.

Disambiguazione delle omografie

• Omografi assoluti e testuali

Individuazione delle polirematiche

6

01/06/2007

4

NORMALIZZAZIONE: CHE COS’È?

Pre-trattamento ortografico

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•La riduzione di ambiguità dovute alle convenzioni ortografiche•individuazione un insieme di simboli come alfabeto (a, b, c, 5, 8) e

un insieme di separatori (.,;:/?!)•ogni simbolo (il punto, la virgola, la barra, ecc.) sia univoco, ossia

non venga utilizzato in modi diversi nello stesso corpus

Pre-trattamento linguistico

•Riconoscimento di strutture cristallizzate•come sigle, titoli, toponimi, nomi propri (prima di ridurre

eventualmente le maiuscole)•Riconoscimento di locuzioni grammaticali e polirematiche note (da

lista)

7

UN ESEMPIO: TALTAC 2

Trattamento automatico lessicale e testuale per l’analisi del contenuto di un corpus

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• Università La Sapienza di Roma (Economia)

Sergio Bolasco

Analisi lessicali e testuali

• Integrazione con risorse di riferimento (vocabolari, lessici di frequenza)

• con altri programmi di trattamento statistico (Lexico, Spad)• e linguistico

8

01/06/2007

5

NORMALIZZAZIONE: DEFINIZIONE ALFABETO

Ruhr-Universität Bochum, Germania, 24 maggio 2007

9

Ruhr-Universität Bochum, Germania, 24 maggio 2007

NORMALIZZAZIONE

•Apostrofi in accentiM i l / i l

PUNTEGGIATURA

•Maiuscolo/minuscolo

•Locuzioni gramm.•Polirematiche nominali

POLIREMATICHE E COLLOCAZIONI (base)

•nomi propri

NOMI

10

•toponimi•celebrità•titoli•Sigle

LISTE PERSONALIZZATE

01/06/2007

6

COSÌ OTTENGO AD ESEMPIO…LOCUZIONI COME..

Ruhr-Universität Bochum, Germania, 24 maggio 2007

11

NOMI PROPRI, SIGLE, FORMULE

Ruhr-Universität Bochum, Germania, 24 maggio 2007

12

01/06/2007

7

NORMALIZZAZIONE: TESTO INTERNET 2004

Ruhr-Universität Bochum, Germania, 24 maggio 2007

A 746

PRON 60

AA 746

AVV 4.323 NM 1.150

PREP 2.589

A

AVV

CONG

ESC

FORM

N

NM

13

CONG 552 ESC 3 FORM 163

N 1.301

PREP

PRON

PRIMA E DOPO LA NORMALIZZAZIONE

Ruhr-Universität Bochum, Germania, 24 maggio 2007

Dati corpusPrima della

normalizzazione Normalizzato Differenza

TOKEN (occorrenze) 254.365 240.173 14.192

TYPES20.130 18.730 1.400

14

OMOGRAFI123.097

(48,4%) 108.760 (45,3%) 14.337

01/06/2007

8

GLI OMOGRAFI - TIPOLOGIE

•parole caratterizzate da un significante comune, ma che rimandano a significati radicalmente diversi spesso senza alcuna parentela

Omografi (omonimi, omofoni)

Ruhr-Universität Bochum, Germania, 24 maggio 2007

significati radicalmente diversi, spesso senza alcuna parentela etimologica

•Calcio•“pedata” •“Ca”•“impugnatura di un fucile o pistola”

Omografi assoluti

p g p

•Faccia•“viso”•“voce del verbo fare”

Omografi testuali

15

STRUMENTI

Omografi assoluti

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•Word sense disambiguation•Strumenti probabilistici/statistici

•Opzionale (attualmente ancora indietro)

OS

Omografi testuali (relativi)

•POS tagging e Lemmatizzatori•Basati su regole•Probabilistici

•Operazione di base per ogni corpus

16

01/06/2007

9

SE NON RISOLVO IL PROBLEMA OTTENGO…

Ruhr-Universität Bochum, Germania, 24 maggio 2007

17

E SE GUARDO LE CONCORDANZE TROVO:

Ruhr-Universität Bochum, Germania, 24 maggio 2007

18

01/06/2007

10

QUANTI SONO IN MEDIA GLI OMOGRAFI IN UN TESTO ITALIANO?

Tullio De Mauro in Capire le parole (1999) riporta:

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• Il tasso di omonimia relativa o testuale è • Scritti tecnici (economia e finanza): 38,6%• LIP 46%

Il tasso di omografia testuale dipende dalla tipologia testuale• Testi con parole più brevi (come le trascrizioni del parlato, ecc.)

tendono ad avere più omografi dei linguaggi tecnico-specialistici• È una conseguenza della legge di Zipf sul numero dei significati e

della saturazione (Guiraud) maggiore nelle parole brevi.

19

ALCUNI ESEMPI

TESTI Codice penale

l giuridico

Internet 2004

informatica

Caos Calmo(S. Veronesi)

narrativa

LIP Corpus Romaparlato

Ruhr-Universität Bochum, Germania, 24 maggio 2007

l. giuridico informatica narrativa parlato

Token 68.728 254.365 123.781 135.716

Types 5.160 20.130 16.819 11.922

Omografi testuali 3.486 123.097 60.018 65.630

% omografi 47% 49% 49% 49%

Parole sconosciute

4% 4% 11% 6%

20

01/06/2007

11

POS TAGGING E LEMMATIZZAZIONE

• etichettatura automatica per categorie grammaticali

Il part-of-speech (POS) tagging

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• etichettatura automatica per categorie grammaticali• Il tagger riceve in input una frase e restituisce in output le forme grafiche delle

parole accompagnate da etichette che segnalano la categoria grammaticale di appartenenza

• potrebbe corrispondere a tre etichettature grammaticali possibili:•determinante (articolo)•nome (nota musicale)

ESEMPIO: la forma grafica <LA>

•nome (nota musicale)•pronome (pronome personale)

• Tagger basati su regole (dizionario-macchina e grammatica)• Tagger probabilistici (training, parametri, applicazione statistica)

Tipologie

21

UN ESEMPIO: TREETAGGER

Autori

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•Helmut Schmid, Institute for Computational Linguistics of the University ofStuttgart

Gratuito e condiviso•Scaricabile (Mac, Windows, Linux)•Online (max 2 mega): http://cental.fltr.ucl.ac.be/~pat/tagger/

Tagger probabilisticoU d i i t•Usa decision trees•Che determina automaticamente l’ampiezza del contesto per calcolare le

probabilità di transizione (più adatto delle catene markoviane per eventi rari)•96,36% di precisione sul Penn-Treebank (inglese)

22

01/06/2007

12

OUTPUT DI TREETAGGER

Ruhr-Universität Bochum, Germania, 24 maggio 2007

23

PROBLEMI CON TREETAGGER

I parametri

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• non vanno bene per tutte le tipologie testuali, • ad esempio il parlato

• Spesso costruire un training corpus ah hoc non è possibile (1.000.000 di tokens, manualmente corretti)

• Il tagger va comunque sottoposto a nuovo training se si vuole ampliare il suo lessico

Errori sistematiciErrori sistematici• Participi e aggettivi• Mancato riconoscimento di nomi• Mancata indicazione di polirematiche

24

01/06/2007

13

TRAINING E CORREZIONE MANUALE

Training corpus

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• Se si dispone già di un ampio corpus annotato• Se la tipologia è molto uniforme, e il vocabolario è ridotto

• es. meteo, oroscopo, ricette, istruzioni per l’uso, ecc.

Correzione manuale• Se il corpus è piccolo• oppurepp• Se è assolutamente necessaria una corretta annotazione

• per esempio se si vuole pubblicare il corpus di uno o più testi di un autore

• Se si può contare su un numero ampio di collaboratori

25

UN AIUTO NELLA CORREZIONE: POSEDIT

Silvio Pazzaglia, Università per stranieri di Perugia

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•gratuito•http://elearning.unistrapg.it/corpora/

g

•Permette di intervenire e correggere rapidamente l’ouput

Cosa fa?

di Treetagger per poterlo usare in altri applicativi•Creare una cartella con i file del corpus e rinominare i txt

con estensione .ctx, correggere e poi eventualmente rinominare in .txt

26

01/06/2007

14

SCHERMATA POSEDIT

Ruhr-Universität Bochum, Germania, 24 maggio 2007

27

Ruhr-Universität Bochum, Germania, 24 maggio 2007

Intervento manuale, mediante scorrimento (verticale) della listaIntervento mediante ricerca globale e sostituzione per

Termine (forma grafica)

INTERVENTO MANUALE CON POSEDIT

Termine (forma grafica)lemma

28

01/06/2007

15

E I PROBLEMI DI TREETAGGER?

Categorie sbagliateCorrezione manuale

Ruhr-Universität Bochum, Germania, 24 maggio 2007

Mancato riconoscimento nomiCorrezione manualePre-editing (con Taltac2)

Mancato riconoscimento polirematichePre-editing (con Taltac2)Post-editing (con Taltac2)Post editing (con Taltac2)

Parole sconosciuteCorrezione manualePost-editing (con Taltac2)

29

TALTAC 2 E TREETAGGER

Integrazione

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• Taltac 2 può pre-trattare il corpus e ricostruirlo normalizzato• Il testo viene analizzato da TreeTagger• Il testo può essere poi importato da Taltac2

P ibilità di f i d ll i di T lt 2 l

Potenziamento

• Possibilità di usufruire delle risorse di Taltac2 per la normalizzazione e per il trattamento del corpus

• Concordanze• Analisi statistiche (misure, co-occorrenze, confronto tra

lessici, analisi delle specificità)

30

01/06/2007

16

LE POLIREMATICHEEspressioni composte da più di una parola grafica, che tuttavia si comportano semanticamente e spesso morfo-sintatticamente come UN SOLO LESSEMA

Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

•stare a cuore, forza pubblica, prigioniero politico, vedere rosso, essere al verde

«specifico sovrappiù semantico, vale a dire la non ricostruibilità del loro significato in base alla semplice somma dei significati dei singoli componenti» (De Mauro)

cristallizzazione morfo-sintattica

•voi due siete proprio due occhi di lince•non *voi due siete proprio due occhi di linci

LE COLLOCAZIONI

Combinazioni di parole relativamente più libere delle polirematiche, ma accomunate da una

Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

particolare frequenza d’uso, ossia dalla preferenza per l’occorrenza congiunta dei suoi componenti.

• compilare un modulo• obliterare il biglietto• delitto efferato

Gli elementi che entrano a far parte di una Gli elementi che entrano a far parte di una collocazione sono molto più rigidi e poco analitici, quindi anche i traducenti in una lingua straniera tendono a essere imprevedibili

01/06/2007

17

PROBLEMI PER LA LINGUA ITALIANA

Q i di li i i ò i l f

Morfologia flessiva ricca

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•Quindi una stessa polirematica si può trovare in molte forme•Ma NON TUTTE le forme

•Ci vedo rosso•Ci avete visto rosso•Ci vidi rosso

Vederci rosso

•Ci ho visto proprio rosso

•*Ci abbiamo visto rossi•*Lei ci vide rossa

*

33

QUINDI…

Ruhr-Universität Bochum, Germania, 24 maggio 2007

Non si possono usare le misure e gli

strumenti che vanno bene per l’inglese

È necessario sviluppare strumenti

che sappiano riconoscere le

li ti h it lipolirematiche italiane

34

01/06/2007

18

STRUMENTI

L i di lif i (FDP) i 4 000 lif i

Lessico dei poliformi (FDP)

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•Lessico di poliformi (FDP), con circa 4.000 poliformi•sia locuzioni di tipo grammaticale, sia gruppi nominali di tipo

polirematico, sia espressioni di verbi idiomatici•(Bolasco, 1998).

•Analisi automatica di testi dal web e personaliKil iff t lii

Web Bootcat e Sketch Engine

•Kilgarriff et alii

•Procedura per applicare le misure di associazione statistica ai lemmi

Taltac2 – ricostruzione corpus lemmatizzato

35

WEB BOOTCAT CORPUS IN POCHI SECONDI MA…

Autori

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P

• http://corpora.sketchengine.co.uk

Sito web

Bibliografia

• Baroni, M., Kilgarriff, A., Pomikálek, J., Rychlý, P.: WebBootCaT: instant domain-specific corpora to support human translators. Proceedings of EAMT 2006, Oslo. (2006) 247-252

Bibliografia

36

01/06/2007

19

COSTRUZIONE DEL CORPUS

Ruhr-Universität Bochum, Germania, 24 maggio 2007

37

Ruhr-Universität Bochum, Germania, 24 maggio 2007

38

01/06/2007

20

SKETCH ENGINE

Autori

Ruhr-Universität Bochum, Germania, 24 maggio 2007

• A. Kilgarriff, M. Rundall, e altri

• Costruisce riassunti automatici del comportamento grammaticale di una parola in un corpus

• Estrae collocazioni, misura la similarità tra parole

Cosa fa?

• Macmillan English Dictionary e molti altri dizionari

Strumento per la lessicografia

39

Ruhr-Universität Bochum, Germania, 24 maggio 2007

40

01/06/2007

21

CALCIO

Ruhr-Universität Bochum, Germania, 24 maggio 2007

41

CALCIO 2

Ruhr-Universität Bochum, Germania, 24 maggio 2007

42

01/06/2007

22

CONCORDANZA (LEMMATIZZATA)

Ruhr-Universität Bochum, Germania, 24 maggio 2007

43

CONCLUSIONI

Corpora

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•per costruire un corpus bisogna risolvere alcuni problemi tecnici di trattamento dei testi

•se non trattiamo i testi, allora tanto vale andare a esplorare il web con Google (ma…questo è un altro tema)…

StrumentiN t t è f tt•Nessuno strumento è perfetto

•Alcuni strumenti permettono meglio di risolvere alcuni problemi

Perché facciamo questo? ….

44

01/06/2007

23

DEFINIZIONE DI EAGLES

Ruhr-Universität Bochum, Germania, 24 maggio 2007

An electronic corpus is “scorpus which is encoded in

a standardized and homogeneous way for open-

ended retrieval tasks”

Un corpus elettronico è “un corpus che è codificato in maniera standardizzata e omogenea per consentire

infinite operazioni di ricerca

45

GRAZIE!

Le slides powerpoint

Ruhr-Universität Bochum, Germania, 24 maggio 2007

•da mercoledì 30 maggio 2007•sul sito:

•sotto la voce CONVEGNI e NOVITA’

www.alphabit.net

[email protected]

Isabella Chiari

46