Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

30
Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06

Transcript of Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Page 1: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia da corpora

Maria Teresa PAZIENZA

a.a. 2005-06

Page 2: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Termine

Un termine (o unità terminologica) è:• una parola (termine semplice), • una espressione composta da più parole (termine

composto), • un simbolo • una formula

che indica un particolare concetto all’interno di un dato dominio cognitivo

Page 3: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia

Approccio classicoTermine è una etichetta linguistica per un concetto;

la conoscenza è organizzata in domini, laddove ciascun dominio è equivalente ad una rete di concetti

Approccio computazionaleTermine è l’output di una procedura di analisi

terminologica (-> termini, concetti, ontologia)

Page 4: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia

Può essere realizzata:• manualmente• automaticamente

Nel secondo caso un tool di estrazione identifica una lista di tutti i termini candidati in base ad un’analisi statistica, o mista (statistica e linguistica); un esperto terminologo e con competenze di dominio può eventualmente essere utilizzato per rivedere i risultati e scegliere i candidati che ritiene termini.

In ogni caso necessaria l’adozione di un corpus (collezione di testi scritti realizzata con lo scopo precipuo di supportare un’analisi terminologica).

Page 5: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia

Database terminologico

Consiste di item lessicali stabili e dipendenti dal dominio

Contiene unità che siano utili per la specifica applicazione

Necessità di aggiornamenti continui

Page 6: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia

Compito non completamente definito

• termini possono essere solo parole note • l’identificazione di un termine richiede una

consapevolezza del compito da parte di chi lo esegue• nessun criterio formale per distinguere i termini dai

non termini• la frequenza non è sempre un indicatore significativo

Page 7: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia

Ambiguità

Esistono molti modi in cui un termine può risultare ambiguo

Sintattica {noun/verb, adjective/noun}

POS taggers sono ragionevolmente accurati (95%-99% ): l’identificazione sintattica può essere non problematica ove segua una fase opportuna di training

Page 8: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia

Ambiguità

Semantica

polisemia: la stessa forma terminologica si riferisce a molti concetti collegati nel significato

omonimia: uguale forma linguistica superficiale con significati assolutamente non correlati

Page 9: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Estrazione di terminologia

Problemi con i termini

• La maggioranza dei termini sono composti (multi-word unit): qual è l’elemento trainante (come significato) nella composizione?

• Multidimensionalità di un termine: ereditarietà multipla all’interno di una gerarchia (es.: tubercolosi polmonare è sia una malattia respiratoria che una infezione)

Page 10: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Variabilità di un termine

Un concetto può essere rappresentato da più di un termine (sinonimi o varianti del termine)

La variabilità di un termine costituisce un serio problema per applicazioni di IR, IE, MT… limitandone le performance.

Page 11: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Variabilità di un termine

Come variano i termini?

Morfologicamente acqua stagnante / acque stagnanti

Sintatticamente attività degli enzimi / attività enzimatica

vaccino HIV / vaccino contro l’HIV

Semanticamente assicurazione medica

Compressione o accorciamento di un termine, acronimi od altre abbreviazioni vagone letto / WL / VL

Page 12: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

1. Tecniche di IR

2. Approcci linguistici

3. Approcci statistici

4. Metodi ibridi

Page 13: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologiaTecniche di IR

Una parola in un documento può essere un utile termine per indicizzare il documento stesso

Una parola frequente in un documento può essere un utile termine per indicizzare il documento stesso

Una parola che appare in un numero limitato di documenti è non in un documento può essere un utile termine per indicizzare quei documenti

Una parola che appare frequentemente in un solo documento e non nel resto del corpus in un documento può essere un utile termine per indicizzare il documento stesso

Misure di distribuzione delle parole in un corpus possono essere più utili della frequenza

Page 14: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

Tecniche di IR (procedura classica)

Elaborazione del testo alla ricerca di termini complessi

Analisi morfologica

Identificazione di NP

Applicazione di euristiche (su basi statistiche) per la riduzione del numero dei termini composti

• Se esiste una relazione tra gli elementi di un termine composto e questi si comportano come una parola sola (lessicalizzazione)

• Non è possibile inserire parole tra gli elementi del composto senza alterarne il significato

Page 15: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologiaTecniche di IR (termini indice / termini tecnici)

L’obiettivo dell’indicizzazione è quello di trovare termini utili alla indicizzazione, ovvero capaci di discriminare un documento da un altro

L’obiettivo dell’estrazione di terminologia è quello di trovare termini tecnici che indichino concetti di un dominio specifico

Termini indice non sono necessariamente termini tecniciTermini tecnici non sono necessariamente termini indice per

alcune collezioni di documenti

Page 16: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

Approcci linguisticiBasati su preprocessing linguistico ed annotazioniSi riconoscono pattern sintattici ricorrenti nella

formazione di un termine (in genere frasi nominali)

Problemi con punteggiatura (virgole, trattini, virgolette, spazi,…)

Nomi composti scritti in modi diversi (database, data base, data-base)

Page 17: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

Approcci statistici

Le misure usate più frequentemente sono:

• Frequenza delle occorrenze

• Mutua informazione

Page 18: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

Approcci statistici Frequenza delle occorrenze

La più usataIndipendente dal dominio, non richiede alcuna

competenza ulterioremaTermini con bassa frequenza possono essere buoni

terminiLa frequenza è una utile misura solo con frasi che

si ripetono allo stesso modo

Page 19: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

Approcci statistici Mutua informazione

Usata per l’estrazione di collocation (espressioni consistenti di due o più parole corrispondenti ad un modo convenzionale di dire qualcosa word cooccurrences)

Sovrapposizione tra collocation e termini tecnici

Page 20: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

Approcci statistici Mutua informazione (Fano,1961)

L’ammontare di informazione fornita dall’occorrenza di un evento y rispetto all’occorrenza di un evento x è definita come:

I(x y)=log P(x y) / P(x) P(y)Ovvero fornisce l’informazione di quanto una parola si

relazioni con un’altraProblemi: data sparseness, bigrammi composti da parole a

bassa frequenza vengono sovrastimatiVa bene per estrarre termini candidati composti da due

parole

Page 21: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

Metodi ibridiCombinazione di informazioni linguistiche, shallow

parser e statisticaSi aggiunge informazione di contesto (clustering

contestuale, informazione su parole sconosciute, accesso ad ontologia, …) (es. dipartimento di, bibliografia su, studio di, informazioni su, ..)

Informazione intrinseca sui termini (pattern di formazione) più estrinseca (contesto)

Page 22: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologiaapproccio di Tor Vergata

• First task: extract and validate Terms

A Term is a surface representation of a key domain concept.

“launch vehicle”

“Magnetic field”

“Entity#ne# mission”

• A term can be formed by one or more words and Named Entities (generalization of important entities of a specific domain)

Ex: Spacecraft Design Domain

“ESA mission”

“Voyager mission”

“SOHO mission” ......

Ex: “Entity#ne#_mission”

Page 23: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

• Second task: extract and validate Verb Relations

A Verb Relation (or Surface Form) is a surface representation of a key domain “relational concept”

Operatively: A relational concept can be intended as a semantic relation among

domain concepts

A verb relation is a semantically generalized lexical fragment of text governed by a verb

satellite reaching celestial body

Ex:

Relational Concept Surface Form Text Fragments

approach((SUBJ,satellite),(OBJ,celestial_body#ne#))get_close((SUBJ,satellite),(OBJ,celestial_body#ne#))

“the satellite approached the Moon in 1974.”

Page 24: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Validazione:• 7821/58267 (14%) retained terms• 482/1814 (38%) retained terms with freq>5

Discarded terms as “part”, “level”, “table”, while expressing domain concepts are too generic to be accepted

Metodi per l’estrazione di terminologia

10 MOST RELEVANT TERMS

Page 25: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

• Compound terms have been devided into groups of same length

Metodi per l’estrazione di terminologia

• Most interesting terms usually are those of 2/3-words length:Launch_vehicle

Magnetic_field

Solar system

Entity#ne#_mission

Microwave Radio Frequency

Trajectory correction manoueuvre

10 MOST RELEVANT 2-WORDS TERMS

Page 26: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Difficulties in validation:– Hardness in comprehension of semantic meaning of the

forms, due to lack of information:

Ex.

approach((SUBJ,null),(OBJ,orbit))

leave((SUBJ,mission#ne#))

Metodi per l’estrazione di terminologia

Who is the subject??

What is the object of “leave”??

– Overgeneration: every sentence in corpus can create many surface forms

leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#'))leave((dirobj,'celestial_corp#ne#')) leave((dirobj,'celestial_corp#ne#'),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null))leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#'))

“Voyager 2 leaves Earth

at about 36 km/s relative to the sun”

Page 27: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Metodi per l’estrazione di terminologia

• It could be possible to create a domain syntactic-semantic subcategorization frame for each verb, using semantic resources, such as WordNet

Ex. absorb,((subj,'x-rays'))

absorb,((subj,dust))

absorb,((subj,gas))

absorb,((subj,radiation))

absorb,((subj,substrate))

absorb,((subj,atmosphere))

absorb,((subj,ENTITY))

absorb,((subj,PHYS_ELEMENT)) absorb,((subj,PHYS_ENTITY))

absorb,((subj,'x-rays'))

absorb,((subj,dust))

absorb,((subj,gas))

absorb,((subj,radiation))

absorb,((subj,substrate))

absorb,((subj,atmosphere))

Page 28: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Uso della terminologia

Text indexation

Text summarization

Information extraction

Information retrieval

Question answering

Machine translation (text alignment)

Page 29: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Text alignment

Confronto di testi paralleli (in genere un testo legale e la sua traduzione) che vengono visualizzati in maniera corrispondente (es. per paragrafi, frasi, etc)

L’allineamento facilita il riconoscimento di termini simili (parole con la stessa valenza di termine) nelle due lingue

Page 30: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Qualche conclusioneL’estrazione della terminologia è un problema mal definito e complesso

La struttura gerarchica del problema suggerisce uno sviluppo a passi Passi di base (text preparation, part-of-speech tagging, noun phrase

parsing)• Algoritmi ben definiti e pubblicamente accessibili

Uso di filtri• Named entities

– Problema concettualmente semplice– Software maturo e di pubblico dominio

• Lexicalized noun phrases– Soluzioni non definitive ma con buoni suggerimenti– Focus su terminologie specifiche di dominio

• Informazioni di contesto nel documento – Metodologie ancora non definite completamente – Modelli che usano metriche di IR