Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e...

82
Semantica lessicale Maria Teresa PAZIENZA

Transcript of Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e...

Page 1: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Semantica lessicale

Maria Teresa PAZIENZA

Page 2: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Programma

Breve introduzione all’NLP Linguaggi Naturali e Linguaggi Formali Complessità

Morfologia Teoria: Morfologia del Linguaggio Naturale Strumenti: Automi e Trasduttori Analisi Morfologica: con automi e trasduttori

Part of Speech Tagging Teoria: Le classi morfologiche Strumenti a Analisi: modelli a regole e statistici

Sintassi Teoria: Sintassi del Linguaggio Naturale Strumenti: CFG Analisi Sintattica: parsing top-down, bottom-up, Early

Semantica Introduzione Distributional Lexical Semantics Sentence Semantics Info

Page 3: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Analisi semantica

FONETICA: studio dei suoni linguistici MORFOLOGIA: studio delle componenti significative di una parola SINTASSI: studio delle strutture relazionali tra le parole

SEMANTICA: studio del significato delle parole e di come esse si combinano per formare il significato delle frasi

PRAGMATICA: studio di come il linguaggio è usato per raggiungere obiettivi ANALISI DEL DISCORSO: studio di unità linguistiche complesse

LEXICAL SEMANTICS

Studio del significato delle parole

SENTENCE SEMANTICS

Studio del significato di intere frasi

-Studio delle relazioni lessicali (sinonimia, iperonimia,meronimia, antinomia, entailment, causa,…)

-Il significato di una parola è contenuto nella parola stessa?

Page 4: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Lexical Semantics e applicazioni

LEXICAL SEMANTICS E APPLICAZIONI

Come può la semantica lessicale aiutare nelle applicazioni di NLP ?

relazioni tra parole o termini relazioni generiche : similarità / correlazione relazioni specifiche : iperonimia, meronimia, etc.

Applicazioni tipiche; Costruzione di Thesausus Question Answering, Information Extraction

relazioni tra espressioni linguistiche complesse paraphrasing (“X wrote Y” “X is the author of Y”) textual entailment (“X kill Y” “Y die”)

Applicazioni tipiche: Question Answering Text Summarization Information Extraction

Page 5: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Che metodologie utilizzare ?

metodologie distribuzionali (basate unicamente su corpora) approcci statistici non supervisionati (knowledge harvesting) fortemente basate su studi statistico-distribuzionali delle parole uso di nessun o semplici strumenti di NLP (es, shallow parsing) adattabili no-cost a differenti lingue non garantiscono una analisi semantica approfondita (relazioni semplici)

metodologie basate su conoscenza approcci con analisi di strutture ontologiche o reti semantiche (es,WordNet) uso di misure di distanza all’interno della rete non portabili a differenti lingue se non esiste una rete per essa garantiscono un’analisi semantica approfondita e precisa tanto quanto la

rete è semanticamente espressiva (relazioni complesse)

Lexical Semantics e applicazioni

Page 6: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

La Repubblica, 29 giugno 2007

Il discorso di Veltroni confrontato da un esperto con quelli "omologhi" di Berlusconi e Prodi

La lunghezza del testo alleggerita da citazioni. Due soli "peccati": flat tax e housing sociale

La media di parole per periodo è stata di 21, ancora meno delle 28 del leader forzista

Frasi brevi e pochi "io" ecco i jolly del Lingotto

di TULLIO DE MAURO (la Repubblica, 29 GIUGNO 2007)

Page 7: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

La Repubblica, 29 giugno 2007

S. BerlusconiFamiglia, libertà, ragionevole, comunismo.

R. ProdiNomi Propri, la politica è scelta, lo possiamo fare,

bisogna voltare pagina.

W. VeltroniPari opportunità, equità, eguaglianza, sobrio, ascolto,

scelta, decisione.

Page 8: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Analisi semantica

Il significato delle frasi viene ricavato a partire da :

1. i significati delle parole2. i significati associati alle strutture

sintattiche3. la conoscenza della struttura del discorso4. conoscenza del contesto5. conoscenza (almeno) di base del dominio

Page 9: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Significato delle parole

Per l’analisi semantica delle frasi non abbiamo finora considerato il ruolo delle parole di per sè.

Abbiamo considerato i verbi per quanto concerne l’organizzazione a template della loro struttura predicati/argomenti.

• Numero di argomenti• Posizione e tipo sintattico• Nome degli argomenti

– In tale approccio i nomi sono stati considerati praticamente come costanti-senza-significato , mentre si può capire molto grazie a loro!

Page 10: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Semantica lessicale

Per semantica lessicale facciamo riferimento ad un insieme praticamente insieme praticamente infinito di fatti casualiinfinito di fatti casuali relativi alle parole

In un approccio formale possiamo considerare :

– la struttura relazionale esterna tra più parole (paradigmatica)

– la struttura interna delle parole che determina dove esse possono posizionarsi e che cosa possono fare (syntagmatica)

Page 11: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Applicazioni

Costituiscono un ambito di interesse:– Risorse (per es.):

• WordNet

– Tecnologie di supporto (per es.):• Word sense disambiguation

– Applicazioni basate sul significato delle parole (per es.):• Search engines

Page 12: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Lessico

Il lessico è una struttura linguistica che identifica ciò che le parole possono significare e come possono essere usate; la struttura consiste sia di relazioni tra parole e del loro significato, che della struttura interna di ogni parola.

– Lexeme/Lessema: una qualunque entry di un lessico consiste di una coppia (una forma linguistica superficiale –parola- associata ad un ben determinato significato )

– Lexicon/Lessico : una collezione di lessemi (ovvero di coppie forma-significato)

Page 13: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Relazioni tra lessemi

Consideriamo le relazioni tra lessemi, e tra loro sensi, ed in particolare quelle che assumono un ruolo importante in ambito computazionale.

Un’attività molto importante riguarda la possibilità di sostituire sistematicamente un lessema con un altro in un qualche contesto; l’analisi di una tale sostituzione conclusasi positivamente permette di verificare l’esistenza di una relazione specifica tra tali lessemi

Page 14: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Relazioni tra lessemi

Homonymy/omonimia:Lessemi diversi che assumono significati totalmente

diversi ma condividono una stessa forma • Fonologica, ortografica o entrambe

– Esempio :• piano (progetto) vs• piano (piano di un edificio) vs• piano (pianoforte)

Non è esempio di omonimia (bensì di omografia):• pesca/pèsca (frutto) • pesca/pésca (di pesci)

Page 15: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Omonimia

La parte problematica dell’omonimia non è tanto nella identificazione di una forma di tal tipo, quanto nella identificazione del suo significato.

Influenza applicazioni di information retrieval.

Page 16: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Polisemia

Polysemy/polisemia:– Lo stesso lessema che assume più significati tra-loro-

collegati

Moltissime parole, anche di uso comune, hanno più significati (es. banca – istituto bancario, banca dati, banca del sangue, banca del tempo)

– Lexeme/Lessema: una qualunque entry di un lessico consiste di una forma linguistica superficiale associata ad un insieme di significati tra loro collegati -

Il numero di significati di una parola dipende dal dominio di analisi

I verbi tendono alla polisemia

Page 17: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Espressioni polisemiche con verbi

– Which flights serve breakfast?– Does America West serve

Philadelphia?

– Does United serve breakfast and San Jose?

Page 18: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Sinonimia

Synonymy/sinonimia:– Lessemi diversi che assumono lo stesso significato

Due lessemi sono considerati sinonimi se possono essere sostituiti all’interno di una frase senza alterarne il significato o il suo valore (es. grande, grosso) (principio di sostituibilità - anche se non vale in tutti i casi – ovvero si tratta di sinonimia all’interno di un dominio o contesto specifico)

Page 19: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Iponimia

Una relazione di iponimia ha luogo tra due lessemi laddove il significato dei due sottiene una relazione di inclusione (is-a, isa, IS-A, ISA,..) (supporto al reasoning)

iponimia/iperonimia; si applica tra nomi di entità

Poichè i cani sono dei canidi , si può dire che • Cane è un iponimo di canide• Canide è un iperonimo di cane

Poichè i cani sono dei mammiferi , si può dire che • cane è un iponimo di mammifero• mammifero è un iperonimo di cane

(ovviamente le relazioni esistenti tra i lessemi precedenti non asseriscono nulla relativamente alla relazione eventualmente esistente tra canidi e mammiferi)

Page 20: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Meronimia

La relazione di meronimia/part-of è transitiva e riflessiva

part-of(Bucarest, Romania)part-of(Romania, EuropaOrientale)part-of(EuropaOrientale, Europa)part-of(Europa, Terra)

part-of(Bucarest, Terra)

part-of(x,x)

Page 21: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Meronimia

Le due relazioni di tassonomia (is-a-kind-of) e meronimia (part-of) hanno punti di similarità anche se sottendono significati diversi. (es: una gamba del tavolo is-part-of un tavolo, ma non is-a-kind-of tavolo, mentre scrivania is-a-kind-of tavolo, ma non is-part-of tavolo)

Le differenze tra di loro hanno importanti riflessi nella organizzazione e rappresentazione della conoscenza e nel reasoning conseguente

Page 22: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Relazioni

Relazioni paradigmatiche principali (ontologiche) – Sinonimia – Antonimia – Iponimia – Meronimia – …

Page 23: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Risorse lessicali

– Terminologie – Dizionari on-line– Corpora– …– WordNet, database lessicale per la

lingua inglese (esistono anche versioni per altre lingue: Italwordnet, Balkanet, Eurowordnet, …)

Page 24: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WordNet

WordNet consiste di tre distinti database rispettivamente per

• nomi• verbi• aggettivi ed avverbi

ciascuno dei quali consiste di un insieme di entries lessicali corrispondenti ad una unica forma ortografica; a ciascuna forma sono associati insiemi di sensi

Page 25: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WordNet

L’aspetto più importante di Wordnet è la nozione di synset; attraverso il synset si definisce un senso (così come un concetto )

esempio: table usato come verbo per indicare defer è specificato dal synset– > {postpone, hold over, table, shelve, set back,

defer, remit, put off}

Per WordNet, il significato di questo senso di table è esattamente questa lista.

Page 26: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WordNet

(valori non aggiornati)

Page 27: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WordNet

La parola ``bass'' ha 8 sensi in WordNet

1. bass - (the lowest part of the musical range)2. bass, bass part - (the lowest part in polyphonic music)3. bass, basso - (an adult male singer with the lowest voice)4. sea bass, bass - (flesh of lean-fleshed saltwater fish of the family

Serranidae)5. freshwater bass, bass - (any of various North American lean-

fleshed freshwater fishes especially of the genus Micropterus)6. bass, bass voice, basso - (the lowest adult male singing voice)7. bass - (the member with the lowest range of a family of musical

instruments)8. bass -(nontechnical name for any of numerous edible marine and freshwater spiny-finned fishes)

Page 28: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Gerarchie in WordNet

Page 29: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WordNetRelazioni lessicali (tra entries, sensi, set di sinonimi) indipendenti dal dominio

Page 30: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Struttura relazionale esterna delle parole

Le relazioni paradigmatiche permettono di collegare tra loro dei lessemi in una qualche maniera, ma non ci dicono nulla relativamente a cosa consiste la rappresentazione del significato di un lessema

Page 31: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Struttura interna delle parole –syntagmatica-

Verifichiamo se le rappresentazioni del significato associate ai lessemi abbiano strutture interne analizzabili, ovvero se queste strutture, combinate grazie ad una grammatica, determinano le relazioni tra lessemi in una frase ben formata (relazioni syntagmatiche).

• Ruoli tematici: suggeriscono similitudini all’interno del comportamento dei verbi

• Qualia theory: cosa si può capire nei nomi (che non sono solo delle costanti)

Page 32: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Comportamento dei Verbi

Generalizzazione a livello semantico sui ruoli che occorrono insieme a verbi specifici

• Es. Takers, givers, eaters, makers, doers, killers, hanno tutti qualcosa in comune

– -er– sono tutti gli agentiagenti delle azioni che rappresentano

Alla stessa maniera è possibile generalizzare altri ruoli

• Es. occupazione, amministrazione, composizione, hanno tutti qualcosa in comune

– -zione– sono tutti il risultatorisultato delle azioni che rappresentano

Page 33: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Ruoli tematici Insieme di categorie che forniscono un linguaggio semantico superficiale per caratterizzare alcuni argomenti verbali

Page 34: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Esempi di ruoli tematici

Page 35: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Ruoli tematici

I verbi non sono tutti totalmente distinti (ciascun verbo non è unico nel suo significato) per cui possiamo considerare dei nomi unici per ciascun ruolo condivisibile da più di un verbo.

I ruoli tematici indicano e specificano un insieme finito di ruoli.

In tal modo è possibile distinguere tra semantica superficiale e semantica profonda.

Page 36: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Interrelazioni

Ruoli semantici, categorie sintattiche e la posizione che esse assumono all’interno di strutture sintattiche più ampie sono assolutamente intercorrelate in modi a volte complessi.

Es.– AGENTS sono spesso i soggetti – In una regola del tipo

VP->V NP NP la prima NP può essere spesso un GOAL mentre

la seconda è un THEME

Page 37: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Esempio

– Sally gave Harry a book.

• Giver(Sally)^Givee(Harry)^Given(book)

• Agent(Sally)^Goal(Harry)^Theme(book)

– Sally diede un libro ad Harry

(ruoli tematici a supporto anche della traduzione automatica)

Page 38: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Problemi aperti

• Che cos’è esattamente un ruolo tematico?• Qual è l’insieme completo di ruoli? • I ruoli sono degli universali indipendenti da

lingua e cultura? • Esistono dei ruoli atomici?

– Es. Agente– Animate, Volitional, Direct causers, etc

• E’ possibile etichettare automaticamente costituenti sintattici con ruoli tematici?

Page 39: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Shallow semantic analysis

Si definisce shallow semantic analysis l’assegnazione di nomi opportuni agli argomenti di

un verbo all’interno di una frase (esempio d’uso di ruoli tematici)

• Case role assignment• Thematic role assignment

Page 40: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Rappresentazioni di relazioni

ipotesi 1:Le relazioni possono essere rappresentate come una

“case grammar” (Charles Fillmore) ed offrono una prospettiva particolare dell’evento descritto

Es.

colpire (agent, recipient, instrument)

collidere (object1, object2) predicati argomenti

E’ necessario definire quali oggetti possano corrispondere a ciascun argomento, ovvero assumere il caso specifico in una situazione specifica

Page 41: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Rappresentazioni di relazioni

ipotesi 1:

“case grammar” (Charles Fillmore)

Molte reti semantiche si rifanno alla rappresentazione della grammatica dei casi.

Le relazioni sono rappresentate da archi orientati (ed etichettati) tra i nodi concetto della rete (grafo).

Page 42: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Rappresentazioni di relazioni

ipotesi 2:Teoria delle dipendenze concettuali

(Roger Schank): act

Necessità di specificare le primitive semantiche sottostanti una particolare relazione.

Il significato fondamentale di un set di verbi di azione è catturato da 12-15 primitive usate con un approccio case-frame

Page 43: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Rappresentazioni di relazioni

Es. ATRANS descrive un qualunque verbo che richiede un trasferimento di proprietà

ATRANS:Actor: person (Mario)Act: ATRANSObject: physical object (anello)direction-TO: person-1 (Maria)

FROM: person-2 (Mario)

Actor, Act,.. sono le variabili di questo schema e possono assumere certi valori

ES. Mario diede/regalò/vendette un anello a Maria

Page 44: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Rappresentazioni di relazioni

Teoria delle dipendenze concettuali di Schank

Primitive Significato IstanzeATRANStrasf. di proprietà dare, prenderePTRANStrasf. fisico da a muoversi, camminareMTRANS trasf. di informaz. mentali ordinare,

suggerireATTENDricevere impulsi sensoriali vedere, sentirePROPEL applic. forza a ogg. fisici spingere, colpireINGEST assunzione di cibo o aria respirare,

mangiareEXPEL inverso di ingest vomitare

Page 45: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Esempio semantica profonda

Dal WSJ

– He melted her reserve with a husky-voiced paean to her eyes. (sciolse la riservatezza di lei con un componimento poetico dedicato ai suoi occhi cantato con voce rauca)

Se etichettiamo i costituenti He e reserve come il Melter e il Melted, allora quelle etichette perdono ogni significato che avrebbero potuto avere letteralmente.

Se li chiamiamo Agent e Theme allora non si hanno problemi di disallineamento semantico

Page 46: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Selectional restrictions

Le selectional restrictions possono essere usate per aumentare i ruoli tematici permettendo ai lessemi di porre alcune restrizioni semantiche su ulteriori lessemi e frasi che possono accompagnarli all’interno di un periodo.

Le selectional restrictions costituiscono un vincolo semantico imposto da un lessema relativamente al concetto che può corrispondere ai diversi ruoli argomentali a lui associati.

Le selectional restrictions possono essere associate a qualche senso di un lessema e non al lessema in toto.

Page 47: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Selection restrictions

Consideriamo la frase I want to eat someplace near campus

Usando i ruoli tematici possiamo dire che eat è un predicato che ha un AGENT e un THEME

• Qualcos’altro?

specifichiamo che l’ AGENT deve essere capace di mangiare e il THEME deve essere qualcosa che può essere mangiato

Page 48: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

dalla logica

per eat abbiamo che

Eating(e) ^Agent(e,x)^ Theme(e,y)^Isa(y, Food)

(con gli opportuni quantificatori e i lambda)

eyx

Page 49: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

da WordNet

Uso degli iponimi WordNet (tipi) per codificare le selection restrictions

Page 50: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Specificità delle restrizioni

Consideriamo i verbi to imagine, to lift e to diagonalize così come appaiono in questi esempi:

– To diagonalize a matrix is to find its eigenvalues– Atlantis lifted Galileo from the pad– Imagine a tennis game

Cosa possiamo dire a proposito del THEME del verbo in ciascuna frase?

In alcuni casi possiamo utilizzare la gerarchia WordNet salendo (generalizzando) di qualche livello, in altri non tanto

Page 51: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Selection restrictions

Concetti, categorie e feature

che sono utilizate come selectional restrictions

non costituiscono una parte specifica e finita di un linguaggio,

bensì costituiscono un insieme non finito come lo stesso lessico

Page 52: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Alcuni problemi

Sappiamo che da un lato i verbi sono polisemici, dall’altro il linguaggio naturale è creativo…

Si considerino i seguenti esempi presi dal WSJ (Wall Street Journal)

… ate glass on an empty stomach accompanied only by water and tea– you can’t eat gold for lunch if you’re

hungry– … get it to try to eat Afghanistan

Page 53: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Soluzioni

• Eat glass– Si tratta in ogni caso di un evento del tipo eat

• Eat gold– Ancora un esempio di eat, anche se il can’t

crea uno scopo che permette che il THEME del verbo sia anche non mangiabile (contrariamente alle aspettative)

• Eat Afghanistan– Si tratta di un caso sicuramente complesso,

non ci si riferisce per nulla al mangiare

Page 54: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Identificazione delle restrictions

Se si dispone di un corpus opportunamente grande e si può accedere a WordNet è possibile identificare automaticamente le restrizioni di un verbo?

1. Analizzare sintatticamente le frasi e trovare le heads

2. Etichettare i ruoli tematici

3. Collezionare le statistiche sulle co-occorrenze di particolari headwords con specifici ruoli tematici

4. Usare la struttura degli iperonimi di WordNet per trovare il livello più significativo da usare come restrizione

Page 55: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Motivazione

Trovare l’antenato comune più basso (più specifico) che copra un numero significativo di esempi

Page 56: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WSD e Selection Restrictions

Word sense disambiguation si riferisce al processo di selezione del senso corretto per una parola all’interno dei sensi che si conosce essere associati alla parola stessa

Selection restrictions semantiche possono essere usate per disambiguare – Argomenti ambigui di predicati non ambigui – Predicati ambigui con argomenti non ambigui – Ambiguità a tutto campo

Page 57: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WSD e Selection Restrictions

Argomenti ambigui – Prepare a dish– Wash a dish

Predicati ambigui – Serve Denver– Serve breakfast

Entrambi– Serves vegetarian dishes

Page 58: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WSD e Selection Restrictions

Approccio complementare all’approccio dell’analisi composizionale

Si parte da un parse tree e da una analisi di predicate-argument derivata da

• l’albero sintattico ed i suoi attachment • tutti i sensi delle parole corrispondenti ai

lessemi delle foglie dell’albero • analisi errate vengono eliminate notando

le violazioni alle selection restriction

Page 59: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Problemi

In genere, le selection restrictions sono costantemente violate (vedasi esempi precedenti), anche se ciò non implica che le frasi siano, mal formate o meno, usate in tali casi

Si possono usare i corpora per fare analisi ad ampio spettro (qualche forma di categorizzazione) ed analizzare nello specifico i casi di violazione delle selection restrictions

Page 60: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Supervised ML

Negli approcci di supervised machine learning, si può usare un training corpus di parole

taggate all’interno di un contesto con i loro sensi specifici,

allo scopo di addestrare un classificatore che

possa, quindi,

taggare nuove parole in un nuovo contesto (che rispecchi ovviamente le caratteristiche del corpus di addestramento – training)

Page 61: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WSD Tag

Che cos’è il wsd tag per una parola?

– Il senso di un dizionario?

per esempio, in WordNet la voce “bass” ha 8 possibili tag (o labels).

Page 62: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

WordNet Bass

La parola ``bass'' ha 8 sensi in WordNet

1. bass - (the lowest part of the musical range)2. bass, bass part - (the lowest part in polyphonic music)3. bass, basso - (an adult male singer with the lowest voice)4. sea bass, bass - (flesh of lean-fleshed saltwater fish of the family

Serranidae)5. freshwater bass, bass - (any of various North American lean-

fleshed freshwater fishes especially of the genus Micropterus)6. bass, bass voice, basso - (the lowest adult male singing voice)7. bass - (the member with the lowest range of a family of musical

instruments)8. bass -(nontechnical name for any of numerous edible marine and freshwater spiny-finned fishes)

Page 63: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Similarità VS Correlazione

Correlazione (C)

Due parole w1 e w2 si dicono semanticamente correlate se sono legate da

una qualsiasi relazione semantica

Similarità (S)

Due parole si dicono semanticamente simili se sono vicine in una gerarchia

IS-A

Esempiodelfino-mare vive_in(delfino,mare)uomo-testa part_of(testa,uomo)

Esempiogatto-cane is_a(cane,anim_dom) , is_a(gatto,anim_dom)gatto-mammifero is_a(gatto,mammifero)

Che tipo di relazioni possono esistere tra due parole ?-Semplici: correlazione, similarità -Complesse : is-a, part-of, causa, … …

RELAZIONI SEMPLICI

Page 64: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Co-occorrenza

CO-OCCORRENZA

Le parole che si trovano in una certa finestra di una target word t sono dette co-

occorrenze la finestra può comprendere un dato numero di parole vicine, una frase, un paragrafo, un

documento

L’insieme delle co-occorrenze di t è detto contesto C(t) nozioni più complesse di contesto possono comprendere co-occorrenze che sono in una certa

relazione sintattica con la target word (es. verbo della target word, ecc…) oppure solo parole

appartenti ad un certa Part of Speach (es. Nome, verbo…)

ESEMPIO:

se sarete fortunati vedrete anche il Dugongo, vero tormentone della nostra compagnia.

tW-4 W-3 W-2 W-1 W+1 W+2 W+3 W+4

Finestra di 4 parole C(dugongo) = fortunati, vedrete, anche, il, vero, tormentone, della, nostra Relazione V-ogg C(dugongo) = vedrete

Page 65: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Pointwise Mutual Information

MISURE DI ASSOCIAZIONE TRA PAROLE

Pointwise Mutual Information (I) (PMI) Due parole x e y che co-occorrono spesso rispetto alle loro occorrenze in un

corpus D, hanno un alto grado di associazione

Vantaggio rispetto a F (frequenza): Due parole che co-occorrono spesso ma che

sono molto frequenti hanno associazione minore rispetto a parole che co-

occorrono lo stesso numero di volte ma che sono meno frequenti

Definita originariamente in Information Theory [Fano,1961] come verifica della

null hypothesis of independence

P(x)= probabilità dell’evento x

P(y)= probabilità dell’evento y

P(x,y)= probabilità congiunta degli eventi x e y

Page 66: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Pointwise Mutual Information

MISURE DI ASSOCIAZIONE TRA PAROLE

Pointwise Mutual Information (I) (PMI) La definizione di I viene adattata all’NLP [Church and Hanks, 1989], considerando:

P(x) = probabilità della parola x nel linguaggio

P(y) = probabilità della parola y nel linguaggio

P(x,y) = probabilità che x co-occorra con y

e stimando le probabilità utilizzando MLE (Maximum Likelihood Estimation):

ci= numero di occorrenze di i in un corpus D

cij= numero di occorrenze della co-occorrenza ij in un corpus D

N = numero di occorrenze totale di tutte le parole di un corpus D

N

c

Nc

N

c

yxIyx

xy

2log),(

Page 67: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Distributional Hypothesis

DOMANDA… Il significato di una parola è contenuto nella

parola stessa, oppure nelle parole con cui occorre ?

Differenti filosofi, semiotici e linguistici darebbero ognuno una risposta opposta

all’altro… ma per noi “ingegneri” ?

ESEMPIO :

DUGONGO

soluzione 1 : guardo in un dizionario!

ma se il dizionario non c’è, o non contiene la parola?

soluzione 2 : proviamo qualche acrobazia morfologica:

du – gongo

una band formata da due gonghisti? …poco

probabile

Page 68: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Distributional Hypothesis

DUGONGO soluzione 3 : vado su Internet e guardo il contesto in cui si trova la parola:

-“Le informazioni raccolte in queste pagine derivano dall'osservazione diretta di due esemplari di Dugongo che ho avuto la fortuna di incontrare in Mar Rosso”

-“Bella la spiaggetta con il dugongo e bella l'escursione con i delfini.”

-“se sarete fortunati vedrete anche il Dugongo,vero tormentone della nostra compagnia, che si può osservare in una escursione che costa circa 15 euro”

-il dugongo vive quasi esclusivamente in mare.

Quali altre parole occorrono con “mare”, “escursione”, “esemplare”, “spiaggia”…? -Foca-Traghetto-Leone marino-Focena

Quindi forse il dugongo è una sorta di mammifero marino …

Page 69: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Distributional Hypothesis

DUGONGO

“Mammifero marino erbivoro dei Sireni, con largo muso a setole intorno alla bocca (Dugong dugong) ”

Page 70: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Distributional Hypothesis

DISTRIBUTIONAL HYPOTHESIS

Parole che occorrono nello stesso contesto tendono ad

avere un significato simile (Harris,1968)

La definizione è molto potente, ma per questo anche molto generica:

Cosa si intende per “significato simile ”? parole che hanno qualche relazione tra loro? (correlazione)

parole sinonimi o quasi-sinonimi? (similarità)

Cosa si intende per “contesto” ? un documento? Un paragrafo? Una frase?

una particolare struttura sintattica ?

Perché limitarsi a “parole”, invece di espressioni linguistiche più complesse?

Page 71: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Distributional Hypothesis

CORRELAZIONE DISTRIBUZIONALEDue parole w1 e w2 si dicono distribuzionalmente correlate se hanno molte co-

occorrenze comuni, e queste co-occorrenze non hanno nessuna restrizione sintattica

sulla loro relazione con w1 e w2 .

Due parole w1 e w2 distribuzionalmente correlate sono semanticamente correlate.

Parole dello stesso dominio sono distribuzionalmente correlate, in quanto occorrono negli

stessi contesti (stessi documenti, pagine web, ecc.)

Parole relazionate che non fanno parte dello stesso dominio non sono distribuzionalmente

correlate

ESEMPIO:

correlate: dottore, ospedale, malattia,

medicina, cura,

sintomo

non correlate: dottore, veterinario

Ruolo del dominio

dominio medico

dominio veterinario

Distrib. Hyp.

Page 72: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Distributional Hypothesis

SIMILARITA’ DISTRIBUZIONALEDue parole w1 e w2 si dicono distribuzionalmente simili se hanno molte co-occorrenze

comuni, e queste co-occorrenze sono relazionate a w1 e w2 dalla stessa relazione

sintattica.

Due parole w1 e w2 distribuzionalmente simili sono semanticamente simili.

Parole dello stesso dominio e con le stesse proprietà sintattiche, sono

distribuzionalmente simili: generalmente stessa Part Of Speech stesse relazioni sintattiche

ESEMPIO:simili: dottore, infermiere correlate e non-simili: dottore, guarire

co-occorrenze comuni: co-occorrenze comuni

(paziente,ospedale):

“…X lavora in ospedale…” (lavora , V-Sog, X) “il paziente guarisce in ospedale”

“…X cura paziente…” (cura, V-Sog, X) “il paziente del dottore è nell’ospedale ”

“…la prognosi di X…” (prognosi, NP-PP, X)

Page 73: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Rappresentazioni

La maggior parte degli approcci supervisionati di ML richiede una rappresentazione molto semplice relativamente ai dati di addestramento (input training data).– Vettori di insiemi di coppie feature/value

• ovvero files di valori separati da virgole

Compito primario è quello di estrarre dei dati di addestramento da un corpus rispetto ad una particolare istanza di parola taggata – Ovvero bisogna appropriatamente definire una

finestra di testo attorno all’obiettivo (parola da taggare)

Page 74: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Rappresentazioni superficiali

Informazioni sulle collocation e sulle co-occurrence– Collocational

• Codifica le features delle parole che appaiono in posizioni specifiche a destra ed a sinistra della parola da taggare

– Spesso limitate alle parole stesse come part of speech

– Co-occurrence• Features che caratterizzano le parole che occorrono in una

posizione qualunque nella finestra senza tener conto della posizione

– Tipicamente relative a conteggi di frequenza

Page 75: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Esempi

Esempio: testo dal WSJ

– An electric guitar and bass player stand off to one side not really part of the scene, just as a sort of nod to gringo expectations perhaps

– Si consideri una finestra di +/- 2 dall’obiettivo

Page 76: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Esempi

Esempio: testo dal WSJ

– An electric guitar and bass player stand off to one side not really part of the scene, just as a sort of nod to gringo expectations perhaps

– Si consideri una finestra di +/- 2 dall’obiettivo

Page 77: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Collocational

Informazioni specifiche sulle parole all’interno della finestra

guitar and bass player stand– [guitar, NN, and, CJC, player, NN, stand,

VVB]ovvero un vettore consistente in – [position n word, position n part-of-

speech…]

Page 78: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Co-occurrence

Informazioni sulle parole che co-occorrono alla parola, all’interno della finestra.

• dapprima si identifica un insieme di termini da porre nel vettore.

• quindi si calcola quante volte ciascuno di questi termini occorre in una data finestra

Page 79: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Esempio di co-occorrenza

Assumiamo di disporre di un vocabolario di 12 parole che comprenda guitar e player ma non and e stand; si avrà, ad esempio,

guitar and bass player stand– [0,0,0,1,0,0,0,0,0,1,0,0]

Page 80: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Classificatori

Una volta definito il problema di WSD come un problema di classificazione, allora si può usare un qualunque approccio possibile

– Naïve Bayes (da cui è sempre bene cominciare)– Decision lists– Decision trees– Neural nets– Support vector machines– Nearest neighbor methods…

Page 81: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Argomenti trattati in questa lezione

• Semantica lessicale• Paradigmatica / syntagmatica• Relazioni paradigmatiche (ontologiche)• Ruoli tematici• Shallow semantic analysis• Case grammar • Teoria delle dipendenze concettuali• Selectional restrictions• Word sense disambiguation (wsd)• Similarità, correlazione, co-occorrenza, mutual

information, distributional hpothesis, collocation

Page 82: Semantica lessicale Maria Teresa PAZIENZA. Programma Breve introduzione allNLP Linguaggi Naturali e Linguaggi Formali Complessità Morfologia Teoria: Morfologia.

Elaborazione del linguaggio naturale

Le presentazioni sugli argomenti di elaborazione del linguaggio naturale fanno in alcuni passi riferimento ad alcune presentazioni dei colleghi prof. Fabio Massimo Zanzotto e dottor Marco Pennacchiotti, del dottor Patrick Pantel (ISI-USC), oltre che ad alcune parti del libro: Speech and Language Processing, Prentice Hall, 2000, autori D.Jurafsky, J. H. Martin.