INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

Post on 25-Feb-2016

52 views 0 download

description

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER. Rappresentazioni vettoriali del significato Teorie computazionali dell’acquisizione lessicale. METODI COMPUTAZIONALI PER LA SCOPERTA DI SIGNIFICATI. - PowerPoint PPT Presentation

Transcript of INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

Rappresentazioni vettoriali del significatoTeorie computazionali dell’acquisizione lessicale

METODI COMPUTAZIONALI PER LA SCOPERTA DI SIGNIFICATI

La prossima frontiera nell’uso degli strumenti informatici per la lessicografia e’ il loro uso per produrre definizioni scoprire accezioni Annotare corpora automaticamente con il

significato delle parole

ACQUISIZIONE LESSICALE

I modelli informatici di acquisizione lessicale si basano su due idee: Che il significato delle parole e’ un

vettore multidimensionale Che il significato delle parole viene dato

dal contesto in cui appaiono

CONCETTI COME ‘CLUSTER’

CHICKENGOOSE

ORIOLEROBIN

OSTRICH

LESSICOGRAFIA: SIGNIFICATI COME CONTESTI

“Thy shall know a word by the company it keeps” (Firth)

SIGNIFICATI COME CONTESTI

The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily.

Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds.

whack, whack, whack his hand made vigorous spanking gestures on his left PALM.

The PALMs of his hands are sweaty

RAPPRESENTAZIONI VETTORIALI DEL SIGNIFICATO

CANE

GATTO

SGOMBRO

pelliccia

acquatico

animato

Airplane

Day

CLUSTERING DI CONCETTI

CarVan

Month

Year

JoyLove

Fear

COSTRUZIONE DI VETTORI LESSICALI A PARTIRE DA CONTESTI

Per costruire il vettore C(w) per la parola w,

1. Scandire ogni testo del corpus2. Ogni volta che si incontra w,

incrementare tutte le celle di C(w) che corrispondono a parole che si trovano in prossimita’ di w, entro una finestra di dimensioni prestabilite

COSTRUZIONE DI VETTORI DI PAROLE DA CONTESTI

Dato il corpus:1. John ate a banana.2. John ate an apple.3. John drove a lorry.

john ate drove banana apple lorry

john 0 2 1 1 1 1

ate 2 0 0 1 1 0

drove 1 0 0 0 0 1

banana 1 1 0 0 0 0

apple 1 1 0 0 0 0

lorry 1 0 1 0 0 0

ESEMPIO DI INFORMAZIONI CHE SI POSSONO ESTRARRE DA CONTESTI

Speaker-generated features:

Matching Features Collected Using Our Text Patterns – (with

frequency)red (20) red (5), colour (5), color (1)

fruit (18) fruit (5)

sweet (13) sweetness (8)

has seeds (12) seeds (6), seed (2)

grows (10) growth (1), ripening (10)

small (6) size (19)

taste (6) taste (6), flavor (6), flavour (2)

food (5) nutrition (1)

from garden (5) cultivation (7), harvest (6), harvester (2)

juice (5) juice (10), juices (3)

dessert (3) sweetness (8)

eat (3) nutrition (1)

VARIAZIONI

I metodi proposti nella letteratura differiscono per quel che riguarda Le dimensioni della finestra Se gli elementi del vettore sono ‘pesati’ o

meno Se ogni parola viene considerata come

dimensione Se viene applicata riduzione di

dimensionalita’

VARIANTE: USO DI MODIFICATORI

…. The Soviet cosmonaut …. The American astronaut …. The red American car …. The old red truck … the spacewalking cosmonaut … the full Moon …

cosmonaut astronaut moon car truck

Soviet 1 0 0 1 1

American 0 1 0 1 1

spacewalking 1 1 0 0 0

red 0 0 0 1 1

full 0 0 1 0 0

old 0 0 0 1 1

MISURE GEOMETRICHE DI SOMIGLIANZA

Euclidean distance:

Cosine:

Manhattan Metric:

n

i ii yxd1

n

i in

i i

n

i ii

yx

yx

12

12

1)cos(

n

i ii yxd1

2

PLAUSIBILITA’ COGNITIVA DI QUESTI MODELLI

I modelli basati sugli spazi vettoriali sono stati utilizzati per predirre il comportamento in tasks che includono Identificazione di sinonimi (Landauer & Dumais

1997) Categorizzazione (Burgess & Lund 1997) Semantic priming (Lowe 2000, Vigliocco et al

2004) Errori nella sostituzione di parole (Vigliocco et al

2004)

IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL

IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL

UMANI E MACCHINE AL TOEFL

MODELLI PIU’ COMPLESSI

I modelli proposti piu’ di recente vanno oltre i modelli appena visti nel senso di Cercare di utilizzare una versione piu’

complessa di ‘contesto’ che tiene conto della struttura sintattica degli enunciati

Cercare di estrarre da testi relazioni SEMANTICHE ed utilizzare quelle per la caratterizzazione delle parole

MODELLI VETTORIALI BASATI SULLA SINTASSI

attacked fox dog

<subj,fox> <det,the> <det,the>

<obj,dog> <mod,red> <mod,lazy>

attacked

fox dog

the red the lazy

subj obj

det detmod mod

E.g., Grefenstette, 1994; Lin, 1998; Curran and Moens, 2002

VETTORI SINTATTICI

GREFENSTETTE, LIN, LAPATA & PADO: LE RELAZIONI GRAMMATICALI FUNZIONANO MEGLIO DELLE PAROLE PER CARATTERIZZARE I CONCETTI

SEXTANT (Grefenstette, 1992, 1994)

It was concluded that the carcinoembryonic antigens represent cellular constituents which are repressed during the course of differentiation the normal digestive system epithelium and reappear in the corresponding malignant cells by a process of derepressive dedifferentiation

antigen carcinoembryonic-ADJantigen repress-DOBJantigen represent-SUBJconstituent cellular-ADJconstituent represent-DOBJcourse repress-IOBJ……..

SEXTANT: MISURA DI SOMIGLIANZA

dog pet-DOBJdog eat-SUBJ dog shaggy-ADJdog brown-ADJdog leash-NN

cat pet-DOBJcat pet-DOBJ cat hairy-ADJcat leash-NN

CATDOG

B andA by possessed attributes Unique

B andA by shared AttributesCount

CountJaccard:

6

2ADJ}-shaggyDOBJ,-petNN,-leashADJ,-hairySUBJ,-eatADJ,-{brown

DOBJ}-pet NN,-{leash

CountCount

MODELLI VETTORIALI BASATI SULLA SEMANTICA

Questi modelli cercano di identificare nel testo relazioni semantiche e di usarle per caratterizzare i significati dei concetti

HEARST 1992, 1998: USING PATTERNS TO EXTRACT ISA LINKS

Intuition: certain constructions typically used to express certain types of semantic relations

E.g., for ISA: The seabass IS A fish Swimming, running AND OTHER

activities Vehicles such as cars, trucks and bikes

TEXT PATTERNS FOR HYPONYMY EXTRACTION

HEARST 1998: NP {, NP}* {,} or other NPbruises …… broken bones, and other INJURIESHYPONYM (bruise, injury)

EVALUATION: 55.46% precision wrt WordNet

Cimiano and Wenderoth 2005

Extract from text the information about concepts specified by Pustejovsky’s Generative Lexicon theory

Evaluation: human judgments

PUSTEJOVSKY’S GENERATIVE LEXICON Pustejovsky (1991, 1995): lexical entries

have a QUALIA STRUCTURE consisting of four ‘roles’ FORMAL role: what type of object it is (shape,

color, ….) CONSTITUTIVE role: what it consists of (parts,

stuff, etc.) E.g., for books, chapters, index, paper ….

TELIC role: what is the purpose of the object (e.g., for books, READING)

AGENTIVE role: how the object was created (e.g., for books, WRITING)

EXAMPLE: QS FOR “KNIFE”

CIMIANO AND WENDEROTH’S APPROACH

PATTERNS FOR THE CONSTITUTIVE ROLE

GOOD EXAMPLES

PROBLEMS

PATTERNS FOR THE FORMAL ROLE

PATTERNS FOR THE AGENTIVE ROLE

PATTERNS FOR THE TELIC ROLE

SCOPERTA DI ACCEZIONIThe breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily.

Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds.

whack, whack, whack his hand made vigorous spanking gestures on his left PALM.

The PALMs of his hands are sweaty

<breeze, frond,gently,lap,lazy,soft, sway, tree,wave>

<California,cycad,doll-sized,famous,frond,popular,Sago,…>

DISAMBIGUAZIONE DEI SIGNIFICATI

Sense 1: horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) Sense 2: horse -- (a padded gymnastic apparatus on legs) Sense 3: cavalry, horse cavalry, horse -- (troops trained to fight on horseback: "500 horse led the attack") Sense 4: sawhorse, horse, sawbuck, buck -- (a framework for holding wood that is being sawed) Sense 5: knight, horse -- (a chessman in the shape of a horse's head; can move two squares horizontally and one vertically (or vice versa)) Sense 6: heroin, diacetyl morphine, H, horse, junk, scag, shit, smack -- (a morphine derivative)

Corton has been involved in the design, manufacture and installation of horse stalls and horse-related equipment like external doors, shutters and accessories.

DISAMBIGUAZIONE DEI SIGNIFICATI

<contextfile concordance="brown"><context filename="br-h15" paras="yes">…..<wf cmd="ignore" pos="IN">in</wf> <wf cmd="done" pos="NN" lemma="fig" wnsn="1" lexsn="1:10:00::">fig.</wf>   <wf cmd="done" pos="NN" lemma="6" wnsn="1“ lexsn="1:23:00::">6</wf>   <punc>)</punc>   <wf cmd="done" pos="VBP" ot="notag">are</wf>   <wf cmd="done" pos="VB" lemma="slip" wnsn="3" lexsn="2:38:00::">slipped</wf>   <wf cmd="ignore" pos="IN">into</wf>   <wf cmd="done" pos="NN" lemma="place" wnsn="9" lexsn="1:15:05::">place</wf>   <wf cmd="ignore" pos="IN">across</wf>   <wf cmd="ignore" pos="DT">the</wf>   <wf cmd="done" pos="NN" lemma="roof" wnsn="1" lexsn="1:06:00::">roof</wf>   <wf cmd="done" pos="NN" lemma="beam" wnsn="2" lexsn="1:06:00::">beams</wf>   <punc>,</punc>

ANNUNCI DI FINE CORSO

Appelli sessione estiva: 9 Giugno 2 Luglio

TIROCINI PRESSO IL CENTRO MENTE / CERVELLO DISPONIBILI!! clic.cimec.unitn.it Chiedere a me o Marco Baroni