Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

38
Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007

Transcript of Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Page 1: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Sistemi basati su conoscenzaInterazioni tra ontologie e lessici

Prof. M.T. PAZIENZA

a.a. 2006-2007

Page 2: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici computazionali e tecnologia del linguaggio naturale

I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina

La rappresentazione è esplicitaIl significato è collegato alla morfologia e alla

sintassi della parolaE’ possibile creare collegamenti lessicali

multilingua

Page 3: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici computazionali e tecnologia del linguaggio naturale

I lessici computazionali sono collezioni di entrate lessicali di una data lingua

Un entrata lessicale può corrispondere a

lemma: mangiare, cane, bello

forma flessa: mangio, mangiate, cani, belli

Supponendo di riferirsi a lessici basati su lemmi, ogni entrata lessicale può contenere una quantità variabile di informazioni

Page 4: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici computazionali e tecnologia del linguaggio naturale

Forma ortografica (mang-; mangiare; can-; cane)Informazioni categoriali (parti del discorso): N, V, P,

….Tratti morfologici rilevanti, se del caso: genere, numero,

persona, definitezza,

Informazioni sulle proprietà di selezione (sottocategorizzazione)

Informazioni sul significato del lemma (semantica lessicale)

Page 5: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici computazionali e tecnologia del linguaggio naturale

Un sistema di analisi, quindi, ha, almeno, la seguente struttura

Analizzatore sintattico/parser

Frase/testo

lessicoanalizzatoremorfologico

risultato

Page 6: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Ontologie e lessici computazionali

Semantic Web

OntologiesComputational

Lexicons

HLTAccess toContent

?

Page 7: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Ontologie

• “la specifica esplicita di una concettualizzazione” (Gruber, 1993)

• “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)

Page 8: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Ontologie “linguistiche”

Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.)– Specificano le classi semantiche raggruppando termini

simili a livello semantico– Usano un linguaggio di rappresentazione semantica

OBJECT

EVENT

LOCATION

ARTIFACT

ANIMAL

ENTITY

VEHICLE

MAMMAL

BEACH

CONCERT

dog, cat, horse

car, van, truck

beach

piano concert, rock concert

spiaggia

Page 9: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Tipologie di lessici computazionali

• Monolingua vs multilingua

• General purpose vs domain specific

• Tipo di contenuto– (Morfo)sintattico– Semantico– Misto– Terminologico

Page 10: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici computazionali sintattici

• Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.)

• I frame sintattici includono:– Un certo numero di argomenti– Le rispettive categorie sintattiche (PP, NP, ecc.)– Vincoli lessicali sugli argomenti (es. PP deve avere in testa

una preposizione)– Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.)

hit [V: (Subj: NP) (Objd: NP)]answer [N: (Obji: PP_to)]

Page 11: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici computazionali semantici

Rappresentano il significato di una parola– Distinguono differenti sensi di una parola– Catturano le inferenze (essere umano essere

animato)– Rappresentano similarità, relatedness ecc. (es.

banca, conto, denaro sono concetti tra loro collegabili in un ambito finanziario)

Page 12: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici computazionali semantici

Basati su reti concettuali– WordNet (Miller, Fellbaum et al.)

– EuroWordNet (Vossen et al.)

Basati su frame– Mikrokosmos (Nirenburg, Mahesh et al.)– FrameNet (Fillmore et al.)

Ibridi– SIMPLE (Calzolari, Lenci et al.)

Page 13: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Lessici semantici - WordNet

• I lessici sono in genere organizzati alfabeticamente.

• In sostanza, riproducono la struttura dei normali dizionari, in quanto rendono disponibili informazioni a partire dalle parole (dai lemmi, ecc.)

• E’ possibile organizzare un lessico su base diversa, per esempio, concettuale

Page 14: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Parole e concetti

Le parole, es. ‘cane’, ‘mangiare’, ecc. esprimono concetti.

Il cane è un mammifero

La frase ha tra i suoi costituenti ‘il’ ‘cane’ ‘mammifero’…

La proposizione ha tra i suoi costituenti i concetti di cane e mammifero

I concetti sono, in un certo senso, i costituenti del significato (ovvero di ciò che vogliamo comunicare).

Per comprendere la proposizione dobbiamo comprendere i concetti espressi dai suoi costituenti

Page 15: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Polisemia e sinonimia

Un certa parola, (es. ‘cane’, “radice”) può avere sensi differenti, cioè può esprimere più concetti a seconda del contesto; si dice in tal caso polisemica

• cane = mammifero, amico dell’uomo, ecc..

• cane = parte metallica di arma da fuoco che percuotendo la polvere da sparo, dà luogo all’esplosione

• radice = parte da cui origina una pianta, in genere sotterranea …

• radice =operazione matematica, inversa dell’elevamento a potenza…

Page 16: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Polisemia e sinonimia

Al contrario, uno stesso concetto può essere espresso da parole diverse (sinonimi)

casa, abitazione, magione, domicilio…calcolatore, elaboratoreruotare, girare

Sia la sinonimia che la polisemia, non sono proprietà assolute, ma dipendono dal contesto

Page 17: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Inferenze basate su sinonimia

Supponiamo di cercare, all’interno di vari documenti, quelli in cui compare il concetto di casa/abitazione

• La casa era in fondo alla strada………• L’architetto ha progettato l’abitazione in modo che…..• L’edificio si trova………• Il giudice si recò al suo domicilio…..

Page 18: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Iperonimia e iponimia

Un pettirosso è (is-a) un uccello, un uccello è (is-a) un animale, un animale è (is-a) un essere vivente…

Pettirosso is-a uccello is-a animale is-a essere vivente…

Il concetto pettirosso è subordinato al concetto uccello.

Il concetto uccello è superordinato al concetto pettirosso.

• Il nome ‘pettirosso’ è un iponimo del nome ‘uccello’

• Il nome ‘uccello’ è un iperonimo del nome ‘pettirosso’.

Page 19: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Inferenze basate su ipo/iperonimia

Ho visto un pettirosso

Ho visto un uccelloHo visto un animaleHo visto un essere vivente………….

Page 20: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Ereditarietà

Gli hanno regalato un libro di più di cinquecento pagine ed una bicicletta. Carlo ha letto il romanzo in meno di una settimana.

Mario comprò un chilo di filetto.

Page 21: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Anafora e riferimenti

• Gli ho regalato un romanzo, ma il libro lo ha annoiato.

Gli ho regalato un romanzo, ma il film lo ha annoiato.

• Carlo ha comprato un pappagallo. Il povero animale era denutrito.

• Carlo ha comprato un pappagallo. Il pesce era denutrito.

Page 22: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Rappresentare concetti lessicali

Per concetto lessicale si intende un concetto per il quale, in una data lingua, esiste un modo semplice (parola semplice, parola composta, ecc.) per esprimerlo.

• casa è un concetto lessicale

• casa di mattoni, casa bianca non lo sono

Page 23: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Rappresentare concetti lessicali

Si può rappresentare un concetto lessicale come l’insieme delle parole sinonime (synset) che esprimono quel dato concetto.

{automobile, macchina}

{babbo_natale, papà_natale, santa, santa_claus}

e mettere in relazione synsets (rappresentazioni di concetti lessicali) tramite le relazioni di iponimia ed iperonimia.

Page 24: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

{automobile, macchina} is-a

{veicolo} is-a

{mezzo di trasporto }

……………..

{automobile,macchina}

{veicolo}

{mezzo di trasporto}

Is-a

Is-a

Page 25: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Rappresentare concetti lessicali

Criterio di massima per includere due parole nello stesso synset:

Una persona di lingua madre deve poter sostituire l’una con l’altra nella maggior parte dei contesti

• La casa di Mario è bella• L’abitazione di Mario è bellaL’edificio di Mario è belloIl domicilio di Mario è bello

Page 26: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

WordNet (WN)-1980 in poi

WordNet (WN) è stato sviluppato presso l’università di Princeton da George Miller e dai suoi collaboratori come modello del lessico mentale

È una rete semantica in cui i concetti sono definiti una rete semantica in cui i concetti sono definiti in termini di relazioni con altri concetti in termini di relazioni con altri concetti

Page 27: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

WordNet (WN)

In WordNet, i nomi sono suddivisi in 15 gerarchie tra di loro separate.

La radice di ognuna di esse corrisponde ad una sorta di primitivo semantico.

{attività}, {animale}, {artefatto}, {attributo}, {corpo}, {cognizione, conoscenza}, {comunicazione}, {evento, avvenimento}, ……

Page 28: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Ereditarietà e gerarchie

…………………………………………………………………………

attività comunicazione

Page 29: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

WordNet (WN)

WordNet (WN) è un database lessicale per l’inglesedatabase lessicale per l’inglese • con un’alta copertura di entries lessicali inglesi (N, V,

Agg, Avv) e • informazioni su relazioni lessicali e semantiche tra le

entries, tra cui

1. Sinonimia (automobile, macchina)

2. Iponimia - a kind of - (ambulanza, automobile)

3. Meronimia – has part – (mano, dita)

4. Antonimia (giorno, notte)

Page 30: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

WordNet (WN) organizzazione

L’elemento fondamentale è il synset = synonym set

Un synset è equivalente ad un concettoUn concetto viene espresso tramite un synset

Es. sensi di “car” (synset a cui “car” appartiene){car, auto, automobile, machine, motorcar} {car, railcar, railway car, railroad car}{cable car, car}{car, gondola}{car, elevator car}

Page 31: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

WordNet (WN) organizzazione

Tabelle (files) separate per le diverse categorie sintattiche (N, V, Agg, Avv)

Links tra parole e synset ed anche tra synset (che rappresentino relazioni sintattiche)

Es.{persone, individui, mortale, umano }

a kind of {organism, being}

a kind of {living thing, animate thing}

a kind of {object, physical object}

a kind of {entity, physical thing}

Page 32: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Struttura di WordNet

{vehicle}

{conveyance; transport}

{car; auto; automobile; machine; motorcar}

{cruiser; squad car; patrol car; police car; prowl car} {cab; taxi; hack; taxicab; }

{motor vehicle; automotive vehicle}

{bumper}

{car door}

{car window}

{car mirror}

{hinge; flexible joint}

{doorlock}

{armrest}

hyperonym

hyperonym

hyperonym

hyperonymhyperonym

meronym

meronym

meronym

meronym

Page 33: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Architettura di SIMPLE

Italian lexicon

etc.

Greek lexiconGreek lexicon

PAROLE Syntax

Italian lexiconItalian lexicon

Catalan lexiconCatalan lexicon

OntologyLexical

Templates

Language Independent Module

SemU

SemanticRelations

EventStructure

Polysemy

Semantic Frame(semantic roles, etc.)

Page 34: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

SIMPLErelazioni semantiche

Top

Formal Constitutive Agentive Telic

Is_a Is_a_part_of Property

Contains

Created_by Agentive_cause Indirect_telic Activity

Instrumental Is_the_habit_of

Used_for Used_as

... ...

Page 35: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

SIMPLEuna rete semantica

<parte>part

Isa

Isa

Isa

<volare>fly

Used_for

Used_for

<aeroplano>airplane

Is_a_part_of

<uccello>bird

Is_a_part_of

<edificio>building

Is_a_part_of

Ala (wing)

SemU: 3232Type: [Part]Part of an airplane

SemU: 3268Type: [Part]Part of a building

SemU: D358Type: [Body_part]Organ of birds for flying

SemU: 3467Type: [Role]Role in football

<giocatore>player

Isa

Agentive

<fabbricare>make

Agentive

Page 36: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

SIMPLEFrame semantici

il difensore di Berlusconi (Berlusconi's defender)

il difensore del Milan (the Milan fullback)

Difensore N

SemU: 4125

Type: [Role]

Defender

SemU: 3526

Type: [Role]

Fullback

agentnominalization

<squadra>teamIs_a_member_of

PREDDifendere#1<Arg1>, <Arg2>

Page 37: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Frame disambiguation

L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali

La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP:– La pagina del libro (part-of)– Il difensore del Milan (member-of)– Il suonatore di liuto (telic)– Il tavolo di legno (made-of)

Page 38: Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

SIMPLEesempi

semantic frame

semantic relations

ontology