Post on 03-May-2015
Sistemi basati su conoscenzaInterazioni tra ontologie e lessici
Prof. M.T. PAZIENZA
a.a. 2006-2007
Lessici computazionali e tecnologia del linguaggio naturale
I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina
La rappresentazione è esplicitaIl significato è collegato alla morfologia e alla
sintassi della parolaE’ possibile creare collegamenti lessicali
multilingua
Lessici computazionali e tecnologia del linguaggio naturale
I lessici computazionali sono collezioni di entrate lessicali di una data lingua
Un entrata lessicale può corrispondere a
lemma: mangiare, cane, bello
forma flessa: mangio, mangiate, cani, belli
Supponendo di riferirsi a lessici basati su lemmi, ogni entrata lessicale può contenere una quantità variabile di informazioni
Lessici computazionali e tecnologia del linguaggio naturale
Forma ortografica (mang-; mangiare; can-; cane)Informazioni categoriali (parti del discorso): N, V, P,
….Tratti morfologici rilevanti, se del caso: genere, numero,
persona, definitezza,
Informazioni sulle proprietà di selezione (sottocategorizzazione)
Informazioni sul significato del lemma (semantica lessicale)
Lessici computazionali e tecnologia del linguaggio naturale
Un sistema di analisi, quindi, ha, almeno, la seguente struttura
Analizzatore sintattico/parser
Frase/testo
lessicoanalizzatoremorfologico
risultato
Ontologie e lessici computazionali
Semantic Web
OntologiesComputational
Lexicons
HLTAccess toContent
?
Ontologie
• “la specifica esplicita di una concettualizzazione” (Gruber, 1993)
• “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)
Ontologie “linguistiche”
Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.)– Specificano le classi semantiche raggruppando termini
simili a livello semantico– Usano un linguaggio di rappresentazione semantica
OBJECT
EVENT
LOCATION
ARTIFACT
ANIMAL
ENTITY
VEHICLE
MAMMAL
BEACH
CONCERT
dog, cat, horse
car, van, truck
beach
piano concert, rock concert
spiaggia
Tipologie di lessici computazionali
• Monolingua vs multilingua
• General purpose vs domain specific
• Tipo di contenuto– (Morfo)sintattico– Semantico– Misto– Terminologico
Lessici computazionali sintattici
• Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.)
• I frame sintattici includono:– Un certo numero di argomenti– Le rispettive categorie sintattiche (PP, NP, ecc.)– Vincoli lessicali sugli argomenti (es. PP deve avere in testa
una preposizione)– Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.)
hit [V: (Subj: NP) (Objd: NP)]answer [N: (Obji: PP_to)]
Lessici computazionali semantici
Rappresentano il significato di una parola– Distinguono differenti sensi di una parola– Catturano le inferenze (essere umano essere
animato)– Rappresentano similarità, relatedness ecc. (es.
banca, conto, denaro sono concetti tra loro collegabili in un ambito finanziario)
Lessici computazionali semantici
Basati su reti concettuali– WordNet (Miller, Fellbaum et al.)
– EuroWordNet (Vossen et al.)
Basati su frame– Mikrokosmos (Nirenburg, Mahesh et al.)– FrameNet (Fillmore et al.)
Ibridi– SIMPLE (Calzolari, Lenci et al.)
Lessici semantici - WordNet
• I lessici sono in genere organizzati alfabeticamente.
• In sostanza, riproducono la struttura dei normali dizionari, in quanto rendono disponibili informazioni a partire dalle parole (dai lemmi, ecc.)
• E’ possibile organizzare un lessico su base diversa, per esempio, concettuale
Parole e concetti
Le parole, es. ‘cane’, ‘mangiare’, ecc. esprimono concetti.
Il cane è un mammifero
La frase ha tra i suoi costituenti ‘il’ ‘cane’ ‘mammifero’…
La proposizione ha tra i suoi costituenti i concetti di cane e mammifero
I concetti sono, in un certo senso, i costituenti del significato (ovvero di ciò che vogliamo comunicare).
Per comprendere la proposizione dobbiamo comprendere i concetti espressi dai suoi costituenti
Polisemia e sinonimia
Un certa parola, (es. ‘cane’, “radice”) può avere sensi differenti, cioè può esprimere più concetti a seconda del contesto; si dice in tal caso polisemica
• cane = mammifero, amico dell’uomo, ecc..
• cane = parte metallica di arma da fuoco che percuotendo la polvere da sparo, dà luogo all’esplosione
• radice = parte da cui origina una pianta, in genere sotterranea …
• radice =operazione matematica, inversa dell’elevamento a potenza…
Polisemia e sinonimia
Al contrario, uno stesso concetto può essere espresso da parole diverse (sinonimi)
casa, abitazione, magione, domicilio…calcolatore, elaboratoreruotare, girare
Sia la sinonimia che la polisemia, non sono proprietà assolute, ma dipendono dal contesto
Inferenze basate su sinonimia
Supponiamo di cercare, all’interno di vari documenti, quelli in cui compare il concetto di casa/abitazione
• La casa era in fondo alla strada………• L’architetto ha progettato l’abitazione in modo che…..• L’edificio si trova………• Il giudice si recò al suo domicilio…..
Iperonimia e iponimia
Un pettirosso è (is-a) un uccello, un uccello è (is-a) un animale, un animale è (is-a) un essere vivente…
Pettirosso is-a uccello is-a animale is-a essere vivente…
Il concetto pettirosso è subordinato al concetto uccello.
Il concetto uccello è superordinato al concetto pettirosso.
• Il nome ‘pettirosso’ è un iponimo del nome ‘uccello’
• Il nome ‘uccello’ è un iperonimo del nome ‘pettirosso’.
Inferenze basate su ipo/iperonimia
Ho visto un pettirosso
Ho visto un uccelloHo visto un animaleHo visto un essere vivente………….
Ereditarietà
Gli hanno regalato un libro di più di cinquecento pagine ed una bicicletta. Carlo ha letto il romanzo in meno di una settimana.
Mario comprò un chilo di filetto.
Anafora e riferimenti
• Gli ho regalato un romanzo, ma il libro lo ha annoiato.
Gli ho regalato un romanzo, ma il film lo ha annoiato.
• Carlo ha comprato un pappagallo. Il povero animale era denutrito.
• Carlo ha comprato un pappagallo. Il pesce era denutrito.
Rappresentare concetti lessicali
Per concetto lessicale si intende un concetto per il quale, in una data lingua, esiste un modo semplice (parola semplice, parola composta, ecc.) per esprimerlo.
• casa è un concetto lessicale
• casa di mattoni, casa bianca non lo sono
Rappresentare concetti lessicali
Si può rappresentare un concetto lessicale come l’insieme delle parole sinonime (synset) che esprimono quel dato concetto.
{automobile, macchina}
{babbo_natale, papà_natale, santa, santa_claus}
e mettere in relazione synsets (rappresentazioni di concetti lessicali) tramite le relazioni di iponimia ed iperonimia.
{automobile, macchina} is-a
{veicolo} is-a
{mezzo di trasporto }
……………..
{automobile,macchina}
{veicolo}
{mezzo di trasporto}
Is-a
Is-a
Rappresentare concetti lessicali
Criterio di massima per includere due parole nello stesso synset:
Una persona di lingua madre deve poter sostituire l’una con l’altra nella maggior parte dei contesti
• La casa di Mario è bella• L’abitazione di Mario è bellaL’edificio di Mario è belloIl domicilio di Mario è bello
WordNet (WN)-1980 in poi
WordNet (WN) è stato sviluppato presso l’università di Princeton da George Miller e dai suoi collaboratori come modello del lessico mentale
È una rete semantica in cui i concetti sono definiti una rete semantica in cui i concetti sono definiti in termini di relazioni con altri concetti in termini di relazioni con altri concetti
WordNet (WN)
In WordNet, i nomi sono suddivisi in 15 gerarchie tra di loro separate.
La radice di ognuna di esse corrisponde ad una sorta di primitivo semantico.
{attività}, {animale}, {artefatto}, {attributo}, {corpo}, {cognizione, conoscenza}, {comunicazione}, {evento, avvenimento}, ……
Ereditarietà e gerarchie
…………………………………………………………………………
attività comunicazione
WordNet (WN)
WordNet (WN) è un database lessicale per l’inglesedatabase lessicale per l’inglese • con un’alta copertura di entries lessicali inglesi (N, V,
Agg, Avv) e • informazioni su relazioni lessicali e semantiche tra le
entries, tra cui
1. Sinonimia (automobile, macchina)
2. Iponimia - a kind of - (ambulanza, automobile)
3. Meronimia – has part – (mano, dita)
4. Antonimia (giorno, notte)
WordNet (WN) organizzazione
L’elemento fondamentale è il synset = synonym set
Un synset è equivalente ad un concettoUn concetto viene espresso tramite un synset
Es. sensi di “car” (synset a cui “car” appartiene){car, auto, automobile, machine, motorcar} {car, railcar, railway car, railroad car}{cable car, car}{car, gondola}{car, elevator car}
WordNet (WN) organizzazione
Tabelle (files) separate per le diverse categorie sintattiche (N, V, Agg, Avv)
Links tra parole e synset ed anche tra synset (che rappresentino relazioni sintattiche)
Es.{persone, individui, mortale, umano }
a kind of {organism, being}
a kind of {living thing, animate thing}
a kind of {object, physical object}
a kind of {entity, physical thing}
Struttura di WordNet
{vehicle}
{conveyance; transport}
{car; auto; automobile; machine; motorcar}
{cruiser; squad car; patrol car; police car; prowl car} {cab; taxi; hack; taxicab; }
{motor vehicle; automotive vehicle}
{bumper}
{car door}
{car window}
{car mirror}
{hinge; flexible joint}
{doorlock}
{armrest}
hyperonym
hyperonym
hyperonym
hyperonymhyperonym
meronym
meronym
meronym
meronym
Architettura di SIMPLE
Italian lexicon
etc.
Greek lexiconGreek lexicon
PAROLE Syntax
Italian lexiconItalian lexicon
Catalan lexiconCatalan lexicon
OntologyLexical
Templates
Language Independent Module
SemU
SemanticRelations
EventStructure
Polysemy
Semantic Frame(semantic roles, etc.)
SIMPLErelazioni semantiche
Top
Formal Constitutive Agentive Telic
Is_a Is_a_part_of Property
Contains
Created_by Agentive_cause Indirect_telic Activity
Instrumental Is_the_habit_of
Used_for Used_as
... ...
SIMPLEuna rete semantica
<parte>part
Isa
Isa
Isa
<volare>fly
Used_for
Used_for
<aeroplano>airplane
Is_a_part_of
<uccello>bird
Is_a_part_of
<edificio>building
Is_a_part_of
Ala (wing)
SemU: 3232Type: [Part]Part of an airplane
SemU: 3268Type: [Part]Part of a building
SemU: D358Type: [Body_part]Organ of birds for flying
SemU: 3467Type: [Role]Role in football
<giocatore>player
Isa
Agentive
<fabbricare>make
Agentive
SIMPLEFrame semantici
il difensore di Berlusconi (Berlusconi's defender)
il difensore del Milan (the Milan fullback)
Difensore N
SemU: 4125
Type: [Role]
Defender
SemU: 3526
Type: [Role]
Fullback
agentnominalization
<squadra>teamIs_a_member_of
PREDDifendere#1<Arg1>, <Arg2>
Frame disambiguation
L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali
La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP:– La pagina del libro (part-of)– Il difensore del Milan (member-of)– Il suonatore di liuto (telic)– Il tavolo di legno (made-of)
SIMPLEesempi
semantic frame
semantic relations
ontology