Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella...

9

Click here to load reader

Transcript of Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella...

Page 1: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

1

Informatica e lingue naturali - Isabella Chiari (2004)

1

Dizionari elettronici

Dizionari elettronici e dizionari macchinaApplicazioni della lessicografia computazionaleDizionari informatizzati I dizionari basati su corpora

Informatica e lingue naturali - Isabella Chiari (2004)

2

lessicografia computazionale

Patrick Hanks (2003: 49) nell’OxfordHandbook of Computational Linguistics, la lessicografia computazionale ha due compiti: “1. la ristrutturazione e lo sfruttamento dei dizionari tradizionali a fini computazionali; 2. l’uso di tecniche computazionali per compilare nuovi dizionari”.

Page 2: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

2

Informatica e lingue naturali - Isabella Chiari (2004)

3

Problemi terminologiciIl termine dizionario elettronico viene oggi usato in una molteplicità di sensi diversi. il termine dizionario-macchina che sottolinea la relazione stretta tra repertorio lessicale e applicazioni computazionali che svolgono operazioni facendo ricorso a tale repertorio.

sottospecie di dizionario-macchina è il lessico di frequenzaLexical Databases o Resources

I dizionari informatizzati sono ad esempio cd-rom distribuiti insieme al proprio corrispondente cartaceo dizionari che possiamo consultare o scaricare su internetComputer-Aided Traditional Lexicographydizionari basati su corpora

Informatica e lingue naturali - Isabella Chiari (2004)

4

I dizionari-macchina nella ricerca linguistica

machine-readable dictionaryè un repertorio di lemmi o forme flesse di una lingua associate a una serie di informazioni linguistiche supplementari di vario tipo, i cui dati sono resi disponibili all’accesso di una o più applicazioni computazionali. i dizionari-macchina servono ad altre applicazioni quali ad esempio il riconoscimento e la sintesi vocale, la correzione ortografica, il tagging e il parsing sintattico o la traduzione automatica.

Page 3: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

3

Informatica e lingue naturali - Isabella Chiari (2004)

5

Esempio

agli, aglio. N: mpagli, allo. PAA: mpAgnelli, Agnelli. NPRagnelli, agnello. N: mpai, ai. ESCai, aio. N+Um: mpai, al. PAA: mpaiutano, aiutare. V+RSI:X3paiutare, aiutare. V+RSI: I

(da Vietri, 2005: 441)

Informatica e lingue naturali - Isabella Chiari (2004)

6

Applicazioni della lessicografia computazionale

Applicazioni di Natural Language Processing. Dizionari-macchina di tipo morfo-sintattico servono per la costruzione di applicazioni di parsingsintattico, tagging grammaticale, correzione ortografica e grammaticale, sillabazione di documenti Applicazioni delle tecnologie del parlato. Dizionari macchina dotati di informazioni sia fonetiche (acustiche e uditive) che morfo-sintattiche sono associati ai sistemi di sintesi del parlato (TTS), di riconoscimento vocale e di dialogo uomo-macchina

Page 4: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

4

Informatica e lingue naturali - Isabella Chiari (2004)

7

Ontologie e basi di conoscenza. Con l’ausilio di dizionari elettronici a base semantica (come WordNet) sono strutturati motori per l’estrazione di rappresentazioni astratte delle nostre conoscenze (knowledge bases, da cui deriviamo inferenze e sviluppiamo attese) da testi di vario tipo.

Lo sviluppo di ontologie, ossia di sistemi che rappresentano la struttura delle nostre conoscenze, a sua volta viene integrato in applicazioni di NLP come la correzione ortografica (per esempio per la disambiguazione delle omografie) o grammaticale, il riconoscimento del parlato, ma anche nella disambiguazione semantica, nel reperimento di informazioni nei documenti (text mining) e nell’estrazione di parole chiave e riassunti da un testo (summarization).

Informatica e lingue naturali - Isabella Chiari (2004)

8

Traduzione automatica. Dizionari-macchina con informazioni lessicali e sintattiche (oltre che statistiche) sono indispensabili per i sistemi di traduzione assistita sia di tipo basato su regole che probabilisticoInformation retrieval ed information extraction. I dizionari-macchina sono inoltre essenziali per una serie di motori di cui si fa uso comunemente per selezionare documenti che presentino determinate caratteristiche (come alcuni motori di ricerca sul web) e per estrarre specifiche informazioni rilevanti dagli stessi documenti o da database strutturati.

Page 5: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

5

Informatica e lingue naturali - Isabella Chiari (2004)

9

Un esempio Wordnet

http://wordnet.princeton.edu/elaborato al Cognitive Science Laboratorydell’Università di Princeton e ideato dallo psicolinguista americano G. A. Miller. repertorio lessicale della lingua ingleseorganizzato per insiemi semantici in modo da rappresentare il modo con il quale immagazziniamo nella nostra mente le parole secondo i gruppi di significati e delle gerarchie semantiche.

Informatica e lingue naturali - Isabella Chiari (2004)

10

A cosa serve?

WordNet è implementato in diverse forme in applicazioni per l’identificazione delle accezioni delle parole, nell’information retrieval, nell’identificazione delle collocazioni, nella gestione di terminologie, nella disambiguazione semantica, nello sviluppo di ontologie.

Page 6: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

6

Informatica e lingue naturali - Isabella Chiari (2004)

11

MultiWordNet(http://multiwordnet.itc.it/)tratta anche la lingua italiana e che permette l’accesso a ricerche per famiglie lessicali, relazioni e campi semantici, traducenti in inglese, sinonimi, iponimi ed iperonimi per ciascuna accezione di una parola e anche l’accesso ad esempi autentici, nel formato di concordanze, tratti da corpora di riferimento. il dizionario è essenzialmente fondato sulle relazioni di sinonimia, che permettono di costruire insiemi sinonimici, detti synsets, del tipo {elaboratore, computer, cervello_elettronico, calcolatore}. MultiWordNet ad oggi ha censito 58.000 sensi della lingua italiana, e individuato 32.700 synsets.

Informatica e lingue naturali - Isabella Chiari (2004)

12

Esempio di voce “calcolatore”

has_hypernym {macchina}has_hyponym {calcolatore_analogico},

{calcolatore_digitale}, etc.has_part {microchip, chip}, etc.{elaboratore, computer, cervello_elettronico,

calcolatore} corrisponde a {computer, data_processor,

electronic_computer, information_processing_system}

Page 7: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

7

Informatica e lingue naturali - Isabella Chiari (2004)

13

Il dizionario informatizzatoconvenienti nella consultazione perché occupano poco spazio possono contenere una mole di informazione paragonabile a diversi volumi su carta. la ricerca di un lemma specifico è condotta nel giro di pochi secondi un dizionario informatizzato fornisce una vasta moltitudine di strumenti di studio e comprensione del lessico impossibili da estrarre da un dizionario cartaceo. si possono compiere delle ricerche avanzate per parti di parola (inizio, centro, fine), categoria grammaticale, data di attestazione, etimologia, marca d’uso, ecc.

Informatica e lingue naturali - Isabella Chiari (2004)

14

Il progetto

L’informatizzazione ha infatti rivoluzionato non solo il prodotto e le sue fruizioni, ma anche e soprattutto il lavoro di costruzione delle risorse linguistiche vere e proprie:

l’acquisizione del materiale,la redazione delle voci, l’annotazione, la rappresentazione e il trattamento delle informazioni linguistiche che vengono processate.

Il dizionario informatizzato diviene così un database lessicale standardizzato.

Page 8: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

8

Informatica e lingue naturali - Isabella Chiari (2004)

15

I dizionari basati su corpora

Il ricorso a materiale desunto da corpora per l’esemplificazione ma anche per la strutturazione del dizionario e per le analisi linguistiche che sono necessarie per tali presentazioni è ancora relativamente nuovo. Al momento solamente la lingua inglese dispone di dizionari basati su corpora di carattere generale

Informatica e lingue naturali - Isabella Chiari (2004)

16

Il progetto Cobuild

Collins Cobuild English Dictionary forAdvanced Learners (2001) associato alla Bank of English diretta da John Sinclair, sin dalla fine degli anni Ottanta ha lavorato alla elaborazione di dizionari corpus-based

Page 9: Dizionari elettronici - Alphabit.net elettronici.pdf · 2 Informatica e lingue naturali - Isabella Chiari (2004) 3 Problemi terminologici Il termine dizionario elettronico viene oggi

9

Informatica e lingue naturali - Isabella Chiari (2004)

17

L’uso dei corpora

criteri di selezione e presentazione del materialel’ordinamento delle accezionicanoni di definizione dei lemmiL’accesso diretto a corpora di riferimento serve inoltre per il disegno vero e proprio della voce, per raccogliere i poli di senso e individuare le principali accezioni.

Informatica e lingue naturali - Isabella Chiari (2004)

18

Definizioni

Stato di depressione e melanconiaSe hai il blues sei triste e depresso

A state of depression or melancholyIf you have got the blues, you feel sad and depressed

Blues

La tonalità di quella parte dello spettro visibile tra il verde e l'indaco, richiamata nell'osservatore umano da energia radiante di lunghezza d'onda di circa 420 - 490 nanometri; una serie di colori che possono variare nella luminosità e saturazione, la cui tonalità è quella di un cielo sereno di giorno; uno dei colori additivi primari; uno delle tonalità psicologiche primarie

Qualcosa di blu ha il colore del cielo in una giornata di sole

The hue of that portion of the visible spectrum lying between green and indigo, evoked in the human observer by radiant energy with wavelengths of approximately 420 to 490 nanometers; any of a group of colors that may vary in lightness and saturation, whose hue is that of a clear daytime sky; one of the additive or light primaries; one of the psychological primary hues

Something that is blue is the colour of the sky on a sunny day

Blue

American Heritage, 2000Cobuild, 2001Lemma