Semantica e lessico - · PDF fileDizionari ed enciclopedie

51
12/03/2010 1 SEMANTICA E LESSICO Per la lessicografia contemporanea I. Chiari, Linguistica computazionale - a.a. 2009/2010 1 Definizioni Discipline Vocabolario: insieme delle parole di una lingua o parte di esso; insieme di parole che parlanti specifici di una lingua possiedono; nell‟uso comune è l‟opera che raccoglie il lessico; in questa accezione è sinonimo di dizionario Lessicografia: tecnica di composizione dei dizionari Semantica: settore del lessico relativo al significato e ai suoi meccanismi Parola: definizione problematica. Spesso usata con il significato di voce,vocabolo.La definizione più diffusa di parola è “segmento della catena parlata o del testo scritto tale che non sia interrompibile da altri elementi, che sia mobile, che possa comparire da solo e che abbia un significato” (Beccaria, G. (1994). Dizionario di linguistica e di filologia, metrica, retorica. Torino, Einaudi) 2 I. Chiari, Linguistica computazionale - a.a. 2009/2010

Transcript of Semantica e lessico - · PDF fileDizionari ed enciclopedie

Page 1: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

1

SEMANTICA E LESSICO

Per la lessicografia contemporanea

I. Chiari, Linguistica computazionale - a.a. 2009/2010 1

Definizioni Discipline

Vocabolario: insieme delle parole di una lingua o parte di esso; insieme di parole che parlanti specifici di una lingua possiedono; nell‟uso comune è l‟opera che raccoglie il lessico; in questa accezione è sinonimo di dizionario

Lessicografia: tecnica di composizione dei dizionari

Semantica: settore del lessico relativo al significato e ai suoi meccanismi

Parola: definizione problematica. Spesso usata con il significato di voce,vocabolo.La definizione più diffusa di parola è “segmento della catena parlata o del testo scritto tale che non sia interrompibile da altri elementi, che sia mobile, che possa comparire da solo e che abbia un significato” (Beccaria, G. (1994). Dizionario di linguistica e di filologia, metrica, retorica. Torino, Einaudi)

2

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 2: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

2

vocabolario

I. Chiari, Linguistica computazionale - a.a. 2009/2010

3

Da T. De Mauro, La fabbrica delle parole, UTET, 2000.

lessico

I. Chiari, Linguistica computazionale - a.a. 2009/2010

4

Da T. De Mauro, La fabbrica delle

parole, UTET, 2000.

Page 3: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

3

dizionario

I. Chiari, Linguistica computazionale - a.a. 2009/2010

5

Da T. De Mauro, La fabbrica delle parole, UTET, 2000.

Terminologia della lessicologia

I. Chiari, Linguistica computazionale - a.a. 2009/2010

6

Parole chiave

• LESSEMA

• termine adoperato in lessicologia strutturale e “indica l‟unità lessicale a due facce (significante e significato) appartenente al piano della langue, del sistema linguistico e come tale astratta “

• LEMMA

• Forma di citazione del lessema nel dizionario

• TERMINE

• parola appartenente a un linguaggio settoriale, ad un ambito definito,avente un significato preciso e univoco (es. termine regionale, dialettale)

• PAROLA TESTUALE o occorrenza

• PAROLA GRAFICA

• Sequenza di caratteri alfabetici compresi tra due spazi o segni di interpunzione

• POLIREMATICA

Page 4: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

4

TERMINOLOGIA

PAROLA (Inglese: WORD)

Un‟unita‟ linguistica a cui sono associate una funzione

grammaticale ed un significato (Marello)

FORME di parola / parole testuali

Varianti morfologiche di una parola con funzioni

grammaticali anche diverse:

BELLO, BELLISSIMO

DOTTORE, DOTTORI

MANGERO‟, MANGIARE

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

7

I. Chiari, Linguistica computazionale - a.a. 2009/2010

TERMINOLOGIA (2)

VOCE di un dizionario (Inglese: ENTRY) Le informazioni date da un dizionario su una parola

indicizzata da un certo LEMMA

LEMMA La forma di parola „canonica‟ usata per rappresentare la

parola nel dizionario (per esempio, per deciderne la posizione alfabetica)

Per esempio, DOTTORE per il sostantivo con forme DOTTORE, DOTTORI

MANGIARE per il verbo con forme MANGIO / MANGIERO‟ / MANGIO‟

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

8

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 5: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

5

Lessemi e parole testuali

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Quel ramo del lago di Como, che volge a mezzogiorno,

tra due catene non interrotte di monti, tutto a seni e a golfi, a

seconda dello sporgere e del rientrare di quelli, vien, quasi a

un tratto, a ristringersi, e a prender corso e figura di fiume,

tra un promontorio a destra, e un'ampia costiera dall'altra

parte; e il ponte, che ivi congiunge le due rive, par che renda

ancor più sensibile all'occhio questa trasformazione, e segni

il punto in cui il lago cessa, e l'Adda rincomincia, per ripi-

gliar poi nome di lago dove le rive, allontanandosi di nuovo,

lascian l'acqua distendersi e rallentarsi in nuovi golfi e in

nuovi seni.

Il testo contiene 116 parole testuali/grafiche (tokens)

76 tipi di parole (types)

• la congiunzione e occorre 10 volte,

• la preposizione a e di, rispettivamente 8 e 6 volte, ecc.

9

Dizionari ed enciclopedie

“Dictionaries are about words” La voce di un dizionario sulla parola „TOAD‟ ne da‟ forma e

pronuncia, etimologia, grammatica, uso, e significati

“Encyclopedias are about knowledge” Un articolo di enciclopedia su “TOAD” e‟ un riassunto piu‟ o

meno breve della conoscenza sull‟argomento

ovviamente ci sono aspetti in comune

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

10

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 6: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

6

UN ESEMPIO DI VOCE IN DIZIONARIO

toad /təųd/ n.

1 any froglike amphibian of the family Bufonidae, esp. of

the genus Bufo, breeding in water but living chiefly on

land.

2 any of various similar tailless amphibians.

3 a repulsive or detestable person.

toadish adj.

[Old English tadige, tadde, tada, of unknown origin]

(COD 9)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

11

I. Chiari, Linguistica computazionale - a.a. 2009/2010

UN ESEMPIO DI VOCE IN

ENCICLOPEDIA

TOAD

The true toads are amphibians in the Bufonidae family. A number of species in other

families of Amphibia are commonly referred to as toads. This is because the

characteristics that are popularly used to distinguish frogs from toads are not quite the

same as those used for scientific classification.

The type species of the family Bufonidae is the Common toad, Bufo bufo, and around it

cluster a large number of species of the same genus, and some smaller genera. B. bufo

is a tailless amphibian of stout build, with a warty skin, and any animal that shares

these characteristics is liable to be called a toad, regardless of its location in formal

taxonomy.

That the shape of the body is not a safe guide in judging of anuran groups is shown by

some true frogs (Rana), which have adapted to burrowing habits, and are absolutely

toad-like. The Bufonidae include terrestrial, burrowing, thoroughly aquatic and arboreal

types; Rhinophrynus, of Mexico, may be described as an anteater.

Almost all toads have two lumps near the head, called the parotid glands. These glands

contain poison, which oozes out if the toad is angered. Some, like cane toads, are more

poisonous than others.

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

12

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 7: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

7

Principi di base

SEMANTICA E LESSICO13

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Semantica lessicale

Ambiguità del significato

I. Chiari, Linguistica computazionale - a.a. 2009/2010

14

Ambiguità: alcuni lessemi hanno più di un significato (più di un riferimento)

Polisemia: un lessema con più significati in qualche misura collegati fra di loro

esecuzione: 1. „realizzazione di un brano musicale‟2. „messa in atto di una pena‟

mano: 1. „arto superiore‟2. „quantità di vernice data su un muro'

Omonimia: un lessema con più significati non collegati fra di loro (in realtà si tratta di lessemi diversi)

„SCANNARE‟ come „fare a pezzi‟ / „italianizzazione di TO SCAN‟; GRU come uccello / macchina per sollevare pesi

spesso: 1. „Agg., denso‟2. „Avv., frequentemente‟

letto: 1. „nome, mobile per dormire‟2. „p.pass., voce del verbo leggere'

Page 8: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

8

Ancora sulla polisemia

I. Chiari, Linguistica computazionale - a.a. 2009/2010

15

La polisemia di una parola può essere causata dal contesto sintattico in cui si trova:

(1) Gianni si è dimenticato di aver chiuso la porta

ricaviamo l‟informazione che Gianni aveva chiuso la porta«presupposizione di fattività»

(2) Gianni si è dimenticato di chiudere la porta

ricaviamo l‟informazione contraria, ossia che Gianni non aveva chiuso la porta

(3) Gianni ha cotto le uova

le uova esistevano anche prima che Gianni le cuocesse,«cambiamento di stato», «presupposizione di esistenza»

(4) Gianni ha cotto una frittata

Gianni ha «prodotto» qualcosa di nuovo, la frittata esiste solo perché Gianni l‟ha cotta

Estensioni del significato:

metafora e metonimia

I. Chiari, Linguistica computazionale - a.a. 2009/2010

16

La polisemia può anche essere causata da metafora e metonimia

Metafora: uso traslato di una parola, sulla base di una «somiglianza» tra il significato «fondamentale» e il significato traslato

vite 1: „pianta, con viticci attorcigliati‟ =>

vite 2: „utensile, con filettatura‟(la filettatura della vite 2 assomiglia al viticcio della vite 1)

Metonimia: consiste nell‟estendere il significato di una parola a un altro connesso al primo per «contiguità»

mano 1: „arto‟ =>

mano 2: „turno nel gioco di carte‟mano 3: „quantità di vernice data‟

(è con la mano che si gioca a carte o si vernicia)

Page 9: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

9

Relazioni di significato

I. Chiari, Linguistica computazionale - a.a. 2009/2010

17

Sinonimia: lessemi diversi con lo stesso significatomano = manche = smazzata („turno di gioco‟)

sovente = frequentemente = spesso

Antonimia: lessemi che esprimono significati opposti

Antonimi contrari: bianco vs. nero, caldo vs. freddo

ammettono entità intermedie (per es. grigio, tiepido)

Antonimi contraddittori: scapolo vs. sposato, vero vs. falso

Iponimia: il sign. di un lessema è «incluso» in quello di un altro lessema

airone «iponimo di» uccellouccello «iponimo di» animale

Iperonimia: il sign. di un lessema «include» quello di un altro lessema

animale «iperonimo di» uccellouccello «iperonimo di» airone

SINONIMIA

Origini: Words from different strata:

Begin vs commence (Jackson p. 17)

Dialect difference

Biscuit / cookie; Lorry / truck

Non e‟ mai perfetta: Italiano: PAPA‟ vs. PADRE / PEDALINO vs. CALZINO

Everything is illuminated:

`harmonize‟ invece di „agree‟

„rigid‟ invece di „hard‟

„disseminate‟ invece di „spend‟

“forgetful dogs.”

Vedi: http://parole.alice.it/parole/sinonimi_e_contrari/

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

18

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 10: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

10

Semantica frasale

I. Chiari, Linguistica computazionale - a.a. 2009/2010

19

L‟ipotesi più semplice: il principio di composizionalità

«il significato di una frase è il risultato della combinazione dei significati delle parole che la compongono»

Funziona in molti casi, ma a volte risulta troppo restrittivo:1. le frasi spesso contengono «qualcosa in più» rispetto ai singoli

elementi che le compongono

2. alcune combinazioni di parole hanno un significato che non è ricavabile dalle singole parole da cui sono costituite

lessicalizzazioni (espressioni idiomatiche, polirematiche)tagliare la cordasbarcare il lunarioessere al verde

Costruzione, caratteristiche, prospettive

DIZIONARI20

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 11: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

11

2. Dizionari

I. Chiari, Linguistica computazionale - a.a. 2009/2010

21

Un dizionario non corrisponde al «lessico mentale»: La lessicografia cerca di raccogliere l’insieme delle parole usate da

tutta una comunità linguistica, anche dal punto di vista diacronico

Un dizionario si pone a livello della langue saussuriana

La lessicografia tradizionale non cerca di descrivere la competenza lessicale di un parlante

Un dizionario non rappresenta la competenza chomskiana

Un dizionario è costituito da entrate lessicali o lemmi è necessario lemmatizzare le parole:

(per es. avremmo amato, amando, amavamo, amammo ecc. vanno tutte ricondotte al lemma amare)

per ogni lemma troviamo altre informazioni

trascrizione fonetica o fonologica, etimologia, categoria lessicale, esempi di utilizzo e varie accezioni semantiche

2.2 Lessicalizzazioni

I. Chiari, Linguistica computazionale - a.a. 2009/2010

22

In un dizionario trovano posto tutte le forme imprevedibili, che hanno forme o significati idiosincratici (non formate tramite regole):

parole semplici: casa, libro, felice

forme lessicalizzate: (espressioni il cui significato non è desumibile dalla somma dei significati delle parti)

parole complesse non-trasparenti: dirigibile, volante

costruzioni polirematiche: tagliare la corda, nontiscordardimé

sigle, acronimi, parole «macedonia», abbreviazioni:CGIL, polfer, racc.

gli altri tipi di parole vengono invece «costruiti» tramite le regole della morfologia, e non è necessario scriverle esplicitamente nel dizionario

Page 12: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

12

Stratificazioni dell‟italiano:

uso e registro stilistico nei dizionari

I. Chiari, Linguistica computazionale - a.a. 2009/2010

23

I livelli d’uso nel DISC: antico (aderbare, adunazione) antiquato (accorruomo, dappoiché) dialettale (cadrega, ceraso) letterario (accadimento, gemebondo) non comune (accarezzevole, acquiescere) regionale (abbacchio, appizzare, bagigi) toscano (babbione, berciare, bischeraggio)

I registri stilistici nel DISC: familiare (acciderba, aggeggiare, appioppare, baluba) gergale (attacchinaggio, cuccare, fico, matusa, sfiga) ironico (ambientino, genietto, lentocrazia, santerello) popolare (ammucchiata, arruffianamento, buggerare) scherzoso (cervellone, comprendonio, fantastilione) spregiativo (canzonettaro, galoppino, mangiapolenta) volgare (bagascia, incazzato, leccaculo, stronzata)

Stratificazioni dell‟italiano:

frequenza d‟uso

I. Chiari, Linguistica computazionale - a.a. 2009/2010

24

I dizionari più recenti introducono indicazioni sulla frequenza d‟uso delle parole

Per esempio, il De Mauro - Paravia usa queste categorie:

FO: fondamentale(vocaboli frequentissimi, come a, di, il, faccia, andare; da soli coprono il 90% dello scritto o del parlato)

AU: alto uso/frequenza(parole come bensì, viso, recarsi che coprono all‟incirca il 6-8% dei testi e discorsi, note a chi ha un livello almeno medio di istruzione)

AD: di alta disponibilità(relativamente rari nel parlare o scrivere, ma legati a oggetti o atti della vita quotidiana, come coperchio, furgone, garza, pantofola)

Page 13: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

13

Il vocabolario di base (De Mauro 1980)

I. Chiari, Linguistica computazionale - a.a. 2009/2010

FO : fondamentale; tra i lemmi principali, sono così marcati 2049

vocaboli di altissima frequenza, le cui occorrenze costituiscono circa

il 90% delle occorrenze lessicali nell‟insieme di tutti i testi scritti o

discorsi parlati;

AU : di alto uso; sono così marcati 2576 vocaboli di alta frequenza,

le cui occorrenze costituiscono un altro 6% circa delle occorrenze

lessicali nell‟insieme di tutti i testi scritti o discorsi parlati;

AD : di alta disponibilità; sono così marcati 1897 vocaboli,

relativamente rari nel parlare o scrivere, ma tutti ben noti perché

legati ad atti e oggetti di grande rilevanza nella vita quotidiana

(alluce, batuffolo, carrozzeria, dogana, ecc.).

I vocaboli fondamentali, di alto uso e di alta disponibilità

(quest‟ultimo è il gruppo più esposto al variare della cultura

materiale e richiede aggiornamenti relativamente frequenti)

costituiscono nell‟insieme il “vocabolario di base”

(De Mauro 1999a, XX).

25

Stratificazione del lessico

LSVocabolario

comune

Vocabolario

Di base

26

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 14: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

14

Vocabolario COMUNE (Gradit)

I. Chiari, Linguistica computazionale - a.a. 2009/2010

27

Vocabolario tecnico-specialistico

I. Chiari, Linguistica computazionale - a.a. 2009/2010

28

Page 15: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

15

Letterario, regionale, dialettale

I. Chiari, Linguistica computazionale - a.a. 2009/2010

29

Esotismi, basso uso, obsoleti

I. Chiari, Linguistica computazionale - a.a. 2009/2010

30

Page 16: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

16

COMPILARE UN DIZIONARIO

La compilazione di un dizionario comporta tre

aspetti:

Scelta delle voci

Identificazione dei testi

Scrittura delle voci

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

31

I. Chiari, Linguistica computazionale - a.a. 2009/2010

SCELTA DELLE VOCI

Tre fonti primarie:

Dizionari precedenti (non si parte da zero)

Citation file (= archivio di citazioni della casa editrice)

(Vedi sotto per quel che riguarda Dr. Johnson‟s / OED)

Nuovi testi

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

32

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 17: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

17

RESTRIZIONI

Costo

Della creazione (OED: tra il 1858 ed il 1928)

Del volume

Spazio

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

33

I. Chiari, Linguistica computazionale - a.a. 2009/2010

ORGANIZZAZIONE

Le voci in un dizionario possono essere organizzate

In ordine ALFABETICO

In ordine TEMATICO

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

34

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 18: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

18

Come sono fatte, cosa contengono

Le voci del dizionario35

I. Chiari, Linguistica computazionale - a.a. 2009/2010

COSA SI TROVA IN UNA VOCE

Il LEMMA della parola

Le altre FORME (ortografia e pronuncia)

La loro STRUTTURA (da quali morfemi sono composti)

Informazioni GRAMMATICALI

Esempi di USO

ETIMOLOGIA

Il SIGNIFICATO della parola (compresi sinonimi)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

36

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 19: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

19

TRE TIPI DI PAROLE

Main words

Subordinate words

Afforse, obs. variant of AFFORCE

Afforst, obs. variant of ATHIRST

Composite

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

37

I. Chiari, Linguistica computazionale - a.a. 2009/2010

STRUTTURA DELLE VOCI

IDENTIFICATION

Spelling (con alternanze): Jowl, jole

`Citizenship in the language‟: Kursaal

Pronunciation (non ancora IPA)

MORPHOLOGY

Form history of the word

SIGNIFICATION

ILLUSTRATIVE QUOTATIONS

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

38

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 20: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

20

FORME DI PAROLA

PRONUNCIA

Fonemi, oggigiorno solitamente IPA /təųd/

Prosodia (accento)

ORTOGRAFIA

Sillabe

Varianti

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

39

I. Chiari, Linguistica computazionale - a.a. 2009/2010

INFORMAZIONI GRAMMATICALI

Morfologia

Verbi: inflessioni

Nomi: forma del plurale

dito dita

Sintassi

Parte del discorso (con restrizioni: awake predicative (the baby is awake) ma non attributive (*the awake baby)

Verbi: transitivo / intransitivo, quali tipi di preposizioni, etc.

Classe flessionale

Modificata da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

40

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 21: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

21

DESCRIZIONE DELL‟USO

Fascia d‟uso (su analisi di corpora); marca

Spesso in forma di citazioni (vedi esempi successivi)

Espressioni comuni (collocazioni)

Modificata dada Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

41

I. Chiari, Linguistica computazionale - a.a. 2009/2010

COLLOCAZIONI

Frasi fatte: Studente lavoratore, padre padrone,

governo ombra

Preferenze d‟uso:

Il sostantivo ban tipicamente modificato dagli aggettivi

total o complete, associato con il verbo impose, etc.

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

42

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 22: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

22

SIGNIFICATO

Una delle funzioni piu‟ importanti di un dizionario e‟

caratterizzare le ACCEZIONI di una parola

attraverso DEFINIZIONI

Probabilmente l‟aspetto piu‟ difficile della

lessicografia

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

43

I. Chiari, Linguistica computazionale - a.a. 2009/2010

IL PROBLEMA DEL SIGNIFICATO

Come possiamo caratterizzare

questo significato?

Come minimo, come trovare un

modo per caratterizzare questo

significato che ci permetta di

distinguere tra queste accezioni

diverse?

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

44

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 23: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

23

SIGNIFICATO IN UN DIZIONARIO

RIFERIMENTO OK: „bicicletta‟ / `tromba‟

Piu‟ difficile: „deferenza‟ / „ridicolo‟

RELAZIONI SEMANTICHE Sinonimia

Antonimia

Iponimia

CONNOTAZIONE inspire vs. fundamentalist

COLLOCAZIONI

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

45

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Significato, senso, accezioni (GRADIT)

I. Chiari, Linguistica computazionale - a.a. 2009/2010

46

Page 24: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

24

Tutti tratti dal GRADIT

ESEMPI DI DEFINIZIONI47

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Abbracciare1 e 2

I. Chiari, Linguistica computazionale - a.a. 2009/2010

48

Page 25: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

25

circostanza

I. Chiari, Linguistica computazionale - a.a. 2009/2010

49

palazzo

I. Chiari, Linguistica computazionale - a.a. 2009/2010

50

Page 26: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

26

fortuna

I. Chiari, Linguistica computazionale - a.a. 2009/2010

51

guadagnare

I. Chiari, Linguistica computazionale - a.a. 2009/2010

52

Page 27: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

27

nutrire

I. Chiari, Linguistica computazionale - a.a. 2009/2010

53

Fare

I. Chiari, Linguistica computazionale - a.a. 2009/2010

54

Page 28: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

28

Parole grammaticali

I. Chiari, Linguistica computazionale - a.a. 2009/2010

55

I. Chiari, Linguistica computazionale - a.a. 2009/201056

Page 29: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

29

LINGUAGGI SETTORIALI: folle

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

57

L‟esempio di forza

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

58

Page 30: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

30

Frizione e candela

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

59

7. definizioni analogiche

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

60

Soprattutto per la formazione di polirematiche

basate su meccanismi metaforici

(elettrodo a baffo di gatto, valvole a farfalla, cellule a

palizzata, a bastoncello, a fiamma)

Page 31: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

31

Caratteristiche ed esempi

Tipi di dizionari61

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Differenze tra dizionari

Il contenuto delle voci cambia a seconda de

Il TIPO di dizionario (monolingue / bilingue, eta‟

dell‟utente, livello di specializzazione)

La FUNZIONE (d‟uso, di riferimento)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

62

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 32: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

32

TIPI DI DIZIONARI

Dizionari `general purpose‟

= `desk‟ o „concise‟

Dizionari „di riferimento‟

Dizionari per learners

Dizionari specialistici

Dizionari BILINGUI

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

63

I. Chiari, Linguistica computazionale - a.a. 2009/2010

DIZIONARI ONOMASIOLOGICI/ TESAURI

Dizionario ONOMASIOLOGICO: voci raggruppate per SOGGETTI invece che in ordine alfabetico

I dizionari Italiani piu‟ antichi sono in questa forma (Alunno, 1548)

TESAURI: dizionari organizzati per RELAZIONI LESSICALI e tipicamente strutturati in modo CONCETTUALE

Peter Mark Roget, THESAURUS OF ENGLISH WORDS AND PHRASES (1852)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

64

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 33: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

33

ALTRI TIPI DI DIZIONARI

Dizionari ETIMOLOGICI

Concentra solamente su derivazione delle parole

LEI Lessico Epistemologico Italiano (Max Pfister, in

completamento)

Pianigiani: http://www.etimo.it/

Dizionari dei SINONIMI e dei CONTRARI

Tommaseo, 1830

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

65

I. Chiari, Linguistica computazionale - a.a. 2009/2010

GRADIT De Mauro 1999: ca 360.000

lemmi e sottolemmi

I. Chiari, Linguistica computazionale - a.a. 2009/2010

66

260.709 lemmi monorematici

67.678 polirematiche (130.000 lemmi con

associate polirematiche)

Page 34: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

34

Criteri ordinamento accezioni e

quantità

I. Chiari, Linguistica computazionale - a.a. 2009/2010

67

Legami tra accezioni

I. Chiari, Linguistica computazionale - a.a. 2009/2010

68

Page 35: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

35

Definizioni e significati

I. Chiari, Linguistica computazionale - a.a. 2009/2010

69

Struttura delle definizioni

I. Chiari, Linguistica computazionale - a.a. 2009/2010

70

Page 36: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

36

Tipologie di voci

I. Chiari, Linguistica computazionale - a.a. 2009/2010

71

Nomi di piante e animali

I. Chiari, Linguistica computazionale - a.a. 2009/2010

72

Page 37: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

37

Sinonimi nel GRADIT

I. Chiari, Linguistica computazionale - a.a. 2009/2010

73

Lessico TS nel GRADIT

I. Chiari, Linguistica computazionale - a.a. 2009/2010

74

Page 38: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

38

Liste di frequenza, LIP

Dizionari di frequenza75

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Dizionari di frequenza

I. Chiari, Linguistica computazionale - a.a. 2009/2010

76

Usando il computer, si possono raccogliere grandi quantità di testi in formato elettronico (un corpus) e riordinare le parole contenute:

per es. ordine alfabetico, ordine alfabetico inverso, ordine di frequenza

LIF - Lessico di frequenza della lingua italiana contemporanea:500.000 parole (scritte)circa 5.000 lemmi in ordine alfabetico e in ordine di frequenza

– Il corpus del LIF contiene testi teatrali (T) romanzi (R)copioni cinematografici (C) periodici (P)sussidiari (S)

– Le parole più frequenti dell‟italiano sono: il, di, egli, a, essere, e, uno, in, che, non, io, avere, da ecc.

– Le liste di frequenza possono aiutare nello studio delle lingue

– Le prime 100 parole più frequenti arrivano a coprire il 60% di qualsiasi testo

– Le prime 1.000, l’85%

– Le prime 4.000, il 97%

Page 39: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

39

Liste di frequenza

I. Chiari, Linguistica computazionale - a.a. 2009/2010

• elenco di tutte le forme (type, tipi di parole)

• indici di frequenza (ossia il numero di occorrenze nel testo)

• frequenza relativa, (Fw/N)

• rapporto tra le occorrenze della singola parola (Fw) e il numero di parole testuali del corpus (N)

• frequenza relativa normalizzata

Forma

• per frequenza decrescente

• Al primo posto compare la parola testuale più frequente, all‟ultimo la meno frequente.

• La forma che ha frequenza maggiore, e che si trova al primo posto, si dice di primo rango.

Presentazione

• e, di, che, a, il, in

• parole grammaticali

parole vuote

• Don, era

• sostantivi, verbi, aggettivi, avverbi

parole piene

77

Lista di frequenza del primo capitolo

dei Promessi Sposi

I. Chiari, Linguistica computazionale - a.a. 2009/2010

I Frequenze assolute II frequenza relative III tipi di parole

255 4,1255% e

195 3,1548% di

162 2,6209% che

146 2,3621% a

109 1,7635% il

100 1,6179% in

100 1,6179% un

97 1,5693% non

80 1,2943% la

78 1,2619% per

55 0,8898% le

53 0,8575% con

47 0,7604% si

44 0,7119% del

42 0,6795% i

41 0,6633% come

39 0,6310% una

38 0,6148% ma

38 0,6148% più

34 0,5501% o

31 0,5015% gli

28 0,4530% don

28 0,4530% da

26 0,4206% due

25 0,4045% se

24 0,3883% poi

24 0,3883% della

24 0,3883% era

23 0,3721% al

22 0,3559% abbondio

78

Page 40: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

40

4.4 Dizionari di frequenza

I. Chiari, Linguistica computazionale - a.a. 2009/2010

79

LIP - Lessico di frequenza dell‟italiano parlato:dimensioni simili al LIF

Raccoglie campioni di «italiano parlato» in quattro città: Milano, Firenze, Roma e Napoli

Vari tipi di interazioni linguistiche: scambi faccia a faccia

conversazioni telefoniche

dibattiti

lezioni

conferenze

trasmissioni radio e TV

Il vocabolario del «parlato» per il 97% è costituito da parole ben radicate nell‟italiano Anglicismi ed esotismi sono minimi

Il parlato è relativamente povero dal punto di vista lessicale rispetto allo scritto

Non sembra esistere un lessico specifico del parlato molto diverso dal lessico della lingua scritta

Lemmi LIP in ordine alfabetico

I. Chiari, Linguistica computazionale - a.a. 2009/2010

80

Page 41: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

41

Storia della lessicografia italiana81

I. Chiari, Linguistica computazionale - a.a. 2009/2010

STORIA DEI DIZIONARI ITALIANI

VOCABOLARIO DEGLI ACCADEMICI DELLA CRUSCA (1612 1729/38)

Primo dizionario storico in Europa

Obiettivo: „fissare‟ la lingua

1612: 30000 voci

Francesco D‟Alberti di Villanuova (1797-1805)

Primo dizionario a registrare termini tecnici

TOMMASEO-BELLINI (1865-1879)

Ultimo vocabolario storico disponibile

Collaboratori molto validi per voci specialistiche

Etimologie spesso fantasiose

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

82

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 42: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

42

GRANDE DIZIONARIO DELLA LINGUA

ITALIANA

Nato come aggiornamento del Tommaseo

Edito da Battaglia , poi Barberi Squarotti

Statistiche:

Tempi di realizzazione: 19612006

185 594 voci, 21 volumi, 22 000 pagine

Metodi:

Registra tutte le parole e le varianti

Citazioni da 14 000 autori

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

83

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Informatica e dizionari

Uso di collezioni di testi (CORPORA) in formato

elettronico per identificare

LEMMI

COLLOCAZIONI

USI dei lemmi (CONCORDANZE)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

84

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 43: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

43

Dizionari elettronici

Il passaggio dalla forma cartacea alla forma

elettronica ha rivoluzionato molti aspetti della

lessicografia e dell‟uso dei dizionari

Molte limitazioni di spazio si sono ridotte

La ricerca di voci non piu‟ ristretta all‟ordine alfabetico

Sono apparsi dizionari la cui organizzazione riflette

l‟organizzazione del LESSICO MENTALE (WordNet)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

85

I. Chiari, Linguistica computazionale - a.a. 2009/2010

O la Storia dei dizionari inglesi

Fine ?86

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 44: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

44

Storia della lessicografia inglese87

I. Chiari, Linguistica computazionale - a.a. 2009/2010

STORIA DEI DIZIONARI INGLESI, 1:

GLOSSARI

Primi `dizionari‟: i GLOSSARI medievali

raccolte di GLOSSE in Old English di parole latine,

tipicamente scritte da monaci

Primi dizionari sono bilingui!

Uno dei piu‟ noti: The London Vocabulary di Ǽlfric

(XI secolo)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

88

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 45: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

45

STORIA DEI DIZIONARI INGLESI, 2:

`HARD WORDS‟

Rinascimento: cominciano i „prestiti‟ da altre lingue (non solo Latino, ma anche Francese, Greco, Italiano)

Nasce la necessita‟ di aver spiegazioni su `hard words‟: neologismi introdotti di recente, con cui un „uneducated reader‟ puo‟ non avere familiarita‟

Esempio piu‟ noto di risorsa di questo tipo: Robert Cawdrey, A Table Alphabeticall, 1604 2500 parole

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

89

I. Chiari, Linguistica computazionale - a.a. 2009/2010

DA `A TABLE ALPHABETICALL‟ DI CAWDREY

§ Abandon, cast away, or yeelde up, to leave, or

forsake

Abash, blush

abba, father

§ abbesse, abbatesse, Mistris of a Nunnerie,

comforters of others

§ abbettors, counsellors

….

Apocrypha (g), not of authoritie, a thing hidden,

whose originall is not knowne

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

90

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 46: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

46

DA „HARD WORDS‟ A „ALL WORDS‟

John Bullokar, AN ENGLISH EXPOSITOR (1616)

Cockeram‟s THE ENGLISH DICTIONARIE (1623) Primo ad essere chiamato „DICTIONARY‟

Anche `vulgar words‟

Prime etimologie: Thomas Blount (1656), Stephen Skinner (1671)

A NEW ENGLISH DICTIONARY, di `J.K.‟ (1702) primo tentativo di produrre un dizionario completo (28 000 lemmi)

Per artigiani e mercanti

Nathaniel Bailey, AN UNIVERSAL ETYMOLOGICAL ENGLISH DICTIONARY sia completezza (40000 parole prima edizione, poi 50000) che

etimologia

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

91

I. Chiari, Linguistica computazionale - a.a. 2009/2010

CORREGGERE E `BLOCCARE‟ („ASCERTAINING‟)

LA LINGUA

XVII secolo: molta preoccupazione che un numero eccessivo di parole straniere venisse assorbito nell‟Inglese

Si guardo‟ con favore al modello dell‟ Académie Francaise, fondata nel 1635, e che produsse tra il 1639 ed il 1694 il DICTIONNAIRE DE L‟ACADEMIE FRANCAISE con l‟intenzione di „codificare‟ e `ripulire‟ il linguaggio Cfr. Dizionario degli Accademici della Crusca

Jonathan Swift: A PROPOSAL FOR CORRECTING, IMPROVING AND ASCERTAINING (= FIX) THE ENGLISH LANGUAGE (1712)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

92

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 47: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

47

SAMUEL JOHNSON

(1709-1784)

When we see men grow old and die at a certain time

one after another, from century to century, we laugh at

the elixir that promises to prolong life to a thousand

years; and with equal justice may the lexicographer be

derided, who being able to produce no example of a

nation that has preserved their words and phrases from

mutability; shall imagine that his dictionary can embalm

the language, and secure it from corruption and decay

… (Preface al Dictionary of the English Language, 1755)

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

93

I. Chiari, Linguistica computazionale - a.a. 2009/2010

THE DICTIONARY OF THE ENGLISH

LANGUAGE

Prodotto tra il 1746 ed il 1755 con 6 assistenti

42773 lemmi

Primo dizionario sviluppato secondo metodilessicografici moderni; la creazione del dizionariosollevo‟ problemi ancora attuali per la lessicografia

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

94

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 48: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

48

SAMUEL JOHNSON: PLAN FOR A DICTIONARY OF THE

ENGLISH LANGUAGE (1747)

Il lavoro comincio‟ con lo sviluppo di principi da seguire

Criteri di SELEZIONE

ORTOGRAFIA e PRONUNCIA

ETIMOLOGIA

ANALOGY (inflessione) e SYNTAX

INTERPRETATION (= definizione)

CITAZIONI con AUTORE

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

95

I. Chiari, Linguistica computazionale - a.a. 2009/2010

METODOLOGIA

Punto di partenza: dizionario di Bailey

Identificazione di nuove voci: lettura di autori ammirati da Johnson Ogni volta che trovava un uso „corretto‟ di una parola,

sottolineava e marcava la citazione; un assistente avrebbe creato uno SLIP

Gli slip con citazioni (114000 in tutto) poi ordinati in modo alfabetico

A partire dal 1749, Johnson comincio‟ ad identificare i sensi e scrivere le definizioni

Primo volume 1753

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

96

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 49: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

49

RISULTATO

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

97

I. Chiari, Linguistica computazionale - a.a. 2009/2010

THE NEW ENGLISH DICTIONARY

L‟Oxford English Dictionary e‟ quanto di piu‟ vicino ci sia ad un „record ufficiale‟ dell‟Inglese (Britannico)

Obiettivo: creare un dizionario le cui definizioni fossero basate sui criteri „scientifici‟ sviluppati nella nuova scienza della filologia

Sotto gli auspici della Philological Society

Prima edizione richiese 70 anni (tra il 1858 ed il 1928) e 5 „editors‟

Editor chiave: JAMES MURRAY

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

98

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 50: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

50

THE NEW ENGLISH DICTIONARY:

METODO

Principio: “to furnish an adequate account of the meaning, origin, and history of English words now in general use, or known to have been in general use at any time during the last seven hundred years” (dalla prefazione di Murray al volume I, 1888)

Basato sul lavoro di MIGLIAIA di volontari (READERS) che produssero 5 millioni di slips

Tra cui D. W. C. Minor, paziente schizofrenico

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

99

I. Chiari, Linguistica computazionale - a.a. 2009/2010

THE NEW ENGLISH DICTIONARY: LA PRIMA EDIZIONE

10 volumi

252 000 voci, 414 000 definizioni

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

100

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Page 51: Semantica e lessico -  · PDF fileDizionari ed enciclopedie

12/03/2010

51

SVILUPPI SUCCESSIVI

Primo supplemento (4 volumi, 1955 1986)

Distinzione main / subordinate scompare

Molte subject labels aggiuntive

OED2 (1984 1989)

Versione elettronica su CD-ROM

20 volumi, 500000 definizioni,

OED3 (1993 2010): www.oed.com

da Poesio, diapositive di Lessicografia(http://www.dit.unitn.it/~poesio/Teach/IU)

101

I. Chiari, Linguistica computazionale - a.a. 2009/2010