Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di...

22
Domenico Russo LIN Lessico Italiano di Notorietà 2004 Il lessico di alta disponobilità ARACNE

Transcript of Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di...

Page 1: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Domenico Russo

LINLessico Italianodi Notorietà 2004

Il lessico di alta disponobilità

ARACNE

Page 2: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Copyright © MMVARACNE editrice S.r.l.

[email protected]

via Raffaele Garofalo, 133 A/B00173 Roma

(06) 93781065

ISBN 88–548–0426–6

I diritti di traduzione, di memorizzazione elettronica,di riproduzione e di adattamento anche parziale,

con qualsiasi mezzo, sono riservati per tutti i Paesi.

Non sono assolutamente consentite le fotocopiesenza il permesso scritto dell’Editore.

I edizione: settembre 2005

Page 3: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Volume stampato con il contributo del Dipartimento di Studi Comparatidell’Università degli Studi di Chieti–Pescara “Gabriele D’Annunzio”.

Page 4: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Indice

Introduzione

§ 1. Premessa 9

§ 1.1. Corpi celesti, genoma, lessico e oltre 9

§ 1.2. Il vocabolario di alta disponibilità 10

§ 1.3. La dizione vocabolario disponibile 11

§ 1.4. L’utilità della dizione vocabolario latente 12

§ 2. La consistenza accentuo–sillabica del vocabolario AD 13

§ 2.1. I pattern accentuali 14

§ 2.2. La sillaba 16

§ 2.2.1. I tipi sillabici 16

§ 2.2.2. I pattern sillabici 16

§ 2.3. Le disposizioni sillabiche del vocabolario AD 18

§ 2.3.1. I dati complessivi 18

§ 2.3.2. Le disposizioni per numero di sillabe 19

§ 3. La dotazione semantica 20

§ 3.1. Il nucleo costitutivo 21

§ 3.1.1. Nucleo costitutivo del vocabolario AD.

Lemmi trivalenti 22

§ 3.1.2. Nucleo costitutivo del vocabolario AD.

Lemmi tetravalenti 23

§ 3.1.3. Nucleo costitutivo del vocabolario AD.

Lemmi pentavalenti 23

Page 5: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

§ 3.2. I due ‘satelliti’ 24

§ 3.2.1. Primo gruppo satellite. Lemmi bivalenti 24

§ 3.2.2. Secondo gruppo satellite. Lemmi esavalenti 26

§ 3.3. L’anello monovalente 26

§ 3.4. La fascia degli ‘asteroidi’ 27

§ 3.5. Configurazione generale 29

§ 4. L’estensione contestuale 30

§ 4.1. Le marche d’uso del GDU

e i contesti d’occorrenza 30

§ 4.2. Il numero dei contesti d’uso degli AD 31

§ 4.2.1. Lemmi di primo grado 32

§ 4.2.2. Lemmi di secondo grado 35

§ 4.2.2.1. Lemmi di disponibilità medio–alta 35

§ 4.2.2.2. Lemmi di disponibilità medio–bassa 37

§ 4.2.3. Lemmi di terzo grado 38

§ 4.3. Il tipo dei contesti d’uso degli AD 39

Bibliografia 45

Parte Prima: L’indagine verticale

Lista dei lemmi AD in ordine di notorietà decrescente 51

Lista dei lemmi AD in ordine alfabetico 99

Lista dei lemmi AD in ordine decrescente di accezioni 147

Lista dei lemmi AD per combinazione di marche d’uso 195

Lista dei lemmi AD per categoria grammaticale 243

Page 6: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Parte Seconda: L’indagine orizzontale

Lista dei lemmi AD in ordine di notorietà decrescente 291

Lista dei lemmi AD in ordine alfabetico 303

Lista dei lemmi AD in ordine decrescente di accezioni 315

Lista dei lemmi AD per combinazioni di marche d’uso 327

Lista dei lemmi AD per categoria grammaticale 339

Appendici

Appendice A1 tipi sillabici (contesto 1)

in ordine decrescente di occorrenza 349

Appendice A2 tipi sillabici (contesto 1) in ordine alfabetico 368

Appendice A3 tipi sillabici (contesto 5)

in ordine decrescente di occorrenza 387

Appendice A4 tipi sillabici (contesto 5) in ordine alfabetico 398

Appendice B tipi sillabici per pattern 409

Appendice C disposizioni sillabiche

in ordine di pattern accentuale e relativi lemmi 423

Appendice D disposizioni sillabiche

per numero crescente di sillabe (contesto 4) e relativi lemmi 457

Page 7: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

9

§ 1. Premessa

§ 1.1. Corpi celesti, genoma, lessico e oltre

Più si frequentano i lavori che hanno il lessico e la semantica lessicale a loro oggetto più si è portati a concludere che i linguisti vivono in questo punto del loro campo di studi una situazione praticamente identica a quella che vivono gli astronomi di fronte ai corpi celesti o i genetisti di fronte al genoma.

Nei tre casi infatti, così come peraltro in molti altri ambiti scientifici, abbiamo buone mappe generali, ma miriadi di domande inevase su punti strategici sia della costituzione degli oggetti studiati che dei modi del loro funzionamento. Nei tre casi si costruiscono e si inviano sonde sempre più sensibili e costose, che permettono grandi avanzamenti co-noscitivi, ma presentano subito un loro lato vagamente beffardo nel mostrare la primi-tività delle conoscenze precedenti e la scarsa risoluzione delle nuove. Sempre nei tre casi cogliamo qui e là fatti importanti, che hanno però quasi sempre l’effetto di com-plicare la comprensione del contesto che li rende possibili.

Così è dei corpi celesti, così è del genoma, così è anche del lessico. In campo linguistico un esempio di quanto detto sopra è l’universo dei fatti lessicali

colti attraverso le rilevazioni statistiche su corpora. Da questo punto di vista tutte le lingue più diffuse sono state mappate con reiterati lavori di redazione di liste di fre-quenza. Eppure, a fronte della chiarezza raggiunta nella percezione e descrizione delle linee statistiche generali di comportamento del lessico nei testi, sta una sostanziale ne-bulosità sul loro significato funzionale ai fini della descrizione e della comprensione dei meccanismi generali di funzionamento delle lingue (in senso sincronico, diacronico e ontogenetico) così come è abbastanza generale la noncuranza con cui si tiene conto

Page 8: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Introduzione 10

degli stessi risultati in campo applicativo, sia esso formativo–educativo che tecnico–operativo.

Quanto al merito delle ricerche statistiche sul lessico, quel che di prezioso si ha mostra quanto ancora si abbia da sapere. Stenta a stabilirsi, per esempio, la connessione tra teoria dell’informazione e statistica lessicale. Non sembra che avanzi, come potrebbe, la defini-zione di strumenti matematici, efficaci e di pronto uso, in grado di leggere in modo più di-namico e analitico di quanto sia oggi possibile i dati che i tanti ottimi corpora ormai costi-tuiti o in via di costituzione sono in grado di fornire. In questo insieme di questioni ne e-merge poi una di interesse tutto speciale, quella, cui sono dedicate le poche pagine di questo testo, del Vocabolario disponibile, secondo la classica denominazione gougenheimiana o, con la definizione demauriana, epistemologicamente più efficace, di Alta disponibilità.Questione interessante perché porta a riflettere su una costellazione non banale di questioni legate al complesso del nostro modo di rappresentare il lessico e la competenza lessicale.

§ 1.2. Il vocabolario di alta disponibilità.

Con la dizione vocabolario disponibile i lavori per l’elaborazione del francese fonda-mentale definirono, a quel che risulta di fatto per la prima volta, una lista di parole in qualche modo sorprendenti. Succede infatti che chi vuol rispondere alla domanda in sé molto semplice: «Quali sono le parole più usate in una certa lingua?» immagini come sicura la strada che passa attraverso la preparazione di un corpus di testi scritti e parlati rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono. È questo il protocollo di tutte le liste di frequenza lessicale.

I risultati disponibili finora, soprattutto quelli relativi a corpora di lingue speciali o settoriali, sono allo stesso tempo eccellenti e parziali. Infatti, proprio nel momento in cui la sonda statistica ci restituisce le immagini del lessico più frequente ci mostra anche che in quella lista mancano parole che intuitivamente crediamo non possano proprio mancare tra quelle più usate, perché sono parole diffusissime nella competenza lessicale dei parlanti. Le liste di frequenze, cioè, confermano il dato teorico che vuole l’uso linguistico cosa diversa dalla competenza linguistica, dicendoci dove e come queste due questioni differiscono. È ovvio poi che se lo scopo è quello di avere la lista delle parole più importanti di una lingua, nella lista non possono mancare quelle che appunto con Gougenheim si è preso a chiamare parole disponibili.

Page 9: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Introduzione 14

per esempio) risulta perciò minore rispetto all’interesse che si ha per le componenti che vengono messe all’opera nell’uso parlato. Tre sembrano, allo stato attuale degli studi fonologici, i fattori interessanti da tenere sotto osservazione: l’accento, o meglio i pattern accentuali, la sillaba e la stringa sillabica costituente un lemma.

§ 2.1. I pattern accentuali

La rappresentazione di un pattern accentuale è fatta usando i simboli 0 (zero) per la sillaba atona e i monosillabi e 1 (uno) per la sillaba tonica. Un pattern sillabico si relizza nel lemmario AD attraverso un certo numero di repliche e la sua rilevanza è mostrata dal valore percentuale che le sue repliche fanno registrare sul totale dei lemmi.

Il vocabolario di alta disponibilità è costitutito da sedici pattern accentuali diversi1: Dal punto di vista della classificazione tradizionale il vocabolario AD presenta tre famiglie di pattern accentuali: gli ossitoni, tra cui includiamo per comodità i monosillabi, i parossitoni e i proparossitoni. Come mostrano le tabelle da 1 a 4 che seguono, è evidente che il vo-cabolario disponibile dell’italiano è un vocabolario quasi interamente parossitono (85,80% delle repliche) con forte predominanza, prossima al 60%, di sequenze tetra– e tri– sillabiche (cfr. Appendice C per le disposizioni di pattern sillabici al cotesto 4 e relative repliche).

Pattern Repliche % Esempio

0010 614 30,26% abruzzese

010 584 28,78% acuto

10 328 16,17% bara

00010 184 9,07% analfabeta

100 130 6,41% bambola

0100 70 3,45% apostolo

000010 30 1,48% asciugacapelli

00100 29 1,43% frigorifero

1 I dati sulla costituzione accentuale e sillabica del lemmario AD tengono conto dei diversi livelli di

determinazione cotestuale dei lemmi. Dal punto di vista dell’analisi fonologica occorre infatti tener conto di almeno i seguenti quattro fattori cotestuali: (a) inizio, fine e corpo di parola; (b) accento primario; (c)accento secondario; (d) rafforzamento fonosintattico di consonante iniziale o accorciamento di vocale finale tonica. E’ chiaro che gli oggetti che si traggono dal calcolo saranno oggetti diversi a seconda dei fattori cotestuali inclusi o esclusi come parametri considerati (La Torre 2005). I gradi di determinazione cotestuale con cui si opera in questa ricerca sono cinque. Il cotesto 1 tiene conto di tutti i fattori cotestuali; il cotesto 2 non tiene conto dell’accento secondario; il costesto 3 non tiene conto delle differenze tra inizio, fine e corpo di parola e dell’accento secondario; il cotesto 4 tiene conto solo dell’accento primario; il cotesto 5 non tiene conto di alcun fattore cotestuale. Cfr. per l’intera questione La Torre (in c.d.s.).

Page 10: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Introduzione 16

§ 2.2. La sillaba

Il vocabolario AD è costituito da 6.956 sillabe. Qui di seguito si presentano i dati relativi ai tipi sillabici e ai pattern che li governano.

§ 2.2.1. I tipi sillabici

Premesso che con tipo sillabico si intende la sequenza dei fonemi che costituisce la sillaba, e che con replica sillabica si intende la realizzazione di un tipo, sappiamo che l’intero lemmario AD fa contare 6.956 repliche sillabiche.

Quest’insieme sillabico si distribuisce in 1.791 tipi sillabici diversi qualora si consi-derino tutti i fattori cotestualizzanti (cotesto 1), mentre si distribuisce in 1.038 tipi sillabici diversi qualora non si consideri alcun fattore cotestualizzante (cotesto 5). Nella tabella:

Cotesto Tipi 1 1791 5 1038

Tab. 5 – I tipi sillabici del vocabolario AD

Le appendici A1 e A2 presentano i tipi sillabici a cotesto 1 rispettivamente in ordine di consistenza numerica di repliche e in ordine alfabetico.

Le appendici A3 e A4 presentano i tipi sillabici a cotesto 5 rispettivamente in ordine di consistenza numerica di repliche e in ordine alfabetico. L’Appendice B presenta i vari tipi raccolti sotto il pattern sillabico che realizzano.

§ 2.2.2. I pattern sillabici

Con il termine pattern si intende, con La Torre 2005 (in c. di s.), una sequenza corrispondente a una sola sillaba. Il costituente obbligatorio del pattern è, come noto, V (vocale); a cui si può associare C (consonante) e A (approssimante). I pattern sillabici del vocabolario AD sono 86 a cotesto 1, 22 a cotesto 5. I 22 pattern a cotesto 5 risultano i seguenti:

Pattern Repliche % Nr. tipiCV 4125 59,30% 128 CVC 1421 20,43% 485 VC 306 4,40% 49 CAV 297 4,27% 68 CCV 252 3,62% 68

Page 11: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Introduzione 20

In Appendice D le disposizioni di pattern al cotesto 4 ordinate per numero di sillabe.

I dati accentuo–sillabici del vocabolario di alta disponibilità sembrano mostrare un insieme vocabolare che si propone come rappresentante di alcune delle caratteristiche più note e meglio percepite del lessico italiano, come lasciano vedere i dati relativi alla percentuale di parole tetrasillabiche e ai pattern accentuali parossitoni. Più in generale, i dati di natura fonologica suggeriscono di verificare l’ipotesi in base a cui la disponibilità lessicale sia correlata alle caratteristiche costitutive del centro del lessico, qualora se ne desse una rappresentazione topologica.

§ 3. La dotazione semantica

È probabile che dal punto di vista funzionale la caratteristica più importante di un insieme vocabolare sia il numero e il tipo di accezioni possedute dall’insieme. Mancano a tuttora dati analitici e rappresentativi su questo aspetto del lessico, ma è noto il fatto che esiste una correlazione di tipo direttamente proporzionale tra il valore d’uso e il numero di accezioni di una parola. Più una parola è usata, più è vario il numero delle sue accezioni e il fatto che quest’elemento sia preso in considerazione solo molto raramente non ne diminuisce la portata scientifica.

La frequenza d’occorrenza di una parola è determinata in via prioritaria proprio dalla sua dotazione accettiva. A voler considerare utile la partizione delle parole in categore-matiche e sincategorematiche l’osservazione delle parole a più alto valore d’uso mostra per le sincategorematiche una versatilità funzionale di determinazione e connessione sintattica e semantica di amplissimo raggio, per le categorematiche una versatilità contestuale di pari portata.

Portata a unità ogni accezione, il vocabolario AD dell’italiano qui considerato presenta la configurazione accettiva complessiva raccolta in tabella 10.

Il primo effetto che produce la considerazione della dotazione accettiva delle parole di un certo insieme vocabolare è l’apprezzamento della sua reale estensione linguistica. Esaminiamo il lemmario AD oggetto delle indagini per l’elaborazione del LIN. In questo caso abbiamo a che fare con 1.984 parole, che rappresentano un terzo del vocabolario di base dell’italiano. In realtà, portata a unità ognuna delle possibili accezioni (una classe di seconda elementare è tutta un’altra cosa da una classe di dicotiledoni, per dire) il vo-cabolario AD dell’italiano si moltiplica in 7.687 unità lessematiche, vale a dire un’esten-sione funzionale di entità nettamente superiore all’intero vocabolario di base.

Page 12: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Introduzione 30

Fig. 1 – Figurazione della composizione semantica del vocabolario AD.

§ 4. L’estensione contestuale

Un altro modo per cogliere la dotazione semantica di una parola è quello di guardare alle sue possibilità d’uso contestuale. Il modo d’intendere il contesto d’occorrenza può essere, come noto, il più vario. Qui per contesto d’occorrenza s’intende una delle macrocategorie raccolte nella serie delle marche d’uso del GDU.

§ 4.1. Le marche d’uso del GDU e i contesti d’occorrenza

Com’è noto, le marche d’uso del GDU si dividono in due tipi molto generali. Si hanno marche d’uso di natura latamente diastratica, connesse soprattutto alla frequenza d’occorrenza nei testi (FO, AU, AD, CO, BU, OB) o alla frequenza d’occorrenza in tipi di testo (TS, LE) e marche d’uso di natura latamente diatopica (RE, DI, ES).

La marcatura dei lemmi operata dal GDU è un formidabile passo in avanti rispetto alle ormai troppo strette restrizioni subite finora di necessità dai protocolli di elicitazione delle

Page 13: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Indagine verticale. Lemmi AD in ordine di notorietà decrescente 52

Cu Ac Lemma MdU Cgr N Gn Rn Rad Am Ds

2 10 intervallo AD/TS/ s.m. 7,414 4 232 46 98,0 2,78

3 4 falco AD/CO/TS/ s.m. 7,410 4 234 47 79,6 1,37

2 4 egiziano AD/TS/ ag. s.m. 7,367 4 245 48 96,2 2,86

1 3 alunna AD/ s.f. 7,367 4 246 49 91,4 2,79

1 1 zoo AD/ s.m. 7,355 4 251 50 88,4 2,72

2 3 giubbotto AD/CO/ s.m. 7,349 4 253 51 85,0 2,00

1 4 anziana AD/ s.f. 7,336 4 257 52 95,8 2,42

3 8 scheletro AD/CO/TS/ s.m. 7,286 4 269 53 88,8 3,03

1 5 culo AD/ s.m. 7,272 4 272 54 84,6 2,34

4 6 tabella AD/TS/RE/OB/ s.f. 7,266 4 275 55 87,0 2,93

3 5 calabrese AD/CO/TS/ ag. s.f. s.m. 7,248 4 283 56 84,8 2,84

3 3 parrucchiere AD/BU/OB/ s.m. 7,230 4 286 57 95,6 2,87

1 1 autobus AD/ s.m. 7,225 4 289 58 90,0 3,06

1 1 applauso AD/ s.m. 7,217 4 292 59 95,0 2,82

4 6 pizza AD/CO/TS/BU/ s.f. 7,212 4 295 60 82,0 2,37

1 1 pizzeria AD/ s.f. 7,205 4 299 61 80,8 1,95

1 4 parentesi AD/ s.f. 7,196 4 301 62 90,8 2,98

4 7 piena AD/CO/BU/OB/ s.f. 7,195 4 302 63 95,6 2,73

2 3 ambulanza AD/OB/ s.f. 7,184 4 308 64 84,0 2,86

3 6 casalingo AD/CO/TS/ ag. s.m. 7,184 4 309 65 86,8 2,90

1 2 campeggio AD/ s.m. 7,153 4 318 66 93,6 3,08

2 6 modellare AD/TS/ v.tr. 7,144 4 320 67 88,4 2,75

4 7 bussola AD/CO/TS/OB/ s.f. 7,139 4 323 68 86,8 3,46

3 3 palma AD/TS/LE/ s.f. 7,117 4 329 69 78,4 3,07

4 5 rana AD/CO/TS/RE/ s.f. ag. 7,096 4 334 70 86,0 3,32

3 4 pulcino AD/CO/TS/ s.m. 7,094 4 336 71 83,2 3,04

3 8 ombelico AD/TS/BU/ s.m. 7,093 4 337 72 89,6 2,83

2 4 pepe AD/TS/ s.m. 7,091 4 338 73 92,6 3,13

3 5 tessuto AD/CO/TS/ p.pas. ag. s.m. 7,078 4 345 74 85,8 2,74

2 2 sandalo AD/TS/ s.m. 7,078 4 345 74 86,4 3,00

3 3 cantante AD/CO/TS/ p.pr. ag. s.m/f 7,069 4 347 75 83,0 3,23

1 3 stupida AD/ s.f. 7,060 4 349 76 87,8 2,97

1 2 pinzetta AD/ s.f. 7,056 4 354 77 75,0 2,21

3 6 pirata AD/CO/BU/ s.m. ag. 7,055 4 355 78 76,6 1,81

3 4 leccare AD/CO/BU/ v.tr. 7,047 4 358 79 72,8 3,02

2 3 sbucciare AD/TS/ v.tr. 7,034 4 361 80 87,8 2,87

4 9 schiuma AD/CO/TS/LE/ s.f. 7,029 4 363 81 78,6 2,12

3 8 ago AD/CO/TS/ s.m. 7,023 4 367 82 78,0 2,43

5 5 guardaroba AD/CO/TS/BU/OB/ s.m/f 7,015 4 371 83 85,2 3,02

2 3 mignolo AD/TS/ s.m. ag. 7,015 4 371 83 85,2 3,02

2 3 assassinio AD/OB/ s.m. 7,007 4 374 84 87,0 2,74

1 3 analfabeta AD/ ag. s.m/f 6,998 4 377 85 86,8 2,99

4 12 negativo AD/CO/TS/OB/ ag. s.m. av. 6,991 4 381 86 83,0 2,94

2 1 basilico AD/TS/ s.m. 6,990 4 383 87 80,0 2,61

3 9 rubrica AD/CO/TS/ s.f. 6,986 4 386 88 82,6 3,17

Page 14: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Indagine orizzontale. Lemmi AD in ordine di notorietà decrescente 292

Cu Ac Lemma MdU Cgr N Gn RdN Rad Am Ds

3 5 quercia AD/CO/TS/ s.f. 5,92 5 255 46 -46,84 2,27

2 4 salame AD/CO/ s.m. 5,91 5 256 47 -29,86 2,40

1 3 parcheggiare AD/ v.tr. 5,90 5 257 48 32,34 2,30

2 1 pallacanestro AD/TS/ s.f. 5,89 5 262 49 35,20 2,50

1 2 pinzetta AD/ s.f. 5,89 5 263 50 36,98 2,89

3 2 cicatrice AD/CO/TS/ s.f. 5,83 5 277 51 -56,43 2,37

2 1 petalo AD/TS/ s.m. 5,82 5 282 52 7,80 2,62

3 3 lucciola AD/CO/TS/ s.f. 5,81 5 283 53 -35,93 2,34

1 1 panetteria AD/ s.f. 5,80 5 288 54 -4,07 2,52

4 7 signorina AD/CO/TS/BU/ s.f. 5,74 5 306 55 34,73 2,26

3 4 patente AD/CO/TS/ s.f. 5,73 5 316 56 93,66 2,59

1 2 settentrione AD/ s.m. 5,73 5 317 57 95,95 1,98

3 2 cappotto AD/TS/OB/ s.m. 5,72 5 320 58 -32,43 2,19

3 4 pistacchio AD/TS/OB/ ag. s.m. 5,71 5 322 59 -16,02 2,67

3 4 messicano AD/TS/OB/ ag. s.m. 5,71 5 323 60 -22,93 2,85

3 4 cappuccio AD/CO/TS/ s.m. 5,68 5 331 61 54,23 2,47

3 6 doloroso AD/LE/OB/ ag. 5,67 5 333 62 -43,95 2,55

3 5 numerare AD/LE/OB/ v.tr. 5,64 5 342 63 -22,30 2,82

3 7 lavatrice AD/CO/TS/ s.f. 5,63 5 345 64 -14,41 2,63

1 2 solletico AD/ s.m. 5,60 5 353 65 -7,59 2,62

3 6 ottavo AD/CO/TS/ ag.n.or. ag. s.m. 5,59 5 356 66 -32,16 2,62

1 5 palcoscenico AD/ s.m. 5,58 5 361 67 6,14 2,93

3 3 palude AD/CO/LE/ s.f. s.m. 5,57 5 362 68 -12,02 2,04

2 3 pentola AD/TS/ s.f. 5,57 5 363 69 1,89 2,21

2 5 pronuncia AD/TS/ s.f. 5,57 5 364 70 -62,75 1,76

2 5 imbrogliare AD/TS/ v.tr. 5,56 5 366 71 -19,86 2,49

2 5 ripulire AD/BU/ v.tr. 5,54 5 370 72 4,25 2,48

3 16 zero AD/CO/TS/ ag.n.c. ag. s.m. sim. 5,54 5 371 73 -34,45 2,26

5 9 conversazione AD/TS/LE/BU/OB/ s.f. 5,51 5 383 74 31,02 2,48

1 1 fieno AD/ s.m. 5,51 5 384 75 9,34 2,33

1 3 zuppa AD/ s.f. 5,51 5 385 76 4,18 2,39

3 4 leopardo AD/CO/TS/ s.m. 5,50 5 386 77 7,55 2,18

2 4 mafia AD/BU/ s.f. 5,50 5 390 78 -34,98 2,48

1 1 mestolo AD/ s.m. 5,50 5 391 79 -65,41 2,27

2 3 scultura AD/TS/ s.f. 5,49 5 395 80 -25,20 2,33

2 2 castagno AD/TS/ s.m. 5,47 5 399 81 1,23 2,31

2 3 giubbotto AD/CO/ s.m. 5,47 5 401 82 23,16 2,43

1 1 formaggino AD/ s.m. 5,45 5 410 83 -9,75 1,78

1 3 maggiorenne AD/ ag. s.m/f 5,44 5 412 84 25,86 2,47

1 3 bolognese AD/ ag. s.f. s.m. 5,41 5 417 85 -43,05 2,52

1 3 decorare AD/ v.tr. 5,41 5 419 86 -69,77 2,16

2 4 rima AD/TS/ s.f. 5,40 5 421 87 -14,77 2,36

2 1 puma AD/TS/ s.m. 5,39 5 423 88 -6,95 2,35

1 2 frittata AD/ s.f. 5,38 5 425 89 -4,16 2,36

3 5 sostare AD/CO/LE/ v.tr./intr. 5,37 5 427 90 -4,34 2,12

Page 15: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

349

Appendice A1

Tipi sillabici (cotesto 1)

In ordine decrescente di occorrenza

tipo occ. % re/ 350 5,03% to/ 136 1,96% ta/ 111 1,60% no/ 101 1,45% ne/ 94 1,35% na/ 71 1,02% lo/ 71 1,02% ra/ 70 1,01% la/ 66 0,95% 'ta 60 0,86% ti 56 0,81% le/ 55 0,79% 'na 54 0,78% 'la 51 0,73% /in 51 0,73% ko/ 48 0,69% 'tsjo 47 0,68% te/ 46 0,66% ka/ 46 0,66% /a 46 0,66% 'ka 43 0,62% /ri 43 0,62% so/ 42 0,60% to 39 0,56% t$e/ 37 0,53% a/ 36 0,52% 'ri 36 0,52% 'to 35 0,50% 'ra 35 0,50% /kon 34 0,49% /ka 32 0,46% 'tri 30 0,43% ro/ 30 0,43% se/ 29 0,42% /pa 29 0,42% ta 28 0,40% le 27 0,39% tsa/ 27 0,39% 'men 27 0,39% bi 27 0,39% si/ 26 0,37% te 26 0,37%

tipo occ. %'ti 26 0,37% 'tu 25 0,36% do/ 24 0,35% li 23 0,33% t$o/ 23 0,33% t$i 22 0,32% go 22 0,32% ra 22 0,32% /al 21 0,30% ka 21 0,30% /e 21 0,30% /ko 21 0,30% ni 20 0,29% /im 20 0,29% 'sa 20 0,29% po 20 0,29% mi 20 0,29% sa/ 19 0,27% /o 19 0,27% 'ga 18 0,26% 'd}a 18 0,26% vo/ 18 0,26% /ma 18 0,26% ga/ 17 0,24% ko 17 0,24% 't$i 16 0,23% la 16 0,23% ri 16 0,23% d}o/ 16 0,23% /an 16 0,23% da/ 16 0,23% da 16 0,23% /di 16 0,23% me 16 0,23% ma/ 15 0,22% di 15 0,22% /ap 15 0,22% /de 15 0,22% 'si 15 0,22% t$e 15 0,22% /at 15 0,22% 'da 14 0,20%

Page 16: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Tipi sillabici a cotesto 1 368

Appendice A2 Tipi sillabici (cotesto 1) In ordine alfabetico

tipo occ. % '#&l 1 0,01%

'#0 3 0,04% #a 1 0,01% '#a 4 0,06% #a/ 9 0,13% #at 1 0,01% '#e 1 0,01% #o 2 0,03% #o/ 3 0,04% '$& 2 0,03% '$&*/ 1 0,01% '$&l 1 0,01% '$&n 2 0,03% '$&s 1 0,01% $a 1 0,01% '$a 2 0,03% $a/ 4 0,06% $ak 1 0,01% $i 2 0,03% '$i 4 0,06% $il 1 0,01% $o/ 1 0,01% $u 1 0,01% '$u 1 0,01% '& 1 0,01% ,$u 1 0,01% ,pi 1 0,01% /'& 1 0,01% /&/ 1 0,01% /'&l 1 0,01% /'&m 1 0,01% /'&n 1 0,01% /'&r 1 0,01% /'&s 1 0,01% /'&t 1 0,01% /*'$0k 1 0,01% /*'$a 1 0,01% /*'$al 1 0,01% /*'$e 1 0,01% /*$en 1 0,01% /*$i 4 0,06%

tipo occ. % /*$in 1 0,01% /*$o 1 0,01% /*'dz& 3 0,04% /*'dz0 1 0,01% /*'dz0p 1 0,01% /*dzam 1 0,01% /*dzan 1 0,01% /*'dzan 1 0,01% /*'dzat 1 0,01% /*dzi 1 0,01% /*'dzin 1 0,01% /*'ts0p 1 0,01% /*tsam 1 0,01% /*'tsan 1 0,01% /*'tsat 1 0,01% /*tsi 1 0,01% /*'tsuf 1 0,01% /*'tsup 1 0,01% /,ak 1 0,01% /,al 1 0,01% /,aw 1 0,01% /,ka 1 0,01% /,kas 1 0,01% /,kon 1 0,01% /,la 1 0,01% /,ma 3 0,04% /,mal 1 0,01% /,me 1 0,01% /,n0r 1 0,01% /,p&l 1 0,01% /,p&t 1 0,01% /,p0 1 0,01% /,p0r 9 0,13% /,pa 3 0,04% /,pal 2 0,03% /,pas 1 0,01% /,pja 1 0,01% /,sal 2 0,03% /,su 1 0,01% /,t$&n 1 0,01% /,t& 2 0,03%

Page 17: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Appendice A3

Tipi sillabici (cotesto 5)

In ordine decrescente di occorrenza

tipo occ. % re 372 5,35% to 213 3,06% ta 213 3,06% ka 148 2,13% la 146 2,10% na 142 2,04% ra 137 1,97% ne 121 1,74% no 113 1,62% a 110 1,58% ri 98 1,41% lo 95 1,37% ti 92 1,32% le 91 1,31% ko 90 1,29% te 85 1,22% pa 69 0,99% so 62 0,89% t$e 60 0,86% sa 59 0,85% ma 57 0,82% si 56 0,81% ro 54 0,78% tsjo 53 0,76% in 52 0,75% t$i 49 0,70% da 48 0,69% ga 46 0,66% kon 43 0,62% tsa 43 0,62% po 42 0,60% li 42 0,60% di 42 0,60% se 42 0,60% vo 40 0,58% go 40 0,58% tri 40 0,58% mo 39 0,56% me 39 0,56% do 37 0,53% tu 37 0,53%

tipo occ. % de 36 0,52% va 36 0,52% o 35 0,50% bi 35 0,50% fa 34 0,49% ba 32 0,46% vi 31 0,45% mi 30 0,43% pe 30 0,43% men 30 0,43% t$o 29 0,42% d}a 29 0,42% ni 29 0,42% d}i 27 0,39% tra 26 0,37% t$a 26 0,37% d}o 25 0,36% al 25 0,36% e 24 0,35% fi 23 0,33% fo 23 0,33% £a 20 0,29% im 20 0,29% an 19 0,27% d}e 18 0,26% at 18 0,26% tsja 18 0,26% ve 18 0,26% kom 16 0,23% pas 16 0,23% pi 16 0,23% let 15 0,22% for 15 0,22% jo 15 0,22% bo 15 0,22% ap 15 0,22% ki 15 0,22% as 15 0,22% bu 15 0,22% su 14 0,20% pen 14 0,20%

387

Page 18: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Tipi sillabici cotesto 5 398

Appendice A4

Tipi sillabici (cotesto 5)

Ordine alfabetico

tipo occ. % #&l 1 0,01% #0 3 0,04% #a 14 0,20% #at 1 0,01% #e 1 0,01% #o 5 0,07% $& 3 0,04% $&l 1 0,01% $&n 2 0,03% $&s 1 0,01% $0k 1 0,01% $a 8 0,12% $ak 1 0,01% $al 1 0,01% $e 1 0,01% $en 1 0,01% $i 10 0,14% $il 1 0,01% $in 1 0,01% $o 2 0,03% $u 3 0,04% & 3 0,04% &l 1 0,01% &m 1 0,01% &n 1 0,01% &r 1 0,01% &s 1 0,01% &t 1 0,01% £0 2 0,03% £a 20 0,29% £ak 1 0,01% £an 2 0,03% £as 2 0,03% £e 2 0,03% £i 2 0,03% £o 12 0,17% 0 4 0,06% 0r 3 0,04% 0s 2 0,03% 0t 2 0,03%

tipo occ. % a 110 1,58% a# 1 0,01% a$ 4 0,06% a£ 1 0,01% ab 13 0,19% ad 7 0,10% af 10 0,14% ag 3 0,04% ak 8 0,12% al 25 0,36% am 13 0,19% an 19 0,27% ap 15 0,22% ar 12 0,17% as 15 0,22% at 18 0,26% av 5 0,07% aw 14 0,20% aws 2 0,03% az 1 0,01% b& 2 0,03% b&f 1 0,01% b&l 3 0,04% b&n 2 0,03% b0 1 0,01% b0k 1 0,01% b0r 1 0,01% b0s 1 0,01% b0t 2 0,03% ba 32 0,46% ba$ 2 0,03% ba£ 1 0,01% bak 3 0,04% bal 5 0,07% bam 2 0,03% ban 4 0,06% bar 4 0,06% bas 3 0,04% bat 6 0,09% be 11 0,16%

Page 19: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

409

Appendice B Tipi sillabici per pattern

In questa appendice si danno i dati relativi ai tipi sillabici ordinati secondo il pattern al quale fanno riferimento. Le percentuali sono calcolate relativamente al pattern di volta in volta preso in considerazione; le percentuali relative all'intero vocabolario AD sono disponibili nelle appendici A1, A2, A3 e A4 rispettivamente relative al cotesto 1 e al cotesto 5.

01 - CVtipo occ. %re 372 9,02% ta 213 5,16% to 213 5,16% ka 148 3,59% la 146 3,54% na 142 3,44% ra 137 3,32% ne 121 2,93% no 113 2,74% ri 98 2,38% lo 95 2,30% ti 92 2,23% le 91 2,21% ko 90 2,18% te 85 2,06% pa 69 1,67% so 62 1,50% t$e 60 1,45% sa 59 1,43% ma 57 1,38% si 56 1,36% ro 54 1,31% t$i 49 1,19% da 48 1,16% ga 46 1,12% tsa 43 1,04% po 42 1,02% li 42 1,02% se 42 1,02% di 42 1,02% vo 40 0,97% go 40 0,97% me 39 0,95% mo 39 0,95% do 37 0,90% tu 37 0,90%

01 - CVtipo occ. %va 36 0,87% de 36 0,87% bi 35 0,85% fa 34 0,82% ba 32 0,78% vi 31 0,75% mi 30 0,73% pe 30 0,73% t$o 29 0,70% d}a 29 0,70% ni 29 0,70% d}i 27 0,65% t$a 26 0,63% d}o 25 0,61% fi 23 0,56% fo 23 0,56% £a 20 0,48% ve 18 0,44% d}e 18 0,44% pi 16 0,39% ki 15 0,36% bo 15 0,36% bu 15 0,36% su 14 0,34% #a 14 0,34% dza 13 0,32% zi 13 0,32% ru 13 0,32% £o 12 0,29% ku 12 0,29% lu 12 0,29% za 11 0,27% be 11 0,27% tso 11 0,27% t& 10 0,24% $i 10 0,24%

Page 20: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

423

Appendice C

Disposizioni sillabiche in ordine di pattern accentuale e relativi lemmi

I valori delle quattro colonne esprimono: A. la disposizione sillabica; B. il numero delle occorrenze nel vocabolario AD; C. la percentuale relativa all'intero vocabolario AD; D. la percentuale relativa al pattern accentuale di appartenenza. I simboli usati sono: / = confine di parola; ‘= accento primario; , = accento secondario, * = rafforzamento fonosintattico di consonante iniziale di parola o accorciamento di vocale finale accentata.

i) Disposizione 0010 CVC_CV_'CV_CV 56 2,76% 9,12% CV_CV_'CV_CV 51 2,51% 8,31% VC_CV_'CV_CV 32 1,58% 5,21% VC_CVC_'CV_CV 32 1,58% 5,21% CVC_CV_'CVC_CV 32 1,58% 5,21% CVC_CVC_'CV_CV 31 1,53% 5,05% CV_CVC_'CV_CV 28 1,38% 4,56% CV_CV_'CVC_CV 19 0,94% 3,09% CCVC_CV_'CV_CV 15 0,74% 2,44% CVC_CV_'CV_V 10 0,49% 1,63% CV_CVC_'CAV_CV 10 0,49% 1,63% CV_CV_'CAV_CV 9 0,44% 1,47% VC_CVC_'CVC_CV 9 0,44% 1,47% CV_CV_'CCV_CV 8 0,39% 1,30% VC_CVC_'CAV_CV 8 0,39% 1,30% V_CV_'CVC_CV 8 0,39% 1,30% CV_CVC_'CVC_CV 8 0,39% 1,30% CVC_CVC_'CAV_CV 8 0,39% 1,30% CCVC_CV_'CVC_CV 7 0,34% 1,14% CVC_CCVC_'CV_CV 7 0,34% 1,14% VC_CV_'CVC_CV 7 0,34% 1,14% V_CVC_'CV_CV 6 0,30% 0,98% CVC_CV_'CCV_CV 6 0,30% 0,98% VC_CV_'CAV_CV 6 0,30% 0,98% CCV_CVC_'CV_CV 6 0,30% 0,98% VC_CCVC_'CV_CV 6 0,30% 0,98% VC_CAV_'CV_CV 5 0,25% 0,81% CVC_CVC_'CVC_CV 5 0,25% 0,81% CCV_CV_'CVC_CV 5 0,25% 0,81% CCV_CV_'CV_CV 5 0,25% 0,81% CVC_CV_'CAV_CV 4 0,20% 0,65% CCVC_CVC_'CV_CV 4 0,20% 0,65% VC_CCV_'CV_CV 4 0,20% 0,65% V_CV_'CV_CV 4 0,20% 0,65%

Page 21: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

457

Appendice D

Disposizioni sillabiche ordinate per numero crescente di sillabe (cotesto 4) e

relativi lemmi

I valori delle quattro colonne esprimono: 1. il pattern sillabico al cotesto 4; 2. il n.ro di occorrenze nel corpus; 3. la percentuale relativa all'intero corpus 4. la percentuale relativa al pattern sillabico; I simboli usati sono: / = confine di parola; ‘= accento primario; , = accento secondario, * = rafforzamento fonosintattico di consonante iniziale di parola o accorciamento di vocale finale accentata.

i) Disposizioni monosillabe CV 9 0,44% 40,91% V 5 0,25% 22,73% CVC 3 0,15% 13,64% CCVC 2 0,10% 9,09% A 2 0,10% 9,09% CCVAC 1 0,05% 4,55%

Lemmi monosillabi bi: /bi*/ ci: /t$i*/ cu: /ku*/ di: /di*/ do: /d0*/ e: /&/ e: /e/ fa: /fa*/ i: /i/ i: /j/ mi: /mi*/

Lemmi monosillabi o: /o/ plaid: /pl&d/ plaid: /pl&jd/ sol: /s0l/ stop: /st0p/ ti: /ti*/ tic: /tik/ tic: /tik/ u: /u/ u: /w/ vu: /vu*/

ii) Disposizioni bisillabe 'CVC_CV 110 5,42% 32,54% 'CV_CV 59 2,91% 17,46% 'CCVC_CV 33 1,63% 9,76% 'VC_CV 20 0,99% 5,92% 'CCV_CV 17 0,84% 5,03% 'CAV_CV 14 0,69% 4,14% 'CVC_CAV 13 0,64% 3,85% 'CAVC_CV 8 0,39% 2,37%

Page 22: Lessico Italiano - Aracne editrice · rappresentativi della lingua in questione e procedimenti di lemmatizzazione e analisi statistica delle unità linguistiche che lo costituiscono.

Finito di stampare nel mese di settembre del 2005dalla tipografia « Braille Gamma S.r.l. » di Santa Rufina di Cittaducale (Ri)

per conto della « Aracne editrice S.r.l. » di Roma