Simonetta Vietri Navigare nei testi. Teorie e applicazioni ... · A Gigi piace trattare con i...

Simonetta Vietri

Navigare nei testi. Teorie e applicazioni informatiche per la linguistica testuale

INDICE

1. L'analisi automatica dei testi ................................................................................................. 3

1.1. INTEX .......................................................................................................................................... 4

2. La teoria degli automi ............................................................................................................ 5

2.1. Definizione di automa ................................................................................................................. 6

2.2. Qualche cenno storico ................................................................................................................. 7

2.3. Automi finiti e linguaggi naturali .............................................................................................. 8

2.4. I Trasduttori ................................................................................................................................ 8

2.5. INTEX e il modello a stati finiti ................................................................................................. 9

3. I dizionari elettronici ............................................................................................................ 10

3.1. Dizionari elettronici e i dizionari usuali .................................................................................. 10

3.2. I dizionari di parole semplici e di parole composte ................................................................ 11 3.2.1. Il DELAS .............................................................................................................................................. 12

3.2.2. Il DELAF ............................................................................................................................................. 14

3.2.3. Il DELAC ............................................................................................................................................. 15

3.2.4. Il DELACF ........................................................................................................................................... 17

4. L'analisi lessicale di un testo e la risoluzione delle ambiguità... Errore. Il segnalibro non è

definito.

4.1. La grammatica locale delle particelle preverbali ............... Errore. Il segnalibro non è definito. 4.1.1. Applicazione della grammatica locale delle particelle preverbali Errore. Il segnalibro non è definito.

4.1.2. L'etichettaggio del testo ............................................................... Errore. Il segnalibro non è definito.

4.1.3. Implementazione della grammatica delle particelle preverbali .... Errore. Il segnalibro non è definito.

4.2. Il riconoscimento delle parole composte: alcuni problemi Errore. Il segnalibro non è definito. 4.2.1. Un esempio di grammatica locale degli avverbi composti .......... Errore. Il segnalibro non è definito.

4.2.2. La grammatica locale dei verbi composti .................................... Errore. Il segnalibro non è definito.

5. L’analisi testuale ............................................................ Errore. Il segnalibro non è definito.

5.1. L’analisi delle completive in un testo .................................. Errore. Il segnalibro non è definito. 5.1.1. La costruzione degli automi ......................................................... Errore. Il segnalibro non è definito.

5.1.2. Le sequenze riconosciute ............................................................. Errore. Il segnalibro non è definito.

5.1.3. Le sequenze non riconosciute ...................................................... Errore. Il segnalibro non è definito.

5.1.4. Approfondimenti .......................................................................... Errore. Il segnalibro non è definito.

Bibliografia ......................................................................... Errore. Il segnalibro non è definito.

Allegato A. Esempio di DELAF......................................... Errore. Il segnalibro non è definito.

Allegato B. Lista delle concordanze relative all'automa GramPpv Errore. Il segnalibro non è

definito.

Allegato C. Lista delle idiomatiche in prendere ................ Errore. Il segnalibro non è definito.

Allegato D. Ambiguità DET-N, PRO-V in politica ........... Errore. Il segnalibro non è definito.

Allegato E. Lista dei verbi a completiva ............................ Errore. Il segnalibro non è definito.

Allegato F. Esempio di tavola dei verbi a completiva della classe 43Errore. Il segnalibro non è

definito.

Allegato G. Le 564 occorrenze di verbi a completiva ........ Errore. Il segnalibro non è definito.

1. L'analisi automatica dei testi

L'analisi automatica dei testi, ci riferiamo qui in particolare all'analisi lessicale, consiste

nell'identificazione delle singole parole, intese come forme, presenti in un determinato testo. La

parola "identificazione" si riferisce a due procedimenti di diversa natura ed entità. Il primo

procedimento è quello di tokenisation, che consiste nell'individuazione di tutte le unità grafiche,

cioè le forme delle parole, contenute in un determinato testo. Un analizzatore di questo tipo

raggruppa le forme delle parole identiche. Possiamo definire un token come una sequenza di

caratteri tra due separatori. Ad esempio, dato il seguente testo in input:

Col passare del tempo, nei racconti di Marco le parole andarono

sostituendosi agli oggetti e ai gesti: dapprima esclamazioni, nomi isolati,

secchi verbi, poi giri di frase, discorsi ramificati e frondosi, metafore e

traslati.

il procedimento di tokenisation ci darà in output una lista del genere:

isolati

le

Marco

metafore

nei

nomi

oggetti

parole

passare

poi

racconti

ramificati

secchi

sostituendosi

tempo

traslati

verbi

Il secondo procedimento riguarda invece l'analisi lessicale di tipo morfologico che, a differenza

della semplice tokenisation, prevede l'etichettaggio morfo-grammaticale delle parole contenute in

un determinato testo. Questo tipo di analisi è di difficoltà maggiore rispetto alla precedente perché

prevede che l'analizzatore abbia a disposizione un dizionario utilizzabile da un computer, cioè un

dizionario elettronico. Per effettuare l'analisi morfologica sono necessari in input due sistemi di

dati: il testo, che definiremo come una sequenza lineare, non strutturata, di caratteri tipografici, e il

dizionario che possiamo definire, invece, come un insieme strutturato di dati linguistici. Dati in

input il testo e il dizionario, l'analizzatore morfologico, dopo averli confrontati, li proietterà su una

terza rappresentazione linguistica e cioè su una sequenza di parole, ognuna delle quali sarà associata

a determinate proprietà linguistiche, descritte, a loro volta, nel dizionario.

Una delle difficoltà dell'analisi morfo-lessicale riguarda la mole dei dizionari; infatti, nelle lingue

naturali la creazione di neologismi è continua e ciò pone il problema del costante reperimento e

della conseguente rappresentazione di tali forme. I dizionari hanno bisogno di manutenzione e

aggiornamento sistematici. Bisogna tener conto poi che le lingue naturali contengono non solo

parole semplici, ma anche parole composte come colletto bianco che, nel loro insieme, hanno un

significato completamente diverso da quello che si evince dalle singole parole che le compongono.

Così, la sequenza di parole colletto bianco può riferirsi, in senso letterale, sia a un sostantivo di tipo

concreto, indica cioè la parte di un capo d'abbigliamento, come in:

A Gigi piace indossare le camicie azzurre con il colletto bianco

sia, in senso metaforico, agli impiegati unicamente di sesso maschilei, come in:

A Gigi piace trattare con i colletti bianchi di quell'azienda

Sintagmi di questo tipo, al di fuori di ogni contesto di frase, sono ambigui. Nel primo caso, il

contesto indicherà che colletto bianco è una sequenza di parole semplici ed ha quindi significato

letterale mentre, nel secondo caso, il diverso contesto di frase indica che siamo di fronte a una

parola composta dal significato metaforico-figurato.

L'ambiguità è presente non solo al livello delle parole composte, ma è ancora più diffusa al livello

delle parole semplici siano esse grammaticali o lessicali: la parola grammaticale lo può essere sia un

determinante che un pronome così come la parola lessicale zucchero può riferirsi sia a un nome

maschile singolare sia alla prima persona del presente indicativo del verbo zuccherare. A sua volta,

la sequenza lo zucchero è ambigua perché può riferirsi sia a una sequenza determinante + nome

(DET + N) che a una sequenza pronome + verbo (PRON + V). Così, la frase:

Io lo zucchero lo scambio per cocaina

è ambigua per il computer perché riceve due analisi morfologiche diverse; entrambe le sequenze lo

zucchero e lo scambio possono essere rappresentate sia come sequenze del tipo Pronome + Verbo

sia come Determinante + Nome.

Concludendo, possiamo dire che l'analisi lessicale automatica di un testo prevede due procedimenti

di diversa entità: la tokenisation e l'analisi morfologica. Le lingue naturali, a differenza delle lingue

artificialiii, sono fortemente ambigue; di tale ambiguità gli esseri umani non hanno né coscienza né

percezione immediata, grazie alla loro capacità di produrre immediatamente l'esatta interpretazione

di ogni sequenza di parole grazie alla compresenza, nei processi comunicativi, di diversi fattori

come le conoscenze pregresse, il contesto di frase, il contesto pragmatico e così via. Il computer,

invece, non avendo a disposizione nessuno di questi strumenti, ci mostra quanto estesa sia

l'ambiguità all'interno delle lingue naturali. Il processo di riduzione o di eliminazione dell'ambiguità

è uno degli obiettivi più importanti da raggiungere per chi sia interessato a sviluppare analizzatori

automatici dei testi. La disambiguazione può avere luogo, per determinati aspetti, già al livello di

analisi morfologica, senza dover aspettare di raggiungere il livello immediatamente superiore, cioè

quello dell'analisi sintattica. Nella sezione 4 vedremo come alcune ambiguità possono essere risolte

con la costruzione di grammatiche locali.

1.1. INTEX

Il sistema INTEX, elaborato da Max Silberztein al L.A.D.L. di Parigi, e successivamente inserito

come risorsa comune nel progetto EUREKA-Genelex, è costituito da un insieme di programmi di

analisi automatica dei testi ed è basato sull'utilizzazione di dizionari elettronici di grossa taglia. La

versione francese del programma include dizionari e grammatiche pre-costituiti la cui

rappresentazione si basa sul modello degli automi a stati finiti. INTEX è un sistema modulare, ogni

utente può creare e aggiungere dizionari e grammatiche personali. I dizionari e le grammatiche

utilizzati sono tools che permettono, una volta applicati ai testi, di localizzare patterns lessicali e

sintattici, di rimuovere le ambiguità e di indicizzare ed etichettare le parole semplici e complesse

presenti nei testi. INTEX costruisce indici e concordanze rispetto a determinati pattern; può essere

utilizzato sia per analizzare corpus di grosse dimensioni che come strumento di information

retrieval.

INTEX permette la costruzione di grammatiche locali sia in forma di grafi, per mezzo di un

particolare Editor, che in forma di espressioni razionali. Le due rappresentazioni, considerate

equivalenti, vengono poi automaticamente compilate e tradotte in automi e/o trasduttori a stati finiti

grazie a dei programmi di conversione. Gli automi così costruiti vengono poi utilizzati per l'analisi

automatica dei testi. Grazie a questi strumenti è possibile effettuare la disambiguazione di alcuni

fenomeni linguistici locali e l'identificazione di pattern sintatticiiii.

INTEX è stato adottato dal gruppo di ricerca del Dipartimento di Scienze della Comunicazione

dell'Università di Salerno che, da più di dieci anni, collabora con il L.A.D.L. di Parigi per la

costruzione di un lessico-grammatica della lingua italiana. L'Università di Salerno, insieme ad altre

università e centri di ricerca europei, fa parte del progetto Relex completamente dedicato alla

descrizione formale delle lingue naturali; esso riguarda in particolare due aspetti:

1. il reperimento e la descrizione delle unità atomiche di una determinata lingua che costituiscono il vocabolario. Tale descrizione è implementata sotto forma

di dizionari elettronici;

2. la descrizione delle restrizioni sintattiche che tali unità atomiche presentano all'interno di sintagmi e di frasi. Queste restrizioni sono implementate sotto

forma di lessici-grammatiche.

Tale metodo di descrizione lessicale e sintattica ha la caratteristica di essere riproducibile ed

esaustivo e ciò ha permesso a una comunità di un centinaio di ricercatori di accumulare

osservazioni dettagliate e tra loro perfettamente compatibili sulle lingue naturaliiv. INTEX integra

queste descrizioni formalizzate e le unifica in un formato semplice e implementabile: quello degli

automi a stati finiti.

Per quanto riguarda il punto (1), all'Università di Salerno sono stati costruiti, per l'italiano, sia il

dizionario elettronico delle parole semplici (Vietri 1994, De Bueriis-Monteleone 1997) sia dizionari

elettronici delle parole composte appartenenti al linguaggio generico e a quello settoriale (Vietri

1992, 1995). Per quanto riguarda, invece, il punto (2), sono stati descritti e classificati in tavole

matriciali sia i verbi transitivi che intransitivi (EMDA 1981, Elia 1984, D'Agostino 1983), gli

avverbi (Elia 1995) e i verbi composti (Vietri 1985, 1990), i nomi predicativi che entrano in

strutture di frase a verbo supporto (Cicalese 1995, De Angelis 1989, De Bueriis 1995, Vietri 1997).

2. La teoria degli automi

Negli Stati Uniti, a partire dalla fine della seconda guerra mondiale, in diversi settori di ricerca

scientifica, come l'elettronica e l'informatica, la matematica e in particolare l'algebra, e solo un

decennio più tardi in linguistica, comincia a nascere un movimento di idee da cui ha origine la

teoria degli automi. Gli automi di cui ci occupiamo qui sono gli automi a stati finiti.

2.1. Definizione di automa

Un automa finito è un dispositivo astratto caratterizzato da un insieme finito di stati, un insieme

finito di simboli e delle transizioni. All'interno dell'insieme finito di stati distinguiamo lo stato

iniziale, degli stati intermedi e uno o più stati finali. Gli automi definiscono le sequenze di simboli

in base al percorso che va da sinistra a destra, cioè da uno stato iniziale a uno stato finale. Nella

rappresentazione qui di seguito:

S0 S1 S2 S3 S4

t1 t2 t3 t4

lo stato iniziale è S0, mentre S1, S2, S3 sono stati intermedi e S3 è lo stato finale. I collegamenti tra

gli stati rappresentano le transizioni; così la transizione t1 collega lo stato iniziale S0 allo stato

intermedio S1, la transizione t2 collega S1 a S2, la transizione t3 connette lo stato intermedio S2

allo stato S3, e infine la transizione t4 collega S3 allo stato finale S4. Lo stato finale viene

rappresentato con un doppio circolo. Questo tipo di rappresentazione è detto grafo e gli stati sono

anche definiti come nodi.

Abbiamo detto che gli automi sono dispositivi che permettono la determinazione di una sequenze di

simboli in base a un percorso. Proviamo a vedere come. Poniamo il caso che il nostro alfabeto di

simboli sia definito dai caratteri a, e, s, e etichettiamo i nodi del grafo utilizzando tale alfabeto.

e s s a

t1 t2 t3 t4

Questo automa, a partire da sinistra, nello stato iniziale legge il simbolo e, transiterà nel secondo

stato, tenendo memoria di quanto ha letto nel primo; dopo aver letto il simbolo s, determinerà la

sequenza es e continuerà in questo modo fino ad arrivare al nodo finale, cioè alla fine del percorso,

determinando la sequenza finita di simboli essa. Se, a un dispositivo di questo tipo, sottoponiamo le

due sequenze di simboli essa e es, l'automa riconoscerà la prima ma non la seconda. Un automa

come quello che abbiamo appena costruito è detto automa deterministico, perché definisce un

unico percorso nel determinare una sequenza di simboli. Un automa è detto invece non

deterministico quando, in un dato punto di tale cammino, più percorsi sono attivi:

c

e s a

s

Quest'automa non deterministico, il cui alfabeto conterrà non solo i simboli a, e, s ma anche c,

definirà le sequenze di simboli essa ed esca.

2.2. Qualche cenno storico

Anche se la teoria degli automi comincia a svilupparsi negli anni che seguirono all'ultima guerra,

dobbiamo tener presente che, molti anni prima, Markov 1913 e Turing 1936, gettarono le basi per

una teoria degli automi. In particolare, Turing definisce il modello matematico di un calcolatore

(numerico), detto per l'appunto macchina di Turing. Le macchine di Turing, contengono la nozione

di automa finito anche se si tratta di un modello più generale in quanto meccanismo di

lettura/scrittura.

Shannon 1948 descrive un modello di comunicazione molto vicino a quello degli automi finiti,

mentre sarà Stephen Kleene, in un articolo apparso nel 1956 (ma scritto già nel 1951), ad elaborare

una vera e propria teoria degli automi. Kleene stabilisce un teorema di caratterizzazione strutturale

secondo cui tutti gli eventi regolari possono essere descritti a partire da linguaggi finiti mediante

semplici operazioni della teoria degli insiemi quali l'unione, la concatenazione, l'iterazione

(annotata con una stella *). Con lo sviluppo delle grammatiche context-free, il termine evento

regolare sarà sostituito con linguaggio regolare o razionale, così come il termine algebrico

sostituirà a volte context-free, per il fatto che le regole di una grammatica context-free possono

essere considerate alla stessa stregua delle espressioni algebriche. Kleene sostiene che gli eventi che

possiamo descrivere sono proprio quelli che possiamo specificare con l'aiuto di un automa finito.

Esiste quindi un legame stretto tra automi finiti e la teoria delle grammatiche context-free o

algebriche.v

L'operazione di iterazione, annotata *, e denominata anche operazione di Kleene, rappresenta

sequenze infinite, permette cioè la costruzione di grafi ciclici come quello che segue:

una casa calda

che genera sintagmi del tipo una casa calda, una casa calda calda, una casa calda calda calda, e

così via. Silberztein 1993 ricorda che i grafi ciclici vanno usati con estrema cautela, anche in quei

casi che richiedono tale operazione, ad esempio laddove sono previsti inserimenti all'interno di un

sintagma o di una frase. Infatti, data la potenza di tale meccanismo, si riconoscerebbero anche

sequenze che non si vuole affatto che vengano riconosciute (vedi par. 4.2.2., in particolare il grafo

Inserimento).

Ricordiamo infine Shutzenberger 1955 che, elaborando la teoria algebrica della codificazione

introduce la nozione di semigruppo sintattico, che gli permette di formulare una delle definizioni

equivalenti della nozione di riconoscibilità per mezzo degli automi finiti. Mette in evidenza il

legame tra automi finiti e strutture algebriche.

2.3. Automi finiti e linguaggi naturali

L'idea di utilizzare gli automi per descrivere una lingua naturale già presente in Shannon, viene

ripresa da Chomsky 1957. In effetti, Chomsky parla del modello degli automi finiti per eliminarlo

molto rapidamente a favore dei livelli superiore della sua gerarchia. L'argomentazione di Chomsky

per escludere gli automi finiti come modello adeguato delle lingue naturali è fondata sulla presenza

di strutture incassate (non borneés = aperte), come le proposizioni condizionali:

se S1 allora S2

Queste strutture sono analoghe a quelle dei linguaggi di programmazione e paragonabili quindi ad

alcune sequenze algebriche del tipo ab, aabb, aaabbb, ... e in generale tutte le sequenze consistenti

di n occorrenze di a seguite da n occorrenze di b. A tale proposito Silberztein 1993 ricorda che le

RTN, cioè le reti a transizione estesa (= Recursive Transition Network), definite ricorsivamente,

costituiscono un meccanismo molto più potente degli automi finiti in quanto automi in cui è data la

possibilità di inserire dei nodi ausiliari che sono essi stessi RTN. Essi sono adeguati nella

descrizione di linguaggi algebrici o context-free.

Un aspetto non privo di interesse della storia dei modelli matematici usati in linguistica descrittiva è

proprio quello della rapida eliminazione degli automi finiti. Chomsky li scarta perché essi sono

troppo potenti e troppo limitati insieme per descrivere correttamente le frasi di una lingua naturale.

D'altro canto, l'approccio lessico-grammaticale di Maurice Gross mette in luce l'esistenza di una

forte limitazione alla “libertà combinatoria" delle frasi semplici. Gross attira l'attenzione sul fatto

che le frasi cosidette libere comportano delle restrizioni sintattiche e distribuzionali dipendenti dalle

singole entrate verbali. Successivamente, in una seconda fase della sua ricerca, individua, per il

francese, più di 20.000 frasi fisse e circa 10.000 avverbi composti caratterizzati da fissità di parte, o

di tutti gli elementi. Negli ultimi anni la sua ricerca si concentra sull'individuazione di sequenze

semi-fisse di tipo neutro come avere luogo, rendersi conto. e di quelle più o meno tecniche come ad

esempio abaisser une perpendiculaire à une droite. Ebbene, proprio per la descrizione di questi tipi

di frase e sintagmi ad alto livello di fissità, il modello ad automi finiti si rivela estremamente utile e

potente. Adattandolo per rappresentare fenomeni linguistici per così dire “periferici", locali, si

riesce a semplificare il modello descrittivo generale. Gross (1993) ipotizza anche la realizzazione di

un dispositivo che integra il formalismo a stati finiti; tale dispositivo che è equivalente al

componente trasformazionale va ad agire sulla rappresentazione a stati finiti ponendo delle

restrizioni sulle strutture di frase.

2.4. I Trasduttori

La teoria dei trasduttori è stata molto meno studiata di quella degli automi, di cui essa costituisce un

prolungamento naturale; infatti, da un punto di vista strettamente applicativo se, oltre a un alfabeto

d'entrata abbiamo anche un alfabeto d'uscita, l'automa, che in questo caso sarà chiamato trasduttore,

viene utilizzato per realizzare una trasduzione dell'alfabeto d'entrata verso un alfabeto d'uscita. A

partire dall'automa deterministico della sezione 2.1., otteniamo un trasduttore se diamo un'uscita

all'alfabeto d'entrata:

e/e s/l s/l a/a

applicando questo trasduttore la sequenza essa viene tradotta in ella. Così, mentre un automa

permette di riconoscere o meno una determinata sequenza secondo un valore booleano Vero (la

sequenza è riconosciuta) o Falso (la sequenza non è riconosciuta), i trasduttori producono risultati

più complessi perché l'alfabeto d'entrata permette il riconoscimento di una determinata sequenza,

mentre l'alfabeto d'uscita ci permette di produrre un determinato risultato, cioè di interpretare i

simboli dell'alfabeto riconosciuti. Così, ad esempio, per disambiguare all'interno di un testo un

sintagma nominale formato da determinante + nome, in cui il determinante è in forma elisa come in

l'esca o l'ombrello, possiamo costruire il seguente trasduttore:

L-apostrofo

Ai fini della generazione automatica dei testi il grafo andrebbe ulteriormente specificato rispetto al

fatto che il nome deve iniziare con una vocale.

2.5. INTEX e il modello a stati finiti

Nel sistema di analisi lessicale INTEX, Silberztein si serve del modello a stati finiti così come lo

abbiamo descritto nella sezione precedente. Un automa finito è quindi un grafo che contiene dei

nodi e delle frecce che collegano i nodi. Tutti i nodi sono etichettati, tranne il nodo terminale. Ad

ogni nodo si associa quindi un simbolo o una parola vuota (). Silberztein, come abbiamo già

ricordato in 2.2 e 2.3, suggerisce di usare con molta cautela i grafi ciclici, in quanto meccanismi

molto potenti; anche le reti a transizione estesa vengono adottate in INTEX in modo ristretto e cioè

unicamente come tool che permette la combinazione di automi elementari. Nel sistema INTEX, i

nodi ausiliari di una RTN sono delle semplici abbreviazioni che rimandano a grafi/automi e i grafi

che corrispondono a tali nodi restano equivalenti ad automi. Così, per ottenere l'automa finito

corrispondente, basta sostituire tutti i nodi ausiliari con i relativi automi. Silberztein ritiene infatti

che - al fine dell'analisi lessicale - la potenza delle grammatiche algebriche è inutile: i fenomeni

morfo-lessicali sono rappresentabili mediante grafi aciclici e gli RTN sono utilizzati solo nella

misura in cui essi equivalgono ad automi finiti.

3. I dizionari elettronici

Nella sezione 1.1. abbiamo detto che INTEX utilizza per l'analisi lessicale dei testi il dizionario

elettronico, che può considerarsi un insieme strutturato di dati. Abbiamo anche visto che la

descrizione formale del vocabolario di una lingua naturale, così come è stata concepita al L.A.D.L.,

prevede un tipo di descrizione oggettiva e riproducibile. I criteri di formalizzazione di tali dati

linguistici sono stati adottati da diversi gruppi di ricercatori europei cosicché tali dizionari

elettronici sono tutti utilizzabili all'interno del sistema INTEX.

Ma prima di descrivere i criteri di costruzione dei dizionari utilizzabili da un computer, in

particolare da INTEX, vediamo le principali differenze tra i dizionari usuali e i dizionari elettronici.

3.1. Dizionari elettronici e i dizionari usuali

Il termine informatizzazione non ha fatto altro che creare grande confusione fra le due categorie di

dizionari. Infatti, il processo di modernizzazione della stampa esige che i testi dei dizionari usuali

siano composti tipograficamente su supporto informatico. Si sono avuti così, dei miglioramenti

notevoli sia per quanto riguarda la qualità della stampa in sé che la compilazione dei dizionari: è

infatti molto più facile apportare delle modifiche, cioè introdurre o eliminare parti di testo. Inoltre,

la maggior parte dei dizionari sono oramai disponibili su CD e quindi direttamente consultabili su

personal computer. Molti di questi dizionari su supporto elettronico hanno una struttura ipertestuale

che permette la “navigazione" all'interno del dizionario stesso.

Tuttavia, questo processo di informatizzazione dei dizionari usuali non ha nulla a che vedere con il

loro contenuto che è pressoché rimasto invariato. I dizionari, siano essi su carta o su supporto

elettronico, sono utilizzati esclusivamente da esseri umani che dispongono di una enorme base di

conoscenza pregressa. Invece, i dizionari elettronici sono utilizzati dal computer per particolari

applicazioni informatiche e sono indirizzati ad un pubblico specializzato. Così, i dati all'interno dei

dizionari elettronici sono formalizzati per mezzo di codici che non sono immediatamente

comprensibili a qualsiasi lettore. D'altro canto, i dizionari usuali sono destinati a un pubblico vasto e

quindi sono privi di informazioni non interpretabili facilmente.

Dal momento che il contenuto dei dizionari usuali su supporto elettronico è identico a quello dei

dizionari cartacei, questi sono inutilizzabili da un programma di analisi linguistica perché i dati di

un dizionario richiedono una determinata struttura e codifica. Inoltre, visto che il computer, a

differenza di un utente umano, è una tabula rasa, non possiede cioè alcun tipo di conoscenza

pregressa, per la realizzazione dei dizionari elettronici bisogna tener conto dei criteri di esaustività,

esplicitazione e coerenza. Questi tre criteri sono strettamente connessi l'un l'altro, esaminiamoli.

Esaustività Abbiamo già visto che nei programmi di riconoscimento dei testi, in una fase iniziale, un testo è

sottoposto a una processo di tokenisation. Tale processo altro non è che la segmentazione del testo

stesso in unità grafiche, cioè in parole. Nella seconda fase, cioè nella fase morfologica, il

programma consulta il dizionario per determinare la natura grammaticale di ogni parola.

L'analizzatore deve poter ritrovare tutte le parole del testo stesso. La mancata identificazione anche

di una sola parola provoca una mancata analisi del sintagma o della frase che la contiene. Quindi è

necessario che le parole di un testo siano identiche a quelle contenute nel dizionariovi. Per questo

motivo, i dizionari elettronici devono essere il più esaustivi possibile a differenza dei dizionari

usuali che non sono mai completi e, per quanto possa sembrare inverosimile, non contengono

neanche lo stesso numero di entrate vii. Infine, le entrate contenute in un dizionario usuale sono solo

in forma canonica e cioè l'infinito per i verbi, il maschile o il femminile per i nomi, il maschile per

gli aggettivi. Ma, all'interno di un testo le parole sono date non solo in forma canonica ma anche in

forma flessa; ad esempio, possiamo trovare una delle forme coniugate del verbo amare e non solo

la forma all'infinito. Questo è uno dei motivi già di per sé sufficiente per affermare la completa non-

utilizzabilità di un dizionario usuale per l'analisi automatica dei testi. Nei dizionari elettronici, casi

come questi appena visti devono essere trattati in modo esaustivo.

Esplicitazione Le informazioni contenute nei dizionari elettronici devono essere esplicite, anche a costo di essere

ridondanti. Al contrario, i dizionari usuali contengono delle informazioni implicite e lasciano quindi

che gli utenti le deducano grazie alle loro conoscenze preesistenti. Per il computer, invece, nulla è

evidente, ed è quindi necessaria la massima esplicitazione. I compilatori dei dizionari usuali hanno

la tendenza ad omettere, senza alcun criterio sistematico, tutte le informazioni che sembrano essere

immediatamente evidenti al lettore. Dare questo tipo di informazione “evidente" significherebbe

appesantire la consultazione del dizionario. In alcuni casi i lessicografi commettono però l'errore di

essere estremamente criptici, con l'inevitabile conseguenza di una mancata comprensione da parte

del lettore.

Una qualsiasi applicazione informatica richiede un dizionario dotato di un grado molto alto di

esaustività ed esplicitazione. Infatti, il computer non ha quelle capacità deduttive e intuitive

possedute invece dagli esseri umani. Ecco perché sia la dimensione che la complessità di un

dizionario elettronico aumenta considerevolmente rispetto a un dizionario usuale.

Coerenza Nei dizionari elettronici che sono costruiti per i programmi automatici di trattamento dei testi, tutte

le informazioni devono essere non solo esplicite ma devono essere anche dotate di coerenza interna,

sia per quanto riguarda la struttura dei dati che le informazioni ad essi associati. Ad esempio, ad

ogni entrata di un dizionario elettronico deve essere assegnata una categoria grammaticale, e se

l'entrata e la categoria sono separate da una virgola, allora tutte le entrate del dizionario dovranno

avere lo stesso formato.

3.2. I dizionari di parole semplici e di parole composte

Nei dizionari elettronici vengono descritti alcuni tipi di relazioni esistenti tra le parole e le loro

forme, come la coniugazione dei verbi, e la flessione al femminile e al plurale dei nomi e degli

aggettivi. La morfologia delle parole semplici, come bastone, della, vecchiaia, vengono descritte

nel dizionario elettronico delle parole semplici (DELAS), mentre la morfologia delle parole

composte, come bastone della vecchiaia, viene descritta nel dizionario elettronico delle parole

composte (DELAC). Sia il DELAS che il DELAC costituiscono il motore linguistico del sistema

INTEX.

Ma vediamo di definire meglio la differenza tra parole semplici e parole composte su cui si basa il

sistema dei dizionari. Diremo che le parole semplici sono tutte quelle sequenze di lettere comprese

tra due separatori mentre le parole composte sono delle sequenze che includono almeno due parole

semplici (e quindi almeno un separatore). A questo livello quindi le unità minime non sono più le

lettere ma le parole semplici. La distinzione tra parole semplici e parole composte è quindi

puramente ortografica: per esempio capoturno e capodanno sono parole semplici mentre capo turno

e capo d'anno sono parole composte. Ma, mentre il plurale di capodanno è capodanni, il plurale di

capo d'anno è capi d'anno. Invece, per capo turno e capoturno è sempre capo a flettere in entrambi

i casi, abbiamo infatti capi turno e capiturno.

3.2.1. Il DELAS

Il DELAS dell'italiano contiene più di 120.000 entrate in forma canonica e cioè l'infinito per i verbi,

il maschile o il femminile singolare per i nomi, il maschile singolare per gli aggettivi. Ad ogni

entrata è associata la categoria grammaticale di appartenenza. Tali categorie corrispondono alle

parti del discorso. Le entrate sono scritte in carattere minuscolo, mentre la categoria grammaticale è

in maiuscolo. Diamo qui di seguito la tavola delle categorie grammaticali con il relativo codice

utilizzato nel DELAS:

Categoria Codice Esempio

Aggettivo A battagliero, pacifista

Avverbio AVV giustamente

Congiunzione CONG ma, poiché

Determinante DET il, un

Nome N maestro, mela

Prefisso PX de-

Preposizione PREP da, per

Pronome PRON lo, io

Suffisso SX -bile

Verbo V mangiare, andare

Le categorie grammaticali e il tipo di forma canonica adottata sono riprese dalle grammatiche

tradizionali e dai dizionari usuali. Ogni entrata è associata non solo a un codice alfabetico che

rimanda alla categoria grammaticale, ma anche a un codice numerico che ne descrive il

comportamento flessionale. Così, i codici attribuiti ai nomi e agli aggettivi, rimandano a un

paradigma che descrive la flessione al femminile (se tale forma è presente) e al plurale. Ad esempio,

i nomi maestro e mela sono codificati nel DELAS nel seguente modo:

maestro,N88

mela,N41

Nel primo caso il codice numerico 88, che corrisponde al seguente algoritmo di flessione:

ms fs mp fp

N88 -o -a -i -e

descrive il maschile singolare, maestro, il femminile singolare, maestra, il maschile plurale,

maestri, e il femminile plurale, maestre. Nel secondo caso, il codice 41, rimanda all'algoritmo di

flessione:

ms fs mp fp

N41 - -a - -e

che, oltre alla forma canonica femminile singolare, prevede solo il femminile plurale mele, infatti il

trattino indica l'assenza della forma maschile singolare e plurale. Notiamo che un aggettivo come

battagliero avrà lo stesso codice flessionale di maestro, cioè 88, mentre l'aggettivo pacifista ha

codice flessionale 70 che prevede pacifista per il maschile e il femminile singolare, pacifisti per il

maschile plurale e infine pacifiste per il femminile plurale:

ms fs mp fp

A70 -a -a -i -e

Per quanto riguarda invece i verbi, questi sono associati anch'essi a un codice numerico che rimanda

all'algoritmo di coniugazione corrispondente. Così, i due verbi andare e mangiare hanno i seguenti

codici di flessione:

andare,V5

mangiare,V4

L'algoritmo di flessione corrispondente a tutti i verbi che hanno codice 4 è il seguente:

V4 ind/pr(3o,4i,3a,3amo,3ate,3ano)

imp(3avo,3avi,3ava,3avamo,3avate,3avano)

pass r(3ai,3asti,3ò,3ammo,3aste,3arono)

fut s(4erò,4erai,4erà,4eremo,4erete,4eranno)

imperat(-,3a,4i,3amo,3ate,4ino)

cong/pr(4i,4i,4i,3amo,3ate,4ino)

imp(3assi,3assi,3asse,3assimo,3aste,3assero)

cond/pr(4erei,4eresti,4erebbe,4eremmo,4ereste,4erebbero)

part/pr(3ante,3anti)

pass(3ato,3ata,3ati,3ate)

ger/pr(3ando)

Le abbreviazioni che precedono quanto contenuto in parentesi si riefriscono all'indicazione del

modo e del tempo. Ad esempio, la prima linea del codice dice che per costruire l'indicativo presente

(ind/pr) è necessario, a partire dalla forma all'infinito mangiare, eliminare tre caratteri a partire da

destra, otteniamo così mangi-, e aggiungere -o per la prima persona singolare. Per la seconda

persona singolare, è necessario invece eliminare quattro caratteri e aggiungere la -i e così via.

Il codice 5, che si applica solo al verbo andare, è il seguente:

V5 ind/pr(6vado,6vai,6va,3iamo,3ate,6vanno)

imp(3avo,3avi,3ava,3avamo,3avate,3avano)

pass r(3ai,3asti,3ò,3ammo,3aste,3arono)

fut s(3rò,3rai,3rà,3remo,3rete,3ranno)

imperat(-,6va,6vada,3iamo,3ate,6vadano)

cong/pr(6vada,6vada,6vada,3iamo,3iate,6vadano)

imp(3assi,3assi,3asse,3assimo,3aste,3assero)

cond/pr(3rei,3resti,3rebbe,3remmo,3reste,3rebbero)

part/pr(3ante,3anti)

pass(3ato,3ata,3ati,3ate)

ger/pr(3ando)

(IndPr1s=6vo)

(Imperat2s=6va')

(Imperat2s=6vai)

Le ultime tre linee del paradigma indicano le forme sovrabondanti dell'imperativo. Si creano in

questo modo delle classi di equivalenza, in base alla categoria grammaticale e al comportamento

flessionale.

3.2.2. Il DELAF

Il DELAS descrive la flessione delle parole semplici e permette il riconoscimento delle parole

semplici in un testo. Tuttavia, nei testi, le parole semplici si presentano non solo in forma canonica

(infinito per i verbi, maschile singolare per i nomi e gli aggettivi) ma anche in forma flessa (vedi

par. 3.1. in particolare esaustività). Il riconoscimento delle parole implica quindi che si effettui

l'analisi morfologica delle occorrenze per individuare le rispettive forme canoniche. Quest'analisi

viene fatta sul dizionario elettronico delle forme flesse. Un analizzatore morfologico dovrà

riconoscere tutte le forme delle parole e associarle alle rispettive forme canoniche. Per questo tipo

di analisi è necessario disporre quindi di un dizionario elettronico delle forme flesse. I codici di

flessione associati ai nomi, agli aggettivi e ai verbi del DELAS sono utilizzati da un programma di

generazione automatica delle forme flesse che, a partire dalle 120.000 entrate del DELAS, ne genera

circa 1.000.000viii. Queste forme costituiscono il dizionario elettronico delle forme flesse, cioè il

DELAF.

Così, mentre il DELAS contiene solo le forme canoniche associate a una categoria grammaticale e a

un codice di flessione:

andare,V5

battagliero,A88

maestro,N88

mangiare,V4

mela,N41

pacifista,A70

il DELAF conterrà tutte le forme flesse con l'indicazione della forma canonica corrispondente e le

informazioni morfologiche. Diamo qui qualche stringa di esempio, la lista completa delle forme

flesse di queste sei entrate è data nell'Allegato A:

andrete,andare.V5:IndFut2p

andrò,andare.V5:IndFut1s

battagliera, battagliero.N88:fs

battagliere,battagliero.N88:fp

battaglieri,battagliero.N88:mp

battagliero,battagliero.N88:ms

maestra,maestro.N88:fs

maestre,maestro.N88:fp

maestri,maestro.N88:mp

maestro,maestro.N88:ms

mangerà,mangiare.V4:IndFut3s

mangerai,mangiare.V4:IndFut2s

..............................................

mela,mela.N41:fs

mele,mela.N41:fp

Ad ogni forma flessa è associata non solo la categoria grammaticale e la classe di appartenenza per

quanto riguarda la flessione ma anche informazioni del tipo:

modo - tempo - persona - numero: è il caso dei verbi, così ad esempio la seconda entrata degli esempi appena dati dice che andrò è la prima persona singolare (1s) del

futuro indicativo (IndFut) del verbo andare che appartiene alla classe di coniugazione

5ix.

solo il numero se il genere è fisso: è il caso di mele che è la forma di numero plurale del nome femminile mela che appartiene alla classe di flessione 41.

numero e genere: è il caso di quei nomi e di tutti gli aggettivi che, oltre alla forma canonica maschile singolare, accettano anche il femminile singolare e le rispettive

forme plurali, come maestro e pacifista.

3.2.3. Il DELAC

Nella sezione 3.2. abbiamo dato una definizione puramente grafica di parola composta, e cioè una

sequenza che include almeno due parole semplici. Nei testi, le unità significative sono solo

raramente le parole semplici mentre sono le parole composte ad avere valore semantico, a

corrispondere cioè a dei concetti precisi, come si può osservare nel seguente testo tratto da una

rivista di informatica:

Aladdin prodotto da ASE risolve alcuni di questi problemi: è infatti

possibile memorizzare informazioni, di qualunque genere, direttamente dal

personal computer su un piccolo microchip o a una memory card con un

efficace e rivoluzionario sistema di trasmissione. Tutto quello che si deve

fare è inserire una carta conforme agli standard ISO7816-3 o I2C

nell'apposito drive proposto da ASE, accedere al programma di gestione,

impostare i dati che devono essere memorizzati e lasciare alla periferica il

compito di trasferirli nella memoria del chip. A questo punto si può

verificare il contenuto eseguendo una semplice operazione di lettura della

carta. Aladdin deve essere collegato alla stazione di lavoro tramite la

normale porta parallela o tramite il connettore seriale.

Naturalmente, un analizzatore lessicale, che segmenta porta parallela non come un un'unica unità

grafica ma come due unità grafiche diverse, rischia di dare in output un indice di parole-chiave che

non rispecchia nel modo più assoluto il contenuto del testo. Sappiamo che la produzione di

documenti stampati (quotidiani, riviste, libri) di qualsiasi natura è oramai, nella maggior parte dei

casi completamente informatizzata, tutto viene oramai archiviato su supporto informatico. Nei

centri di documentazione vengono utilizzati dei programmi di riconoscimento delle parole-chiave in

un documento o in un testo, ad esempio, nel titolo di un libro o del suo riassunto. Ma le tecniche di

riconoscimento di testi oggi più diffuse sono nella maggior parte dei casi destinate a fallire perché si

basano unicamente sul riconoscimento di parole semplici e quindi non riescono a distinguere per

esempio il nome composto fondo nero ("denaro accantonato illegalmente") dalla sequenza di parole

semplici fondo nero in una frase come:

Quel quadro ha un fondo nero

nel senso quindi di "sfondo della tela". Il tener conto delle parole composte è di grande importanza

soprattutto per quanto riguarda il reperimento delle informazioni nei testi di tipo tecnico-scientifico,

che sono quelli di maggior rilievo ed interesse. La complessità dei testi di questo tipo risiede infatti

non tanto nella costruzione sintattica quanto nella terminologia impiegata che è propria di ogni

settore di appartenenza e che è costituita in gran parte da parole composte.

Tuttavia, le parole composte non sono presenti solo nei linguaggi specializzati ma anche nel

linguaggio generico o comune. Abbiamo già visto esempi come colletto bianco, capo d'anno e

bastone della vecchiaia, ma sono parole composte anche occhiali da sole, carta di credito, faccia a

faccia, filo d'Arianna. Intuitivamente, vediamo che già all'interno di questa lista di esempi, alcune

parole composte sembrano avere un valore metaforico più forte rispetto alle altre. E' il caso di

bastone della vecchiaia e filo d'Arianna che si riferiscono rispettivamente a “persona di sostegno

per qualcuno" e a “ciò che consente di uscire da una situazione complicata". Per le altre parole

composte come occhiali da sole o carta di credito il significato è più o meno ricostruibile, ad

esempio, “occhiali che servono a proteggere dalla luce del sole" e “carta che serve per ottenere un

credito". In tutti gli esempi dati le parole composte hanno funzione nominale, sono cioè nomi

composti. Ma, all'interno delle parole composte, possiamo avere anche aggettivi composti, come

vivo e vegeto, nuovo di zecca, oppure avverbi composti come a bruciapelo, a tutta birra, a denti

stretti. Vediamo quindi che il significato delle parole composte può essere non-composizionale,

cioè il significato non è ricavabile dalla somma dei significati dei singoli elementi che la

compongono. Così, bastone della vecchiaia non si riferirà in questo caso ad un nome concreto ma a

un essere umano o animato. Da un punto di vista morfo-grammaticale, osserviamo che, ad esempio,

il nome composto bastone della vecchiaia è di genere maschile e accetta il plurale bastoni della

vecchiaia. Eredita quindi il genere della testa del nome composto. Invece, faccia a faccia, è un

nome composto di genere maschile anche se la testa dell'intera sequenza composta, cioè faccia è,

come parola semplice, di genere femminile ed ha una forma plurale invariabile: abbiamo quindi i

faccia a faccia ma non i facce a facce. La sequenza composta faccia a faccia ha anche funzione

aggettivale, come in un incontro faccia a faccia. Gli avverbi, nella maggior parte dei casi, non

hanno alcuna forma flessa. Finora abbiamo accennato alle parole composte non verbali, ma sono

presenti anche parole composte verbali, cioè sequenze composte contenenti verbi, come, ad

esempio, tirare le cuoia, oppure prendere il toro per le corna. Questo tipo di sequenza è anche detto

frase fissa, o ancora più tradizionalmente frase o espressione idiomatica. Nelle frasi fisse l'unico

elemento che flette è il verbo. La presenza assai estesa delle parole composte nelle lingue naturali è

fenomeno di cui non si può non tener conto e ciò accresce la complessità dei dati e le procedure da

utilizzarex.

La costruzione di un dizionario delle parole composte rispecchia, anche se con le dovute differenze,

i criteri di costruzione del DELAS, il dizionario delle parole semplici. Così, ad esempio, a partire da

una lista di nomi composti appartenenti al linguaggio generico, il DELAC viene costruito

assegnando ad ogni entrata composta una classificazione morfo-grammaticale. Nella seguente lista

di nomi composti, vediamo che il formato del DELAC prevede che ogni singola parola della

sequenza composta venga separata da uno slash "/", dopo la virgola seguono due codici alfabetici

separati dal segno “+" e un codice che si riferisce alla struttura interna del composto stesso:

bastone/della/vecchiaia,N+NDN

occhiali/da/sole,N+NPN

colletto/blu,N+NA

anno/luce,N+NN

dolce/vita,N+AN

Il primo codice indica la categoria grammaticale di appartenza della parola composta, nella lista

sopra si tratta di nomi (N); il secondo codice si riferisce invece alla struttura interna del composto

stesso. La lettera N indica il nome, mentre A indica l'aggettivo, D indica la presenza della

preposizione di e P indica la presenza di una preposizione diversa da di. Così, la struttura interna di

un nome composto come bastone della vecchiaia è definita dalla sequenza nome + di + nome,

occhiali da sole è una sequenza nome + preposizione + nome. I nomi composti colletto blu e dolce

vita sono formati rispettivamente da nome + aggettivo e da aggettivo + nome. Infine, un nome

composto come anno luce è la sequenza di due nomi.

Finora abbiamo assegnato ai nomi composti delle informazioni di natura grammaticale, dobbiamo

ora dare delle indicazioni di tipo morfologico, così come esse sono assegnate alle parole semplici

del DELAS. Useremo i quattro simboli m (maschile), f (femminile), s (singolare), p (plurale) e i

segni "+" e "-". La prima occorrenza di uno di questi due segni indica la variazione di genere

mentre la seconda occorrenza indica la variazione di numero. Vediamo come vengono assegnati tali

simboli ai cinque nomi composti appena dati:

bastone/della/vecchiaia,N+NDN:ms-+

occhiali/da/sole,N+NPN:mp--

colletto/blu,N+NA:ms-+

anno/luce,N+NN:ms-+

dolce/vita,N+AN:ms-+

dolce/vita,N+AN:fs--

Il nome composto bastone della vecchiaia è di genere maschile (m) e di numero singolare (s), non

accetta la forma femminile (-) mentre ha una forma plurale (+). Il nome occhiali da sole è di genere

maschile (m) e di numero plurale (p). Non accetta né il femminile (-), né la forma singolare (-); il

nome composto colletto blu è di genere maschile (m) e di numero singolare (s), non accetta la

forma femminile (-) mentre ha la forma plurale (+). Il nome composto anno luce è di genere

maschile (m) e di numero singolare (s); non accetta variazione di genere (-) ma ha una forma al

plurale (+). Più complicato è il caso del nome composto dolce vita, che è stato sdoppiato in due

entrate perché può riferirsi sia a un oggetto concreto, più esattamente un “capo d'abbigliamento", ed

è, in questo caso, di genere femminile pur accettando una forma di genere maschile, oltre alla forma

plurale invariabile:

A Maria piace indossare (il + la) dolce vita

A Maria piace indossare (i + le) dolce vita

sia a un’entità astratta come nella frase:

A Maria piace (E+ fare) la dolce vita

in cui la sequenza dolce vita è sempre un nome composto ma accetta solo la forma femminile

singolare e non ammette il plurale:

*A Maria piace (E+ fare) le (dolce vita + dolci vite)

3.2.4. Il DELACF

A partire da queste indicazioni morfo-grammaticali, generiamo, grazie a delle routine informatiche,

elaborate da M.Silberztein, le corrispondenti forme flesse. Il DELACF, cioè il dizionario delle

forme flesse delle parole composte avrà la seguente struttura:

anni/luce,anno/luce.N+NN:mp-+

anno/luce,anno/luce.N+NN:ms-+

bastone/della/vecchiaia,bastone/della/vecchiaia.N+NDN:ms-+

bastoni/della/vecchiaia,bastone/della/vecchiaia.N+NDN:mp-+

colletti/blu,colletto/blu.N+NA:mp-+

colletto/blu,colletto/blu.N+NA:ms-+

dolce/vita,dolce/vita.N+AN:fp++

dolce/vita,dolce/vita.N+AN:fs++

dolce/vita,dolce/vita.N+AN:fs--

dolce/vita,dolce/vita.N+AN:mp++

dolce/vita,dolce/vita.N+AN:ms++

occhiali/da/sole,occhiali/da/sole.N+NPN:mp--

Come nel DELAF, alla forma flessa del nome composto segue la forma canonica con tutte le

indicazioni morfo-grammaticali. Le routine informatiche, descritte in M.Silberztein 1993,

permettono di generare le forme flesse dei nomi composti tramite DELAF.

L'indicazione della struttura interna ci permette di stabilire il comportamento flessionale dei nomi

composti, così tutti i nomi composti definiti dalle classi NPN e NDN flettono solo la testa della

sequenza, cioè la prima occorrenza di Nxi ; i composti che appartengono alla classe AN e NA

flettono sia il nome sia l'aggettivoxii. Un caso particolare è costituito dai nomi appartenenti alla

classe NN: possiamo avere casi in cui è solo il primo elemento nominale a flettere come anni luce,

ma ci sono casi in cui sia il primo che il secondo elemento flettono, come in foca monaca e foche

monache.

Le cinque classi che abbiamo appena visto sono le più produttive, esistono però dei nomi composti,

soprattutto di tipo terminologico, la cui struttura interna è composta da più di due elementi lessicali.

Ad esempio, nel settore dell'economia, troviamo:

persona giuridica privata

persona giuridica pubblica

che sono composti formati da un nome e da due aggettivi e fanno parte quindi della classe NAA. I

nomi con tale struttura interna, hanno lo stesso comportamento flessionale dei nomi che

appartengono alla classe NA, ad esempio persona giuridica, flettono quindi sia il nome sia gli

aggettivi. Esistono poi, alcuni nomi composti come:

saggio salariale base

polizza primo rischio

che, pur avendo un'identica struttura interna e cioè NAN, non hanno lo stesso comportamento

flessionale, perché pongono un problema di segmentazione. Infatti, nel primo esempio l'aggettivo

salariale si riferisce al nome saggio, mentre nel secondo esempio l'aggettivo primo si riferisce al

nome rischio. Questi due nomi composti ricevono quindi un diverso tipo di segmentazione:

((saggio salariale) base) ((NA)N)

(polizza (primo rischio)) (N(AN))

Possiamo trovare nomi composti come tasso d'inflazione annuo e società per azioni privata, che

appartengono alla classe NPNA: l'aggettivo, in casi come questi si riferisce rispettivamente ai nomi

tasso e società. In altri casi, invece, come ad esempio in impresa a partecipazione statale

l'aggettivo statale si riferisce al nome partecipazione. Inoltre, in alcuni casi del primo tipo, cioè in

quelle parole composte che ricevono una segmentazione del tipo ((NPN)A) l'aggettivo può seguire

direttamente il primo nome, come in:

tasso annuo d'inflazione

?* società privata per azioni

Casi di questo tipo sono stati listati anche nella classe NAPN; non tutti i nomi composti che entrano

in questa classe accettano però l'anteposizione dell'aggettivo, è il caso di tassa postale a carico.

Nomi composti come estratto conto analitico e conto capitale sociale hanno come struttura interna

NNA ma, mentre nel primo l'aggettivo analitico si riferisce al nome estratto, nel secondo esempio

l'aggettivo sociale si riferisce a capitale. Le forme flesse saranno quindi:

estratti conto analitici

conti capitale sociale

I composti a struttura lunga richiedono un'analisi sintagmatica più attenta per stabilire il

comportamento flessionale. Diamo qui di seguito una tabella delle classi dei nomi composti

individuati:

NA colletto blu

AN dolce vita

NN anno luce

NDN bastone della vecchiaia

NPN occhiali da sole

NAA persona giuridica privata

NAN saggio salariale base

NNA estratto conto analitico

NAPN tassa postale a carico

NPNA tasso d'interesse annuo

L'obiezione che generalmente viene mossa contro la costruzione di dizionari di parole composte di

questo tipo riguarda l'inutilità di una procedura così minuziosa e dettagliata visto che, nei testi, la

presenza di forme composte scorrette, e quindi il conseguente riconoscimento di forme inaccettabili

da parte dell'analizzatore, è altamente improbabile. Le ragioni per cui si preferisce tale descrizione

dettagliata e la generazione di tutte le forme flesse delle parole composte sono le seguenti:

se la costruzione dei dizionari elettronici e di tutte le loro forme è perfetta, prevede cioè solo le forme accettabili di una determinata lingua, allora tali dizionari saranno

utilizzabili non solo per l'analisi ma anche per la generazione automatica dei testi;

la presenza di errori in un testo, soprattutto al livello delle parole composte, è improbabile ma non impossibile, e se gli errori sono effettivamente presenti, allora sarà possibile, con

tali dizionari, individuarli. La descrizione di tutte le forme accettabili delle parole

composte permetterà che forme inaccettabili del tipo facce a facce, anni luci, e così via,

se presenti in un testo, saranno date come errate, mentre in fase di generazione di un testo

non saranno mai forme permesse.

La costituzione di dizionari di parole composte è di grande utilità per effettuare dei controlli

grammaticali a livello sintagmatico. Consideriamo gli esempi che seguono:

Ho perso i miei occhiali di fabbricazione avanzata

Ho perso i miei occhiali da vista nuovi

Nel primo esempio l'aggettivo avanzato accorda con la testa del sintagma preposizionale che

immediatamente lo precede, cioè fabbricazione; nel secondo esempio invece, l'aggettivo nuovo

accorda con occhiali, che è, in questo caso, la testa del sintagma che immediatamente lo precede.

Nel primo caso siamo di fronte alla sequenza libera di parole occhiali di fabbricazione, mentre nel

secondo caso si tratta di un nome composto. Un qualunque programma di controllo grammaticale

che non tenga conto delle parole composte segnalerebbe come errore la sequenza occhiali da vista

nuovi, e probabilmente suggerirebbe come esatta la sequenza occhiali da vista nuova.

L'applicazione di dizionari di parole composte nell'analisi lessicale di un testo ci dà la possibilità di

stabilire che l'accordo tra nome e aggettivo non sia necessariamente determinato dal nome che

immediatamente precede l'aggettivo stesso. Così, se costruiamo una grammatica locale che permette

di riconoscere i sintagmi nominali come quella che segue:

GramSintNom

i nodi etichettati N ci permetteranno di riconoscere anche i nomi composti, che, ricordiamo nei

dizionari sono etichettati non solo in base alla loro struttura interna ma anche in base alla loro

funzione grammaticale. Dato il trasduttore NPN che pone delle restrizioni di accordo, il sistema

riconoscerà come esatta una sequenza come occhiali da vista nuovi e, segnalerà, se presente in un

testo, come eventuale sequenza errata occhiali da sole nuovo.

i Se vogliamo riferirci alle impiegate, utilizzando una parola composta, non useremo colletto bianco bensì colletto rosa.

D'altra parte, vediamo che colletto blu indica gli operai, siano essi uomini o donne.

ii Silberztein (1993) ricorda a tale proposito che l'analisi automatica dei testi in lingua naturale presenta alcune analogie

con l'analisi lessicale interna ad alcune routine informatiche. Ad esempio, un analizzatore di un compilatore identifica i

lessemi presenti in un programma sorgente (identificazione di variabili, parole chiave e operatori) così come, all'interno

di un testo è possibile identificare le singole parole. Ma, mentre il vocabolario delle applicazioni informatiche è

estremamente limitato e ridotto, il vocabolario di una lingua naturale contiene circa un milione di parole. Inoltre, nei

linguaggi di programmazione si evita accuratamente di attribuire più di un senso ad una stessa parola, tali linguaggi

sono quindi privi di ambiguità.

iii Per una descrizione dettagliata di INTEX rimandiamo il lettore a M.Silberztein, INTEX 3.4. Reference Manual

iv Per un rinvio generale a tutti i lavori fatti in ambito lessico-grammaticale si faccia ridferimento alla rivista

Linguisticae Investigationes pubblicata da Benjamins che, tra l’altro, aggiorna periodicamente una bibliografia relativa

all’argomento. Tale bibliografia è uscita una prima volta nel numero XXX ed è consultabile on-line sulla home page del

Laboratoire d’Automatique et Documentaire Linguistique (L.A.D.L.)

v Per un excursus storico sulla teoria degli automi finiti vedi D.Perrin 1994.

vi E' proprio per questo motivo che diventa importante sviluppare sia le tecniche di correzione ortografica che le

tecniche di trattamento delle parole sconosciute (nomi propri, neologismi).

vii Ad esempio, il Nuovo Zinagrelli 1998 dichiara di contenere 134.000 voci, mentre il Dizionario Y ne contiene XXXX.

La parola XXXX è presente nel Dizionario X ma non nel Dizionario Y. Se consultiamo attentamente il dizionario della

lingua italiana Zingarelli ci rendiamo conto che gli avverbi in - mente e gli aggettivi in - ante sono indicati in modo

estremamente casuale: troviamo così l'avverbio ingiustamente ma non giustamente o lealmente. I dizionari riportano

una parola desueta come detossicante ma non disgregante. Allo stesso modo tutti gli aggettivi costruiti, a partire dai

verbi, con il suffisso -bile sono elencati in modo poco prevedibile. Troviamo, ad esempio, amare - amabile, mangiare -

mangiabile, ma non abbiamo alcuna traccia di derivazioni possibili come guardare -guardabile, fatturare - fatturabile.

Inoltre, vengono registrati la coppia indistruttibile-indistruttibilità, ma non individuabile-individuabilità. Anche le

forme negative in de - sono mal registrate; a fronte di incremento, incrementare e decremento, non troviamo

decrementare che virtualmente potrebbe entrare in un nuovo ciclo derivazionale:

bilità (decrementabilità = nome)

bilizzare (decrementabilizzare = verbo)

bilizzabile (decrementabilizzabile= aggettivo)

bilizzazione (decrementabilizzazione=nome) viii Il programma di generazione delle forme flesse del DELAS è stato realizzato da Francesco Di Maio, responsabile del

laboratorio di informatica del Dipartimento di Scienze della Comunicazione dell'Università di Salerno.

ix Facciamo notare che, oltre a una versione del dizionario in cui le informazioni morfologiche dei verbi sono più o

meno esplicite, è stata creata una versione compatta in cui le informazioni di tipo modale e temporale sono indicate con

una lettera maiuscola dell'alfabeto. Abbiamo quindi:

Ind(icativo) Pres(ente) X

Ind(icativo) Imp(erfetto) Y

Ind(icativo) Pass(ato) J

Ind(icativo) Fut(uro) K

Cong(iuntivo) Pres(ente) W

Cong(iuntivo) Imp(erfetto) H

Cond(izionale) Pres(ente) F

Imper(ativo) Q

Inf(inito) I

Ger(undio) Pres(ente) G

Part(icipio) Pres(ente) Z

Part(icipio) Pass(ato) U

x Bisogna tener presente che tutte le forme fisse hanno notevole rilevanza nell'ambito della traduzione, sia essa assistita

o automatica. La costruzione di dizionari elettronici bilingui dove ad ogni entrata di tipo composto viene associata la

traduzione nella lingua prescelta, facilita la traduzione dei testi di natura tecnico-scientifica.

xi Abbiamo già visto qualche caso particolare come il nome composto faccia a faccia che pur appartenendo alla classe

NPN non segue la flessione del nome faccia (vedi par. 3.2.3). Il composto è maschile singolare, anche se la parola

semplice faccia è femminile singolare.

xii Anche nel caso di nomi appartenenti a queste due classi possiamo avere delle eccezioni, è il caso ad esempio di

Antico Testamento che non accetta la forma plurale, anche se, come parola singola testamento flette al plurale.

Simonetta Vietri Navigare nei testi. Teorie e applicazioni ... · A Gigi piace trattare con i...

Documents

Transcript of Simonetta Vietri Navigare nei testi. Teorie e applicazioni ... · A Gigi piace trattare con i...