Simonetta Vietri Navigare nei testi. Teorie e applicazioni ... · A Gigi piace trattare con i...

22
Simonetta Vietri Navigare nei testi. Teorie e applicazioni informatiche per la linguistica testuale

Transcript of Simonetta Vietri Navigare nei testi. Teorie e applicazioni ... · A Gigi piace trattare con i...

  • Simonetta Vietri

    Navigare nei testi. Teorie e applicazioni informatiche per la linguistica testuale

  • INDICE

    1. L'analisi automatica dei testi ................................................................................................. 3

    1.1. INTEX .......................................................................................................................................... 4

    2. La teoria degli automi ............................................................................................................ 5

    2.1. Definizione di automa ................................................................................................................. 6

    2.2. Qualche cenno storico ................................................................................................................. 7

    2.3. Automi finiti e linguaggi naturali .............................................................................................. 8

    2.4. I Trasduttori ................................................................................................................................ 8

    2.5. INTEX e il modello a stati finiti ................................................................................................. 9

    3. I dizionari elettronici ............................................................................................................ 10

    3.1. Dizionari elettronici e i dizionari usuali .................................................................................. 10

    3.2. I dizionari di parole semplici e di parole composte ................................................................ 11 3.2.1. Il DELAS .............................................................................................................................................. 12

    3.2.2. Il DELAF ............................................................................................................................................. 14

    3.2.3. Il DELAC ............................................................................................................................................. 15

    3.2.4. Il DELACF ........................................................................................................................................... 17

    4. L'analisi lessicale di un testo e la risoluzione delle ambiguità... Errore. Il segnalibro non è

    definito.

    4.1. La grammatica locale delle particelle preverbali ............... Errore. Il segnalibro non è definito. 4.1.1. Applicazione della grammatica locale delle particelle preverbali Errore. Il segnalibro non è definito.

    4.1.2. L'etichettaggio del testo ............................................................... Errore. Il segnalibro non è definito.

    4.1.3. Implementazione della grammatica delle particelle preverbali .... Errore. Il segnalibro non è definito.

    4.2. Il riconoscimento delle parole composte: alcuni problemi Errore. Il segnalibro non è definito. 4.2.1. Un esempio di grammatica locale degli avverbi composti .......... Errore. Il segnalibro non è definito.

    4.2.2. La grammatica locale dei verbi composti .................................... Errore. Il segnalibro non è definito.

    5. L’analisi testuale ............................................................ Errore. Il segnalibro non è definito.

    5.1. L’analisi delle completive in un testo .................................. Errore. Il segnalibro non è definito. 5.1.1. La costruzione degli automi ......................................................... Errore. Il segnalibro non è definito.

    5.1.2. Le sequenze riconosciute ............................................................. Errore. Il segnalibro non è definito.

    5.1.3. Le sequenze non riconosciute ...................................................... Errore. Il segnalibro non è definito.

    5.1.4. Approfondimenti .......................................................................... Errore. Il segnalibro non è definito.

    Bibliografia ......................................................................... Errore. Il segnalibro non è definito.

    Allegato A. Esempio di DELAF......................................... Errore. Il segnalibro non è definito.

    Allegato B. Lista delle concordanze relative all'automa GramPpv Errore. Il segnalibro non è

    definito.

    Allegato C. Lista delle idiomatiche in prendere ................ Errore. Il segnalibro non è definito.

    Allegato D. Ambiguità DET-N, PRO-V in politica ........... Errore. Il segnalibro non è definito.

    Allegato E. Lista dei verbi a completiva ............................ Errore. Il segnalibro non è definito.

    Allegato F. Esempio di tavola dei verbi a completiva della classe 43Errore. Il segnalibro non è

    definito.

    Allegato G. Le 564 occorrenze di verbi a completiva ........ Errore. Il segnalibro non è definito.

  • 1. L'analisi automatica dei testi

    L'analisi automatica dei testi, ci riferiamo qui in particolare all'analisi lessicale, consiste

    nell'identificazione delle singole parole, intese come forme, presenti in un determinato testo. La

    parola "identificazione" si riferisce a due procedimenti di diversa natura ed entità. Il primo

    procedimento è quello di tokenisation, che consiste nell'individuazione di tutte le unità grafiche,

    cioè le forme delle parole, contenute in un determinato testo. Un analizzatore di questo tipo

    raggruppa le forme delle parole identiche. Possiamo definire un token come una sequenza di

    caratteri tra due separatori. Ad esempio, dato il seguente testo in input:

    Col passare del tempo, nei racconti di Marco le parole andarono

    sostituendosi agli oggetti e ai gesti: dapprima esclamazioni, nomi isolati,

    secchi verbi, poi giri di frase, discorsi ramificati e frondosi, metafore e

    traslati.

    il procedimento di tokenisation ci darà in output una lista del genere:

    isolati

    le

    Marco

    metafore

    nei

    nomi

    oggetti

    parole

    passare

    poi

    racconti

    ramificati

    secchi

    sostituendosi

    tempo

    traslati

    verbi

    Il secondo procedimento riguarda invece l'analisi lessicale di tipo morfologico che, a differenza

    della semplice tokenisation, prevede l'etichettaggio morfo-grammaticale delle parole contenute in

    un determinato testo. Questo tipo di analisi è di difficoltà maggiore rispetto alla precedente perché

    prevede che l'analizzatore abbia a disposizione un dizionario utilizzabile da un computer, cioè un

    dizionario elettronico. Per effettuare l'analisi morfologica sono necessari in input due sistemi di

    dati: il testo, che definiremo come una sequenza lineare, non strutturata, di caratteri tipografici, e il

    dizionario che possiamo definire, invece, come un insieme strutturato di dati linguistici. Dati in

    input il testo e il dizionario, l'analizzatore morfologico, dopo averli confrontati, li proietterà su una

    terza rappresentazione linguistica e cioè su una sequenza di parole, ognuna delle quali sarà associata

    a determinate proprietà linguistiche, descritte, a loro volta, nel dizionario.

    Una delle difficoltà dell'analisi morfo-lessicale riguarda la mole dei dizionari; infatti, nelle lingue

    naturali la creazione di neologismi è continua e ciò pone il problema del costante reperimento e

    della conseguente rappresentazione di tali forme. I dizionari hanno bisogno di manutenzione e

    aggiornamento sistematici. Bisogna tener conto poi che le lingue naturali contengono non solo

  • parole semplici, ma anche parole composte come colletto bianco che, nel loro insieme, hanno un

    significato completamente diverso da quello che si evince dalle singole parole che le compongono.

    Così, la sequenza di parole colletto bianco può riferirsi, in senso letterale, sia a un sostantivo di tipo

    concreto, indica cioè la parte di un capo d'abbigliamento, come in:

    A Gigi piace indossare le camicie azzurre con il colletto bianco

    sia, in senso metaforico, agli impiegati unicamente di sesso maschilei, come in:

    A Gigi piace trattare con i colletti bianchi di quell'azienda

    Sintagmi di questo tipo, al di fuori di ogni contesto di frase, sono ambigui. Nel primo caso, il

    contesto indicherà che colletto bianco è una sequenza di parole semplici ed ha quindi significato

    letterale mentre, nel secondo caso, il diverso contesto di frase indica che siamo di fronte a una

    parola composta dal significato metaforico-figurato.

    L'ambiguità è presente non solo al livello delle parole composte, ma è ancora più diffusa al livello

    delle parole semplici siano esse grammaticali o lessicali: la parola grammaticale lo può essere sia un

    determinante che un pronome così come la parola lessicale zucchero può riferirsi sia a un nome

    maschile singolare sia alla prima persona del presente indicativo del verbo zuccherare. A sua volta,

    la sequenza lo zucchero è ambigua perché può riferirsi sia a una sequenza determinante + nome

    (DET + N) che a una sequenza pronome + verbo (PRON + V). Così, la frase:

    Io lo zucchero lo scambio per cocaina

    è ambigua per il computer perché riceve due analisi morfologiche diverse; entrambe le sequenze lo

    zucchero e lo scambio possono essere rappresentate sia come sequenze del tipo Pronome + Verbo

    sia come Determinante + Nome.

    Concludendo, possiamo dire che l'analisi lessicale automatica di un testo prevede due procedimenti

    di diversa entità: la tokenisation e l'analisi morfologica. Le lingue naturali, a differenza delle lingue

    artificialiii, sono fortemente ambigue; di tale ambiguità gli esseri umani non hanno né coscienza né

    percezione immediata, grazie alla loro capacità di produrre immediatamente l'esatta interpretazione

    di ogni sequenza di parole grazie alla compresenza, nei processi comunicativi, di diversi fattori

    come le conoscenze pregresse, il contesto di frase, il contesto pragmatico e così via. Il computer,

    invece, non avendo a disposizione nessuno di questi strumenti, ci mostra quanto estesa sia

    l'ambiguità all'interno delle lingue naturali. Il processo di riduzione o di eliminazione dell'ambiguità

    è uno degli obiettivi più importanti da raggiungere per chi sia interessato a sviluppare analizzatori

    automatici dei testi. La disambiguazione può avere luogo, per determinati aspetti, già al livello di

    analisi morfologica, senza dover aspettare di raggiungere il livello immediatamente superiore, cioè

    quello dell'analisi sintattica. Nella sezione 4 vedremo come alcune ambiguità possono essere risolte

    con la costruzione di grammatiche locali.

    1.1. INTEX

    Il sistema INTEX, elaborato da Max Silberztein al L.A.D.L. di Parigi, e successivamente inserito

    come risorsa comune nel progetto EUREKA-Genelex, è costituito da un insieme di programmi di

    analisi automatica dei testi ed è basato sull'utilizzazione di dizionari elettronici di grossa taglia. La

    versione francese del programma include dizionari e grammatiche pre-costituiti la cui

    rappresentazione si basa sul modello degli automi a stati finiti. INTEX è un sistema modulare, ogni

  • utente può creare e aggiungere dizionari e grammatiche personali. I dizionari e le grammatiche

    utilizzati sono tools che permettono, una volta applicati ai testi, di localizzare patterns lessicali e

    sintattici, di rimuovere le ambiguità e di indicizzare ed etichettare le parole semplici e complesse

    presenti nei testi. INTEX costruisce indici e concordanze rispetto a determinati pattern; può essere

    utilizzato sia per analizzare corpus di grosse dimensioni che come strumento di information

    retrieval.

    INTEX permette la costruzione di grammatiche locali sia in forma di grafi, per mezzo di un

    particolare Editor, che in forma di espressioni razionali. Le due rappresentazioni, considerate

    equivalenti, vengono poi automaticamente compilate e tradotte in automi e/o trasduttori a stati finiti

    grazie a dei programmi di conversione. Gli automi così costruiti vengono poi utilizzati per l'analisi

    automatica dei testi. Grazie a questi strumenti è possibile effettuare la disambiguazione di alcuni

    fenomeni linguistici locali e l'identificazione di pattern sintatticiiii.

    INTEX è stato adottato dal gruppo di ricerca del Dipartimento di Scienze della Comunicazione

    dell'Università di Salerno che, da più di dieci anni, collabora con il L.A.D.L. di Parigi per la

    costruzione di un lessico-grammatica della lingua italiana. L'Università di Salerno, insieme ad altre

    università e centri di ricerca europei, fa parte del progetto Relex completamente dedicato alla

    descrizione formale delle lingue naturali; esso riguarda in particolare due aspetti:

    1. il reperimento e la descrizione delle unità atomiche di una determinata lingua che costituiscono il vocabolario. Tale descrizione è implementata sotto forma

    di dizionari elettronici;

    2. la descrizione delle restrizioni sintattiche che tali unità atomiche presentano all'interno di sintagmi e di frasi. Queste restrizioni sono implementate sotto

    forma di lessici-grammatiche.

    Tale metodo di descrizione lessicale e sintattica ha la caratteristica di essere riproducibile ed

    esaustivo e ciò ha permesso a una comunità di un centinaio di ricercatori di accumulare

    osservazioni dettagliate e tra loro perfettamente compatibili sulle lingue naturaliiv. INTEX integra

    queste descrizioni formalizzate e le unifica in un formato semplice e implementabile: quello degli

    automi a stati finiti.

    Per quanto riguarda il punto (1), all'Università di Salerno sono stati costruiti, per l'italiano, sia il

    dizionario elettronico delle parole semplici (Vietri 1994, De Bueriis-Monteleone 1997) sia dizionari

    elettronici delle parole composte appartenenti al linguaggio generico e a quello settoriale (Vietri

    1992, 1995). Per quanto riguarda, invece, il punto (2), sono stati descritti e classificati in tavole

    matriciali sia i verbi transitivi che intransitivi (EMDA 1981, Elia 1984, D'Agostino 1983), gli

    avverbi (Elia 1995) e i verbi composti (Vietri 1985, 1990), i nomi predicativi che entrano in

    strutture di frase a verbo supporto (Cicalese 1995, De Angelis 1989, De Bueriis 1995, Vietri 1997).

    2. La teoria degli automi

    Negli Stati Uniti, a partire dalla fine della seconda guerra mondiale, in diversi settori di ricerca

    scientifica, come l'elettronica e l'informatica, la matematica e in particolare l'algebra, e solo un

    decennio più tardi in linguistica, comincia a nascere un movimento di idee da cui ha origine la

    teoria degli automi. Gli automi di cui ci occupiamo qui sono gli automi a stati finiti.

  • 2.1. Definizione di automa

    Un automa finito è un dispositivo astratto caratterizzato da un insieme finito di stati, un insieme

    finito di simboli e delle transizioni. All'interno dell'insieme finito di stati distinguiamo lo stato

    iniziale, degli stati intermedi e uno o più stati finali. Gli automi definiscono le sequenze di simboli

    in base al percorso che va da sinistra a destra, cioè da uno stato iniziale a uno stato finale. Nella

    rappresentazione qui di seguito:

    S0 S1 S2 S3 S4

    t1 t2 t3 t4

    lo stato iniziale è S0, mentre S1, S2, S3 sono stati intermedi e S3 è lo stato finale. I collegamenti tra

    gli stati rappresentano le transizioni; così la transizione t1 collega lo stato iniziale S0 allo stato

    intermedio S1, la transizione t2 collega S1 a S2, la transizione t3 connette lo stato intermedio S2

    allo stato S3, e infine la transizione t4 collega S3 allo stato finale S4. Lo stato finale viene

    rappresentato con un doppio circolo. Questo tipo di rappresentazione è detto grafo e gli stati sono

    anche definiti come nodi.

    Abbiamo detto che gli automi sono dispositivi che permettono la determinazione di una sequenze di

    simboli in base a un percorso. Proviamo a vedere come. Poniamo il caso che il nostro alfabeto di

    simboli sia definito dai caratteri a, e, s, e etichettiamo i nodi del grafo utilizzando tale alfabeto.

    e s s a

    t1 t2 t3 t4

    Questo automa, a partire da sinistra, nello stato iniziale legge il simbolo e, transiterà nel secondo

    stato, tenendo memoria di quanto ha letto nel primo; dopo aver letto il simbolo s, determinerà la

    sequenza es e continuerà in questo modo fino ad arrivare al nodo finale, cioè alla fine del percorso,

    determinando la sequenza finita di simboli essa. Se, a un dispositivo di questo tipo, sottoponiamo le

    due sequenze di simboli essa e es, l'automa riconoscerà la prima ma non la seconda. Un automa

    come quello che abbiamo appena costruito è detto automa deterministico, perché definisce un

    unico percorso nel determinare una sequenza di simboli. Un automa è detto invece non

    deterministico quando, in un dato punto di tale cammino, più percorsi sono attivi:

    c

    e s a

  • s

    Quest'automa non deterministico, il cui alfabeto conterrà non solo i simboli a, e, s ma anche c,

    definirà le sequenze di simboli essa ed esca.

    2.2. Qualche cenno storico

    Anche se la teoria degli automi comincia a svilupparsi negli anni che seguirono all'ultima guerra,

    dobbiamo tener presente che, molti anni prima, Markov 1913 e Turing 1936, gettarono le basi per

    una teoria degli automi. In particolare, Turing definisce il modello matematico di un calcolatore

    (numerico), detto per l'appunto macchina di Turing. Le macchine di Turing, contengono la nozione

    di automa finito anche se si tratta di un modello più generale in quanto meccanismo di

    lettura/scrittura.

    Shannon 1948 descrive un modello di comunicazione molto vicino a quello degli automi finiti,

    mentre sarà Stephen Kleene, in un articolo apparso nel 1956 (ma scritto già nel 1951), ad elaborare

    una vera e propria teoria degli automi. Kleene stabilisce un teorema di caratterizzazione strutturale

    secondo cui tutti gli eventi regolari possono essere descritti a partire da linguaggi finiti mediante

    semplici operazioni della teoria degli insiemi quali l'unione, la concatenazione, l'iterazione

    (annotata con una stella *). Con lo sviluppo delle grammatiche context-free, il termine evento

    regolare sarà sostituito con linguaggio regolare o razionale, così come il termine algebrico

    sostituirà a volte context-free, per il fatto che le regole di una grammatica context-free possono

    essere considerate alla stessa stregua delle espressioni algebriche. Kleene sostiene che gli eventi che

    possiamo descrivere sono proprio quelli che possiamo specificare con l'aiuto di un automa finito.

    Esiste quindi un legame stretto tra automi finiti e la teoria delle grammatiche context-free o

    algebriche.v

    L'operazione di iterazione, annotata *, e denominata anche operazione di Kleene, rappresenta

    sequenze infinite, permette cioè la costruzione di grafi ciclici come quello che segue:

    una casa calda

    che genera sintagmi del tipo una casa calda, una casa calda calda, una casa calda calda calda, e

    così via. Silberztein 1993 ricorda che i grafi ciclici vanno usati con estrema cautela, anche in quei

    casi che richiedono tale operazione, ad esempio laddove sono previsti inserimenti all'interno di un

    sintagma o di una frase. Infatti, data la potenza di tale meccanismo, si riconoscerebbero anche

    sequenze che non si vuole affatto che vengano riconosciute (vedi par. 4.2.2., in particolare il grafo

    Inserimento).

    Ricordiamo infine Shutzenberger 1955 che, elaborando la teoria algebrica della codificazione

    introduce la nozione di semigruppo sintattico, che gli permette di formulare una delle definizioni

  • equivalenti della nozione di riconoscibilità per mezzo degli automi finiti. Mette in evidenza il

    legame tra automi finiti e strutture algebriche.

    2.3. Automi finiti e linguaggi naturali

    L'idea di utilizzare gli automi per descrivere una lingua naturale già presente in Shannon, viene

    ripresa da Chomsky 1957. In effetti, Chomsky parla del modello degli automi finiti per eliminarlo

    molto rapidamente a favore dei livelli superiore della sua gerarchia. L'argomentazione di Chomsky

    per escludere gli automi finiti come modello adeguato delle lingue naturali è fondata sulla presenza

    di strutture incassate (non borneés = aperte), come le proposizioni condizionali:

    se S1 allora S2

    Queste strutture sono analoghe a quelle dei linguaggi di programmazione e paragonabili quindi ad

    alcune sequenze algebriche del tipo ab, aabb, aaabbb, ... e in generale tutte le sequenze consistenti

    di n occorrenze di a seguite da n occorrenze di b. A tale proposito Silberztein 1993 ricorda che le

    RTN, cioè le reti a transizione estesa (= Recursive Transition Network), definite ricorsivamente,

    costituiscono un meccanismo molto più potente degli automi finiti in quanto automi in cui è data la

    possibilità di inserire dei nodi ausiliari che sono essi stessi RTN. Essi sono adeguati nella

    descrizione di linguaggi algebrici o context-free.

    Un aspetto non privo di interesse della storia dei modelli matematici usati in linguistica descrittiva è

    proprio quello della rapida eliminazione degli automi finiti. Chomsky li scarta perché essi sono

    troppo potenti e troppo limitati insieme per descrivere correttamente le frasi di una lingua naturale.

    D'altro canto, l'approccio lessico-grammaticale di Maurice Gross mette in luce l'esistenza di una

    forte limitazione alla “libertà combinatoria" delle frasi semplici. Gross attira l'attenzione sul fatto

    che le frasi cosidette libere comportano delle restrizioni sintattiche e distribuzionali dipendenti dalle

    singole entrate verbali. Successivamente, in una seconda fase della sua ricerca, individua, per il

    francese, più di 20.000 frasi fisse e circa 10.000 avverbi composti caratterizzati da fissità di parte, o

    di tutti gli elementi. Negli ultimi anni la sua ricerca si concentra sull'individuazione di sequenze

    semi-fisse di tipo neutro come avere luogo, rendersi conto. e di quelle più o meno tecniche come ad

    esempio abaisser une perpendiculaire à une droite. Ebbene, proprio per la descrizione di questi tipi

    di frase e sintagmi ad alto livello di fissità, il modello ad automi finiti si rivela estremamente utile e

    potente. Adattandolo per rappresentare fenomeni linguistici per così dire “periferici", locali, si

    riesce a semplificare il modello descrittivo generale. Gross (1993) ipotizza anche la realizzazione di

    un dispositivo che integra il formalismo a stati finiti; tale dispositivo che è equivalente al

    componente trasformazionale va ad agire sulla rappresentazione a stati finiti ponendo delle

    restrizioni sulle strutture di frase.

    2.4. I Trasduttori

    La teoria dei trasduttori è stata molto meno studiata di quella degli automi, di cui essa costituisce un

    prolungamento naturale; infatti, da un punto di vista strettamente applicativo se, oltre a un alfabeto

    d'entrata abbiamo anche un alfabeto d'uscita, l'automa, che in questo caso sarà chiamato trasduttore,

    viene utilizzato per realizzare una trasduzione dell'alfabeto d'entrata verso un alfabeto d'uscita. A

    partire dall'automa deterministico della sezione 2.1., otteniamo un trasduttore se diamo un'uscita

    all'alfabeto d'entrata:

  • e/e s/l s/l a/a

    applicando questo trasduttore la sequenza essa viene tradotta in ella. Così, mentre un automa

    permette di riconoscere o meno una determinata sequenza secondo un valore booleano Vero (la

    sequenza è riconosciuta) o Falso (la sequenza non è riconosciuta), i trasduttori producono risultati

    più complessi perché l'alfabeto d'entrata permette il riconoscimento di una determinata sequenza,

    mentre l'alfabeto d'uscita ci permette di produrre un determinato risultato, cioè di interpretare i

    simboli dell'alfabeto riconosciuti. Così, ad esempio, per disambiguare all'interno di un testo un

    sintagma nominale formato da determinante + nome, in cui il determinante è in forma elisa come in

    l'esca o l'ombrello, possiamo costruire il seguente trasduttore:

    L-apostrofo

    Ai fini della generazione automatica dei testi il grafo andrebbe ulteriormente specificato rispetto al

    fatto che il nome deve iniziare con una vocale.

    2.5. INTEX e il modello a stati finiti

    Nel sistema di analisi lessicale INTEX, Silberztein si serve del modello a stati finiti così come lo

    abbiamo descritto nella sezione precedente. Un automa finito è quindi un grafo che contiene dei

    nodi e delle frecce che collegano i nodi. Tutti i nodi sono etichettati, tranne il nodo terminale. Ad

    ogni nodo si associa quindi un simbolo o una parola vuota (). Silberztein, come abbiamo già

    ricordato in 2.2 e 2.3, suggerisce di usare con molta cautela i grafi ciclici, in quanto meccanismi

    molto potenti; anche le reti a transizione estesa vengono adottate in INTEX in modo ristretto e cioè

    unicamente come tool che permette la combinazione di automi elementari. Nel sistema INTEX, i

    nodi ausiliari di una RTN sono delle semplici abbreviazioni che rimandano a grafi/automi e i grafi

    che corrispondono a tali nodi restano equivalenti ad automi. Così, per ottenere l'automa finito

    corrispondente, basta sostituire tutti i nodi ausiliari con i relativi automi. Silberztein ritiene infatti

    che - al fine dell'analisi lessicale - la potenza delle grammatiche algebriche è inutile: i fenomeni

    morfo-lessicali sono rappresentabili mediante grafi aciclici e gli RTN sono utilizzati solo nella

    misura in cui essi equivalgono ad automi finiti.

  • 3. I dizionari elettronici

    Nella sezione 1.1. abbiamo detto che INTEX utilizza per l'analisi lessicale dei testi il dizionario

    elettronico, che può considerarsi un insieme strutturato di dati. Abbiamo anche visto che la

    descrizione formale del vocabolario di una lingua naturale, così come è stata concepita al L.A.D.L.,

    prevede un tipo di descrizione oggettiva e riproducibile. I criteri di formalizzazione di tali dati

    linguistici sono stati adottati da diversi gruppi di ricercatori europei cosicché tali dizionari

    elettronici sono tutti utilizzabili all'interno del sistema INTEX.

    Ma prima di descrivere i criteri di costruzione dei dizionari utilizzabili da un computer, in

    particolare da INTEX, vediamo le principali differenze tra i dizionari usuali e i dizionari elettronici.

    3.1. Dizionari elettronici e i dizionari usuali

    Il termine informatizzazione non ha fatto altro che creare grande confusione fra le due categorie di

    dizionari. Infatti, il processo di modernizzazione della stampa esige che i testi dei dizionari usuali

    siano composti tipograficamente su supporto informatico. Si sono avuti così, dei miglioramenti

    notevoli sia per quanto riguarda la qualità della stampa in sé che la compilazione dei dizionari: è

    infatti molto più facile apportare delle modifiche, cioè introdurre o eliminare parti di testo. Inoltre,

    la maggior parte dei dizionari sono oramai disponibili su CD e quindi direttamente consultabili su

    personal computer. Molti di questi dizionari su supporto elettronico hanno una struttura ipertestuale

    che permette la “navigazione" all'interno del dizionario stesso.

    Tuttavia, questo processo di informatizzazione dei dizionari usuali non ha nulla a che vedere con il

    loro contenuto che è pressoché rimasto invariato. I dizionari, siano essi su carta o su supporto

    elettronico, sono utilizzati esclusivamente da esseri umani che dispongono di una enorme base di

    conoscenza pregressa. Invece, i dizionari elettronici sono utilizzati dal computer per particolari

    applicazioni informatiche e sono indirizzati ad un pubblico specializzato. Così, i dati all'interno dei

    dizionari elettronici sono formalizzati per mezzo di codici che non sono immediatamente

    comprensibili a qualsiasi lettore. D'altro canto, i dizionari usuali sono destinati a un pubblico vasto e

    quindi sono privi di informazioni non interpretabili facilmente.

    Dal momento che il contenuto dei dizionari usuali su supporto elettronico è identico a quello dei

    dizionari cartacei, questi sono inutilizzabili da un programma di analisi linguistica perché i dati di

    un dizionario richiedono una determinata struttura e codifica. Inoltre, visto che il computer, a

    differenza di un utente umano, è una tabula rasa, non possiede cioè alcun tipo di conoscenza

    pregressa, per la realizzazione dei dizionari elettronici bisogna tener conto dei criteri di esaustività,

    esplicitazione e coerenza. Questi tre criteri sono strettamente connessi l'un l'altro, esaminiamoli.

    Esaustività Abbiamo già visto che nei programmi di riconoscimento dei testi, in una fase iniziale, un testo è

    sottoposto a una processo di tokenisation. Tale processo altro non è che la segmentazione del testo

    stesso in unità grafiche, cioè in parole. Nella seconda fase, cioè nella fase morfologica, il

    programma consulta il dizionario per determinare la natura grammaticale di ogni parola.

    L'analizzatore deve poter ritrovare tutte le parole del testo stesso. La mancata identificazione anche

    di una sola parola provoca una mancata analisi del sintagma o della frase che la contiene. Quindi è

    necessario che le parole di un testo siano identiche a quelle contenute nel dizionariovi. Per questo

    motivo, i dizionari elettronici devono essere il più esaustivi possibile a differenza dei dizionari

    usuali che non sono mai completi e, per quanto possa sembrare inverosimile, non contengono

    neanche lo stesso numero di entrate vii. Infine, le entrate contenute in un dizionario usuale sono solo

  • in forma canonica e cioè l'infinito per i verbi, il maschile o il femminile per i nomi, il maschile per

    gli aggettivi. Ma, all'interno di un testo le parole sono date non solo in forma canonica ma anche in

    forma flessa; ad esempio, possiamo trovare una delle forme coniugate del verbo amare e non solo

    la forma all'infinito. Questo è uno dei motivi già di per sé sufficiente per affermare la completa non-

    utilizzabilità di un dizionario usuale per l'analisi automatica dei testi. Nei dizionari elettronici, casi

    come questi appena visti devono essere trattati in modo esaustivo.

    Esplicitazione Le informazioni contenute nei dizionari elettronici devono essere esplicite, anche a costo di essere

    ridondanti. Al contrario, i dizionari usuali contengono delle informazioni implicite e lasciano quindi

    che gli utenti le deducano grazie alle loro conoscenze preesistenti. Per il computer, invece, nulla è

    evidente, ed è quindi necessaria la massima esplicitazione. I compilatori dei dizionari usuali hanno

    la tendenza ad omettere, senza alcun criterio sistematico, tutte le informazioni che sembrano essere

    immediatamente evidenti al lettore. Dare questo tipo di informazione “evidente" significherebbe

    appesantire la consultazione del dizionario. In alcuni casi i lessicografi commettono però l'errore di

    essere estremamente criptici, con l'inevitabile conseguenza di una mancata comprensione da parte

    del lettore.

    Una qualsiasi applicazione informatica richiede un dizionario dotato di un grado molto alto di

    esaustività ed esplicitazione. Infatti, il computer non ha quelle capacità deduttive e intuitive

    possedute invece dagli esseri umani. Ecco perché sia la dimensione che la complessità di un

    dizionario elettronico aumenta considerevolmente rispetto a un dizionario usuale.

    Coerenza Nei dizionari elettronici che sono costruiti per i programmi automatici di trattamento dei testi, tutte

    le informazioni devono essere non solo esplicite ma devono essere anche dotate di coerenza interna,

    sia per quanto riguarda la struttura dei dati che le informazioni ad essi associati. Ad esempio, ad

    ogni entrata di un dizionario elettronico deve essere assegnata una categoria grammaticale, e se

    l'entrata e la categoria sono separate da una virgola, allora tutte le entrate del dizionario dovranno

    avere lo stesso formato.

    3.2. I dizionari di parole semplici e di parole composte

    Nei dizionari elettronici vengono descritti alcuni tipi di relazioni esistenti tra le parole e le loro

    forme, come la coniugazione dei verbi, e la flessione al femminile e al plurale dei nomi e degli

    aggettivi. La morfologia delle parole semplici, come bastone, della, vecchiaia, vengono descritte

    nel dizionario elettronico delle parole semplici (DELAS), mentre la morfologia delle parole

    composte, come bastone della vecchiaia, viene descritta nel dizionario elettronico delle parole

    composte (DELAC). Sia il DELAS che il DELAC costituiscono il motore linguistico del sistema

    INTEX.

    Ma vediamo di definire meglio la differenza tra parole semplici e parole composte su cui si basa il

    sistema dei dizionari. Diremo che le parole semplici sono tutte quelle sequenze di lettere comprese

    tra due separatori mentre le parole composte sono delle sequenze che includono almeno due parole

    semplici (e quindi almeno un separatore). A questo livello quindi le unità minime non sono più le

    lettere ma le parole semplici. La distinzione tra parole semplici e parole composte è quindi

    puramente ortografica: per esempio capoturno e capodanno sono parole semplici mentre capo turno

    e capo d'anno sono parole composte. Ma, mentre il plurale di capodanno è capodanni, il plurale di

    capo d'anno è capi d'anno. Invece, per capo turno e capoturno è sempre capo a flettere in entrambi

    i casi, abbiamo infatti capi turno e capiturno.

  • 3.2.1. Il DELAS

    Il DELAS dell'italiano contiene più di 120.000 entrate in forma canonica e cioè l'infinito per i verbi,

    il maschile o il femminile singolare per i nomi, il maschile singolare per gli aggettivi. Ad ogni

    entrata è associata la categoria grammaticale di appartenenza. Tali categorie corrispondono alle

    parti del discorso. Le entrate sono scritte in carattere minuscolo, mentre la categoria grammaticale è

    in maiuscolo. Diamo qui di seguito la tavola delle categorie grammaticali con il relativo codice

    utilizzato nel DELAS:

    Categoria Codice Esempio

    Aggettivo A battagliero, pacifista

    Avverbio AVV giustamente

    Congiunzione CONG ma, poiché

    Determinante DET il, un

    Nome N maestro, mela

    Prefisso PX de-

    Preposizione PREP da, per

    Pronome PRON lo, io

    Suffisso SX -bile

    Verbo V mangiare, andare

    Le categorie grammaticali e il tipo di forma canonica adottata sono riprese dalle grammatiche

    tradizionali e dai dizionari usuali. Ogni entrata è associata non solo a un codice alfabetico che

    rimanda alla categoria grammaticale, ma anche a un codice numerico che ne descrive il

    comportamento flessionale. Così, i codici attribuiti ai nomi e agli aggettivi, rimandano a un

    paradigma che descrive la flessione al femminile (se tale forma è presente) e al plurale. Ad esempio,

    i nomi maestro e mela sono codificati nel DELAS nel seguente modo:

    maestro,N88

    mela,N41

    Nel primo caso il codice numerico 88, che corrisponde al seguente algoritmo di flessione:

    ms fs mp fp

    N88 -o -a -i -e

    descrive il maschile singolare, maestro, il femminile singolare, maestra, il maschile plurale,

    maestri, e il femminile plurale, maestre. Nel secondo caso, il codice 41, rimanda all'algoritmo di

    flessione:

    ms fs mp fp

    N41 - -a - -e

    che, oltre alla forma canonica femminile singolare, prevede solo il femminile plurale mele, infatti il

    trattino indica l'assenza della forma maschile singolare e plurale. Notiamo che un aggettivo come

    battagliero avrà lo stesso codice flessionale di maestro, cioè 88, mentre l'aggettivo pacifista ha

  • codice flessionale 70 che prevede pacifista per il maschile e il femminile singolare, pacifisti per il

    maschile plurale e infine pacifiste per il femminile plurale:

    ms fs mp fp

    A70 -a -a -i -e

    Per quanto riguarda invece i verbi, questi sono associati anch'essi a un codice numerico che rimanda

    all'algoritmo di coniugazione corrispondente. Così, i due verbi andare e mangiare hanno i seguenti

    codici di flessione:

    andare,V5

    mangiare,V4

    L'algoritmo di flessione corrispondente a tutti i verbi che hanno codice 4 è il seguente:

    V4 ind/pr(3o,4i,3a,3amo,3ate,3ano)

    imp(3avo,3avi,3ava,3avamo,3avate,3avano)

    pass r(3ai,3asti,3ò,3ammo,3aste,3arono)

    fut s(4erò,4erai,4erà,4eremo,4erete,4eranno)

    imperat(-,3a,4i,3amo,3ate,4ino)

    cong/pr(4i,4i,4i,3amo,3ate,4ino)

    imp(3assi,3assi,3asse,3assimo,3aste,3assero)

    cond/pr(4erei,4eresti,4erebbe,4eremmo,4ereste,4erebbero)

    part/pr(3ante,3anti)

    pass(3ato,3ata,3ati,3ate)

    ger/pr(3ando)

    Le abbreviazioni che precedono quanto contenuto in parentesi si riefriscono all'indicazione del

    modo e del tempo. Ad esempio, la prima linea del codice dice che per costruire l'indicativo presente

    (ind/pr) è necessario, a partire dalla forma all'infinito mangiare, eliminare tre caratteri a partire da

    destra, otteniamo così mangi-, e aggiungere -o per la prima persona singolare. Per la seconda

    persona singolare, è necessario invece eliminare quattro caratteri e aggiungere la -i e così via.

    Il codice 5, che si applica solo al verbo andare, è il seguente:

    V5 ind/pr(6vado,6vai,6va,3iamo,3ate,6vanno)

    imp(3avo,3avi,3ava,3avamo,3avate,3avano)

    pass r(3ai,3asti,3ò,3ammo,3aste,3arono)

    fut s(3rò,3rai,3rà,3remo,3rete,3ranno)

    imperat(-,6va,6vada,3iamo,3ate,6vadano)

    cong/pr(6vada,6vada,6vada,3iamo,3iate,6vadano)

    imp(3assi,3assi,3asse,3assimo,3aste,3assero)

    cond/pr(3rei,3resti,3rebbe,3remmo,3reste,3rebbero)

    part/pr(3ante,3anti)

    pass(3ato,3ata,3ati,3ate)

    ger/pr(3ando)

    (IndPr1s=6vo)

    (Imperat2s=6va')

    (Imperat2s=6vai)

  • Le ultime tre linee del paradigma indicano le forme sovrabondanti dell'imperativo. Si creano in

    questo modo delle classi di equivalenza, in base alla categoria grammaticale e al comportamento

    flessionale.

    3.2.2. Il DELAF

    Il DELAS descrive la flessione delle parole semplici e permette il riconoscimento delle parole

    semplici in un testo. Tuttavia, nei testi, le parole semplici si presentano non solo in forma canonica

    (infinito per i verbi, maschile singolare per i nomi e gli aggettivi) ma anche in forma flessa (vedi

    par. 3.1. in particolare esaustività). Il riconoscimento delle parole implica quindi che si effettui

    l'analisi morfologica delle occorrenze per individuare le rispettive forme canoniche. Quest'analisi

    viene fatta sul dizionario elettronico delle forme flesse. Un analizzatore morfologico dovrà

    riconoscere tutte le forme delle parole e associarle alle rispettive forme canoniche. Per questo tipo

    di analisi è necessario disporre quindi di un dizionario elettronico delle forme flesse. I codici di

    flessione associati ai nomi, agli aggettivi e ai verbi del DELAS sono utilizzati da un programma di

    generazione automatica delle forme flesse che, a partire dalle 120.000 entrate del DELAS, ne genera

    circa 1.000.000viii. Queste forme costituiscono il dizionario elettronico delle forme flesse, cioè il

    DELAF.

    Così, mentre il DELAS contiene solo le forme canoniche associate a una categoria grammaticale e a

    un codice di flessione:

    andare,V5

    battagliero,A88

    maestro,N88

    mangiare,V4

    mela,N41

    pacifista,A70

    il DELAF conterrà tutte le forme flesse con l'indicazione della forma canonica corrispondente e le

    informazioni morfologiche. Diamo qui qualche stringa di esempio, la lista completa delle forme

    flesse di queste sei entrate è data nell'Allegato A:

    andrete,andare.V5:IndFut2p

    andrò,andare.V5:IndFut1s

    battagliera, battagliero.N88:fs

    battagliere,battagliero.N88:fp

    battaglieri,battagliero.N88:mp

    battagliero,battagliero.N88:ms

    maestra,maestro.N88:fs

    maestre,maestro.N88:fp

    maestri,maestro.N88:mp

    maestro,maestro.N88:ms

    mangerà,mangiare.V4:IndFut3s

    mangerai,mangiare.V4:IndFut2s

    ..............................................

    mela,mela.N41:fs

    mele,mela.N41:fp

  • Ad ogni forma flessa è associata non solo la categoria grammaticale e la classe di appartenenza per

    quanto riguarda la flessione ma anche informazioni del tipo:

    modo - tempo - persona - numero: è il caso dei verbi, così ad esempio la seconda entrata degli esempi appena dati dice che andrò è la prima persona singolare (1s) del

    futuro indicativo (IndFut) del verbo andare che appartiene alla classe di coniugazione

    5ix.

    solo il numero se il genere è fisso: è il caso di mele che è la forma di numero plurale del nome femminile mela che appartiene alla classe di flessione 41.

    numero e genere: è il caso di quei nomi e di tutti gli aggettivi che, oltre alla forma canonica maschile singolare, accettano anche il femminile singolare e le rispettive

    forme plurali, come maestro e pacifista.

    3.2.3. Il DELAC

    Nella sezione 3.2. abbiamo dato una definizione puramente grafica di parola composta, e cioè una

    sequenza che include almeno due parole semplici. Nei testi, le unità significative sono solo

    raramente le parole semplici mentre sono le parole composte ad avere valore semantico, a

    corrispondere cioè a dei concetti precisi, come si può osservare nel seguente testo tratto da una

    rivista di informatica:

    Aladdin prodotto da ASE risolve alcuni di questi problemi: è infatti

    possibile memorizzare informazioni, di qualunque genere, direttamente dal

    personal computer su un piccolo microchip o a una memory card con un

    efficace e rivoluzionario sistema di trasmissione. Tutto quello che si deve

    fare è inserire una carta conforme agli standard ISO7816-3 o I2C

    nell'apposito drive proposto da ASE, accedere al programma di gestione,

    impostare i dati che devono essere memorizzati e lasciare alla periferica il

    compito di trasferirli nella memoria del chip. A questo punto si può

    verificare il contenuto eseguendo una semplice operazione di lettura della

    carta. Aladdin deve essere collegato alla stazione di lavoro tramite la

    normale porta parallela o tramite il connettore seriale.

    Naturalmente, un analizzatore lessicale, che segmenta porta parallela non come un un'unica unità

    grafica ma come due unità grafiche diverse, rischia di dare in output un indice di parole-chiave che

    non rispecchia nel modo più assoluto il contenuto del testo. Sappiamo che la produzione di

    documenti stampati (quotidiani, riviste, libri) di qualsiasi natura è oramai, nella maggior parte dei

    casi completamente informatizzata, tutto viene oramai archiviato su supporto informatico. Nei

    centri di documentazione vengono utilizzati dei programmi di riconoscimento delle parole-chiave in

    un documento o in un testo, ad esempio, nel titolo di un libro o del suo riassunto. Ma le tecniche di

    riconoscimento di testi oggi più diffuse sono nella maggior parte dei casi destinate a fallire perché si

    basano unicamente sul riconoscimento di parole semplici e quindi non riescono a distinguere per

    esempio il nome composto fondo nero ("denaro accantonato illegalmente") dalla sequenza di parole

    semplici fondo nero in una frase come:

    Quel quadro ha un fondo nero

    nel senso quindi di "sfondo della tela". Il tener conto delle parole composte è di grande importanza

    soprattutto per quanto riguarda il reperimento delle informazioni nei testi di tipo tecnico-scientifico,

    che sono quelli di maggior rilievo ed interesse. La complessità dei testi di questo tipo risiede infatti

  • non tanto nella costruzione sintattica quanto nella terminologia impiegata che è propria di ogni

    settore di appartenenza e che è costituita in gran parte da parole composte.

    Tuttavia, le parole composte non sono presenti solo nei linguaggi specializzati ma anche nel

    linguaggio generico o comune. Abbiamo già visto esempi come colletto bianco, capo d'anno e

    bastone della vecchiaia, ma sono parole composte anche occhiali da sole, carta di credito, faccia a

    faccia, filo d'Arianna. Intuitivamente, vediamo che già all'interno di questa lista di esempi, alcune

    parole composte sembrano avere un valore metaforico più forte rispetto alle altre. E' il caso di

    bastone della vecchiaia e filo d'Arianna che si riferiscono rispettivamente a “persona di sostegno

    per qualcuno" e a “ciò che consente di uscire da una situazione complicata". Per le altre parole

    composte come occhiali da sole o carta di credito il significato è più o meno ricostruibile, ad

    esempio, “occhiali che servono a proteggere dalla luce del sole" e “carta che serve per ottenere un

    credito". In tutti gli esempi dati le parole composte hanno funzione nominale, sono cioè nomi

    composti. Ma, all'interno delle parole composte, possiamo avere anche aggettivi composti, come

    vivo e vegeto, nuovo di zecca, oppure avverbi composti come a bruciapelo, a tutta birra, a denti

    stretti. Vediamo quindi che il significato delle parole composte può essere non-composizionale,

    cioè il significato non è ricavabile dalla somma dei significati dei singoli elementi che la

    compongono. Così, bastone della vecchiaia non si riferirà in questo caso ad un nome concreto ma a

    un essere umano o animato. Da un punto di vista morfo-grammaticale, osserviamo che, ad esempio,

    il nome composto bastone della vecchiaia è di genere maschile e accetta il plurale bastoni della

    vecchiaia. Eredita quindi il genere della testa del nome composto. Invece, faccia a faccia, è un

    nome composto di genere maschile anche se la testa dell'intera sequenza composta, cioè faccia è,

    come parola semplice, di genere femminile ed ha una forma plurale invariabile: abbiamo quindi i

    faccia a faccia ma non i facce a facce. La sequenza composta faccia a faccia ha anche funzione

    aggettivale, come in un incontro faccia a faccia. Gli avverbi, nella maggior parte dei casi, non

    hanno alcuna forma flessa. Finora abbiamo accennato alle parole composte non verbali, ma sono

    presenti anche parole composte verbali, cioè sequenze composte contenenti verbi, come, ad

    esempio, tirare le cuoia, oppure prendere il toro per le corna. Questo tipo di sequenza è anche detto

    frase fissa, o ancora più tradizionalmente frase o espressione idiomatica. Nelle frasi fisse l'unico

    elemento che flette è il verbo. La presenza assai estesa delle parole composte nelle lingue naturali è

    fenomeno di cui non si può non tener conto e ciò accresce la complessità dei dati e le procedure da

    utilizzarex.

    La costruzione di un dizionario delle parole composte rispecchia, anche se con le dovute differenze,

    i criteri di costruzione del DELAS, il dizionario delle parole semplici. Così, ad esempio, a partire da

    una lista di nomi composti appartenenti al linguaggio generico, il DELAC viene costruito

    assegnando ad ogni entrata composta una classificazione morfo-grammaticale. Nella seguente lista

    di nomi composti, vediamo che il formato del DELAC prevede che ogni singola parola della

    sequenza composta venga separata da uno slash "/", dopo la virgola seguono due codici alfabetici

    separati dal segno “+" e un codice che si riferisce alla struttura interna del composto stesso:

    bastone/della/vecchiaia,N+NDN

    occhiali/da/sole,N+NPN

    colletto/blu,N+NA

    anno/luce,N+NN

    dolce/vita,N+AN

    Il primo codice indica la categoria grammaticale di appartenza della parola composta, nella lista

    sopra si tratta di nomi (N); il secondo codice si riferisce invece alla struttura interna del composto

    stesso. La lettera N indica il nome, mentre A indica l'aggettivo, D indica la presenza della

    preposizione di e P indica la presenza di una preposizione diversa da di. Così, la struttura interna di

  • un nome composto come bastone della vecchiaia è definita dalla sequenza nome + di + nome,

    occhiali da sole è una sequenza nome + preposizione + nome. I nomi composti colletto blu e dolce

    vita sono formati rispettivamente da nome + aggettivo e da aggettivo + nome. Infine, un nome

    composto come anno luce è la sequenza di due nomi.

    Finora abbiamo assegnato ai nomi composti delle informazioni di natura grammaticale, dobbiamo

    ora dare delle indicazioni di tipo morfologico, così come esse sono assegnate alle parole semplici

    del DELAS. Useremo i quattro simboli m (maschile), f (femminile), s (singolare), p (plurale) e i

    segni "+" e "-". La prima occorrenza di uno di questi due segni indica la variazione di genere

    mentre la seconda occorrenza indica la variazione di numero. Vediamo come vengono assegnati tali

    simboli ai cinque nomi composti appena dati:

    bastone/della/vecchiaia,N+NDN:ms-+

    occhiali/da/sole,N+NPN:mp--

    colletto/blu,N+NA:ms-+

    anno/luce,N+NN:ms-+

    dolce/vita,N+AN:ms-+

    dolce/vita,N+AN:fs--

    Il nome composto bastone della vecchiaia è di genere maschile (m) e di numero singolare (s), non

    accetta la forma femminile (-) mentre ha una forma plurale (+). Il nome occhiali da sole è di genere

    maschile (m) e di numero plurale (p). Non accetta né il femminile (-), né la forma singolare (-); il

    nome composto colletto blu è di genere maschile (m) e di numero singolare (s), non accetta la

    forma femminile (-) mentre ha la forma plurale (+). Il nome composto anno luce è di genere

    maschile (m) e di numero singolare (s); non accetta variazione di genere (-) ma ha una forma al

    plurale (+). Più complicato è il caso del nome composto dolce vita, che è stato sdoppiato in due

    entrate perché può riferirsi sia a un oggetto concreto, più esattamente un “capo d'abbigliamento", ed

    è, in questo caso, di genere femminile pur accettando una forma di genere maschile, oltre alla forma

    plurale invariabile:

    A Maria piace indossare (il + la) dolce vita

    A Maria piace indossare (i + le) dolce vita

    sia a un’entità astratta come nella frase:

    A Maria piace (E+ fare) la dolce vita

    in cui la sequenza dolce vita è sempre un nome composto ma accetta solo la forma femminile

    singolare e non ammette il plurale:

    *A Maria piace (E+ fare) le (dolce vita + dolci vite)

    3.2.4. Il DELACF

    A partire da queste indicazioni morfo-grammaticali, generiamo, grazie a delle routine informatiche,

    elaborate da M.Silberztein, le corrispondenti forme flesse. Il DELACF, cioè il dizionario delle

    forme flesse delle parole composte avrà la seguente struttura:

    anni/luce,anno/luce.N+NN:mp-+

    anno/luce,anno/luce.N+NN:ms-+

  • bastone/della/vecchiaia,bastone/della/vecchiaia.N+NDN:ms-+

    bastoni/della/vecchiaia,bastone/della/vecchiaia.N+NDN:mp-+

    colletti/blu,colletto/blu.N+NA:mp-+

    colletto/blu,colletto/blu.N+NA:ms-+

    dolce/vita,dolce/vita.N+AN:fp++

    dolce/vita,dolce/vita.N+AN:fs++

    dolce/vita,dolce/vita.N+AN:fs--

    dolce/vita,dolce/vita.N+AN:mp++

    dolce/vita,dolce/vita.N+AN:ms++

    occhiali/da/sole,occhiali/da/sole.N+NPN:mp--

    Come nel DELAF, alla forma flessa del nome composto segue la forma canonica con tutte le

    indicazioni morfo-grammaticali. Le routine informatiche, descritte in M.Silberztein 1993,

    permettono di generare le forme flesse dei nomi composti tramite DELAF.

    L'indicazione della struttura interna ci permette di stabilire il comportamento flessionale dei nomi

    composti, così tutti i nomi composti definiti dalle classi NPN e NDN flettono solo la testa della

    sequenza, cioè la prima occorrenza di Nxi ; i composti che appartengono alla classe AN e NA

    flettono sia il nome sia l'aggettivoxii. Un caso particolare è costituito dai nomi appartenenti alla

    classe NN: possiamo avere casi in cui è solo il primo elemento nominale a flettere come anni luce,

    ma ci sono casi in cui sia il primo che il secondo elemento flettono, come in foca monaca e foche

    monache.

    Le cinque classi che abbiamo appena visto sono le più produttive, esistono però dei nomi composti,

    soprattutto di tipo terminologico, la cui struttura interna è composta da più di due elementi lessicali.

    Ad esempio, nel settore dell'economia, troviamo:

    persona giuridica privata

    persona giuridica pubblica

    che sono composti formati da un nome e da due aggettivi e fanno parte quindi della classe NAA. I

    nomi con tale struttura interna, hanno lo stesso comportamento flessionale dei nomi che

    appartengono alla classe NA, ad esempio persona giuridica, flettono quindi sia il nome sia gli

    aggettivi. Esistono poi, alcuni nomi composti come:

    saggio salariale base

    polizza primo rischio

    che, pur avendo un'identica struttura interna e cioè NAN, non hanno lo stesso comportamento

    flessionale, perché pongono un problema di segmentazione. Infatti, nel primo esempio l'aggettivo

    salariale si riferisce al nome saggio, mentre nel secondo esempio l'aggettivo primo si riferisce al

    nome rischio. Questi due nomi composti ricevono quindi un diverso tipo di segmentazione:

    ((saggio salariale) base) ((NA)N)

    (polizza (primo rischio)) (N(AN))

    Possiamo trovare nomi composti come tasso d'inflazione annuo e società per azioni privata, che

    appartengono alla classe NPNA: l'aggettivo, in casi come questi si riferisce rispettivamente ai nomi

    tasso e società. In altri casi, invece, come ad esempio in impresa a partecipazione statale

    l'aggettivo statale si riferisce al nome partecipazione. Inoltre, in alcuni casi del primo tipo, cioè in

  • quelle parole composte che ricevono una segmentazione del tipo ((NPN)A) l'aggettivo può seguire

    direttamente il primo nome, come in:

    tasso annuo d'inflazione

    ?* società privata per azioni

    Casi di questo tipo sono stati listati anche nella classe NAPN; non tutti i nomi composti che entrano

    in questa classe accettano però l'anteposizione dell'aggettivo, è il caso di tassa postale a carico.

    Nomi composti come estratto conto analitico e conto capitale sociale hanno come struttura interna

    NNA ma, mentre nel primo l'aggettivo analitico si riferisce al nome estratto, nel secondo esempio

    l'aggettivo sociale si riferisce a capitale. Le forme flesse saranno quindi:

    estratti conto analitici

    conti capitale sociale

    I composti a struttura lunga richiedono un'analisi sintagmatica più attenta per stabilire il

    comportamento flessionale. Diamo qui di seguito una tabella delle classi dei nomi composti

    individuati:

    NA colletto blu

    AN dolce vita

    NN anno luce

    NDN bastone della vecchiaia

    NPN occhiali da sole

    NAA persona giuridica privata

    NAN saggio salariale base

    NNA estratto conto analitico

    NAPN tassa postale a carico

    NPNA tasso d'interesse annuo

    L'obiezione che generalmente viene mossa contro la costruzione di dizionari di parole composte di

    questo tipo riguarda l'inutilità di una procedura così minuziosa e dettagliata visto che, nei testi, la

    presenza di forme composte scorrette, e quindi il conseguente riconoscimento di forme inaccettabili

    da parte dell'analizzatore, è altamente improbabile. Le ragioni per cui si preferisce tale descrizione

    dettagliata e la generazione di tutte le forme flesse delle parole composte sono le seguenti:

    se la costruzione dei dizionari elettronici e di tutte le loro forme è perfetta, prevede cioè solo le forme accettabili di una determinata lingua, allora tali dizionari saranno

    utilizzabili non solo per l'analisi ma anche per la generazione automatica dei testi;

    la presenza di errori in un testo, soprattutto al livello delle parole composte, è improbabile ma non impossibile, e se gli errori sono effettivamente presenti, allora sarà possibile, con

    tali dizionari, individuarli. La descrizione di tutte le forme accettabili delle parole

    composte permetterà che forme inaccettabili del tipo facce a facce, anni luci, e così via,

    se presenti in un testo, saranno date come errate, mentre in fase di generazione di un testo

    non saranno mai forme permesse.

    La costituzione di dizionari di parole composte è di grande utilità per effettuare dei controlli

    grammaticali a livello sintagmatico. Consideriamo gli esempi che seguono:

    Ho perso i miei occhiali di fabbricazione avanzata

    Ho perso i miei occhiali da vista nuovi

  • Nel primo esempio l'aggettivo avanzato accorda con la testa del sintagma preposizionale che

    immediatamente lo precede, cioè fabbricazione; nel secondo esempio invece, l'aggettivo nuovo

    accorda con occhiali, che è, in questo caso, la testa del sintagma che immediatamente lo precede.

    Nel primo caso siamo di fronte alla sequenza libera di parole occhiali di fabbricazione, mentre nel

    secondo caso si tratta di un nome composto. Un qualunque programma di controllo grammaticale

    che non tenga conto delle parole composte segnalerebbe come errore la sequenza occhiali da vista

    nuovi, e probabilmente suggerirebbe come esatta la sequenza occhiali da vista nuova.

    L'applicazione di dizionari di parole composte nell'analisi lessicale di un testo ci dà la possibilità di

    stabilire che l'accordo tra nome e aggettivo non sia necessariamente determinato dal nome che

    immediatamente precede l'aggettivo stesso. Così, se costruiamo una grammatica locale che permette

    di riconoscere i sintagmi nominali come quella che segue:

    GramSintNom

    i nodi etichettati N ci permetteranno di riconoscere anche i nomi composti, che, ricordiamo nei

    dizionari sono etichettati non solo in base alla loro struttura interna ma anche in base alla loro

    funzione grammaticale. Dato il trasduttore NPN che pone delle restrizioni di accordo, il sistema

    riconoscerà come esatta una sequenza come occhiali da vista nuovi e, segnalerà, se presente in un

    testo, come eventuale sequenza errata occhiali da sole nuovo.

    i Se vogliamo riferirci alle impiegate, utilizzando una parola composta, non useremo colletto bianco bensì colletto rosa.

    D'altra parte, vediamo che colletto blu indica gli operai, siano essi uomini o donne.

  • ii Silberztein (1993) ricorda a tale proposito che l'analisi automatica dei testi in lingua naturale presenta alcune analogie

    con l'analisi lessicale interna ad alcune routine informatiche. Ad esempio, un analizzatore di un compilatore identifica i

    lessemi presenti in un programma sorgente (identificazione di variabili, parole chiave e operatori) così come, all'interno

    di un testo è possibile identificare le singole parole. Ma, mentre il vocabolario delle applicazioni informatiche è

    estremamente limitato e ridotto, il vocabolario di una lingua naturale contiene circa un milione di parole. Inoltre, nei

    linguaggi di programmazione si evita accuratamente di attribuire più di un senso ad una stessa parola, tali linguaggi

    sono quindi privi di ambiguità.

    iii Per una descrizione dettagliata di INTEX rimandiamo il lettore a M.Silberztein, INTEX 3.4. Reference Manual

    iv Per un rinvio generale a tutti i lavori fatti in ambito lessico-grammaticale si faccia ridferimento alla rivista

    Linguisticae Investigationes pubblicata da Benjamins che, tra l’altro, aggiorna periodicamente una bibliografia relativa

    all’argomento. Tale bibliografia è uscita una prima volta nel numero XXX ed è consultabile on-line sulla home page del

    Laboratoire d’Automatique et Documentaire Linguistique (L.A.D.L.)

    v Per un excursus storico sulla teoria degli automi finiti vedi D.Perrin 1994.

    vi E' proprio per questo motivo che diventa importante sviluppare sia le tecniche di correzione ortografica che le

    tecniche di trattamento delle parole sconosciute (nomi propri, neologismi).

    vii Ad esempio, il Nuovo Zinagrelli 1998 dichiara di contenere 134.000 voci, mentre il Dizionario Y ne contiene XXXX.

    La parola XXXX è presente nel Dizionario X ma non nel Dizionario Y. Se consultiamo attentamente il dizionario della

    lingua italiana Zingarelli ci rendiamo conto che gli avverbi in - mente e gli aggettivi in - ante sono indicati in modo

    estremamente casuale: troviamo così l'avverbio ingiustamente ma non giustamente o lealmente. I dizionari riportano

    una parola desueta come detossicante ma non disgregante. Allo stesso modo tutti gli aggettivi costruiti, a partire dai

    verbi, con il suffisso -bile sono elencati in modo poco prevedibile. Troviamo, ad esempio, amare - amabile, mangiare -

    mangiabile, ma non abbiamo alcuna traccia di derivazioni possibili come guardare -guardabile, fatturare - fatturabile.

    Inoltre, vengono registrati la coppia indistruttibile-indistruttibilità, ma non individuabile-individuabilità. Anche le

    forme negative in de - sono mal registrate; a fronte di incremento, incrementare e decremento, non troviamo

    decrementare che virtualmente potrebbe entrare in un nuovo ciclo derivazionale:

    bilità (decrementabilità = nome)

    bilizzare (decrementabilizzare = verbo)

    bilizzabile (decrementabilizzabile= aggettivo)

    bilizzazione (decrementabilizzazione=nome) viii Il programma di generazione delle forme flesse del DELAS è stato realizzato da Francesco Di Maio, responsabile del

    laboratorio di informatica del Dipartimento di Scienze della Comunicazione dell'Università di Salerno.

    ix Facciamo notare che, oltre a una versione del dizionario in cui le informazioni morfologiche dei verbi sono più o

    meno esplicite, è stata creata una versione compatta in cui le informazioni di tipo modale e temporale sono indicate con

    una lettera maiuscola dell'alfabeto. Abbiamo quindi:

    Ind(icativo) Pres(ente) X

    Ind(icativo) Imp(erfetto) Y

    Ind(icativo) Pass(ato) J

    Ind(icativo) Fut(uro) K

    Cong(iuntivo) Pres(ente) W

    Cong(iuntivo) Imp(erfetto) H

    Cond(izionale) Pres(ente) F

    Imper(ativo) Q

    Inf(inito) I

    Ger(undio) Pres(ente) G

    Part(icipio) Pres(ente) Z

    Part(icipio) Pass(ato) U

    x Bisogna tener presente che tutte le forme fisse hanno notevole rilevanza nell'ambito della traduzione, sia essa assistita

    o automatica. La costruzione di dizionari elettronici bilingui dove ad ogni entrata di tipo composto viene associata la

    traduzione nella lingua prescelta, facilita la traduzione dei testi di natura tecnico-scientifica.

  • xi Abbiamo già visto qualche caso particolare come il nome composto faccia a faccia che pur appartenendo alla classe

    NPN non segue la flessione del nome faccia (vedi par. 3.2.3). Il composto è maschile singolare, anche se la parola

    semplice faccia è femminile singolare.

    xii Anche nel caso di nomi appartenenti a queste due classi possiamo avere delle eccezioni, è il caso ad esempio di

    Antico Testamento che non accetta la forma plurale, anche se, come parola singola testamento flette al plurale.