Coerenza Tecnica 1.4 -...

SI-TAL

Coerenza Tecnica Globale di SI-TAL

Capitolo 1

Validazione e valutazione di SI-TAL

* *

Consorzio Pisa Ricerche - (CPR)

Linea 1.4 - Coerenza tecnica globale delle specifiche SI-TAL

A-2

1 INTRODUZIONE.......................................................................................................4

2 VALIDAZIONE E VALUTAZIONE NEL TAL: FINALITÀ, CRITERI, METODOLOGIE..................................................................................................................5

2.1 Validazione vs. valutazione........................................................................................................................... 5

2.2 Valutazione interna vs. Valutazione esterna ............................................................................................... 5

2.3 Valutazione intrinseca vs. Valutazione estrinseca ...................................................................................... 6

2.4 Analisi quantitativa vs. Analisi qualitativa ................................................................................................. 7

2.5 Metodologie utilizzate e tipi di validazione/valutazione ............................................................................. 7

3 RESOCONTO ANALITICO DELLE ATTIVITÀ DI VALUTAZIONE E VALIDAZIONE IN SI-TAL.............................................................................................................................8

3.1 ItalWordnet.................................................................................................................................................... 8 3.1.1 Obiettivi della valutazione e validazione e conformità alle specifiche....................................................... 8 3.1.2 Metodologie e fasi della valutazione e validazione .................................................................................... 9 3.1.3 Rispondenza a criteri e standard ............................................................................................................... 10 3.1.4 Risultati..................................................................................................................................................... 10

3.2 SiSSA ............................................................................................................................................................ 11 3.2.1 Obiettivi della valutazione e validazione e conformità alle specifiche..................................................... 11 3.2.2 Metodologie e fasi della valutazione e validazione .................................................................................. 12 3.2.3 Rispondenza a criteri e standard ............................................................................................................... 13 3.2.4 Risultati..................................................................................................................................................... 13

3.3 Treebank Sintattico-Semantica dell’Italiano ............................................................................................ 13 3.3.1 Obiettivi della valutazione e validazione e conformità alle specifiche..................................................... 13 3.3.2 Metodologie e fasi della valutazione e validazione .................................................................................. 14 3.3.3 Rispondenza a criteri e standard ............................................................................................................... 16 3.3.4 Risultati..................................................................................................................................................... 16

3.4 Dialoghi Annotati per Applicazioni di Interfacce Vocali Avanzate ........................................................ 18 3.4.1 Obiettivi della validazione e valutazione e conformità alle specifiche..................................................... 18 3.4.2 Metodologie e fasi della validazione e valutazione .................................................................................. 18 3.4.3 Rispondenza a criteri e standard ............................................................................................................... 19 3.4.4 Risultati..................................................................................................................................................... 19

3.5 Strumenti e ambienti di sviluppo software per interfacce vocali avanzate ............................................ 20 3.5.1 Obiettivi della valutazione e validazione e conformità alle specifiche..................................................... 20 3.5.2 Metodologie e fasi della valutazione ........................................................................................................ 20 3.5.3 Rispondenza a criteri e standard ............................................................................................................... 21 3.5.4 Risultati..................................................................................................................................................... 21

4 RIEPILOGO GENERALE: RIFLESSIONI METODOLOGICHE SULLA VALIDAZIONE IN TAL, ALLA LUCE DELL’ESPERIENZA DEL PROGETTO.................23

4.1 Metodologie usate per la validazione (valutazione interna) di risorse linguistiche ............................... 24 4.1.1 Corrispondenza del modello alle specifiche ............................................................................................. 24 4.1.2 Controllo della copertura .......................................................................................................................... 24


A-3

4.1.3 Controllo di correttezza e consistenza dell’annotazione........................................................................... 25 4.1.4 Controllo di adeguatezza dell’annotazione............................................................................................... 25 4.1.5 Accordo tra annotatori .............................................................................................................................. 25 4.1.6 Rispondenza a standard del settore ........................................................................................................... 25

4.2 Metodologie usate per la valutazione esterna di risorse linguistiche ...................................................... 26 4.2.1 Usabilità/utilità in applicazioni esterne..................................................................................................... 26 4.2.2 Verifica dell’esportabilità delle specifiche di annotazione (portabilità delle specifiche) ......................... 26 4.2.3 Comprensibilità del modello..................................................................................................................... 26

4.3 Metodologie usate per la valutazione interna (validazione) di oggetti e ambienti di sviluppo software 27

4.3.1 Corrispondenza del prodotto alle specifiche............................................................................................. 27 4.3.2 Verifica delle funzionalità ........................................................................................................................ 27

4.4 Metodologie usate per la valutazione esterna di oggetti e ambienti di sviluppo software..................... 27 4.4.1 Usabilità da parte di utenti finali............................................................................................................... 27 4.4.2 Integrabilità del software .......................................................................................................................... 27 4.4.3 Controllo di qualità delle soluzioni implementative ................................................................................. 28


A-4

1 Introduzione

Lo scopo di questo documento è la produzione di una valutazione globale di SI-TAL, condotta a partire dalle diverse attività di valutazione e validazione eseguite per i singoli componenti del progetto. Di conseguenza, verranno analizzate le diverse attività di valutazione condotte per i diversi componenti di SI-TAL, allo scopo di comprovare le caratteristiche tecniche riscontrate e le modalità di verifica seguite. Il fine ultimo di tale rapporto consiste nel fornire gli elementi conoscitivi essenziali per valutare se il progetto ha conseguito i risultati prefissati.

In particolare, l’attività del tema “Coerenza Tecnica” nella Linea 1.4 è articolata nelle seguenti sottoattività:

1. Verifica della corretta applicazione, nelle diverse attività, dei metodi e criteri di valutazione definiti nella Linea 1.1: per ciascuna attività, mirante a sviluppare uno dei cinque componenti di SI-TAL, sono indicati nel Capitolato Tecnico del progetto dei metodi e criteri di valutazione del rispettivo componente. Tali criteri sono stati ulteriormente specificati nella Linea 1.1, nella documentazione relativa a ciascun componente. L'attività di coerenza tecnica globale di SI-TAL consiste nella verifica della corretta applicazione, nelle diverse attività, dei diversi metodi e criteri di valutazione – qualitativi, quantitativi, attraverso applicazioni di risorse in sistemi applicativi, attraverso l’utilizzabilità da parte di utenti, ecc. - definiti nel Capitolato e nella Linea 1.1.

2. Analisi dei risultati delle diverse attività di validazione: è stata effettuata una analisi accurata dei risultati delle diverse attività specifiche di validazione - allo scopo fra l’altro di verificarne l’adeguatezza, la rispondenza agli obiettivi, la facilità di applicazione consistente - in modo da fornire una valutazione globale di SI-TAL. E’ stata valutata la rispondenza a requisiti quali la conformità alle specifiche, la coerenza interna, la copertura delle risorse, la qualità dei dati, la riutilizzabilità di strumenti e componenti, la loro facilità di uso, l’integrabilità in sistemi applicativi, e il loro apporto all’efficacia di sistemi applicativi.

3. Produzione di un modello metodologico integrato per la validazione di componenti per il trattamento automatico della lingua: l’analisi delle procedure di valutazione di componenti diversi e complementari per il trattamento automatico della lingua contribuisce a delineare un modello metodologico integrato e articolato – ad oggi non esistente - per la validazione di moduli e componenti per il trattamento automatico della lingua. Tale modello - del tutto innovativo nella sua globalità, per la varietà di risorse e strumenti che deve considerare - potrà servire come base metodologica per la valutazione di risorse, moduli e componenti simili.

Il presente documento è articolato come segue:

La sezione 2 illustra i principali concetti e criteri usati per la validazione e valutazione dei risultati raggiunti dal progetto, ed offre al contempo una guida alla lettura della successiva sezione 3. La sezione 3 descrive in dettaglio i risultati delle diverse attività di validazione e valutazione, articolati secondo i parametri valutativi descritti nella sezione 2 e rapportati ai metodi e ai criteri di valutazione definiti nella Linea 1.1 del progetto. In tal modo, i singoli temi del progetto vengono descritti secondo uno schema unitario, contribuendo così a delineare una metodologia valutativa globale, ulteriormente dettagliata nella sezione 4.


A-5

2 Validazione e valutazione nel TAL: finalità, criteri, metodologie

L’obiettivo della Linea di Ricerca 1.4 è la validazione e valutazione dei risultati conseguiti da SI-TAL complessivamente e dai singoli componenti, realizzati nelle precedenti Linee di Ricerca. Data l’eterogeneità dei diversi componenti, si è provveduto a definire uno schema unitario per la descrizione delle singole attività di valutazione/validazione, anche allo scopo di poter meglio enucleare un insieme di procedure, criteri e metodologie che servano come nucleo di riferimento di un modello integrato per la valutazione di risorse analoghe. A questo scopo ci pare opportuno chiarire il significato di alcuni termini utilizzati in questo documento, così come descrivere in modo generale i criteri e le metodologie di validazione/valutazione utilizzati nei diversi temi del progetto.

2.1 Validazione vs. valutazione

In questo documento facciamo riferimento in modo distinto ai due concetti di validazione e valutazione. Per validazione si intende il processo mediante il quale si determina se e quanto un sistema o una risorsa soddisfino le specifiche sulla cui base sono stati creati. Con il termine valutazione si fa invece riferimento alla prestazione del sistema/risorsa, ovvero al grado di accettabilità di un sistema o di una risorsa da parte dell’utente finale. Quindi, in altre parole, scopo della validazione è dimostrare l’adeguatezza di un sistema o di una risorsa rispetto alle specifiche, mentre scopo della valutazione è dimostrarne l’effettiva utilità, usabilità ed efficacia.

2.2 Valutazione interna vs. Valutazione esterna

Per valutazione interna intendiamo un’attività rivolta al controllo e alla valutazione delle caratteristiche intrinseche del risultato finale. Il concetto di valutazione interna è quindi sinonimo del concetto di validazione definito nella sezione precedente. Alcuni esempi di valutazione interna/ validazione sono rappresentati dal controllo di consistenza rispetto alle specifiche definite, oppure dalla valutazione del grado di correttezza nell’applicazione di un insieme di etichette linguistiche ad un corpus di lingua, nel caso di risorse linguistiche. La valutazione interna/validazione richiede generalmente l’apporto specialistico di valutatori esterni, individuabili in esperti del settore o, viceversa, in utenti inesperti. Il grado di esperienza desiderato dipende dal particolare aspetto che si desidera valutare. Ad esempio, la valutazione del grado di correttezza di un’annotazione implica il ricorso a valutatori esperti; viceversa, per valutare il grado di replicabilità di uno schema di annotazione è preferibile fare ricorso ad utenti inesperti, che ricevono un’istruzione sommaria relativamente al compito di annotazione richiesto loro. In tal modo la valutazione del grado in cui uno schema di annotazione è comprensibile, intuitivo e ben documentato risulta più efficace rispetto ad una valutazione analoga condotta però da esperti del settore, che possedendo una maggiore conoscenza dei fenomeni linguistici che uno schema di annotazione si prefigge di descrivere possono verosimilmente essere più tolleranti rispetto ad eventuali inconsistenze e oscurità dello schema.

Per valutazione esterna intendiamo invece la valutazione relativa all’utilizzabilità di una risorsa, un modulo o ambiente software relativamente all’utilizzo reale, non di rado per mezzo di integrazione in sistemi software esistenti, oppure una valutazione delle caratteristiche di funzionalità e usabilità relative ad un oggetto software. Esempi tipici di valutazione esterna sono l’uso di una risorsa linguistica nell’ambito di un’applicazione pilota, oppure l’integrazione di un pacchetto software in un’applicazione. La distinzione tra valutazione interna ed esterna non è dunque relativa agli esecutori del processo di valutazione, che, come si è visto, possono essere indifferentemente gli sviluppatori stessi del risultato finale, oppure dei consulenti/valutatori esterni. Anche nel caso della valutazione esterna è possibile il ricorso a valutatori esperti od inesperti. Il


A-6

primo tipo di valutatori viene tipicamente utilizzato per testare l’usabilità generale del prodotto, la sua facilità d’uso, stabilità e consistenza funzionale, mentre valutatori esperti sono solitamente utilizzati allo scopo di verificare aspetti di matrice più strettamente tecnica, come l’impianto concettuale o architetturale del prodotto, le scelte implementative o la compatibilità con standard del settore.

2.3 Valutazione intrinseca vs. Valutazione estrinseca

La distinzione descritta nel paragrafo precedente corrisponde a quella che oppone una valutazione intrinseca ad una valutazione estrinseca. E’ intrinseca una valutazione che resta interna al sistema/risorsa valutata, ad esempio verificando il grado di conformità del sistema/risorsa rispetto alle specifiche di sviluppo. Questo tipo di valutazione è quello generalmente adottato nel caso di risorse linguistiche, per le quali possono venire applicati criteri come i seguenti1:

• fissare una quantità minima di unità che la risorsa deve contenere ed accertarne la effettiva presenza;

• accertare la coerenza dei formati con le specifiche tecniche;

• accertare che lo scarto tra le codifiche prodotte e quelle assegnate da esperti opportunamente scelti non superi una soglia prefissata;

• laddove è possibile, utilizzare, in sistemi applicativi, le conoscenze linguistiche fornite dalle risorse, per dimostrarne la effettiva utilità.

Nel caso di sistemi e ambienti di sviluppo software, la valutazione intrinseca consisterà nell’accertare che essi forniscano tutte le funzionalità stabilite in sede di definizione, attraverso l’utilizzo sperimentale da parte di utilizzatori, ai quali verrà anche chiesto un giudizio soggettivo relativamente all’efficacia ed usabilità percepite.

Una valutazione di tipo estrinseco comporta invece un giudizio relativo all’effettiva utilità, usabilità ed efficacia della risorsa/sistema a prescindere dalle caratteristiche interne, e sulla base invece di un caso d’uso reale. Nel caso del progetto SI-TAL, ad esempio, una valutazione di tipo estrinseco è stata applicata non solo a componenti software, ma anche a risorse linguistiche: è questo il caso ad esempio della Treebank Sintattico Semantica dell’Italiano o di ItalWordNet, dei quali è stato testato l’impatto sulla performance di applicazioni di traduzione automatica in un caso e di un sistema di classificazione nell’altro.

Allo scopo di delineare uno schema descrittivo globale applicabile ai diversi temi di SI-TAL, e al contempo allo scopo di contribuire alla identificazione di un modello di valutazione generico che tenga effettivamente conto delle specificità e dei tratti inerentemente diversificatori dei diversi temi, si è inoltre provveduto a formalizzare delle distinzioni ulteriori, che costituiscono altrettanti parametri descrittivi che il lettore troverà applicati nella sezione successiva, dedicata all’analisi dei singoli temi.

1 Altri criteri di valutazione relativi a risorse linguistiche sono descritti nei manuali di validazione distribuiti da

ELDA, vedi http://www.elda.fr/validat.html.


A-7

2.4 Analisi quantitativa vs. Analisi qualitativa

Per validazione o valutazione quantitativa intendiamo qualsiasi analisi che riporti una misurazione in termini di indici, statistici o quantitativi, relativi ad un qualche aspetto considerato. Il termine qualitativo si applica invece a quelle analisi che riportano il giudizio, più o meno elaborato ed articolato, di un osservatore. Questa distinzione può essere considerata un parametro descrittivo delle diverse attività di valutazione ortogonale a quelli descritti nelle sezioni precedenti, per cui tanto una validazione o valutazione interna o intrinseca che una valutazione (in senso stretto) esterna o estrinseca possono avvalersi di metodologie di tipo qualitativo o quantitativo. Tipicamente, il risultato di una valutazione qualitativa sarà un rapporto dettagliato. Esemplificando concretamente, delle specifiche di annotazione linguistica possono essere valutate qualitativamente per quanto riguarda la loro chiarezza, il grado in cui sono sufficientemente esplicative dei principali fenomeni, ecc. Da un punto di vista quantitativo può invece essere possibile valutare il grado di replicabilità, a sua volta misurato da un apposito indice che misuri il grado di accordo fra annotatori diversi.

2.5 Metodologie utilizzate e tipi di validazione/valutazione

Illustriamo di seguito in modo sintetico una classificazione delle diverse attività di valutazione/validazione svolte nei diversi temi di SI-TAL.

Tema Componente valutata

Tipo di valutazione Metodologia

Interna o intrinseca

(validazione)

Esterna o estrinseca

(valutazione)

Qualitativa Quantitativa

risorsa X X X ItalWordNet software X X X X

SiSSA risorsa software X X X

risorsa X X X X Treebank software X

Dialoghi Annotati

risorsa X X X X

Interfacce Vocali

software X X

In particolare, i seguenti aspetti sono stati oggetto di validazione o valutazione2:

Per risorse linguistiche:

Validazione o valutazione interna/intrinseca

• Corrispondenza del modello alle specifiche

2 Non tutti gli aspetti sono stati considerati per tutte le risorse linguistiche in TAL. Per una descrizione più

approfondita, vedi il Cap. 4.


A-8

• Controllo della copertura

• Controllo di correttezza e consistenza dell’annotazione

• Controllo di adeguatezza dell’annotazione

• Accordo tra annotatori

• Rispondenza a standard del settore

Valutazione esterna/estrinseca

• Usabilità/utilità in applicazioni esterne

• Comprensibilità del modello

• Verifica dell’esportabilità delle specifiche di annotazione

Per componenti o ambienti di sviluppo software:

Validazione o valutazione interna/intrinseca

• Corrispondenza del prodotto alle specifiche

• Verifica delle funzionalità

Valutazione esterna/estrinseca

• Usabilità da parte di utenti finali

• Integrabilità del software

• Controllo di qualità delle soluzioni implementative

3 Resoconto analitico delle attività di valutazione e validazione in SI-TAL

3.1 ItalWordnet

3.1.1 Obiettivi della valutazione e validazione e conformità alle specifiche

L’attività nella linea 1.4 si è focalizzata nel raggiungimento di un duplice obiettivo:

• Valutazione esterna della risorsa lessicale: effettuata mediante un caso d’uso della risorsa.

• Validazione (valutazione interna) del software e della risorsa lessicale: effettuata mediante analisi incrementale delle funzionalità messe a punto o ulteriormente sviluppate negli ultimi mesi, al fine di controllare l’evoluzione del prodotto rispetto a quanto reso disponibile al termine della fase 1.3. In particolare, l’attività è stata concentrata su una valutazione qualitativa


A-9

delle funzionalità di interfaccia, sulla verifica delle funzionalità di API, e su verifiche relative alla copertura della risorsa;

Entrambe queste attività si sono svolte in conformità alle specifiche per la valutazione e validazione delineate nella linea 1.1.

3.1.2 Metodologie e fasi della valutazione e validazione

3.1.2.1 Validazione (valutazione interna)

La validazione ha riguardato, in particolare, una valutazione generale e di copertura del software e della risorsa lessicale ItalWordnet. L’attività di valutazione è stata svolta presso la sede di Quinary, ed effettuata da due sviluppatori software per quanto riguarda il software, e da collaboratori di Quinary senza pregressa conoscenza del sistema per quanto riguarda i contenuti e l’interfaccia.

I valutatori hanno analizzato ambiente software e contenuti della risorsa ItalWordnet secondo i criteri seguenti:

per il software:

1. corrispondenza del modello alle specifiche

2. usabilità dell’interfaccia di browsing

2.1. consistenza nella presentazione e nell’interazione

2.2. gestione degli errori

2.3. tempi di risposta

2.4. facilità d’uso

2.5. adeguatezza dell’help in linea e della documentazione sul funzionamento dell’interfaccia

2.6. “task match”

3. usabilità dell’interfaccia di editing

4. integrabilità del software

per la risorsa:

1. corrispondenza del modello alle specifiche

2. copertura e comprensibilità del modello

3. copertura del lessico


A-10

3.1.2.2 Valutazione esterna

L’attività di valutazione esterna della risorsa lessicale ha riguardato la valutazione della copertura linguistica e della reale utilizzabilità della risorsa ItalWordnet mediante l’estensione di un sistema di classificazione sviluppato presso Quinary. In questo, la risorsa prodotta è stata valutata in uno dei suoi possibili scenari d’uso.

3.1.3 Rispondenza a criteri e standard

I metodi adottati per la valutazione e la validazione sono conformi agli standard correnti per la valutazione di usabilità e sufficientemente articolati per fornire una valutazione circostanziata della risorsa linguistica.

3.1.4 Risultati


L’attività di validazione ha evidenziato la corrispondenza del modello alle specifiche, e ha sottolineato come la copertura in termini di relazioni e informazioni espresse sia da valutare complessivamente in modo più che soddisfacente. La risorsa ha riscosso giudizi positivi anche per quanto riguarda la copertura e la comprensibilità del modello. Per quanto riguarda la valutazione dell’interfaccia di browsing, i valutatori, che si ricorda avevano gradi di esperienza e familiarità diverse rispetto ad una risorsa di questo tipo, hanno valutato positivamente l’interfaccia. I diversi risultati per ogni singolo criterio di valutazione usato sono sinteticamente riportati nella tabella seguente:

1. Corrispondenza del modello del software alle specifiche

Il modello, così come presentato dall’interfaccia di ‘browsing’, corrisponde in termini di informazioni reperibili e relazioni esplorabili al modello definito nel documento finale della linea 1.1.

2. Usabilità dell’interfaccia di browsing 2.1 Consistenza nella presentazione e nell’interazione La presentazione grafica per i diversi tipi di oggetti è

consistente e comprensibile. Alcuni problemi di entità trascurabile riscontrati

2.2 Gestione degli errori L’interfaccia non presenta errori bloccanti. Buone caratteristiche di robustezza

2.3 Tempi di risposta Soddisfacenti 2.4 Facilità d’uso E’ risultato semplice imparare ad utilizzare l’interfaccia di

browsing e non si sono riscontrati particolari problemi nel ricordare, a distanza di tempo, le modalità di utilizzo

2.5 Adeguatezza dell’help in linea e della documentazione sul funzionamento dell’interfaccia

Non disponibili

2.6 “task match” Le funzionalità fornite per esplorare l'organizzazione dei termini nella rete semantica sono adeguate

3. Usabilità dell’interfaccia di editing L'interfaccia di editing è risultata abbastanza agevole da usare, anche se leggermente meno intuitiva dell'interfaccia di browsing

4. Integrabilità del software Tutte le API testate funzionano correttamente e forniscono una copertura adeguata in termine di funzionalità di ricerca. La documentazione delle API è abbastanza dettagliata da permettere l’utilizzo delle funzioni

1. Corrispondenza del modello della risorsa alle specifiche La copertura in termini di relazioni e informazioni agganciate alle entrate appare in generale soddisfacente,


A-11

soprattutto per le relazioni principali 2. Copertura e comprensibilità del modello Copertura del componente generico più che soddisfacente.

Rilevate poche aree di miglioramento nella componente economica. Le relazioni meno comuni per utenti non esperti appaiono poco comprensibili in assenza di un help in linea.

3. Copertura del lessico La copertura appare ragionevole. La mancanza maggiore – al di là della problematica evidenziata sulla terminologia 'derivazionale' - è relativa a terminologia specialistica e in modo particolare per termini 'nuovi', ma il difetto è ritenuto connaturato con qualsiasi risorsa linguistica che attesti un qualsiasi lingua in uso.


L’attività di valutazione esterna ha giudicato positivamente la copertura linguistica della risorsa ItalWordNet. Per quanto riguarda la valutazione dell’utilizzabilità della risorsa in un caso d’uso reale, l’impiego di ItalWordNet in un sistema di classificazione automatica ha evidenziato l’esistenza di alcune aree di miglioramento, in particolare relativamente alla possibilità di fornire metodi per distinguere tra i sensi ed individuare i sensi corretti. Infine, è stato notato come l’ontologia dei concetti a cui sono legati i synset del database generico sia troppo di alto livello.

3.2 SiSSA


L’attività del tema SiSSA nella linea 1.4. ha avuto due obiettivi:

• valutazione dell’ambiente SiSSA rispetto alla sua usabilità generale e alla qualità delle soluzioni implementative proposte e dell’interfaccia grafica.

• valutazione dell’ambiente SiSSA relativamente ad un compito di estensione, modifica e validazione delle risorse grammaticali, usando come corpus di riferimento la Treebank Sintattico-Semantica di SI-TAL. Più in particolare, la procedura di valutazione si è articolata nelle seguenti fasi:

- misurazione della copertura della grammatica corrente a fronte della Treebank;

- estensione di tale copertura (non più del 50%), modificando la grammatica, utilizzando i tool di SiSSA;

- valutazione della usabilità dei tool di SiSSA nell’estensione e validazione della grammatica.

La valutazione e validazione si è svolta in modo conforme alle specifiche. Come unico elemento di variazione, è da registrare che la valutazione è stata circoscritta ad un campione di 200 frasi estratte dalla Treebank, che sono state manualmente riviste per allinearne il formato all’input richiesto dal sistema. Questa variazione è stata motivata da alcune peculiarità del formato di esportazione dei dati del livello a costituenti della Treebank.


A-12


L’usabilità generale e la qualità delle soluzioni proposte del sistema SiSSA sono state oggetto di una valutazione formativa (Nielsen 1993), da parte di un gruppo di cinque persone della divisione “Tecnologie Cognitive e della Comunicazione” dell’ITC-irst. I partecipanti avevano diversi gradi di conoscenza di Linguistica Computazionale e Trattamento Automatico del Linguaggio, ma nessuna conoscenza del sistema SiSSA. Inoltre i soggetti non sono stati sottoposti ad alcun addestramento iniziale, ma è stato dato loro il manuale del sistema, senza tuttavia richiedere che lo leggessero prima della prova. Durante l’esperimento i soggetti potevano consultare liberamente il manuale. A ciascun partecipante è stato chiesto di svolgere 2 compiti:

• inserire un nuovo processore linguistico nel Processor Repository e, successivamente, usare il nuovo processore inserendolo all’interno di un progetto già esistente;

• definire un progetto composto da due processori linguistici e da un filtro XSL, partendo da zero.

Durante l’esperimento è stato chiesto agli utenti di verbalizzare i propri pensieri, secondo il metodo del “thinking aloud” (Nielsen 1993). Uno sperimentatore sedeva a fianco dell’utente, prendendo appunti sui problemi verificatisi e stimolando il soggetto a esprimere i propri pensieri. Dopo la fase di test, lo sperimentatore intervistava ciascun partecipante, discutendo i problemi incontrati, raccogliendo suggerimenti su possibili miglioramenti e investigando la soddisfazione dell’utente.

Per la valutazione della copertura delle risorse grammaticali di SiSSA e dell’uso del sistema per la loro estensione è stato usato il livello di annotazione a costituenti della Treebank di SI-TAL. La valutazione si è articolata nelle seguenti fasi:

1. E’ stato creato un “test corpus”, selezionando le prime 200 frasi della parte specialistica del corpus annotato a costituenti della Treebank (articoli de “Il Sole 24 Ore”), nel formato HTML rilasciato alla fine della linea 1.3.

2. Uno dei parser di SiSSA è stato lanciato sul corpus in modalità all-parses (costruzione di tutte le analisi possibili a partire dalla grammatica). È stato fissato un limite di 21.000 al numero massimo di costituenti (edge) gestibili dal sistema, limite oltre il quale il sistema interrompe l’analisi. Il parser funzionava in modalità CYK, cioè con un algoritmo particolarmente efficiente ma che permette l’utilizzo di regole al massimo binarie.

3. I risultati del parser sono stati analizzati in dettaglio, identificando i problemi e fornendo una lista di fenomeni ed indicazioni grammaticali, da implementare nella grammatica estesa.

4. Sulla base dell’analisi dei risultati sono state estese e modificate le risorse grammaticali di SiSSA, per raggiungere il traguardo prefissato di aumentare fino ad un massimo del 50% la copertura della grammatica stessa sul corpus di riferimento.

5. Valutazione vera e propria dei tool SiSSA nelle sue funzionalità dedicate alla gestione delle risorse grammaticali, utilizzando la metodologia della valutazione formativa (Ciravegna et al., 1997). Sono stati utilizzati cinque soggetti, tutti con competenze di linguistica computazionale, che non avevano partecipato allo sviluppo di SiSSA, né avevano preventivamente utilizzato l’ambiente per la gestione delle grammatiche. Il compito assegnato a tali soggetti era quello di modificare l’insieme selezionato di regole grammaticali e di inserire le nuove 12 regole, per ottenere la copertura desiderata. L’obiettivo era una valutazione qualitativa della usabilità dell’interfaccia messa a disposizione da SiSSA per l’editing della grammatica


A-13


I metodi adottati per la valutazione e la validazione sono conformi agli standard correnti per la valutazione di usabilità.

3.2.4 Risultati

L’attività di valutazione ha mostrato l’usabilità del sistema SiSSA. I soggetti del test, nonostante non fossero stati sottoposti ad alcun addestramento iniziale, sono stati in grado di eseguire i compiti proposti, con tempi medi di esecuzione assai soddisfacenti. Le osservazioni compiute e le interviste hanno confermato la buona comprensione del sistema raggiunta dai soggetti, ed il giudizio positivo sullo stesso. Allo stesso tempo, sono state messe in luce alcune limitazioni del sistema, in particolare per quanto riguarda l’interfaccia grafica.

Per quanto riguarda la valutazione delle risorse grammaticali, il parsing del “test corpus” usando Grammatica Core sviluppata durante la Linea 1.3 di TAL-SiSSA ha prodotto una (o più) analisi complete della frase per 16 frasi su 200. Per le rimanenti il sistema non ha prodotto analisi complete prima di raggiungere il limite fissato di 21.000 edges. L’analisi dei risultati ha permesso di identificare i problemi e le limitazioni della grammatica, e fornire una lista di fenomeni ed indicazioni grammaticali, da implementare nella grammatica estesa. Tra le cause principali della mancata analisi di molte delle frasi del corpus si può segnalare la mancanza di entrate lessicali, la presenza tra le frasi del corpus di titoli e occhielli di articoli, che presentano una sintassi peculiare fortemente ellittica.

A partire dall’analisi dei limiti della Grammatica Core sono state modificate 5 regole della grammatica di partenza e sono state inserite 12 nuove regole, allo scopo di coprire una parte dei titoli e degli occhielli di articoli di giornale presenti nel corpus, e di estendere la coordinazione di costituenti anche al caso di costituenti frasali. La grammatica risultante dall’implementazione delle modifiche menzionate ha permesso di analizzare con successo (stesse condizioni di cui sopra) 26 frasi su 200, raggiungendo l’obiettivo prefisso di aumentare fino ad un massimo del 50% la copertura della grammatica stessa sul corpus di riferimento.

Anche la valutazione dell’usabilità del modulo di gestione delle risorse grammaticali ha dato risultati estremamente significativi. L’editing della nuova porzione di grammatica, infatti, coinvolgeva tutti i livelli della grammatica di SiSSA (gerarchia dei tipi grammaticali, regole grammaticali, macros), ed i soggetti sono riusciti a portare a termine il compito loro assegnato con tempi assai significativi. Infine, le interviste con i soggetti hanno riportato pareri sostanzialmente favorevoli per quanto riguarda l’interfaccia del sistema SiSSA.

3.3 Treebank Sintattico-Semantica dell’Italiano


L’attività nella linea 1.4 si è focalizzata nel raggiungimento di un duplice obiettivo:

• Validazione (valutazione interna): condotta da parte di un esperto, individuato nella dott.ssa Francesca Carota, mediante la verifica dell'annotazione prodotta nell’ambito del progetto di campioni selezionati di testo annotato ai livelli sintattico a costituenti, sintattico-funzionale e semantico-lessicale;


A-14

• Valutazione esterna: effettuata mediante la realizzazione di un’applicazione pilota, volta a misurare il grado in cui la disponibilità della Treebank Sintattico-Semantica dell'Italiano possa migliorare la qualità del sistema di traduzione automatica italiano-inglese PetraWord®.




La validazione ha riguardato, in particolare, la porzione specialistica del Corpus della Treebank (corpus di finanziario de Il Sole-24 Ore) annotata a livello sintattico a costituenti e funzionale ed a livello semantico-lessicale. Tale selezione è stata motivata dal fatto che l’annotazione del corpus specialistico ha raggiunto una copertura completa riguardo a tutti i livelli.

Il valutatore ha seguito una metodologia parallela a quella adottata per l’annotazione. Per quanto concerne i livelli sintattici, la valutazione è stata eseguita frase per frase. Riguardo al livello semantico-lessicale, la valutazione è stata svolta per lemma. La valutazione si è svolta in tre fasi:

A. costruzione del campione da validare, secondo la seguente procedura:

1) selezione dei lemmi da valutare sul piano semantico-lessicale;

2) estrazione dei loro contesti di occorrenza;

3) selezione delle frasi contenenti occorrenze dei lemmi selezionati:

- a livello sintattico a costituenti,

- a livello sintattico funzionale;

Il campione risultante è formato da:

- 6158 tokens annotati sul piano sintattico a costituenti (a fronte delle 4000 previste dalle specifiche e sul totale di 89.541 tokens presenti nel Corpus annotato);

- 9823 tokens annotati sul piano sintattico funzionale (rispetto alle 8000 previste dalle specifiche ed alle 305.547 del Corpus annotato);

- 4002 occorrenze di parole annotate dal punto di vista semantico-lessicale (rispetto alle complessive 25.138 presenti nel Corpus annotato). A questo numero (che riguarda sostantivi, verbi ed aggettivi) si aggiungono le occorrenze di 65 lemmi estratti in una fase successiva, quali sigle, nomi propri ed espressioni polilessicali.

B. validazione e correzione del campione selezionato. L’annotazione ai tre livelli è stata validata per quanto riguarda la consistenza rispetto alle specifiche e la correttezza linguistica. In caso di errori, il valutatore ha anche riportato la versione corretta. Per la valutazione del livello semantico-lessicale, il valutatore ha utilizzato la risorsa semantico-lessicale, che è stata usata anche per l’annotazione a questo livello, la base di dati semantico-lessicale costituita da ItalWordNet (IWN). Per verificare la correttezza dell’annotazione semantico-lessicale, in


A-15

particolare degli identificativi di senso associati alle occorrenze dei lemmi presi in esame, sono state consultate sia la versione dedicata al lessico generico - IWN-Gen - sia la versione per il lessico specialistico ovvero finanziario - Eco-IWN -.

C. analisi quantitativa degli errori. Gli errori identificati ai vari livelli di annotazione sono stati classificati secondo varie tipologie, per una quantificazione analitica della correttezza dell’annotazione del corpus selezionato


L’attività di valutazione esterna della risorsa ha riguardato la misurazione dell'efficacia del sistema di traduzione PetraWord®, sviluppato e distribuito da Synthema s.r.l., a seguito dell’applicazione delle conoscenze linguistiche estratte dalla Treebank ed utilizzate per il “tuning” del sistema stesso, realizzato nel corso della linea 1.3. In questo, la risorsa prodotta è stata valutata in uno dei suoi possibili scenari d’uso.

Nella linea 1.3. le notazioni sintattiche e semantiche contenute nella Treebank sono state utilizzate per compiere il “tuning” del sistema di traduzione. Il lavoro si è articolato in una prima fase di estrazione delle informazioni dalla risorsa, in una di analisi e trasformazione di tali informazioni estratte, ed in una fase conclusiva di verifica e valutazione dello stato finale del sistema di traduzione. La prima fase di “tuning” del sistema di traduzione si è focalizzata sul miglioramento della copertura (inserimento delle parole sconosciute, analisi delle espressioni polilessicali, ecc.). La seconda fase ha invece riguardato il miglioramento dell’analisi sintattica del sistema, utilizzando sia ValTas, l’interfaccia grafica di consultazione della Treebank, sia le equivalenti informazioni rese disponibili in modo testuale.

L’attività di valutazione esterna svolta nella linea 1.4 si è articolata nelle seguenti fasi:

1. traduzione della porzione di corpus selezionato con il sistema originale;

2. traduzione di quella stessa porzione con il sistema modificato in base alle annotazioni prelevate dalla Treebank;

3. utilizzo dell'interfaccia utente sviluppata durante la linea 1.2 per la valutazione del corpus ottenuto al punto 1;

4. utilizzo dell'interfaccia utente sviluppata durante la linea 1.2 per la valutazione del corpus ottenuto al punto 2;

5. valutazione e comparazione dei risultati ottenuti, al fine di stabilire dei valori numerici e, quindi, il più possibile oggettivi, per la misurazione degli eventuali miglioramenti apportati al sistema di traduzione.

La valutazione è stata condotta su un sottoinsieme di articoli di carattere economico, legati da particolari criteri di omogeneità, individuati con strumenti di Text Mining. Questo ha permesso di esaminare porzioni di testo omogenee in cui ha acquistato un senso rilevante la ricorrenza dei costrutti e delle espressioni, consentendo, talvolta, di impostare il lavoro su base statistica.

Dapprima sono state valutate le traduzioni ottenute con il sistema originale e, successivamente, quelle ottenute con il sistema modificato. La valutazione di ciascun documento è stata portata a termine confrontando ciascuna frase del documento originale con la corrispondente traduzione. Tale


A-16

confronto ha consentito di suddividere le frasi tradotte in quattro diverse categorie, a seconda del livello di correttezza:

− Corrette: frasi la cui traduzione non necessita di particolari aggiustamenti;

− Imprecise: frasi la cui traduzione richiede qualche aggiustamento, pur essendo comprensibile il significato;

− Errate: frasi la cui traduzione non può essere considerata valida;

− Non Tradotte: frasi che il sistema non è riuscito a tradurre.

L’attività di classificazione è stata compiuta da una sola persona per garantire una maggior uniformità di giudizio. A tale scopo è stata anche utilizzata una applicazione sviluppata appositamente nella linea 1.2.

Dopo aver stabilito la categoria di appartenenza per ciascuna frase, sono stati analizzati i risultati con i seguenti metodi matematici al fine di consentire una misurazione della qualità del sistema di traduzione dopo il ‘tuning’ effettuato sulla Treebank:

- migrazione delle frasi dei documenti -la variazione in percentuale del numero di frasi appartenenti a ciascuna delle quattro categorie prima e dopo il “tuning” del sistema;

- valutazione pesata in relazione al tempo: a ciascuna classe di correttezza sono stati associati coefficienti che riflettono la quantità di tempo necessaria all'utente finale per rilasciare un prodotto corretto, attraverso la revisione/correzione delle traduzioni ottenute;

- valutazione pesata in relazione al livello di correttezza: a ciascuna classe di correttezza sono stati associati coefficienti che riflettono la qualità della traduzione.

La combinazione di queste tre misure ha permesso di ottenere una valutazione più significativa del miglioramento apportato al sistema di traduzione dall’informazione linguistica estratta dalla Treebank.


I metodi adottati per la validazione e la valutazione esterna sono conformi agli standard correnti per la valutazione di usabilità, consistenza e correttezza.

3.3.4 Risultati

L’attività di validazione ha permesso di verificare l’adeguatezza descrittiva degli schemi di annotazione elaborati, della loro duttilità nel trattamento dei dati reali e, infine della loro usabilità dal punto di vista dell’annotatore. Il bilancio sulla congruità dello schema di annotazione e sui risultati dell’annotazione stessa è stato espresso in termini positivi da parte dell’annotatore. Le seguenti tabelle riassumono i risultati della valutazione per i tre livelli di annotazione della Treebank:

Valutazione livello sintattico a costituenti

Tipologia errori Frequenza

Corpus Il Sole-24 Ore attaccamento 1 tokens 89.941 copertura 4


A-17

tokens valutati 6.158 etichetta costituente 39 copertura 148 frasi input 1 risultato 45 errori attaccamento 1

Valutazione livello sintattico funzionale


Corpus Il Sole-24 Ore partecipanti 3 Tokens 89.941 relazione 9

Tokens valutati 9.823 relazione non identificata

3

Copertura 254 frasi Tratti di tipo A 59 Risultato 98 errori Tratti di tipo B 23

Input 1

Valutazione livello semantico-lessicale


Corpus Il Sole-24 Ore senso 40 Tokens 89.941 tratti semantico-

lessicali

occorrenze valutate

728 verbi 796 aggettivi

2478 sostantivi

input

Risultato 40 errori

L’attività di valutazione esterna ha mostrato un netto miglioramento nelle performance del sistema di traduzione automatico, a livello dell'analizzatore sintattico dell'italiano e del transfer. Sia i risultati quantitativi che la verifica delle analisi delle singole frasi sono stati positivi, confermando la validità dell’architettura della Treebank di SI-TAL per un suo uso applicativo per il trattamento automatico del linguaggio. I risultati quantitativi della valutazione esterna sono riportati nelle tabelle seguenti:

1. migrazione delle frasi dei documenti:

Categoria di correttezza delle frasi

Miglioramento ottenuto dopo il ‘tuning’ del sistema

Frasi Corrette +45% Frasi Imprecise +40%

Frasi Errate -38% Frasi Non Tradotte -79%

2. valutazione pesata in relazione al tempo:

Risultato totale +18%

3. valutazione pesata in relazione al livello di correttezza:

Risultato totale +17%


A-18

3.4 Dialoghi Annotati per Applicazioni di Interfacce Vocali Avanzate

3.4.1 Obiettivi della validazione e valutazione e conformità alle specifiche

L’obiettivo dell’attività di validazione e valutazione svolta durante la Linea 1.4 consisteva nell’accertare, a campione, la rispondenza alle specifiche dell’annotazione prodotta dal progetto. A tal fine le attività individuate all’inizio del progetto erano le seguenti:

1. Annotazione di un sottocorpus di dieci dialoghi da parte di annotatori diversi rispetto a quelli della Linea 1.3, a tutti i livelli di annotazione;

2. Confronto, per ogni livello, delle annotazioni prodotte durante la fase di costruzione del corpus con quelle prodotte dagli annotatori esterni. Il confronto era mirato all’espressione del grado di accordo tra annotatori diversi relativamente alle categorie utilizzate nei diversi schemi per etichettare determinati fenomeni linguistici. Come misura era stato indicato l’indice kappa per tutti i livelli di annotazione linguistica.

3. Verifica dell’esportabilità degli schemi e degli strumenti messi a punto per lo sviluppo e la gestione di altri tipi di risorse di linguaggio parlato.

Tutte le attività sono state svolte in conformità con le specifiche di validazione, ad eccezione di alcune modifiche minori, adeguatamente motivate e di seguito riassunte:

- per l’attività 1, l’annotazione del corpus di validazione da parte di annotatori esterni ha coinvolto tutti i livelli di annotazione ad eccezione del livello sintattico; l’annotazione sintattica viene infatti eseguita automaticamente con controllo manuale a posteriori, pertanto sembrava più opportuno valutare il grado di correttezza dell’analizzatore automatico più che il grado di accordo tra annotazione automatica e annotazione eseguita da un valutatore esterno. Al posto dell’indice kappa sono stati quindi utilizzati gli indici di Precision e Recall.

- Per l’attività 2, le specifiche indicavano l’indice kappa come l’indice di riferimento per esprimere la validazione relativa a tutti i livelli di annotazione. Tuttavia la specificità di alcuni degli schemi di annotazione hanno fatto propendere per una diversificazione degli indici di valutazione a seconda dei livelli di annotazione.

3.4.2 Metodologie e fasi della validazione e valutazione

L’attività di validazione e valutazione è stata organizzata secondo un preciso processo metodologico strutturato in quattro fasi:

1 Realizzazione del corpus per la validazione: il corpus di validazione è stato costituito estraendo dal corpus dieci dialoghi, 5 del tipo persona-persona e 5 del tipo persona-macchina. La selezione è avvenuta casualmente mediante procedura automatica.

2 Annotazione del corpus di validazione: il corpus è stato annotato indipendentemente da due annotatori inesperti, ovvero privi di familiarità con gli schemi di annotazione proposti e, in particolare, non coinvolti nell’ideazione di altri schemi notazionali per corpora di dialoghi. I due annotatori inesperti hanno ricevuto i manuali di annotazione e brevi sessioni di istruzione, durante le quali sono state fornite loro indicazioni sulla finalità del compito richiesto, sui formati dei dati (formati dei dati di partenza e formati richiesti dagli schemi per i diversi


A-19

livelli) e sul significato degli insiemi di etichette che caratterizzano ciascun livello di annotazione. In entrambi i casi l’istruzione è stata impartita da parte di un annotatore esperto.

3 Analisi comparata dei dati, sia da un punto di vista qualitativo che da un punto di vista quantitativo. L’analisi qualitativa ha implicato una generica valutazione da parte dei valutatori esterni in termini di usabilità, chiarezza, copertura e affidabilità degli schemi di annotazione. Detta valutazione è avvenuta per mezzo di osservazioni spontanee ed implica anche eventuali commenti relativi ad aree di miglioramento. La valutazione quantitativa dei dati dell’attività di valutazione si è invece basata sul calcolo dei valori degli indici statistici scelti per ognun livello come indicativi della replicabilità degli schemi di annotazione, e, per il solo livello sintattico, della correttezza dell’annotazione prodotta dall’analizzatore automatico. Gli indici statistici utilizzati sono l’indice kappa, e la coppia di indici Precision e Recall. L’indice kappa è stato utilizzato in letteratura a partire dal 1995 per valutare l’affidabilità di schemi di annotazione della struttura del dialogo, ovvero la probabilità che si ottengano risultati concordi applicando lo stesso schema sullo stesso corpus da parte di annotatori diversi. I valori per l’indice Kappa variano da 0 a 1, laddove kappa=1 significa che lo schema è completamente affidabile. In letteratura un valore di kappa > 0.6 è considerato indice di buona affidabilità dello schema. Precision e Recall sono indici estremamente popolari in Pattern Recognition come misura di errore, in particolare per quei casi in cui si debba misurare il grado di similitudine di due sequenze di valori ma non sia possibile ridurre il problema al confronto dei singoli valori a causa di errate inserzioni o cancellazioni degli stessi. Ricadono in questa classe di problemi per esempio la stima del grado di similitudine di due insiemi o la stima della bontà di un algoritmo di segmentazione.

4 Verifica della esportabilità degli schemi. Questa attività si è svolta in parallelo alle attività descritte sopra, ed è consistita nell’applicazione di alcuni degli schemi di annotazione prodotti dal progetto TAL ad un dialogo appartenente ad una tipologia diversa dal dominio turistico che è rappresentato dal corpus TAL. E’ stato quindi selezionato un dialogo appartenente al corpus AVIP (Archivio delle Varietà di Italiano Parlato), e si è provveduto ad annotarlo ai livelli morfosintattico, sintattico, semantico e pragmatico, oltre che a trascriverlo secondo le convenzioni adottate nel progetto TAL. Un’annotazione a livello prosodico non è stata ritenuta necessaria in quanto lo schema è per definizione indipendente dal dominio.


I metodi adottati per la validazione e la valutazione sono conformi agli standard internazionali correnti per la valutazione di replicabilità, consistenza e correttezza.

3.4.4 Risultati

L’attività di validazione qualitativa ha evidenziato la corrispondenza del modello alle specifiche, e i valutatori hanno in genere espresso pareri positivi relativamente alla chiarezza delle specifiche di annotazione linguistica, al potenziale descrittivo, e alla facilità d’uso.

Per quanto riguarda la validazione quantitativa, si nota come i valori degli indici statistici utilizzati siano in ogni caso superiori ai valori di soglia. Pertanto, gli obiettivi del progetto sono da considerarsi pienamente conseguiti.

I risultati della validazione quantitativa sono riassunti nella tabelle seguenti, distinte per tipologia di indici per comodità di consultazione.


A-20

Livello di annotazione P-P P-M Corpus intero Prosodico 0.603 0.807 0.601 Morfo-sintattico 0.943 0.847 0.934 Pragmatico 0,724 0,961 0,786

Tabella 1: Valori di Kappa

Livello di annotazione Precision Recall PP PM intero PP PM intero Sintattico 99,41% 100% 99,49% 96,60% 100% 96,18% Concettuale (ann. 1) 89,20% 88,89% 88,89% 49,20% 77,42% 53,87% Concettuale (ann. 2) 90,31% 91,04% 90,45% 83,39% 98,39% 85,86%

Tabella 2: Valori di Precision e Recall

L’attività di verifica dell’esportabilità dello schema ha evidenziato la totale esportabilità degli schemi per l’annotazione morfosintattica, sintattica e pragmatica; lo schema di annotazione concettuale è stato dimostrato esportabile per quanto riguarda quei concetti indipendenti dal dominio: per una esportabilità totale dello schema si dovrebbe invece provvedere alla creazione di un’ontologia ad hoc.

3.5 Strumenti e ambienti di sviluppo software per interfacce vocali avanzate


L’attività nella linea 1.4 si è focalizzata nella valutazione interna dei risultati raggiunti al termine delle Linea 1.3, ed in particolare nelle due attività seguenti:

• Test del modulo di generazione e delle interfacce software attraverso l’integrazione in un ambiente “run-time” prescelto dai partner industriali;

• Valutazione, da parte di utilizzatori industriali operanti in ambito nazionale, della rispondenza alle specifiche tecniche e della usabilità dell’ambiente di sviluppo applicazioni e di generazione della interfaccia utente.


3.5.2 Metodologie e fasi della valutazione

In sintesi i sei “partner industriali” (ovvero tutti i soggetti attivi delle linea 1.4 ad eccezione di Loquendo e Irst) hanno svolto le seguenti attività:

1) integrazione in un ambiente di sviluppo servizi delle tecnologie vocali fornite da Loquendo e Irst secondo un’architettura e un paradigma general purpose definito in fase di specifiche, che consente di utilizzare le tecnologie vocali a soggetti terzi e non solo ai fornitori delle stesse, come invece accadeva precedentemente al progetto SI-TAL;

2) valutazione dell’integrazione in termini di corretto funzionamento delle interfacce e di usabilità dell’ambiente di sviluppo servizi così esteso con le tecnologie vocali;

3) realizzazione di un esempio di servizio reale.


A-21

Loquendo e Irst hanno invece fornito supporto sull’uso delle tecnologie vocali da loro fornite ai partner industriali per l’attività di integrazione suddetta.

Il piano dettagliato dei test è descritto nelle sezioni 4.11, 6.7 e 7 del deliverable della Linea 1.4.


Per quanto riguarda l’aderenza delle metodologie di valutazione usate a criteri e standard internazionali, si deve notare come tutte le attività siano conformi a criteri di valutazione universalmente riconosciuti e adottati in seno alla comunità di sviluppo di tecnologie e servizi vocali. In particolare, la valutazione dell’efficacia dei servizi vocali realizzati dai diversi partners industriali nell’ambito del progetto TAL si avvale sia di analisi quantitative che qualitative. Le analisi quantitative consistono in analisi statistiche relative a parametri quali l’esito del servizio, l’esito delle chiamate, la durata delle chiamate, e/o parametri relativi all’efficacia delle tecnologie vocali implementate, come ad esempio la percentuale di riconoscimento dell’ASR. Le analisi qualitative consistono invece nei risultati di interviste effettuate su campioni di utenti del servizio vocale testato, ai quali veniva chiesto di esprimere un giudizio in termini di efficienza, facilità di utilizzo, rapidità nell’ottenimento dell’informazione richiesta, gradevolezza dell’interfaccia vocale.

Si nota infine che le prestazioni di riconoscimento vocale descritte nel primo capitolo del deliverable sono calcolate in aderenza agli standard internazionali SAM “Speech Assessment Methodologies”.

3.5.4 Risultati

L’attività di valutazione ha evidenziato il pieno raggiungimento degli obiettivi del progetto. E’ stato infatti riscontrato:

a. l’effettiva esistenza e disponibilità dell’ambiente software che soddisfi ai requisiti ed alle funzionalità definiti nelle specifiche tecniche;

b. l’effettiva disponibilità di una applicazione dimostrativa funzionalmente completa sviluppata utilizzando l’ambiente software suddetto;

c. che l’utilizzo dell’ambiente di sviluppo ha consentito di migliorare il processo di sviluppo di una applicazione. Il miglioramento è stato considerato:

− a livello dei tempi di sviluppo (riduzione di almeno il 50% rispetto ai metodi precedentemente utilizzati);

− a livello delle funzionalità utilizzabili, inclusa la possibilità di usare il linguaggio naturale nell’interazione con l’utente;

− a livello della manutenibilità dell’applicazione;

− a livello della documentazione prodotta;

− a livello di valutazione soggettiva di usabilità.


A-22

Per quanto riguarda il livello di avanguardia tecnologica, infine, il dialogo in linguaggio naturale in servizi vocali automatici effettivamente in esercizio e disponibili alla clientela telefonica, rappresenta un livello di eccellenza mondiale.


A-23

4 Riepilogo generale: riflessioni metodologiche sulla validazione in TAL, alla luce dell’esperienza del progetto

Il progetto SI-TAL rappresenta un’importante esperienza di contatto e di confronto fra obiettivi, criteri e metodologie di valutazione, necessariamente molteplici e differenziati in virtù della complessità e la varietà dei risultati prodotti.

Pur nelle inevitabili differenze dovute alle peculiarità dei singoli componenti, è da sottolineare come SI-TAL si caratterizzi come un sistema di risorse linguistiche interdipendenti; questo è evidenziato anche dal fatto che la validazione e la valutazione sono state effettuate con riferimento incrociato alle risorse prodotte. Più specificatamente, infatti, si ravvisa uno stretto contatto fra risorse e strumenti software appartenenti a temi diversi ed un utilizzo reciproco in fase di valutazione: ad esempio, l’attività di valutazione del tema ItalWordNet si avvale del corpus sviluppato dal tema Treebank; questo stesso corpus è utilizzato in parte della valutazione del tema SiSSA, e a sua volta il tema Treebank utilizza ItalWordNet come corpus di riferimento.

Entrando nel dettaglio delle diverse esperienze di valutazione e/o validazione, possiamo notare che se da una parte non è possibile delineare una metodologia unica applicabile ai diversi tipi di risorse e strumenti software prodotti, è d’altra parte evidente l’aggregarsi di metodi, tecniche e criteri di valutazione in classi diverse a seconda del diverso tema di analisi.

In virtù di questo è possibile delineare un insieme di tecniche e metodi di valutazione, differenziati per tipo di oggetto, ma coerentemente e sinergicamente applicabili a qualsivoglia insieme analogo.

I paragrafi seguenti illustrano una tassonomia delle diverse tecniche di valutazione usate in SI-TAL; esse sono applicabili, complessivamente o individualmente, ad oggetti simili. Per ognuna di esse viene data una breve descrizione in termini di metodologia usata, tipo di valutatori, uso di criteri di analisi dei dati di tipo quantitativo o qualitativo, ed infine eventuale uso di indici o misure quantitative. La tassonomia distingue le diverse metodologie per tipo di oggetto sottoposto a valutazione e nei termini già ampiamente illustrati di valutazione interna o validazione e valutazione esterna.

1. Metodologie usate per la validazione (valutazione interna) di risorse linguistiche

a. Corrispondenza del modello alle specifiche

b. Controllo della copertura

c. Controllo di correttezza e consistenza dell’annotazione

d. Controllo di adeguatezza dell’annotazione

e. Accordo tra annotatori

f. Rispondenza a standard del settore

2. Metodologie usate per la valutazione esterna di risorse linguistiche

a. Usabilità/utilità in applicazioni esterne

b. Comprensibilità del modello


A-24

c. Verifica dell’esportabilità delle specifiche di annotazione (portabilità delle specifiche)

3. Metodologie usate per la validazione (valutazione interna) di oggetti e ambienti di sviluppo software

a. Corrispondenza del prodotto alle specifiche

b. Verifica delle funzionalità

4. Metodologie usate per la valutazione esterna di oggetti e ambienti di sviluppo software

a. Usabilità da parte di utenti finali

b. Integrabilità del software

c. Controllo di qualità delle soluzioni implementative

4.1 Metodologie usate per la validazione (valutazione interna) di risorse linguistiche

4.1.1 Corrispondenza del modello alle specifiche

• Obiettivo: verificare che il modello realizzato corrisponda effettivamente alle specifiche definite in fase di progettazione.

• Metodo: in base alle specifiche prodotte, uno o più valutatori controllano che il modello sia effettivamente rispondente. Alcuni degli aspetti che possono essere presi in considerazione da questa metodologia sono, ad esempio, che il tipo e la quantità dell’informazione linguistica codificata corrispondano a quelli specificati, che il linguaggio di mark-up utilizzato sia conforme allo standard, e più in generale che la risorsa manifesti effettivamente le caratteristiche specificate in fase progettuale. Se la risorsa se ne discosta, si dovranno valutare attentamente le motivazioni addotte. L’attività può essere svolta in maniera estesa, per tutti gli aspetti coperti dalle specifiche, oppure a campione, come ad esempio nel caso del controllo effettuato su un sottoinsieme della risorsa.

• Valutatori: i valutatori vengono solitamente scelti tra persone che non abbiano direttamente partecipato allo sviluppo del modello ma siano comunque esperti del settore.

• Approccio qualitativo o quantitativo: questa metodologia adotta in genere un approccio qualitativo. Il risultato tipico di questa attività di validazione è un resoconto sotto forma di rapporto tecnico dettagliato.

4.1.2 Controllo della copertura

• Obiettivo: il controllo di copertura di una risorsa linguistica rappresenta una sottospecie della metodologia di validazione descritta precedentemente, ed ha come obiettivo quello di verificare che il modello di risorsa prodotto, così come definito nelle specifiche ed effettivamente implementato, sia sufficientemente rappresentativo degli aspetti linguistici che si propone di documentare. Così, nel caso di un lessico il controllo di copertura sarà rivolto a verificare che esso comprenda un numero sufficientemente ampio di lemmi; nel caso di una grammatica, il controllo di copertura sarà rivolto a verificare che un numero soddisfacente delle strutture grammaticali della lingua, così come attestate ad esempio in un corpus, siano effettivamente coperte dalle regole descritte dalla grammatica. Nel caso di corpora la copertura viene invece valutata in termini di rappresentatività del corpus rispetto al tipo di lingua che intende rappresentare.

• Metodo: il metodo specifico adottato a questo scopo dipende necessariamente dal tipo di risorsa linguistica da valutare. Nel caso di un lessico, si procederà ad un confronto con risorse analoghe del settore, oppure si valuterà il grado di copertura della risorsa nei confronti di un campione di lingua: la risorsa sarà valutata tanto più positivamente quante più saranno le forme attestate in corpus che trovano riscontro nel lessico. Nel caso di corpora di lingua scritta o parlata, invece, il metodo di valutazione consisterà nella considerazione del numero di parole/ore di parlato/forme ecc. che la risorsa contiene.


A-25

• Valutatori: questo tipo di valutazione si avvale in genere esclusivamente di valutatori esperti. • Approccio qualitativo o quantitativo: quantitativo • Misure: percentuali di copertura, valutazione del numero di parole/lemmi/token, per esempio in riferimento a

standard del settore.

4.1.3 Controllo di correttezza e consistenza dell’annotazione

• Obiettivo: Il controllo di correttezza e consistenza dell’annotazione viene di solito applicato a corpora annotati o lessici. Lo scopo è quello di verificare l’omogeneità di trattamento di casi analoghi da una parte, e dall’altra che fenomeni linguistici specifici siano correttamente annotati, sia in senso assoluto che relativamente alle specifiche di annotazione prodotte.

• Metodo: i metodi solitamente impiegati sono due, non mutuamente esclusivi. Il primo consiste nell’annotazione ex-novo di un sottocorpus; l’annotazione prodotta in fase di valutazione viene poi confrontata con quella effettuata durante il progetto. Il secondo consiste in un controllo a campione, che non implica necessariamente la riannotazione.

• Valutatori: il primo metodo si avvale in genere di valutatori non esperti, ai quali viene richiesto di effettuare l’annotazione a partire da esperti; naive

• Approccio qualitativo o quantitativo: quantitativo (n. errori) e qualitativo (tipologia errori) • Misure: Precision, Recall

4.1.4 Controllo di adeguatezza dell’annotazione

• Obiettivo: il controllo di adeguatezza di una risorsa linguistica ha come scopo una generica valutazione del prodotto dal punto di vista della fondatezza teorica o teorico-pratica dell’annotazione.

• Metodo: il metodo adottato più di frequente consiste nell’annotazione ex-novo di un sottoinsieme del materiale linguistico incluso nella risorsa oppure, là dove questo non sia praticabile, in un controllo a campione.

• Valutatori: l’obiettivo di questo metodo implica il ricorso a valutatori esperti • Approccio qualitativo o quantitativo: questo tipo di valutazione dà luogo a una valutazione qualitativa, basata

sull’esperienza dei valutatori .

4.1.5 Accordo tra annotatori

• Obiettivo: l’obiettivo di questo tipo di valutazione consiste nella verifica del grado di replicabilità delle specifiche di annotazione da parte di annotatori diversi da quelli che hanno eseguito l’annotazione primaria delle risorse. Quanto più le specifiche sono facilmente replicabili, tanto più gli annotatori manifesteranno un alto grado di accordo relativamente alle scelte fatte in sede di annotazione. Viceversa, un basso grado di accordo è indice di scarsa affidabilità delle specifiche di annotazione, vuoi perché troppo complesse, poco documentate, o perché riflettono teorie e categorizzazioni poco comprensibili. Questo metodo può essere utilmente complementato dalla verifica della comprensibilità del modello (vedi par. 4.2.3).

• Metodo: l’accordo tra annotatori viene valutato per mezzo della riannotazione di un campione della risorsa da parte di annotatori non esperti.

• Valutatori: non esperti. Gli annotatori ricevono una istruzione minimale relativamente al compito da eseguire, corrispondente in genere al manuale di annotazione.

• Approccio qualitativo o quantitativo: il metodo presuppone un approccio quantitativo alla valutazione. • Misure: l’indice standard usato per questo tipo di valutazione è l’indice kappa3.

4.1.6 Rispondenza a standard del settore

• Obiettivo: valutare il grado di conformità della risorsa linguistica relativamente allo stato dell’arte. Questo implica, ad esempio, che la risorsa soddisfi un insieme di requisiti minimi considerati come requisiti di base per le risorse linguistiche, come ad esempio la disponibilità di documentazione, la conformità a

3 Vedi J. Carletta, 1996. “Assessing agreement on classification tasks: the kappa statistic”. Computational

Linguistics, 22(2), 249-254.


A-26

raccomandazioni e/o standard di annotazione e rappresentazione (là dove esistenti), ecc. Un riferimento di questo tipo è rappresentato dai manuali di validazione pubblicati da ELDA (cfr. http://www.elda.fr/validat.html)

• Metodo: è generalmente sufficiente una valutazione attenta delle specifiche e/o della documentazione prodotta ad accompagnamento della risorsa.

• Valutatori: è opportuno il ricorso a valutatori esperti. • Approccio qualitativo o quantitativo: qualitativo

4.2 Metodologie usate per la valutazione esterna di risorse linguistiche

4.2.1 Usabilità/utilità in applicazioni esterne

• Obiettivo: verificare il grado in cui una risorsa è utilizzabile in applicazioni reali di tecnologie del linguaggio. Se tale usabilità può essere dimostrata, un obiettivo ulteriore è rappresentato dalla verifica del grado di miglioramento apportato dalla risorsa ad una determinata applicazione.

• Metodo: i metodi possibili sono molteplici, e variano dalla realizzazione di un’applicazione pilota che impieghi la risorsa al tuning di un sistema esistente, all’impiego della risorsa in alternativa ad una preesistente.

• Valutatori: la valutazione deve essere effettuata da valutatori esperti del settore e delle applicazioni utilizzate. • Approccio qualitativo o quantitativo: la valutazione si avvarrà di giudizi di tipo qualitativo e quantitativo,

relative al miglioramento o peggioramento della performance dei sistemi all’interno dei quali la risorsa viene valutata.

• Misure: le misure quantitative tipicamente utilizzate sono, ad esempio, i valori percentuali che esprimono la variazione (positiva o negativa) della performance del sistema usato.

4.2.2 Verifica dell’esportabilità delle specifiche di annotazione (portabilità delle specifiche)

• Obiettivo: verificare il grado in cui le specifiche di annotazione di una risorsa sono applicabili a risorse costituite da tipologie di dati diversi da quelli per i quali le specifiche sono state originariamente concepite. Il grado di esportabilità delle specifiche è direttamente connesso alla loro utilizzabilità e applicabilità. D’altra parte, quanto più le specifiche sono esportabili quanto più si riduce proporzionalmente il suo potere esplicativo, perché è verosimile che uno schema sia tanto più informativo quanto più riesce a cogliere le caratteristiche specifiche di un certo fenomeno, o una certa classe di fenomeni.

• Metodo: il metodo consiste nell’applicazione delle specifiche di annotazione ad un campione di dati. L’estensione del campione non è definibile a priori.

• Valutatori: solitamente esperti, in quanto devono avere la capacità di giudicare il potere espressivo delle specifiche di annotazione relativamente ad un determinato campione linguistico.

• Approccio qualitativo o quantitativo: l’approccio è esclusivamente qualitativo.

4.2.3 Comprensibilità del modello

• Obiettivo: verificare che le specifiche di annotazione linguistica e le particolari scelte di classificazione e categorizzazione adottate siano chiare e comprensibili per gli utilizzatori della risorsa.

• Metodo: sottoporre la risorsa annotata all’analisi di uno o più valutatori, i quali, mediante giudizi spontanei o guidati da questionari, esprimeranno il proprio giudizio relativamente alla comprensibilità delle scelte di categorizzazione implicite nello schema di annotazione. Questo metodo può essere utilmente complementato dalla verifica della replicabilità dell’annotazione (vedi par. 4.1.5).

• Valutatori: è utile il ricorso a valutatori sia esperti che non esperti, in considerazione anche del tipo di utilizzo finale previsto per la risorsa. Se, infatti, la risorsa è intesa ad uso professionale, la valutazione dovrà essere condotta da esperti del settore. Se invece la risorsa è intesa ad uso di un pubblico comune o comunque con conoscenze linguistiche limitate, sarà più opportuno far condurre la valutazione da valutatori non esperti.

• Approccio qualitativo o quantitativo: l’approccio è esclusivamente qualitativo.


A-27

4.3 Metodologie usate per la valutazione interna (validazione) di oggetti e ambienti di sviluppo software

4.3.1 Corrispondenza del prodotto alle specifiche

• Obiettivo: verificare che il modello realizzato corrisponda effettivamente alle specifiche definite in fase di progettazione.

• Metodo: in base alle specifiche prodotte, uno o più valutatori controllano che il modello sia effettivamente rispondente. Se il prodotto se ne discosta, si dovranno valutare attentamente le motivazioni addotte. L’attività può essere svolta in maniera estesa, per tutti gli aspetti coperti dalle specifiche, oppure a campione.

• Valutatori: i valutatori vengono solitamente scelti tra persone che non abbiano direttamente partecipato allo sviluppo del prodotto ma siano comunque esperti del settore.

• Approccio qualitativo o quantitativo: questa metodologia adotta in genere un approccio qualitativo. Il risultato tipico di questa attività di validazione è un resoconto sotto forma di rapporto tecnico dettagliato.

4.3.2 Verifica delle funzionalità

• Obiettivo: verificare che le funzionalità implementate siano effettivamente presenti ed efficienti. • Metodo: il valutatore dovrà testare il prodotto in modo da poter valutare tutte le funzionalità principali o un

campione rappresentativo di esse, mediante prove ripetute in condizioni contestuali differenti. Il ricorso a più valutatori è raccomandato, in modo da poter valutare anche tipi di approcci diversi al sistema testato, secondo routines individuali. E’ consigliabile fornire ai valutatori una traccia o percorso delle funzionalità da testare, in modo tale da rendere la procedura di valutazione replicabile da più persone diverse. Un metodo utile consiste nel cosiddetto “scenario”, ovvero una serie preordinata di compiti da eseguire in sequenza, corredata da un questionario in cui si richiede di giudicare le diverse funzionalità su una scala di facilità, efficienza e funzionalità. In alternativa o in concomitanza, è possibile adottare metodologie oggettive come ad esempio la misura dei tempi richiesti per l’esecuzione di un determinato insieme di compiti.

• Valutatori: per questo metodo di valutazione sono adeguati tanto valutatori esperti che inesperti. • Approccio qualitativo o quantitativo: questa metodologia adotta in genere un approccio qualitativo.

4.4 Metodologie usate per la valutazione esterna di oggetti e ambienti di sviluppo software

4.4.1 Usabilità da parte di utenti finali

• Obiettivo: verificare che il prodotto sia facilmente ed efficacemente utilizzabile dal tipo di utenti per il quale è stato concepito. L’usabilità di un prodotto può essere valutata lungo un insieme di parametri distinti, alcuni dei quali sono: facilità di apprendimento (quanto è semplice per nuovi utenti identificare le caratteristiche rilevanti del prodotto ed eseguire compiti comuni; possibilità per un utente di eseguire un compito la prima volta che utilizza il prodotto); efficienza (quanto il prodotto riduce il tempo necessario per eseguire un certo compito e quanto nel complesso facilita un certo tipo di lavoro rispetto ai prodotti esistenti); numero di errori (quanti errori compie l’utente per eseguire un determinato compito); soddisfazione (qual è il grado di gradimento da parte dell’utente); tempo di apprendimento (quanto tempo è necessario ad un nuovo utente per apprendere l’utilizzo del prodotto).

• Metodo: uno o più questionari rappresentano un metodo efficace per la valutazione di usabilità. I valutatori dovranno rispondere ad una serie di domande dopo aver avuto modo di utilizzare il prodotto per un periodo di tempo variabile.

• Valutatori: la valutazione dovrà essere condotta dalla tipologia di utenti per i quali il prodotto è inteso. • Approccio qualitativo o quantitativo: questa metodologia adotta in genere un approccio qualitativo.

4.4.2 Integrabilità del software

• Obiettivo: verificare che le API del prodotto siano effettivamente funzionanti. • Metodo: valutazione dei tempi di risposta del programma. • Valutatori: questo tipo di valutazione richiede che i valutatori siano esperti del settore. • Approccio qualitativo o quantitativo: l’approccio è di tipo quantitativo.


A-28

• Misure: tempi di risposta dei programmi.

4.4.3 Controllo di qualità delle soluzioni implementative

• Obiettivo: verificare che le soluzioni implementative adottate per un determinato prodotto siano conformi da una parte agli scopi per i quali il prodotto è stato progettato e dall’altra agli standard del settore, ad esempio per quanto riguarda il linguaggio di programmazione, le scelte architetturali, ecc.

• Metodo: i valutatori condurranno un’accurata analisi delle specifiche tecniche e della documentazione a supporto del prodotto, provvedendo ad eseguire dei confronti appropriati con prodotti simili, se opportuno.

• Valutatori: questo tipo di valutazione richiede che i valutatori siano esperti del settore. • Approccio qualitativo o quantitativo: l’approccio è di tipo qualitativo.

Coerenza Tecnica 1.4 -...

Documents

Transcript of Coerenza Tecnica 1.4 -...