Aspetti computazionali e metodologici della disambiguazione del Corpus Taurinense

Scopo del progetto:

Creazione di un corpus che possa fungere da modello di apprendimento per un sistema di annotazione stocastica basata sui Modelli Markoviani Nascosti (HMM)

Problema: come realizzare un efficace sistema di disambiguazione per una lingua letteraria ancora vergine sotto l’aspetto del trattamento automatico

Soluzione: creazione di un sistema di disambiguazione per Parti del Discorso (POS) basato su regole, il più possibile svincolate dal contesto in cui si trovano

Necessità di prevedere comunque l’impiego di regole legate al contesto al fine di coprire tutti i numerosi casi di trattazione particolare dell’elemento (token) da disambiguare

Tre differenti tipologie di disambiguazione:

- Esterna: parti del discorso diverse - Interna: attributi genere/numero- Intra-POS: tipi diversi della stessa parte del discorso (es. modo, tempo, ecc.)

Necessità di prevedere una gerarchia di azione:

Regole di disambiguazione organizzate in sei moduli distinti operanti in cascata

In uno stesso modulo organizzazione delle regole secondo uno schema a mutua esclusione: regole diverse non possono agire sullo stesso token

Modulo 1

Modulo 2

Modulo 3

Modulo 6

Modulo 5

Modulo 4

Testo iniziale

Testo disambiguato

Tipologia di disambiguazione (interna, esterna, ecc.) non vincolata ad alcun modulo specifico: possibilità di agire contemporaneamente su più parametri anche all’interno di una stessa regola

Il primo modulo assume in ingresso un testo già diviso in token e dotato di completa annotazione morfosintattica e codifica metatestuale (markup)

Esempio testo di origine:

@Rinuccino@@Sonetti@@@Lir

&V $0035$ #001@ D' amore abiendo gioia interamente ,

lasso , nonn¬ aio in altro intendimento

né che partisse lo cor né la mente

da ÷l primo loco là onde avea abento ;

$0036$ ma feci come· ll' omo che consente

molte fïate contro a suo talento :

traduto m' àn li sguardi che sovente

mi son mostrati , e messo in gran tormento .

Sì come il marinaro la serèna ,

ca lo disvïa co lo dolze canto

e poi li dà tempesta per inganno ,

$0037$ così la gioia m' è cangiata in pena ,

e· ÷Ø riso , lasso m' è tornato in pianto :

per mia follia ò radop&[p&]iato il danno .

Esempio testo etichettato:

@Rinuccino@@Sonetti@@@Lir

&V_lem=versesection,71,0,0,0,0,0 $0035$ #001@ D'_(lem=da,56,0,0,0,0,0);(lem=di,56,0,0,0,0,0);(lem=di,51,0,0,0,0,0);(lem=di;da,56,0,0,0,0,0) amore_lem=amore,20,0,4,6,0,0 abiendo_lem=avere,224,0,0,0,0,0 gioia_lem=gioia,20,0,5,6,0,0 interamente_lem=interamente,45,0,0,0,8,0 ,_lem=comma,71,0,0,0,0,0

lasso_lem=lasso,26,0,4,6,8,0 ,_lem=comma,71,0,0,0,0,0 nonn¬_lem=non,45,0,0,0,8,0 aio_lem=avere,211,1,0,6,0,0 in_(lem=in,56,0,0,0,0,0);(lem=in,51,0,0,0,0,0);(lem=in,75,0,0,0,0,0) altro_lem=altro,32,0,4,6,0,0 intendimento_lem=intendimento,20,0,4,6,0,0

né_lem=né,50,0,0,0,0,0 che_(lem=che,36,0,4;5,6;7,0,0);(lem=che,51,0,0,0,0,0);(lem=ché,51,0,0,0,0,0);(lem=che,35,0,4;5,6,0,0);(lem=che,40,0,4;5,6,0,0);(lem=che,32,0,4,6,0,0);(lem=che,45,0,0,0,8,0) partisse_lem=partire/-si/,116,3,0,6,0,0 lo_(lem=lo,60,0,4,6,0,0);(lem=lo,39,3,4,6,0,0) cor_(lem=cuore,20,0,4,6,0,0);(lem=cor,75,0,0,6,0,0) né_lem=né,50,0,0,0,0,0 la_(lem=la,60,0,5,6,0,0);(lem=la,39,3,5,6,0,0);(lem=là,45,0,0,0,8,0) mente_(lem=mente,20,0,5,6,0,0);(lem=mentire,115,2,0,6,0,0)

Funzionamento del motore di disambiguazione:

- Creazione di una serie di puntatori ai token che compongono il testo

- Definizione di regole che agiscono sul token del puntatore centrale

Caratteristiche dei puntatori:

- numero minimo pari a 3- mobili: avanzano all’interno del testo - puntano a elementi testuali contigui (dati di markup esclusi)- permettono di definire con assoluta precisione il campo di applicazione di una regola non generale

Esempio di puntatori:

né_lem=né,50,0,0,0,0,0 PT 1

che_(lem=che,36,0,4;5,6;7,0,0);(lem=che,51,0,0,0,0,0);(lem=ché,51,0,0,0,0,0);(lem=che,35,0,4;5,6,0,0); (lem=che,40,0,4;5,6,0,0);(lem=che,32,0,4,6,0,0); (lem=che,45,0,0,0,8,0)

partisse_lem=partire/-si/,116,3,0,6,0,0 PT 3

lo_(lem=lo,60,0,4,6,0,0);(lem=lo,39,3,4,6,0,0)

cor_(lem=cuore,20,0,4,6,0,0);(lem=cor,75,0,0,6,0,0)

né_lem=né,50,0,0,0,0,0

che_(lem=che,36,0,4;5,6;7,0,0);(lem=che,51,0,0,0,0,0); (lem=ché,51,0,0,0,0,0);(lem=che,35,0,4;5,6,0,0); (lem=che,40,0,4;5,6,0,0);(lem=che,32,0,4,6,0,0); (lem=che,45,0,0,0,8,0) PT 1

partisse_lem=partire/-si/,116,3,0,6,0,0 PT 2

lo_(lem=lo,60,0,4,6,0,0);(lem=lo,39,3,4,6,0,0) PT 3

cor_(lem=cuore,20,0,4,6,0,0);(lem=cor,75,0,0,6,0,0)

Scorrimento in avanti:

Funzionamento delleregole di disambiguazione: - analisi del contenuto dei puntatori: controllo di corrispondenza con quanto stabilito dalla regola- modifica (disambiguazione) del contenuto del puntatore centrale

Esempio di regola di disambiguazione

if (campo ~ /^terza_/ && campo ~ /\);\(/){nf++if ($bw ~ /^già_/ || $fw ~ /^a_/)

{assegna(campo, "20", end)}

else{assegna(campo, "65", end)}

Problematiche delle regole di disambiguazione: - elevata complessità di sviluppo- modalità di azione suddivisa su più moduli distinti- definizione di ordine gerarchico di funzionamento- difficoltà di controllo degli errori

Soluzione:

- suddivisione delle regole in moduli omogenei per campo di applicazione (es. V/N; N/Adj; etc.)- utilizzo preventivo di regole ad-hoc per agevolare il funzionamento delle regole generali- utilizzo del modulo ausiliario “PEX” per la verifica della coerenza sintattica e di applicazione di una data regola

PEX – Pattern EXtractor

- sistema dotato di capacità di emulazione di qualsivoglia modello

Definizione e stampa del contesto

Regola individuata?

Ricerca della regola nel testo

Fasi di sviluppo tradizionali:

- studio teorico dei vari tipi di regole - implementazione pratica delle stesse in un determinato formalismo, di solito strettamente dipendente dal programma di disambiguazione - attivazione del processo di elaborazione- verifica sul testo disambiguato del corretto operato delle regole- correzione in post-editing delle regole - rielaborazione del testo dall’origine

Fasi di sviluppo adottate nel CT:

- studio teorico dei vari tipi di regole - emulazione delle singole regole mediante l’utilizzo del modulo “PEX” - analisi dei risultati- eventuale correzione delle regole - implementazione definitiva delle regole- elaborazione del testo da disambiguare

Vantaggi:

- semplificazione dell’iter di sviluppo - abbattimento dei cicli successivi di correzione regole e analisi dei dati- riduzione dei tempi morti di elaborazione - ottenimento di risultati certi e definitivi in tempi notevolmente ridotti- elaborazione finale in un unico passaggio

Aspetti computazionali e metodologici della disambiguazione del Corpus Taurinense

Documents

Transcript of Aspetti computazionali e metodologici della disambiguazione del Corpus Taurinense

La Gazzetta dell’AtlEtico€¦ · Troppo nervoso e troppe chiacchiere inutili. Così non ci siamo. Seguici anche sulla nostra pagina Facebook: Atletico Taurinense 2 COPPA CARNEVALE

Linguaggi e Modelli Computazionali a.a. 2009/2010 Docente: Studente: Enrico Denti Gabriele Morlini FantaGenius.

Semantica approcci computazionali Maria Teresa PAZIENZA a.a. 2005-06.

FONTINA E PEPERONI - AtlEtico Taurinense · La Gazzetta dell’AtlEtico Anno III –Numero 04 TUTTE LE NEWS SPORTIVE DEI NOSTRI RAGAZZI Mercoledì 08 novembre 2017 FONTINA E PEPERONI

Progetto di Linguaggi e Modelli Computazionali LS Andrea Decorte.

Progetto per lesame di Linguaggi e Modelli Computazionali LS Chiara Chiara Gualtieri.

Metodi Computazionali della Fisica - INFNpiccinin/MCF/dispense_colombi-meliga-scaffino.pdf · Metodi Computazionali della Fisica 1 Analogamente a quanto fatto prima per la derivata

Arricchimento semantico di edizioni digitali in TEI...edizioni digitali in TEI Riconoscimento e disambiguazione di ... Strumenti Strumenti per la ... Ganascia, J.G.: Semantic web based

Modelli Computazionali e Neuroetica: Determinazione del Livello di Indagine più Opportuno

DOTTORATO DI RICERCA SCIENZE COMPUTAZIONALI E … · 2014. 4. 30. · DOTTORATO DI RICERCA in SCIENZE COMPUTAZIONALI E INFORMATICHE Ciclo XVII Consorzio tra Università di Catania,

BRIGATA ALPINA TAURINENSE - Esercito Italiano€¦ · 236/2012, tutt'ora pienamente vigente per espressa indicazione dell'rut. 216 ... commi 510 e 512, della legge n. 208/2015, in

Percorsi di linguistica e filologia computazionali fileAndrea Bozzi Percorsi di linguistica e di filologia computazionali a cura di Maria Sofia Corradini Bozzi e Giacomo Ferrari testi

Griglie Computazionali: GRID...Griglie Computazionali: GRID Mettere a disposizione risorse di calcolo a livello globale Chi puo’ usare che cosa e come Stessi problemi per accedere

Attività progettuale in Linguaggi e Modelli Computazionali M My Small Language Realizzato da: Filippo Malaguti.

gli Special Olympics 2025 Fondi per la sicurezza degli ...Scuole per l’infanzia. Su iniziativa dell’assessore Elena ... Il concerto della Taurinense a Rivoli Bike Festival a Bardonecchia

Algoritmi Distribuiti1 Modelli di sistemi distribuiti problemi computazionali zQuali tipi di problemi computazionali si possono risolvere in un sistema.

4a Data Mining e motori computazionali

Miglioramento dellImmagine. Introduzione ai livelli computazionali Lelaborazione di una o più immagini mediante diversi livelli computazionali si propone.

LEZIONE N. 16LEZIONEpeople.na.infn.it/~merola/CORSO_GRID_2008-09/Lezione_16...Introduzione alle griglie computazionali aa 2006-07Griglie Computazionali - aa 2008-09 1 LEZIONE N. 16LEZIONE

DISAMBIGUAZIONE DI DATI DA FONTI ETEROGENEE IN LINKED OPEN DATA… · 2016-05-01 · Introduzione ... di una immediata accessibilità e di una capacità praticamente infinita, possiamo