MARIA TERESA PAZIENZA - isticom.it · 207 proprio Intel. Se la ricerca fosse stata attivata su soli...

5
205 E' attualmente possibile accedere su web a servizi on-line commerciali che forniscono versioni semplificate di ipertesti su notizie di agenzia. In genere l'utente può navigare all'in- terno di testi on-line usando un numero limita- to di collegamenti ipertestuali predefiniti dal produttore del servizio e quindi secondo crite- ri non accessibili all'utente finale né pubbliciz- zati. I testi sono considerati nodi finali e non un punto di partenza per una esplorazione autonoma, da parte del lettore delle notizie, basata sul contenuto. Ciò è dovuto anche agli alti costi della produzione e manutenzione di ipertesti legata all'attività umana sottostante. Oltre al problema del costo, esiste un ulteriore problema legato alla soggettività nella identifi- cazione di correlazioni tra più testi: utenti fina- li diversi possono non condividere i criteri usati, da parte del fornitore del servizio, nel- l'inserimento di un documento in una specifica catena ipertestuale. Di conseguenza il lettore di giornali on-line può sentirsi "costretto" all'in- terno di un ipertesto del quale può non condi- videre i criteri ispiratori. Viene qui proposta una metodologia, svi- luppata ed implementatata dall'Università di Roma Tor Vergata nell'ambito di un progetto europeo, che affronta la problematica della generazione automatica di link ipertestuali tra notizie di agenzia basata su tecniche di Information Extraction (IE); i testi vengono rappresentati in una forma canonica (objective representation) che descrive le informazioni riconosciute come rilevanti nel documento stesso (entità nominali ed eventi). Tale rap- presentazione permette di definire collega- menti tra documenti una volta siano soddisfat- ti vincoli definiti in regole. L'identificazione di eventi di dominio e di entità nominali si basa su un sistema di IE basato su conoscenza e composto da un parser robusto e da un inter- prete del discorso. La generalità del metodo e la contestualità delle basi di conoscenza utiliz- zabili permette di avere nel contempo sia un sistema riproducibile, senza grandi modifiche, in ambiti cognitivi diversificati, sia una specifi- cità della conoscenza usata dal sistema per la creazione di ipertesti. DESCRIZIONE DEL SISTEMA A fronte della esplosione del mondo web, si può verificare facilmente come una comuni- tà di utenti sempre più ampia sia interessata a selezionare, filtrare, collegare e gestire con criteri propri quantità sempre più ampie di documenti multilinguali accessibili in rete. Ciò al di là di un processo di clustering di docu- menti (collegabili allo stesso argomento) basato su metodologie classiche di Information Retrieval, e mirato a riconoscere, estrarre e collegare tra loro specifici fatti/even- ti/analisi… preclassificati all'interno di testi diversi. Per soddisfare tali esigenze di cono- scenza e di gestione autonoma di informazio- ni testuali è necessario disporre di sistemi informatici altamente qualificati e che dispon- DALLA NOTIZIA DI AGENZIA ALLA GENERAZIONE AUTOMATICA DELL'IPERTESTO MARIA TERESA PAZIENZA Dipartimento di Informatica, Sistemi e Produzione Università di Roma Tor Vergata

Transcript of MARIA TERESA PAZIENZA - isticom.it · 207 proprio Intel. Se la ricerca fosse stata attivata su soli...

Page 1: MARIA TERESA PAZIENZA - isticom.it · 207 proprio Intel. Se la ricerca fosse stata attivata su soli meccanismi di riconoscimento di un termine, avremmo ottenuto che: 1.l'evento acquisizione

205

E' attualmente possibile accedere su weba servizi on-line commerciali che fornisconoversioni semplificate di ipertesti su notizie diagenzia. In genere l'utente può navigare all'in-terno di testi on-line usando un numero limita-to di collegamenti ipertestuali predefiniti dalproduttore del servizio e quindi secondo crite-ri non accessibili all'utente finale né pubbliciz-zati. I testi sono considerati nodi finali e nonun punto di partenza per una esplorazioneautonoma, da parte del lettore delle notizie,basata sul contenuto. Ciò è dovuto anche aglialti costi della produzione e manutenzione diipertesti legata all'attività umana sottostante.Oltre al problema del costo, esiste un ulterioreproblema legato alla soggettività nella identifi-cazione di correlazioni tra più testi: utenti fina-li diversi possono non condividere i criteriusati, da parte del fornitore del servizio, nel-l'inserimento di un documento in una specificacatena ipertestuale. Di conseguenza il lettoredi giornali on-line può sentirsi "costretto" all'in-terno di un ipertesto del quale può non condi-videre i criteri ispiratori.

Viene qui proposta una metodologia, svi-luppata ed implementatata dall'Università diRoma Tor Vergata nell'ambito di un progettoeuropeo, che affronta la problematica dellagenerazione automatica di link ipertestuali tranotizie di agenzia basata su tecniche diInformation Extraction (IE); i testi vengonorappresentati in una forma canonica (objectiverepresentation) che descrive le informazioniriconosciute come rilevanti nel documento

stesso (entità nominali ed eventi). Tale rap-presentazione permette di definire collega-menti tra documenti una volta siano soddisfat-ti vincoli definiti in regole. L'identificazione dieventi di dominio e di entità nominali si basasu un sistema di IE basato su conoscenza ecomposto da un parser robusto e da un inter-prete del discorso. La generalità del metodo ela contestualità delle basi di conoscenza utiliz-zabili permette di avere nel contempo sia unsistema riproducibile, senza grandi modifiche,in ambiti cognitivi diversificati, sia una specifi-cità della conoscenza usata dal sistema per lacreazione di ipertesti.

DESCRIZIONE DEL SISTEMA

A fronte della esplosione del mondo web,si può verificare facilmente come una comuni-tà di utenti sempre più ampia sia interessata aselezionare, filtrare, collegare e gestire concriteri propri quantità sempre più ampie didocumenti multilinguali accessibili in rete. Ciòal di là di un processo di clustering di docu-menti (collegabili allo stesso argomento)basato su metodologie classiche diInformation Retrieval, e mirato a riconoscere,estrarre e collegare tra loro specifici fatti/even-ti/analisi… preclassificati all'interno di testidiversi. Per soddisfare tali esigenze di cono-scenza e di gestione autonoma di informazio-ni testuali è necessario disporre di sistemiinformatici altamente qualificati e che dispon-

DALLA NOTIZIA DI AGENZIA ALLA GENERAZIONEAUTOMATICA DELL'IPERTESTO

MARIA TERESA PAZIENZA

Dipartimento di Informatica, Sistemi e ProduzioneUniversità di Roma Tor Vergata

Page 2: MARIA TERESA PAZIENZA - isticom.it · 207 proprio Intel. Se la ricerca fosse stata attivata su soli meccanismi di riconoscimento di un termine, avremmo ottenuto che: 1.l'evento acquisizione

206

gano di specifiche basi di conoscenza lingui-stica e di dominio del interesse.

All'interno del 5° Framework (HumanLanguage Technologies) della ComunitàEuropea è stato sviluppato NAMIC 1 (NewsAgencies Multilingual InformationCategorization) (Partner: Università di RomaTor Vergata2 -IT-, Università di Sheffield -UK,Università di Brussel -BE-, UniversitàPolitecnica di Catalogna -ES-, ANSA -IT-, EFE-ES-, Knowledge Stones Spa -IT-), progettoeuropeo per la realizzazione di un sistemadedicato al supporto dell'attività di authoringautomatico di notizie di agenzia scritte in lin-gue diverse (inglese, italiano, spagnolo).

Obiettivo principale del sistema è quellodi aiutare un utente a definire collegamentiipertestuli tra informazioni automaticamentericonosciute in testi diversi ed in lingue diver-se come concettualmente correlate. Da unpunto di vista metodologico ciò si basa sullapossibilità da parte del sistema di riconoscere"eventi" selezionati in accordo a specificheutente (esempio: vendere o comprare azien-de, vincere una partita di calcio,…), gli even-tuali "attori" dell'evento, i ruoli da loro assunti,e tutte le altre informazioni necessarie adidentificare uno specifico evento all'interno diuna classe.

Tale attività, realizzata in tempo reale, èconcepita come essenziale per un giornalistainteressato a produrre un articolo a fronte dinotizie che possono essere generate in tempiasincroni e da diversi produttori oltre che com-

parire eventualmente all'interno di testi piùampi relativi a notizie diverse.

L'attività di authoring, quindi, consiste nelgenerare da parte del sistema dei collega-menti(links) tra notizie di agenzia in connes-sione al fatto di aver evidenziato relazioni trafatti(eventi) precedentemente riconosciutiall'interno di notizie ed identificati quindi comepossibili ancore (frammenti di testo) del colle-gamentio ipertestuale.3 Ad esempio, l'eventorelativo all'acquisizione di una azienda puòessere riconosciuto all'interno dei testi qui diseguito riportati e presenti in diverse notizie diagenzia (tutte rigorosamente reali) scritte informe e lingue diverse:

- Intel, the world's largest chipmaker,bought a unit of Danish cable maker NKT thatdesigns high-speed computer chips used inproducts that direct traffic across the internetand corporate networks

- The giant chip maker Intel said it acqui-red the closely held ICP VortexComputersysteme, a German maker ofsystems for storing data on computer net-works, to enhance its array of data-storageproducts

- Intel ha acquistato Xircom inc. per 748milioni di dollari

- Le dichiarazioni della Microsoft, infatti,sono state precedute da un certo fermento,dovuto all'interesse verso Linux di grandi dittequali Corel, Compaq e non ultima Intel (che haacquistato quote della Red Hat)…

L'ipotesi sottostante l'attività di authoringrelativa alle frasi appena riportate è che tuttele notizie di agenzia precedenti sono relativead uno stesso settore di interesse per unaspecifica classe di utenti. Pertanto esse pos-sono essere collegate tra loro; inoltre, l'esi-stenza di un tale collegamento potrebbe sug-gerire all'utente che la motivazione sottostan-te l'attività del sistema è che tutti i vari brani siriferiscono all'evento specifico relativo all'acquisizione di una azienda, nella fattispeciedella Intel.

Si può notare come un processo di gene-razione di link basato esclusivamente sulle"parole" sarebbe fallito nel caso precedente-mente descritto (e d'ora in poi usato come"case study") in quanto la parola che avrebbepotuto giocare il ruolo di link è solo il nome

1 Progetto IST-1999-12392 finanziato dalla ComunitàEuropea .2 Gruppo di Ricerca in Intelligenza Artificiale: M.T.Pazienza, R. Basili, A. Moschitti, M. Vindigni, F.Zanzotto.3 Un link è una relazione tra due documenti motivataconcettualmente (le motivazioni derivano dal contenutodel documento)Una relazione tra due documenti giustifica il link edipende dall'esistenza di istanze simili di persone/azien-de/luoghi/fatti citati nei due testi.Un fatto/evento è qualcosa che appare in un dato luogoe in un particolare momento, ovvero un insieme specia-le di circostanze descritte in un testo.Un'ancora è in genere un frammento di testo (ovverouna sezione o un intero documento) che sia sorgente opunto di arrivo di un link ipertestuale e che concettual-mente motiva il link stesso.

Page 3: MARIA TERESA PAZIENZA - isticom.it · 207 proprio Intel. Se la ricerca fosse stata attivata su soli meccanismi di riconoscimento di un termine, avremmo ottenuto che: 1.l'evento acquisizione

207

proprio Intel. Se la ricerca fosse stata attivatasu soli meccanismi di riconoscimento di untermine, avremmo ottenuto che:

1. l'evento acquisizione di una aziendasarebbe stato irriconoscibile di per sé in quan-to espresso in forme linguistiche disparate,

2. il termine Intel sarebbe stato ricercatoe trovato all'interno di centinaia di notizie in cuiquel nome compare relative ad eventi diver-sissimi e quindi quello di interesse (acquisizio-ne di una azienda) molto probabilmentesarebbe stato coperto dalla miriade di notiziedi natura diversa.

Conseguentemente, l'informazione sul-l'acquisto di aziende da parte Intel non sareb-be emerso o avrebbe richiesto da parte dell'u-tente una scansione manuale lunga e noiosa.D'altra parte può essere interessante notarecome nelle prime due notizie sia stato ricono-sciuto che i sensi dei due verbi inglesi boughted acquired siano equivalenti e quindi permet-tano di attivare un link. Sebbene la relazionedi equivalenza possa essere ricavabile conmeccanismi del tipo espansione della query ericerca di sinonimi in un thesaurus, la comunepolisemia dei termini e rumore linguistico divario tipo potrebbe condurre ad una vasta pro-liferazione di matches irrilevanti. In tali situa-zioni la capacità di analisi del contesto si rive-la di cruciale importanza. Sempre nel caso inesempio, i sensi di to buy e to acquire sonocollegati anche dal fatto di ammettere Intelcome attore dell'azione di acquistare mentreNKT o ICP Vortex sono le aziende acquistate.In tal modo le uniche informazioni ritenute rile-vanti per l'identificazione dell'evento di acqui-sizione nelle notizie di agenzia in lingua ingle-se sono:

- Intel buys a unit of NKT- Intel acquires ICP Vortez.Queste descrizioni forniscono l'informa-

zione fondamentale capace di stabilire equi-valenze tra gli eventi in analisi. L'attività diauthoring, in tal modo, risulta parzialmentecome una ricaduta dell'attività di analisi lingui-stica.

Sintetizzando, le fasi di analisi considera-te fondamentali nel sistema risultano essere:

1. il text processing in quanto capace diriconoscere espressioni attraverso un'analisi

morfosintattica; unità morfologiche e relazionisintattiche sono prodotte per ciascuna frasenella lingua del testo. Però le relazioni sintatti-che tra soggetti e verbi da sole non sono suf-ficienti per la caratterizzazione di eventi.Come nell'esempio in cui il soggetto del verboto acquire è un pronome che solo anaforica-mente si rifersisce ad Intel. In tal caso ènecessario effettuare la risoluzione dell'anafo-ra.

2. l' event matching capace di risolvere iriferimenti anaforici così come accedere enavigare all'interno di una ontologia di dominiooltre che di una propria del linguaggio usatonei testi; in tali ontologie viene in generale rap-presentata l'equivalenza tra i fatti (ad esempioacquistare compagnie). La relazione tra to buye to acquire può essere considerata come sot-totipo di una più generale nozione di financialacquisition che è un esempio quasi perfetto diciò che è richiesto in notizie di agenzia di tipocorporate industrial ma risulta meno impor-tante, per esempio, per notizie di sport dovel'acquisizione di giocatori appare essere unevento molto più rilevante; la contestualizza-zione al dominio dell'ontologia permette,ovviamente, al sistema di essere più selettivo.

3. l' automating authoring permette digenerare link selettivi alla fine dell'attività diriconoscimento di differenze concettuali trafatti/eventi. Tipologie del genere same acqui-sition fact, same person, same company pos-sono essere usate per ditinguire link diversi equindi fornire spiegazioni, commenti all'utenterelativi all'attività semantica automaticamenteportata avanti dal sistema.

In NAMIC una interfaccia lessicale all'on-tologia è capace di fattorizzare le informazionispecifiche del linguaggio. Inoltre, pioché le dif-ferenze sintattiche sono gestite durante lafase di text processing, il risultato è un comu-ne modello del mondo usato per le attività diInformation Extraction a cui si aggiungonointerfacce lessicali independenti.

La rappresentazione unificata dell'insie-me di fatti attiva link multilinguali a livello con-cettuale, rendendo in tal modo l'attività diauthoring un processo indipendente dal lin-guaggio.

Page 4: MARIA TERESA PAZIENZA - isticom.it · 207 proprio Intel. Se la ricerca fosse stata attivata su soli meccanismi di riconoscimento di un termine, avremmo ottenuto che: 1.l'evento acquisizione

208

ARCHITETTURA LINGUISTICA DINAMIC

Il sistema NAMIC usa una architetturamodulare per l'estrazione di informazione datesti basata principalmente su: text processing, event matching, authoring.

Tutti i moduli sono stati sviluppati in unambiente Windows NT.

Si suppone che il sistema riceva nuoviflussi di notizie di agenzia nelle tre lingue(inglese, italiano, spagnolo).

Per analizzare ciascuna di esse analo-gamnete, sono stati sviluppati altrettanti pro-cessori linguistici (LP) specifici per le tre lingue

responsabili delle attività di text processing edevent matching per parti di testo indipendenti.Ognuno di essi è composto da un analizzato-re morfosintattico (lexicalized shallow parser)e da un event matcher.

I processori linguistici sono moduli objectoriented basati su Java.

In figura 1 è riportata l'architettura di basedell'elaborazione multilinguale di NAMIC. Perciascuna lingua analizzata, è stato sviluppatoun analizzatore morfosintattico (MS) ed unevent matcher (EM) che si basa sul modellodel mondo definito per applicazioni di analisi diagenzie giornalistiche di natura finanziaria. Sivuole qui sottolineare che, anche se finalizza-te all'applicazione, le componenti di proces-sing linguistico del sistema NAMIC sono forte-nemente indipendenti nel metodo usato per losviluppo e, quindi, NAMIC risulta facilmentecustomizzabile in nuove applicazioni.

Ogni LP compila una "rappresentazioneobiettiva" per ciascun brano di testo analizza-to comprendente informazioni morfosintatti-che, di categorizzazione e relative alla descri-zione degli eventi rilevanti. Ogni successivapossibile attività di authoring sarà basata suqueste informazioni.

EnglishMS

SpanishMS

ItalianMS

EnglishAE

SpanishAE

ItalianAE

newsObjective

RepresentationMonolingual Links

EnglishEM

SpanishEM

ItalianEM

Dom.Model

ELI

SLI

ItLI

Multi-Lingual

Authoring

Engine

LanguageLanguageProcessorsProcessors

EnglishMS

SpanishMS

ItalianMS

EnglishAE

SpanishAE

ItalianAE

newsObjective

RepresentationMonolingual Links

EnglishEM

SpanishEM

ItalianEM

Dom.ModelDom.Model

ELI

SLI

ItLI

Multi-Lingual

Authoring

Engine

Multi-Lingual

Authoring

Engine

LanguageLanguageProcessorsProcessors

Fig. 1 Architettura dei processori linguistici in NAMIC

Page 5: MARIA TERESA PAZIENZA - isticom.it · 207 proprio Intel. Se la ricerca fosse stata attivata su soli meccanismi di riconoscimento di un termine, avremmo ottenuto che: 1.l'evento acquisizione

209

CONCLUSIONI

In questo articolo è stao descritto il siste-ma NAMIC che, anche nelle sue funzionalitàbase, si configura come supporto indispensa-bile per una gestione autonoma di notizie gior-nalistiche.

E' stato mostrato come tale sistema usiconoscenze linguistiche per la generazione diipertesti multilinguali e come i meccanismi diragionamento adottati possano essere di ausi-lio all'utente per apprezzare/condividere lasemantica dei risultati.

Ciò risulta ancora più rilevante per supe-rare barriere linguistiche e permettere adutenti di lingua madre italiana di accederevelocemente anche a notizie di interessescritte anche in inglese e/o spagnolo.

RIFERIMENTI BIBLIOGRAFICI

1. Basili R., M.T. Pazienza, F.M.Zanzotto, Efficient Parsing for InformationExtraction, ECAI 98 13th EuropeanConference on Artificial Intelligence, HenryPrade Ed., John Wile & Sons Ltd, 1998.

2. Basili R, M. Di Nanni, M.T. Pazienza,Engineering of IE Systems: An Object-Oriented Approach, in Information Extraction:towards scalable, adaptable systems, LectureNotes in Artificial Intelligence 1714, Springer-Verlag, Berlin Heidelberg, 1999

3. M.T. Pazienza Ed. InformationExtraction: towards scalable, adaptablesystems, Lecture Notes in ArtificialIntelligence 1714, Springer-Verlag, BerlinHeidelberg, 1999

4. Basili R., M. Di Nanni, M. T. Pazienza,

Representing Document Content via anObject-Oriented paradigm, in, "Foundationsof Intelligent Systems", (Eds. Z.W. Ras, A.Skowron), 11th International Symposium onMethodologies for Intelligent Systems,Warsaw, Poland, June 8-11, 1999, LectureNotes in Artificial Intelligence, Springer-Verlag, No. 1609.

5. Basili R., Pazienza M.T., ZanzottoF.M., Modelling syntactic context in automaticterm extraction, Proceedings of RANLPConference, Tzigov Chark, Bulgaria, 5-7September 2001

6. R.Basili, M.T. Pazienza, F. M.Zanzotto, Web-based information access:Multilingual Automatic Authoring Third IEEEConference on Information Technology:Coding and Computing (ITCC-2002), LasVegas, Nevada, USA, April 8-10, 2002

7. R.Basili, M.T. Pazienza, F. M.Zanzotto, Learning IE patterns: a terminologyextraction perspective Workshop of EventModelling for Multilingual Document Linking atLREC 2002, Canary Islands (Spain), May2002

8. R. Basili, A. Moschitti, M.T. Pazienza,F.M. Zanzotto, A Semantic-driven approach toHypertextual Authoring Workshop of EventModelling for Multilingual Document Linking atLREC 2002, Canary Islands (Spain), May2002

9. R. Basili, M. T. Pazienza, F. M.Zanzotto, Decision trees as explicit domainterm definition 19th International Conferenceon Computational Linguistic (COLING2002)Taipei (Taiwan), September 2002

10. R. Basili, R. Catizone, L.Padro, M.T. Pazienza, G. Rigau, A. Setzer, N.Webb and F.M. Zanzotto, Knowledge-BasedMultilingual Document Analysis inProceedings of Building and Using SemanticNetworks, held with 19th InternationalConference on Computational Linguistic(COLING2002) Taipei(Taiwan), September2002