Analisi contestuale di testi destrutturati e template di pagine web

Post on 07-Jul-2015

501 views 2 download

description

Presentazione che cerca di risolvere alcuni dei problemi di analisi e catalogo delle informazioni di differenti domini di interesse e inoltre di raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita

Transcript of Analisi contestuale di testi destrutturati e template di pagine web

Analisi contestuale di testi destrutturati

e template di pagine web

Relatore                                                          Candidato

Valter Crescenzi                                              Marco Cherubini                                                                        matricola 273991

Anno accademico 2009/2010

Università degli studi di Roma TreFacoltà di IngegneriaCorso di Laurea Magistrale in Ingegneria Informatica

SommarioIntroduzione

Il Problema e le motivazioni

Analisi contestuale site-dependent

Analisi contestuale di testi destrutturati e template di pagine web

Scalabilità dell’algoritmo

Risultati sperimentali

Conclusioni e Sviluppi futuri

Marco Cherubini - 24 Febbraio 2011

Introduzione Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse

Presenza di queste informazioni o in testi organizzati secondo una  struttura ben definita o in testi liberi

Forte presenza della ridondanza di queste informazioni

Marco Cherubini - 24 Febbraio 2011

Il problema e le motivazioni

Analizzare e catalogare queste informazioni per i differenti domini di interesse

Raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita

Marco Cherubini - 24 Febbraio 2011

Input – Template pagine web

Marco Cherubini - 24 Febbraio 2011

Input – Testi destrutturati

Marco Cherubini - 24 Febbraio 2011

Output – Risultato ottenuto

 Raccolta dei dati sui domini di interesse partendo dai template delle pagine web

 Numero sempre maggiore di dati dei domini di interesse interrogando successivamente i testi destrutturati

Marco Cherubini - 24 Febbraio 2011

Analisi contestuale site-dependent

Strumenti dell’Apache UIMA Framework utilizzati:

 Dictionary Annotator Julie Lab Lingpipe Gazetter Open Calais 

Input OutputUIMA

Senza utilizzare UIMA: Text Analyzer

Marco Cherubini - 24 Febbraio 2011

Analisi contestuale dei testi destrutturati e template pagine web

Input – Template di pagine web

Analisi dei template di pagine web

Input  - Testi destrutturati

Output Finale – Collezione dei termini di dominio

Analisi dei testi destrutturati

System

Marco Cherubini - 24 Febbraio 2011

Definizione template di pagine web

Esempio di 

Invariante

Esempio di 

InvarianteMarco Cherubini - 24 Febbraio 2011

Analisi contestuale di template di pagine web1. Calcolo Percorsi XPATH assoluti

1. Matrice delle Occorrenze

1. Euristica posizionale

1.  Ridondanza invarianti

1.  Ridondanza termini valore degli invarianti

Marco Cherubini - 24 Febbraio 2011

Analisi contestuale di testi destrutturati

1.  Stemming Annotator

1.  Text Runner

1.  KnowItAll

1.  Calcolo del Pointwise mutual Information (PMI)

1.  Ridondanza nei testi destrutturatiMarco Cherubini - 24 Febbraio 2011

Scalabilità dell’algoritmo

 Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azioni finanzarie in quanto gli invarianti non sono sempre in posizione iniziale.

Ridondanza degli invarianti: si applica la ridondanza anche ai template provenienti dallo stesso sito di appartenenza. 

Ridondanza dei valori degli invarianti: aggiunta del dizionario Wordnet. 

Marco Cherubini - 24 Febbraio 2011

Risultati sperimentali Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scala di circa 1000-1500 di testi destrutturati e di circa 100-150 di template di pagine web

Marco Cherubini - 24 Febbraio 2011

ConclusioniNecessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento assai funzionale per l’analisi dei testi e ne rende molto più agevoli lo studio.

Tramite l’analisi dei template delle pagine web risoluzione dell’automatizzazione della creazione dei dizionari utilizzati da UIMA.

Tramite l’analisi dei testi destrutturati raccolta di un numero sempre maggiore di risultati attendibili e non ricavabili dall’analisi dei template Marco Cherubini - 24 Febbraio 2011

Sviluppi futuri

Vedere la risposta degli algoritmi ad altri differenti domini

Parallelizzare dove possibile gli algoritmi per rendere veloce l’esecuzione in presenza di un grande numero di input

Dare una misura oggettiva alla Recall nel caso dell’Analisi dei testi destrutturati

Marco Cherubini - 24 Febbraio 2011

Grazieper

l’attenzione