Analisi contestuale di testi destrutturati e template di pagine web

17
Analisi contestuale di testi destrutturati e template di pagine web Relatore Candidato Valter Crescenzi Marco Cherubini matricola 273991 Anno accademico 2009/2010 Università degli studi di Roma Tre Facoltà di Ingegneria Corso di Laurea Magistrale in Ingegneria Informatica

description

Presentazione che cerca di risolvere alcuni dei problemi di analisi e catalogo delle informazioni di differenti domini di interesse e inoltre di raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita

Transcript of Analisi contestuale di testi destrutturati e template di pagine web

Page 1: Analisi contestuale di testi destrutturati e template di pagine web

Analisi contestuale di testi destrutturati

e template di pagine web

Relatore                                                          Candidato

Valter Crescenzi                                              Marco Cherubini                                                                        matricola 273991

Anno accademico 2009/2010

Università degli studi di Roma TreFacoltà di IngegneriaCorso di Laurea Magistrale in Ingegneria Informatica

Page 2: Analisi contestuale di testi destrutturati e template di pagine web

SommarioIntroduzione

Il Problema e le motivazioni

Analisi contestuale site-dependent

Analisi contestuale di testi destrutturati e template di pagine web

Scalabilità dell’algoritmo

Risultati sperimentali

Conclusioni e Sviluppi futuri

Marco Cherubini - 24 Febbraio 2011

Page 3: Analisi contestuale di testi destrutturati e template di pagine web

Introduzione Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse

Presenza di queste informazioni o in testi organizzati secondo una  struttura ben definita o in testi liberi

Forte presenza della ridondanza di queste informazioni

Marco Cherubini - 24 Febbraio 2011

Page 4: Analisi contestuale di testi destrutturati e template di pagine web

Il problema e le motivazioni

Analizzare e catalogare queste informazioni per i differenti domini di interesse

Raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita

Marco Cherubini - 24 Febbraio 2011

Page 5: Analisi contestuale di testi destrutturati e template di pagine web

Input – Template pagine web

Marco Cherubini - 24 Febbraio 2011

Page 6: Analisi contestuale di testi destrutturati e template di pagine web

Input – Testi destrutturati

Marco Cherubini - 24 Febbraio 2011

Page 7: Analisi contestuale di testi destrutturati e template di pagine web

Output – Risultato ottenuto

 Raccolta dei dati sui domini di interesse partendo dai template delle pagine web

 Numero sempre maggiore di dati dei domini di interesse interrogando successivamente i testi destrutturati

Marco Cherubini - 24 Febbraio 2011

Page 8: Analisi contestuale di testi destrutturati e template di pagine web

Analisi contestuale site-dependent

Strumenti dell’Apache UIMA Framework utilizzati:

 Dictionary Annotator Julie Lab Lingpipe Gazetter Open Calais 

Input OutputUIMA

Senza utilizzare UIMA: Text Analyzer

Marco Cherubini - 24 Febbraio 2011

Page 9: Analisi contestuale di testi destrutturati e template di pagine web

Analisi contestuale dei testi destrutturati e template pagine web

Input – Template di pagine web

Analisi dei template di pagine web

Input  - Testi destrutturati

Output Finale – Collezione dei termini di dominio

Analisi dei testi destrutturati

System

Marco Cherubini - 24 Febbraio 2011

Page 10: Analisi contestuale di testi destrutturati e template di pagine web

Definizione template di pagine web

Esempio di 

Invariante

Esempio di 

InvarianteMarco Cherubini - 24 Febbraio 2011

Page 11: Analisi contestuale di testi destrutturati e template di pagine web

Analisi contestuale di template di pagine web1. Calcolo Percorsi XPATH assoluti

1. Matrice delle Occorrenze

1. Euristica posizionale

1.  Ridondanza invarianti

1.  Ridondanza termini valore degli invarianti

Marco Cherubini - 24 Febbraio 2011

Page 12: Analisi contestuale di testi destrutturati e template di pagine web

Analisi contestuale di testi destrutturati

1.  Stemming Annotator

1.  Text Runner

1.  KnowItAll

1.  Calcolo del Pointwise mutual Information (PMI)

1.  Ridondanza nei testi destrutturatiMarco Cherubini - 24 Febbraio 2011

Page 13: Analisi contestuale di testi destrutturati e template di pagine web

Scalabilità dell’algoritmo

 Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azioni finanzarie in quanto gli invarianti non sono sempre in posizione iniziale.

Ridondanza degli invarianti: si applica la ridondanza anche ai template provenienti dallo stesso sito di appartenenza. 

Ridondanza dei valori degli invarianti: aggiunta del dizionario Wordnet. 

Marco Cherubini - 24 Febbraio 2011

Page 14: Analisi contestuale di testi destrutturati e template di pagine web

Risultati sperimentali Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scala di circa 1000-1500 di testi destrutturati e di circa 100-150 di template di pagine web

Marco Cherubini - 24 Febbraio 2011

Page 15: Analisi contestuale di testi destrutturati e template di pagine web

ConclusioniNecessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento assai funzionale per l’analisi dei testi e ne rende molto più agevoli lo studio.

Tramite l’analisi dei template delle pagine web risoluzione dell’automatizzazione della creazione dei dizionari utilizzati da UIMA.

Tramite l’analisi dei testi destrutturati raccolta di un numero sempre maggiore di risultati attendibili e non ricavabili dall’analisi dei template Marco Cherubini - 24 Febbraio 2011

Page 16: Analisi contestuale di testi destrutturati e template di pagine web

Sviluppi futuri

Vedere la risposta degli algoritmi ad altri differenti domini

Parallelizzare dove possibile gli algoritmi per rendere veloce l’esecuzione in presenza di un grande numero di input

Dare una misura oggettiva alla Recall nel caso dell’Analisi dei testi destrutturati

Marco Cherubini - 24 Febbraio 2011

Page 17: Analisi contestuale di testi destrutturati e template di pagine web

Grazieper

l’attenzione