Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Post on 01-May-2015

219 views 1 download

Transcript of Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Introduzione

Estrazione di Informazioni dal Web

Prof. Paola Velardi

Argomento del corso• Metodi per estrarre informazioni di interesse da archivi

documentali– Come viene espresso l’interesse: mediante una richiesta (query) la cui

complessità varia:• Parole-chiave (web information retrieval)• Un testo in LN (qual’ è la città più grande della Florida?)• Una richiesta vocale..• Un’immagine o documento (query by example)

– Dove si cerca : memorizzati su un computer, o distribuiti su una rete locale, o nell’intero web.

– Cosa si cerca: Documenti: txt, pdf, html, video, immagini, musica..– Cosa si estrae: i documenti (probabilmente) di interesse, una risposta

in LN, una lista di fatti rilevanti

Information Retrieval

Query by example

Query

risposte

Question Answering

Information Extraction foodscience.com-Job2

JobTitle: Ice Cream Guru

Employer: foodscience.com

JobCategory: Travel/Hospitality

JobFunction: Food Services

JobLocation: Upper Midwest

ContactPhone: 800-488-2611

DateExtracted: January 8, 2001

Source: www.foodscience.com/jobs_midwest.html

OtherCompanyJobs: foodscience.com-Job1

Criteri di classificazione dei sistemi di estrazione di

informazioniIn base a:

• Query: keyword, frase, categoria di interesse, domanda..

• Spazio di ricerca: un archivio, un insieme di archivi distribuiti, il web

• Oggetto della ricerca: testi, immagini, multimedia..• Risposta: una lista di documenti, una risposta in

linguaggio naturale, un database di “fatti” rilevanti

Syllabus del corso• Information Retrieval (IR)

– Ricerca: archivio locale– Query: lista di keywords– Oggetto: testi– Risposta: elenco ordinato di testi

• Web Information retrieval– Ricerca: web– Come IR

• Information Extraction– Ricerca: web o archivio locale– Query: fatti di interesse (es.

“offerte di lavoro in informatica”)– Oggetto: testi o media– Risposta: un database

• Question Answering– Ricerca: web o archivio locale– Query: domanda in linguaggio

naturale– Oggetto:testi– Risposta: risposta in LN

• Multimedia Retrieval– Ricerca: web o archivio locale– Query: voce, immagine, suono..– Oggetto: filmati, immagini,

musica, registrazioni vocali– Risposta: elenco ordinato di

oggetti multimediali

Prerequisiti

• Strutture dati, algoritmi• Algebra (vettori, matrici)• Probabilità • ..se avete seguito Apprendimento

Automatico è un po’ meglio.. Ma non essenziale

Materiale• http://twiki.di.uniroma1.it/twiki/view/Estrinfo

/WebHome– Lucidi– Articoli e approfondimenti– Siti di interesse

• Modern Information Retrieval www.amazon.com/Modern-Information-Retrieval-Ricardo-Baeza-Yates/dp/020139829X

• Un libro on-line: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

ESAME• Un esercizio su Lucene (open-source text search engine

in Java) a metà corso • Un progetto a fine corso (quest’anno si utilizzerà la

piattaforma open-source di IE “GATE”), applicazioni (opzioni):– Analizzare opinioni su social networks– Estrarre informazioni da databases con trame di film

• Una prova scritta a fine corso• Chi non fa l’esame a fine corso deve fare un orale su

appuntamento (ma progetto e prova Lucene sono obbligatori)