Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

11
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

Transcript of Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Page 1: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Introduzione

Estrazione di Informazioni dal Web

Prof. Paola Velardi

Page 2: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Argomento del corso• Metodi per estrarre informazioni di interesse da archivi

documentali– Come viene espresso l’interesse: mediante una richiesta (query) la cui

complessità varia:• Parole-chiave (web information retrieval)• Un testo in LN (qual’ è la città più grande della Florida?)• Una richiesta vocale..• Un’immagine o documento (query by example)

– Dove si cerca : memorizzati su un computer, o distribuiti su una rete locale, o nell’intero web.

– Cosa si cerca: Documenti: txt, pdf, html, video, immagini, musica..– Cosa si estrae: i documenti (probabilmente) di interesse, una risposta

in LN, una lista di fatti rilevanti

Page 3: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Information Retrieval

Page 4: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Query by example

Query

risposte

Page 5: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Question Answering

Page 6: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Information Extraction foodscience.com-Job2

JobTitle: Ice Cream Guru

Employer: foodscience.com

JobCategory: Travel/Hospitality

JobFunction: Food Services

JobLocation: Upper Midwest

ContactPhone: 800-488-2611

DateExtracted: January 8, 2001

Source: www.foodscience.com/jobs_midwest.html

OtherCompanyJobs: foodscience.com-Job1

Page 7: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Criteri di classificazione dei sistemi di estrazione di

informazioniIn base a:

• Query: keyword, frase, categoria di interesse, domanda..

• Spazio di ricerca: un archivio, un insieme di archivi distribuiti, il web

• Oggetto della ricerca: testi, immagini, multimedia..• Risposta: una lista di documenti, una risposta in

linguaggio naturale, un database di “fatti” rilevanti

Page 8: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Syllabus del corso• Information Retrieval (IR)

– Ricerca: archivio locale– Query: lista di keywords– Oggetto: testi– Risposta: elenco ordinato di testi

• Web Information retrieval– Ricerca: web– Come IR

• Information Extraction– Ricerca: web o archivio locale– Query: fatti di interesse (es.

“offerte di lavoro in informatica”)– Oggetto: testi o media– Risposta: un database

• Question Answering– Ricerca: web o archivio locale– Query: domanda in linguaggio

naturale– Oggetto:testi– Risposta: risposta in LN

• Multimedia Retrieval– Ricerca: web o archivio locale– Query: voce, immagine, suono..– Oggetto: filmati, immagini,

musica, registrazioni vocali– Risposta: elenco ordinato di

oggetti multimediali

Page 9: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Prerequisiti

• Strutture dati, algoritmi• Algebra (vettori, matrici)• Probabilità • ..se avete seguito Apprendimento

Automatico è un po’ meglio.. Ma non essenziale

Page 10: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Materiale• http://twiki.di.uniroma1.it/twiki/view/Estrinfo

/WebHome– Lucidi– Articoli e approfondimenti– Siti di interesse

• Modern Information Retrieval www.amazon.com/Modern-Information-Retrieval-Ricardo-Baeza-Yates/dp/020139829X

• Un libro on-line: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

Page 11: Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

ESAME• Un esercizio su Lucene (open-source text search engine

in Java) a metà corso • Un progetto a fine corso (quest’anno si utilizzerà la

piattaforma open-source di IE “GATE”), applicazioni (opzioni):– Analizzare opinioni su social networks– Estrarre informazioni da databases con trame di film

• Una prova scritta a fine corso• Chi non fa l’esame a fine corso deve fare un orale su

appuntamento (ma progetto e prova Lucene sono obbligatori)