15a reperimento informazione - Università degli studi di ...dinunzio/fdi-2014-2015/15a... ·...

13
FdI 2013/2014 GMDN 2014 1 Reperimento dell'informazione Strumenti per il reperimento Indicizzazione e recupero Modelli di reperimento Motori di ricerca FdI 2013/2014 GMDN 2014 2 Reperimento dell'informazione

Transcript of 15a reperimento informazione - Università degli studi di ...dinunzio/fdi-2014-2015/15a... ·...

  • FdI 2013/2014 GMDN 2014 1

    Reperimento dell'informazione

    ● Strumenti per il reperimento● Indicizzazione e recupero● Modelli di reperimento● Motori di ricerca

    FdI 2013/2014 GMDN 2014 2

    Reperimento dell'informazione

  • FdI 2013/2014 GMDN 2014 3

    Reperimento dell'informazione

    ● Il termine reperimento dell’informazione identifica tutte quelle attività utilizzate per scegliere, da una data collezione di documenti, quei documenti che risultano di interesse in relazione ad una specifica esigenza informativa.

    ● L'esigenza informativa (la richiesta, l'interrogazione, la domanda) viene detta “query”.

    FdI 2013/2014 GMDN 2014 4

    Disponibilità delle informazioni

    ● Problema della disponibilità di informazioni, ad esempio su di un supporto informatico.

    ● Gli utenti dovrebbero poter sapere– Quali informazioni sono disponibili, ovvero se le

    informazioni a loro necessarie sono presenti.– Come raggiungere le informazioni disponibili.

    ● La catalogazione descrive, in maniera sintetica e di rapido accesso, il contenuto informativo dei documenti presenti in una collezione.

  • FdI 2013/2014 GMDN 2014 5

    Disponibilità delle informazioni● Il problema di come reperire le informazioni aumenta

    con la mole dei dati messi a disposizione– Ad esempio, nelle biblioteche esiste un indice

    catalografico ed un ordinamento per argomento, autore, ...– La catalogazione viene di solito svolta manualmente ed è

    quindi molto lunga e passibile di errori.

    ● L’informatica consente di automatizzare l’organizzazione dei dati e il loro reperimento.

    FdI 2013/2014 GMDN 2014 6

    Indicizzazione delle informazioni● E’ possibile automatizzare l’estrazione del contenuto

    informativo, operazione che viene definita indicizzazione– creare un modello che consenta di estrarre le informazioni rilevanti in

    modo automatico.● Nei documenti testuali l’informazione è contenuta nella

    semantica delle parole che compongono i documenti.● E’ più difficile definire il contenuto semantico di documenti in

    formati non testuali, ad esempio musica o immagini.● Una volta indicizzati i documenti, è possibile effettuare delle

    ricerche nei soli indici dei documenti.– La ricerca negli indici richiede meno operazioni (è quindi più efficiente)

  • FdI 2013/2014 GMDN 2014 7

    Utenti e reperimento● L’utente ha un ruolo cruciale nella ricerca di informazioni con mezzi

    informatici.● La ricerca viene svolta più efficacemente se l’utente:

    – Sa cosa sta cercando e può indicare chiaramente la propria esigenza informativa.– Conosce il funzionamento del sistema e la sintassi del linguaggio per poterlo

    interrogare.– Sa valutare le risposte del sistema e, in base a queste, formulare una nuova

    richiesta più precisa.● La ricerca di informazioni è un processo iterativo e interattivo

    – Una sola ricerca non è di norma sufficiente ad ottenere le informazioni desiderate.– L’utente deve interagire con il sistema, valutandone le risposte, e iterare la propria

    richiesta variandone il contenuto.

    FdI 2013/2014 GMDN 2014 8

    Tipologie di utenti● Gli utenti di un sistema di recupero di informazioni hanno

    tipologie molto diverse. Ai due estremi troviamo:– utente esperto: è in grado di definire esaustivamente le proprie

    esigenze informative, utilizza dei linguaggi avanzati nelle interrogazioni;

    – utente casuale: non conosce esattamente cosa sta cercando, formula le interrogazioni in maniera generica affidandosi alle potenzialità del sistema di recupero.

    ● I sistemi di information retrieval (IRS), nati per utenti esperti, devono sempre più orientarsi verso utenti casuali.

  • FdI 2013/2014 GMDN 2014 9

    Reperimento dell'informazione● Finalità:

    – selezione dei documenti che sono verosimilmente rilevanti per le esigenze informative dell’utente

    ● Tipologie:– interrogazione in forma testuale,– navigazione ipertersti (spesso combinate).

    ● Modalità:– sotto forma di ciclo presentazione/valutazione iterabile fino al soddisfacimento delle

    esigenze dell’utente.● L’utente gioca un ruolo determinante, l’efficacia del recupero dipende da:

    – quanto l’utente sa cosa sta cercando,– come l’utente esprime le sue esigenze informative,– la capacità dell’utente di valutare la pertinenza dei documenti ritrovati e di riformulare le

    interrogazioni.

    FdI 2013/2014 GMDN 2014 10

    Fasi del reperimento

  • FdI 2013/2014 GMDN 2014 11

    Fasi del reperimento

    FdI 2013/2014 GMDN 2014 12

    Fasi reperimento

  • FdI 2013/2014 GMDN 2014 13

    Reperimento delle informazioni sul Web

    ● Il Web non è gestito in maniera unitaria e coerente– Chiunque può creare una pagina o un sito Web, nel quale può mettere qualsiasi

    genere di informazione.– Non è possibile effettuare controlli sul contenuto della gran parte dei siti e quindi sulla

    loro attendibilità.● Ogni giorno vengono creati centinaia di nuovi siti, e altrettanti siti

    scompaiono– E’ impossibile per un utente tener traccia di questa continua evoluzione senza l’ausilio

    di strumenti informatici● Il numero di pagine Web supera le centinaia di miliardi (impossibile stabilire

    un numero preciso)– Potenzialmente il Web contiene ogni tipo di informazione, basta che qualcuno abbia

    deciso di aggiungerla nel proprio sito.– Il problema principale è scoprire dove si trova l’informazione.

    FdI 2013/2014 GMDN 2014 14

    Motori di ricerca● La rapida espansione del Web ha reso necessaria la

    scrittura di programmi che aiutino l’utente a reperire l’informazione.

    ● Un motore di ricerca è un sistema di programmi per il reperimento di informazione.

    ● Un motore di ricerca del Web, in inglese “search engine”, è un sistema in grado di– localizzare,– indicizzare e– reperire le pagine Web

  • FdI 2013/2014 GMDN 2014 15

    Motori di ricerca● Un motore di ricerca, d’ora in poi SE (Search Engine), opera in tre

    fasi distinte– Localizzazione delle pagine Web (semiautomatica)

    ● Il Web si modifica continuamente e vengono continuamente create nuove pagine, il SE deve trovarle

    – Indicizzazione delle pagine localizzate (automatica)● Il SE estrae per ogni pagina le informazioni e le organizza in modo da riaccedervi

    rapidamente– Reperimento (interattivo)

    ● Quando un utente formula una richiesta al SE, questo reperisce le pagine Web che ritiene più rilevanti per le esigenze informative espresse dall’utente

    ● Il risultato della fase di reperimento è una nuova pagina Web, o una lista di pagine, contenenti i link ai documenti rilevanti

    FdI 2013/2014 GMDN 2014 16

    Localizzazione delle pagine Web● La componente dei SE demandata alla localizzazione delle

    pagine Web è denominata Web Search Agent (WSA)– I WSA sono anche denominati alternativamente: spider, robot, crawler, …

    ● Il WSA localizza le pagine Web, e in generale i documenti in formati diversi dall’HTML, lavorando ricorsivamente– Parte da una lista di URL noti, forniti dai gestori del SE– Analizza i documenti per vedere se questi contengono link a nuovi URL

    al di fuori della lista– Aggiorna la propria lista di URL e visita i documenti agli URL aggiunti al

    fine di trovare ancora nuovi link– Ad ogni iterazione aggiunge nuovi URL e visita i documenti associati per

    identificare ancora nuovi URL

  • FdI 2013/2014 GMDN 2014 17

    Localizzazione pagine Web

    FdI 2013/2014 GMDN 2014 18

    Localizzazione pagine Web

  • FdI 2013/2014 GMDN 2014 19

    Localizzazione

    FdI 2013/2014 GMDN 2014 20

    Localizzazione

  • FdI 2013/2014 GMDN 2014 21

    Indicizzazione automatica dei documenti testuali

    ● Analisi lessicale o selezione delle parole;

    ● Rimozione delle parole molto comuni, dette stop word, tramite una lista di parole comuni, detta stop list;

    ● Estrazione delle radici, detto stemming;

    ● Creazione dell’indice;● Eventuale pesatura dei

    termini indice.

    FdI 2013/2014 GMDN 2014 22

    Analisi lessicale

    ● 3 documenti– D1: “shipment of gold damaged in a fire”– D2: “delivery of silver arrived in a silver truck”– D3: “shipment of gold is arriving in trucks”

    ● Separare le parole– D1: “shipment” “of” “gold” “damaged” “in” “a” “fire”– D2: “delivery” “of” “silver” “arrived” “in” “a” “silver” “truck”– D3: “shipment” “of” “gold” “is” “arriving” “in” “trucks”

  • FdI 2013/2014 GMDN 2014 23

    Rimozione stop word

    ● Eliminare parole comuni (“of”, “in”, “a”, ...)– D1: “shipment” “gold” “damaged” “fire”– D2: “delivery” “silver” “arrived” “silver” “truck”– D3: “shipment” “gold” “arriving” “trucks”

    ● I SE moderni non eliminano più queste parole.– La potenza di calcolo odierna ha risolto questo

    problema.

    FdI 2013/2014 GMDN 2014 24

    Estrazione delle radici

    ● Estrazione radici (stemming):– D1: “shipment” “gold” “damag” “fir”– D2: “deliveri” “silver” “arriv” “silver” “truck”– D3: “shipment” “gold” “arriv” “truck”

    ● I SE moderni limitano questo passaggio.

  • FdI 2013/2014 GMDN 2014 25

    Creazione indice e pesatura

    FdI 2013/2014 GMDN 2014 26

    Modelli di recupero● L’obiettivo è recuperare i documenti che sono

    verosimilmente rilevanti all’interrogazione.● Vi sono vari modelli di recupero, che possono essere

    suddivisi in due grandi famiglie:– exact match: vengono individuati in modo esatto i documenti

    che soddisfano l'interrogazione e quelli che non la soddisfano.– best match: viene effettuata una stima della rilevanza di un

    documento ad una data interrogazione. I documenti vengono ordinati per una misura di similarità con l'interrogazione e sono proposti quelli sopra una prefissata soglia.