15a reperimento informazione - Università degli studi di ...dinunzio/fdi-2014-2015/15a... ·...
Transcript of 15a reperimento informazione - Università degli studi di ...dinunzio/fdi-2014-2015/15a... ·...
-
FdI 2013/2014 GMDN 2014 1
Reperimento dell'informazione
● Strumenti per il reperimento● Indicizzazione e recupero● Modelli di reperimento● Motori di ricerca
FdI 2013/2014 GMDN 2014 2
Reperimento dell'informazione
-
FdI 2013/2014 GMDN 2014 3
Reperimento dell'informazione
● Il termine reperimento dell’informazione identifica tutte quelle attività utilizzate per scegliere, da una data collezione di documenti, quei documenti che risultano di interesse in relazione ad una specifica esigenza informativa.
● L'esigenza informativa (la richiesta, l'interrogazione, la domanda) viene detta “query”.
FdI 2013/2014 GMDN 2014 4
Disponibilità delle informazioni
● Problema della disponibilità di informazioni, ad esempio su di un supporto informatico.
● Gli utenti dovrebbero poter sapere– Quali informazioni sono disponibili, ovvero se le
informazioni a loro necessarie sono presenti.– Come raggiungere le informazioni disponibili.
● La catalogazione descrive, in maniera sintetica e di rapido accesso, il contenuto informativo dei documenti presenti in una collezione.
-
FdI 2013/2014 GMDN 2014 5
Disponibilità delle informazioni● Il problema di come reperire le informazioni aumenta
con la mole dei dati messi a disposizione– Ad esempio, nelle biblioteche esiste un indice
catalografico ed un ordinamento per argomento, autore, ...– La catalogazione viene di solito svolta manualmente ed è
quindi molto lunga e passibile di errori.
● L’informatica consente di automatizzare l’organizzazione dei dati e il loro reperimento.
FdI 2013/2014 GMDN 2014 6
Indicizzazione delle informazioni● E’ possibile automatizzare l’estrazione del contenuto
informativo, operazione che viene definita indicizzazione– creare un modello che consenta di estrarre le informazioni rilevanti in
modo automatico.● Nei documenti testuali l’informazione è contenuta nella
semantica delle parole che compongono i documenti.● E’ più difficile definire il contenuto semantico di documenti in
formati non testuali, ad esempio musica o immagini.● Una volta indicizzati i documenti, è possibile effettuare delle
ricerche nei soli indici dei documenti.– La ricerca negli indici richiede meno operazioni (è quindi più efficiente)
-
FdI 2013/2014 GMDN 2014 7
Utenti e reperimento● L’utente ha un ruolo cruciale nella ricerca di informazioni con mezzi
informatici.● La ricerca viene svolta più efficacemente se l’utente:
– Sa cosa sta cercando e può indicare chiaramente la propria esigenza informativa.– Conosce il funzionamento del sistema e la sintassi del linguaggio per poterlo
interrogare.– Sa valutare le risposte del sistema e, in base a queste, formulare una nuova
richiesta più precisa.● La ricerca di informazioni è un processo iterativo e interattivo
– Una sola ricerca non è di norma sufficiente ad ottenere le informazioni desiderate.– L’utente deve interagire con il sistema, valutandone le risposte, e iterare la propria
richiesta variandone il contenuto.
FdI 2013/2014 GMDN 2014 8
Tipologie di utenti● Gli utenti di un sistema di recupero di informazioni hanno
tipologie molto diverse. Ai due estremi troviamo:– utente esperto: è in grado di definire esaustivamente le proprie
esigenze informative, utilizza dei linguaggi avanzati nelle interrogazioni;
– utente casuale: non conosce esattamente cosa sta cercando, formula le interrogazioni in maniera generica affidandosi alle potenzialità del sistema di recupero.
● I sistemi di information retrieval (IRS), nati per utenti esperti, devono sempre più orientarsi verso utenti casuali.
-
FdI 2013/2014 GMDN 2014 9
Reperimento dell'informazione● Finalità:
– selezione dei documenti che sono verosimilmente rilevanti per le esigenze informative dell’utente
● Tipologie:– interrogazione in forma testuale,– navigazione ipertersti (spesso combinate).
● Modalità:– sotto forma di ciclo presentazione/valutazione iterabile fino al soddisfacimento delle
esigenze dell’utente.● L’utente gioca un ruolo determinante, l’efficacia del recupero dipende da:
– quanto l’utente sa cosa sta cercando,– come l’utente esprime le sue esigenze informative,– la capacità dell’utente di valutare la pertinenza dei documenti ritrovati e di riformulare le
interrogazioni.
FdI 2013/2014 GMDN 2014 10
Fasi del reperimento
-
FdI 2013/2014 GMDN 2014 11
Fasi del reperimento
FdI 2013/2014 GMDN 2014 12
Fasi reperimento
-
FdI 2013/2014 GMDN 2014 13
Reperimento delle informazioni sul Web
● Il Web non è gestito in maniera unitaria e coerente– Chiunque può creare una pagina o un sito Web, nel quale può mettere qualsiasi
genere di informazione.– Non è possibile effettuare controlli sul contenuto della gran parte dei siti e quindi sulla
loro attendibilità.● Ogni giorno vengono creati centinaia di nuovi siti, e altrettanti siti
scompaiono– E’ impossibile per un utente tener traccia di questa continua evoluzione senza l’ausilio
di strumenti informatici● Il numero di pagine Web supera le centinaia di miliardi (impossibile stabilire
un numero preciso)– Potenzialmente il Web contiene ogni tipo di informazione, basta che qualcuno abbia
deciso di aggiungerla nel proprio sito.– Il problema principale è scoprire dove si trova l’informazione.
FdI 2013/2014 GMDN 2014 14
Motori di ricerca● La rapida espansione del Web ha reso necessaria la
scrittura di programmi che aiutino l’utente a reperire l’informazione.
● Un motore di ricerca è un sistema di programmi per il reperimento di informazione.
● Un motore di ricerca del Web, in inglese “search engine”, è un sistema in grado di– localizzare,– indicizzare e– reperire le pagine Web
-
FdI 2013/2014 GMDN 2014 15
Motori di ricerca● Un motore di ricerca, d’ora in poi SE (Search Engine), opera in tre
fasi distinte– Localizzazione delle pagine Web (semiautomatica)
● Il Web si modifica continuamente e vengono continuamente create nuove pagine, il SE deve trovarle
– Indicizzazione delle pagine localizzate (automatica)● Il SE estrae per ogni pagina le informazioni e le organizza in modo da riaccedervi
rapidamente– Reperimento (interattivo)
● Quando un utente formula una richiesta al SE, questo reperisce le pagine Web che ritiene più rilevanti per le esigenze informative espresse dall’utente
● Il risultato della fase di reperimento è una nuova pagina Web, o una lista di pagine, contenenti i link ai documenti rilevanti
FdI 2013/2014 GMDN 2014 16
Localizzazione delle pagine Web● La componente dei SE demandata alla localizzazione delle
pagine Web è denominata Web Search Agent (WSA)– I WSA sono anche denominati alternativamente: spider, robot, crawler, …
● Il WSA localizza le pagine Web, e in generale i documenti in formati diversi dall’HTML, lavorando ricorsivamente– Parte da una lista di URL noti, forniti dai gestori del SE– Analizza i documenti per vedere se questi contengono link a nuovi URL
al di fuori della lista– Aggiorna la propria lista di URL e visita i documenti agli URL aggiunti al
fine di trovare ancora nuovi link– Ad ogni iterazione aggiunge nuovi URL e visita i documenti associati per
identificare ancora nuovi URL
-
FdI 2013/2014 GMDN 2014 17
Localizzazione pagine Web
FdI 2013/2014 GMDN 2014 18
Localizzazione pagine Web
-
FdI 2013/2014 GMDN 2014 19
Localizzazione
FdI 2013/2014 GMDN 2014 20
Localizzazione
-
FdI 2013/2014 GMDN 2014 21
Indicizzazione automatica dei documenti testuali
● Analisi lessicale o selezione delle parole;
● Rimozione delle parole molto comuni, dette stop word, tramite una lista di parole comuni, detta stop list;
● Estrazione delle radici, detto stemming;
● Creazione dell’indice;● Eventuale pesatura dei
termini indice.
FdI 2013/2014 GMDN 2014 22
Analisi lessicale
● 3 documenti– D1: “shipment of gold damaged in a fire”– D2: “delivery of silver arrived in a silver truck”– D3: “shipment of gold is arriving in trucks”
● Separare le parole– D1: “shipment” “of” “gold” “damaged” “in” “a” “fire”– D2: “delivery” “of” “silver” “arrived” “in” “a” “silver” “truck”– D3: “shipment” “of” “gold” “is” “arriving” “in” “trucks”
-
FdI 2013/2014 GMDN 2014 23
Rimozione stop word
● Eliminare parole comuni (“of”, “in”, “a”, ...)– D1: “shipment” “gold” “damaged” “fire”– D2: “delivery” “silver” “arrived” “silver” “truck”– D3: “shipment” “gold” “arriving” “trucks”
● I SE moderni non eliminano più queste parole.– La potenza di calcolo odierna ha risolto questo
problema.
FdI 2013/2014 GMDN 2014 24
Estrazione delle radici
● Estrazione radici (stemming):– D1: “shipment” “gold” “damag” “fir”– D2: “deliveri” “silver” “arriv” “silver” “truck”– D3: “shipment” “gold” “arriv” “truck”
● I SE moderni limitano questo passaggio.
-
FdI 2013/2014 GMDN 2014 25
Creazione indice e pesatura
FdI 2013/2014 GMDN 2014 26
Modelli di recupero● L’obiettivo è recuperare i documenti che sono
verosimilmente rilevanti all’interrogazione.● Vi sono vari modelli di recupero, che possono essere
suddivisi in due grandi famiglie:– exact match: vengono individuati in modo esatto i documenti
che soddisfano l'interrogazione e quelli che non la soddisfano.– best match: viene effettuata una stima della rilevanza di un
documento ad una data interrogazione. I documenti vengono ordinati per una misura di similarità con l'interrogazione e sono proposti quelli sopra una prefissata soglia.