Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani...

Post on 01-May-2015

217 views 0 download

Transcript of Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani...

Teoria e tecniche della catalogazione e classificazione

ricerca9web

Prof.ssa Elisa GrignaniUniversità degli studi di Parma

aa. 2005/2006

2

Abbiamo visto:

• Processo di recupero dell’informazione• Rilevanza / Richiamo / Precisione• Sistemi di recupero dell’informazione

3

Richiamo / Precisione

Livelli di richiamo / precisione determinati dalle politiche di indicizzazione:

• Esaustività:– indicizzazione approfondita – sommarizzazione

• Specificità:– genere / specie

4

Struttura di un sistema IRSearchLine Interest profiles

& QueriesDocuments

& data

Rules of the game =Rules for subject indexing +

Thesaurus (which consists of

Lead-InVocabulary

andIndexing

Language

StorageLine

Potentially Relevant

Documents

Comparison/Matching

Store1: Profiles/Search requests

Store2: Documentrepresentations

Indexing (Descriptive and

Subject)

Formulating query in terms of

descriptors

Storage of profiles

Storage of Documents

Information Storage and Retrieval System

Adapted from Soergel, p. 19

5

Sistemi IR: struttura (da Cooper - Maron, 1985)

• l’insieme delle possibili chiavi di accesso assegnate ai documenti;

• l’insieme delle domande formulabili dagli utenti;

• l’insieme degli indicatori di valore informativo da assegnare ai documenti;

• una regola di recupero.

6

Sistemi IR - Modelli E -: vettoriale, “statistical weighting”, probabilistico ...

• chiavi di accesso: COME NEI MODELLI B, C, D

• domande: COME NEI MODELLI D, E; E’ POSSIBILE “FILTRARE” LE DOMANDE

• indicatori di valore informativo: GLI INDICATORI DI VALORE INFORMATIVO SONO TUTTI I NUMERI REALI (il documento può avere maggiore o minore valore informativo in funzione di una domanda)

• regola di recupero:AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi

7

OGGI: search the Web

• World Wide Web: una ragnatela vasta come il mondo

• “Il sistema più avanzato per organizzare le informazioni presenti in Internet” (Berners-Lee, 1992)

• “Il WWW è una convergenza di risorse computerizzate per collegare informazioni disperse attraverso Internet in modo da renderle facilmente accessibili” (December, 1994)

8

WWW: navigazione e recupero dell’informazione

• motori e metamotori di ricerca

• directories

andare alla pagina:

http://www.lib.berkeley.edu/Help/search.html

9

Directories vs. Search EnginesAn IMPORTANT Distinction

• Directories– Hand-selected sites

– Search over the contents of the descriptions of the pages

– Organized in advance into categories

• Search Engines– All pages in all sites

– Search over the contents of the pages themselves

– Organized after the query by relevance rankings or other scores

11

Molti altri repertori Web