Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione...
-
Upload
aroldo-melis -
Category
Documents
-
view
215 -
download
0
Transcript of Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione...
Cercare informazioni sul Web
5-2
Organizzazione dell’informazione tramite gerarchie
• Classificazione gerarchica
• L’informazione è raggruppata in un piccolo numero di categorie, ognuna descritta semplicemente (classificazione di primo livello)
• L’informazione in ogni categoria è suddivisa in sotto-categorie (classificazione di secondo livello), e così via
• Alla fine le classificazioni saranno così piccole che sarà possibile scorrere un’intera categoria per trovare l’informazione desiderata
5-3
5-4
Caratteristiche importanti delle classificazioni
• Le descrizioni devono coprire tutte le informazioni categorizzate e facilitare eventuali ricerche.
• Le sotto-categorie non devono usare tutte la stessa classificazione.
• L’informazione contenuta in una categoria definisce il modo migliore di classificarla.
• Non c’è un modo univoco di classificare l’informazione.
5-5
Progettare una gerarchia
• Regole generali per la progettazione delle gerarchie e terminologia
– la radice è posta in alto
• "salire” lungo la gerarchia significa che la classificazione diventa più inclusiva (insiemi vasti di elementi più generici)
• "scendere” lungo la gerarchia che la classificazione diventa più specifica
• il simbolo di maggiore (>) è usato comunemente per indicare la navigazione verso il basso lungo la gerarchia
5-6
Livelli in una gerarchia
• Una gerarchia a un livello non ha sotto-directory
• Per contare i livelli, occorre ricordare che:– c’è sempre una radice
– ci sono sempre “foglie” - le categorie stesse
– la radice e le foglie non contano come livelli
• I gruppi si possono sovrapporre (un elemento può apparire in più categorie) o essere partizionati (ogni categoria appare solo una volta)
• Il numero dei livelli può variare a seconda delle categorie
5-7
5-8
5-9
5-10
Ottenere informazioni con una ricerca sul Web
• Come funziona un motore di ricerca
– È costituito da due parti principali:
1. Crawler: visita i siti Internet, seguendo i collegamenti e costruendo un indice del contenuto del Web
2. Query processor: cerca nell’indice le occorrenze delle parole chiave inserite dall’utente e restituisce le pagine web che le contengono
• I motori di ricerca più famosi sono: Google, Yahoo!, Alta Vista, Excite e InfoSeek
5-11
5-12
I crawler
• Quando un crawler visita un sito web:
– Per prima cosa identifica tutti i link che puntano ad altre pagine
– Controlla di non aver visitato recentemente queste pagine
– Se non è così, le aggiunge a una lista di pagine da processare
– Memorizza in un indice tutte le parole chiave utilizzate nella pagina
5-13
Elaboratori di interrogazioni
• Riceve alcune parole chiave dall’utente e le cerca nell’indice
• Anche se la pagina non è stata ancora esaminata dal crawler, potrebbe comunque essere presente perché collegata con un link a una pagina già considerata
5-14
Page ranking
• Un’idea di Google: PageRank
– Ordina i link secondo la rilevanza
– La rilevanza è calcolata in base al numero di collegamenti che puntano alla pagina (più link puntano alla pagina, più essa è importante)
• ogni collegamento a una pagina è considerato un "voto" per quella pagina
• Google considera anche il ranking della pagina che sta “votando”
5-15
Formulare la domanda giusta
• Scegliere le parole giuste e sapere come il motore di ricerca le userà
• Parole o frasi?– i motori di ricerca generalmente
considerano ogni parola separatamente
– per cercare una frase esattamente com’è scritta possiamo racchiuderla tra virgolette
5-16
Operatori logici
• AND, OR, NOT– AND: dice al motore di ricerca di restituire solo le pagine
che contengono entrambe le parole
tailandese AND ristorante
– OR: dice al motore di ricerca di trovare le pagine che contengono una parola o l’altra, e ovviamente anche quelle che le contengono entrambe
– NOT: esclude le pagine che contengono una data parola
• NOT è un operatore prefisso; va messo prima della parola da escludere
5-17
5-18
Cinque consigli per una ricerca efficace• Definite chiaramente quale tipo di pagina state
cercando (un’organizzazione, un’azienda, una pagina di riferimento ecc.)
• Cercate di immaginare quale tipo di organizzazione potrebbe pubblicare la pagina che desiderate.• Potreste essere in grado di indovinare l’URL
• Elencate i termini che hanno la maggiore probabilità di comparire nella pagina che state cercando.
• Valutate i risultati• Prima di esaminare le pagine, valutate l’efficacia della
ricerca
• Considerate una strategia in due passate.• Fate una ricerca ad ampio raggio e poi selezionate i risultati
5-19
Quanto è affidabile il Web?
• Chiunque può pubblicare sul Web ciò che vuole
• Molta dell’informazione disponibile è falsa, fuorviante, ingannevole, faziosa, diffamatoria o disgustosa
• Come facciamo a sapere se le pagine che troviamo sono affidabili?
5-20
Non date nulla per scontato
• I nomi dei domini registrati possono essere ingannevoli o intenzionalmente truffaldini
• Occorre verificare l’identità della persona o dell’organizzazione che pubblica la pagina web
5-21
Caratteristiche dei siti affidabili
• I siti web risultano più credibili se hanno queste caratteristiche:– Esistenza reale nel mondo fisico. Il sito fornisce un indirizzo,
numero di telefono e indirizzo di posta elettronica.– Certificazione. Il sito include riferimenti, citazioni o
credenziali, nonché collegamenti a siti altrettanto certificati.– Chiarezza. Il sito è ben organizzato, facile da navigare e
fornisce servizi come una ricerca interna.– Aggiornamento. Il sito è stato aggiornato di recente.– Professionalità. La grammatica, l’ortografia, la punteggiatura
e l’aspetto grafico sono corretti; tutti i link funzionano.
• Tenete presente che un sito potrebbe esibire tutte queste qualità ed essere tuttavia non autorizzato