1 Motori di Ricerca Se non sai, sappi dove (e come) cercare!
-
Upload
assunta-grassi -
Category
Documents
-
view
217 -
download
0
Transcript of 1 Motori di Ricerca Se non sai, sappi dove (e come) cercare!
1
Motori di Ricerca
Se non sai, sappi dove (e come) cercare!
2
Motori ! V1.1 05/2003
Il web oggi dimensioni, lingue etc. Glossario di ricerca Motori, metamotori, integratori Come funzionano, Come si utilizzano Directory Newsgroups
3
2002: 6 miliardi di pagine presenti
Dimensioni del Web
2004: 100 miliardi di pagine
•Oltre 8 milioni di siti (ott. 2001) , 73% in inglese, 7% in tedesco …
cip:
Enorme!
cip:
Enorme!
4
IL WEB!cip:
Web: in Italiano “ragnatel”
cip:
Web: in Italiano “ragnatel”
5
Il Web oggi (2002): alcune informazioni Degli 8.4 milioni di siti, 3.1 milioni
sono classificati come siti pubblici (i.e. siti il cui contenuto è liberamente accessibile al pubblico), 2.1 come privati (accesso ristretto) e 3.2 provvisori o in uno stato transitorio (non terminati)
10% di link “morti” (dead links)
6
Web: Info Lingue: Inglese 73%, tedesco
7%, giapponese 5%, francese e spagnolo 3% (e l’Italiano?)
Il 47% dei siti pubblici sono negli USA
7
Quanto è grande Internet?
“Surface” web (SW, circa 2,5 Miliardi di documenti)
“Deep” web (DW) circa 500 volte più grande
SW cresce di circa 7 milioni di pagine al giorno
Media di 20KB per pagina
cip:
dati 2001
cip:
dati 2001
8
Quanto è grande Internet?
DW= SW più DB (Data Bases), pagine dinamiche, Intranets …
I due DB più grossi accessibili sono il “National climatic data center” www.ncdc.nooa.com e la NASA (circa 585 Terabytes di Informazione
9
Tipi di documenti nel web Pagine Html PDF (adobe Acrobat) DOC (Microsoft Word) PS (Adobe Postscript) PPT (Microsoft Powerpoint) XLS (Microsoft Excel) RTF (Rich Text Format)
10
Utenti e lingue Internet
Solo circa il 50% degli utenti Internet è di madrelingua Inglese
Il 78% dei siti e il 96% dei siti di e-commerce è in Inglese
Traduttori…. E-mail: circa 2000 miliardi di
messaggi all’anno (spam)
cip:
e il “cinese”?
cip:
e il “cinese”?
11
Glossario (1)
•Ricerca Booleana Una ricerca che permette la inclusione o la esclusione di documenti che contengono certe parole tranite l’uso di operatori come AND, NOT e OR.
•Ricerca Concettuale La ricerca di documenti che sono in relazione con una parola, piuttosto che di quelli che la contengono specificamente.
•Indice “Full-text”: un indice che contiene ogni parola di ogni documento, incluse le “stop words”
•Fuzzy search: Una ricerca che trova risultati anche quando le parole sono scritte parzialmente o male.
12
Glossario (2)
•Indice: Il catalogo dei documenti creato dal motore di ricerca (chiamato anche catalogo)
•Ricerca per parole chiave (Keyword search): una ricerca di documenti che contengono una o più parole specificate dall’utente.
•Ricerca di una Frase: Ricerca di documenti che contengono una frase (sentence) esatta.
•Precisione: Quanti dei documenti segnalati effettivamente rispondono alla richiesta fatta. Per esempio, se un motore lista 80 documenti ma solo 20 di essi contengono le parole cercate, la sua precisione è del 25%
13
Glossario (3)
•Ricerca di Prossimità: Una ricerca in cui le parole cercate devono essere vicine fra di loro.
•Query-By-Example: Ricerca in cui si richiedono ulteriori documenti simili ad un particolare documento "find similar."
•Rilevanza: Quanto un documento fornisce l’informazione cercata.
14
Glossario (4)
•Motore di ricerca: Il software che cerca in un indice e fornisce i risultati.Spesso viene usato come sinonimo di Spider e Crawler anche se si tratta di componenti separati.
•Spider: Il software che esplora pagine web e le aggiunge ad un indice seguendo i collegamenti (Iperlink). Anche “Crawler”
•Stemming: La capacità in una ricerca di includere la radice delle parole ad es nuotatore… nuoto
15
Glossario: (5)
•Stop words: congiunzioni, preposizioni articoli e altre parole come “e, a, un, il” che appaiono frequentemente nei documenti ma significano poco.
•Thesaurus: Una lista di sinonimi che un motore può utilizzare quando cerca particolari parole anche se i termini cercati non appaiono nei documenti.
16
Motori di ricerca: come operano
Programmi robot (crawler, Spider o indicizzatori) che aggiornano automaticamente gli indici del motore di ricerca
Le informazioni non vengono “filtrate”
Aggiornamenti costanti e precisi Raccolgono le informazioni su
tutte le pagine web dei siti e non solo sulla Home Page
Enormi DataBase
17
Motori di ricerca: categorie
Motori (Altavista, Google, Hotbot, Ask Jeeves, etc etc.)
Metamotori (Metacrawler…) “Integratori” (Copernic o altri)
18
Motori, metamotori etc
Funzionano in maniera diversa Sia come indicizzazione che come
utilizzo Informazioni su...
www.Searchenginewatch.com www.motoridiricerca.it
Motori che usano linguaggio naturale (ask jeeves) www.ask.com
19
Differenti caratteristiche dei motori
•Da http://www.searchenginewatch.com/facts/ataglance.html
•Caratteristiche comuni (esempi)
•Includi “+” Escludi “-” Frase “xxxx”
•Caratteristiche Non comuni
•Nesting: pizza AND (pomodoro OR acciughe)
•Minuscole maiuscole
•“near” pizza near pomodoro
•*paolo --->(pierpaolo gianpaolo etc.)
20
Motori: alcune specificità Esempi: Il qualificatore “Near” è gestito
da Altavista (10 parole), Lycos (25 parole) e basta…
Paol* non gestito da Google http://www.motoridiricerca.it/
tabella.htm
cip:
?
cip:
?
21
Rilevanza: Come viene dato peso alle pagine web
• Come fanno i motori a stabilire la rilevanza dei risultati?
• Usano algoritmi proprietari (e segreti) con le seguenti regole generali
• Posizione delle parole e Frequenza
• Esempio del bibliotecario e “viaggi”, prima i libri con la parola viaggi(o) nel titolo. (tag <title>)
• Si cerca anche che la parola appaia nelle prime righe della pagina.
22
Frequenza
• La Frequenza è il secondo criterio per determinare la rilevanza.
• Motori diversi, diverso numero di pagine indicizzate, diversa frequenza di visita, diverso tempismo, dunque risultati diversi.
• I Meta tags, non sono letti da tutti i motori e sono comunque trattati in modo differente
• Penalizzazione dello spamming, lotta continua con i webmasters, incluse le lamentele degli utenti.
23
Come funziona, il peso dato alle pagine
• Fattori “fuori pagina” (Off The Page)
• Analisi dei link può determinare l’argomento e l’importanza (punteggio)
• Quante volte viene cliccato un certo risultato? Il Punteggio cambia (+ o -)
• Vedere il Search Engine Features Chart e il Search Engine Design Tips su www.searchenginewatch.com.
• http://www.searchenginesinfo.com/
24
I motori “di moda” Google Altavista Motori italiani
(Yahoo, america online ed altri usano google)
25
Usenet newsgroups
Oltre 35000 (100.000?) gruppi di discussione
Testo, no multimedia (*) Protocollo NNTP
Esistono da molti anni prima del “Web” e del browser
Utilissimi Soprattutto le “Faq” (frequently asked
questions) Storia dall’81 su Google
26
Usenet Newsgroups Accessibili tramite un Newsreader ( in
netscape, Outlook o altro) si specifica un newsserver (p. es. “News.tin.it”) e ci si “abbona” ai newsgroups a scelta.
Contengono discussioni su temi disparati. Usa il protocollo NNTP Accesso tramite web browser su google o
altavista www.faq.org http://www.google.it/grphp?hl=it
27
Newsgroups importanti News.answers Comp.answers
28
29
Er meio! furbo e potente Tre miliardi di documenti
indicizzati Due miliardi di pagine web, 300 milioni di immagini 700 milioni di usenet posts
Dati 2002
30
31
32
33
34
Google Copia cache Ricerca nei risultati Traduzione (Beta test) Maiuscole minuscole “And” automatico “Mi sento fortunato” Newsgroups
35
Google traduzioni
!!!!!
36
Google immagini!
37
Altri servizi Google Froogle Catalogs! News etc.
38
39
Cercando sul web
Portale: sito di accesso alla rete, con directory, news, servizi, giochi, chat, etc.
Directory: comprendono collezioni di siti organizzati per categorie omogenee
Motore di ricerca: mettono a disposizione un archivio di pagine web
40
Portale
41
Directory
Fornisce liste di siti suddivisi in categorie
correlate da una breve descrizione Categorie e descrizioni sono raccolte da
persone specializzate (web surfers)
secondo il proprio giudizio Gli aggiornamenti dipendono dai tempi
“umani”
42
Quale strumento usare?Web Directory Motore di ricerca
Usa una categoria per trovare siti con offerte di lavoro.
Usa il motore di ricerca per trovare un impiego particolare che vada bene per le tue capacità.
Usa una categoria per trovare siti che parlano di musica.
Usa il motore di ricerca per le ultime novità su un cd appena uscito.
Usa una categoria per trovare le agenzie di viaggio.
Usa il motore di ricerca se cerchi un itinerario particolare.
Usa una categoria per avere una lista dei siti dei maggiori quotidiani.
Usa il motore di ricerca per trovare una citazione da un articolo.
Usa una categoria per trovare il sito di un personaggio famoso.
Usa il motore di ricerca per trovare una persona di cui conosci solamente il nome.
Usa una categoria per trovare per trovare un sito di ricette.
Usa il motore di ricerca per trovare una particolare ricetta.
43
Le directories di AltaVista
44
Le directories di Google
45
Metamotori: Fanno lavorare gli altri Utili per uscire dal tran tran Per trovare più informazioni Ultima spiaggia?
46
Metacrawler
47
Integratori come Copernic Molto utile www.copernic.com Sottomette le richieste a vari
motori, aggiungendo del suo.. Ricerca per categorie Opera in locale sul tuo PC. Versione base gratuita
48
Copernic (“Integratore”)
49
Copernic, un gioiello! Copernic usa siti specifici, ritiene
che ci siano info più pertinenti/più aggiornate
Info che i normali motori non trovano!
Categorie: MP3s, notizie locali, enciclopedie, giochi, downloads, viaggi etc.
50
Copernic La versione base opera una
metaricerca che prende i risultati da molti altri motori AltaVista, Excite, Fast Search, Lycos, WebCrawler, MSN Web Search, Yahoo!, Hotbot, GoTo, FindWhat e l’ Open Directory Project. (….)
Validazione “dead links”, ricerche su categorie (enciclopedie, immagini, mp3, indirizzi di posta…)
51
Motori e pubblicità Normale pubblicità (banners) Come “Quattroruote” e la Fiat? Pagamenti per alzare il punteggio
delle pagine Trasparenti o no. Paid placement e Paid inclusion
52
Non dimentichiamo i siti specializzati: esempi GSMbox.it Html.it Pignascuola.it www.istruzione.it www.mit.edu Findarticles.com Elibrary.com
53
Morale:
•Motori diversi; tecniche diverse
•Scegline almeno un paio
•Studiateli BENE
•Usa i metamotori e gli “integratori”
•Cercate nei siti specializzati
•Ah, … l’inglese è importantissimo!!
54
Esercizi Su Altavista elenca le categorie di
documenti che si possono ricercare. Cerca la stessa cosa su Altavista e
su Google, valuta le differenze Prova metacrawler e paragonalo ad
AV e Google Trova immagini su google usando la
ricerca avanzata
55
Esercizi II
Trova altri metamotori oltre a metacrawler
Studia la ricerca avanzata su google e su Altavista, elenca le principali differenze
http://www.google.it/intl/it/help.html
56
Esercizi (Newsgroups) Attiva il newsreader di explorer, specifica
come News server “News.tin.it” Scegli un paio di newsgroups a piacere e
abbonati, leggi i posts. Cerca nei newsgroups italiani una fiat punto (o
altro veicolo) in vendita. Trova un newsgroup di prova italiano ed
inserisci un messaggio di prova Visita i Newsgroups News.answers e
comp.answers Cosa contengono?) Cerca la FAQ sui newsgroups Italiani e leggila
57
Esercizi III Ricerca sia su google che su altavista
foto di “gatto” e “cat” (per esempio), valutare le differenze numero di foto trovate, pertinenza etc.
Cerca un dizionario di inglese online (possibilmente parlante) su web
Prova l’opzione “pagine simili” di google Cerca siti web contenenti informazioni
sull’esame di maturità
58
Esercizi IV Inserisci gli opportuni metatags nelle
tue pagine web Cerca i metatags nei sorgenti di
pagine web note. Trova una pagina web molto pesante Prova cosa “aggiunge di suo” copernic Cerca a chi è intestato il dominio
www.itismeucci.it
59
Esercizi V Trova un filmato realmedia
“streamabile” sotto i 56Kbps e visualizzalo,
Trova informazioni sul funzionamento di “carnivore”, il sistema CIA di sorveglianza della posta elettronica.
60
Motori di Ricerca
Quando non sai, sappi dove (e come) cercare!
61
Fine
62
Altavista: Uso della funzionalità di ricerca avanzata
1. Digitare le parole chiave o le espressioni “booleana” nella casella ricerca
2. Specificare la modalità di visualizzazione nel menù “Ordina per”
3. Specificare l’intervallo di tempo che si vuole usare per la ricerca
4. Selezionare dal menù la lingua desiderata
5. Selezionare “siti italiani” o “su tutto il web”
6. Cliccare sul pulsante “Cerca”