6. Ricercare nel Web

43
Edizione 2012-13 Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 6. Ricercare nel Web

description

Slides dalle lezioni del corso di "Strumenti e applicazioni del Web", Università di Milano Bicocca - Prof.R.Polillo - A.A.2012-13 Lezione del 21 marzo 2013 Vedi anche www.corsoweb.wordpress.com

Transcript of 6. Ricercare nel Web

Page 1: 6. Ricercare nel Web

Edizione 2012-13

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione

Corso di Strumenti e applicazioni del Web

6. Ricercare nel Web

Page 2: 6. Ricercare nel Web

Queste slides2

Queste slides fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in www.corsow.wordpress.com . Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno.

Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):

La licenza non si estende alle immagini provenienti da altre fonti e alle screen shots, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle.

R.Polillo - Marzo 2013

Page 3: 6. Ricercare nel Web

Una visualizzazione [di una parte] del web

La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/

R.Polillo - Marzo 2013

3

Page 4: 6. Ricercare nel Web

4

R.Polillo - Marzo 2013

Una visualizzazione [di una parte] del web

Page 5: 6. Ricercare nel Web

R.Polillo - Marzo 2013

5

Una visualizzazione [di una parte] del web

Page 6: 6. Ricercare nel Web

Come trovare l'informazione in rete

DirectoriesIndici strutturati di argomenti (gestiti da una redazione)

Motori di ricercaQuery Risultati

EsplorazioneBrowsing, serendipity

Motori semanticiwww.wolframalpha.com, …

Sistemi di Q&A socialeYahoo! Answer, …

R.Polillo - Marzo 2013

6

Page 7: 6. Ricercare nel Web

Web directories7

Storicamente, il primo strumento di ausilio alle ricerche nel Web

Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"

Directories “generaliste” e directories verticali o di nicchia http://en.wikipedia.org/wiki/Web_directory

R.Polillo - Marzo 2013

Page 8: 6. Ricercare nel Web

Tassonomia8

Emporio celeste dei riconoscimenti benevoli(Enciclopedia cinese, J.L.Borges, 1973)

Gli animali si dividono in:a) Appartenenti all’imperatoreb) Imbalsamatic) Ammaestratid) Lattonzolie) Sirenef) Favolosig) Cani randagih) Inclusi in questa classificazionei) Che si agitano come pazzij) Innumerevolik) Disegnati con un pennello finissimo di peli di

cammellol) Ecceteram) Che hanno ritto il vason) Che da lontano sembrano mosche.

R.Polillo - Marzo 2013

Raggruppamento di oggetti in classi, secondo qualche criterio

taxis=ordine nomos=regola

Ogni tassonomia è arbitraria, e dipende dagli obiettivi

Page 9: 6. Ricercare nel Web

Yahoo! (http://dir.yahoo.com)9

R.Polillo - Marzo 2013

- Nasce come “La guida al WWW di Jerry e David”, nel 1994

- Qui la home del 1996, da www.archive.org

http://en.wikipedia.org/wiki/Internet_Archive

Page 10: 6. Ricercare nel Web

The Open Directory Project (ODP)10

Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/ Directory gratuita, aperta e multilingua Posseduta da Netscape (dal 1998) e manutenuta da una comunità di

editor volontari http://en.wikipedia.org/wiki/Open_Directory_Project

R.Polillo - Marzo 2013

Page 11: 6. Ricercare nel Web

Domoz vs Yahoo!

R.Polillo - Marzo 2013

11

Dmoz Yahoo!

Page 12: 6. Ricercare nel Web

Wikipedia come strumento di ricerca12

Wikipedia è un formidabile strumento di ricerca e accesso al web

Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato

Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici

(http://en.wikipedia.org/wiki/Portal:List_of_portals )

R.Polillo - Marzo 2013

Page 13: 6. Ricercare nel Web

Serendipità13

Cerco una cosa e ne trovo un'altra Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di

Serendip” (Serendip è l'antico nome di Sri Lanka) Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere

l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative

http://en.wikipedia.org/wiki/Serendipity http://serendip.brynmawr.edu/serendip/about.html

R.Polillo - Marzo 2013

Page 14: 6. Ricercare nel Web

14 R.Polillo - Marzo 2013

Page 15: 6. Ricercare nel Web

www.stumbleupon.com 16

to stumble: inciampare, scoprire per caso

È una discovery engine di pagine web, fondato in Canada nel 2001

Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili

Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:

R.Polillo - Marzo 2013

Page 16: 6. Ricercare nel Web

Motori di ricerca per il Web

Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web

Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)

La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati

R.Polillo - Marzo 2013

17

Page 17: 6. Ricercare nel Web

Motori di ricerca

Una storia complessa, iniziata negli anni '90. Oggi, i primi 3: Google- Dal 1998

Bing- Dal 2009- Prima: MSN Search, Windows Live Search, Live Search

Yahoo!- Con motori esterni (dal 1999 "Powered by Bing")

R.Polillo - Marzo 2013

18

Market share, Jan 2013, http://www.statowl.com

Page 18: 6. Ricercare nel Web

Motori di ricerca: struttura

R.Polillo - Marzo 2013

19

Interfaccia Query processing

Rankingdei risultati

Query

Risultati(SERP)

Front-end process

Indici + cached pages

CrawlerCrawler

IndicizzatoreCrawler

Richieste

Pagine web

Pagine web

WWW

Back-end process

Page 19: 6. Ricercare nel Web

Web crawling

I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti

Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)

L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)

Non tutto il Web è accessibile ai crawler

R.Polillo - Marzo 2013

21

Page 20: 6. Ricercare nel Web

robots.txt: esempio

www.domain.com

R.Polillo - Marzo 2013

22

/

robots.txt

utenti

foto

aboutUser-agent: GoogleDisallow /utenti/fotoAllow: *Crawl-delay: 20 sec

Page 21: 6. Ricercare nel Web

Deep vs surface Web

Non tutto il Web è accessibile ai motori di ricerca Il Web invisibile ("deep Web") è parecchi ordini di

grandezza più vasto del Web visibile ("surface Web") Deep Web, esempi:

Pagine "vietate" dai Web server (robots.txt) Pagine generate dinamicamente a fronte di query o di input forniti

attraverso form Pagine senza link entranti Pagine accessibili tramite registrazione e login Ecc.

R.Polillo - Marzo 2013

23

Page 22: 6. Ricercare nel Web

Struttura del web: uno studio

Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html

17 million nodes

24

R.Polillo - Marzo 2013

Page 23: 6. Ricercare nel Web

Tipi di query

InformativaObiettivo: trovare un'informazione

NavigazionaleObiettivo: trovare una pagina web, che conosco già

RisorsaObiettivo: trovare una risorsa (non informativa) disponibile sul web

Il risultato è di solito (ma non sempre!) una lista di link a pagine web

Dal contenitore al contenuto

R.Polillo - Marzo 2013

25

Page 24: 6. Ricercare nel Web

Search forms (Google)

R.Polillo - Marzo 2013

26

Semplice: Avanzata:

Posso usare una sintassi complessa

Esempi:query AND queryquery OR query-queryterm site:urllink: x…. Cfr.

http://www.google.com/insidesearch/ http://bit.ly/13dakJx

Page 25: 6. Ricercare nel Web

Google: evoluzione della home page

Video sulla evoluzione di www.google.com dal 1998 al 2007

http://www.youtube.com/watch?v=1vgprty39og

R.Polillo - Marzo 2013

27

Page 26: 6. Ricercare nel Web

SERP: struttura tipica

R.Polillo - Marzo 2013

28

Search box

Risultati sponsorizzati

Opzioni per la ricerca

Risultati "organici"

(non influenzati dalle

sponsorizzazioni)

Google:AdWords

Page 27: 6. Ricercare nel Web

La coda lunga delle ricerche

R.Polillo - Marzo 2013

29

Search terms

Freq

uen

za

Alto costo, alta frequenza, bassa probabilità di conversione

Basso costo, bassa frequenza, alta probabilità di conversione

Page 28: 6. Ricercare nel Web

Google Trends (www.google.com/trends)

R.Polillo - Marzo 2013

30

Vedi anche www.google.com/zeitgeist/2012

Page 29: 6. Ricercare nel Web

Risultati della ricerca: esempio (Google)

R.Polillo - Marzo 2013

31

PreviewCached Fiat

http://www.googleguide.com/cached_pages.html

Page 30: 6. Ricercare nel Web

Ranking

I risultati della ricerca dovrebbero essere presentati sulla SERP in ordine di "rilevanza" (gli utenti considerano di solito solo i risultati nella prima pagina)

Il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking

R.Polillo - Marzo 2013

32

Page 31: 6. Ricercare nel Web

Google PageRank

Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University

L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono le pagine Web (a loro volta "importanti") che la linkano

In sostanza, è il meccanismo con cui vengono valutati i paper accademici

S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine”

1998: Brin e Page fondano Google Inc

R.Polillo - Marzo 2013

33

Page 32: 6. Ricercare nel Web

PageRank: esempio34

R.Polillo - Marzo 2013

71

1

61

1

Page 33: 6. Ricercare nel Web

PageRank: esempio35

http://en.wikipedia.org/wiki/PageRank

R.Polillo - Marzo 2013Per la spiegazione dell'algoritmo: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch14.pdf

Page 34: 6. Ricercare nel Web

Risultati della ricerca: non solo link

Provate a cercare (su Google e Bing):- weather Milano- time San Francisco- sunrise New York- 5*9+(sqrt 10)^3=- Ernest Hemingway- Population Milan- define philosophy- ristoranti 20143- movies 20143- AZ637- mappa 20143- mappa corso italia 6 milano- concessionari Fiat- ….

R.Polillo - Marzo 2013

37

Search engine → Answer engine

Page 35: 6. Ricercare nel Web

Google: quali servizi di ricerca?

R.Polillo - Marzo 2013

38

Marzo 2013

Page 36: 6. Ricercare nel Web

Google: quali servizi di ricerca?

R.Polillo - Marzo 2013

39

Page 37: 6. Ricercare nel Web

Google: quali servizi di ricerca?

R.Polillo - Marzo 2013

40

Page 38: 6. Ricercare nel Web

Google: quali servizi di ricerca?

R.Polillo - Marzo 2013

41

Page 39: 6. Ricercare nel Web

Search history

La search history di ciascuno viene salvata nella "cronologia Web" (Google, Bing)

È possibile cancellare singoli elementi, o tutti Cronologia in Google:

entrare nel proprio account, ed entrare nella "dashboard"

Google sulla privacy delle ricerche (2007):http://www.youtube.com/watch?v=iPkvNr2cpqg

42

Page 40: 6. Ricercare nel Web

SEO / SEM

SEO: Search Engine OptimizationMetodi e tecniche per migliorare il ranking di un sito Web, per i vari motori di ricercahttp://http://en.wikipedia.org/wiki/Search_engine_optimization

SEM: Search Engine MarketingAttività di promozione di un sito Web per migliorarne il ranking dei motori di ricercahttp://en.wikipedia.org/wiki/Search_engine_marketing

Page rank checker: esempio:http://www.whatsmypr.net

R.Polillo - Marzo 2013

43

Page 41: 6. Ricercare nel Web

SEM/SEO44

La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)

Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)

Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano

Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO

http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it

R.Polillo - Marzo 2013

Page 42: 6. Ricercare nel Web

Google search: per saperne di più

Help di Google: http://support.google.com/websearch

Google Guide (indipendente da Google):http://www.googleguide.com

Wikipedia:http://en.wikipedia.org/wiki/Google_Search

R.Polillo - Marzo 2013

45

Page 43: 6. Ricercare nel Web

Lavoro individuale

Esplorare accuratamente le funzioni del motore di ricerca di Google, e confrontarle con quelle di Bing

Esplorare la propria dashboard (nel proprio account Google), e verificare quali informazioni sulla vostra storia sono memorizzate

Esplorate www.wolframalpha.com

R.Polillo - Marzo 2013

46