10. Ricercare nel web (Parte II)

24
Edizione 2013-14 Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 10. Ricercare nel Web (Parte II) Roberto Polillo

description

Slides delle lezioni del corso di Strumenti e applicazioni del Web per il corso di laurea magistrale in Teoria e tecnologia della comunicazione - Università di Milano Bicocca (prof.R.Polillo) - Lezione del 27 marzo 2014

Transcript of 10. Ricercare nel web (Parte II)

Page 1: 10. Ricercare nel web (Parte II)

Edizione 2013-14

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione

Corso di Strumenti e applicazioni del Web

10. Ricercare nel Web (Parte II)

Roberto Polillo

Page 2: 10. Ricercare nel web (Parte II)

Motori di ricerca: struttura

R.Polillo - Marzo 2014

3

Interfaccia Query processing

Rankingdei risultati

Query

Risultati(SERP)

Front-end process

Indici + cached pages

CrawlerCrawler

IndicizzatoreCrawler

Richieste

Pagine web

Pagine web

WWW

Back-end process

Page 3: 10. Ricercare nel web (Parte II)

Motori di ricerca: tipi di query

InformativaObiettivo: trovare un'informazione

NavigazionaleObiettivo: trovare una pagina web, che conosco già

RisorsaObiettivo: trovare una risorsa (non informativa) disponibile sul web

Il risultato è di solito (ma non sempre!) una lista di link a pagine web

Evoluzione: dal contenitore (anche) al contenuto

R.Polillo - Marzo 2014

4

Page 4: 10. Ricercare nel web (Parte II)

Search forms (Google)

R.Polillo - Marzo 2014

5

Semplice: Avanzata:

Posso usare una sintassi complessa

Esempi:query AND queryquery OR query-queryterm site:urllink: x…. Cfr.

http://www.google.com/insidesearch/ http://bit.ly/13dakJx

Page 5: 10. Ricercare nel web (Parte II)

Google: evoluzione della home page

Video sulla evoluzione di www.google.com dal 1998 al 2007

http://www.youtube.com/watch?v=1vgprty39og

R.Polillo - Marzo 2014

6

Page 6: 10. Ricercare nel web (Parte II)

SERP: struttura tipica

R.Polillo - Marzo 2014

7

Search box

Risultati sponsorizzati

Opzioni per la ricerca

Risultati "organici"

(non influenzati dalle

sponsorizzazioni)

Google:AdWords

Page 7: 10. Ricercare nel web (Parte II)

La coda lunga delle ricerche

R.Polillo - Marzo 2014

8

Search terms

Freq

uen

zaAlto costo, alta frequenza, bassa probabilità di conversione

Basso costo, bassa frequenza, alta probabilità di conversione

“negozi scarpe uomo centro milano”

Page 8: 10. Ricercare nel web (Parte II)

Google Trends (www.google.com/trends)

R.Polillo - Marzo 2014

9

Vedi anche www.google.com/zeitgeist/2012http://www.google.com/trends/topcharts?zg=full (2013)

Page 9: 10. Ricercare nel web (Parte II)

Cached pages (Google)

R.Polillo - Marzo 2014

10

http://www.digitaltrends.com/computing/directly-access-google-cached-pages/#!BqSUt

Page 10: 10. Ricercare nel web (Parte II)

Ranking

I risultati della ricerca dovrebbero essere presentati sulla SERP in ordine di rilevanza (gli utenti considerano di solito solo i risultati nella prima pagina)

Il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking

R.Polillo - Marzo 2014

11

Page 11: 10. Ricercare nel web (Parte II)

Google PageRank

Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University

L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono le pagine Web (a loro volta "importanti") che la linkano

In sostanza, è il meccanismo con cui vengono valutati i paper accademici

S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine”

1998: Brin e Page fondano Google Inc

R.Polillo - Marzo 2014

12

Page 12: 10. Ricercare nel web (Parte II)

PageRank: esempio13

R.Polillo - Marzo 2014

71

1

61

1

Page 13: 10. Ricercare nel web (Parte II)

PageRank: esempio14

http://en.wikipedia.org/wiki/PageRank

R.Polillo - Marzo 2014Per la spiegazione dell'algoritmo: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch14.pdf

Page 14: 10. Ricercare nel web (Parte II)

L’algoritmo: altri criteri

Google utilizza oltre 200 criteri per il ranking delle pagine I criteri sono segreti e in continua evoluzione Esempi:

Parole chiave nella pagina (titolo, header, testo …) Età del sito Qualità dei contenuti Ranking fra i siti di analogo argomento Numero di accessi via URL della pagina Numero di accessi da parte di chi cerca Tempo speso sulla pagina dagli utenti ….

R.Polillo - Marzo 2014

15

Page 15: 10. Ricercare nel web (Parte II)

Search history

La search history di ciascuno viene salvata nella "cronologia Web" (Google, Bing)

È possibile cancellare singoli elementi, o tutti Cronologia in Google:

entrare nel proprio account, ed entrare nella "dashboard”

R.Polillo - Marzo 2014

16

Page 16: 10. Ricercare nel web (Parte II)

SEO / SEM

SEO: Search Engine OptimizationMetodi e tecniche per migliorare il ranking di un sito Web, per i vari motori di ricercahttp://http://en.wikipedia.org/wiki/Search_engine_optimization

SEM: Search Engine MarketingAttività di promozione di un sito Web per migliorarne il ranking dei motori di ricercahttp://en.wikipedia.org/wiki/Search_engine_marketing

Page rank checker: esempio:http://www.whatsmypr.net

R.Polillo - Marzo 2014

17

Page 17: 10. Ricercare nel web (Parte II)

SEM/SEO18

La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)

Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)

Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano

Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO

http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it

R.Polillo - Marzo 2014

Page 18: 10. Ricercare nel web (Parte II)

Risultati della ricerca: non solo link

Provate a cercare (su Google e Bing):- weather Milano- time San Francisco- sunrise New York- 5*9+(sqrt 10)^3=- Ernest Hemingway- Population Milan- define philosophy- ristoranti 20143- movies 20143- mappa 20143- mappa corso italia 6 milano- concessionari Fiat- ….

R.Polillo - Marzo 2014

19

Search engine → Answer engine

Page 19: 10. Ricercare nel web (Parte II)

Google: quali servizi di ricerca?

R.Polillo - Marzo 2014

20

Marzo 2013

Page 20: 10. Ricercare nel web (Parte II)

Google: quali servizi di ricerca?

R.Polillo - Marzo 2014

21

Page 21: 10. Ricercare nel web (Parte II)

Google: quali servizi di ricerca?

R.Polillo - Marzo 2014

22

Page 22: 10. Ricercare nel web (Parte II)

Google: quali servizi di ricerca?

R.Polillo - Marzo 2014

23

Page 23: 10. Ricercare nel web (Parte II)

Google search: per saperne di più

Help di Google: http://support.google.com/websearch

Wikipedia:http://en.wikipedia.org/wiki/Google_Search

R.Polillo - Marzo 2014

24

Page 24: 10. Ricercare nel web (Parte II)

Lavoro individuale

Esplorare accuratamente le funzioni del motore di ricerca di Google, e confrontarle con quelle di Bing

Esplorare la propria dashboard (nel proprio account Google), e verificare quali informazioni sulla vostra storia sono memorizzate (importantissimo!)

Esplorate www.wolframalpha.com Guardate che cosa Wolfram alpha vi dice della VOSTRA attività su Facebook cercare su Google: wolfram personal analytics

R.Polillo - Marzo 2014

25