10 - Ricercare nel web II

30
Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 10. Ricercare nel Web (Parte II) Giuseppe Vizzari Edizione 2015-16

Transcript of 10 - Ricercare nel web II

Page 1: 10 - Ricercare nel web II

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e ComunicazioneCorso di Strumenti e applicazioni del Web

10. Ricercare nel Web (Parte II)

Giuseppe Vizzari

Edizione 2015-16

Page 2: 10 - Ricercare nel web II

Queste slideQueste slide fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in strumentiapplicazioniweb.wordpress.com. Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):

La licenza non si estende alle immagini provenienti da altre fonti e alle screen shot, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle.

Page 3: 10 - Ricercare nel web II

Motori di ricerca: struttura

3

Interfaccia Query processing

Rankingdei

risultati

Query

Risultati(SERP)

Front-end process

Indici + cached pages

CrawlerCrawler IndicizzatoreCrawler

RichiestePagine

web

Pagine webWW

W

Back-end process

Page 4: 10 - Ricercare nel web II

Semplificando al massimo…

URL PAGINE

CACHE

Keyword

URLs

INDICE

IndicizzatoreCrawler

Query processing

Page 5: 10 - Ricercare nel web II

Ranking

• Gli utenti considerano di solito solo i risultati nella prima SERP

i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking

5

Page 6: 10 - Ricercare nel web II

Ranking

• Gli utenti considerano di solito solo i risultati nella prima SERP

i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking

6

Page 7: 10 - Ricercare nel web II

TF-IDF di base…• TF-IDF sta per term frequency –

inverse document frequency• Si tratta di una statistica che dà

conto di quanto un termine sia significativo per scegliere un documento all’interno di un certo insieme di documenti (corpus)• Matematicamente è il prodotto di

una funzione legata alla frequenza del termine nel documento e di un’altra funzione che decresce quanto più il termine è frequente nei documenti del corpus• In pratica, un termine per essere

importante deve essere presente nel documento ma anche non essere troppo frequente nel corpus

CorpusDocument

Searched term

Page 8: 10 - Ricercare nel web II

Ricerche con più termini?

• Una query con più termini può essere vista come un vettore di termini…• Per ogni termine si può

calcolare il valore TF-IDF di ogni documento nel corpus…• Si possono aggregare questi

valori per ricavare un valore di rilevanza del documento per la query specificata• … una presentazione più

dettagliata richede l’uso di alcune formule matematiche che preferisco evitare di mostrarvi

CorpusDocument

Searched terms

Page 9: 10 - Ricercare nel web II

Ranking

• Gli utenti considerano di solito solo i risultati nella prima SERP

i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking

9

Page 10: 10 - Ricercare nel web II

Google PageRank

•Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University• L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono numerose e importanti le pagine Web che la linkano•S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine” • In sostanza, è il meccanismo con cui vengono valutati i paper accademici •1998: Brin e Page fondano Google Inc

10

Page 11: 10 - Ricercare nel web II

PageRank: esempio

11

Page 12: 10 - Ricercare nel web II

PageRank: esempio

12

7 1

1

61

1

Page 13: 10 - Ricercare nel web II

PageRank: esempio

13http://en.wikipedia.org/wiki/PageRank

Page 14: 10 - Ricercare nel web II

L’algoritmo: altri criteri

•Google utilizza oltre 200 criteri per il ranking delle pagine • I criteri sono segreti e in continua evoluzione•Esempi:• Parole chiave in parti specifiche della pagina (titolo, header, testo …)• Età del sito• Qualità dei contenuti• Ranking fra i siti di analogo argomento• Numero di accessi via URL della pagina• Numero di accessi da parte di chi cerca• Tempo speso sulla pagina dagli utenti• ….

14

Page 15: 10 - Ricercare nel web II

SEO / SEM

• SEO: Search Engine OptimizationMetodi e tecniche per migliorare il ranking di un sito Web, per i vari motori di ricercahttp://http://en.wikipedia.org/wiki/Search_engine_optimization • SEM: Search Engine Marketing

Attività di promozione di un sito Web per migliorarne il ranking dei motori di ricercahttp://en.wikipedia.org/wiki/Search_engine_marketing• Page rank checker: esempio:http://www.whatsmypr.net

15

Page 16: 10 - Ricercare nel web II

SEM/SEO• La posizione (rank) in cui un sito viene mostrato dal motore di

ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)• Molti specialisti indipendenti offrono servizi di consulenza affinchè il

sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)• Le tecniche usate non sono sempre corrette: per es. vengono creati

siti composti solo da link per far “salire” i siti che pagano• Periodicamente Google aggiorna gli algoritmi del motore per

penalizzare quello che considera spamming da parte degli specialisti SEM/SEO• http://www.google.it/support/webmasters/bin/answer.py?answer=35

291&hl=it

16

Page 17: 10 - Ricercare nel web II

Risultati della ricerca: non solo link Provate a cercare (su Google e Bing):- weather Milano- time San Francisco- sunrise New York- 5*9+(sqrt 10)^3=- Ernest Hemingway- Population Milan- define philosophy- ristoranti 20143- movies 20143- mappa 20143- mappa corso italia 6 milano- concessionari Fiat- ….

17

Search engine → Answer engine

Page 18: 10 - Ricercare nel web II

Vedere le pagine cashed (Google search)

18http://www.digitaltrends.com/computing/directly-access-google-cached-pages/#!BqSUt

Page 19: 10 - Ricercare nel web II

Risultati della ricerca: semantica

19

Search engine → Answer engine

• Google Knowledge Graph - https://youtu.be/mmQl6VGvX-c

Page 20: 10 - Ricercare nel web II

Google: quali servizi di ricerca?

20

Marzo 2013

Page 21: 10 - Ricercare nel web II

Google: quali servizi di ricerca?

21

Page 22: 10 - Ricercare nel web II

Google: quali servizi di ricerca?

22

Page 23: 10 - Ricercare nel web II

Google: quali servizi di ricerca?

23

Page 24: 10 - Ricercare nel web II

Search history • La search history di ciascuno viene salvata nella ”search

history" (Google, Bing)• (Non confonderla con la cronologia Web, che è raccolta dal browser)• È possibile cancellare singoli elementi, o tutti

24

Search history in Google: entrare nel proprio account, ed entrare nella "dashboard”, e…. guardate quello che Google sa di voi

Page 25: 10 - Ricercare nel web II

La coda lunga delle ricerche

25Search terms

Freq

uenz

aAlta frequenza, bassa probabilità di trovare l’informazione desiderata

Bassa frequenza, alta probabilità di trovare l’informazione… in linea di massima!

“negozi scarpe uomo centro milano”

Page 26: 10 - Ricercare nel web II

Google Trends (www.google.com/trends)

26

Vedihttp://www.google.com/trends/topcharts?date=2014

Page 28: 10 - Ricercare nel web II

SERP: struttura tipica

28

Search box

Risultati sponsorizzati

Opzioni per la ricerca

Risultati "organici"

(non influenzati

dalle sponsorizzazio

ni)

Google:AdWords

Page 29: 10 - Ricercare nel web II

Google search: per saperne di più

• Help di Google: http://support.google.com/websearch • Wikipedia:

http://en.wikipedia.org/wiki/Google_Search

29

Page 30: 10 - Ricercare nel web II

Lavoro individuale

• Esplorare accuratamente le funzioni del motore di ricerca di Google, [e confrontarle con quelle di Bing]• Esplorare la propria dashboard (nel proprio account Google), e verificare quali informazioni sulla vostra storia sono memorizzate (importantissimo!)• Esplorate www.wolframalpha.com Guardate che cosa Wolfram alpha vi dice della VOSTRA attività su Facebook cercare su Google: wolfram personal analytics

30