10 - Ricercare nel web II
-
Upload
giuseppe-vizzari -
Category
Education
-
view
2.163 -
download
0
Transcript of 10 - Ricercare nel web II
Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e ComunicazioneCorso di Strumenti e applicazioni del Web
10. Ricercare nel Web (Parte II)
Giuseppe Vizzari
Edizione 2015-16
Queste slideQueste slide fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in strumentiapplicazioniweb.wordpress.com. Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):
La licenza non si estende alle immagini provenienti da altre fonti e alle screen shot, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle.
Motori di ricerca: struttura
3
Interfaccia Query processing
Rankingdei
risultati
Query
Risultati(SERP)
Front-end process
Indici + cached pages
CrawlerCrawler IndicizzatoreCrawler
RichiestePagine
web
Pagine webWW
W
Back-end process
Semplificando al massimo…
URL PAGINE
CACHE
Keyword
URLs
INDICE
IndicizzatoreCrawler
Query processing
Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking
5
Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking
6
TF-IDF di base…• TF-IDF sta per term frequency –
inverse document frequency• Si tratta di una statistica che dà
conto di quanto un termine sia significativo per scegliere un documento all’interno di un certo insieme di documenti (corpus)• Matematicamente è il prodotto di
una funzione legata alla frequenza del termine nel documento e di un’altra funzione che decresce quanto più il termine è frequente nei documenti del corpus• In pratica, un termine per essere
importante deve essere presente nel documento ma anche non essere troppo frequente nel corpus
CorpusDocument
Searched term
Ricerche con più termini?
• Una query con più termini può essere vista come un vettore di termini…• Per ogni termine si può
calcolare il valore TF-IDF di ogni documento nel corpus…• Si possono aggregare questi
valori per ricavare un valore di rilevanza del documento per la query specificata• … una presentazione più
dettagliata richede l’uso di alcune formule matematiche che preferisco evitare di mostrarvi
CorpusDocument
Searched terms
Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking
9
Google PageRank
•Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University• L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono numerose e importanti le pagine Web che la linkano•S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine” • In sostanza, è il meccanismo con cui vengono valutati i paper accademici •1998: Brin e Page fondano Google Inc
10
PageRank: esempio
11
PageRank: esempio
12
7 1
1
61
1
L’algoritmo: altri criteri
•Google utilizza oltre 200 criteri per il ranking delle pagine • I criteri sono segreti e in continua evoluzione•Esempi:• Parole chiave in parti specifiche della pagina (titolo, header, testo …)• Età del sito• Qualità dei contenuti• Ranking fra i siti di analogo argomento• Numero di accessi via URL della pagina• Numero di accessi da parte di chi cerca• Tempo speso sulla pagina dagli utenti• ….
14
SEO / SEM
• SEO: Search Engine OptimizationMetodi e tecniche per migliorare il ranking di un sito Web, per i vari motori di ricercahttp://http://en.wikipedia.org/wiki/Search_engine_optimization • SEM: Search Engine Marketing
Attività di promozione di un sito Web per migliorarne il ranking dei motori di ricercahttp://en.wikipedia.org/wiki/Search_engine_marketing• Page rank checker: esempio:http://www.whatsmypr.net
15
SEM/SEO• La posizione (rank) in cui un sito viene mostrato dal motore di
ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)• Molti specialisti indipendenti offrono servizi di consulenza affinchè il
sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)• Le tecniche usate non sono sempre corrette: per es. vengono creati
siti composti solo da link per far “salire” i siti che pagano• Periodicamente Google aggiorna gli algoritmi del motore per
penalizzare quello che considera spamming da parte degli specialisti SEM/SEO• http://www.google.it/support/webmasters/bin/answer.py?answer=35
291&hl=it
16
Risultati della ricerca: non solo link Provate a cercare (su Google e Bing):- weather Milano- time San Francisco- sunrise New York- 5*9+(sqrt 10)^3=- Ernest Hemingway- Population Milan- define philosophy- ristoranti 20143- movies 20143- mappa 20143- mappa corso italia 6 milano- concessionari Fiat- ….
17
Search engine → Answer engine
Vedere le pagine cashed (Google search)
18http://www.digitaltrends.com/computing/directly-access-google-cached-pages/#!BqSUt
Risultati della ricerca: semantica
19
Search engine → Answer engine
• Google Knowledge Graph - https://youtu.be/mmQl6VGvX-c
Google: quali servizi di ricerca?
20
Marzo 2013
Google: quali servizi di ricerca?
21
Google: quali servizi di ricerca?
22
Google: quali servizi di ricerca?
23
Search history • La search history di ciascuno viene salvata nella ”search
history" (Google, Bing)• (Non confonderla con la cronologia Web, che è raccolta dal browser)• È possibile cancellare singoli elementi, o tutti
24
Search history in Google: entrare nel proprio account, ed entrare nella "dashboard”, e…. guardate quello che Google sa di voi
La coda lunga delle ricerche
25Search terms
Freq
uenz
aAlta frequenza, bassa probabilità di trovare l’informazione desiderata
Bassa frequenza, alta probabilità di trovare l’informazione… in linea di massima!
“negozi scarpe uomo centro milano”
Google Trends (www.google.com/trends)
26
Vedihttp://www.google.com/trends/topcharts?date=2014
Google Ngram viewer (https://books.google.com/ngrams/)
27
SERP: struttura tipica
28
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati "organici"
(non influenzati
dalle sponsorizzazio
ni)
Google:AdWords
Google search: per saperne di più
• Help di Google: http://support.google.com/websearch • Wikipedia:
http://en.wikipedia.org/wiki/Google_Search
29
Lavoro individuale
• Esplorare accuratamente le funzioni del motore di ricerca di Google, [e confrontarle con quelle di Bing]• Esplorare la propria dashboard (nel proprio account Google), e verificare quali informazioni sulla vostra storia sono memorizzate (importantissimo!)• Esplorate www.wolframalpha.com Guardate che cosa Wolfram alpha vi dice della VOSTRA attività su Facebook cercare su Google: wolfram personal analytics
30