Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011...

38
Università degli Studi G.D’Annunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto

Transcript of Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011...

Page 1: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Università degli Studi G.D’AnnunzioChieti e Pescara

Seminario

MOTORI DI RICERCA

aprile 2011

maurizio gatto

Page 2: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Internet• ARPANET (1960 – 1970)• INTERNET 1983 (NFS network) 1985 (commerciale) 1989 (WWW - Tim Barners-Lee)

Page 3: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Web

– docuverse (T.H. Nelson, 1974, teorico ipertesto)• Universo organizzato dei documenti

– infosfera (L. Floridi, 2002, teorico filosofia dell’informazione)• Spazio semantico (documenti, agenti, operazioni)

Page 4: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Web

Hubs and Authorities (HITS algorithm) - 1998

Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano

autorevoli sorgenti di informazione per la query

hub: liste che contengono puntatori a pagine relative all’argomento della query

“Good hubs point to good authorities and vice versa”

Google nel 1998 progetta PageRank(brevettato nel 2001 US PTO Patent )

Page 5: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Web 2.0

– Riuso dei dati (e degli utenti)– Contributo del singolo utente (dati e servizi)– Architettura della “partecipazione“– Autorganizzazione dell’azione dal basso

Source: Internet World Search

Web 3.0

Page 6: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Risorse digitali

– Utilizzo delle risorse digitali• ipertestualità, accesso simultaneo,

delocalizzazione, ubiquità

– Risorse digitali• modificabili, replicabili, personalizzate, ambigue, obsolescenti, instabili, volatili

documento digitale: qualsiasi oggetto fisico: testo, immagine o filmato, rappresentato tramite una grandezza fisica che assume valori binari ottenuti attraverso un processo di elaborazione elettronica

Page 7: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: perché– Consultare il web (docuverse)• Difficoltà di reperimento a causa dell’enorme numero

di informazioni non strutturate

– Navigare con i link• Partire da un punto e cercare i percorsi giusti

Utilizzare i motori di ricercasemplicità di utilizzo (intuitivo), con una query si ottengonorisultati “rilevanti”(o “suggerimenti” di ulterioriricerche a partire dai link suggeriti)

Page 8: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: funzioni• recupero informazioni dal web • indicizzazione delle informazioni• distribuzione agli utenti delle informazioni tramite query

sintattico

semantico

• realizzare profitto

Page 9: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: evoluzione

– Archie e Gopher (1990-1991)• Ricerca file in siti FTP

– Lykos, Infoseek, AltaVista, Excite (1994-1995)• Ricerca file in siti WWW

– Yahoo! (1994)• Acquisisce nel 2002 Inktomi, Overture, Altavista

– MSN (1995)• Accordo con Overture nel 2006• Dal 2006 cambia nome: Windows Live• Dal 2009 cambia nome: Bing

– Google (1997- sito 1999)• Numero ricerche giornaliere(!?):• 1999 500m; 2000 100mln; 2003 250mln; 2008 2mld 2010 3mld

Cronologia completa

Page 10: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: TopGoogleYahoo!Bing (ex Live Search ex MSN)

Page 11: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: Italia

Virgilio

Libero

Tiscali

Page 12: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: metamotori

Attingono i risultati da altri motori di ricerca e ne elaborano i risultati

Page 13: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: DMOZDMOZ (Open Directory Project)

Una directory NON un motore di ricerca

Page 14: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: dati (US)– 2008 (feb)

• Google 59,2%• Yahoo! 21,6%• Live 9,6%• Altri 9,5% (Ask, AOL)

– 2009 (feb)• Google 63,3%• Yahoo! 20,6%• Live/Bing 8,1%• Altri 8,0% (Ask, AOL)

– 2010 (feb)• Google 65,5%• Yahoo! 16,8%• Bing 11,5%• Altri 6,2% (Ask, AOL)

– 2011 (feb)• Google 64,9%• Yahoo! 17,3%• Bing 13,4%• Altri 4,4% (Ask, AOL)

Source: comscore.com

ITALIA (2009)

Google* 96,81%Bing 1,35%Yahoo! 1,22%Altri 1,12%

Source: StatCounter – GlobalStats

Page 15: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: dati (2010)

Page 16: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: dati (2010)

Page 17: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: dati (2010)

Page 18: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: moduli

Page 19: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: moduli

Page 20: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: gatherer

• Collezionare documenti nel web– Tipologia• extensive crawl, focused crawl, incremental crawl

– Problemi• dimensioni del web• quantità dei dati nel web• loop e “trappole”• costi (di banda e hardware)

– Soluzione• metodologie distribuite e fault-tolerant

Page 21: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: crawler

Page 22: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: crawler

1. Robots.txt (Robotstxt.org)

2. Nel codice di una pagina HTML <html><head>… <meta name="robots" content=“noindex,nofollow”>… </head>…

Perché alcune pagine non appaiono nei risultati dei motori di ricerca?

Funzionamento di un crawler

Page 23: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: indexing

• Analisi del contenuto testuale• Analisi dei contenuti multimediali• Informazioni sui links• Informazioni sul sito

Analisi dei documenti

Page 24: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: indexing

• ordina i documenti ricevuti dal crawler• crea l’indice (inverso) delle parole• immagazzina le informazioni recuperate in un database (o in database distribuiti)

Page 25: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: retrieval

• riceve le richieste (query) dal modulo search• recupera le informazioni nel/i database• fornisce le “risposte” al modulo search

Page 26: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: search• Riceve la richiesta dell’utente (query)• invia la query al modulo retrieval• recupera le “risposte” dal modulo retrieval• restituisce le “risposte” all’utente in forma

testuale e/o grafica• aggiunge risultati pay

Page 27: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: search

Page 28: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: search

Page 29: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: search

Ricorda: puoi utilizzare “ ” per ricerche a corrispondenza esatta + includi - escludi site: cerca in un dominio filetype: cerca un formato documento

Page 30: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: search

Page 31: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: le relazioni

http://www.bruceclay.it/searchenginerelationshipchart.htm

Page 32: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: le relazioni

http://www.ihelpyou.com/search-engine-chart.html

Page 33: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: le relazioni

http://www.search-this.com/search-engine-decoder/

Page 34: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: le relazioni

• Se cerchiamo “bonifica amianto” su– Google– Virgilio– Libero– Tiscali

Otteniamo gli stessi risultati (anche pay)

Page 35: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: specializzati

Elenco motori di ricerca

Page 36: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: news

• Google News Alerts http://www.google.com/alerts?hl=en Non una mailing list ma un servizio di Google (2003). Scegli la parola chiave e la frequenza della ricezione di una email contenente le ultime news (abstract e link) sull'argomento scelto (funziona anche per le news delle singole nazioni, http://www.google.it/alerts?hl=it )

• Utilizzare i motori di ricerca

Page 37: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Motori di ricerca: news• Google News Alerts

Page 38: Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.

Università degli Studi G.D’AnnunzioChieti e Pescara

Grazie per l’attenzione

maurizio gatto