Motori di ricerca - non c'è solo Google

Post on 27-May-2015

2.727 views 1 download

Transcript of Motori di ricerca - non c'è solo Google

Motori di ricercanon c’è solo Google

Formazione Volontari SCN 2011

Centro Linguistico di Ateneo - Mediateca

cosa faremo oggi cos’è e come funziona un motore di ricerca cos’è e come funziona una web directory cos’è il web invisibile o profondo motori di ricerca specialistici, semantici, visuali...

cosa NON faremo oggi tecniche di ricerca utilizzo avanzato di specifici motori di ricerca (es. Google)

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

che cos’è un motore di ricerca il termine ricerca (search) in informatica significa esaminare il contenuto di un pc, di un disco, di un file o di una rete di computer per trovare informazioni volute il termine motore sta ad indicare qualcosa che fornisce la forza per un movimento, un sistema, una azione... un motore di ricerca è qualcosa che in base a termini che noi inseriamo (motore di ricerca per parola) restituisce una serie di informazioni / documenti un motore di ricerca su Internet è un software che raccoglie informazioni, le organizza in database e in base ai termini della domanda restituisce elenchi di pagine web in un certo ordine

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

tipi di motori di ricerca motori di ricerca generali, basati su indici automatici, senza intervento umano (es. Google) motori di ricerca generali basati su indici controllati dall’uomo, web directory (es. Dmoz) motori di ricerca specialistici, basati su indici in parte creati in modo automatico e in parte creati dall’uomo (es. Scirus) motori di ricerca basati su indici semantici (es. Hakia) metamotori (es. Metacrawler) motori di ricerca personalizzati

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

motori di ricerca (automatici) gli spiders girano 24 ore su 24 per la rete cercando contenuti: come un ragno su una ragnatela seguono i link da un sito a un altro, entrano nei siti e raccolgono informazioni da, di e su singole pagine statiche

le pagine vengono indicizzate e classificate in archivi dagli indexer in base alle parole rilevate e ai metadati delle singole pagine

gli archivi vengono interrogati e viene fornita una lista di siti organizzata in base a determinati criteri (page ranking) per dare le risposte più adeguate

http://it.bing.com/ http://www.google.com/http://it.yahoo.com/

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

web directory elenchi creati e curati da esseri umani (non in automatico) vengono indicizzati siti, non pagine si usano classificazioni controllate, in forma gerarchica grande attendibilità e qualità ma... ... i siti invecchiano e i controlli non sono automatici

un esempio per tutti:

http://www.dmoz.org sono possibili web directory automatiche?

http://www.alexa.com/ http://www.google.com/dirhp

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

il web invisibile è quello che i motori di ricerca non vedono

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

dati da Juanicó - Environmental Consultants Ltd.

il web invisibile (opaco, nascosto, profondo...)

è quello che Google e gli altri non vedono perché: non sono pagine statiche, vengono create in base a singole richieste (le singole richieste però possono avere dei link) non sono presenti nei link di nessun altro sito o pagina si tratta di reti interne o comunque riservate si tratta di documenti troppo profondi gli spider trovano degli sbarramenti tipo:

siti controllati (password, captcha, ...) siti con opzioni per la navigazione siti con blocchi dichiarati ecc.

altri motivi ancora

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

dati da Brightplanet

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

una web directory per il web invisibile: CompletePlanet/

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

il web profondo è 500 volte più grande del web di superficie la qualità del web profondo è di 1000/2000 volte superiore al web di superficie le risorse del web profondo sono più specialistiche quali materiali si possono trovare:

materiali conservati in archivi e repository materiali interni a portali, banche dati, siti aziendali, biblioteche, librerie, ... il contenuto di database, cataloghi, negozi online, ecc. materiali ad accesso riservato o controllato tutto l’universo –incalcolabile- dei sistemi peer-to-peer o di risorse comunque condivise

... (e il 95 per cento di queste risorse è di libero accesso!)

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

dati da Brightplanet

cos’è un motore di ricerca specialistico

cerca singole pagine e documenti di aree o settori specifici funziona come un motore di ricerca automatico i siti dove cercare sono scelti dall’uomo qualità e attendibilità sono garantite in proporzione alle presenza o meno di controlli sui siti spesso sono commerciali o hanno fini commerciali spesso indicizzano parte del web invisibile spesso hanno classificazioni / indicizzazioni es. area scientifica Scirus www.scirus.com

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

motori di ricerca semantici generalizzano le parole di ricerca e le contestualizzano permettono di inquadrare la parola nell’ambito che ci interessa cercano di dare risposte “logiche” e organizzare i risultati ricerca della qualità contro la quantità differenti sistemi per selezionare i siti: core sites, page vector, ecc. spesso interagiscono con strumenti di social web / folksonomies

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

motori di ricerca “semantici” Hakia - http://hakia.com/

basato su una tecnologia “core” su diversi segmenti (web, news, blog, siti affidabili, video, ecc.I

Teoma - http://www.teoma.com/prova ad aggiungere ai normali risultati di un motore di ricerca i siti più popolari tra gli esperti e in base alle domande già poste

Wolfram Alpha - http://www.wolframalpha.com/ non un motore di ricerca vero e proprio ma un repository (sempre aggiornato) che utilizza algoritmi basati sul linguaggio naturale

Credo – http://credo.fub.it/Conceptual REorganization of Documents, basato sul motore di ricerca di Yahoo organizza le risposte per aree tematiche

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

Metamotori interrogano diversi motori, integrano le risposte generici: la qualità arriva dal confronto, es.: http://www.metacrawler.com/ visuali e/o intuitivi http://beta.simploos.com/ http://www.yometa.com/

http://www.search-cube.com

http://www.touchgraph.com

specialistici: mettono filtri in base a criteri predefiniti, ad es.:di contenuto (settoriali, geografici, scientifici, ...)di utilizzo (tipi di file, di risorse, di utenti, di copyright, ...)

http://www.blinkx.com/

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

motori fatelo da voi ricerca personalizzata in base ad esigenze specifiche alto grado di soddisfazione, ricerca non esaustiva anche folksonomies condivisibili (web 2.0) http://webbrain.com/ http://www.eurekster.com/ ...risorse linguistiche ;-)

directory di motori / portali / metamotori http://www.thesearchenginelist.com/

http://www.segnalidivita.com/motoridiricerca/index.htm

http://www.noodletools.com/debbie/literacies/information/5locate/adviceengine.html

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

per chi vuole approfondire: Pandia Search Central – http://www.pandia.com

portale con raffinati strumenti di ricerca, web directory, aggiornamenti, guide, tutorial, newsletter, statistiche, ecc. Da vedere.

in mediateca The invisible web : searching the hidden parts of the internet / Paul Pedley Effective information retrieval from the Internet : an advanced users guide / Alison Stacey and Adrian Stacey The librarian’s internet survival guide : strategies for the high-tech reference desk / Irene E. McDermott ; ed. by Barbara Quint A guide to finding quality information on the Internet / Alison Cooke The invisible Web : uncovering information sources search engines can’t see / Chris Sherman and Gary Price Using the Internet as a reference tool : a how-to-do-it manual for librarians / Michael P. Sauers

Centro Linguistico di Ateneo – Mediatecamotori di ricerca

l’ultimo esperimento di Google: What do you love?

dalla homepage personalizzata verso un vero e proprio portale individuale unificando diversi servizi

risposte per tipologie risorse (immagini, video, libri, ecc....) interazioni 2.0 (forum, sondaggi, blog, ecc.) strumenti (traduttore, disegno 3D, iPod Apps, sistema di alert, ecc.) dal momento che Google tiene traccia delle ricerche fatte:

potrebbe diventare un portale individuale!

http://www.wdyl.com

Centro Linguistico di Ateneo – Mediatecamotori di ricerca