Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577...

54
Dipartimento di Dipartimento di Scienze della Scienze della Comunicazione Comunicazione Maurizio Maurizio Masini Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: [email protected]

Transcript of Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577...

Page 1: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Dipartimento di Scienze Dipartimento di Scienze della Comunicazionedella Comunicazione

Maurizio MasiniMaurizio Masini

Via Roma 56, 53100 SienaTel. 0577 234779 -E-mail: [email protected]://www.disco.unisi.it

Page 2: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Risorse elettroniche

Possiamo considerare risorse elettroniche:

CD-Rom, DVD

E-book

Siti web

Mailing list

Newsgroup

Banche dati

la caratteristica comune alle risorse elettroniche è quella di poter essere fruite solo tramite l’uso del computer.

Page 3: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Risorse elettroniche ad accesso locale (REL)

(CD-Rom, DVD)

grande capacità di memorizzazione, ridotto ingombro, riproducibilità infinita senza perdita di qualità, protezione anticopia, non fruibili a distanza

Risorse elettroniche ad acceso remoto (RER)

(banche dati, e-book, siti web, enciclopedie (wikipedia)

Accessibili tramite rete, vincolate dalla larghezza di banda, autorevolezza, attualità del contenuto

http://www.burioni.it/forum/

http://www.cenfor.net/

http://deanet.it

Page 4: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Information retrieval

insieme delle tecniche utili al recupero dell’informazione elettronica

Richiamo: rapporto tra il numero di documenti recuperati e quelli presenti nell’archivio

Precisione: rapporto tra i documenti rilevanti e i documenti recuperati

Documenti recuperatiDocumenti rilevanti

Documenti rilevanti recuperati

Page 5: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

On-line Public Access Catalog

Tramite l'OPAC del Servizio Bibliotecario Nazionale è possibile:• identificare i documenti di interesse• individuare le biblioteche che possiedono tali documenti ed accedere alla scheda anagrafica della singola biblioteca• accedere ai cataloghi locali per informazioni aggiuntive sulla disponibilità del documento• accedere al servizio in linea di prestito da remoto o fornitura di documenti in riproduzione (ILL SBN) se la biblioteca partecipa a tale servizio

http://opac.sbn.it/ catalogo nazionale

http://www.asb.unisi.it Sistema Bibliotecario Senese

Page 6: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Gli altri strumenti di ricerca disponibili in rete sono di due tipi:

•i motori di ricerca per termini

•gli indici sistematici

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 7: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

I motori di ricerca per termini ricercano parole o combinazioni di parole in un archivio indicizzato di documenti in formato digitale.

L’indice è tenuto aggiornato da un “daemon” ovvero un software che si muove continuamente lungo la rete, seguendo ogni link incontrato e

indicizzando tutte le pagine percorse

"spiders” “crawler” “robot”

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 8: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Per quanto estesa, la base di indicizzazione un buon motore di ricerca arriva a coprire “solo” il 30-40% del numero complessivo di pagine in

rete.

Ne consegue, quindi, che i risultati di una ricerca, per quanto accurata, non potranno essere mai considerati completi o esaustivi

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 9: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Gli indici sistematici

la ricerca sistematica avviene su cataloghi ragionati di risorse, “directory” in inglese, suddivisi per settori e organizzati

gerarchicamente.

In questo caso la base di dati è assai più ristretta ma la valutazione della pertinenza di una determinata informazione non è più meccanica, bensì il

risultato di una selezione umana, generalmente una redazione, e l'informazione è inserita all'interno di una struttura di classificazione.

Page 10: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Yahoo! è nato nell’aprile 1994, da David Filo e Jerry Yang, studenti di ingegneria elettronica all'Università di Stanford, che

avevano iniziato a creare pagine riassuntive con link ai siti Internet di loro interesse. Si è trasformato progressivamente in un vero e

proprio database, ricco di migliaia di pagine indicizzate. All'inizio del 1995 Mark Andreessen, cofondatore della Netscape, percepì

l'interesse dello strumento creato da Filo e Yang, e si offrì di contribuire alla trasformazione dell'iniziativa in una impresa

commerciale. Adesso Yahoo ha 14.300 dipendenti e un fatturato di circa 6,9 miliardi di dollari

http://dir.yahoo.com

http://search.yahoo.com/dir

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 11: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Open Directory

un altro, prezioso servizio di catalogazione sistematica dei siti è Open Directory http://dmoz.org/

Al posto di redattori professionisti, Open Directory si basa sulle segnalazioni di 82.150 “editors” volontari che indicizzano 4.601.104 siti in oltre 590.000 categorie.

Un sistema di controlli incrociati permette di verificare l'affidabilità delle segnalazioni e della loro categorizzazione.

Questa risorsa si basa sullo spirito collaborativo della rete, e sull'idea della libera condivisione di conoscenze tipica del movimento dell'open software. Ciò non ha

impedito tuttavia a Open Directory di diventare una realtà di tutto rispetto anche dal punto di vista commerciale.

è disponibile anche la versione italiana:

http://dmoz.org/World/Italiano/

Page 12: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Altri servizi di catalogazione sistematica

Oltre a Yahoo! e Open Directory esistono altri servizi di catalogazione sistematica delle risorse disponibili su Internet,

About http://www.about.com è una directory organizzata in circa 700 aree tematiche, ciascuna delle quali affidata a un volontario esperto

('guida').

Infogrid http://www.infogrid.com unisce le funzioni di Web directory e di metamotore di ricerca

Page 13: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Cataloghi sistematici in italiano

Come abbiamo visto sia Yahoo! che Open Directory hanno la versione italiana dei indici.

Fra gli altri servizi vanno segnalati :

Virgilio, che offre una scelta informativa ricca anche di articoli e suggerimenti http://www.virgilio.it

Arianna http://arianna.libero.it/ che permette ricerche sia sul proprio indice di siti italiani, sia sui principali motori internazionali.

SuperEva la cui directory è all'indirizzo http://dir.supereva.it che integra le segnalazioni di un'altra web directory italiana, quella di 100Links http://100links.supereva.it Il sito è nato nel dicembre 1999 ed è realizzato dalla società Dada, che sul modello di About si affida a delle guide per realizzare le schede tematiche dedicate alla segnalazione di

risorse Web.

Il Trovatore http://www.iltrovatore.it

Godado http://www.godado.it/canali.html orientato al marketing

ABCItaly, che dichiara un catalogo di 80.000 siti italiani http://www.abcitaly.com

Page 14: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Meta-indiciPermettono di interrogare contemporaneamente più

indici sistematici:

http://www.clusty.com

http://www.metacrawler.com

http://www.search.com

http://www.ixquick.com

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 15: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

I motori di ricerca per termini

Nei motori di ricerca per termini la ricerca avviene indicando una parola, o una combinazione di parole, che consideriamo associata

al tipo di informazione che vogliamo reperire

Page 16: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

I motori di ricerca per termini

I motori di ricerca utilizzano programmi chiamati "spiders” (crawler o robot) capaci di visitare continuamente una grande quantità di pagine web, leggere il testo contenuto nelle pagine ed estrarre quelle parole/termini che caratterizzano il sito. Per ogni pagina letta, lo spider cerca al suo interno e memorizza ogni link (collegamento) ad altri siti, aggiungendolo ad una lista di siti da visitare. In questo modo, attraverso un processo a catena, lo spider è in grado di ottenere una quantità enorme di indirizzi di siti e pagine web, riuscendo ad incrementare il numero di siti conosciuti molto più di quanto possa essere fatto dalle directory, che si basano su un lento meccanismo di iscrizione e valutazione dei siti, operato da una redazione.

Page 17: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

I motori di ricerca per termini

Per consentire ad uno spider di trovare agevolmente tutte le pagine che compongono un sito web bisogna fare in modo che da qualunque pagina del sito sia possibile risalire, direttamente o indirettamente, a tutte le altre pagine. Il sistema migliore è quello di inserire in ogni pagina del sito un link alla homepage. In questo modo, in qualunque pagina lo spider dovesse arrivare (magari seguendo un link trovato su un altro sito) potrà risalire alla pagina principale e, da lì, trovare tutte le altre pagine seguendo i link incontrati.

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 18: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

I motori di ricerca per termini

Gli spider non prendono in considerazione la grafica delle pagine ma focalizzano il loro lavoro di analisi esclusivamente sul testo. Questo significa che ogni immagine o animazione viene ignorata e che gli unici contenuti su cui lo spider si basa per valutare il sito sono quelli testuali. Qualunque immagine gif e jpeg anche se rappresenta un bottone testuale verrà ignorata. L'unico testo che lo spider potrà leggere sarà quello ASCII, contenuto nei tag del codice HTML. (ad oggi solo l’8% dei contenuti di una pagina animata con flash è indicizzato dagli spider di Google)

Page 19: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

I motori di ricerca per termini

Gli spiders considerano maggiormente le parole o frasi contenute:

•Nel titolo (tag TITLE): i motori di ricerca assegnano al titolo della pagina una importanza molto alta.

•Nei meta tag (DESCRIPTION, KEYWORDS, ROBOTS) ovvero tag speciali attraverso i quali si forniscono informazioni relative alla pagina web

•Nelle intestazioni (tag H1…) una sorta di sottotitoli che hanno un ruolo intermedio tra il titolo vero e proprio e il testo

•Nelle prime righe di testo di una pagina Web

•Nei testi che descrivono i link (tag A)

•Nelle parti evidenziate in neretto o in corsivo

•Nel nome del file (.html)

Page 20: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Prominenza e prossimità

Nel tentativo di realizzare pagine web fortemente focalizzate su

una keyword o keyphrase principale, è importante accertarsi che

tali parole-chiave compaiano nel testo della pagina in punti

particolarmente visibili. I motori di ricerca, infatti, possono

attribuire maggiore importanza a quei termini che occupano una

posizione ben visibile agli utenti. La "prominenza" delle keyword

(keyword prominence) e la loro "prossimità" (keyword proximity)

sono due importanti fattori che, se gestiti adeguatamente,

permettono di aumentare la rilevanza delle parole-chiave per una

pagina.

Page 21: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Prominenza (prominence)

Per prominenza di una keyword si intende la vicinanza tra la keyword e l'inizio di una generica zona di riferimento. Le zone di riferimento possono essere molteplici. Ad esempio, la prominenza di una keyword nel testo di una pagina consiste nella vicinanza tra la keyword e l'inizio del testo, la prominenza di una parola-chiave nel titolo della pagina si riferisce a quanto la parola-chiave è vicina all'inizio del titolo, e così via. Maggiore è la vicinanza con l'inizio della zona presa in considerazione, maggiore sarà la visibilità della keyword agli utenti e conseguentemente maggiore sarà il peso che i motori di ricerca assegneranno alla keyword.

Page 22: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Tra le zone della pagina che bisogna prendere in considerazione, quelle in cui è consigliato curare la prominenza sono il titolo (tag TITLE), le intestazioni (tag H1, H2, ecc.) e i vari paragrafi di testo della pagina, in particolar modo quelli che appaiono all’inizio. Scegliendo come parola-chiave ” comunicazione", ecco come potrebbe apparire il primo paragrafo del testo di una pagina:

Il ruolo sempre più importante della comunicazione in ambito sanitario impone un cambiamento radicale nel modo di lavorare. Gli operatori del settore sono chiamati a svolgere un compito importante per migliorare il rapporto con il paziente

Notate come la keyword principale appaia proprio all'inizio del testo, garantendole una visibilità superiore rispetto alle altre parole del paragrafo. Questa vicinanza soddisfa il requisito principale della prominenza, tuttavia è stato osservato che alcuni motori di ricerca ritengono similarmente visibili e attribuiscono dunque più peso anche alle parole presenti in fondo alla zona presa in considerazione.

Page 23: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Il nostro esempio potrebbe dunque variare nel seguente modo:

Il ruolo sempre più importante della comunicazione in ambito sanitario impone un cambiamento radicale nel modo di lavorare. Gli operatori del settore sono chiamati a svolgere un compito importante per migliorare la comunicazione con il paziente.

Adesso la keyword ”comunicazione" appare sia all'inizio che al termine del paragrafo. Sarebbe stato possibile ideare un testo in cui la parola chiave apparisse esattamente come prima e ultima parola del paragrafo, ma è preferibile adottare questa soluzione solo nei casi in cui il testo rimanga ben leggibile: a volte si ottiene un testo più "naturale" e gradevole alla lettura proprio evitando a tutti costi la coincidenza con i primi o gli ultimi termini del paragrafo.

Page 24: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Prossimità (proximity)

Per prossimità si intende la vicinanza reciproca delle keyword prese in considerazione. Se una keyword si ripete all'interno del testo e se tali ripetizioni sono vicine tra loro, si viene a creare quello che potremmo definire un "punto di concentrazione" delle parole-chiave, una concentrazione che può aumentare la rilevanza delle parole-chiave all'interno del paragrafo e di conseguenza nell'intera pagina. Ovviamente le ripetizioni di termini non devono pregiudicare il grado di leggibilità del testo. Inoltre, a volte, nel tentativo di aggiungere una keyword in più e aumentare così la prossimità, si rischia di diminuirne la prominenza.

Page 25: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Prossimità (proximity) (segue)

Nel paragrafo di testo finora usato come esempio:

Il ruolo sempre più importante della comunicazione in ambito sanitario impone un cambiamento radicale nel modo di lavorare. La comunicazione con il paziente è affidata agli operatori del settore che sono chiamati a svolgere un compito importante per cercare di migliorarla.

la seconda occorrenza della keyword è più distante dalla fine del paragrafo, quindi per acquistare in prossimità è stata persa un po' di prominenza. Aggiungere ulteriori ripetizioni potrebbe essere controproducente, appesantirebbe eccessivamente il paragrafo e rischierebbe di far suonare un campanello d'allarme durante i controlli di "genuinità" dei motori di ricerca.

Anche la formattazione grassetto o corsivo aumenta il peso della parola chiave

Page 26: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Oltre ai sistemi “leciti” sinora descritti esistono anche una serie di trucchi che aumentano artificiosamente il posizionamento di una pagina nei risultati di un motore di ricerca:

Scrivere il testo con lo stesso colore dello sfondo della pagina: questo permette di aumentare le parole chiave senza appesantire i testi delle pagine. Solo lo spider legge le parole chiave che non sono visibili all’utente.

Inserire il testo nei tag o meta tag che non vengono mostrati a video ma che servono solo per descrivere alcune parti delle pagine html (ad esempio i tag di commento)

Usare delle pagine di reindirizzamento da cui si transita solo per pochi secondi per poi essere dirottati sulla pagina principale

Uso della tecnica di Cloaking che consente di visualizzare contenuti diversi in base a chi li visita. Possono essere mostrate pagine zeppe di keywords agli spiders e pagine normali agli utenti.

Page 27: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Come segnalare un sito web ai motori di ricerca?

E’ importante distinguere la segnalazione dalla registrazione di un sito negli archivi di un motore di ricerca.

L’utente può solo segnalare l’esistenza di un sito perché la registrazione viene fatta dal motore di ricerca.

La segnalazione, inoltre, non garantisce affatto la registrazione

La segnalazione viene fattta tramite un apposito modulo presente sul motore di ricerca (alcuni motori come google richiedono solo la url principale, altri come altavista richiedono tutti gli url delle singole pagine)

http://www.google.it/intl/it/add_url.html

http://it.altavista.com/addurl/default

Page 28: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Una differenza rilevante tra i due sistemi è che il motore di ricerca per termini indicizza e restituisce singole pagine, quelle nelle quali compare il termine cercato, mentre l'indice sistematico indicizza interi siti, anche se ovviamente l'accesso al sito avviene anch'esso attraverso una pagina:

la sua pagina iniziale o home page.

Qual’è, a vostro giudizio, la differenza più rilevante tra un motore di ricerca per termini e un indice sistematico?

Page 29: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

La differenza tra motori di ricerca per termini e indici sistematici è quindi sostanziale, la confusione tra i due può essere accresciuta dal fatto che, molti indici sistematici, permettono l'accesso anche a un motore di

ricerca per termini, e viceversa.

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 30: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Fondato nel settembre 1998 da Larry Page e Sergey Brin, Google è diventato in pochissimi anni il più importante motore di ricerca su

Web, tanto da far nascere nel mondo anglosassone il neologismo to google, sinonimo di “cercare in rete”.

L’Azienda ha circa 17.000 dipendenti.

Utilizza 450.000 server GNU/Linux distribuiti in tutto il mondo

Il fatturato 2009 è stato di 10,6 miliardi di dollari

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 31: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.Studenti

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.Imprenditori

Page 32: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Il nome del sito è un gioco di parole basato sulla parola 'googol', inventata da Milton Sitotta, nipote del matematico Edward Kasner, per riferirsi al numero rappresentato da un '1' seguito da cento '0': simbolo dell'enorme quantità di informazione che il motore di ricerca gestisce.

Page 33: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Attualmente Google dichiara di indicizzare 1 trilione di indirizzi web (URL) (Google, oltre alle pagine HTML, indicizza anche diversi altri tipi di documenti come i file PDF i documenti Word e le presentazioni PowerPoint) http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Secondo stime attendibili il numero di pagine indicizzate da Google, in realtà, sarebbe di 40.000.000.000.000 (quarantamilamiliardi)

Page 34: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

La tecnologia di ricerca impiegata da Google: PageRank

Google utilizza una tecnologia basata su hardware e software avanzato. La velocità con cui possono essere eseguite le ricerche è attribuibile in parte all'efficienza dell'algoritmo di ricerca e in parte

all'elevato numero di PC collegati in rete, che, insieme, contribuiscono a creare un motore di ricerca superveloce.

Il nucleo principale del software è rappresentato da PageRank(TM), che consiste in un sistema che permette di classificare le pagine Web in ordine di importanza. Il sistema è stato sviluppato dagli

stessi Larry Page e Sergey Brin all'Università di Stanford. PageRank continua ad essere l'elemento chiave degli strumenti di

ricerca di Google.

Page 35: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Basato sullo specifico carattere "democratico" del Web, PageRank sfrutta la vastissima rete di collegamenti associati alle singole

pagine per determinarne il valore. In pratica, Google interpreta un collegamento dalla pagina A alla pagina B come un "voto"

espresso dalla prima in merito alla seconda. Tuttavia, non si limita a calcolare il numero di voti, o collegamenti, assegnati a una

pagina. Oltre a effettuare questo calcolo, Google prende in esame la pagina che ha assegnato il voto. I voti espressi da pagine

"importanti" hanno più rilevanza e quindi contribuiscono a rendere "importanti" anche le pagine collegate

Page 36: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Integrità

I complessi metodi di ricerca automatici di Google sono studiati per limitare al minimo le interferenze degli utenti. Sebbene

vengano visualizzati annunci pubblicitari accanto ad alcuni dei risultati più rilevanti, Google non vende spazi pubblicitari

all'interno dei risultati (cioè i clienti non possono acquistare un PageRank superiore). Le funzioni di ricerca di Google offrono un sistema semplice, onesto ed obiettivo per trovare siti Web di alta

qualità contenenti dati rispondenti a quelli ricercati.

Page 37: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

L'indirizzo di Google è http://www.google.com ma il sito è in grado di interpretare le impostazioni del browser relative alle

lingue preferite presentandosi automaticamente con l'interfaccia nella lingua preferita dall'utente.

La traduzione riguarda solo l'interfaccia, mentre il database sul quale viene svolta la ricerca è comunque lo stesso.

l'interfaccia inglese è sempre raggiungibile attraverso il link 'Google in English'.

alla pagina http://www.google.it/language_tools?hl=it potete scegliere l'interfaccia preferita fra una novantina di lingue diverse,

inclusi il latino e l'esperanto

Page 38: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Funzione Calcolatrice di Google

Per usare la funzione calcolatrice di Google, inserite nella spazio di ricerca l’espressione che volete risolvere e fate Invio o cliccate su

Cerca con Google. La calcolatrice può eseguire espressioni matematiche di semplice aritmetica (5+2*2 or 2^20) e più

complicate come (e^(i pi)+1). Potete anche sperimentare calcoli con altri sistemi matematici come esadecimale e binario.

http://www.google.it

Page 39: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Funzione conversione di valute

Usando espressioni come:

1 euro to USD http://www.google.it

converti 5 euro in pesos messicani

Definizione di una parola, di un acronimo o di un qualunque termine

define:parola

Page 40: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Funzione Ricerca di file .PDF

Google è in grado di ricercare anche file in formato .PDF (Adobe Portable Document Format). Sebbene i file .PDF non siano così numerosi come i file HTML, contengono spesso informazioni di

alta qualità non disponibili in altri formati. Per i file .PDF, al posto dell'indicazione Versione cache viene

visualizzata l'indicazione Versione testo, che contiene una copia del documento .PDF senza i relativi elementi di formattazione.Per visualizzare i risultati senza i collegamenti .PDF, digitare

"filetype:pdf" nel campo di ricerca insieme ai termini ricercati.http://www.google.it

Page 41: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Funzione pagine simili

sfrutta un algoritmo di 'filtraggio collaborativo' (basato cioè sull'analisi delle abitudini di navigazione degli utenti) elaborato

dalla società Alexa (di proprietà di Amazon) per collegare fra loro siti di argomento analogo.

Si può svolgere la ricerca direttamente dalla pagina di Alexa http://www.alexa.com

i risultati sono gli stessi che si otterrebbero usando la funzione di Google, ma i singoli siti sono accompagnati da una valutazione, da

note sul traffico del sito e da brevi recensioni.

Page 42: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Funzione Traduzione di pagine Web

Il nuovo programma di traduzione di Google (in versione Beta) consente di superare qualsiasi barriera linguistica alla

comunicazione globale. L'uso di questa tecnologia di traduzione automatica permette ad utenti di lingua inglese di accedere ad una

vasta gamma di pagine Web in altre lingue.

Se i risultati della ricerca comprendono pagine in lingue diverse dall'inglese, viene visualizzato anche il collegamento alla versione

inglese della pagina.

Per visualizzare la traduzione dei titoli e delle sintesi dei risultati delle ricerche in inglese, è possibile attivare l'opzione di traduzione

nella pagina Preferenze. Se si attiva questa opzione, Google traduce automaticamente i risultati della ricerca in inglese.

Page 43: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

GoogleWhacking

http://www.googlewhack.com è la ricerca di termini o espressioni per i

quali Google fornisce una sola, singola occorrenza.

Google Fight

http://www.googlefight.com è il confronto del numero di occorrenze di due termini all'interno degli indici di Google. In genere, si tratta di nomi di persone (da inserire tra apici). Un tipo particolare di Google Fight è

quello in cui si cerca di trovare due nomi con lo stesso numero di occorrenze.

Page 44: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

http://www.blackoogle.net/

http://www.thedarksideofgoogle.com/

http://www.lifegate.it/gaatle/

http://it.blackle.com/

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 45: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Uso degli operatori booleani per la ricerca avanzata

AND

OR

NOT

Page 46: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Altri motori di ricerca

Alltheweb http://www.alltheweb.com la migliore alternativa a Google. Realizzato da una società europea, la norvegese Fast, http://www.fast.no

Alltheweb è stato acquistato nel 2003 dalla statunitense Ouverture http://www.overture.com una delle società leader del settore, a sua volta

acquistata da Yahoo! nel luglio 2003.

Dichiarava di indicizzare a fine agosto 2003 oltre 3 miliardi di pagine.

Page 47: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Altri motori di ricerca per termini

Yahoo! (http://www.yahoo.com/).

MSN Search (http://search.msn.com/)

Altavista (http://www.altavista.com/)

Ask Jeeves (http://www.ask.com/)

HotBot (http://www.hotbot.com/)

Lycos (http://www.lycos.com/)

Page 48: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Alcune metarisorse

EZ-Find http://www.theriver.com/TheRiver/Explore/ezfind.html

I-tools http://www.itools.com/ http://www.itools.com/search/

http://www.stpt.com/pwrsrch.asp

http://www.faganfinder.com/

http://www.ithaki.net/

Page 49: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Il futuro: il Web agent

L’agente software è un programma in grado di svolgere per nostro conto determinate ricerche reagendo autonomamente ai risultati della ricerca

stessa 'filtrandoli' attraverso l'uso di criteri specifici. Il programma 'agente' potrebbe inoltre risiedere fuori dal nostro computer (potrebbe ad

esempio trattarsi di un programma ospitato da un server remoto, o addirittura 'distribuito' fra più server remoti) da un lato la necessità di

rimanere sempre collegati durante le ricerche e migliorando dall’altro le prestazioni sui tempi di ricerca.

Page 50: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Web semantico

XML costituirà la base ideale per la costrizione di quello che è stato battezzato "Semantic Web".

L'idea di fondo del web semantico è quella di far diventare la Rete in grado di capire le nostre richieste. I documenti non dovrebbero più risultare come delle "isole di dati", ma piuttosto come dei database aperti nei quali un "applicativo" possa distinguere le informazioni contenute, ricavandone solo quelle richieste. Il web semantico si propone d'inserire nell'architettura della Rete elementi in grado di consentire ad agenti informatici una certa capacità d'azione. Si potrebbe ad esempio immaginare che un motore di ricerca, scorrendo le pagine alla ricerca di una prenotazione aerea, fosse in grado di capire quali link portano alle pagine relative alla destinazione richiesta, quali siano i costi e gli orari dei biglietti, di confrontare tra loro le offerte e di coordinare la partenza con l'agenda dell'utente o con le limitazioni sui costi prima impostate.

Page 51: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

Tutto questo non in virtù di sistemi di intelligenza artificiale, ma molto più semplicemente in virtù di una marcatura dei documenti, attraverso un

linguaggio gestibile da tutte le applicazioni e dall'introduzione di vocabolari specifici, cioè di collezioni di frasi alle quali possano

associasi relazioni stabilite fra gli elementi marcati.

In pratica il web semantico per funzionare deve poter disporre di informazione strutturata e di regole di deduzione per gestirla, in modo da

accostare quelle informazioni che un'interrogazione ha richiesto.

Page 52: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

1991

nasce il World Wide Web

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 53: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

2005

What Is Web 2.0, Design Patterns and Business Models for the Next Generation of Software, by Tim O'Reilly http://oreilly.com/

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

Page 54: Dipartimento di Scienze della Comunicazione Maurizio Masini Via Roma 56, 53100 Siena Tel. 0577 234779 - E-mail: masini@unisi.it .

QuickTime™ e undecompressore

sono necessari per visualizzare quest'immagine.

2009 ?