Corso Web 2.0: Trovare l'informazione

44
Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Lezione 16 TROVARE L’INFORMAZIONE Corso Web 2.0 2 Roberto Polillo [email protected] www.rpolillo.it 1 R.Polillo – Corso Web 2.0 (dic 2008)

description

Lezione 16 del corso sul Web 2.0 tenuto all'Università di Milano Bicocca. Vedi anche www.corsoweb20polillo.blogspot.com

Transcript of Corso Web 2.0: Trovare l'informazione

Page 1: Corso Web 2.0: Trovare l'informazione

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione

Lezione 16TROVARE L’INFORMAZIONE

Corso Web 2.02 Roberto Polillo

[email protected]

1R.Polillo – Corso Web 2.0 (dic 2008)

Page 2: Corso Web 2.0: Trovare l'informazione

La rete, oggi

Google conta un triliardo di URL unicihttp://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html

Come trovare informazioni che mi interessano?

La figura mostra una parte delle reti di classe C connesse a Internet nel 2004 (ogni nodo corrisponde a un IP address)

Da: http://commons.wikimedia.org/wiki/Image:Internet_map_1024.jpg 2

Page 3: Corso Web 2.0: Trovare l'informazione

Quattro modalità principali

1. Mediante servizi di directoryconsulto indici strutturati (tassonomie) di argomenti

2. Mediante strumenti di ricercadico che cosa mi interessa (query), e il motore di ricerca esamina la rete “al volo” (o “quasi”) e mi segnala le informazioni che ritiene pertinenti

3. Mediante servizi di feed dico che cosa mi interessa e ricevo automaticamente le informazione appena vengono pubblicate in rete (sorta di “abbonamenti all’informazione”)

4. Mediante esplorazione (browsing)navigo nella rete seguendo i link, sperando di trovare cose interessanti (“serendipity “)

3R.Polillo – Corso Web 2.0 (dic 2008)

Page 4: Corso Web 2.0: Trovare l'informazione

1. DIRECTORIES

4R.Polillo – Corso Web 2.0 (dic 2008)

Page 5: Corso Web 2.0: Trovare l'informazione

Tassonomia

Quando vogliamo “fare ordine” in una moltitudine di cose (per esempio per poter ritrovare quello che cerchiamo), le disponiamo secondo qualche criterio

In sostanza, raggruppiamo in classi elementi che hanno proprietà comuni: tassonomia (da taxis=ordine, nomos=regola)

Spesso l’ordinamento è di tipo gerarchico, “ad albero” (es.: la classificazione degli esseri viventi di Linneo

5R.Polillo – Corso Web 2.0 (dic 2008)

Page 6: Corso Web 2.0: Trovare l'informazione

Classificazione gerarchica: esempio

6R.Polillo – Corso Web 2.0 (dic 2008)

Page 7: Corso Web 2.0: Trovare l'informazione

7

Page 8: Corso Web 2.0: Trovare l'informazione

Esempio 1: Emporio celeste dei riconoscimenti benevoli

(enciclopedia cinese, J.L.Borges, 1973)

Gli animali si dividono in:

a) Appartenenti all’imperatore

b) Imbalsamati

c) Ammaestrati

d) Lattonzoli

e) Sirene

f) Favolosi

g) Cani randagi

h) Inclusi in questa classificazione

i) Che si agitano come pazzi

j) Innumerevoli

k) Disegnati con un pennello finissimo di peli di cammello

l) Eccetera

m)Che hanno ritto il vaso

n) Che da lontano sembrano mosche.9R.Polillo – Corso Web 2.0 (dic 2008)

Page 9: Corso Web 2.0: Trovare l'informazione

Esempio 3: YouTube

13R.Polillo – Corso Web 2.0 (dic 2008)

Agosto 2008

Novembre 2007

Page 10: Corso Web 2.0: Trovare l'informazione

Web directories

Storicamente, il primo strumento di ausilio alle ricerche nel web

Dalla “Jerry's Guide to the World Wide Web“, nel 1994 è nato Yahoo!

Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata da redattori

Oggi, directories “generaliste” (Google, Yahoo!) e directories verticali o di nicchia (la coda lunga…)

Sono moltissime, quindi ci sono anche directories di directories (con eventuale ranking), es. http://www.directorylist.org/

http://en.wikipedia.org/wiki/Web_directory

14R.Polillo – Corso Web 2.0 (dic 2008)

Page 11: Corso Web 2.0: Trovare l'informazione

Alcune directories generaliste

The Open Directory Project (ODP)

- Nota anche come DMOZ (Directory Mozilla)

- Directory gratuita, aperta e multilingua, posseduta da Netscape (dal 1998) e manutenuta da una comunità di editor volontari- http://www.dmoz.org/- http://en.wikipedia.org/wiki/Open_Directory_Project

Yahoo!Directory

- http://dir.yahoo.com/

Google Directory- Voci tratte da ODP e riposizionate tramite PageRank e altri algoritmi (vedi http://www.google.com/intl/it/dirhelp.html)- http://www.google.com/dirhp?hl=en

16R.Polillo – Corso Web 2.0 (dic 2008)

Page 12: Corso Web 2.0: Trovare l'informazione

2. RICERCA

19R.Polillo – Corso Web 2.0 (dic 2008)

Page 13: Corso Web 2.0: Trovare l'informazione

Ricerca

Molti metodi principali:

1.Ricerca sulla base di parole chiave associate all’informazione (per es. un video, una fotografia, un post di un blog,…)

2.Ricerca con analisi “intelligente” dell’informazione (per es. una pagina web): motori di ricerca

3.Ricerca con entrambi i metodi

20R.Polillo – Corso Web 2.0 (dic 2008)

Page 14: Corso Web 2.0: Trovare l'informazione

2.1 Ricerca con parole chiave

Chi definisce le parole chiave? I contenuti in rete non nascono da un processo

ordinato, che segua una tassonomia condivisa Sono tantissimi e crescono nel tempo Se i singoli siti del web 1.0 potevano considerarsi

relativamente “ordinati” (se progettati da bravi architetti dell’informazione), gli UCG del web 2.0 nascono in modo totalmente bottom-up

21R.Polillo – Corso Web 2.0 (dic 2008)

Page 15: Corso Web 2.0: Trovare l'informazione

Soluzione 1: tagging

Chi crea l’informazione le associa una o più parole chiave (etichette, tags) scelte liberamente, che a suo parere, la descrivono

Esempio:

Tags: mare barche spiaggia italia vacanze 2007

• Soluzione poco costosa, ma che riflette solo il punto di vista personale (parziale) del creatore

22R.Polillo – Corso Web 2.0 (dic 2008)

Page 16: Corso Web 2.0: Trovare l'informazione

Soluzione 2: social tagging

I tags vengono associati non solo da chi crea l’informazione, ma anche da coloro che la usano

Altri termini usati: Folksonomy = folk + taxonomy

(termine proposto da Thomas Vander Wal) infatti è un processo bottom-up, quindi diverso da una tassonomia (che nasce top-down)

tagging cooperativo sistema di classificazione distribuita

Soluzione poco costosa, che, col tempo, si affina e fa emergere la visione collettiva degli utenti dell’informa-zione

23R.Polillo – Corso Web 2.0 (dic 2008)

Page 17: Corso Web 2.0: Trovare l'informazione

Soluzione 3: taxonomy + folksonomy

Si pre-definiscono alcune grandi categorie di base, in modo top-down, e si affina la classificazione in modo bottom-up, con tagging cooperativo.

Esempi: YouTube usa tagging e tassonomia Flickr usa tagging e social tagging (su autorizzazione

dell’uploader o nei gruppi - discussione in: http://www.flickr.com/help/forum/5383/?search=social+tagging)

Slideshare usa tagging (anche geo-tagging)

24R.Polillo – Corso Web 2.0 (dic 2008)

Page 18: Corso Web 2.0: Trovare l'informazione

Analisi cognitiva del tagging (Rashmi Sinha)

Gli associo possibili

categorie

Scelgo le categorie più

adatte

Paralisi decisionale (°)

PROCESSO DI CATEGORIZZAZIONE (TASSONOMIA):

Considero l’oggetto da classificare

Considero l’oggetto da classificare

PROCESSO DI TAGGING:

Gli associo possibili categorie Non è necessario

scegliere

(°) In particolare nel digital world: categorie non ancora consolidate, le conseguenze di scelte sbagliate possono essere gravi: non trovo più i dati

http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/#more-112 )25R.Polillo – Corso Web 2.0 (dic 2008)

Page 19: Corso Web 2.0: Trovare l'informazione

Tagging

http://www.slideshare.net/vanderwal/tagging-to-folksonomy 27R.Polillo – Corso Web 2.0 (dic 2008)

Page 20: Corso Web 2.0: Trovare l'informazione

Social Tagging

28R.Polillo – Corso Web 2.0 (dic 2008)

Page 21: Corso Web 2.0: Trovare l'informazione

Social tagging: distribuzione dei tag

Coda lunga

http://www.slideshare.net/vanderwal/tagging-to-folksonomy31R.Polillo – Corso Web 2.0 (dic 2008)

Page 22: Corso Web 2.0: Trovare l'informazione

Tag cloud

Rappresentazione visiva dei tag usati in un sito web, raccolti “a nuvola”

I tag sono rappresentati con un corpo proporzionale alla loro importanza

“Importanza” = frequenza dell’uso del tag per taggare elementi oppure frequenza dell’accesso a elementi con quel tag

La lista è normalmente presentata in ordine alfabetico oppure in ordine di importanza del tag

http://it.wikipedia.org/wiki/Tag_cloud

32R.Polillo – Corso Web 2.0 (dic 2008)

Page 23: Corso Web 2.0: Trovare l'informazione

Esempio

Tag cloud di flickr:http://www.flickr.com/photos/tags/

Word cloud delle parole in un testo:http://tagcrowd.com/

33R.Polillo – Corso Web 2.0 (dic 2008)

Page 24: Corso Web 2.0: Trovare l'informazione

Geo-localizzazione

Significa associare a un oggetto (testo, immagine, video, blog post …) metadati di carattere geografico, per poi mostrarne la posizione su una cartina

Può essere intesa come una applicazione particolare del tagging (“geo-tagging”, http://en.wikipedia.org/wiki/Geotagging)

Esempi:http://flickr.com/photos/37385373@N00/161862482/http://81nassau.com/apnews/

34R.Polillo – Corso Web 2.0 (dic 2008)

Page 25: Corso Web 2.0: Trovare l'informazione

delicious

Video: Social bookmarking in plain English (3’25”)http://it.youtube.com/watch?v=x66lV7GOcNU

(da Commoncraft, http://it.youtube.com/user/leelefever )

38R.Polillo – Corso Web 2.0 (dic 2008)

Page 26: Corso Web 2.0: Trovare l'informazione

Un approccio diverso

Cronologia web di Google: storia, statistiche, segmentazioni, bookmarks

delle ricerche effettuate dall’utente http://www.google.com/history

44R.Polillo – Corso Web 2.0 (dic 2008)

Page 27: Corso Web 2.0: Trovare l'informazione

Motori di ricerca: storia

Primi motori: Archie 1990 (ftp con query a linea di comando), poi Veronica 1993 con Gopher. Ricerche solo sul titolo dei documenti.

Poi il Web e allora WebCrawler (1994) , il primo a indicizzare il testo delle pagine.

Primo motore valido: AltaVista (dal 1995), nato nei laboratori DEC, grazie all'Alpha a 64bit poteva lanciare un migliaio di crawler contemporaneamente. Il primo anno AltaVista rispose a 4 miliardi di ricerche!

Poi DEC venduta a Compaq che trasformò AltaVista in un portale (moda di quegli anni)

Yahoo! Nasce come “La guida al WWW di Jerry e David” con approccio a directory (v. www.archive.org ), grande successo grazie anche al legame con Netscape. Yahoo! Usò sempre il suo servizio a directory e quando introdusse la ricerca usò motori esterni: prima OpenText, AltaVista, poi Inktomi e Google.

48R.Polillo – Corso Web 2.0 (dic 2008)

Page 28: Corso Web 2.0: Trovare l'informazione

Google oggi

Il motore di ricerca di Google è in breve tempo diventato uno dei più importanti punti di accesso ad Internet.

Fare una ricerca con Google, oppure to google, sono diventati parte del linguaggio comune. Non lo sai? Chiedi a Google.

Oggi circa il 95% degli utenti usa i primi quattro motori: Google, Yahoo, Ms e AOL (G > 60%)

http://www.techcrunch.com/wp-content/uploads/2008/06/searchjune08b.jpg

51R.Polillo – Corso Web 2.0 (dic 2008)

Page 29: Corso Web 2.0: Trovare l'informazione

PageRank: esempio

Per spiegazione vedi: http://en.wikipedia.org/wiki/PageRank53R.Polillo – Corso Web 2.0 (dic 2008)

Page 30: Corso Web 2.0: Trovare l'informazione

Google: quali servizi di ricerca?

Ricerca: pagine web, gruppi, libri, blog, calendari, foto, video, mappe, notizie, nel desktop (!)http://www.google.com/intl/it/options/

Cronologia web: storia personale delle ricerche:http://www.google.com/support/toolbar/bin/answer.py?hl=it&answer=78184 59R.Polillo – Corso Web 2.0 (dic 2008)

Page 31: Corso Web 2.0: Trovare l'informazione

SEM/SEO

La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)

Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)

Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano

Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO

http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it

Altre frodi sono possibili con AdSense: a volte si usano robot, altre volte lavoratori offshore per cliccare sui link e far guadagnare i proprietari dei siti ospiti (si stima che circa il 30% dei budget pubblicitari vadano dispersi così)

61R.Polillo – Corso Web 2.0 (dic 2008)

Page 32: Corso Web 2.0: Trovare l'informazione

Il grande fratello?

Nel 2007 Big Brother Award Italia ha assegnato a Google il poco invidiabile premio di “Tecnologia più invasiva”, motivando in questo modo la decisione:

“Brin, uno dei fondatori di Google ama ripetere ai suoi dipendenti "Don't be evil." "Non fate i cattivi". E' diventato ormai lo slogan aziendale. L'ammirazione generale per Google ed i servizi che rende ed il suo successo come azienda non può nascondere che ogni ricerca, ogni e-mail, ogni post in Google Groups viene registrato ed analizzato, anche se in modo anonimo, e le analisi fatte puntano alla profilazione del navigatore. Google, date le dimensioni, è l'entità al mondo potenzialmente più pericolosa per la privacy.

Con il recentissimo acquisto di DoubleClick.com, gigante dell'advertising e della profilazione online, che ingigantisce le potenzialità di data mining di Google, sembrerebbe che il motto possa ora diventare "Don't be evil, buy the Devil!".

Altri dubbi su Google: http://www.ippolita.net/google

62R.Polillo – Corso Web 2.0 (dic 2008)

Page 33: Corso Web 2.0: Trovare l'informazione

Il punto di vista di Google

Google racconta quali informazioni vengono raccolte quando viene utilizzato il motore di ricerca e quello che viene fatto per proteggere la privacy degli utenti:

http://www.youtube.com/watch?v=iPkvNr2cpqg

63R.Polillo – Corso Web 2.0 (dic 2008)

Page 34: Corso Web 2.0: Trovare l'informazione

3. WEB FEEDS(vedi lezione apposita)

68R.Polillo – Corso Web 2.0 (dic 2008)

Page 35: Corso Web 2.0: Trovare l'informazione

4. ESPLORAZIONE

69R.Polillo – Corso Web 2.0 (dic 2008)

Page 36: Corso Web 2.0: Trovare l'informazione

71R.Polillo – Corso Web 2.0 (dic 2008)

Page 37: Corso Web 2.0: Trovare l'informazione

Serendipità

Nome coniato da Horace Walpole, tratto dalla fiaba persiana “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)

Significa scoprire una cosa non cercata e fortunata mentre se ne sta cercando un'altra

Richiede fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e attenti a riconoscere il valore di esperienze che non corrispondono alle originarie aspettative

http://en.wikipedia.org/wiki/Serendipity

http://serendip.brynmawr.edu/serendip/about.html

72R.Polillo – Corso Web 2.0 (dic 2008)

Page 38: Corso Web 2.0: Trovare l'informazione

Deep attention & hyper attention

“The shift in cognitive styles can be seen in the contrast between deep attention and hyper attention. Deep attention, the cognitive style traditionally associated with the humanities, is characterized by concentrating on a single object for long periods (say, a novel by Dickens), ignoring outside stimuli while so engaged, preferring a single information stream, and having a high tolerance for long focus times. Hyper attention, by contrast, is characterized by switching focus rapidly between different tasks, preferring multiple information streams, seeking a high level of stimulation, and having a low tolerance for boredom.

Katherine Hayles, (2007). "Hyperattention”

75R.Polillo – Corso Web 2.0 (dic 2008)

Page 39: Corso Web 2.0: Trovare l'informazione

www.stumbleupon.com

to stumble: inciampare, scoprire per caso È un social recommendation system di pagine web Fondato in Canada nel 2001 (?), poi acquisito da eBay nel 2007 Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito,

un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili

Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:

• http://www.stumbleupon.com/about/

76R.Polillo – Corso Web 2.0 (dic 2008)

Page 40: Corso Web 2.0: Trovare l'informazione

Fonte: http://www.stumbleupon.com/technology/R.Polillo – Corso Web 2.0 (dic 2008) 77

Page 41: Corso Web 2.0: Trovare l'informazione

stumbleupon: alcune funzioni

Possibilità di definire l’ambito dello “stumble” (es. flickr, youtube, .blogspot, .edu, .gov, …)

Pagina personale (pubblica o privata)

78R.Polillo – Corso Web 2.0 (dic 2008)

Page 42: Corso Web 2.0: Trovare l'informazione

stumbleupon: profilo personale (pubblico)

79R.Polillo – Corso Web 2.0 (dic 2008)

Page 43: Corso Web 2.0: Trovare l'informazione

stumbleupon: profilo personale (privato)

80R.Polillo – Corso Web 2.0 (dic 2008)

Page 44: Corso Web 2.0: Trovare l'informazione

Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”, reperibile presso il seguente sito Internet: http://creativecommons.org/licenses/by-nc-sa/2.5/it/.

Il corso completo si trova in http://corsoweb20polillo.blogspot.com/

Credits

Diverse lezioni di questo corso sono una rielaborazione delle slides del Corso sul Web 2.0 tenuto da Carlo Vaccari alla Università di Camerino nel dicembre 2007, disponibili con identica licenza Creative Commons dal blog del corso in http://camerino20.wordpress.com/.

Molto altro materiale è stato trovato in rete. Ho cercato di indicarne sempre la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile.

83R.Polillo – Corso Web 2.0 (dic 2008)