Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III....

42
1 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 Capitolo III. Memorizzazione e ricerca nel mondo digitale

Transcript of Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III....

Page 1: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

1 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Capitolo III.

Memorizzazione e ricercanel mondo digitale

Page 2: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

2 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Accesso e conservazionenella digitalizzazione

Dalla carta ai bit

Prima parte

Page 3: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

3 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

La trasformazionedell’informazione digitale

• Si dice che trasformi il modo di imparare, il modo di comunicare, anche il modo di pensare

• Ma cambia anche il modo di catalogare le risorse, il modo di reperirle e il modo di interagire con esse

• Cambia il modo di conservare e accedere a informazioni, reperti, immagini, suoni, il patrimonio culturale

Page 4: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

4 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Le caratteristiche dell’info digitale

• FLESSIBILITÀ: è possibile modificarla facilmente, senza traccia di cancellatura o cambiamento

• RIPRODUCIBILITÀ: è possibile realizzare un numero infinito di copie dal file digitale senza usurarlo

• RICERCABILITÀ: è possibile fare ricerche approfondite anche incrociate su fonti diverse

• MACCHINA-DIPENDENZA: per la fruizione è necessario l’uso di una macchina adeguatamente programmata

Page 5: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

5 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Digitalizzazionetra accesso e conservazione

• La digitalizzazione garantisce l’accesso a distanza e alcuni strumenti di ricerca (dipende da come viene effettuata)

• Ma presenta molti problemi rispetto alla conservazione delle informazioni rispetto alla garanzia di integrità e autenticità

Page 6: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

6 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

I fattori di minacciaper la longevità delle informazioni

– I supporti

– Le macchine lettrici dei supporti

– La codifica

Page 7: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

7 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Supporti dei dati digitali

• Storicamente i supporti resistevano finché non interveniva un agente esterno a distruggerli

• Nel caso dei supporti digitali vale il contrario: se non si agisce per preservarli, si danneggiano irrimediabilmente

Page 8: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

8 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Lettori dei dati digitali

• L’invecchiamento delle macchine preposte alla lettura dei dati digitali può presentare veri rischi per la conservazione del materiale

• Se in linea teorica è possibile trasferire i dati digitali su un nuovo supporto per il quale essi sono leggibili, in pratica è molto difficile organizzare il trasferimento di questi dati in mancanza di una macchina per la lettura in funzione

• La situazione è aggravata dalle scelte del mercato HW/SW, che spinge per il continuo rinnovamento di lettori e supporti

Page 9: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

9 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Mantenere i dati codificatiin un formato leggibile

• Due metodi principali:– la continua ricodifica da una configurazione sw/hw a quella più nuova– la creazione di un software in grado di emulare formati sw obsoleti

• In tutti i casi, nonostante la migrazione di SW non proprietari, come l’ASCII, avvenga in modo corretto, di solito non viene prodotto lo stesso file da cui si era partiti

Page 10: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

10 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Strumenti di codifica che minacciano integrità, autenticità e longevità

• Compressione

• Criptaggio

• Interrelazione

• Custodia

• Traduzione

Page 11: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

11 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Compressione e criptaggio

• La compressione può avvenire senza perdite o con perdite. – Per esempio: in un formato molto comune come JPEG (compressione

con perdite) si eliminano alcune caratteristiche dell’immagine indistinguibile all’occhio umano, ma potenzialmente utili al trattamento meccanico

– La compressione con o senza perdite aggiunge un livello di complessità alla codifica

• Il criptaggio dei dati per il commercio elettronico aumenta la complessità della codifica, adottando SW spesso proprietari che non aderiscono agli standard condivisi

Page 12: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

12 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Interrelazione dei dati e longevità

• L’integrazione del lavoro di codifica prevede l’inclusione di vari file, interni o esterni al proprio sito

• L’opportunità offerta dall’integrazione è limitata dai rischi dei collegamenti non più attivi a causa anche solo di una semplice ristrutturazione del contenuto del sito richiamato

• Si pone il problema dell’eventuale duplicazione dei contenuti richiamati attraverso un link, ma questo apre questioni di copyright e di semplice opportunità

Page 13: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

13 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Custodia e traduzione dei dati• Chi dovrebbe custodire dati nati digitali come

corrispondenza, varianti letterarie o scientifiche?

• Come preservare l’autenticità dei file in presenza di continui atti di refresh per salvare i dati?

• Come garantire l’integrità e che cosa vuol dire l’identità dell’informazione digitale, dovendo continuamente ritradurre i dati in nuovi formati e nuovi ambienti?

Page 14: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

14 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Vantaggi e svantaggidell’accesso digitale

VANTAGGI• Il contenuto richiesto si può

mostrare senza l’intervento umano

• Le informazioni si possono reperire a distanza

• La qualità della digitalizzazione è tale da sostituire gli originali in quasi tutte le situazioni

• La ricerca full-text e quella incrociata su diverse collezioni è una grande opportunità per l’utente

SVANTAGGI• Gli altissimi costi dei processi di

digitalizzazione• I mutamenti tecnologici possono

vanificare gli sforzi per la conservazione del materiale in poco tempo

• L’invecchiamento dei supporti• L’obsolescenza delle codifiche• Mancanza di garanzie per la

permanenza e la stabilità del contenuto

Page 15: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

15 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Internet in sintesi• È una rete che evolve basandosi su necessità locali e decisioni distribuite

• È costituita da molte reti distinte e interconnesse, come WNET, vBNS, Abilene ecc.

• Nessuna istituzione o multinazionale controlla più di una piccola porzione

• È impresa impossibile produrre una mappa centralizzata

• È in continua evoluzione in modo incontrollato

È PIÙ SIMILE A UN ECOSISTEMACHE A UN DISPOSITIVO LOGICO

Page 16: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

16 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Seconda parte

La topologia del web

Page 17: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

17 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

P. Baran e il primo progetto di Internet

• Il progetto di Internet era stato concepito alla fine degli anni ’50 da Paul Baran della Rand Corporation, ma venne rifiutato perché per trasmettere i dati era previsto di inviare le informazioni a pacchetti, rendendo così necessario il passaggio dalla rete analogica a quella digitale

• AT&T che avrebbe dovuto realizzare la rete si rifiutò, sia per l’investimento, sia per il rischio di competizione che avrebbe creato

Page 18: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

18 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

I modelli di rete per Baranwww.rand.org/publications/RM/baran.list.html

Centralizzata DecentralizzataDistribuita

Page 19: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

19 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Reti casuali e reti sociali

• Nelle reti casuali tutti i nodi hanno lo stesso numero di link

• Le reti sociali sono invece dotate di alcuni nodi, i cosiddetti hubs o connettori, che sono molto più interconnessi degli altri, cosicché ci sono pochi gradi di separazione con gli altri nodi della rete

Page 20: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

20 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Milgram e lo small world problem• Nel 1967 lo psicologo sociale Stanley Milgram, professore a

Harvard pubblicò i suoi studi su quanto è piccolo il mondo

• L’esperimento consisteva nel cercare di capire quanto ci metteva una lettera ad arrivare a destinazione inviandola a persone scelte a caso e con la preghiera di spedirla solo a qualcuno che si conosceva su base personale

• Il risultato fu che in media c’erano 6 passaggi dal primo invio all’arrivo a destinazione

• La teoria è nota al grande pubblico per un film uscito negli anni ’90 dal titolo “6 gradi di separazione”

Page 21: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

21 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

La distanza tra i nodi della rete• Esistono 19 gradi di separazione in media tra i link,

secondo un recente risultato

• Il fenomeno degli Hub vuol dire che esistono alcuni nodi particolarmente interconnessi con tutto e altri nodi per nulla interconnessi

• Se tutti i nodi della rete si trovano alla stessa distanza dagli altri, devo saper scegliere la strada da imboccare, per trovare quello che cerco

• E inoltre la misura media della distanza dei nodi non rende conto della struttura topologica della rete…

Page 22: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

22 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Page 23: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

23 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

L’equilibrio precarionella crescita di Internet

• È evidente che i nodi della rete sono collegati tra loro per scelte di tipo economico

• Per modellare la rete è necessario prendere in considerazione 3 fattori: – i collegamenti preferenziali a nodi più attrezzati– la dipendenza dalla distanza– la struttura a frattale dei nodi che riproduce la densità della

popolazione (studiata in particolare per i router in US)

• Se uno di questi tre fattori prendesse il sopravvento, metterebbe in discussione l’attuale struttura topologica della rete

Page 24: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

24 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

I rischi di attacco a Internet• La grande integrazione della rete, mista alla presenza di

nodi hub, che centralizzano gran parte dei link, rende la rete molto solida rispetto ai malfunzionamenti (come un ecosistema)

• Il rischio di attacchi mirati ai nodi centrali, però, potrebbe esserle letale

• Disabilitare alcuni nodi centrali forse non sarebbe sufficiente di per sé a fare a pezzi la rete, ma le rotture a cascata degli altri nodi, causate dalla reindirizzamento del traffico verso nodi più piccoli, probabilmente farebbe il resto

Page 25: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

25 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Non solo information retrieval

Parte Terza

Page 26: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

26 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Strumenti di ricerca• Strumenti basati su indici per soggetto (es.

Yahoo, About.com, Looksmart)• Strumenti di ricerca di argomento specifico

(es. Internet Public Library, PAW)• Strumenti di ricerca a testo integrale (es.

Altavista, Excite, Infoseek) • Strumenti di ricerca per estrazione (es.

Lycos, Hotbot, Google, Alltheweb )• Strumenti di metaricerca (es. Metacrawler,

Vivisimo)

Page 27: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

27 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

OPAC e Virtual Library

• OPAC = Online Public Access Catalogue– È possibile salvare le ricerche sul proprio disco,

spedirsi i risultati della ricerca ecc.

• Archivi e data base– Documenti di vario genere e in formati diversi (HTML,

RTF, DOC, PDF, .asp ecc.)

• Biblioteca digitale– Vera e propria biblioteca di “testi” codificati secondo

standard uniformi

Page 28: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

28 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Cercare informazioni sul web

• Web “di superficie”: 5 miliardi di documenti

• Web “profondo”: oltre 500 miliardi di documenti

• Ma oscillano fra 800 milioni e 3 miliardi quelli indicizzati dai motori di ricerca

Page 29: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

29 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

“Surface Web”

Page 30: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

30 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

“Deep Web”

Page 31: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

31 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Cercare informazioni sul Web 2

• Come fare per migliorare la ricerca?– Uso delle funzioni avanzate di ricerca– Consultazione delle meta-risorse– Motori specializzati per contenuto e/o

per tipologia di file– Monitoraggio e controllo dei motori

Page 32: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

32 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Funzioni avanzate: operatori booleani

Operatore Simbolo Azione

AND & Ricerca documenti che contengono parole o frasi specifiche. Es. educazione AND creatività

OR | Ricerca documenti che contengono almeno una delle due parole

NOT ! Esclude il secondo termine dalla ricerca. Es. educazione NOT creatività

NEAR ~ Ricercherà documenti che contengano parole e frasi specificate per un numero non superiore a dieci parole per parte. Es. educazione nella scuola media NEAR uso dei media nella scuola

Page 33: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

33 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Searching for the WWW (1998)

• Nell’articolo, Lawrence e Giles si proponevano di dimostrare la credibilità dei motori di ricerca (MR) attraverso un robot, in grado di analizzare i risultati di un’interrogazione, paragonando i MR

• Il risultato fu invece una stima della grandezza del web

• HotBot, all’epoca il maggiore MR in termini di pagine “catalogate”, analizzava soltanto il 34% del web dell’epoca, che fu stimato intorno a 320 milioni di documenti

Page 34: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

34 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

I continenti di una rete orientata

Page 35: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

35 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

La crescita del web e dei MR• Attualmente Google indicizza 2,5-3 miliardi di documenti, ma

rimane sempre molto indietro rispetto alla crescita costante della rete

• Da ogni pagina, infatti si può raggiungere solo il 24% dei documenti collegati (vedi la topografia dei continenti del web)

• Per questo i MR permettono a chiunque di sottomettere le URL della sua risorsa, sperano così che i crawler, cominciando da un punto periferico della rete, possano trovare documenti nuovi, mai esplorati prima, da indicizzare

Page 36: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

36 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Altri difetti dei MR• Il problema della freschezza delle informazioni: più

è grande il repository, più si rischia di utilizzare informazioni vecchie (i crawler ci mettono del tempo per effettuare l’intero viaggio)

• La mancanza di capacità di indicizzare documenti e informazioni che non siano scritti in HTML. Per esempio: i database sono ignorati dai motori di ricerca, a meno che questi non si interfaccino con una metastruttura XML

• Il ruolo commerciale dei MR (modelli di business che si basano sul pagamento di un buon ranking da parte dei siti)

Page 37: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

37 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

I fattori del successodi Google e PageRank

• Un grandissimo repository di documenti (2,5-3 miliardi) strutturati attraverso un indice inverso e un buon tasso di aggiornamento delle risorse

• PageRank ha un algoritmo che attribuisce un punteggio a ogni documento, indicizzato sulla base di quanto è citato dal web, e trasferisce parte della sua autorità ai nodi che cita

• PageRank tiene conto della struttura relazionale del web e attribuisce autorità al contenuto di un nodo per il fatto di essere un hub del web

Page 38: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

38 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

I rischi di Google

• Risultati in cui si privilegiano i contenuti degli hub, che sono a loro volta commerciali

• Privilegi per le risorse della maggioranza linguistica (inglese su tutti, spagnolo su italiano ecc.)

• Risultati che escludono risorse nuove (e perciò poco annodate col resto della rete) e risorse marginali (appartenenti a comunità isolate o che hanno approcci non in mainstream)

• Sfruttamento dell’algoritmo (già in corso) con la costruzione di risorse ad hoc vuote da collegare ad arte alle pagine da pubblicizzare: le bolle di visibilità

• Oltre ai soliti problemi della limitatezza del repository rispetto al deep web (e topologia dei continenti) comuni a tutti i MR

Page 39: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

39 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Le attività della ricerca

• Scoperta Ricerca per keyword, metodi per esaminare dati strutturati e non strutturati, meccanismi di ranking flessibili, analisi e confronto di risultati provenienti da più query differenti

• Organizzazione del contenuto Classificazione automatica, machine-learning o guidata, di documenti in un corpus, mappatura tematica, generazione di tassonomie

• Gestione sociale delle conoscenze Ranking continuo e adattivo dei documenti, sulla base del loro successo sociale in un gruppo di interessi affini, reperimento degli esperti in un settore

Page 40: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

40 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Agenti e intelligenza sociale?

• Il sapere è un prodotto collettivo

• La conoscenza nasce dalla distribuzione di competenze e informazioni

• È impossibile prevederne lo sviluppo perché è creativo, complesso, dinamico e capace di apprendimento.

• Il sistema è perfettamente in grado (come l’ecosistema) di assorbire gli errori senza rifletterli nei risultati

• Prevede l’interazione con l’ambiente e gli altri agenti sociali in modo non strutturato

Page 41: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

41 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Problemi aperti

• La ricerca sul web è un’attività troppo complicata per usare solo tecniche di information retrieval

• La struttura del web ha impatto sull’efficacia dei metodi di ricerca adottati

• Il problema delle minoranze e la “bolla della visibilità”• Il ruolo degli agenti intelligenti: fuoco

sull’apprendimento, più che sul web semantico, che funziona agendo sulla struttura del web

• Una serie di problemi aperti di pertinenza delle scienze cognitive...

Page 42: Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

42 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Link utili• Virtual library http://vlib.org • Internet navigation tools http://riceinfo.rice.edu/Internet/ • Search engine watch http://searchenginewatch.com • Internet Archive http://www.archive.org• Search engine showdown http://www.notess.com/search/• Metacrawler http://www.metacrawler.com • Beaucoup http://www.beaucoup.com/• Vivisimo http://vivisimo.com• Open Directory Project: http://dmoz.org/Reference/Libraries