Conservazione digitale

17
CONSERVAZIONE DIGITALE Riflessioni sulla conservazione del web Seminario per il corso Archivistica Informatica, a.a. 2012/2013, prof. Francesca Tomasi

Transcript of Conservazione digitale

Page 1: Conservazione digitale

CONSERVAZIONE DIGITALERiflessioni sulla

conservazione del web

Seminario per il corso Archivistica Informatica, a.a. 2012/2013, prof. Francesca Tomasi

Page 2: Conservazione digitale

“La conservazione degli archivi digitali costituisce da tempo uno dei problemi che più impegnano la

comunità scientifica e professionale sia dal punto di vista teorico e metodologico sia per quanto

riguarda l’individuazione e la messa in opera di soluzioni applicative di basso costo e facile

adozione”

• Mariella Guercio

Come fare a conservare la Cultura presente sul web? Il

problema non è di poco conto e riguarda riviste on-line, musei virtuali,

archivi digitali, testi, immagini, video. L’accelerazione tecnologica fa sì

che la frontiera teorica della riflessione su archivi e informatica sia in

continuo movimento e che i risultati raggiunti appaiano ben presto

superati da nuove opportunità e da nuove riflessioni. La tecnologia, con

la sua evoluzione, espone a tutti i rischi che derivano dalla rapida

obsolescenza.

Page 3: Conservazione digitale

I rischi specifici che i documenti digitali devono affrontare

• Scarsa durata fisica dei supporti per la memorizzazione

dei dati (cd, dvd, floppy, ecc.)

• Obsolescenza dell’hardware per la decodifica dei supporti

(lettori di vario tipo)

• Obsolescenza del software per l’interpretazione dei dati

(word processor, programmi di grafica, browser, ecc.)

• Obsolescenza dell’hardware per l’esecuzione dei

programmi di interpretazione (microprocessori, computer,

ecc)

I primi personal computer stanno alla tecnologia attuale come i fonografi a manovella stanno agli

impianti di riproduzione di suono di ultima genetazione.

-Giancarlo Buzzanca

Page 4: Conservazione digitale

Azioni concrete mirate alla conservazione

• Una autorevole conferma nella direzione di un

impegno serio da parte delle istituzioni operanti

nel mondo della cultura proviena dalla Charter for

the Preservation of the Digital Heritage (CPDH)

adottata dall’Unesco (2003 ca.)

• Bibliotecari e archivisti hanno posto i temi della

conservazione del digitale al centro di un dibattito

Page 5: Conservazione digitale

CPDH

• Il documento ha posto i documenti digitali sullo stesso piano

di quelli esistenti su supporti e in formati tradizionali

• Esigenza di attività mirate alla conservazione (assicurare

trasmissione al futuro e accessibilità nel tempo)

• Uno degli strumenti chiave è il deposito legale o volontario dei

documenti digitali in archivi, biblioteche, musei e altri depositi

pubblici Associazione italiana biblioteche. Nuova legge sul

deposito legale e documenti digitali

• La conservazione è quindi compito di archivisti e bibliotecari.

(Da sottolineare, in particolare, il progetto ERPANET)

Page 6: Conservazione digitale

Il web al centro delle discussioni

• Problemi di archiviazione, indicizzazione, conservazione

fisica degli archivi, reperibilità ed effettiva accessibilità alla

fonte archiviata

• Problema della fragilità intrinseca del digitale come

questione di carattere culturale

• Si inizia a circoscrivere l’ambito di interesse

delimitandone contenuti e dimensioni

• Web = non solo pagine ipertestuali tradizionalmente

intese ma anche forum, blog, basi di dati accessibili

esclusivamente attraverso maschere di query, pagine a

livelli non accessibili (DEEP WEB, che ha dimensioni

inusitate)

Page 7: Conservazione digitale

Quanto è grande internet? Quante informazioni contiene?

• Tabella dati 2003

• La grandezza di internet

oggi

Fonte http://www.worldwidewebsize.com/

Page 8: Conservazione digitale

Dimensioni della Library of Congress

• I dati riguardanti la grandezza di internet hanno maggiore evidenza se

confrontati con quelli calcolati per la LC, che è la maggiore tra le biblioteche

esistenti al mondo

• La dimensioni di 20-terabyte che vengono comunemente attribuite alla

Library of Congress, derivano dall’aver assunto che la LC ha 20 milioni di libri

e che ciascuno di essi richieda 1 MB. Naturalmente la LC è composta da

molti altri materiali, affianco al testo stampato, e questi materiali potrebbero

esigere molto spazio in più:• tredici milioni di fotografie, le quali seppure fossero compresse in files JPG da 1 Mb ciascuno,

potrebbero richiedere 13 TB;

• i 4 milioni di mappe raccolte nella Geography Division potrebbe essere scansionate e richiedere

almeno 200 TB;

• la LC possiede oltre 500 mila film, calcolando 1 GB per ciascuno questo potrebbe significare 500

TB (molti film non sono a colori);

• la massa maggiore dovrebbe esse costituita dai 3,5 milioni di registrazioni sonore le quali,

considerando un CD per ciascuna di queste, significherebbe almeno 2.000 TB.

Tutto ciò porta il peso totale ad almeno 3.000 TB (Fonte: Michael Lesk, How much information

is there in the world)

Page 9: Conservazione digitale

Non solo quantità, STRUTTURA ADEGUATA• Quantità enormi di dati significa altrettano enormi quantità di

supporti di registrazione delle informazioni e loro cura sia fisica

che organizzativa

• Il problema della conservazione non è solo un problema

quantitativo

• Conservare il web = disporre di adeguati strumenti di raccolta

(WEB CRAWLER), validazione delle attività di raccolta

perautenticità e per completezza, selezione e scarto del

materiale di base

• Investire enormi quantità di fondi

• Delimitare un campo preciso di intervento (ad esempio le

biblioteche nazionali o quelle orientate a finalità specifiche)

Page 10: Conservazione digitale

• Per le biblioteche nazionali il campo corrisponde agli ambiti

individuati dai domini nazionali (country codes top level

domain) = le biblioteche nazionali centrali in Italia registrano e

conservano i siti il cui CC sia .it

• Problema della lingua (possono aver attivato un website in

lingua straniera su server italiano) e del server su cui risiede

l’informazione (il sito in lingua italiana e con dominio .it

potrebbe essere ospitato su un server nella città di Hong Kong)

• Punto di vista pratico = disporre di adeguati supporti per la

memorizzazione sia che questa venga compiuta una volta per

tutte sia che questa sia stata progettata ripetuta nel tempo

intervalli definiti e secondo la modalità di download

Page 11: Conservazione digitale

La situazione oggi

• Sperimentalismo quale metodologia di raccolta, quale livello di

selezione e scarto della fonte e quali strumenti tecnologici sono da

adottare e quali sono gli eventuali problemai legati alla

registrazione di siti protetti da vincoli di copyright?

• Tentativi come INTERNET ARCHIVE

• Da “conservazione integrale del dato” a “selezione e

catalogazione” tipica degli archivisti

• Esigenza di conoscere, indicizzare problema della dimensione

del web

• La pubblicazione di documenti è diventata ancora più semplice e

alla portata di chiunque problema dell’autorevolezza e della

fondatezza dei materiali e del sapere esposto nella rete

Page 12: Conservazione digitale

METADATI

• Selezione, raccolta e indicizzazione delle pagine dei siti introducono il tema

dei METADATI: I metadati esprimono in un linguaggio strutturato e codificato,

alcune caratteristiche relative all’oggetto, o alla classe d’oggetti, cui sono

associati

• Web come incunabolo digitale

• Una delle funzioni essenziali per archiviare il web è quella della descrizione

codificata

• È raccomandato l’utilizzo dei metadati all’interno del linguaggio HTML in fase

di creazione (http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4)

• Per la struttura dei metadati numerosi sono gli standard accettati e tra questi

il Dublin Core Metadata Initiative è quello che ha raccolto intorno a sé

consensi (http://dublincore.org)

• In alternativa è possibile ricavare automaticamente dati dalla pagina

mediante appositi software

• ICCU, per quanto riguarda le linee guida e gli standard per i metadati per

quanto concerne la situazione italiana

Page 13: Conservazione digitale

Esempi di progetti

• Internet Archive

• International Internet Preservation

Consortium

• National Library of Australia (PADI e

PANDORA)

Page 14: Conservazione digitale

Internet Archive

• Sta costruendo una biblioteca digitale dei siti internet così come degli

altri prodotti culturali che siano in formato digitale

• Accesso libero e gratuito al patrimonio scritto e alle altre forma di

scrittura è essenziale per motivi educativi e per il mantenimento di

una società aperta

• 1996 per iniziativa di Alexa Research e altre società e istituzioni

americane

• WAYBACK MACHINE = interfaccia utente che consente di prendere

visione e navigare nei siti ed è uno dei siti più popolari al web (222th

http://www.alexa.com/siteinfo/archive.org). La sua dimensione ha

raggiunto oltre 400 TB nel 2002, e oggi siamo arrivati a 5 petabytes

http://blog.archive.org/2013/01/09/updated-wayback/

• L’archivio è composto dalle pagine raccolte da Alexa internet a partire

dal 1996 (240,000,000,000 URLs)

Page 15: Conservazione digitale

IIPCInternational Internet Presevation Consortium

• Fondato nel 2003 al fine di preservare il contenuto di Internet per le future

generazioni ( to acquire, preserve and make accessible knowledge and

information from the Internet for future generations everywhere, promoting

global exchange and international relations.)

• Esempio attuale : http://netpreserve.org/about-us/news/twitter-archive-update

• Della collaborazione fa parte anche la Biblioteca nazionale di Firenze

• Obiettivi:

• rendere possibile che una parte essenziale di Internet possa essere

preservato garantendo la capacità di archiviare il contenuto ed accedere

nel tempo ai dati archiviati;

• spingere allo sviluppo ed all’uso di strumenti, tecnologie e standard che

rendano possibile la creazione di archivi internazionali;

• incoraggiare e assistere le biblioteche nazionali a formulare programmi di

archiviazione e conservazione del Web.

Page 16: Conservazione digitale

National Library of Australia• Considera l’attività di digitalizzazione obiettivo prioritario

• Il termine “to preserve” è adottato nelle linee guida per identificare tutte quelle fasi

che includono l’archiviazione, l’organizzazione, la descrizione, l’aggiornamento e

la migrazione dei dati tutte compiute per assicurare long term access

• Sono stati attivati due diversi progetti:

• PADI (Preserving Access to Digital Information)

• Provvedere meccanismi che possano consentire che l’informazione in format sia gestita

con una appropriate considerazione alle esigenze della conservazione e dell’accesso, nel

tempo, alle stesse fonti

• Obiettivi:

• Favorire lo sviluppo di strategie e linee guida per la preservazione dell’accesso alle

informazioni digitali

• Sviluppare e mantenere un sito web dedicato all’informazione e alla promozione

dell’iniziativa

• Identificare e promuovere progetti ed attività rilevanti nel settore

• PANDORA

• La finalità è quella di raccogliere e assicurare long-term access a pubblicazioni on line

selezionate e a siti che siano relativi all’Australia

• Istituire un archivio digitale delle pubblicazioni elettroniche a livello nazionale

Page 17: Conservazione digitale

BIBLIOGRAFIA

• GUERCIO Mariella, Archivistica informatica : i documenti

in ambiente digitale. Roma, Carocci, 2002;

SITOGRAFIA• Giancarlo Buzzanca. Digit fugit ovvero osservazioni sulla conservazione del

web. In: Minerva, knowledge base,

2006. (http://www.minervaeurope.org/publications/qualitycriteria-

i/indice0512/buzzancadigitfugit.html)

• http://cdn.thenextweb.com/

• http://worldwidewebsize.com/

• http://www.alexa.com

• http://blog.archive.org