Post on 15-Jul-2015
CONSERVAZIONE DIGITALERiflessioni sulla
conservazione del web
Seminario per il corso Archivistica Informatica, a.a. 2012/2013, prof. Francesca Tomasi
“La conservazione degli archivi digitali costituisce da tempo uno dei problemi che più impegnano la
comunità scientifica e professionale sia dal punto di vista teorico e metodologico sia per quanto
riguarda l’individuazione e la messa in opera di soluzioni applicative di basso costo e facile
adozione”
• Mariella Guercio
Come fare a conservare la Cultura presente sul web? Il
problema non è di poco conto e riguarda riviste on-line, musei virtuali,
archivi digitali, testi, immagini, video. L’accelerazione tecnologica fa sì
che la frontiera teorica della riflessione su archivi e informatica sia in
continuo movimento e che i risultati raggiunti appaiano ben presto
superati da nuove opportunità e da nuove riflessioni. La tecnologia, con
la sua evoluzione, espone a tutti i rischi che derivano dalla rapida
obsolescenza.
I rischi specifici che i documenti digitali devono affrontare
• Scarsa durata fisica dei supporti per la memorizzazione
dei dati (cd, dvd, floppy, ecc.)
• Obsolescenza dell’hardware per la decodifica dei supporti
(lettori di vario tipo)
• Obsolescenza del software per l’interpretazione dei dati
(word processor, programmi di grafica, browser, ecc.)
• Obsolescenza dell’hardware per l’esecuzione dei
programmi di interpretazione (microprocessori, computer,
ecc)
I primi personal computer stanno alla tecnologia attuale come i fonografi a manovella stanno agli
impianti di riproduzione di suono di ultima genetazione.
-Giancarlo Buzzanca
Azioni concrete mirate alla conservazione
• Una autorevole conferma nella direzione di un
impegno serio da parte delle istituzioni operanti
nel mondo della cultura proviena dalla Charter for
the Preservation of the Digital Heritage (CPDH)
adottata dall’Unesco (2003 ca.)
• Bibliotecari e archivisti hanno posto i temi della
conservazione del digitale al centro di un dibattito
CPDH
• Il documento ha posto i documenti digitali sullo stesso piano
di quelli esistenti su supporti e in formati tradizionali
• Esigenza di attività mirate alla conservazione (assicurare
trasmissione al futuro e accessibilità nel tempo)
• Uno degli strumenti chiave è il deposito legale o volontario dei
documenti digitali in archivi, biblioteche, musei e altri depositi
pubblici Associazione italiana biblioteche. Nuova legge sul
deposito legale e documenti digitali
• La conservazione è quindi compito di archivisti e bibliotecari.
(Da sottolineare, in particolare, il progetto ERPANET)
Il web al centro delle discussioni
• Problemi di archiviazione, indicizzazione, conservazione
fisica degli archivi, reperibilità ed effettiva accessibilità alla
fonte archiviata
• Problema della fragilità intrinseca del digitale come
questione di carattere culturale
• Si inizia a circoscrivere l’ambito di interesse
delimitandone contenuti e dimensioni
• Web = non solo pagine ipertestuali tradizionalmente
intese ma anche forum, blog, basi di dati accessibili
esclusivamente attraverso maschere di query, pagine a
livelli non accessibili (DEEP WEB, che ha dimensioni
inusitate)
Quanto è grande internet? Quante informazioni contiene?
• Tabella dati 2003
• La grandezza di internet
oggi
Fonte http://www.worldwidewebsize.com/
Dimensioni della Library of Congress
• I dati riguardanti la grandezza di internet hanno maggiore evidenza se
confrontati con quelli calcolati per la LC, che è la maggiore tra le biblioteche
esistenti al mondo
• La dimensioni di 20-terabyte che vengono comunemente attribuite alla
Library of Congress, derivano dall’aver assunto che la LC ha 20 milioni di libri
e che ciascuno di essi richieda 1 MB. Naturalmente la LC è composta da
molti altri materiali, affianco al testo stampato, e questi materiali potrebbero
esigere molto spazio in più:• tredici milioni di fotografie, le quali seppure fossero compresse in files JPG da 1 Mb ciascuno,
potrebbero richiedere 13 TB;
• i 4 milioni di mappe raccolte nella Geography Division potrebbe essere scansionate e richiedere
almeno 200 TB;
• la LC possiede oltre 500 mila film, calcolando 1 GB per ciascuno questo potrebbe significare 500
TB (molti film non sono a colori);
• la massa maggiore dovrebbe esse costituita dai 3,5 milioni di registrazioni sonore le quali,
considerando un CD per ciascuna di queste, significherebbe almeno 2.000 TB.
Tutto ciò porta il peso totale ad almeno 3.000 TB (Fonte: Michael Lesk, How much information
is there in the world)
Non solo quantità, STRUTTURA ADEGUATA• Quantità enormi di dati significa altrettano enormi quantità di
supporti di registrazione delle informazioni e loro cura sia fisica
che organizzativa
• Il problema della conservazione non è solo un problema
quantitativo
• Conservare il web = disporre di adeguati strumenti di raccolta
(WEB CRAWLER), validazione delle attività di raccolta
perautenticità e per completezza, selezione e scarto del
materiale di base
• Investire enormi quantità di fondi
• Delimitare un campo preciso di intervento (ad esempio le
biblioteche nazionali o quelle orientate a finalità specifiche)
• Per le biblioteche nazionali il campo corrisponde agli ambiti
individuati dai domini nazionali (country codes top level
domain) = le biblioteche nazionali centrali in Italia registrano e
conservano i siti il cui CC sia .it
• Problema della lingua (possono aver attivato un website in
lingua straniera su server italiano) e del server su cui risiede
l’informazione (il sito in lingua italiana e con dominio .it
potrebbe essere ospitato su un server nella città di Hong Kong)
• Punto di vista pratico = disporre di adeguati supporti per la
memorizzazione sia che questa venga compiuta una volta per
tutte sia che questa sia stata progettata ripetuta nel tempo
intervalli definiti e secondo la modalità di download
La situazione oggi
• Sperimentalismo quale metodologia di raccolta, quale livello di
selezione e scarto della fonte e quali strumenti tecnologici sono da
adottare e quali sono gli eventuali problemai legati alla
registrazione di siti protetti da vincoli di copyright?
• Tentativi come INTERNET ARCHIVE
• Da “conservazione integrale del dato” a “selezione e
catalogazione” tipica degli archivisti
• Esigenza di conoscere, indicizzare problema della dimensione
del web
• La pubblicazione di documenti è diventata ancora più semplice e
alla portata di chiunque problema dell’autorevolezza e della
fondatezza dei materiali e del sapere esposto nella rete
METADATI
• Selezione, raccolta e indicizzazione delle pagine dei siti introducono il tema
dei METADATI: I metadati esprimono in un linguaggio strutturato e codificato,
alcune caratteristiche relative all’oggetto, o alla classe d’oggetti, cui sono
associati
• Web come incunabolo digitale
• Una delle funzioni essenziali per archiviare il web è quella della descrizione
codificata
• È raccomandato l’utilizzo dei metadati all’interno del linguaggio HTML in fase
di creazione (http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4)
• Per la struttura dei metadati numerosi sono gli standard accettati e tra questi
il Dublin Core Metadata Initiative è quello che ha raccolto intorno a sé
consensi (http://dublincore.org)
• In alternativa è possibile ricavare automaticamente dati dalla pagina
mediante appositi software
• ICCU, per quanto riguarda le linee guida e gli standard per i metadati per
quanto concerne la situazione italiana
Esempi di progetti
• Internet Archive
• International Internet Preservation
Consortium
• National Library of Australia (PADI e
PANDORA)
Internet Archive
• Sta costruendo una biblioteca digitale dei siti internet così come degli
altri prodotti culturali che siano in formato digitale
• Accesso libero e gratuito al patrimonio scritto e alle altre forma di
scrittura è essenziale per motivi educativi e per il mantenimento di
una società aperta
• 1996 per iniziativa di Alexa Research e altre società e istituzioni
americane
• WAYBACK MACHINE = interfaccia utente che consente di prendere
visione e navigare nei siti ed è uno dei siti più popolari al web (222th
http://www.alexa.com/siteinfo/archive.org). La sua dimensione ha
raggiunto oltre 400 TB nel 2002, e oggi siamo arrivati a 5 petabytes
http://blog.archive.org/2013/01/09/updated-wayback/
• L’archivio è composto dalle pagine raccolte da Alexa internet a partire
dal 1996 (240,000,000,000 URLs)
IIPCInternational Internet Presevation Consortium
• Fondato nel 2003 al fine di preservare il contenuto di Internet per le future
generazioni ( to acquire, preserve and make accessible knowledge and
information from the Internet for future generations everywhere, promoting
global exchange and international relations.)
• Esempio attuale : http://netpreserve.org/about-us/news/twitter-archive-update
• Della collaborazione fa parte anche la Biblioteca nazionale di Firenze
• Obiettivi:
• rendere possibile che una parte essenziale di Internet possa essere
preservato garantendo la capacità di archiviare il contenuto ed accedere
nel tempo ai dati archiviati;
• spingere allo sviluppo ed all’uso di strumenti, tecnologie e standard che
rendano possibile la creazione di archivi internazionali;
• incoraggiare e assistere le biblioteche nazionali a formulare programmi di
archiviazione e conservazione del Web.
National Library of Australia• Considera l’attività di digitalizzazione obiettivo prioritario
• Il termine “to preserve” è adottato nelle linee guida per identificare tutte quelle fasi
che includono l’archiviazione, l’organizzazione, la descrizione, l’aggiornamento e
la migrazione dei dati tutte compiute per assicurare long term access
• Sono stati attivati due diversi progetti:
• PADI (Preserving Access to Digital Information)
• Provvedere meccanismi che possano consentire che l’informazione in format sia gestita
con una appropriate considerazione alle esigenze della conservazione e dell’accesso, nel
tempo, alle stesse fonti
• Obiettivi:
• Favorire lo sviluppo di strategie e linee guida per la preservazione dell’accesso alle
informazioni digitali
• Sviluppare e mantenere un sito web dedicato all’informazione e alla promozione
dell’iniziativa
• Identificare e promuovere progetti ed attività rilevanti nel settore
• PANDORA
• La finalità è quella di raccogliere e assicurare long-term access a pubblicazioni on line
selezionate e a siti che siano relativi all’Australia
• Istituire un archivio digitale delle pubblicazioni elettroniche a livello nazionale
BIBLIOGRAFIA
• GUERCIO Mariella, Archivistica informatica : i documenti
in ambiente digitale. Roma, Carocci, 2002;
SITOGRAFIA• Giancarlo Buzzanca. Digit fugit ovvero osservazioni sulla conservazione del
web. In: Minerva, knowledge base,
2006. (http://www.minervaeurope.org/publications/qualitycriteria-
i/indice0512/buzzancadigitfugit.html)
• http://cdn.thenextweb.com/
• http://worldwidewebsize.com/
• http://www.alexa.com
• http://blog.archive.org