Biblioteconomia: principi e questioni -...

25
Biblioteconomia: principi e questioni A cura di Giovanni Solimine e Paul Gabriele Weston Carocci editore

Transcript of Biblioteconomia: principi e questioni -...

Biblioteconomia:principi e questioni

A cura di Giovanni Solimine e Paul Gabriele Weston

Carocci editore

15

Biblioteca digitaledi Gianfranco Crupi

15.1Definizioni e contesti

La biblioteca, in quanto modello documentario per sua natura ipertestuale –«struttura non centralizzata di relazioni complesse» (McGann, 2002, p. 80) –,ha rappresentato nelle formulazioni dei primi teorici delle tecnologie informa-tiche lo spazio elettivo per sperimentare e applicare la convergenza al digitaledei processi di elaborazione, memorizzazione, recupero e distribuzione dellaconoscenza.

Un modello sperimentale, che ha conosciuto la sua prima, prototipale ap-plicazione nel dispositivo ideato da Vannevar Bush, il Memex (Bush, 1945), epoi, intorno agli anni sessanta, nelle elaborazioni concettuali di Theodor HolmNelson e di Joseph Carl Robnet Licklider: Nelson conia il termine “docuver-so” (a indicare l’universo dei dati leggibili dalla macchina) e, successivamente,“ipertesto”, sul cui principio logico elabora un visionario progetto denominatoXanadu 1; Licklider formula l’idea di una rete globale di computer (Interga-lactic Computer Network), con un’intuizione che anticipa genialmente le suc-cessive elaborazioni teoriche che daranno vita a Internet e al World WideWeb 2.

Queste intuizioni sono anche il frutto di una visione culturale che affonda

1. Xanadu rappresentava nella visione di Nelson l’evoluzione su grande scala del concettodi ipertesto, una sorta di “ipertesto planetario”, che per mezzo di associazioni logiche, link e unarete capillare di computer in cui i documenti esistenti venivano archiviati, avrebbe permesso direperire qualsiasi tipo di documento testuale e multimediale (Nelson, 1992).

2. «It seems reasonable to envision, for a time 10 or 15 years hence, a “thinking center”that will incorporate the functions of present-day libraries together with anticipated advances ininformation storage and retrieval [...]. The picture readily enlarges itself into a network of suchcenters, connected to one another by wide-band communication lines and to individual users byleased-wire services. In such a system, the speed of the computers would be balanced, and thecost of the gigantic memories and the sophisticated programs would be divided by the numberof users» (Licklider, 1960, p. 7). Nel 1965 Licklider darà alle stampe il libro Libraries of theFuture, in cui pone le basi concettuali per il futuro sviluppo del computer e per quella chetrent’anni più tardi sarebbe stata chiamata “biblioteca digitale” (Licklider, 1965).

327

le sue più lontane radici nell’idea della biblioteca universale; più che un’idea,un mito, non solo letterario, che è alla base di antiche e monumentali impresebibliografiche, da Gesner a Otlet e La Fontaine, per non spingerci oltre. Unmito, di cui la biblioteca digitale rappresenta il suo più naturale esito con-temporaneo.

Il termine “biblioteca digitale” si attesta tra il 1992 e il 1993, in forte enon casuale contiguità con la nascita del Web, sancendo così «la convergenzateorica e tecnica tra biblioteche digitali e sistemi ipertestuali distribuiti» (Ciot-ti, 2003, p. 108) 3. Con lo sviluppo delle tecnologie dell’informazione e dellacomunicazione, esso è entrato a far parte del lessico biblioteconomico in uncontesto semantico che lo vedrà ambiguamente affiancato – per sinonimia, di-stinzione o opposizione – ai termini biblioteca “elettronica”, “virtuale”, “mul-timediale”, “ibrida”. Le differenti connotazioni semantiche testimoniano dellaprofonda ridefinizione del concetto stesso di biblioteca a partire dai radicalicambiamenti introdotti dai processi di automazione, tant’è che l’autorevole eormai storica definizione fornita dalla Digital Library Federation 4, se volessi-mo accoglierla nella sua generalità, riesce solo in parte a sciogliere le ambigui-tà semantiche e a rappresentare con sufficiente flessibilità modelli organizzativinon convenzionali.

L’affollamento aggettivale delle differenti denominazioni denuncia infatti laradicale trasformazione dello statuto ontologico della biblioteca nel contestodegli scenari digitali, il suo posizionamento non più esclusivo nell’universodella mediazione informativa, sempre meno dipendente dalle biblioteche edove si candidano nuovi soggetti concorrenti (sia pubblici che privati, o fruttodi ibridazioni istituzionali o di partnership tra pubblico e privato), che compe-tono autorevolmente a ridisegnare la geografia dei saperi e i luoghi dell’acces-so alla conoscenza.

Il sapere dunque come «capitale intellettuale», bene intangibile eppure fat-tore produttivo trainante dell’economia (Stewart, 2002). Basti pensare alla sfi-da lanciata dalla net economy con le monumentali imprese annunciate e già inparte avviate da Google, Microsoft e Yahoo! 5, che coinvolgono importantiistituzioni bibliotecarie e che mettono a confronto due universi informativi as-sai diversi per storia e per finalità (quello dell’impresa privata da una parte equello delle istituzioni della memoria e dei beni culturali dall’altra), con l’in-tento comune, sia pure da punti vista e da “ideologie” diverse, «di integrare

3. Una sintetica storia della nascita di WWW fino ai più recenti sviluppi del Web semanti-co è narrata in Berners-Lee (2001).

4. «Digital libraries are organizations that provide the resources, including the specializedstaff, to select, structure, offer intellectual access to, interpret, distribute, preserve the integrityof, and ensure the persistence over time of collections of digital works so that they are readilyand economically available for use by a defined community or set of communities» (DLF, 1998).Per un’articolata discussione delle diverse accezioni di “biblioteca digitale” cfr. Borgman(2003a). Cfr. inoltre l’ampia rassegna in Tammaro (2005c).

5. Il fenomeno è stato puntualmente ricostruito da Roncaglia (2006). Cfr. Salarelli (2005).

328

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

l’informazione disponibile in rete e l’informazione disponibile fuori dallarete» 6: una massa critica documentaria, che mentre genera nuovo capitale cul-turale, causa – come è immaginabile – vistosi fenomeni di entropia dell’infor-mazione.

Non sono cambiate e non stanno cambiando le funzioni fondamentali del-la biblioteca, quanto la loro portata e soprattutto lo scenario, il contesto in cuiesse si esprimono, a partire dall’universo documentario, che rappresenta, nellasingolare varietà delle tipologie concettuali, i nuovi paradigmi della societàdell’informazione e della conoscenza, fondati sulla contaminazione e ibridazio-ne delle culture e dei linguaggi e sul principio della interoperabilità tra sistemie contesti eterogenei (Santoro, 2006). La «convergenza al digitale» ridefiniscedi fatto competenze e professioni, e obbliga a metodologie di lavoro fondatesulla trasversalità delle pratiche e delle conoscenze. Del pari, sono aumentatele aspettative degli utenti, sempre più smaliziati sia nell’interazione con lastruttura ipertestuale del Web, sia con l’uso degli strumenti di ricerca: dai“motori”, tanto più minimalisti nelle loro interfacce, quanto più efficaci nellefunzionalità di reperimento, recupero e visualizzazione delle informazioni; aisistemi di più raffinata logica strutturale e organizzativa, come le basi di dati,che possono implicare, nella formulazione dell’espressione di ricerca, più com-plesse formalizzazioni logiche del linguaggio naturale e più articolate procedu-re di information retrieval.

Si assiste dunque a una rimodulazione delle funzioni tradizionali della bi-blioteca e all’assunzione di nuove responsabilità che ineriscono ai processi edi-toriali di creazione, produzione e diffusione della conoscenza (soprattutto inambito accademico), ai servizi di mediazione informativa (il reference innanzi-tutto) e alla formazione, sotto forma di alfabetizzazione all’uso degli strumentibibliografici e di ricerca 7. Il “sovraccarico di informazioni” disponibili in rete(information overload) rischia infatti di appiattire la differenza tra “necessario”e “superfluo” in un incessante rumore di fondo, e di rendere inversamenteproporzionale il rapporto tra quantità di informazione erogata e qualità di co-noscenza fruita (Salarelli, 2002, 2004; Vitali, 2004). La formazione e trasmissio-ne di abilità e competenze per la ricerca e la selezione di fonti informative e dirisorse di qualità, di cui la biblioteca si fa carico, rappresentano, tra gli altri,un efficace strumento di contrasto al digital divide (Sartori, 2006) e un fattorefondamentale nella creazione di un ecosistema informativo che cerchi di assicu-rare governabilità all’incremento esponenziale delle risorse documentarie.

Ecco perché sotto la denominazione di biblioteca digitale ritroviamo unaassai diversificata varietà di risorse e di schemi organizzativi riconducibili al

6. La citazione è di Gino Roncaglia, in Baldacchini, Roncaglia (2005).7. La competenza nell’uso delle fonti informative è alla base dei processi di educazione e di

apprendimento permanente (lifelong learning), che nella “società dell’informazione”, costituisco-no, secondo l’IFLA, «i fari che illuminano le vie per lo sviluppo, la prosperità e la libertà» (Natio-nal Forum on Information Literacy, 2006).

15. BIBLIOTECA DIGITALE

329

modello di una global digital library 8, collaborativa, distribuita, non centra-lizzata, orientata all’accesso più che al possesso, al servizio più che al patrimo-nio (Solimine, 2004a, p. 16).

Tuttavia, volendo schematizzare, l’espressione “biblioteca digitale” indivi-dua da una parte il modello logico e astratto, costituito da collezioni di docu-menti (non solo testuali) e dai metadati ad essi relativi; dall’altra, la struttura diservizio organizzata, in cui le collezioni sono al centro di un coerente sistemadi relazioni ontologiche 9, che supportano l’intero ciclo di vita dei documentidigitali e i servizi creati per l’accesso e per il recupero delle informazioni. Trail modello logico e la struttura di servizio organizzata si collocano alcuni archi-vi, depositi documentari e basi di dati, frutto di progetti non istituzionali acarattere volontario 10, di iniziative editoriali 11 o di centri accademici extrabi-bliotecari, in cui risultano prevalenti le finalità didattiche e di ricerca 12.

Ma la denominazione declina anche altre accezioni (Gambari, 2007), comei servizi di accesso, secondo procedure di autenticazione da parte dell’utente,a banche di dati e raccolte di periodici elettronici (e-journals), sottoscritti per

8. «I propose “global digital library” as a construct to encompass digital libraries that areconnected to, and accessible through, a global information infrastructure» (Borgman, 2003a,p. 52).

9. Con “ontologia” si intende qui non la disciplina filosofica bensì un settore oggettivo (unateoria e una prassi) di ingegneria della conoscenza nell’ambito dell’intelligenza artificiale. Le “on-tologie” sono modi di organizzare o classificare informazioni; esse, infatti, consentono l’elabora-zione di un modello di organizzazione dei dati in grado di suddividere un dominio della cono-scenza in tutte le classi di oggetti che hanno un ruolo nei suoi processi, divenendo così un for-midabile strumento di applicazione nei processi di knowledge management. Insostituibile puntodi riferimento della ricerca interdisciplinare sulla creazione di modelli concettuali e applicazionidi ontologie in differenti campi della conoscenza è il Laboratory for Applied Ontology (LOA)presso il CNR ( < http://www.loa-cnr.it/index.html > ), tra le cui pubblicazioni si segnalano quelledi Nicola Guarino, il massimo studioso italiano sull’argomento.

10. Si ricordano, tra le più note iniziative internazionali, “Project Gutenberg” ( < http://www.gutenberg.net/ > ), fondato nel lontano 1971 da Michael Hart, che a oggi conta oltre dieci-mila testi, risultato dell’attività di alcune centinaia di volontari, e per l’Italia, il “Progetto Manu-zio” ( < http://www.liberliber.it/biblioteca/index.htm > ), anch’esso a carattere volontario, gestitodall’associazione culturale Liber Liber.

11. La più significativa esperienza italiana è senz’altro Stoppelli, Picchi (1993), che nella suaultima versione, pubblicata nel 2001, raccoglie 1.000 testi della letteratura italiana interrogabilicon motore di analisi computazionale DBT.

12. Ci riferiamo in particolare a quelle iniziative come l’Oxford Text Archive ( < OTA), http://ota.ahds.ac.uk > , realizzato dalla Oxford University Computing Services, o l’Electronic Text Cen-ter (ETC), < http://etext.lib.virginia.edu > , che ha sede presso l’Università della Virginia – ma sene potrebbero aggiungere tante altre –, nate in contesti accademici e universitari, e nelle quali lacreazione di sistematiche e coerenti collezioni di documenti della tradizione letteraria si affiancacon altrettanta perspicuità all’elaborazione di strumenti di linguistica computazionale e di analisitestuale, rivolti elettivamente a una specifica comunità di utenti. Per l’Italia si segnala BibliotecaItaliana (BibIt), < htpp://www.bibliotecaitaliana.it > , una biblioteca digitale di testi rappresenta-tivi della tradizione culturale e letteraria italiana promossa dal Centro interuniversitario Bibliote-ca italiana telematica (CiBit) e dal Dipartimento di italianistica e spettacolo dell’Università diRoma “La Sapienza”; cfr. Crupi (2005).

330

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

abbonamento da sistemi o consorzi soprattutto universitari; gli scaffali digitalidelle librerie virtuali, sul modello di Amazon.com 13; le innumerevoli iniziativevolte alla valorizzazione di collezioni documentarie; i tanti archivi della memo-ria di singoli, di piccole comunità o minoranze che grazie a Internet cercanodi ricostruire e di testimoniare la propria identità storica e culturale.

Tuttavia il modello di infrastruttura fisica e organizzativa più praticato èquello della biblioteca ibrida (Foglieni, 2003), in cui le collezioni digitali sonoparte di una complessa architettura di funzioni e di servizi e dove le politichedi conservazione del patrimonio documentario si affiancano a quelle dell’ac-cesso all’informazione secondo modelli commisurati alla tipologia della biblio-teca e al suo bacino di utenza reale, potenziale e virtuale 14.

15.2Le architetture

«Parlando di dati, o di basi di dati, si rischia di credere che il dato sia neutro,mentre non lo è affatto, e il modo in cui crea (o non crea) conoscenza di-pende da come è strutturato e da come è presentato» (Settis, 2002, p. 70). Leforme del contenuto rappresentano dunque l’ideologia della biblioteca digita-le, il suo sistema comunicativo che ne determina le politiche dell’accesso, ilivelli di interoperabilità, la natura e i profili dei servizi. La sua architetturalogica è il luogo in cui la qualità del pensiero diviene conoscenza.

Le biblioteche hanno sempre investito in quella che oggi si definisce archi-tettura dell’informazione, nella sensibilità – vale a dire – e nella capacità digestire le informazioni, catalogando il sapere, creando nuove connessioni se-mantiche tra i documenti, fornendo dunque loro valore aggiunto attraverso lastruttura sindetica dei cataloghi, gli strumenti indicali, i linguaggi di indicizza-zione semantica e di classificazione (Burke, 2002). Una sensibilità, che oggi sitraduce nella progettazione dei nuovi contesti digitali e degli spazi logici diinterazione tra gli utenti e l’universo documentario e dei servizi, per consenti-re un accesso intuitivo ai contenuti e un loro facile recupero 15; e che si deveconfrontare anche con i nuovi modelli di creazione della conoscenza fondati

13. Amazon.com ( < http://www.amazon.com/ > ), con il servizio Search inside consente, peraccordo con gli editori, di sfogliare le riproduzioni, in formato immagine, dei preliminari deitesti (frontespizio, indice, quarta di copertina ecc.), e di cercare singoli lemmi al loro interno;con Amazon Pages permetterà invece – secondo la modalità pay per use – di acquistare in forma-to digitale singole pagine, sezioni o capitoli dei libri che sono presenti nei suoi cataloghi; Ama-zon upgrade, dovrebbe permettere all’acquirente del libro su carta di acquistare, con un sovrap-prezzo, anche l’accesso permanente alla versione digitale dello stesso testo.

14. Per le specifiche problematiche metodologiche, qui appena accennate, si veda l’articola-ta sintesi offerta da (Salarelli, Tammaro, 2006).

15. Sull’architettura dell’informazione cfr. Rosenfeld, Morville (2002) e il sito The Informa-tion Architecture Institute, < http://iainstitute.org/ > , anche nella sua versione italiana, < http://iainstitute.org/it/ > . Cfr. anche Gnoli, Marino, Rosati (2006).

15. BIBLIOTECA DIGITALE

331

sulla partecipazione collettiva, secondo il fortunato esempio delle networkcommunities.

La qualità di una biblioteca digitale, infatti, non si misura tanto dallaquantità di documenti digitalizzati, quanto dalla capacità di strutturare e dimodellizzare i dati, di renderli accessibili, conservando al contempo la stratifi-cazione dei contesti, la relazione tra quello nuovo che si crea e – nel caso didocumenti digitali derivati – quello di origine, oltre che con tutti gli altri do-cumenti con cui esso stringe relazioni semantiche tacite o palesi. Ma la qualitàsi misura anche dall’adozione o meno di infrastrutture tecnologiche che sianoquanto più flessibili, modulari, incrementali, i cui codici sorgente siano libera-mente accessibili e modificabili (open source); con l’avvertenza tuttavia che laloro scelta non avvenga a priori ma sia condizionata dalle finalità d’uso, e dun-que dalla determinazione – questa sì a priori – del dimensionamento comples-sivo del progetto. La flessibilità di un sistema significa la sua capacità di adat-tarsi al cambiamento; la modularità indica che il numero e la disposizione del-le sue parti costitutive possono essere modificati e ricombinati; il modello in-crementale ne qualifica le potenzialità di sviluppo e di espansione nel tempo.

Le architetture e le infrastrutture delle biblioteche digitali devono innanzi-tutto essere modelli di conoscenza dinamici, distribuiti, non centralizzati, il cuidimensionamento va commisurato all’identità istituzionale dei progetti, allaloro tipologia, alla quantità e qualità dei servizi che si intendono erogare (AIB,2005). Ne sono parte essenziale quell’insieme di tecnologie e di protocolli chevanno sotto il nome di middleware e che svolgono un’importante funzione diintermediazione tra applicazioni diverse; rappresentano dunque uno snodofondamentale per assicurare l’interoperabilità 16. Diversi sono i modelli funzio-nali di riferimento che possono essere anche combinati tra loro per favorire lamassima integrazione possibile tra protocolli, applicazioni e servizi diversi 17,quali quelli di archiviazione e gestione, di ricerca e distribuzione remota deimetadati e dei documenti. Ne è un esempio il modello OAI, che fornisce lacornice logica e tecnologica dei cosiddetti open archives, ovvero archivi di testicostituiti dalle comunità accademiche, al fine di favorire la libera circolazionedei contenuti, frutto delle attività di ricerca degli atenei: «pre-print (destinati auna successiva pubblicazione sottoposta a peer-review), post-print (versioni ag-giornate di testi già apparsi su periodici o atti di convegni) ed e-print (terminepiù ampio, che include sia le versioni elettroniche dei due precedenti, sia, ge-nericamente, ogni sorta di contributo anche multimediale finalizzato alla di-

16. Per “interoperabilità” si intende la capacità di scambio e condivisione di dati tra sistemiinformativi diversi, senza che venga pregiudicata l’integrità dei contenuti e la loro funzionalità;«l’interoperabilità è il cuore della biblioteca digitale intesa come sistema cooperativo e comples-so, nel quale confluiscono contenuti e servizi» (Galluzzi, 2004b, p. 398). Cfr. Chan, Zeng(2006).

17. Per un’ampia e documentata disamina di differenti modelli logici e applicazioni, cfr.Pasqui (2003).

332

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

stribuzione esclusivamente attraverso open archives o similari strumenti digitaliprivi di peer-review)» (Ridi, 2004b, p. 285).

Basati sul paradigma dell’accesso libero e aperto (open access) ai contenutidella conoscenza, il cui controllo di qualità è affidato a principi di autoregola-mentazione, gli open archives hanno trovato una calda accoglienza da partedelle comunità accademiche tant’è che nel 2003 è stato sottoscritto da molteuniversità e istituti di ricerca europei un documento, meglio noto come Di-chiarazione di Berlino 18, che afferma la circolazione libera e gratuita del sape-re scientifico, a cui ha aderito anche la comunità accademica italiana 19. Que-sta modalità di autoarchiviazione della letteratura grigia in formato digitale èsupportata da una serie di iniziative e di standard per l’interoperabilità pro-mossi dalla Open Archives Initiative (OAI) 20, che ha elaborato uno specificoprotocollo per la raccolta dei metadati descrittivi e per la loro ricerca (OAI-PMH, The Open Archives Initiative Protocol for Metadata Harvesting) 21.

Al di là della sua specifica applicazione, preme rilevare che il modello OAI

si basa sulla distinzione logica tra le funzioni di data provider (il gestore degliarchivi digitali) e quelle di service provider (il fornitore di servizi per l’indi-cizzazione dei metadati e per la ricerca e il recupero dei documenti). È unmodello, il metadata harvesting, che consente l’interoperabilità e l’integrazionedi metadati e protocolli diversi ma standard, e che pone al centro l’utentecome destinatario di strumenti e servizi a valore aggiunto.

15.3L’accesso

Le politiche di accesso ai contenuti sono parte integrante dell’architettura lo-gica della biblioteca digitale. E la tecnologia dei portali sembrerebbe quellache meglio si presta a declinare la pluralità di funzioni che un utente puòsvolgere a partire da un unico punto di ingresso.

Il portale infatti, in quanto struttura di accesso e distribuzione di risorse eservizi, rappresenta lo spazio di interazione tra l’utente, la biblioteca e le fun-zioni che essa rende possibili (Marchionini, Plaisant, Komlodi, 2003); tra i ser-

18. Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities, <http://www.zim.mpg.de/openaccess-berlin/berlindeclaration.html > ; trad. it. Accesso aperto alla letteratura scien-tifica (Dichiarazione di Berlino), < http://www.zim.mpg.de/openaccess-berlin/BerlinDeclaration_it.pdf > .

19. È la cosiddetta Dichiarazione di Messina. Gli atenei italiani per l’Open Access: verso l’ac-cesso aperto alla letteratura di ricerca (Messina, 4 novembre 2004), < http://www.aepic.it/conf/viewpaper.php?id = 49&cf = 1 > .

20. Open Archives Initiative, < http://www.openarchives.org/ > .21. The Open Archives Initiative Protocol for Metadata Harvesting, < http://www.openar-

chives.org/OAI/openarchivesprotocol.html > . Al riguardo, si segnala il servizio offerto dall’Uni-versità del Michigan (OAIster, < http://oaister.umdl.umich.edu/o/oaister/ > ), che dà accesso amilioni di documenti ospitati da istituzioni che adottano gli standard OAI.

15. BIBLIOTECA DIGITALE

333

vizi tradizionali (prestito, document delivery ecc.) e i servizi innovativi, qualiad esempio:– alert: informazione e aggiornamento sulle nuove risorse inserite nella basedati (repository);– personalizzazione (anche sotto forma di collaborative filtering 22): scelta deicanali di ricerca e dei criteri di ordinamento dei risultati secondo il profilo chel’utente stesso ha fornito;– data mining: procedimenti semiautomatici di raffinamento delle ricerche,basati sull’analisi del contenuto dei documenti (content based);– reference linking: navigazione trasversale tra OPAC, basi di dati e full textecc.

Ma esso è anche potenzialmente il luogo in cui l’utente può sperimentarenuove applicazioni di semantic Web finalizzate all’aggregazione dinamica deicontenuti e degli oggetti digitali – ontologie, mappe topiche ecc. (Meschini,2005). Il “modello portale” – al di là della sua effettiva realizzazione – sugge-risce insomma l’idea di uno spazio di lavoro integrale in cui l’utente possaaccedere al suo riservato “studiolo”, luogo della mente e della memoria, cheper esser tale deve apparire al tempo stesso riservato e gradevole, accessibile 23

e usabile 24.L’idea di spazio a cui è da sempre associato il termine biblioteca va dun-

que recuperato nel contesto digitale e risemantizzato nell’architettura del vir-tuale. In particolare, l’interfaccia è il luogo impalpabile nel quale prende cor-po la comunicazione tra la biblioteca e l’utente, in cui gli oggetti dell’informa-zione e della conoscenza sono esibiti e rappresentati; e proprio per questo lasua progettazione e realizzazione merita una cura particolare. Tant’è vero chealcuni motori di ricerca di ultima generazione e software di OPAC suggeriscononuove modalità di browsing e di rappresentazione dei risultati di ricerca attra-verso tecniche di clustering, basate sul raggruppamento e quindi sulla riorga-nizzazione classificata delle informazioni, anche con effetti grafici o sotto for-ma di mappe visuali: si tratta di tecnologie amichevoli (user friendly), orientateall’utente e che cercano di sfruttare a suo vantaggio meccanismi euristici perl’analisi dei risultati.

La costruzione di una collezione crea sempre nuove relazioni testuali chela biblioteca digitale deve saper esibire con i contesti multipli a cui esse fanno

22. Strumenti che forniscono informazioni agli utenti sulla base delle preferenze accordateloro da altri utenti con interessi apparentemente simili, associando ai documenti la storia del loroutilizzo.

23. Il requisito di accessibilità indica la presenza o meno di barriere tecnologiche che limi-tano o pregiudicano la fruizione dei servizi di rete. Cfr. Web Accessibility Initiative (WAI),< http://www.w3.org/WAI/ > .

24. Secondo la definizione data dalla norma ISO 9241-11: 1998 Ergonomic Requirements forOffice Work with Visual Display Terminals (VDTs), l’usabilità è il «grado in cui un prodotto puòessere usato da particolari utenti per raggiungere certi obiettivi con efficacia, efficienza e soddi-sfazione in uno specifico contesto d’uso». Cfr. inoltre Borgman (2003b).

334

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

riferimento. Essa cioè deve saper ricostruire le relazioni logiche e genetiche trai documenti, rendendoli tuttavia disponibili a nuove ricomposizioni semanti-che lasciate dinamicamente a totale giudizio e scelta dell’utente. Metadati, lin-guaggi di codifica, protocolli sono gli strumenti che essa può piegare a nuoveforme della fruizione della conoscenza, senza che i processi di ipertestualità,che ne predicano la natura reticolare, si trasformino in una forma di zappinginformatico.

15.4La digitalizzazione

I documenti digitali possono essere “primari” o “nativi” (born digital), vale adire documenti che all’origine non hanno un equivalente analogico, e “secon-dari” o “digitalizzati” (digitized o digitalized), la cui pubblicazione è il risultatodella conversione in digitale da un originale analogico. Per digitalizzazione siintende dunque il processo di creazione e produzione di un surrogato o deri-vato digitale del documento analogico, che costituisce pertanto la fonte (sour-ce) del processo di conversione.

La procedura di acquisizione più in uso è senz’altro quella meccanica cheprevede l’utilizzo di specifici dispositivi a seconda della tipologia di documenti(ad esempio scanner, fotocamere ecc.). Nel caso di documenti testuali, il pro-cesso di digitalizzazione può dar vita a due diversi esiti: la riproduzione facsi-milare dell’originale, e quindi la creazione di un file di immagini, oppure laconversione della fonte cartacea in una sequenza di caratteri codificati 25, chedarà vita a un file di testo. Nell’un caso la pagina è trattata come un’immagineformata dal disegno dei caratteri di stampa e sarà trascritta in una griglia co-stituita da pixel 26, nell’altro essa è considerata come un testo, vale a dire unacombinazione di segni alfabetici portatori di senso, che saranno codificati permezzo di una tabella di codifica dei caratteri. «La prima scelta, più economica,privilegia la resa visuale e l’aderenza all’originale cartaceo, ma produce file di

25. Il grado zero della codifica testuale è costituito dalla rappresentazione dei caratteri; valea dire, dalla corrispondenza biunivoca fra caratteri da un lato e numeri binari dall’altro. Unsistema di codifica binaria è quello che utilizza due sole cifre, “0” e “1”, ordinatamente combi-nate tra loro e ciascuna delle quali costituisce un bit (bi[nary digi]t = numero binario), cioè laquantità di informazione data dalla scelta fra due alternative diverse, considerate come egual-mente probabili. L’uso di specifiche tabelle di codifica (ASCII American Standard Code for Infor-mation Interchange, ISO Latin 1, Unicode) consente, secondo la sequenza logicamente combinatadi 7, 8 o 16 bit, la rappresentazione in numeri binari dei caratteri alfabetici, dei numeri decimali,dei segni di interpunzione, della distinzione tra maiuscole e minuscole ecc. La sequenza logica-mente combinata di 7, 8 o 16 bit, necessaria, secondo la tabella di codifica adottata, alla rap-presentazione di ciascun carattere si chiama byte; dunque, ogni byte rappresenta un carattere o,detto altrimenti, un byte è la quantità di memoria necessaria per memorizzare un carattere. Cfr.Ciotti, Roncaglia (2000, pp. 8-14).

26. Il pixel (contrazione di picture elements) è l’unità elementare di cui è costituita un’im-magine digitale.

15. BIBLIOTECA DIGITALE

335

grandi dimensioni che non consentono di effettuare ricerche ed estrazioni te-stuali. La seconda, più impegnativa sia in termini temporali che finanziari,produce file manipolabili con qualsiasi editor di testi, più piccoli e più facilida conservare e interrogare, rinunciando però alla perfetta equivalenza conl’impaginazione e il layout dell’originale» (Ridi, 2004b, p. 276). Infatti, per ot-tenere un file di tipo testuale sarà necessario applicare al file di tipo graficouno specifico software, denominato OCR (Optical Character Recognition, “ri-conoscimento ottico dei caratteri”), che produce un documento editabile conun qualsiasi programma di videoscrittura, come se fosse stato digitato sullatastiera; il testo così ottenuto dovrà quindi essere sottoposto a un processo direvisione e correzione degli errori, come in una bozza di stampa.

Ovviamente, la scelta dipenderà non solo dal tipo di originale a disposizio-ne e dal tipo di trattamento a cui si intende sottoporre la fonte una volta rea-lizzata le versione elettronica, ma anche soprattutto dalle finalità del progettoe dal suo dimensionamento (Hughes, 2004).

L’esito del processo di digitalizzazione (sia esso primario o secondario e ri-guardi documenti testuali, iconici, sonori o audio-video) sarà dunque un file icui dati sono disposti secondo una struttura che ne rappresenta il formato. Unfile può essere salvato in diversi formati, ciascuno dei quali risponde a funzionidiverse (archiviazione, rappresentazione, visualizzazione), e la cui persistenza neltempo e portabilità (cioè, la facilità con cui può essere trasferito da un ambientesoftware a un altro) sono subordinate al livello di standardizzazione a cui essirispondono. La rapida obsolescenza delle tecnologie informatiche impone infattil’impiego di sistemi e di linguaggi di rappresentazione, archiviazione e visua-lizzazione dell’informazione svincolati e indipendenti da supporti e dispositivihardware e da sistemi di codifica e applicazioni software che siano chiusi oproprietari o, ancora, poco sensibili alle qualità semantiche dei documenti; purtuttavia, accanto a formati standard de iure si affermano spesso standard defacto (anche se proprietari), ampiamente condivisi dalla comunità degli utenti.

Tra i formati più diffusi 27 si ricordano:– ASCII (American Standard Code for Information Interchange), è il sistemadi codifica dei caratteri più comunemente utilizzato nei calcolatori (standardISO 646), e il formato testuale più affidabile. Su di esso si basa la più estesaversione Unicode (ISO 10646) che «assegna un numero (ed un nome) ad ognicarattere in maniera indipendente dal programma, piattaforma e dalla lingua(e relativo alfabeto) [...] codificando i caratteri usati in quasi tutte le linguevive e in alcune lingue morte, nonché simboli matematici e chimici, cartografi-ci, l’alfabeto Braille, ideogrammi etc.» 28;– RTF (Rich Text Format), sviluppato da Microsoft, si è imposto de factocome standard per l’importazione e l’esportazione di testi a prescindere dal

27. Una lista aggiornata di formati si legge alla pagina Every File Format in the World diWhatis.com, < http://whatis.techtarget.com/fileFormatA/0,289933,sid9,00.html > .

28. Unicode, in Wikipedia, < http://it.wikipedia.org/wiki/Unicode > .

336

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

programma di scrittura (word processor) utilizzato; è dunque preferibile al for-mato DOC (Document), anch’esso proprietario di Microsoft ma non compren-sibile da altri programmi di elaborazione testi;– la famiglia dei linguaggi di marcatura (markup language), su cui avremomodo di soffermarci;– i formati degli e-book (OEB, Open EBook, elaborato da una consociazionedi produttori di software e hardware, denominata Open e-book forum, e LIT,formato proprietario di Microsoft), tra cui si può annoverare PDF (PortableDocument Format), che è un formato proprietario per la rappresentazione edistribuzione in rete di documenti, dei quali sono conservate tutte le proprietàoriginarie, indipendentemente dall’applicazione e dalla piattaforma usate perla loro creazione. Un documento PDF, sia esso costituito da testo o da immagi-ni, può essere visualizzato su qualsiasi dispositivo con il software Adobe Acro-bat distribuito gratuitamente;– i formati per la memorizzazione e compressione di immagini bitmap 29,TIFF (Tagged Image File Format), JPEG (Joint Photographic Experts Group) eGIF (Graphics Interchange Format): il primo genera file molto pesanti sebbenedi ottima qualità ed è perciò utilizzato solo per l’archiviazione; JPEG e GIF

sono particolarmente adatti alla visualizzazione delle immagini perché ne con-sentono un’elevata compressione, sebbene comportino, sia pure a livello varia-bile, un degrado della qualità dell’immagine originaria;– WAV o WAVE, contrazione di WAVEform audio format, e AIFF (Audio Inter-change File Format), sono formati audio proprietari, rispettivamente di Mi-crosoft e IBM e di Apple Macintosh. Il formato MP3 (ovvero MPEG-1/2 AudioLayer 3) è formato audio molto compresso, di ottima resa qualitativa, e perciòparticolarmente adatto per lo scambio di file musicali in Internet, ma sconsi-gliabile per l’archiviazione;– QuickTime, standard video sviluppato da Apple Macintosh oggi utilizzabi-le anche con Windows;– VRML (Virtual Reality Modeling Language), formato standard per la descri-zione di scene tridimensionali.

15.5La rappresentazione in formato immagine dei documenti

L’esperienza maturata negli ultimi anni ha consentito di definire i corretti me-todi e procedimenti di acquisizione e archiviazione digitale soprattutto dei li-bri moderni (Cornell University Library. Digital Preservation Policy WorkingGroup, 2001; DLF, 2004), secondo i quali si raccomanda l’impiego di dispositi-vi (idonei banchi di acquisizione e sistemi di illuminazione) che garantiscanol’integrità dei documenti originali sottoposti a scansione ottica e, al contempo,

29. Immagini rappresentate come insieme di pixel.

15. BIBLIOTECA DIGITALE

337

la qualità uniforme delle immagini, in analoghe condizioni di illuminazione einquadratura. Come risulta parimenti consolidata la prassi della rifilatura, pereliminare l’inutile acquisizione di zone estranee allo specchio della pagina, edell’acquisizione autonoma di ogni singola pagina (comprese quelle bianche) edella sua archiviazione in una copia principale (master), in modo tale da farcorrispondere ad ogni pagina un file immagine denominato con un identifica-tivo univoco.

Ogni immagine acquisita andrebbe poi memorizzata in una versione deri-vata a media qualità (contestualmente all’acquisizione del master o in una se-conda fase) e sottoposta a processo OCR automatico senza correzione manualedell’output, in modo da produrre un file in formato testo relativo a ciascunapagina, da utilizzare per ricerche full text; operazione, quest’ultima, consiglia-bile per il libro moderno a stampa e solo se il supporto di origine lo consente.Le immagini prodotte dalla digitalizzazione dovranno essere salvate in formatoTIFF con compressione LZW (Lempel-Ziv-Welch) 30, e con una risoluzione spa-ziale (in DPI o PPI 31) variabile a seconda del progetto. Più in particolare, tuttii file XML relativi ai metadati, oltre ad essere contenuti nelle rispettive cartelledelle immagini, dovrebbero essere salvati e archiviati anche su un supportomagnetico-ottico (DVD-R), e individuati dalla stessa nomenclatura utilizzata peri file delle immagini.

Tali parametri di riferimento, del tutto indicativi e non obbligatori, riguar-dano nello specifico la digitalizzazione del libro moderno; altre tipologie dimateriali (manoscritto, libro antico, libro d’arte ecc.) richiederanno invece ac-corgimenti e soluzioni tecniche ancor più complesse, oltre che impegnative dalpunto di vista organizzativo e gestionale.

15.6La rappresentazione in formato testo dei documenti

Molto più articolate e complesse, quanto onerose, risultano invece le procedu-re di acquisizione, di elaborazione e di rappresentazione dei documenti in for-mato testo, implicando esse il pieno coinvolgimento di competenze specialisti-che relative ai settori disciplinari a cui sono ascrivibili i documenti oggetto deiprocessi di digitalizzazione.

La rappresentazione dell’informazione testuale su supporto digitale viene

30. Algoritmo utilizzato per comprimere i file grafici.31. PPI, Pixel Per Inch, “pixel per pollice”, indica l’unità di misura di “risoluzione” di

un’immagine; per “risoluzione” si intende la capacità di un dispositivo o di un supporto (pellico-le, carta) di riprodurre un’immagine, in base al numero dei suoi elementi costitutivi per unità dimisura, DPI. Il termine DPI, Dots Per Inch, che significa “punti per pollice”, è l’unità di misuracomunemente impiegata per misurare il numero di pixel presenti nell’immagine digitale: maggio-re è il numero di pixel presenti in ogni pollice, maggiore sarà la risoluzione dell’immagine digita-le, vale a dire la sua fedeltà all’oggetto originale. La risoluzione di un’immagine è quindi de-terminata dal numero di DPI.

338

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

comunemente definita codifica informatica dei testi ed essa, come ogni proces-so di elaborazione che si serve del computer, è una rappresentazione mediatada appositi linguaggi formali, definiti markup languages (“linguaggi di marca-tura”), costituiti da un insieme di istruzioni, sotto forma di etichette (tags) rac-chiuse fra parentesi uncinate, che vengono inserite accanto ai segmenti di te-sto a cui esse si riferiscono; una specifica sintassi regola l’uso, la forma e irapporti tra le varie etichette. Dal punto di vista delle logiche di funziona-mento dell’elaboratore, l’introduzione di “marcatori” all’interno di un testo halo scopo di indicare ai programmi incaricati di decodificarli il modo in cui laparte di testo marcata deve essere interpretata ed eventualmente trattata.

In base a un’ormai classica distinzione tassonomica, i linguaggi di marcatu-ra si dividono in due tipologie:– linguaggi procedurali;– linguaggi dichiarativi.

I linguaggi procedurali sono costituiti da istruzioni che specificano le proce-dure computazionali che un programma deve compiere sul testo per ottenereun determinato output (generalmente su carta): ad esempio “qui stampa ingrassetto”. I linguaggi dichiarativi dichiarano appunto l’appartenenza di undato segmento testuale a una determinata classe di strutture, forme e caratteri-stiche testuali: ad esempio “questo è un capitolo”, “questa è una metafora”(come sarà illustrato più avanti). Un sistema di codifica dichiarativo è in gradodi rappresentare le caratteristiche di un testo, in modo indipendente dalle par-ticolari finalità di trattamento e da contingenti forme di presentazione grafica,su un qualsivoglia supporto fisico (stampa, video, sintetizzatore vocale e cosìvia). Inoltre, la possibilità di rappresentare strutture astratte non pone limitialla natura e alla tipologia delle caratteristiche testuali che si possono codifica-re (struttura editoriale del testo, struttura grammaticale, struttura retoricaecc.).

Ai requisiti propri dei linguaggi di codifica dichiarativi risponde la tecno-logia rappresentata dai linguaggi SGML/XML 32, che consentono di descrivere,grazie alla loro sintassi, la struttura dei documenti e le ontologie ad essa as-sociate.

Più propriamente, XML, preferito ormai a SGML per la sua maggiore flessi-bilità, è un metalinguaggio, che detta le regole sintattiche per mezzo dellequali è possibile definire il linguaggio di marcatura da applicare a singole tipo-logie di testi o documenti. Esso è, insomma, la lingua franca per l’interscam-

32. SGML (Standard Generalized Markup Language) è standard ISO 8879/1986, sviluppatoper rappresentare dati testuali su supporto digitale in modo indipendente da sistemi hardware esoftware e per facilitare il trasferimento dei documenti testuali (e non solo) attraverso reti tele-matiche. Da esso deriva, come suo sottoinsieme semplificato, XML Extensible Markup Language,caratterizzato dall’elevata scalabilità e portabilità.

15. BIBLIOTECA DIGITALE

339

bio di dati tra applicazioni diverse: la sua universalità ed estensibilità risiedononell’assoluta indipendenza dalle piattaforme 33 utilizzate, nella netta separazio-ne dei dati dalla loro presentazione e nella sua struttura incrementale, che per-mette l’espressione di nuovi attributi semantici senza bisogno di ridefinire unanuova versione dei linguaggi stessi.

Sulla base dello SGML/XML sono stati sviluppati numerosi schemi di codifi-ca, tra cui TEI (Text Encoding Initiative) specificamente rivolto al dominiodella ricerca umanistica.

RIQUADRO 15.1Il funzionamento dello schema TEI

L’obiettivo del progetto, perseguito oggi da TEI Consortium ( < http://www.tei-c.org > ) è quello di definire uno standard per la rappresentazione di testi su supportodigitale. Le Guidelines for Electronic Text Encoding and Interchange, meglio note, nel-l’ultima versione, come TEI P4, definiscono un linguaggio per descrivere la struttura diun testo e propongono una nomenclatura per individuare i suoi componenti. Tale lin-guaggio è espresso nella sintassi XML e si basa su una grammatica formale, detta DTD

(Document Type Definition), che specifica la struttura di un documento e gli elementiche lo costituiscono.

Un testo codificato in linguaggio XML conformemente alle specifiche della TEI ècomposto di due parti 34:– la TEI header (rappresentata dall’elemento < teiHeader > );– la trascrizione vera e propria del testo (codificata con l’elemento < text > ).

La TEI header fornisce informazioni analoghe a quelle contenute nel frontespizio diun testo a stampa ed è composta da quattro parti principali:– < fileDesc > contiene la descrizione bibliografica del testo digitale;– < encodingDesc > contiene la descrizione delle modalità di codifica;– < profileDesc > contiene la descrizione degli aspetti non bibliografici del testo (ti-pologia documentaria, lingue usate, descrizione semantica ecc.);– < revisionDesc > riassume la storia delle revisioni che ha subìto il documento.

La sezione text è a sua volta costituita dall’“avantesto” (front), dal corpo del testovero e proprio (body) e da eventuali appendici (back).

< TEI.2 > [elemento radice]< teiHeader > [contiene le informazioni della TEI Header] < /teiHeader >< text > [testo]

< front > [gli elementi preliminari che precedono il testo vero e pro-prio: prefazioni,dediche..] < /front >

33. Per “piattaforma informatica” si intende la parte di un programma utilizzata come basesulla quale costruire altri programmi o applicazioni.

34. Cfr. Ciotti (2005).

340

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

< body > [il corpo del testo, con l’esclusione di ogni elemento preli-minare o di appendice] < /body >

< back > [gli elementi che seguono il testo vero e proprio: appendi-ci, postfazioni ecc.] < /back >

< /text >< /TEI.2 >

Le caratteristiche testuali che vengono di norma codificate sono quelle:– strutturali (individuazione delle partizioni principali e secondarie del testoe della loro relazione gerarchica: capitoli, sezioni, paragrafi per un testo inprosa; canti, stanze, versi per un componimento poetico; atti e scene per untesto teatrale ecc.);– formali (aspetto fisico del documento: uso di fonts e stili di carattere; di-slocazione di note, annotazioni, glosse ecc.);– contenutistiche (riferimenti in lingua diversa da quella corrente, figure reto-riche, forme grammaticali, riferimenti temporali, spaziali, indicazione dei nomidei personaggi ecc.).

Tali elementi vanno contestualizzati nel sistema delle gerarchie strutturalie delle relazioni (logiche e astratte) che essi intrattengono dinamicamente al-l’interno del testo, di cui va salvaguardata l’identità e l’integrità informazio-nale. La loro individuazione e rappresentazione è perciò un «atto interpreta-tivo» (Fiormonte, 2003, p. 164), che assume il «punto di vista» del codifica-tore quale discrimine metodologico e teorico nel processo di formalizzazionedel testo: «l’universo della testualità è un universo plurale, e la codifica digi-tale del testo non può fare a meno di misurarsi con questa pluralità» (Ciotti,2005, p. 17).

Il livello e la granularità della codifica sono condizionati da una serie difattori, quali ad esempio: la tipologia delle risorse testuali prese in esame(omogeneità o disomogeneità di genere, forma linguistica, copertura crono-logica o spaziale della raccolta ecc.); le finalità del progetto (didattiche, diricerca ecc.); il destinatario di riferimento (comunità accademica, utenza sco-lastica, utenza generica ecc.); le risorse finanziarie a disposizione (quanto piùè avanzata e granulare la codifica, tanto più costa anche in termini tempora-li); le competenze specialistiche su cui si può contare all’interno dell’orga-nizzazione che promuove il progetto di digitalizzazione; la disponibilità dispecifici software di indicizzazione (full text engine) particolarmente idoneinella gestione dell’analisi computazionale finalizzata alla creazione di concor-danze, indici, liste di frequenza, processi di lemmatizzazione e di text retrie-val. Va infatti tenuto presente che la «vera anima di una base di dati testua-le» è il motore che la interroga, la cui efficienza ed efficacia computazionalesi misura dalla quantità e dalla qualità delle informazioni che «è in grado direcuperare in relazione al livello di codifica introdotto» (Stoppelli, 2006, p.184; 2005).

15. BIBLIOTECA DIGITALE

341

15.7I metadati

I metadati sono il linguaggio della biblioteca digitale, il suo tessuto connettivo.Anche se un uso estensivo del termine li appiattisce sulla funzione delle tradi-zionali schede catalografiche, appare in tutta evidenza la loro inedita specifici-tà già a declinarne le tipologie funzionali (descrittivi, strutturali, amministrati-vo-gestionali, questi ultimi finalizzati in particolar modo alla gestione dei di-ritti e alla conservazione). Secondo la definizione NISO: «Metadata is structu-red information that describes, explains, locates, or otherwise makes it easierto retrieve, use, or manage an information resource. Metadata is often calleddata about data or information about information» (NISO, 2004, p. 1; cfr.Gambari, Guerrini, 2002; Bassi, 2002).

In un contesto in cui l’universo documentario non è riconducibile a tasso-nomie predeterminate e l’informazione digitale risulta fragile, facilmente cor-ruttibile o alterabile, sia nei supporti che nei contenuti informativi, i metadatiassolvono diverse funzioni; a condizione naturalmente che siano correttamenteapplicati dal punto di vista della completezza, della correttezza sintattica e se-mantica (NISO, 2004), essi consentono l’identificazione univoca 35, l’individua-zione e la localizzazione di una risorsa, l’aggregazione e l’organizzazione di ri-sorse con caratteristiche comuni, supportano e descrivono i processi di archi-viazione e conservazione.

Esistono diversi schemi di metadati (Caplan, 2003; Canali, 2006) 36 e di-versi profili di applicazione, a seconda delle specifiche tipologie di risorse do-cumentarie, delle comunità che li adottano, delle finalità dei progetti di digita-lizzazione, della granularità descrittiva, tra cui si segnalano i seguenti:– The Metadata Encoding and Transmission Standard (METS), < http://www.loc.gov/standards/mets/ > , è un contenitore logico che fornisce l’inte-laiatura per codificare metadati (secondo schemi di codifica non predetermina-ti) all’interno di una biblioteca digitale; analoga funzione (prevalentemente ge-stionale e finalizzata alla conservazione) svolge lo schema Metadati ammini-strativi e gestionali (MAG), elaborato in seno all’ICCU, < http://www.iccu.sbn.it/genera.jsp?id = 101 > .– Dublin Core (DC), < http://dublincore.org > , nato per la descrizione di ri-sorse Web anche da parte di non specialisti (si basa su un set di 15 elementi

35. L’instabilità degli indirizzi delle risorse in rete rende consigliabile l’adozione di identifi-catori univoci e permanenti come PURL (Persistent Uniform Resource Locator), Handle System(sviluppato da The Corporation for National Research Initiatives, CNRI), o DOI (Digital ObjectIdentifier, < http://www.doi.org/ > , un sistema usato soprattutto in ambito editoriale per l’iden-tificazione dei documenti pubblicati elettronicamente).

36. Si veda inoltre IFLA, Digital Libraries: Metadata Resources, < http://www.ifla.org/II/metadata.htm > .

342

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

tutti opzionali e ripetibili), è divenuto lo schema di riferimento di molti pro-getti di digitalizzazione bibliotecaria anche per la sua integrazione con altrischemi o con formati bibliografici, di cui sono definite le equivalenze tra eti-chette denotate in modo diverso ma semanticamente affini.– The Metadata Object Description Schema (MODS), < http://www.loc.gov/standards/mods/ > , è uno schema di metadati descrittivi derivato da MARC 21,e indicato per la sua flessibilità a descrivere oggetti digitali nativi, con un li-vello di granularità più compatibile (rispetto ad altri schemi) con gli standarddei formati bibliografici.– The Encoded Archival Description (EAD), < http://www.loc.gov/ead/ > , èspecificamente rivolto alla codifica dei dati contenuti negli strumenti di sussi-dio alla ricerca archivistica, ma è anche diffuso in altri contesti che trattanocollezioni speciali.– Visual Resources Association (VRA) Core Categories, < http://www.vraweb.org/vracore3.htm > , è uno schema usato nel contesto delle arti visive per i cuioggetti o le loro rappresentazioni fornisce un set di metadati descrittivi; sem-pre per le arti visive, è stata elaborata, con funzioni simili a quelle di METS,una struttura concettuale altamente formalizzata, Categories for the Descri-ptions of Works of Art (CDWA), < http://www.getty.edu/research/conducting_research/standards/cdwa/ > .– MPEG-7, Multimedia Content Description Interface, < http://www.chiari-glione.org/mpeg/ > , è uno standard per la descrizione codificata di oggetti di-gitali audio e video, per i quali lo stesso gruppo promotore ha creato il mo-dello strutturale di gestione, MPEG-21, Multimedia Framework.– Onyx (e in particolare Onyx for Books), < http://www.editeur.org/onix.html > , è uno standard nato per la rappresentazione e lo scambio di in-formazioni bibliografiche a livello editoriale (anche a tutela della proprietà in-tellettuale), ma per la peculiarità delle informazioni trasmesse potrebbe essereutilizzato dalle biblioteche come forma di precatalogazione.– Learning Object Metadata (LOM), < http://ltsc.ieee.org/wg12/ > , sono me-tadati orientati alla descrizione di materiali didattici che utilizzano piattaformetecnologiche.

I fattori che connotano la specificità dei metadati riguardano il loro inscin-dibile legame con i documenti, di cui essi veicolano le informazioni, nonchél’essere espressi in linguaggi formali che consentono la loro «indicizzazione daparte di strumenti di ricerca appositamente predisposti per interpretarli» (We-ston, 2002a, p. 147). Questi sono anche i fattori che regolano l’interoperabilitàlogica e semantica tra risorse digitali pure ontologicamente diverse, in gradoperciò di creare dinamicamente nuove relazioni, che amplificano di fatto lastruttura reticolare dell’informazione in rete. Tuttavia, la varietà dei formatidescrittivi e degli schemi di codifica richiede – come requisito per garantirel’interoperabilità – una loro costante “mappatura” (mapping), sotto forma ditabelle che definiscono le equivalenze semantiche e sintattiche tra gli elementi

15. BIBLIOTECA DIGITALE

343

appartenenti a due o più formati di metadati anche eterogenei (crosswalks) 37;ma pure l’adozione di formalismi come quello espresso dal linguaggio RDF

(Resource Description Framework) 38, che è un modello di rappresentazionein cui le relazioni fra metadati e risorse vengono esplicitati secondo regole chene permettono la condivisione coerente e simultanea fra diverse applicazioni(per esempio, di differenti comunità scientifiche).

Ecco perché sono importanti i metadati: essi sono infatti al contempo ilmastice che tiene insieme le informazioni sugli oggetti digitali, garantendone laqualità e l’accesso, e la struttura logica che consente flussi di informazioni enuove relazioni.

Il processo di memorizzazione dei metadati prevede due soluzioni distinte(ma non necessariamente alternative): la loro integrazione all’interno della ri-sorsa digitale o la loro archiviazione in una base di dati separata ma collegatalogicamente a quella documentale; in linea di massima, nell’un caso si garanti-sce un contestuale e simultaneo aggiornamento sia dei dati che dei metadati,nell’altro si rendono più agili e flessibili le operazioni di ricerca e di recuperodelle informazioni.

Lo schema di FIG. 15.1 illustra, a titolo esemplificativo, un modello orga-nizzativo che fonde la sequenza diacronica e gerarchica delle attività di digita-lizzazione con quella sincronica e contestuale.

15.8Il progetto

La ragion d’essere di una biblioteca digitale è racchiusa nei suoi obiettivi enelle sue finalità. La decisione di operare un processo di digitalizzazione –qualunque sia la sua portata – ha importanti effetti di ripercussione sull’orga-nizzazione che lo promuove da una pluralità di punti vista, i quali investonoaspetti gestionali, finanziari, tecnici, che incidono sui criteri di selezione e diconservazione del materiale, e che dunque non possono e non devono esserelasciati al caso e all’improvvisazione 39.

Il processo decisionale richiede dunque l’attenta valutazione delle ragionie degli obiettivi, che può anche essere sostenuta da modelli cognitivi, comeil decision making, che supportano la decisione attraverso la disamina di più

37. Cfr. OCLC, All about Crosswalks, < http://www.oclc.org/research/projects/mswitch/1_crosswalks.htm > .

38. Resource Description Framework (RDF), < http://www.w3.org/RDF/ > , è stato realizza-to da The World Wide Web Consortium (W3C), < http://www.w3.org/ > .

39. Su questi temi si vedano le riflessioni di R. TENNANT, Managing the Digital Library, ReedPress, New York 2004 e di T. B. HAHN, Impacts of Mass Digitation Projects on Libraries andInformation Policy, “Bulletin” [of ASIsbT], Oct.-Nov. 2006, < http://www.asis.org/Bulletin/Oct_06/hahn.html > .

344

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

FIG

UR

A15

.1M

odel

lo o

rgan

izza

tivo

di

un p

roge

tto

di

dig

ital

izza

zion

e

Def

iniz

ione

dei

cri

teri

l

indi

vidu

azio

ne d

ell’o

gget

to

l fo

rmat

o de

ll’og

gett

o l

nom

encl

atur

a di

rect

ory

e fil

e

Solo

form

ato

test

o 1.

OC

R

2. C

ontr

ollo

a v

ideo

3.

Col

lazi

oni c

on la

font

e 4.

Ins

erim

ento

cor

rezi

oni

ACQUISIZIONE

CODIFICAC

reaz

ione

de

l rep

osit

ory

Pub

blic

azio

neV

alid

azio

neC

odifi

ca

Xm

l TE

I

solo

form

ato

test

o

Ver

ifich

e di

na

viga

bilit

à e

cong

ruità

Def

iniz

ione

cr

iteri

ed

itori

ali

Dig

ital

bor

nA

cqui

sizi

one

file

elet

tron

ico

Acq

uisi

zion

eP

relie

vo

della

font

e

Dig

italiz

zazi

one

della

font

e

Acq

uisi

zion

e di

gita

le

Con

trol

lo d

i qua

lità

ME

TA

DA

TI

DE

SCR

ITT

IVI

E G

EST

ION

AL

I

ME

TA

DA

TI

TE

CN

ICI

ME

TA

DA

TI

STR

UT

TU

RA

LI

PU

BB

LIC

AZ

ION

E

15. BIBLIOTECA DIGITALE

345

alternative possibili; ne è uno specifico esempio il diagramma proposto (cfr.FIG. 15.2) 40.

Finalità, strategie, soluzioni tecnologiche sono fortemente interrelate e ri-chiedono pertanto una documentata e coerente elaborazione e pianificazione,in grado anche di analizzare e valutare i rischi di insuccesso (incostante eroga-zione dei fondi, carenza di personale, deficienze nella cooperazione ecc.) 41.Richiedono, a seconda delle finalità sostenibili del progetto, il disegno dell’ar-chitettura logica della biblioteca, del sistema di relazioni che dovrà mettere incomunicazione le sue singole parti costitutive.

Una preventiva analisi dell’utenza, la definizione di un target di riferimentomodulerà il linguaggio della biblioteca, aiuterà a definire i modelli di digita-lizzazione e la scelta degli standard più idonei, nonché i criteri di selezionedelle risorse documentarie da acquisire in formato digitale. Una decisione cri-tica quest’ultima, che dovrà tenere presenti alcuni indicatori di riferimento,quali:– la valorizzazione di un patrimonio culturale;– la frequenza d’uso di documenti rari, soggetti al deterioramento;– lo stato di conservazione;– l’utilità a fini didattici o di ricerca;– il miglioramento del controllo intellettuale;– la sostenibilità dei costi dell’acquisizione e della gestione;– la capacità di manutenzione e conservazione sul lungo periodo.

La stesura del progetto di digitalizzazione si può identificare con la stesuradella carta delle collezioni digitali, lo strumento principe di programmazione diuna biblioteca, che ne definisce l’identità culturale e quella delle sue raccolte;nonché il bacino d’utenza potenziale e virtuale, gli strumenti di valutazione eselezione del materiale, i criteri di acquisizione, di revisione ma anche di scar-to che, in ambiente digitale, non investe problemi legati soltanto agli spazidella conservazione quanto semmai all’accessibilità e usabilità delle raccolte. Èil documento che infine darà conto e indicherà i protocolli di digitalizzazioneseguiti e gli standard prescelti, a partire dai metadati.

La biblioteca digitale richiede un’organizzazione che abbia specifiche com-petenze e capacità gestionali, quand’anche i processi di digitalizzazione sianodelegati a terzi. La complessità delle operazioni di acquisizione e pubblicazio-ne digitale dei documenti, di creazione dei metadati, di archiviazione e conser-vazione richiede infatti la chiara individuazione di competenze e flussi di lavo-ro. Il modello organizzativo più praticato è quello che prevede un nucleo in-terno composto da personale altamente specializzato, in grado di gestire, dele-gare e sovrintendere a tutte le attività, la cui specifica realizzazione (scansione

40. Selection for Digitizing: A Decision Making-Matrix, < http://www.clir.org/pubs/reports/hazen/matrix.html > , in Hazen, Horrell, Merrill-Oldham (1998).

41. Un ottimo modello di riferimento è il documento National Library of Australia (2006).

346

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

FIG

UR

A15

.2M

atri

ce d

ecis

iona

le

15. BIBLIOTECA DIGITALE

347

ottica, inserimento metadati, codifica, sviluppo di database ecc.) viene affidatain outsourcing a società e service o a singoli con specifiche competenze.

La pianificazione complessiva del progetto dovrà essere scandita secondoprocessi e fasi che, in linea di massima e a puro titolo indicativo, possonoessere esemplificati come mostrato nel riquadro 15.2.

RIQUADRO 15.2Le fasi di un progetto di digitalizzazione

1. Preparazione

a) Definizione delle finalità e degli obiettivi del progettob) Scelta della collezione da acquisirec) Accertamento sui diritti per la distribuzione digitaled) Valutazione e scelta degli strumenti (hardware e software)e) Analisi e destinazione del budgetf) Pianificazione

Sviluppo del piano di lavoro

1. Organizzazione– Tempistica– Preparazione del materiale– Creazione del repository– Creazione del database dei metadati descrittivi tecnici e gestionali– Individuazione della nomenclatura e degli identificatori– Determinazione del metodo di archiviazione

2. Outsourcing– Determinazione dei costi– Valutazione e selezione dei fornitori– Allocazione delle risorse– Creazione del protocollo– Definizione fasi di consegna e collaudi

Divisione del lavoro (staff interno/outsourcing)

2. Esecuzione

1. Digitalizzazione– Training– Scansione/acquisizione– Nomenclatura file– Formati d’uscita

2. Controllo di qualità– Verifica del testo

348

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

– Verifica a campione delle immagini– Verifica a campione dei metadati– Ottimizzazione e correzioni– Archiviazione– Popolamento del repository

3. Pubblicazione– Creazione dei metadati strutturali– Messa online– Testing

3. Valutazione del raggiungimento degli obiettivi– Qualità– Quantità

La valutazione delle risorse finanziarie necessarie deve tener conto di una seriedi indicatori che consentano di quantificare i costi per il progetto, la sua rea-lizzazione e la gestione nel tempo:– personale (staff interno, collaborazioni esterne, consulenze);– struttura (locali, attrezzatura hardware e software, manutenzione, backupecc.);– digitalizzazione (prelievo, preparazione, scansione, metadati, controllo diqualità, eventuali diritti per la riproduzione);– archiviazione e conservazione (procedure e memorie di massa);– sistemi di distribuzione.

15.9La gestione dei diritti

La natura dei documenti digitali sembra contraddire i principi di autorialità edi originalità dell’opera (e soprattutto i postulati che ne predicano la validitàgiuridica: identità, autenticità e integrità) che sono alla base del diritto d’auto-re e della normativa sul copyright. L’equilibrio fra diffusione della conoscenzae tutela della proprietà intellettuale è stato infatti messo in crisi dai processi didigitalizzazione dei contenuti, che consentono la riproduzione – da un origina-le – di copie identiche tra di loro. Più in generale, le tecnologie digitali hannoampliato il bacino dei potenziali fruitori di tali diritti (fornitori di servizi, diconnettività, implementatori software ecc.), come pure le tipologie documenta-rie e le modalità di fruizione e di utilizzo a cui essi potrebbero essere applica-ti; senza dire poi che le normative nazionali e internazionali rivelano la diffi-coltà a regolamentare la contraddizione (culturale e storica) tra l’esercizio deldiritto territoriale e della sovranità degli Stati e lo statuto di deterritorialitàproprio dei documenti distribuiti nella rete (Commissione interministeriale suicontenuti digitali nell’era di Internet, 2005). Si ricorda che il diritto d’autore

15. BIBLIOTECA DIGITALE

349

esercitato sulle opere dell’ingegno o dell’arte di carattere creativo, tutela sia idiritti morali (di durata illimitata e che riguardano la paternità e l’integritàdell’opera) sia i diritti economici (inalienabili e validi durante la vita dell’auto-re e 70 anni dopo la sua morte) 42.

La necessità dunque di esercitare un controllo sulla distribuzione dei con-tenuti ha spinto le figure titolari dei diritti connessi alle opere all’individuazio-ne di “misure tecnologiche” in grado di inibire o limitare l’uso illegittimo enon autorizzato dei contenuti protetti. Tale sistema di gestione dei diritti digi-tali, denominato DRM (Digital Right Management), regolamenta l’accesso aicontenuti e la loro modalità di utilizzo e di pagamento secondo differenti mo-delli di fruizione 43:– pay per download, pagamento per ogni download di file;– pay per use, pagamento per ogni utilizzo, soprattutto di banche di dati;– pay per view o pay per page, pagamento limitato a determinate sezioni diun’opera, come per esempio il capitolo di un libro o l’articolo di un perio-dico;– sottoscrizione, pagamento per una licenza d’uso per un periodo di tempodefinito;– noleggio e prestito a pagamento, contenuto utilizzato a pagamento per undeterminato periodo di tempo;– preview, modalità di visualizzazione di documento a bassa risoluzione emarcato con filigrane digitali (watermarks) per valutarne l’eventuale acquistoecc.).

Un efficiente sistema di DRM deve rispondere ai principi della neutralitàtecnologica, dell’accessibilità estesa agli utenti diversamente abili, della flessibi-lità nei modelli di fruizione, dell’interoperabilità, della trasparenza delle proce-dure e della tutela della privacy. Ma soprattutto esso deve garantire il dirittoalla lettura come diritto inalienabile anche nel contesto digitale, onde evitare ilparadosso di una conoscenza sempre più accessibile ma meno fruibile. A tute-la di coloro che invece decidano la libera circolazione delle loro opere siapure a determinate condizioni l’organizzazione “Creative Commons”, fondatada Lawrence Lessig, ha spostato il concetto di proprietà intellettuale da dirittoindividuale a diritto dell’industria culturale (Lessig, 2004), prevedendo quattromodalità di utilizzo di un’opera: attribution (obbligo di citazione della fonte);non commercial (consenso all’uso purché non a fini commerciali); no derivativeworks (autorizzazione per l’uso di contenuti derivati dall’originale); share like(condivisione di contenuti alle condizioni prima elencate).

42. Per “copyright” si intende più propriamente la normativa in uso nei Paesi anglosassoni,che regola la riproduzione e la copia di un’opera secondo il suo “giusto utilizzo” (fair use).

43. Cfr. INDICARE (The Informed Dialogue about Consumer Acceptability of DRM Solutionsin Europe), < http://www.indicare.org > .

BIBLIOTECONOMIA: PRINCIPI E QUESTIONI

350