L'archiviazione nella digitalizzazione industriale e il Progetto Google
-
Upload
informamuse-srl -
Category
Education
-
view
42 -
download
1
Transcript of L'archiviazione nella digitalizzazione industriale e il Progetto Google
#
Mr. Klaus Kempf
Archiviazione: Babs, Rosetta, LRZ; Progetto Google e la digitalizzazione di massa.
68
Archiviazione
Archiviazione automatica dopo la chiusura di tutti i lavori
Transfer della produzione giornaliera durante la notte al centro calcoli di ricerca „Leibniz“ (LRZ), Monaco di Baviera
Amministrazione, salvataggio sul disco rigido e sul nastro magnetico nel sistema automatico
Possibilità di recupero dei dati per utilizzi successivi (riproduzione del catalogo, facsimili ecc.)
Palermo, 11 novembre 2014
69
BABS: Alcuni dati statistici
0
200.000.000
400.000.000
600.000.000
800.000.000
1.000.000.000
1.200.000.000
1.400.000.000
Jan.
09
Mrz
. 09
Mai
. 09
Jul.
09Sep
. 09
Nov
. 09
Jan.
10
Mrz
. 10
Mai
. 10
Jul.
10Sep
. 10
Nov
. 10
Jan.
11
Mrz
. 11
Mai
. 11
Jul.
11Sep
. 11
Nov
. 11
Jan.
12
Mrz
. 12
Mai
. 12
Jul.
12Sep
. 12
Nov
. 12
Jan.
13
Mrz
. 13
Mai
. 13
Jul.
13Sep
. 13
Nov
. 13
Jan.
14
Mrz
. 14
Mai
. 14
Jul.
14Sep
. 14
Quantità totale dei dati archiviati su 31/10/2014 (incluso il progetto Google): 567 Terabyte 1,22 miliardi di file
Crescita per anno: ~ 70-80 Terabyte ~ 200.000 file
69 Palermo, 11 novembre 2014
Archivazione digitale: Flusso di lavoro con BABS
70 Palermo, 11 novembre 2014
Archivazione digitale: Flusso di lavoro con Rosetta
71 Palermo, 11 novembre 2014
72
Archiviazione a lungo termine – Cooperazione con il LRZ: Backup fondato su robots - e sistema d‘archivio
STK SL8500 Palermo, 11 novembre 2014
Archivazione d‘oggetti/documenti digitali
Metadati (TEI)
Fulltext
Imagini (TIFF) con profilo
colori (ICC)
Derivate (JPEG)
Nuovo: 3-D
Archivreport
74
Archiviazione a lungo termine – LRZ Backup e sistema d‘archivio: nastri magnetici
2 x IBM TS3500 (3584) Palermo, 11 novembre 2014
75
G. Excursus: Il progetto di Google – Digitalizzazione industriale di massa
Palermo, 11 novembre 2014
76
– Partner nel programma bibliotecario di Google BookSearch Ricerca Libri BETA
Bayerische Staatsbibliothek
Princeton University
University of California
The National Library of Catalonia
University Complutense of Madrid
Harvard University
University of Michigan
The New York Public Library
Oxford University
Stanford University
University of Texas at Austin
University of Virginia
University of Wisconsin - Madison
Committee on Institutional Cooperation (CIC)
Cornell University Library Ghent University Library
Keio University Library
University Library of Lausanne
Columbia University Libraries
Palermo, 11 novembre 2014
77
Book Search: Public-Private-Partnership
Digitalizzazione del patrimonio completo della Biblioteca Statale della Baviera non coperto dal diritto di autore
(circa 1,2 millioni titoli) Cooperative Agreement („Non-Disclosure Agreement“)
Durata del progetto: pluriennale
Sede: Stato Libero della Baviera
Nessun costo diretto per la BSB
Copie digitali incl. Fulltext in più permanenti miglioramenti sulle copie esistenti per la BSB: „Library Digital Copy (LDC)“
Accesso diretto via OPAC, website, ed altre offerte in internet della BSB
Integrazione mediante metadati in portali e servizi regionali, nazionali e internazionali
Palermo, 11 novembre 2014
78
„Mutuo accordo di Non-Rivelazione“
niente numeri
niente nomi
niente posti
Niente processi
Palermo, 11 novembre 2014
79
Digitalizzazione da Google e a spese di Google
Copia digitale di Google Integrazione nei servizi di Google
Library Digital Copy Integrazione nei servizi della biblioteca
Palermo, 11 novembre 2014
Digitalizzazione di massa „Industriale“
No alla „raccolta selettiva“: nessuna priorità di corpora, numero di scaffali, tipi di materiale ecc.
La logistica determina le procedure e il tempo della digitalizzazione (trasporto, condizioni di lavoro, turni, ecc.)
La selezione si focalizza strettmente sui problemi di conservazioni, formato e Copyright
Continua ottimizzazioen delle tecnologie di scansione da parte di Google („se non funziona oggi, funzionerà domani“)
In altre parole: se Google non può digitalizzare per problemi tecnici o di conservazione, la BSB lo farà.
80 Palermo, 11 novembre 2014
81
Sviluppo del patrimonio Eredità culturale scritta ca. 1900
Google Digital Copy
e
Non coperti dal diritto d‘autore
Public-Private- Partnership
diritto d‘autore
Digitalizzazione
Library Digital Copy
e
Documentazione dell‘ URL
Accesso al digitalizzato
Testo completo Immagini/file immagini
+
Patrimoni e licenze attuali
Manoscritti
Incunaboli
Stampe
antiche
Rara
Google – Cooperazione
Palermo, 11 novembre 2014
Una sfida in più: Erogazioni di fulltext tramite software OCR
Nella BSB il fulltext viene generato mediante il software „Abbyy Recognition Server“
Google utilizza invece il software „Tesseract“
Un ulteriore miglioramento della ricerca bibliografica sul fulltext si raggiunge attraverso l‘uso dei cosiddetti „Named Entity Recognition (NER)“ che portano con se una focalizzazione della ricerca ai questi tipi di „navigatori“.
82 Palermo, 11 novembre 2014
Una sfida in più: Erogazioni di fulltext tramite software OCR
83 Palermo, 11 novembre 2014
Fulltext search in books digitized by Google via name entity recognition
84 Palermo, 11 novembre 2014
bookalive.informamuse.com