L'archiviazione nella digitalizzazione industriale e il Progetto Google

20
# Mr. Klaus Kempf Archiviazione: Babs, Rosetta, LRZ; Progetto Google e la digitalizzazione di massa.

Transcript of L'archiviazione nella digitalizzazione industriale e il Progetto Google

Page 1: L'archiviazione nella digitalizzazione industriale e il Progetto Google

#

Mr. Klaus Kempf

Archiviazione: Babs, Rosetta, LRZ; Progetto Google e la digitalizzazione di massa.

Page 2: L'archiviazione nella digitalizzazione industriale e il Progetto Google
Page 3: L'archiviazione nella digitalizzazione industriale e il Progetto Google

68

Archiviazione

Archiviazione automatica dopo la chiusura di tutti i lavori

Transfer della produzione giornaliera durante la notte al centro calcoli di ricerca „Leibniz“ (LRZ), Monaco di Baviera

Amministrazione, salvataggio sul disco rigido e sul nastro magnetico nel sistema automatico

Possibilità di recupero dei dati per utilizzi successivi (riproduzione del catalogo, facsimili ecc.)

Palermo, 11 novembre 2014

Page 4: L'archiviazione nella digitalizzazione industriale e il Progetto Google

69

BABS: Alcuni dati statistici

0

200.000.000

400.000.000

600.000.000

800.000.000

1.000.000.000

1.200.000.000

1.400.000.000

Jan.

09

Mrz

. 09

Mai

. 09

Jul.

09Sep

. 09

Nov

. 09

Jan.

10

Mrz

. 10

Mai

. 10

Jul.

10Sep

. 10

Nov

. 10

Jan.

11

Mrz

. 11

Mai

. 11

Jul.

11Sep

. 11

Nov

. 11

Jan.

12

Mrz

. 12

Mai

. 12

Jul.

12Sep

. 12

Nov

. 12

Jan.

13

Mrz

. 13

Mai

. 13

Jul.

13Sep

. 13

Nov

. 13

Jan.

14

Mrz

. 14

Mai

. 14

Jul.

14Sep

. 14

Quantità totale dei dati archiviati su 31/10/2014 (incluso il progetto Google): 567 Terabyte 1,22 miliardi di file

Crescita per anno: ~ 70-80 Terabyte ~ 200.000 file

69 Palermo, 11 novembre 2014

Page 5: L'archiviazione nella digitalizzazione industriale e il Progetto Google

Archivazione digitale: Flusso di lavoro con BABS

70 Palermo, 11 novembre 2014

Page 6: L'archiviazione nella digitalizzazione industriale e il Progetto Google

Archivazione digitale: Flusso di lavoro con Rosetta

71 Palermo, 11 novembre 2014

Page 7: L'archiviazione nella digitalizzazione industriale e il Progetto Google

72

Archiviazione a lungo termine – Cooperazione con il LRZ: Backup fondato su robots - e sistema d‘archivio

STK SL8500 Palermo, 11 novembre 2014

Page 8: L'archiviazione nella digitalizzazione industriale e il Progetto Google

Archivazione d‘oggetti/documenti digitali

Metadati (TEI)

Fulltext

Imagini (TIFF) con profilo

colori (ICC)

Derivate (JPEG)

Nuovo: 3-D

Archivreport

Page 9: L'archiviazione nella digitalizzazione industriale e il Progetto Google

74

Archiviazione a lungo termine – LRZ Backup e sistema d‘archivio: nastri magnetici

2 x IBM TS3500 (3584) Palermo, 11 novembre 2014

Page 10: L'archiviazione nella digitalizzazione industriale e il Progetto Google

75

G. Excursus: Il progetto di Google – Digitalizzazione industriale di massa

Palermo, 11 novembre 2014

Page 11: L'archiviazione nella digitalizzazione industriale e il Progetto Google

76

– Partner nel programma bibliotecario di Google BookSearch Ricerca Libri BETA

Bayerische Staatsbibliothek

Princeton University

University of California

The National Library of Catalonia

University Complutense of Madrid

Harvard University

University of Michigan

The New York Public Library

Oxford University

Stanford University

University of Texas at Austin

University of Virginia

University of Wisconsin - Madison

Committee on Institutional Cooperation (CIC)

Cornell University Library Ghent University Library

Keio University Library

University Library of Lausanne

Columbia University Libraries

Palermo, 11 novembre 2014

Page 12: L'archiviazione nella digitalizzazione industriale e il Progetto Google

77

Book Search: Public-Private-Partnership

Digitalizzazione del patrimonio completo della Biblioteca Statale della Baviera non coperto dal diritto di autore

(circa 1,2 millioni titoli) Cooperative Agreement („Non-Disclosure Agreement“)

Durata del progetto: pluriennale

Sede: Stato Libero della Baviera

Nessun costo diretto per la BSB

Copie digitali incl. Fulltext in più permanenti miglioramenti sulle copie esistenti per la BSB: „Library Digital Copy (LDC)“

Accesso diretto via OPAC, website, ed altre offerte in internet della BSB

Integrazione mediante metadati in portali e servizi regionali, nazionali e internazionali

Palermo, 11 novembre 2014

Page 13: L'archiviazione nella digitalizzazione industriale e il Progetto Google

78

„Mutuo accordo di Non-Rivelazione“

niente numeri

niente nomi

niente posti

Niente processi

Palermo, 11 novembre 2014

Page 14: L'archiviazione nella digitalizzazione industriale e il Progetto Google

79

Digitalizzazione da Google e a spese di Google

Copia digitale di Google Integrazione nei servizi di Google

Library Digital Copy Integrazione nei servizi della biblioteca

Palermo, 11 novembre 2014

Page 15: L'archiviazione nella digitalizzazione industriale e il Progetto Google

Digitalizzazione di massa „Industriale“

No alla „raccolta selettiva“: nessuna priorità di corpora, numero di scaffali, tipi di materiale ecc.

La logistica determina le procedure e il tempo della digitalizzazione (trasporto, condizioni di lavoro, turni, ecc.)

La selezione si focalizza strettmente sui problemi di conservazioni, formato e Copyright

Continua ottimizzazioen delle tecnologie di scansione da parte di Google („se non funziona oggi, funzionerà domani“)

In altre parole: se Google non può digitalizzare per problemi tecnici o di conservazione, la BSB lo farà.

80 Palermo, 11 novembre 2014

Page 16: L'archiviazione nella digitalizzazione industriale e il Progetto Google

81

Sviluppo del patrimonio Eredità culturale scritta ca. 1900

Google Digital Copy

e

Non coperti dal diritto d‘autore

Public-Private- Partnership

diritto d‘autore

Digitalizzazione

Library Digital Copy

e

Documentazione dell‘ URL

Accesso al digitalizzato

Testo completo Immagini/file immagini

+

Patrimoni e licenze attuali

Manoscritti

Incunaboli

Stampe

antiche

Rara

Google – Cooperazione

Palermo, 11 novembre 2014

Page 17: L'archiviazione nella digitalizzazione industriale e il Progetto Google

Una sfida in più: Erogazioni di fulltext tramite software OCR

Nella BSB il fulltext viene generato mediante il software „Abbyy Recognition Server“

Google utilizza invece il software „Tesseract“

Un ulteriore miglioramento della ricerca bibliografica sul fulltext si raggiunge attraverso l‘uso dei cosiddetti „Named Entity Recognition (NER)“ che portano con se una focalizzazione della ricerca ai questi tipi di „navigatori“.

82 Palermo, 11 novembre 2014

Page 18: L'archiviazione nella digitalizzazione industriale e il Progetto Google

Una sfida in più: Erogazioni di fulltext tramite software OCR

83 Palermo, 11 novembre 2014

Page 19: L'archiviazione nella digitalizzazione industriale e il Progetto Google

Fulltext search in books digitized by Google via name entity recognition

84 Palermo, 11 novembre 2014

Page 20: L'archiviazione nella digitalizzazione industriale e il Progetto Google

bookalive.informamuse.com