La Stampa: 150 anni in linea

12
Fosdinovo, 10/09/2010 La Stampa: 150 anni in linea La Biblioteca Digitale dell’Informazione Giornalistica Francesco Cerchio SAM – Società di archiviazione multimediali Guglielmo Gasparini CSI Piemonte – Centro di Competenza Cultura e Turismo

description

Intervento di Francesco Cerchio e Guglielmo Gasparini all'eBookFest 2010 di Fosdinovo.

Transcript of La Stampa: 150 anni in linea

Page 1: La Stampa: 150 anni in linea

Fosdinovo, 10/09/2010

La Stampa: 150 anni in linea La Biblioteca Digitale dell’Informazione Giornalistica

Francesco CerchioSAM – Società di archiviazione multimediali

Guglielmo GaspariniCSI Piemonte – Centro di Competenza Cultura e Turismo

Page 2: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

2

ObiettivoL’obiettivo alla base dell’iniziativa è quello di istituire una Biblioteca Digitale per valorizzare, conservare e mettere a disposizione del pubblico la copia digitale del materiale archivistico del Centro di Documentazione de La Stampa denominata Biblioteca Digitale dell’Informazione Giornalistica.

L’iniziativa si innesta nel più ampio progetto di realizzazione della Biblioteca Digitale Piemontese, curato dalla Regione Piemonte, che ha l’obiettivo di creare il repository dei patrimoni digitali prodotti dalle istituzioni culturali piemontesi, nel rispetto delle linea guida dettate dal progetto la Biblioteca Digitale Italiana del Ministero per i Beni e le Attività Culturali.

Page 3: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

3

Enti promotori e finanziatori

La Stampa Regione Piemonte Compagnia di San Paolo Fondazione Cassa di Risparmio Torino

L’iniziativa nasce da un connubio tra Pubblico e Privato.Da un lato l’Editrice La Stampa, che ha messo a disposizione i suoi archivi storici per la digitalizzazione, le Fondazioni Bancarie, che credendo nel progetto hanno contribuito con proprie risorse finanziarie, dall’altro la Regione Piemonte con l’infrastruttura di pubblicazione e fruizione attraverso il CSI Piemonte. Il progetto coordinato dal Comitato per la Biblioteca dell’informazione giornalistica, espressione degli Enti promotori e finanziatori dell’iniziativa coinvolti, è costituito da un membro di ciascun Ente:

Page 4: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

4

L’Archivio Storico La Stampa, che costituisce il primo nucleo della BDIG, è una iniziativa senza fini di lucro che si rivolge al pubblico per la gratuita consultazione, fornendo al tempo stesso un utile strumento di lavoro per giornalisti, storici, ricercatori, bibliotecari, ed esperti del settore.

Un patrimonio di informazioni che comprende un arco temporale che va dal 1867 al 2005, costituito da: oltre 1.761.000 pagine circa 12.000.000 di pezzi giornalistici di cui oltre 5.000.000 scaricabili singolarmente

La Stampa, che nasce in origine con il nome Gazzetta Piemontese, comprende due testate: La Stampa – con 47.243 edizioni giornaliere dal 1867 al 2005 Stampa Sera – con 18.314 edizioni dal 1931 al 1992.

Permette di consultare tutte le pagine di tutte le edizioni de La Stampa e di Stampa Sera compresi gli allegati e le edizioni locali, tra i quali:TorinoSette, TuttoLibri, TuttoScienze, TuttoSoldi, TuttoCome, TuttoDove, MondoScuola, ScuolaLavoro, Global, GIO, VivereRoma, VivereMilano ed altri ancora.

La Biblioteca Digitale dell’Informazione Giornalistica (BDIG)

Page 5: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

5

Archivio Storico La Stampa

E’ costituito da un Front- end

per la consultazione

e da un Back-end di gestione

Page 6: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

6

Front-end: funzionalità principali

Consente di effettuare ricerche: libere (like google), per data e avanzate

Consente di filtrare i risultati ottenuti per testata di interesse

Tiene traccia degli articoli più letti del giorno, della settimana e del mese

Permette di effettuare la stampa di una pagina di giornale (A4, A3, A2) Permette di acquisire il testo dell’articolo di interesse o di una intera pagina di giornale

Page 7: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

7

Permette di visualizzare gli articoli della prima pagina dell’edizione a cui appartiene l’articolo di interesse

Permette di leggere l’articolo direttamente sull’immagine della pagina

Consente di navigare le pagine dell’edizione del giornale a partire dall’articolo di interesse

Front-end: funzionalità principali

Page 8: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

8

A differenza di quanto possa sembrare, anche, le ultime due attività richiedono impegno, capacità e competenze e sono fondamentali per il successo dell’iniziativa.

Attività del Progetto

Il progetto è composto da tre macro fasi-attività: realizzazione del software digitalizzazione delle pagine e degli articoli progettazione e gestione dell’infrastruttura di pubblicazione

Page 9: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

9

Digitalizzazione delle pagine e degli articoliIl giornale è un prodotto editoriale complesso. Le variabili da tenere in considerazione sono molte, dimensioni fisiche, complessità di impaginazione, numero di oggetti presenti nelle pagine (articoli, titoli, colonne, immagini, didascalie, pubblicità, annunci,..) è rilevante e non riconducibile a modelli predefiniti. Inoltre questi parametri nel periodo preso in considerazione sono cambiati numerose volte senza soluzione di continuità, complicandone anche l’analisi.

Le procedure per digitalizzare un numero così imponente di pagine in un tempo ragionevole devono essere automatizzate il più possibile, limitando l’intervento manuale ai casi più complessi.

Questi due aspetti spesso si scontrano e rendono necessarie soluzioni alternative, che nella migliore delle ipotesi aumentano significativamente i tempi di lavorazione.

Page 10: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

10

Predisposizione e gestione dell’infrastruttura di pubblicazione

La progettazione dell’infrastruttura sulla quale viene ospitato il servizio deve prendere in considerazione diversi aspetti fondamentali: Numero di accessi potenziali Quantità dei dati Volume di crescita dei dati Ampiezza della banda in uscita Sistema di monitoraggio del servizio Simulazioni di utilizzo del servizio con stress test di carico

80 TB di dati archiviati su nastro (immagini ad alta e bassa risoluzione) 3 TB di dati disponibili alla consultazione on-line (immagini a bassa risoluzione) 20.000.000 di file gestiti per la consultazione on-line

Per dare l’idea della complessità basti pensare che il progetto ha generato un volume di:

Page 11: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

11

Aziende che hanno lavorato al progetto

Francesco Cerchio

STI

Bassnet

Bassilichi

Microshop

CSI Piemonte

Page 12: La Stampa: 150 anni in linea

10/09/2010

La Stampa: 150 anni in linea

12

Credits

Francesco Cerchio

La StampaRegione Piemonte

Compagnia di San PaoloFondazione Cassa di Risparmio

STIBassnet

BassilichiMicroshop