La Business Continuity nei sistemi previdenziali: la realizzazione...
Transcript of La Business Continuity nei sistemi previdenziali: la realizzazione...
-
La Business La Business ContinuityContinuity nei sistemi nei sistemi
previdenziali: previdenziali:
la realizzazione INPSla realizzazione INPS
Roma, 10 maggio 2006
-
Progetto di Business ContinuityProgetto di Business Continuity2
La complessità dell’I.N.P.S.
oltre il 95% dei processi automatizzaticirca 80.000 Kloc di patrimonio applicativooltre 5 milioni di contatti annui gestiti tramite il Contact Centeroltre 8 milioni di visitatori del sito internet con circa 290 milioni di pagine visionateoltre 40 milioni di servizi on-line erogati a cittadini, aziende ed Enti, tra cui:
Estratto contributivo on-lineDomande di pensione on-lineServizi per i comuniDichiarazione contributive aziendali (DM/10) via internetServizi on-line per le colf (iscrizione, bollettini, ecc.)Rilascio dei PIN perl’accesso ai servizi personalizzati………………
-
Progetto di Business ContinuityProgetto di Business Continuity3
Il contesto normativo
ISO17799 – “Code of Practice for Information Security Management”Standard europeo per la sicurezza IT, relativo ad Information Backup & Business Continuity
Direttiva Min. delle Innovazioni e delle Tecnologie – G.U. n.69 del 22/3/2002Sicurezza Informatica e delle Telecomunicazioni nelle Pubbliche Amministrazioni Statali
Centro Tecnico RUPA - 26/11/2002Raccomandazione per la costituzione di un centro unico di back-up per gli Enti previdenzialie assicurativi
Il contesto normativo nazionale ed internazionale fornisce indicazioni e direttive in fatto di sicurezza informatica e di continuità dei servizi ICT.
Codice della Privacy – d.l.196/2003L’integrità, la disponibilità e la privacy dei dati devono essere protette
-
Progetto di Business ContinuityProgetto di Business Continuity4
Gli obiettivi della soluzione INPS di Business ContinuityL’Istituto si è posto l’obiettivo di garantire la disponibilità dei servizi informatici erogati dalla DCSIT di Roma e la tutela del patrimonio dati.
Proteggere da disastro informaticoLe normative nazionali, internazionali ed i fatti di cronaca spingono le PubblicheAmministrazioni ad adottare soluzioni di Disaster Recovery per il ripristino dei serviziinformatici a seguito di eventi disastrosi.
Tutelare il patrimonio dati dell'IstitutoIl verificarsi di eventi indesiderati può causare una perdita di dati non recuperabili, conconseguenze giuridiche e sociali.
Incrementare la disponibilità dei servizi informaticiLa soluzione permette di ripristinare in poco tempo i servizi informatici, a seguito diindisponibilità totale o parziale dell'infrastruttura ICT, dovuta ad eventi pianificati oaccidentali. Tale circostanza assume particolare importanza anche a seguitodell'accentramento presso la DCSIT dei 216 sistemi IBM AS/400 di sede su 9 sistemiIBM i-Series.
Preparare l'organizzazione per la gestione delle emergenzeResponsabilità e processi predefiniti nel “Contingency Plan” consentono di reagireprontamente a situazioni di emergenza e di gestire il successivo ritorno alla normalità.Le situazioni di emergenza vengono simulate periodicamente.
-
Progetto di Business ContinuityProgetto di Business Continuity5
La scelta dell’IstitutoIl mercato offre soluzioni “a caldo” e “a freddo”, accomunate dalla tutela dei dati, ma con livelli di sicurezza e tempi di ripristino differenti.
Esclusione di “soluzioni a freddo”, perché:potenziale perdita dati di 30-36 ore;tempo di riattivazione del Servizio ICT di alcuni giorni;costo di “noleggio” dei sistemi i-Series comparabile con quello per la lorodisponibilità H24 presso un sito di backup di un fornitore, in quanto in Italia non esistono altre realtà con cui condividere sistemi di tale potenza;necessità di raddoppiare comunque lo storage dei sistemi di esercizio perpoter sostenere la produzione dei salvataggi quotidiani dei dati vitali.
Scelta di “soluzioni a caldo”, perché:punto di consistenza dei dati garantito “automaticamente” dal sistema, conpotenziale perdita dati tendente a zero;tempi di riattivazione del Servizio ICT contenuti (ore);benefici anche a fronte di eventi “non disastrosi”;soluzione utilizzabile per evoluzioni future (servizi H24).
Inclusione della Server Farm dopo il completamento del progetto di:Server Consolidation;Storage Consolidation.
-
Progetto di Business ContinuityProgetto di Business Continuity6
L’ambiente informatico dell’INPS
La DCSIT eroga i servizi ICT avvalendosi di un’infrastruttura informatica basata su 3 piattaforme tecnologiche.
SISTEMI “OPEN”
SISTEMI DIPARTIMENTALI
SISTEMI CENTRALI
3 sistemi z-Series 2084-B16: 2 di Produzione in Parallel Sysplex ed 1 di Test e SviluppoCapacità elaborativa totale di ca. 9.500 MIPSSottosistemi a disco per ca. 24 TB1 Unità robotica a nastro
9 sistemi i-Series partizionati (LPAR): 6 dedicati alla Produzione e 3 a Test e SviluppoCapacità elaborativa: 99.000 CPW totali – 40.950 CPW interattiva Sottosistemi a disco per ca. 18 TB6 Unità robotiche a nastro
10 servers x-Series 445 -- 8 servers x-Series 455 -- 6 servers HS-40 -- 12 servers HS-20Sottosistemi a disco per ca. 16 TB1 Unità robotica a nastro
-
Progetto di Business ContinuityProgetto di Business Continuity7
Architettura della soluzioneDisponibilità di un polo di backup “a caldo” con seconda attestazione R.U.P.A. Connessione in fibra ottica ridondata per la duplicazione on-line dei dati ed il “tunneling” del traffico tra il centro di produzione ed il polo di backup .
Produzione
Backup
R.U.P.A.
PCPC
PC
SAP ASN
DWDM
ESCD
ESCD
DWDM
Sedi
-
Progetto di Business ContinuityProgetto di Business Continuity8
La soluzione per la piattaforma i-SeriesLa soluzione prevede la distribuzione degli ambienti di produzione su 9 sistemi partizionati (LPAR). Il polo di backup ospita 6 sistemi partizionati sempre attivi + 1 sistema “dormiente”. Mirroring dati continuo con l’ambiente di produzione.
ATTIVITA’ QUOTIDIANE
Mirroring delle configurazioni edei dati
IN EMERGENZA
Attivazione del processo di “Role-swap”
Eventuale attivazione delsistema in "Dropshipment“
ATTIVITA’ PERIODICHE
Test ed adeguamento dellasoluzione nel tempo
+
156 30 30
Tipologia di sediA B C
156
15 15 1515
Centro produzione
Polo di backup
15 15
C C
Sistema aggiuntivo di Disaster Recovery
-
Progetto di Business ContinuityProgetto di Business Continuity9
I livelli di servizio per i-SeriesSono state definite 3 tipologie di eventi indesiderati (indisponibilità partizione, sistema, disastro) e 3 tipologie di Sede (A,B,C). La combinazione evento/tipologia evidenzia i tempi di ripristino associati.
Tempi di ripristino medi:156 Sedi di tipo “A”, le sedi più importanti:
indisponibilità del sistema di una Sede (partizione): 2 oreindisponibilità di un sistema i-Series (24-25 sedi): 2,5 oredisastro informatico: 4 ore
30 Sedi di tipo “B”:indisponibilità del sistema di una Sede (partizione): 2 oreindisponibilità di un sistema i-Series (24-25 sedi): 4,5 oredisastro informatico: 6,5 ore
30 Sedi di tipo “C”:indisponibilità del sistema di una Sede (partizione): 12 oreindisponibilità di un sistema i-Series (24-25 sedi): 24 oredisastro informatico: 96 ore
Perdita dati tendente a zero per tutte le Sedi.
-
Progetto di Business ContinuityProgetto di Business Continuity10
La soluzione per la piattaforma i-Series
Essendo in corso un progetto di migrazione delle applicazioni AS/400
verso una piattaforma .NET, la soluzione per la piattaforma i-Series deve
ritenersi ormai superata.
La continuità operativa relativa a tali applicazione rientro ora
nella soluzione dell’ambiente “open” descritta appresso.
-
Progetto di Business ContinuityProgetto di Business Continuity11
Le soluzione per la piattaforma z-SeriesLa soluzione prevede la duplicazione on-line dei dati di produzione sul polo di backup, utilizzando la tecnologia XRC (dasd) e PtP VTS (tape). La consistenza dei dati è avviene tramite GDPS-XRC. Il polo di backup dispone di potenza elaborativa “dormiente”.
Risorse non impiegate nelle attività quotidiane Risorse impiegate nelle attività quotidiane
2Aggiornamento reciproco immediatodei due robot nastri dedicati allagestione dei dati “vivi” mediantel’utilizzo di due Peer to Peer (A e B).
REMOTE COPY DATI A NASTROIntercettazione degli aggiornamenti sui dischi primari mediante software …1a
1b … che ripropone gli aggiornamenti anche sui secondari in modalitàasincrona.
REMOTE COPY DATI A DISCO
Centro diProduzione
(Sala A)
Polo diBackup(Sala B)
1a
1b
1
2
A
A 2
Risorse non impiegate nelle attività quotidiane Risorse impiegate nelle attività quotidiane
2Aggiornamento reciproco immediatodei due robot nastri dedicati allagestione dei dati “vivi” mediantel’utilizzo di due Peer to Peer (A e B).
REMOTE COPY DATI A NASTRO
2Aggiornamento reciproco immediatodei due robot nastri dedicati allagestione dei dati “vivi” mediantel’utilizzo di due Peer to Peer .
22Aggiornamento reciproco immediatodei due robot nastri dedicati allagestione dei dati “vivi” mediantel’utilizzo di due Peer to Peer
REMOTE COPY DATI A NASTROIntercettazione degli aggiornamenti sui dischi primari mediante software …1aIntercettazione degli aggiornamenti sui dischi primari mediante software …1a1a
1b … che ripropone gli aggiornamenti anche sui secondari in modalitàasincrona.
1b1b … che ripropone gli aggiornamenti anche sui secondari in modalitàasincrona.
REMOTE COPY DATI A DISCO
1a1a
1b1b
11
22
A
A
A
A 22
ATTIVITA’ QUOTIDIANE
Mirroring dei datiDM e PN c/o centro di prod.SVA c/o polo di backup
IN EMERGENZA
Chiusura attività nel polo dibackup e attivazione dellapotenza “dormiente” I dati nel polo di backupdiventano i primari
ATTIVITA’ PERIODICHE
Test ed adeguamento dellasoluzione nel tempo
-
Progetto di Business ContinuityProgetto di Business Continuity12
I livelli di servizio per z-SeriesIn caso di indisponibilità della Sala A, l’esercizio passa in Sala B.
In caso di indisponibilità della Sala B, lo SVA (Sviluppo Appl.) viene attivato in Sala A.
Livelli di servizio:attivazione dell’infrastruttura informatica entro 2 oreattivazione del sistema SVA (c/o DCSIT) entro 72 ore
Adottabile a fronte di:disastro informaticoqualsiasi evento “fisico” (infrastruttura, hardware) in grado di generareindisponibilità dei servizi superiore alle 2-4 ore
Prerequisiti:separazione ambiente SVA da PN e DMconsolidamento storage (riduzione n. CU, canali FICON)adozione del virtualizzatore nastri (IBM VTS)
-
Progetto di Business ContinuityProgetto di Business Continuity13
NetFinity, SiemensServizi di Infrastruttura ed altri
applicativi
COMPAQ GS320
SAN EAP (Esercizio Applicazioni
Periferiche)
IBM x445
IBM Shark
Approntamento nel sito primarioL’ambiente non necessita di predisposizione per soddisfare i requisiti della soluzioneUnico prerequisito: il boot deve avvenire da dischi in SAN
Approntamento nel sito primario
I dischi hanno collegamenti Fiber Channel e quinpossono essereconnessi alla SAN
Approntamento nel sito primario
Consolidamento dello storage inSAN
Consolidamento Server e Sistemi Operativi
VIRTU
ALIZZA
ZION
E DELLO
STOR
AG
E
La soluzione per la Server Farm
SAP
-
Progetto di Business ContinuityProgetto di Business Continuity14
La soluzione per la Server Farm
-
Progetto di Business ContinuityProgetto di Business Continuity15
La Rete di telecomunicazioneIl centro di produzione ed il polo di backup sono connessi tramite un anello in fibra ottica dedicato. Il traffico R.U.P.A. è distribuito sui 2 centri.
PRO
DU
ZIO
NE B
AC
KU
P
-
Progetto di Business ContinuityProgetto di Business Continuity16
I servizi fondamentali del progetto Il progetto prevede i servizi necessari per la realizzazione ed l’adeguamento nel tempo della soluzione.
Progettazione della soluzione
Housing delle risorse elaborative presso il polo di backup
Risorse elaborative e capacità storage di backup
Postazioni di lavoro utilizzabili durante le situazioni di emergenza
Presidio operativo H24 presso il polo di backup
Sviluppo e mantenimento del “Contingency Plan”
Simulazioni periodiche della soluzione
Training per il personale addetto alla gestione delle emergenze informatiche
Training sulle nuove funzionalità introdotte (XRC, PtP VTS, Vision Suite,…)
-
Progetto di Business ContinuityProgetto di Business Continuity17
Il Contingency Plan - obiettivi Descrive il processo di contenimento degli effetti conseguenti a eventi eccezionali ed il ripristino dei servizi informatici interrotti. L’efficace gestione della crisi richiede il coinvolgimento di tutta l'organizzazione aziendale.
CRISI RECOVERY RIENTRO
Allarme Ispezioni e sopralluoghiValutazione entità del dannoStima indisponibilitàDichiarazione di DisastroComunicazioni dipendentiIstruzioni per reparto
Allarme Ispezioni e sopralluoghiValutazione entità del dannoStima indisponibilitàDichiarazione di DisastroComunicazioni dipendentiIstruzioni per reparto
Attivazione di processi alternativi
Invio dati a centro alternativoTrasferta personaleOrganizzazione turni di lavoroLogistica per dipendentiServizi IT da centro alternativoRipristino centro primario
Attivazione di processi alternativi
Invio dati a centro alternativoTrasferta personaleOrganizzazione turni di lavoroLogistica per dipendentiServizi IT da centro alternativoRipristino centro primario
Predisposizione ufficiPredisposizione sistemiPredisposizione connettivitàProduzione da centro
primario
Predisposizione ufficiPredisposizione sistemiPredisposizione connettivitàProduzione da centro
primario
AreaInformatica
AreaInformatica
Gestione ImmobiliGestione Immobili
Sicurezza e PrevenzioneSicurezza e Prevenzione
Amministrazione del PersonaleAmministrazione del Personale
Direzione Affari LegaliDirezione Affari Legali
Ufficio TecnicoUfficio Tecnico
……
Comunicazioni e ImmagineComunicazioni e Immagine
CRISI
RECOVERY
RIENTRO
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
CRISI RECOVERY RIENTRO
Allarme Ispezioni e sopralluoghiValutazione entità del dannoStima indisponibilitàDichiarazione di DisastroComunicazioni dipendentiIstruzioni per reparto
Allarme Ispezioni e sopralluoghiValutazione entità del dannoStima indisponibilitàDichiarazione di DisastroComunicazioni dipendentiIstruzioni per reparto
Attivazione di processi alternativi
Invio dati a centro alternativoTrasferta personaleOrganizzazione turni di lavoroLogistica per dipendentiServizi IT da centro alternativoRipristino centro primario
Attivazione di processi alternativi
Invio dati a centro alternativoTrasferta personaleOrganizzazione turni di lavoroLogistica per dipendentiServizi IT da centro alternativoRipristino centro primario
Predisposizione ufficiPredisposizione sistemiPredisposizione connettivitàProduzione da centro
primario
Predisposizione ufficiPredisposizione sistemiPredisposizione connettivitàProduzione da centro
primario
CRISI RECOVERY RIENTRO
Allarme Ispezioni e sopralluoghiValutazione entità del dannoStima indisponibilitàDichiarazione di DisastroComunicazioni dipendentiIstruzioni per reparto
Allarme Ispezioni e sopralluoghiValutazione entità del dannoStima indisponibilitàDichiarazione di DisastroComunicazioni dipendentiIstruzioni per reparto
Attivazione di processi alternativi
Invio dati a centro alternativoTrasferta personaleOrganizzazione turni di lavoroLogistica per dipendentiServizi IT da centro alternativoRipristino centro primario
Attivazione di processi alternativi
Invio dati a centro alternativoTrasferta personaleOrganizzazione turni di lavoroLogistica per dipendentiServizi IT da centro alternativoRipristino centro primario
Predisposizione ufficiPredisposizione sistemiPredisposizione connettivitàProduzione da centro
primario
Predisposizione ufficiPredisposizione sistemiPredisposizione connettivitàProduzione da centro
primario
AreaInformatica
AreaInformatica
Gestione ImmobiliGestione Immobili
Sicurezza e PrevenzioneSicurezza e Prevenzione
Amministrazione del PersonaleAmministrazione del Personale
Direzione Affari LegaliDirezione Affari Legali
Ufficio TecnicoUfficio Tecnico
……
Comunicazioni e ImmagineComunicazioni e Immagine
CRISI
RECOVERY
RIENTRO
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
AreaInformatica
AreaInformatica
Gestione ImmobiliGestione Immobili
Sicurezza e PrevenzioneSicurezza e Prevenzione
Amministrazione del PersonaleAmministrazione del Personale
Direzione Affari LegaliDirezione Affari Legali
Ufficio TecnicoUfficio Tecnico
……
Comunicazioni e ImmagineComunicazioni e Immagine
CRISI
RECOVERY
RIENTRO
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
CRISI
RECOVERY
RIENTRO
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
Conoscere l'intero processo di recoveryFormalizzare le procedure e le responsabilitàGarantire efficacia ed efficienza del PianoRicevere la segnalazione di allarmeValutare l’eventoDichiarare il disastro (Manager)Decidere le contromisureAttivare le contromisureCoordinare le attività di ripristinoPredisporre e coordinare il rientro
-
Progetto di Business ContinuityProgetto di Business Continuity18
Gestione della crisi – struttura organizzativaLa gestione delle situazioni di emergenza è responsabilità del Comitato di Crisi, al quale si affiancano i rappresentanti delle Direzioni impattate dalla crisi.
Assessment SistemistiSorveglianza
OperatoriImmobili edInfrastrutture
Call Center SupportoApplicativo
Comitato diCoordinamento
Comitato di Crisi
ResponsabileComitato di Crisi
Segreteria
Squadre di Intervento
In caso di indisponibilità parziale o totale dell’infrastruttura tecnologica, la struttura organizzativa dell’Istituto opera in accordo con lo specifico funzionigrammapredisposto per la gestione della crisi.
-
Progetto di Business ContinuityProgetto di Business Continuity19
Il collaudo
Simulazione della indisponibilità di tutte le apparecchiature TLC nella DCSITimpedimento delle connessioni dalla rete RUPA, verso la sede DCSIT e verso il polo di backup, da parte delle Sedi;disconnessione del collegamento tra la sede DCSIT ed il polo di backup;abilitazione della connessione RUPA con la Sede prescelta per il test.
Simulazione della indisponibilità dei soli sistemi z-Series di produzioneimpedimento delle connessioni dalla rete RUPA, verso la sede DCSIT e verso il polo dibackup, da parte delle Sedi;riconnessione del collegamento tra la sede DCSIT ed il polo di backup;abilitazione della connessione RUPA con la Sede prescelta per il test.
Verifiche effettuateconnessioni alla Rete allineamento dei dati tra i due centritest delle applicazioni sia centrali che dipartimentali
-
Progetto di Business ContinuityProgetto di Business Continuity20
Per ulteriori informazioni
Dott. Renzo Ferrucci
Direttore dell’Area Pianificazione, Gestione e CapacityPlanning
I.N.P.S.Direzione Centrale Sistemi Informativi e Telecomunicazioni
Viale Civiltà del lavoro, 46 – ROMA
Tel. 06 59053179 – 06 59056896
E-mail: [email protected]
La Business Continuity nei sistemi previdenziali: �la realizzazione INPSIl contesto normativoGli obiettivi della soluzione INPS di Business ContinuityLa scelta dell’IstitutoL’ambiente informatico dell’INPSArchitettura della soluzioneLa soluzione per la piattaforma i-SeriesI livelli di servizio per i-SeriesLe soluzione per la piattaforma z-SeriesI livelli di servizio per z-Series La Rete di telecomunicazioneI servizi fondamentali del progetto Il Contingency Plan - obiettivi Gestione della crisi – struttura organizzativaIl collaudoPer ulteriori informazioni