Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

17
Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Transcript of Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Page 1: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Storage Review

Workshop CCR

Sardegna, Maggio 2004

Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Page 2: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Storage Review • Grazie all’aumento delle dimensioni dei dischi rigidi, oggi si possono

superare i 3 TB di spazio disco applicando qualsiasi modello di storage:– DAS (Direct attached storage), NAS (Network Attached Storage), SAN

(Storage Area Network) .• Ovviamente I modelli di NAS e SAN possono scalare a numeri

notevolemte maggiori (dell’ordine delle decine o centinaia di TeraByte).

• Tecnologie in rapida evoluzione.– Dischi rigidi

• Rapida evoluzione su Ultra ATA e SATA (320-400GB) con relativo crollo dei prezzi.

• Momentaneo rallentamento nella uscita dei Dischi FC (MAX 180GB).– Raid Controller

• ATA,SCSI,FC.• Controller ATA FC, SATAFC.

– Switch Fibre Channel.• Nuovi modelli sul mercato con relativo abbassamento dei costi.

Page 3: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

DAS e NAS di fascia bassa

• In generale si tratta di Server Rack_mountable di 3-4 RackUnit “imbottiti” di dischi rigidi ATA o SATA gestiti da un paio di RAID controller (3Ware, Adaptec ..).

• Costi bassi (2K€ al TB) in calo.• Buona flessibilita` nella gestione (Linux Box).• Si trovano comunemente sul mercato Apparati basati su server

biprocessore Intel in grado di ospitare 16 dischi da 250 GB (4TB Lordi, 3 TB Netti Raid5+2HotSpare).

• Problemi rilevati più frequentemente:– Sono stati rilevati comportamenti anomali Blocco totale di alcuni modelli

(Basati su 3Ware) per motivi che non sono stati diagnosticati nemmeno dalla casa madre.

– Guasti frequenti di dischi e controller.

Page 4: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

NAS di fascia alta• Apparati complessi (spesso sono delle Storage Area Network

chiuse con un sistema di gestione proprietario).• I principali produttori sono EmC2 (DELL), NetApp, Procom, IBM.• I costi sono ancora alti (6-8K€ al TB) a fronte di una dichiarata

maggiore continuita` di servizio e una ridondanza a caldo di tutti i componenti essenziali.

• Scalano fino a dimensioni di decine di TB con un unico sistema di controllo.

• I sistemi di controllo e notifica sono in genere molto efficienti.• permettono in genere espansioni dei volumi logici senza

interruzioni di servizio.• Sono sistemi chiusi e in genere esportano i propri volumi solo via

NFS, CIFS, HTTP e HTTPS.• Alcuni produttori possono esportare porzioni di spazio • Disco Via FC(Verso una SAN) o via iSCSI.

Page 5: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

SANPrincipali componenti

Disk Device “semplici”Si tratta di “Shelf” di dischi (da 8 a 16 dischi ) dotati di 1 o 2 controller RAID con

un numero di uscite Fibre Channel comprese fra 2 e 4.

Tecnologia dei dischi: F.C., SCSI, ATA o SATA.

Sistemi di gestione: • permettono la configurazione dei raid set e la creazione di partizioni logiche

(E’ fortemente consigliato verificare la presenza di un sistema efficiente di E-Mail Notification in caso di guasto sui componenti essenziali quali dischi, controller, alimentatori o ventole).

• Tramite il sistema di gestione è spesso possibile definire piu Array con Hot Spare dedicati o con un unico Hot Spare Globale.

Principali produttori: Axus (Brownie), Dell, Infortrend, RAIDTech,

Prezzi indicativi per soluzioni ATA to F.C. (2-2,8 K€ al TB).

Page 6: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

SANPrincipali componenti

Disk Device “Complessi”Si tratta di apparati complessi dotati di unità dedicate alla gestione di

quantità disco molto elevate (da decine a centinaia di TB).

Sono in grado di fornire un numero elevato di uscite F.C. lato host. In pratica realizzano tutte le funzionalità tipiche di una SAN.

Tecnologia dei dischi: F.C., SCSI, ATA o SATA.

Sistemi di gestione: • Creazione di Numerosi Array con Hot Spare comuni

• Espansione in corsa della capacità disco

• Creazione dinamica dei volumi

• Allarmistica e E-Mail Notification su guasto dei componenti.

Principali produttori: Chaparral(RIO), Storagetek(BladeStore), IBM(FastT)..

Prezzi indicativi per soluzioni ATA to F.C. (3,5-4K€ al TB).

Page 7: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Accenno alla Tecnologia BladeStore di Storagetek

Blade: E’ l’unità di base del sistema ed e’ composto da 5 Dischi in tecnologia ATA in raid 0 fra di loro

Array: E’ l’equivalente di un JBOD per dischi FC e contiene fino a 10 Balde

Sistema Bladestore: 1 Control Module + Max. 12 Array

Massima Espandibilità (B280): 12*10*5*250GB =150TB

1 2 4 5 9 108763

Control ModuleFino a 8 Interfacce FC lato Host

Fino a 2 controller(4FC) verso HD

1 2 4 5 9 108763

1

2

3..

12 1 2 4 5 9 108763

.

.

.

...

Array (10 Blade)

Blade (5 HD ADA)

Page 8: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Focus Sulla Tecnologia BladeStore di Storagetek

Il sistema permette di creare Raidset Raid 5 con Hot Spare Globali.

E’ possibile creare volumi dinamicamente (Max 2TB per Volume con l’attuale release software) ed associare questi volumi alle diverse Interfacce FC “lato host”

Page 9: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

“Prestazioni” verificate sui alcuni dei device in uso al CNAF

Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS).

Brownie AXUS (ATA-FC) 16 Dischi da 200GBRAID5+1HS (~2.5 TB) .

2 Uscite in FC

Read 55 MB/sWrite 40 MB/s

Dell Powevault 660f (FC-FC) 112 dischi FC da 73GB 8 enclosure da 14 7 Raidset (RAID-5) con 1 Global Hot Spare(~7TB)

Read 42 MB/sWrite 38 MB/s

STK Bladestore (ATA-FC) 2 Controller con 4 uscite FC10BLADE costituiti da 5 dischi da 250GB RAID-5 su10 Blade +1 Blade Hot-Spare (~10 TB)

Read 75 MB/sWrite 65 MB/s

Oxyria NAS (ATA) 2 Controller 3Ware16 Dischi da 200GB2 Raidset RAID5+HS (~2,4 TB) .

2 Gigabit Ethernet

Read 65 MB/sWrite 50 MB/s

Page 10: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Infortrend ES A16F-R (SATA-FC) 2 Controller con 4 uscite FC16 Dischi da 250GB RAID-5+1Hot-Spare (~3.2 TB)

Read 85 MB/sWrite 90 MB/s

Recente

“Prestazioni” verificate sui alcuni dei device in uso al CNAF

Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS).

Server

NAS

SAN

IP (Gb Ethernet)

F.C.

(NFS)

(NFS)IP

Misure via NFS

1 Client 30-35MB/s2-3 Client 35-40 MB/sOltre 5 client le prestazioni tendono a diminuire

Con 92 Client -> 16MB/s (Aggreato)

Non si sono notate differenze rilevanti via NFS fra accesso via NAS o SAN.

Page 12: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

F.C.

F.C.F.C.

F.C.Switch FC

SANUtilizzo degli Switch Fibre-Channel

ServerServerServerServer

F.C.

F.C. F.C.F.C.

Con la funzione di “Zoning” sugli switch FC e’ possibile creare “Zone” (Simili a vlan per porta o per MAC) tramite le quali associare:

un server ad un device. un server a piu device

Tutto lo storage in SANviene cosi reso automaticamente disponibile a tutti i server collegatipiu server a piu device

piu server ad un device

Page 13: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

SANUtilizzo di base..

F.C.F.C.

F.C.

F.C.Switch FC

ServerServerServerServer

F.C.F.C. F.C. F.C.

A questo punto il server “Vede” tutte le partizioni esportate dagli apparati FC come device /dev/sdxPer esempio /dev/sda, /dev/sdb, /dev/sdc…

Limiti: Con kernel “vecchi” 2.4.18-xx Partizioni <1TB Con Kernel piu recenti (2.6.6) le partizioni possono arrivare a 16TB ma…. Il modulo software delle schede FC Qlogic non permette di gestire singoli device superiori a 2TB! Quindi si e’ costretti ad utilizzare sistemi quali per esempio raid 0 software.

debian:~# df -hFilesystem Size Used Avail Use% Mounted on/dev/hda2 110G 2.8G 101G 3% /tmpfs 2.0G 0 2.0G 0% /dev/shm/dev/hda1 37M 22M 14M 61% /boot/dev/md0 3.2T 35G 3.2T 2% /mnt/discone

debian:~# dmesgSCSI device sda: 3481600000 512-byte hdwr sectors (1782579 MB)…SCSI device sdb: 3374219264 512-byte hdwr sectors (1727600 MB)

debian:~# mdadm -C /dev/md0 --level 0 --raid-disks 2 /dev/sda /dev/sdb

Page 14: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

SANCi piacerebbe di fare qualcosa di piu`..

ServerServer

Gestire volumi in maniera dinamica con un LVM in gradodi accorpare le partizioni disponibili sulla SAN (Linux LVM, Veritas…)

Alta affidabilità in caso di “Down” di uno dei server, il secondo si sostituisce automaticamente al primo senza disservizio per i client (RH Advanced ..)

Vero e proprio “Service Cluster” con il quale, in maniera trasparente per i client, si può aumentare il numero dei server aumentando affidabilità e prestazioni. (IBM GPFS,Sistina GFS..)

Di tutte queste funzionalità per ora nel T1 si utilizza per servizi di produzione solo NFS ed Oracle in alta affidabilità con RedHat Advanced Server.

Page 15: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Cluster RedHat A.S. 2.1

• 2 nodi in cluster con eth1 IP heartbeat e un “quorum disk”• Ogni servizio “clustered” ha il suo indirizzo IP associato

(IP alias) • Si ha alta affidablità solo su un singolo servizio ma e’

possibile una configurazione “active/active” Su servizi differenti .

• E’ stato provato con successo con I servizi NFS e Oracle (NFS in produzione).

• Le operazioni di mount/dismount vengono forzate automaticamente usando la SAN per accedere ai volumi.

• E’ stato necesario “Patchare” l’agente stonith (Shot The Other Node In The Head) per forzare il reboot su nodi eventualmente “freezed” utlizzando le presiere controllabili via IP di APC.

Page 16: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Cluster RedHat A.S. 2.1

Gadzoox 4218 Switch Fibre Channel

Power Supply 220V

Internal HeartBeat Ethernet- Eth1

LAN/WAN

2 Dell 1650 2GB RAM servers

APC Master Switch Controller AP9224

Remote Power on/off Using IP

Connection to LAN/WAN

Ethernet- Eth0

Power Supply

220V

Fibre Channel connections Using HBA Qla2300 with SANsurfer persistent data (Fixed SCSI device order on

SAN) QUORUM DISK

ORACLE SERVICE

(AXUS BROWIE 2TB)

NFS SERVICE

(2.5TB)

APC Master Switch Controller AP9224

Remote Power on/off Using IP

Page 17: Storage Review Workshop CCR Sardegna, Maggio 2004 Stefano Zani e Pierpaolo Ricci (INFN CNAF)

Attività di sperimentazioneCluster file system

GPFS (IBM General Parallel Filesystem) Test effettuato un anno fa con 3 nodi risultato parzialmente positivo: OK il volume manager ma Basse prestazionisoprattutto esportando in NFS lo spazio disco (20MB/s). GFS (Sistina Global File System) NON Testato

Object based File System (meta-data server e file distribuiti su più I/O server collegati in rete)PVFS (Parallel Virtual File System) Utile soprattutto per creare aree di disco ad accesso molto veloce (come raid 0 fra dischi distribuiti) utilizzando il secondo disco dei nodi di calcolo quando non viene utilizzato…. In fase di test (in collaborazione con LHCB)Dcache (Distributed storage data caching system) non POSIX compliant si accede comunque ai dati utilizzando dcap (dCache access protocol) in futuro SRM potrebbe essere una buona interfaccia per dCache. Da test effettuati al T1 (T1 staff+CMS) utilizzando 20 Pool Node e 100 Client il throuhput Globale ha raggiunto 1,2 Gbit/s (150MB/s) ... Lustre Basato anch’esso su Meta-Data Server (Ridondabili) OSS (Object Storage Server) che contengono effettivamente i dati.Su questi File System vale la pena spendere tempo in sperimentazione. Alcuni di questi file system verranno presi in considerazione nelle prossime presentazioni