Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

16
Big Data e Calcolo Parallelo Luigi Roggia Thursday, May 9, 13

description

Presentazione effettuata in occasione del Meet Minitab 2013 Per info: [email protected] 0331.587511

Transcript of Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Page 1: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Big Data e Calcolo Parallelo

Luigi Roggia

Thursday, May 9, 13

Page 2: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Tempi che cambiano...

I sistemi informatici di ieri non sono più idonei a gestire le esigenze informative odierne

Oggi più che mai è indispensabile ottimizzare tempi, risorse, qualità e strategie

Enormi quantità di dati aspettano di essere strutturati ed analizzati per rivelare informazioni ancora non emerse

Thursday, May 9, 13

Page 3: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

L’invasione dei dati

Ogni giorno il mondo in cui viviamo e lavoriamo produce incessantemente dati

Esiste una netta differenza tra dati e informazioni: i dati di per sè sono pressochè inutili!

Se i dati vengono raccolti ed archiviati senza un metodo adeguato, possono diventare costosi o impossibili da utilizzare in un secondo momento

Thursday, May 9, 13

Page 4: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Big data e dati in generale

Non esiste una de"nizione quantitaviva di quando un dataset diventi un large dataset; il termine Big Data è spesso usato impropriamente

Per i veri large dataset sono indispensabili le nuove tecnologie nate e studiate appositamente

Alcune delle strategie usate per i big data sono utili e convenienti anche per dataset più piccoli

Thursday, May 9, 13

Page 5: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Database relazionali e non

Esiste molta confusione su cosa sia effettivamente un database e su quanto sia importante un vero database in azienda!

Un foglio Excel o un documento Access non rappresentano soluzioni per creare database

la struttura logica più stabile, utile, performante e versatile è quella del database relazionale

per i big data esistono invece i database non relazionali

In alcuni casi un mix di database relazionali e non relazionali rappresenta la soluzione ottimale

Thursday, May 9, 13

Page 6: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Database relazionale...?

id_colore codice_colore descrizione_colore

1 K0123 Grigio Argento

2 S9111 Nero Notte

3 L0091 Rosso Fuoco

4 K0125 Grigio Fucile

id_modello codice_modello descrizione_modello

1 PT002 Punto

2 FR001 Freemont

3 CR004 Croma

4 PD005 Panda

id_produzione id_colore id_modello anno_mese_produzione

1 1 4 201302

2 2 3 201302

3 2 1 201303

4 4 2 201304

tbd_colore tbd_modello

tbl_produzione

Thursday, May 9, 13

Page 7: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Hardware e architettura di sistema

Il mondo informatico è irreversibilmente lanciato verso le soluzioni web based, oggi chiamate “cloud”

In questo contesto, l’acquisto di “ferro” non ha più molto senso e senz’altro è anti economico

Il concetto di cloud è estremamente importante per il trattamento dei big data e offre soluzioni vincenti e strategiche anche per basi dati non necessariamente big

Tenere i dati in casa su hardware proprietario, non è più la soluzione sempre corretta e conveniente

Thursday, May 9, 13

Page 8: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Problemi dei big data

Come gestire il "le system

Come effettuare il back up o la ridondanza dei dati

Come eseguire analisi statistiche

Come affrontare l’allestimento hardware

Come eseguire ricerche veloci

In realtà tutti questi punti possono essere affrontati anche per dataset di dimensioni standard e condurre a grandi ottimizzazioni...

Thursday, May 9, 13

Page 9: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Calcolo parallelo e distribuito

Thursday, May 9, 13

Page 10: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Calcolo parallelo e distribuito

Solitamente questa situazione si veri"ca nel calcolo scienti"co, soprattutto quando si fannno moodelli di sistemi "sici complessi

Thursday, May 9, 13

Page 11: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Calcolo parallelo e distribuito

Thursday, May 9, 13

Page 12: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Apache Hadoop

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.

It is designed to scale up from single servers to thousands of machines, each offering local computation and storage.

Thursday, May 9, 13

Page 13: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Apache Hadoop

Dispone di un "le system distribuito, capace di gestire "le di dimensioni ingenti

Permette di aggiungere e rimuovere macchine al cluster con estrema facilità

E’ compatibile con diversi linguaggi di programmazione

Gestisce in modo automatico l’utilizzo dei nodi di calcolo

Risolve il problema del plateau parallelo

Thursday, May 9, 13

Page 14: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Apache Hadoop

Thursday, May 9, 13

Page 15: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Data ScienceLa nuova disciplina nata dalla necessità di trasformare i dati in informazioni e le informazioni in fatturato

Unisce matematica, informatica, creatività e competenze di settore

Il futuro appartiene alle aziende che sapranno sfruttare al meglio i dati

Thursday, May 9, 13

Page 16: Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

Conclusione

GMSL Consulting svolge consulenze di Data Science ed è in grado di progettare e realizzare soluzioni per la gestione e l’analisi di big data.

www.gmslconsulting.it

Thursday, May 9, 13