Big Data Analysis: dalla teoria alla pratica

16
Big Data Analysis: dalla teoria alla pratica Presentazione Social Media Web & Smart Apps Studente Giulio Lazzaro mat. 835232 Prof. Gianluigi Cogo A.A. 2013/2014 06/06/2014 Università Ca’ Foscari Venezia

description

Presentazione Social Media Web & Smart Apps Università Ca' Foscari A.A. 2013/2014

Transcript of Big Data Analysis: dalla teoria alla pratica

Page 1: Big Data Analysis: dalla teoria alla pratica

Big Data Analysis: dalla teoria alla pratica

Presentazione Social Media Web & Smart Apps

Studente Giulio Lazzaro mat. 835232

Prof. Gianluigi Cogo

A.A. 2013/2014 06/06/2014

Università Ca’ Foscari Venezia

Page 2: Big Data Analysis: dalla teoria alla pratica

Big data, cosa sono

Raccolte di dati con volumi estremamente elevati, raggruppati per genere in dataset.

Caratteristiche:

Volume

Velocità

Varietà

Veracità

Valore

Immagine: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data

Page 3: Big Data Analysis: dalla teoria alla pratica

Big Data Analysis

Ricavare informazioni (utili e di valore) dai Big Data.

I dati presi singolarmente possono non aver valore,

mentre insiemi di dati possono avere informazioni

aggiuntive nascoste (valore aggiunto).

Page 4: Big Data Analysis: dalla teoria alla pratica

Perché analizzarli

Sono la nuova frontiera dell’informazione.

Sfruttati in IT, comunicazioni, medicina, trasporti, pubbliche amministrazioni, istruzione, catasto ecc.

Le aziende possono massimizzare i loro profitti, ottimizzare i loro processi e offrire nuovi servizi: business analytics.

Page 5: Big Data Analysis: dalla teoria alla pratica

Dati più comuni: machine data

Dati generati da macchine

• Log

• Coordinate GPS

• File di testo, configurazione ecc.

Page 6: Big Data Analysis: dalla teoria alla pratica

Dati più comuni: database

Database: Relazionali e non solo, sono utilizzati in ogni campo.

Page 7: Big Data Analysis: dalla teoria alla pratica

Gli strumenti per l’analisi

• Splunk: indicizza, processa e analizza i dati. Tramite dashboard mostra statistiche e risultati

• Hadoop: programma scalabile di analisi big data, sfrutta l’algoritmo MapReduce di Google

• Fluentd e Logstash: raccolta di log (centralizzazione)

• Molti altri strumenti specializzati

• Algoritmi e abilità (data scientist).

Page 8: Big Data Analysis: dalla teoria alla pratica

Vantaggi offerti

Semplicità e astrazione. Le dashboard contengono i risultati che ci interessano.

Splunk Dashboard - Immagine: http://www.linux-magazine.com/Online/Features/Unified-Event-Monitoring-with-Splunk

Page 9: Big Data Analysis: dalla teoria alla pratica

Computazione

Il modello Mapreduce massimizza le prestazioni dividendo dati e lavoro da eseguire su più nodi.

Page 10: Big Data Analysis: dalla teoria alla pratica

I tipi di analisi

• Descriptive analytics: semplice «lettura» dei dati

• Diagnostic analytics: ricavare ulteriori informazioni dai dati in possesso tramite l’analisi

• Predictive analytics: creare modelli dai dati raccolti, in modo da poterli poi usare per prevedere l’andamento futuro

• Prescriptive analytics: usare i modelli di dati ricavati per analizzare e ottimizzare processi ripetitivi.

Page 11: Big Data Analysis: dalla teoria alla pratica

Buone norme

Confirmation bias

Di solito si cerca di dare ragione alle proprie ipotesi invece di confutarle.

Si dovrebbe essere in grado di confutare le proprie teorie e se necessario cambiare strada.

Immagine: http://online.wsj.com/

Page 12: Big Data Analysis: dalla teoria alla pratica

Buone norme

Irrilevanza e distrazione

Bisogna concentrarsi nei dati veramente utili senza includere dati non inerenti che potrebbero fornire risultati fuorvianti.

Es: refresh di un browser o nuova richiesta

Page 13: Big Data Analysis: dalla teoria alla pratica

Buone norme

Causa e correlazione

Eventi che si manifestano assieme non sono necessariamente correlati.

Page 14: Big Data Analysis: dalla teoria alla pratica

Buone norme

Statistical significance

Non bisogna limitarsi a piccole porzioni di dati, la statistica è sui grandi numeri.

Es: prendere una porzione di dati totalmente diversa dal resto conduce ad un’analisi errata

Page 15: Big Data Analysis: dalla teoria alla pratica

Buone norme

Varietà dei dati da analizzare

A volte i dati da analizzare per poter fare un’analisi accurata sono di diverso tipo.

Es: limitarsi ai commenti negativi escludendo le mail di lamentela.

Page 16: Big Data Analysis: dalla teoria alla pratica

Riferimenti

• http://hadoop.apache.org/

• http://it.splunk.com/

• http://db-engines.com/en/ranking

• http://logstash.net/

• http://fluentd.org/

• http://en.wikipedia.org/wiki/MapReduce