Big Data Analysis: dalla teoria alla pratica

Post on 19-Jun-2015

559 views 4 download

description

Presentazione Social Media Web & Smart Apps Università Ca' Foscari A.A. 2013/2014

Transcript of Big Data Analysis: dalla teoria alla pratica

Big Data Analysis: dalla teoria alla pratica

Presentazione Social Media Web & Smart Apps

Studente Giulio Lazzaro mat. 835232

Prof. Gianluigi Cogo

A.A. 2013/2014 06/06/2014

Università Ca’ Foscari Venezia

Big data, cosa sono

Raccolte di dati con volumi estremamente elevati, raggruppati per genere in dataset.

Caratteristiche:

Volume

Velocità

Varietà

Veracità

Valore

Immagine: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data

Big Data Analysis

Ricavare informazioni (utili e di valore) dai Big Data.

I dati presi singolarmente possono non aver valore,

mentre insiemi di dati possono avere informazioni

aggiuntive nascoste (valore aggiunto).

Perché analizzarli

Sono la nuova frontiera dell’informazione.

Sfruttati in IT, comunicazioni, medicina, trasporti, pubbliche amministrazioni, istruzione, catasto ecc.

Le aziende possono massimizzare i loro profitti, ottimizzare i loro processi e offrire nuovi servizi: business analytics.

Dati più comuni: machine data

Dati generati da macchine

• Log

• Coordinate GPS

• File di testo, configurazione ecc.

Dati più comuni: database

Database: Relazionali e non solo, sono utilizzati in ogni campo.

Gli strumenti per l’analisi

• Splunk: indicizza, processa e analizza i dati. Tramite dashboard mostra statistiche e risultati

• Hadoop: programma scalabile di analisi big data, sfrutta l’algoritmo MapReduce di Google

• Fluentd e Logstash: raccolta di log (centralizzazione)

• Molti altri strumenti specializzati

• Algoritmi e abilità (data scientist).

Vantaggi offerti

Semplicità e astrazione. Le dashboard contengono i risultati che ci interessano.

Splunk Dashboard - Immagine: http://www.linux-magazine.com/Online/Features/Unified-Event-Monitoring-with-Splunk

Computazione

Il modello Mapreduce massimizza le prestazioni dividendo dati e lavoro da eseguire su più nodi.

I tipi di analisi

• Descriptive analytics: semplice «lettura» dei dati

• Diagnostic analytics: ricavare ulteriori informazioni dai dati in possesso tramite l’analisi

• Predictive analytics: creare modelli dai dati raccolti, in modo da poterli poi usare per prevedere l’andamento futuro

• Prescriptive analytics: usare i modelli di dati ricavati per analizzare e ottimizzare processi ripetitivi.

Buone norme

Confirmation bias

Di solito si cerca di dare ragione alle proprie ipotesi invece di confutarle.

Si dovrebbe essere in grado di confutare le proprie teorie e se necessario cambiare strada.

Immagine: http://online.wsj.com/

Buone norme

Irrilevanza e distrazione

Bisogna concentrarsi nei dati veramente utili senza includere dati non inerenti che potrebbero fornire risultati fuorvianti.

Es: refresh di un browser o nuova richiesta

Buone norme

Causa e correlazione

Eventi che si manifestano assieme non sono necessariamente correlati.

Buone norme

Statistical significance

Non bisogna limitarsi a piccole porzioni di dati, la statistica è sui grandi numeri.

Es: prendere una porzione di dati totalmente diversa dal resto conduce ad un’analisi errata

Buone norme

Varietà dei dati da analizzare

A volte i dati da analizzare per poter fare un’analisi accurata sono di diverso tipo.

Es: limitarsi ai commenti negativi escludendo le mail di lamentela.

Riferimenti

• http://hadoop.apache.org/

• http://it.splunk.com/

• http://db-engines.com/en/ranking

• http://logstash.net/

• http://fluentd.org/

• http://en.wikipedia.org/wiki/MapReduce