Big Data Analysis: dalla teoria alla pratica
-
Upload
giulio-lazzaro -
Category
Data & Analytics
-
view
559 -
download
4
description
Transcript of Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla pratica
Presentazione Social Media Web & Smart Apps
Studente Giulio Lazzaro mat. 835232
Prof. Gianluigi Cogo
A.A. 2013/2014 06/06/2014
Università Ca’ Foscari Venezia
Big data, cosa sono
Raccolte di dati con volumi estremamente elevati, raggruppati per genere in dataset.
Caratteristiche:
Volume
Velocità
Varietà
Veracità
Valore
Immagine: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
Big Data Analysis
Ricavare informazioni (utili e di valore) dai Big Data.
I dati presi singolarmente possono non aver valore,
mentre insiemi di dati possono avere informazioni
aggiuntive nascoste (valore aggiunto).
Perché analizzarli
Sono la nuova frontiera dell’informazione.
Sfruttati in IT, comunicazioni, medicina, trasporti, pubbliche amministrazioni, istruzione, catasto ecc.
Le aziende possono massimizzare i loro profitti, ottimizzare i loro processi e offrire nuovi servizi: business analytics.
Dati più comuni: machine data
Dati generati da macchine
• Log
• Coordinate GPS
• File di testo, configurazione ecc.
Dati più comuni: database
Database: Relazionali e non solo, sono utilizzati in ogni campo.
Gli strumenti per l’analisi
• Splunk: indicizza, processa e analizza i dati. Tramite dashboard mostra statistiche e risultati
• Hadoop: programma scalabile di analisi big data, sfrutta l’algoritmo MapReduce di Google
• Fluentd e Logstash: raccolta di log (centralizzazione)
• Molti altri strumenti specializzati
• Algoritmi e abilità (data scientist).
Vantaggi offerti
Semplicità e astrazione. Le dashboard contengono i risultati che ci interessano.
Splunk Dashboard - Immagine: http://www.linux-magazine.com/Online/Features/Unified-Event-Monitoring-with-Splunk
Computazione
Il modello Mapreduce massimizza le prestazioni dividendo dati e lavoro da eseguire su più nodi.
I tipi di analisi
• Descriptive analytics: semplice «lettura» dei dati
• Diagnostic analytics: ricavare ulteriori informazioni dai dati in possesso tramite l’analisi
• Predictive analytics: creare modelli dai dati raccolti, in modo da poterli poi usare per prevedere l’andamento futuro
• Prescriptive analytics: usare i modelli di dati ricavati per analizzare e ottimizzare processi ripetitivi.
Buone norme
Confirmation bias
Di solito si cerca di dare ragione alle proprie ipotesi invece di confutarle.
Si dovrebbe essere in grado di confutare le proprie teorie e se necessario cambiare strada.
Immagine: http://online.wsj.com/
Buone norme
Irrilevanza e distrazione
Bisogna concentrarsi nei dati veramente utili senza includere dati non inerenti che potrebbero fornire risultati fuorvianti.
Es: refresh di un browser o nuova richiesta
Buone norme
Causa e correlazione
Eventi che si manifestano assieme non sono necessariamente correlati.
Buone norme
Statistical significance
Non bisogna limitarsi a piccole porzioni di dati, la statistica è sui grandi numeri.
Es: prendere una porzione di dati totalmente diversa dal resto conduce ad un’analisi errata
Buone norme
Varietà dei dati da analizzare
A volte i dati da analizzare per poter fare un’analisi accurata sono di diverso tipo.
Es: limitarsi ai commenti negativi escludendo le mail di lamentela.
Riferimenti
• http://hadoop.apache.org/
• http://it.splunk.com/
• http://db-engines.com/en/ranking
• http://logstash.net/
• http://fluentd.org/
• http://en.wikipedia.org/wiki/MapReduce