Running Big Data
-
Upload
solidqit -
Category
Data & Analytics
-
view
453 -
download
0
Transcript of Running Big Data
Think Big. Move Fast.
Francesco De Chirico• 13 anni nell’area formazione di Telecom Italia• 7 anni come libero professionista• Dal 2007 Mentor in SolidQ• Modellazione e sviluppo di soluzioni di BI con piattaforma Microsoft dal 2001• Profonda conoscenza di SSAS e linguaggi MDX e DAX• Microsoft MCT dal 2008• SSAS Maestro dal 2012
• Mail: [email protected]
Running Big Data
Dataracewww.datarace.eu
Timing Data Service• Timing company leader a livello nazionale per numero di atleti cronometrati
• oltre 350.000 atleti• più di un 1.000.000 di tempi di gara
• Non solo atletica:• ciclismo, MTB, sci di fondo ed altre per un totale di oltre 30 discipline coperte
• Offre servizi organizzativi, come • grafica TV • gestione delle iscrizioni • la produzione di materiali (pettorali, volantini, buste, ecc.)
SolidQ• Società Globale di consulenza sulla Piattaforma Dati Microsoft
• Nata nel 2002 in Spagna & North America• Divisione Italiana aperta nel 2007
• Oltre 200 professionisti in tutto il mondo• Maggior concentrazione di Microsoft Valuable Professional su SQL Server
• Offre servizi di Consulenza, Advisory, Mentoring e Formazione su• Data Warehousing, Business Intelligence, Big Data & Analytics• Performance Tuning, Performance Monitoring, Alta Disponibilità e Disaster Recovery
• Offre soluzioni di Remote DBA, Security Assessment, Check-Up, Cloud BI
Obiettivi e metodologia• Definire architettura e "Big Data Journey" di riferimento
• Applicazione pratica in progetti già in produzione
• Fare "percepire" i big data agli utenti• Big Dirty Data: nel backoffice• Small Nice Useful Data: per l’utente finale
• Dimostrare il "valore" dei dati anche in aziende in cui essi non rappresentano il core business
• Problema: nel 2014 Azure era molto diverso da ora• Sfida: progettare un’architettura modulare migliorabile nel tempo• Soluzione: SolidQ Adaptive BI Framework (www.adaptivebi.it)
Architettura Fisica• Data Sources
• RDBMS• JSON RESTful service• Wikipedia
• Fast Ingest• Ad-Hoc .NET Service su Virtual Machine• vNext: Azure Event Hub + Azure Data Factory
• Stock• Azure Blob Store per JSON• SQL Server / SQL Azure per dati strutturati
Collect / Stock
Fast Ingest
Data Sources
Architettura Fisica• Batch Process su Raw Stock
• HDInsight + Python Scripts + Hive Queries• Batch load con SSIS + HDInsight ODBC
• Data Processing (VM + SQL Azure)• SQL Server In-Memory Engine / ColumnStore• T-SQL + SSIS• Ad-Hoc .NET Scripts (dentro SSIS)• vNext: Azure Stream Analytics
• Identity Mapping (VM)• Multi-level Fuzzy Matching algorithm in SSIS• vNext: HDInsight + Tez/Spark
Batch Process
Data Process
Data Process
Architettura Fisica• Distilled Data
• SQL Azure
• Analytics (Clustering, Forecasting)• Azure ML
• Cache Engine• Azure Redis
Distilled Data
Analytics
Analytics
Architettura Fisica• Web Application (Azure Web Apps)
• REST Service per il Query Manager• HTML5 + Async JQuery Front End
• Data Exploration• Excel per i Data Scientist• PowerBI per gli utilizzatori finali “evoluti”
• Dove il sito web non basta
Analytics
Exploration
Funzionalità• Oggi
• Dati ufficiali (pubblici) relativi a corse e corse in montagna• Analisi statistiche sui dati ufficiali
• Da domani (27-11-2015)• Login per accesso ai propri dati (privati) previa registrazione sito TDS• Analisi statistiche sui propri dati
• Next upgrades• Dati personali di allenamento• Wearables Devices Data (IoT)• Predictive Analytics• …