Big Data e la forza degli eventi - Intervento di Dominoni

Post on 09-Jun-2015

398 views 1 download

description

Speech di Dominoni per l'evento "Big Data e la forza degli eventi" http://www.comunicareonline.it

Transcript of Big Data e la forza degli eventi - Intervento di Dominoni

Analisi dati in tempo reale per

governare la complessità

Matteo Dominoni

matteo.dominoni@unimib.it

Complessità che cresce …

• Cloud Computing – la

nuvola

• PC, tablet, smartphone

– funzionano in costante

connessione con la rete,

alla quale cedono di

fatto gran parte della

loro "memoria»

2

…in più dimensioni

• 590 milioni di connessioni a Internet in banda larga su rete fissa,

• 1,1 miliardi di connessioni su rete mobile

• (dati ITU a fine 2011)

3

Un ambiente di “studio”

• Università Bicocca – 40 tecnici per:– Didattica:

• 40 laboratori informatici, 2.000 postazioni, 15.000 studenti attivi, 500 docenti, 100 server di gestione

• 20 Piattaforme elearning: 10.000 studenti

• 2 Piattaforme di assessment e sondaggi: decine di migliaia di prove in assessment l’anno

– Ricerca/Dipartimenti• 16 dipartimenti + 4 scuole (assistenza informatica “front-end”): 1600

docenti (interni/a contratto/collaboratori), 1.8 apparecchiature informatiche per docente, 300 pta, 1.2 apparecchiature informatiche per pta.

• Infrastruttura di Backend dipartimenti: 200 VM : siti, proxy, AD, sqlserver, documentali, cms, fil server, print server

• Supporto attività di ricerca: “in via di definizione … livello e standard di servizio”: 3 centri di ricerca e 2 laboratori di ricerca in fase di sperimentazion

4

Gestione e Progettazione

• “cruscotto” in grado di monitorare dati provenienti da fonti dati diverse e disomogenee per poter prendere delle decisioni sia di carattere organizzativo/logistico , sia di carattere dimensionale/quantitativo

• Serve un sistema che analizzando centinaia di Gigabyte giornalieri provenienti da sistemi diversi e in formati diversi possa dar delle risposte a chi deve prendere delle decisioni

5

Alcuni esempi …

• Analisi di grossi volumi di dati eterogenei proveniente da database applicativi, log di sistema, sistemi di accounting/autenticazione, traffico di rete, uso delle risorse, ….. al fine di poter dare risposte a domande quali: – riusciamo con lo staff attuale a coprire gli interventi giornalieri ?

– dove è necessario ricollocare il personale per affrontare picchi di assistenza ?

– che uso viene fatto delle risorse informatiche?

– quali sw sono piu’ utilizzati per la didattica ?

– quante ore di didattica in laboratorio con docenza viene fatta ? quanta in selfservice?

– abbiamo un sistema di virtualizzazione che garantisce adeguate performance ?

– quali i sistemi/piattaforme vengono più utilizzate ?

– quante tempo i docenti “stanno” sulle piattaforme ?

– quali i tempi medi di risposta alle richieste di assistenza ?

– quali i dipartimenti/utenti fanno più richieste ? in quale periodo dell’anno ?

– quanti guasti e su quali apparecchiature? Quali quelli piu’ frequenti ?

– …….

– …..

6

monitoraggio dei laboratori

informatici

• esame dell’utilizzo medio dei

laboratori di ateneo per

capire:

– quanto effettivamente le

postazioni siano utilizzate

• per quanto tempo

• per quale utilizzo

– rilevare eventuali anomalie

– correlare le attività didattiche

7

Requisiti e obiettivi

• lavoro fatto su 30 laboratori e 1600 PC

• tendenza a migrare i servizi su portali online:– importante sapere quanto le infrastrutture fisiche siano

effettivamente usate dagli studenti.

• informazioni principali da ottenere:– stato della postazione:

• spenta

• accesa: se qualcuno la sta usando o se è idle (in attesa che qualcuno effettui la login)

– processi in uso: nel caso che qualcuno la stia utilizzando, capire che uso viene fatto (didattico o non)

• necessario limitare il più possibile l’invio di dati a quelli utili (filtrando sul lato client le informazioni superflue)

8

Strumenti e Infrastruttura

• Strumento di raccolta dati - Splunk

– Multipiattaforma, configurazione distribuita, funzionante senza l’appoggio di un database, con possibilità di recuperare qualsiasi informazione sugli host (registri di sistema, wmi, windows alert, snmp)

• laboratori distribuiti nel campus, collegati in VLAN

– problema di distribuzione degli agent

• raccolta dati effettuata con server virtuali

– configurazione veloce

– basso impatto sulla logistica dei servizi

9

Funzionalità

• Raccolta e indicizzazione di Dati Macchina di qualsiasi provenienza, senza l’installazione di plugin aggiuntivi

– riesce a prendere in ingresso log di applicazioni standard e custom, stack trace, code di messaggi, database audit trails, event logs, configurazioni e metriche da hypervisor, sistemi operativi e network.

• Ricerca ed analisi, grazie all’architettura basata su MapReduce garantisce velocità di accesso e scalabilità

– E’ possibile fare ricerche sia su dati storici indicizzati che sullo streaming di dati correnti sulla stessa interfaccia, con un meccanismo di query molto simile a quello dei motori di ricerca web tradizionali

• Reportistica e Allarmi– tramite il report builder si possono generare tabelle, grafici e dashboard che evidenziano

tendenze significative, picchi alti e bassi, sintesi di valori critici e frequenza di eventi.

– le ricerche si possono trasformare in avvisi (Alert) che attivano automaticamente azioni quali notifiche via e-mail, rss, trap SNMP.

• Architettura distribuita, in base al carico e al numero di dati si possono unire più sessioni di questo software per distribuire il lavoro di indexing su più macchine, mantenendo la base di dati comune ridondata.

10

Valutazione dello sforzo

• configurazione server

• istallazione agent sugli host di laboratorio

– per 140 host - esecuzione parallela – si riesce a

eseguire l’istallazione su tutte le macchine in circa

5 minuti.

• lavoro portato a termine da studente per il

suo lavoro di stage (con il supporto di tecnici

informatici)

11

Alcune considerazioni finali

• uso di tecnologie di questo tipo permettono

un analisi multidimensionale dei servizi

hardware e software

– con uno sforzo limitato possibile monitorare e

modellare i servizi di rete

• possibilità di sviluppare modelli intelligenti di

erogazione di servizi complessi

12