Big Data - "La rivoluzione dell'informazione"

27
1 "La rivoluzione dell'informazione" di Fabrizio Cafolla Tesina di Maturità 2015-16 IIS G. Marconi(LT) 5°A ITT

Transcript of Big Data - "La rivoluzione dell'informazione"

Page 1: Big Data - "La rivoluzione dell'informazione"

1

"La rivoluzione dell'informazione"

di Fabrizio Cafolla

Tesina di Maturità 2015-16

IIS G. Marconi(LT)

5°A ITT

Page 2: Big Data - "La rivoluzione dell'informazione"

2

Page 3: Big Data - "La rivoluzione dell'informazione"

3

Per riuscire a comprendere fino in fondo le potenzialità dei Big Data

bisogna soffermarsi ad osservare la storia, in particolare, l'epoca che comprende il periodo 1870-1914 in cui sono avvenuti cambiamenti radicali che portarono alla creazione di un nuovo stile di vita basato: sul modello consumistico alimentato dal progresso tecnologico.

La "Grande depressione" del 1873-1890 fu una crisi di sovrapproduzione

agricola e industriale: esse vennero causate, infatti, dall’eccesso di merci

immesse sul mercato e non dalla mancanza di beni. La Grande

depressione non fu, tuttavia, un periodo esclusivamente negativo

perché al suo interno maturarono innovazioni tecnologiche e

organizzative. Il progresso riprese rapidamente corso, le imprese per far

fronte agli squilibri della crisi, diedero vita ad una serie di processi che

mutarono il volto dell'economia.

In primo luogo lo stato ebbe la necessità di entrare a far parte della cerchia dei consumatori richiedendo alle imprese beni e/o servizi cosi da desaturare il mercato, agendo successivamente con riforme protezionistiche, che imponevano alti dazi doganali alle merci importate(Germania - Bismark 1879).

La seconda grande conseguenza fu che si crearono grandi

aziende(corporation) che controllavano i maggiori settori produttivi,

attraverso fabbriche tecnologiche che producevano beni ad un costo

inferiore rispetto ad altre fabbriche più piccole, creando cosi un

monopolio privato spesso sostenuto dal sistema bancario, nello

specifico, le banche assunsero un ruolo centrale in quanto concedevano

ingenti capitali alle impresa attui a mantenere stabile l'economia.

Page 4: Big Data - "La rivoluzione dell'informazione"

4

La seconda rivoluzione industriale avviata intorno al 1870 ha gettato le

basi dell'odierna società, stabilizzando l'economia su principi

consumistici da parte del ceto medio e capitalistici da parte della

borghesia(attualmente la classe politica e imprenditoriale), l'avvento

della rivoluzione portò enormi vantaggi alla popolazione, che ebbe la

possibilità di vivere un periodo accompagnata da un senso di euforia e

fiducia nel progresso sociale e tecnologico.

Il diffondersi di un benessere generale rese più complessa e articolata la

struttura professionale e sociale soprattutto nelle grandi città: nacquero

nuove occupazioni nel campo dell'amministrazione, del commercio e dei

servizi. Anche le donne iniziarono ad accedere al mondo del lavoro

avviando un cambiamento dei modelli di vita, in cui l'individuo era

predisposto a consumare beni materiali o non, mediante i risparmi di

lavoro o attraverso prestiti concessi dalle banche.

In torno alla fine dell'Ottocento e inizi Novecento in un clima di spensieratezza e serenità, anche nelle classi meno abbienti, la vita quotidiana era stata capovolta: da un periodo di crisi in un periodo di benessere ed espansione(economica e coloniale).

Epoca definita "Belle époque"1 tra il 1890-1914 dove si ha una crescita demografica derivante non sola dall'espansione della produzione industriale e del commercio mondiale, ma anche, dai grandi progressi compiuti nel campo della medicina, scoperte innovative nella fisica, che portarono a un miglioramento nello stile di vita quotidiano. Il benessere, le strade illuminate, la merce in notevole quantità nei grandi magazzini, i caffè, i cabaret e i teatri, le nuove invenzioni: tutto dava la sensazione che si fosse raggiunto uno sviluppo grandioso e destinato a durare per sempre.

Page 5: Big Data - "La rivoluzione dell'informazione"

5

Il periodo definito "bell'epoca" scaturì un clima di euforia generale, dove all'inizio del Novecento il mondo occidentale aveva molte ragioni d'orgoglio: grazie alle scoperte in campo medico e ai miglioramenti dell'igiene, la maggior parte delle epidemie era stata debellata e la mortalità infantile era stata ridotta notevolmente. Di conseguenza era aumentata la popolazione del pianeta, che arrivò a un miliardo e mezzo di abitanti. Alla crescita demografica corrispose un

impressionante aumento della produzione industriale e del commercio mondiale, che tra il 1896 e il 1913 raddoppiarono.

La "belle époque" fu l'epoca sia del divertimento sia delle innovazioni tecnologiche, destinate a migliorare sensibilmente la vita quotidiana. Il settore che ne beneficiò maggiormente fu quello delle comunicazioni e del trasporto. La messa a punto del telefono, ideato dall'italiano Antonio Meucci ma prodotto a livello industriale negli Stati Uniti a partire dal 1876, e l'invenzione della radio sviluppata nel corso del ventennio a cavallo tra Ottocento e Novecento da vari studiosi tra cui Maxwell, Tesla e Marconi che permisero la comunicazione a distanza senza fili.

L'invenzione del motore a scoppio in Germania portò a molte applicazioni, che velocizzarono gli spostamenti di persone e merci. In seguito esso venne applicato a una vettura e nacque così la prima automobile. All'inizio queste nuove macchine vennero prodotte artigianalmente, in pochi esemplari riservati a ricchi borghesi o aristocratici. Ma a inizio secolo, con la produzione industriale intrapresa negli Usa da Henry Ford2, le automobili divennero meno costose e quindi accessibili a più persone. Il motore a scoppio a due eliche parallele permise poi ai fratelli Wright la progettazione del primo aeroplano, che venne fatto volare nel 1903.

Page 6: Big Data - "La rivoluzione dell'informazione"

6

Alla fine dell'Ottocento la borghesia celebrava i risultati raggiunti con grandi esposizioni universali, in cui vivevano esibite le ultime meraviglie della scienza, della tecnica e dell'arte. Le esposizioni furono anche un'occasione per far conoscere al pubblico europeo i territori colonizzati. Non si deve infatti dimenticare che la belle époque coincise con la grande espansione dell'imperialismo e quindi con il controllo da parte delle potenze europee di gran parte dei territori dell'Africa, dell'Asia e dell'Australia, il cui sfruttamento alimentava il proprio benessere. Ecco perché nel corso di queste grandi manifestazioni si tenevano numerose conferenze di esploratori, missionari e ufficiali che vivevano nei Paesi colonizzati e ne raccontavano le caratteristiche confermando l'idea di appartenere a una civiltà superiore. In occasione delle esposizioni venivano edificati interi quartieri ed edifici3.

Accanto alle tradizionali occasioni di svago, si diffuse l'abitudine di passare le sere in locali pubblici dove potersi incontrare e conoscere. Oltre che pittoreschi, alcuni di questi locali erano anche redditizi per chi li possedeva4. Questa nascente industria dello svago venne favorita dall'illuminazione elettrica, che permetteva di illuminare strade e piazze con i lampioni, diventando luoghi di passeggio anche serale.

Attorno alla metà dell'Ottocento anche il turismo aveva cominciato a coinvolgere un pubblico sempre più vasto, il turismo diventò un fenomeno di massa, tanto nella sua forma di viaggio di conoscenza, quanto in quella di vacanza di riposo e di svago.

La belle époque fu anche l'età nella quale lo sport si diffuse fra le classi popolari. Calcio, ciclismo e automobilismo attirarono sempre più l'interesse grazie anche all'opera svolta dai giornali specializzati, che vedevano nello sport l'epopea dell'uomo moralmente sano e teso al mito del successo. Vennero inoltre ripristinate le Olimpiadi5 dove si riunivano gli atleti di tutte le nazionalità per competere nella varie discipline.

Page 7: Big Data - "La rivoluzione dell'informazione"

7

Tra la fine dell'Ottocento e gli inizi del Novecento, in Europa e negli Stati

Uniti, si delineano i tratti della società di massa che troverà una forma

più completa nel XX secolo. La sua nascita e le sue caratteristiche sono

legate strettamente al benessere della società che vive un momento di

progresso in cui avvennero: aumento della popolazione, urbanizzazione

delle città, proletariato che con le proprie lotte ebbe visto approvare

riforme e leggi a tutela del lavoratore, aumento dei consumi, sviluppo di

tecnologie che creano nuovi settori lavorativi e al contempo riducevano

il personale, crescita della burocrazia statale e dei cittadini attivi in

politica.

Un'epoca dai molti lati positivi come la crescita del benessere e della

cultura attraverso riforme che rendevano la scuola6 accessibile ed

obbligatoria per tutti, innalzando il livello culturale della popolazione, ma

ovviamente un'epoca dai molti lati negativi come il pericolo di una

massificazione attraverso il crescente conformismo dove tutti

consumano le stesso cose, tutti vestono mangiano e vivono allo stesso

modo. Il conformismo che soffoca la libertà degli individui imponendo un

certo tipo di vita basato su principi imposti da forme di controllo

moderne, autoritarismo e totalitarismo, attraverso manifesti e pubblicità

affissi su ogni muro delle città, mediante la radio che fu utilizzata per

trasmettere discorsi dei vari dittatori ai propri sudditi, mediante la

vendita di beni e servizi prodotti da industrie sempre più grandi gestite

direttamente o indirettamente da banche e stato.

La società di massa trova le sue radici nella belle époque, che nel corso degli anni con la nuova stratificazione sociale composta da una borghesia imprenditoriale, un ceto medio(impiegati in servizi pubblici e politici) e il proletariato che si divide in: specializzato e lavoratori generici; la rende sempre più estesa.

Page 8: Big Data - "La rivoluzione dell'informazione"

8

Nel XX secolo la società di massa prende

forma a causa: dell'urbanizzazione

sempre più accentuata, l'estensione dei

"consumatori" e della partecipazione

delle masse alla vita politica, grazie al

suffragio universale7. La nascita e la

diffusione di grandi organizzazioni come i

partiti di massa e i sindacati, scaturirono

anche un effetto opposto il "fastidio per la massa", che spinse piccoli

gruppi di individui a sentirsi un’élite e a cercare di emergere dalla folla.

Una società che diviene sempre più grande e sempre più connessa, in

cui si accentuano le attività che appartengono al "tempo libero", nel

quale la popolazione trova svago attraverso i teatri e i cinema.

Rapidamente le innovazioni tecnologiche invadono le case dei cittadini,

e non solo in quelle dei più facoltosi, ma anche in case di lavoratori

specializzati. Rapidamente la vita quotidiana cambia in meglio attraverso

le forniture di luce e gas, che permettono di utilizzare oggetti come:

docce, gabinetti, lavabo con acqua corrente, illuminando le abitazioni

con lampadine, stanze dotate di riscaldamenti con i più svariati

elettrodomestici, e i primi ascensori elettrici in grandi edifici.

Nel corso del XX secolo dopo la seconda guerra mondiale il panorama mondiale venne stravolto, si delinearono due grandi potenze che presero le redini dell'economia mondiale, da un parte gli Stati Uniti d'America e dall'altra URSS8 che intrapresero uno sviluppo tecnologico per prevalere l'una sull'altra e indirettamente si vennero a creare tecnologie che poi furono impiegate per uso domestico, l'esempio più lampante è Internet nato con il progetto "ARPANET" a scopo militare per poi estendersi fino ai giorni nostri.

Page 9: Big Data - "La rivoluzione dell'informazione"

9

Per comprendere gli effettivi motivi per cui è nato il concetto di Big data

bisogna capire cos'è IoT:

Gli oggetti connessi possono essere di svariato genere: dispositivi indossabili, smart car, smartphone, smart cities, smart agriculture, smart manifacturing, smart building ecc..

L'oggetto connesso dovrà essenzialmente svolgere due funzioni: il monitoraggio e il controllo, attraverso le quali essi produrranno informazioni. Ma ancor più importante sono gli oggetti che in futuro avranno la necessità di essere intelligente, ovvero che sappiano trovare soluzioni in base alle condizioni in cui si trovano,ad esempio: se una smart car effettua un incidente il sistema deve analizzare la situazione ed effettuare delle procedure che possono essere di vario genere.

Gli oggetti attualmente connessi sono circa 8 miliardi e secondo le stime di Accenture entro il 2020 gli oggetti connessi saranno 25 miliardi. L'infrastruttura della rete internet per gestire tutti quegli host dovrà utilizzare non più il protocollo IPv4 ma l'IPv6.

Quest'evoluzione di internet migliorerà la vita quotidiana agevolando il lavoro umano, avvalendosi, dell'interoperabilità delle reti ossia un oggetto connesso può comunicare con un altro per scambiarsi le informazioni cosi da poter ottenere un collaborazione tra più parti.

Page 10: Big Data - "La rivoluzione dell'informazione"

10

L'IoT genera una serie di fenomeni strettamente legati agli oggetti, creando la necessità di:

Cloud computing: ovvero la tecnologia che permette di salvare i dati su un cloud virtuale dove questi dati possono essere reperibili senza la necessità di trovarsi su una macchina fisica locale.

Big Data: ovvero la grande quantità di dati a disposizione prodotta dagli oggetti, e non, che sono connessi e che comunicano dati sul loro funzionamento.

Iniziamo quindi a parlare di Big Data, come detto in precedenza essi

sono, tutti i dati che vengono generati direttamente dalle persone che

utilizzano internet(portali web, sw messaggistica) e indirettamente dai

device connessi in rete.

Le persone sono generatori incessanti di dati sia volontariamente, come

nell’uso dei social media, sia inconsapevolmente, come nell’uso di

smartphone, bancomat etc. Altri dati sono prodotti dagli oggetti

connessi(device) quali sensori, satelliti, contatori, etc. Questi dati

coprono i settori più disparati, dalla meteorologia alla geografia, dai

consumi energetici alla salute, dai trasporti alle statistiche urbane.

Secondo quanto emerso dal Hadoop Summit 2014, l’universo digitale

crescerà da 3.2 a 40 zettabyte (1021 byte) da qui a sei anni, e l’85% di

questi dati proverrà dalle nuove applicazioni sulle nuove reti.

L'IoT genererà incessantemente dati che dovranno essere raccolti, analizzati, conservati e monitorati. Dovranno inoltre essere accessibili e trasparenti(Open Data), oppure, riservati.

La crescita del volume di dati generati dovranno essere gestiti

correttamente e in maniera sicura. Si necessità, quindi, di espandere le

architetture per la conservazione dei dati e gli strumenti per la gestione.

Page 11: Big Data - "La rivoluzione dell'informazione"

11

Cosa si intende esattamente per Big Data? Una visione di cosa sono i Big Data è stata data da Alexander Jaimes, ricercatore di Yahoo Research, che nel corso di una conferenza ha affermato: "I dati siamo noi".

La mole di dati prodotta dai vari sistemi informativi, va a formare una

struttura dati con caratteristiche delle tre "V", con la necessità di essere

certi che i dati prodotti abbiano la Veridicità e l'autenticità d'autore,

ovvero, che siano sicuri e inalterati da terze parti. Bisogna in oltre

comprendere il Valore dei dati prodotti(Statistiche, Eventi, Ipotesi ecc..)

ed in fine la Variabilità del valore nel tempo di vita del dato.

La velocità con cui i dati vengono gestiti e

analizzati.

La varietà eterogenea di dati che vengono raccolti,

in diversi formati.

La quantità di dati elevata, proveniente,

dalla rete e non.

Page 12: Big Data - "La rivoluzione dell'informazione"

12

Ora che sappiamo cosa sono e come sono fatti i Big Data bisogna capire come vengono gestiti e utilizzati.

La gestione dei Big Data è un ciclo diviso in più fasi che si ripete costantemente:

Acquisizione

Immagazzinamento - Organizzazione

Integrazione

Analisi

Acquisizione: Fase che consiste nel reperire dati da sistemi eterogenei attraverso strumenti come API messe a disposizione dai proprietari, Web scraping catturando dati presenti su internet, Streaming data flussi in tempo reale degli eventi dei sensori e delle macchine, Importazioni di database già esistenti.

Conservazione - Organizzazione: Conservare i dati su sistemi di archiviazione distribuiti, organizzati logicamente attraverso modelli DB definiti come schemaless database.

Integrazione: Integrare piattaforme HW e SW per l'estrazione e la preparazione dei dati per la fase di analisi.

Analisi: Fase più importante del ciclo, che si occupa di analizzare i dati per portarli a una forma più evoluta, cosi da poter effettuare delle predizioni e attuare soluzioni in base all'abito da cui proviene il dato. L'analisi può essere eseguita in due modi, ossia, batch che processa i dati già salvati nel file system o DB(piattaforma open-source Hadoop di Apache si avvale di questo metodo), stream data invece processa piccole porzioni di dati appena questi arrivano all’interno del sistema e successivamente li memorizza su file system.

Page 13: Big Data - "La rivoluzione dell'informazione"

13

Se da una parte abbiamo l'internet delle cose che produce una grande quantità di dati, dall'altra abbiamo un sistema di gestione dei dati, ma prima di capire come funziona bisogna soffermarsi a chiare le idee su cosa sono i dati e come devono essere tratti.

Dati: sono la materia prima acquisita in vari modi, è un valore grezzo senza particolare significato. Informazioni: sono prodotte dall'elaborazione di uno o più dati analizzandoli attraverso metodi di raffinazione. Conoscenza: è l'insieme di informazioni organizzate e elaborate generando comprensione ed esperienza relative a un problema o a un processo di business. Saggezza: conoscenza ed esperienza, a loro volta, generano saggezza, che è immutabile nel tempo.

La piramide dell'informazione serve per comprendere cosa realmente può offrire la grandissima quantità di dati prodotti da internet. Se pensiamo che attraverso i dati raccolti si potrebbe migliorare lo stile di vita evitando sprechi o riducendo al minimo la possibilità di fallimenti, utilizzando solo i dati, estrapolando da essi la conoscenza per elaborare in base al problema una soluzione attendibile, e di conseguenza, generare la saggezza poi riapplicabile in futuro.

Trasformare le informazioni in conoscenza è un processo cruciale che richiede la mente umana. Ma la mole di dati prodotta sarà talmente elevata che si avrà la necessità di predisporre piattaforme che riescano a convertire le informazioni in conoscenze senza l'aiuto umano.

Page 14: Big Data - "La rivoluzione dell'informazione"

14

Nel Web 3.0 grazie all’avvento della semantica dei dati, alla classificazione delle informazioni e all’introduzione di un’intelligenza artificiale in grado di collegare il tutto e di svolgere la maggior parte del lavoro di ricerca e accesso alle informazioni al posto dell’utente, sarà possibile automatizzare la ricerca e l'analisi dei dati. Le macchine potranno leggere e comprendere le pagine web esattamente come farebbe un essere umano, mentre motori di ricerca evoluti e agenti software di nuova generazione cercheranno in tutto il Web e troveranno esattamente ciò che cerchiamo noi. Questa è la visione di Tim Berners-Lee l'inventore del World Wide Web.

Il web semantico si basa sui metadati che hanno il compito di descrivere con delle informazioni un'insieme di dati che risiedono su internet o nei sistemi aziendali, cosi da poter mappare i dati rispetto a classi, o concetti, di un dominio. In questo modo si hanno strutture in grado di descrivere e automatizzare i collegamenti esistenti fra i dati, basando la ricerca non più su chiavi ma utilizzando linguaggi di interrogazione per basi di dati semantiche.

SPARQL è il linguaggio legato al paradigma del web semantico, e consente di estrarre informazioni dalle basi di conoscenza distribuite sul web e non. Il linguaggio SPARQL descrive i concetti e le relazioni su di essi attraverso l'introduzione di triple(soggetto-predicato-oggetto), esso si basa sullo strumento standard RDF (Resource Description Framewor) sviluppato da w3c che consente la codifica, lo scambio e il riutilizzo di metadati e permette l'interoperabilità tra applicazioni avvalendosi di:

RDF Model and Syntax che rappresenta la struttura e la sintassi del modello RDF di una specifica risorsa.

RDF Graph che espone attraverso grafi la tripla, mostrando i collegamenti della risorsa.

Page 15: Big Data - "La rivoluzione dell'informazione"

15

1 Liv: Unicode e Uri il primo è lo standard dei caratteri e il secondo serve per identificare univocamente i collegamenti.

2 Liv: XML metalinguaggio che modella la strutture del dato in base alle esigenze.

3 Liv: RDF strumento per descrivere le risorse e l'eventuale collegamento con altre(anche al di fuori del web).

4 Liv: Ontology Web Language è il passo successivo, all'utilizzo di RDF, per avvicinarsi alla realizzazione del Web Semantico, è l'utilizzo dell'OWL, un linguaggio di markup per rappresentare esplicitamente la semantica dei termini con vocaboli e relazioni tra gli stessi, ovvero con la loro Ontologia10.

5 Liv: Logica, dimostrazioni, fiducia e firme digitali questi livelli sono ancora in fase di sviluppo ma si fondano sui principi di autenticità del dato attraverso la firma digitale, la fiducia è la fase in cui una macchina chiede una risorsa e in base al livello di fiducia che ha con l'offerente stabilisce la priorità, il tutto si basa sulla logica che un computer possa applicare, attraverso la comunicazione con altre risorse dislocate nel web, una struttura ben definita di conoscenza cosi da poter avvalersi di un motore inferenziale11.

"Tuttavia il Web semantico ancora è in fase di sviluppo e ci vorrà tempo prima che si applichino queste regole all'intero web, ma sicuramente, assumerà un rilevante strumento per la gestione dell'IoT e dei Big Data."

Page 16: Big Data - "La rivoluzione dell'informazione"

16

Oggi giorno non basta più parlare di Big Data come semplici dati prodotti ed elaborati, se poi non si condividono tali dati, limitandone il reale potenziale. Sette anni fa, diversi governi tra cui U.S.A Regno Unito e Canada, hanno avviato le prime iniziative per la divulgazione dei propri dati pubblici in internet.

Applicando per la prima volta il concetto di Open Data e Open Government Data , secondo la definizione della OFK12 i dati aperti sono:

Pertanto i dati aperti devono rispettare dei principi della "conoscenza aperta" divulgata anch'essa dalla OFK, i dati devono:

Essere accessibili e sempre disponibili attraverso l'utilizzo piattaforme differenti e non proprietarie. Inoltre devono essere permanenti nel corso del loro intero ciclo di vita;

Devono permettere il riuso e la ridistribuzione degli stessi permettendo anche l'aggregazione con altre basi di dati;

Partecipazione universale per cui ogni utente o gruppi di utenti possono accedere senza discriminazione ai dati resi pubblici.

L'Open Data ha la necessità di essere reso pubblico attraverso vari formati non proprietari, permettendo l'interoperabilità tra diversi sistemi e organizzazioni di lavorare insieme, cosi da rendere ogni dato un componente e di poterlo combinare con altri costruendo un sistema avanzato di LOD (Linked Open Data)13, cioè, quei dati che sono strutturati e codificati in un formato non proprietario, dotati di un URI e che sono collegati dinamicamente con altri dataset attraverso il modello RDF.

Page 17: Big Data - "La rivoluzione dell'informazione"

17

Un sistema distribuito consiste in un'insieme di computer indipendenti che hanno Hw e Sw proprio e che sono connessi in rete allo scopo di cooperare e coordinare, la distribuzione dell'elaborazione dei dati o di un'applicazione su più macchine, apparendo all'utente come un singolo calcolatore. La distribuzione delle risorse presenta vantaggi e svantaggi.

Vantaggi

Affidabilità: poiché la ridondanza permette il funzionamento del sistema anche se un nodo si guasta;

Integrazione: è possibile integrare nel sistema nodi eterogenei tra loro con Hw e Sw diverso;

Trasparenza: si intende la visione del sistema come unico e non un come insieme di nodi, per cui il sistema offre un accesso uniforme che non vincola l'utente al conoscimento della locazione della risorsa o della sua presentazione;

Scalabile: può essere espanso facilmente senza dover fermare il funzionamento del sistema. Aggiungendo componenti Hw e Sw.

Svantaggi

Software complessi: i programmi devono rispettare degli standard di comunicazione vincolando il programmatore all'utilizzo di determinati linguaggi. Tutt'ora i programmi in java attraverso la VM permettono di essere eseguiti su macchine differenti.

Complessità: nei sistemi distribuiti c'è la necessità di utilizzare strumenti d'interoperabilità tra i nodi e tecniche per l'instradamento corretto dei messaggi e dei dati.

Sicurezza: host non autorizzati possono accedere a dati o risorse a cui non avrebbero diritto. Quindi bisogna creare dei livelli di sicurezza ad-hoc.

Page 18: Big Data - "La rivoluzione dell'informazione"

18

Prima di introdurre i framework14 per i Big Data, bisogna fare una precisazione su cosa sono i Data Warehouse -tradotto Magazzino Dati. I DWH sono una collezione di dati statici provenienti da vari sistemi informativi, organizzati e memorizzati in DB, per uno o un'insieme di dati corrisponderanno dei metadati descrittivi, i dati salvati sono dei fatti accaduti nel tempo finalizzati al recupero di informazioni a supporto di processi decisionali(Big Data Analytics).

Per gestire i Big Data su sistemi distribuiti si usano framework che supportino Sw per l'accesso a grandi quantità di dati situate su più nodi.

Apache Hadoop è una piattaforma open-source che mette a disposizione una struttura per la memorizzazione e per il processamento distribuito su cluster15 di computer a basso costo, utilizzato il processamento batch. Hadoop utilizza

HDFS(supporta anche S3, FTP, HTTP) un file system scalabile, distribuito, portabile, scritto in Java che riesce a memorizza file di grandi dimensioni in blocchi distribuiti su cluster generando affidabilità e fault-tolerance tramite la replicazione su nodi multipli. HDFS è costituito da:

NameNode che gestisce i metadati del file system relativo ai dati;

DataNode che memorizzano i veri dati.

Page 19: Big Data - "La rivoluzione dell'informazione"

19

Apache Hadoop integra un'architettura master/slave che sfrutta il framework software MapReduce per effettuare operazioni sui dati persistenti nei nodi, fondamentalmente

il cluster Hadoop utilizza due tipi di nodi:

Master Slave

Job tracker eseguito da MapReduce algoritmi di scheduling delle job task, monitoraggio slave, riesecuzione job fallite.

Nodo Task tracker gestito da MapReduce, esegue i task sotto coordinamento del master in base allo scheduler.

Task tracker (MapReduce) DataNode (HDFS)

NameNode (HDFS)

DataNode (HDFS)

Sostanzialmente i passi che il MapReduce effettua sono due:

Map

1. Nodo master riceve l'input del problema e lo divide in sotto-problemi, distribuendoli ai nodi slave.

2. Nodi slave(o worker) possono a loro volta suddividere il problema poiché lavorano in una struttura gerarchica ad albero multi-livello.

3. Un volta che il worker risolve il sotto-problema, riporta il risultato al master.

Reduce Step

1. Nodo master raccoglie le risposte dei sottoproblemi e li combina in modo predefinito per ottenere la risposta complessiva.

Mentre le operazioni fondamentali che esegue sono di input, map che mappa i dati in coppia key-value in valori intermedi, partiton che esegue una partizione omogenea a partire dalla key, compere che compara le coppie intermedie del Map e le riordina, reduce che prende i valori

Page 20: Big Data - "La rivoluzione dell'informazione"

20

intermedi dopo che sono stati partizionati e comparati per restituire un risultato parziale al framework, output fase in cui i risultati vengono scritti sul file system o restituiti all'utente in real-time.

Attualmente Hadoop è utilizzato da grandi aziende come Facebook, Yahoo!, IBM, Ebay e molte altre. Ma nel mercato sono presenti anche altre piattaforme come Apache Spark. Mentre per il processamento dati streaming uno dei più performanti è sicuramente Apache Storm che è un framework per la definizione e l’esecuzione, in ambiente distribuito, per il processamento di flussi potenzialmente infiniti di dati. Storm è stato concepito per favorire lo sviluppo di applicazioni near real time e come strumento utile alla realizzazione di prodotti finalizzati a misurare l’impatto delle aziende sui social network sia attraverso analisi di dati storici, sia per mezzo di analitiche real-time. Più precisamente, la necessità era quella di sviluppare una piattaforma scalabile e facilmente programmabile per intercettare e garantire l’elaborazione di tutti i messaggi generati degli utenti.

Page 21: Big Data - "La rivoluzione dell'informazione"

21

Nei sistemi distribuiti si ha la necessità di creare una politica di sicurezza ad-hoc che tuteli il sistema non solo da attacchi informatici interni e/o esterni, ma anche, da guasti e calamità naturali che possono mettere a rischio il corretto funzionamento del sistema.

La politica di sicurezza è l'insieme dei prodotti, dei servizi, delle regole organizzative e dei comportamenti individuali che proteggono i sistemi informatici di un'azienda. Ha il compito di proteggere le risorse da accessi indesiderati, garantire la riservatezza dei dati, assicurare il funzionamento e la disponibilità dei servizi anche in caso di guasti.

Predisporre un piano per la sicurezza adeguato al sistema bisogna effettuare una valutazione dei rischi attraverso l'analisi e la gestione delle eventuali problematiche(intenzionali o accidentali) che si possono verificare. Gli obiettivi che si devono necessariamente rispettare sono legati alla sicurezza dei dati e al funzionamento del sistema, bisogna quindi gestire degli aspetti base come:

Autenticazione: ovvero il riconoscimento delle credenziali dell'utente in modo da riconoscere l'identità dell'individuo che entra nel sistema. Normalmente quest'operazione si basa sul nome utente e password dello steso, anche se, in futuro è molto plausibile l'utilizzo della biometrica nel riconoscimento della persona.

Autorizzazione: assegnare all'utente autenticato dei permessi di accesso e utilizzo delle risorse.

Paternità e Riservatezza: le informazioni devono essere associate ad uno o più utenti, e, devono essere leggibili solo a chi ne ha diritto.

Integrità: per ogni singolo documento il sistema deve garantire con certezza che persone non autorizzate non abbiano letto, modificato o cancellato il documento.

Disponibilità: una risorsa o un servizio forniti dal sistema devono essere sempre disponibili all'utente garantendo il normale utilizzo.

Page 22: Big Data - "La rivoluzione dell'informazione"

22

Il maggior problema che ogni sistema informativo che salva le informazioni in modo distribuito, è sicuramente, il fatto di proteggere ogni nodo in egual modo senza che i dati vengano acceduti da utenti non autorizzati. Con l'avvento dei Big Data i nodi fisici, per questioni di memorizzazione sono

dovuti aumentare drasticamente creando un problema di sicurezza.

Nei nuovi sistemi informativi aziendali(Facebook, Google, Aziende private) utilizzano framework per la gestione di Big Data e devono implementare dei livelli di sicurezza adeguati. Nel caso di Hadoop che consente un'elaborazione parallela distribuita di enormi quantità di dati attraverso server poco costosi, e attualmente usati in ambito industriale, c'è la necessità di proteggere i nodi poiché contengono(o possono contenere) informazioni sensibili.

Hadoop include il protocollo di autenticazione Kerberos, che permette di autenticare i nodi(sia cliente che server) fra di loro quando comunicano, crittografando anche i dati che vengono trasferiti. Per rendere ancora più sicura l'infrastruttura dei cluster Hadoop sfrutta le Active Directory16 implementando una gestione centrale dell'identità, imponendo agli utenti, di autenticarsi attraverso server KDC(Key Distribution Center) che fornisce la chiave di sessione crittografata.

Se l'utente viene messo in comunicazione con il server, il sistema saprà con certezza, chi è quell'utente e cose può fare all'interno del server.

Page 23: Big Data - "La rivoluzione dell'informazione"

23

Big Data Analytics si riferisce al processo di raccolta, organizzazione e analisi di grandi moli di dati, convertendoli in informazioni utili per i vari domini di applicazione, per poi determinare l'azione da intraprendere per migliore l'ambiente di riferimento da cui provengono i dati. Gli algoritmi standard di analisi di Big Data si basano su principi deduttivi e predittivi: all’insieme di dati, si associa generalmente un modello sul quale vengono realizzate le deduzioni matematiche e statistiche, ricavate da un'accurata analisi del problema che devono risolvere.

Per mettere in pratica ciò che è stato detto in precedenza è emersa una figura professionale molto complessa, il "Data Scientist". Il Data Scientist svolge un ruolo chiave nel processo d’interpretazione e analisi dei dati, poiché ha il compito di proporre modelli adeguati al problema che l'azienda o ente deve risolvere. La sua formazione è multidisciplinare in matematica, statistica e informatica perché utilizza un linguaggio di programmazione che si chiama R specifico per l'analisi statistica dei dati.

Il Data Scientist dunque scrive i suoi programmi nello stile di R implementando le funzioni matematiche o statistiche indipendentemente dal sistema su cui si trovano, siano esse distribuite su più nodi, o non. Ovviamente per eseguire tali

programmi bisogna che essi siano stati implementati in base alla piattaforma su cui agiscono, essendo ancora un mondo inesplorato, non si hanno delle piattaforme che interagiscono fra di loro. Quando questo avverrà un programma scritto in R potrà essere eseguito più piattaforme facilitando e velocizzando il lavoro .

Una considerazione importante che va riportata è quella del MIT(Massachusetts Institute of Technology) che ritiene che si possano creare algoritmi in grado di automatizzare completamente la Big Data analytics. "Perché tenere impegnato l'uomo, se lo stesso lavoro può essere delegato a una macchina?" è ciò che si chiedono.

Page 24: Big Data - "La rivoluzione dell'informazione"

24

Sappiamo ora che i Big Data hanno come scopo quello di essere analizzati per ricavarne delle conoscenze che poi dovranno essere applicate nella realtà, quindi, bisogna capire ora cosa può essere analizzato. Esprimendo un giudizio personale dico:

"Che ogni dato, ricavato da qualsiasi sistema, può essere analizzato al fine di produrre delle conoscenze atte a

risolvere o predire scenari futuri in ogni ambito."

Vorrei fare due esempi reali, differenti l'uno dall'altro, cosi per comprendere il reale potere di questa tecnologia.

Il primo è molto semplice, lo viviamo ogni giorno, senza sapere della sua esistenza. Come sapete Google o Facebook(come tanti altri) ci forniscono degli strumenti di ricerca che siano per informarci o per cercare un luogo, non fa differenza, questi strumenti tengono traccia di ciò che cerchiamo e visitiamo, memorizzano le informazioni di miliardi di persone per poi attraverso algoritmi creati di predizione ad-hoc per analizzare le informazioni relative ad ogni singola persona per poi mostrare in base ai risultati pubblicità di cose simili a quelle che magari abbiamo cercato o comprato o visitato.

Il secondo esempio che ho scelto è per far capire quanto sia trasversale l'utilizzo di algoritmi in chiave comprensione di una determinata situazione. In questi giorni si sta giocando l'Europeo 2016 e Microsoft predice che la Germania sarà la vincitrice. Ma come ha fatto a saperlo? Bene, Microsoft attraverso un algoritmo ha analizzato una grandissima quantità di dati eterogenei prendendo in considerazione vari fattori tra cui: statistiche disponibili(ranking, giocatori, partite vinte e perse ec...) e reperendo dai social ciò che viene detto (attraverso post, commenti ecc..). Analizzando il tutto è uscita la predizione che la Germania vincerà l'Europeo, ora questo risultato, è una predizione effettuata su dati che non del tutto possiedono la veridicità delle informazione e inoltre viene eliminato il fattore emotivo che i giocatori possono avere.

Page 25: Big Data - "La rivoluzione dell'informazione"

25

Storia......................................................................................................3

Big Data.................................................................................................9

Informatica.........................................................................................14

Tecnologia...........................................................................................17

Sistemi...................................................................................................21

Matematica........................................................................................23

Approfondimenti.............................................................................26

Riferimenti..........................................................................................27

Page 26: Big Data - "La rivoluzione dell'informazione"

26

1. Termine coniato dopo la prima guerra mondiale, quando la popolazione appena uscita da un

conflitto terrificante pieno di massacri e di orrori, ripensava al periodo felice ed esaltante

antecedente alla guerra con occhi nostalgici definendola "Bella epoque" ovvero "La bella epoca".

2. "Catena di montaggio" è un processo di assemblaggio utilizzato nelle moderne industrie,

introdotto da Henry Ford nei primi anni del '900, ottimizzava il lavoro e riduceva i costi.

3. Vi furono però alcune notevoli eccezioni come il Crystal Palace, costruito in occasione di

Londra nel 1851 e la Torre Eiffel, costruita a Parigi come ingresso all'esposizione del 1889.

4. Il "Moulin Rouge" più celebre dei cabaret, aperto nel 1890 a Montmartre, i suoi ideatori Charles Zidler e Joseph Oller in cui c'era la musica e la danza: arredarono in modo lussuoso il locale, sculture e mobili sfarzosi, e pubblicizzarono il "Moulin Rouge" con manifesti.

5. Prima Olimpiade dell'era moderna si tenne nel 1896 ad Atene, in Grecia.

6. La legge 15 luglio 1877 detta anche legge Coppino, fu una legge del Regno d'Italia emanata

durante il periodo di governo a capo Agostino Depretis. E' stata uno dei punti qualificanti del

programma e della politica della Sinistra storica.

7. In Italia il primo Suffragio universale fu nel 1912 che permetteva solo agli uomini di votare. Nel

1946 il 10 marzo ebbero luogo le prime elezioni "amministrative" con partecipazione femminile.

8. Unione delle Repubbliche Socialiste Sovietiche fondata nel 1922 dopo la rivoluzione d'ottobre, caduta 1991.

9. Termine utilizzato la prima volta da Kevin Ashton, ricercatore presso il MIT.

10. Ontologia in informatica permette di specificare, in modo aperto e significativo, i concetti e le relazioni che caratterizzano un certo dominio di conoscenza.

11. Un motore inferenziale è un algoritmo che simula le modalità con cui la mente umana trae delle conclusioni logiche attraverso il ragionamento deduttivo o induttivo.

12. Open Knowledge Foundation è una fondazione no-profit che promuove il sapere livero, la condivisione delle conoscenze.

13. Esiste una una scala di valori proposta dal WWW per distinguere e catalogare i dati in base alle loro caratteristiche. (www.5stardata.info)

14. E' un ambiente di lavoro basato su librerie e classi astratte adottate per programmare.

15. E' un'insieme di computer che comunicano tra di per distribuire l'elaborazione dei dati.

16. Active Directory è un database integrato nei server e consente di catalogare e gestire in modo centralizzato risorse di vario genere come: utenti, gruppi di lavoro, cartelle condivise, ecc..

Page 27: Big Data - "La rivoluzione dell'informazione"

27

1. Storia:

varie fonti(libri e internet).

2. Big Data:

"I Quaderni di Telèma" n. 302 dal titolo: "Big Data Analytics Lab: esperienza e competenza per crescere";

http://lia.deis.unibo.it/Courses/sd1415-info/lucidi/12-BigData(2x).pdf

varie fonti(tesi, elaborati e lezioni universitarie reperite su internet).

3. Informatica:

http://www.websemantico.org/

http://opendatahandbook.org/guide/it/

Centro Studi Consiglio Nazionale Ingegneri c.r. 406 (cartaceo);

varie fonti(tesi, elaborati e lezioni universitarie reperite su internet).

4.Sistemi e Reti - Tecnologia:

http://www.ce.uniroma2.it/courses/sd0910/lucidi/IntroSD.pdf

http://lia.deis.unibo.it/Courses/sd1415-info/lucidi/12-BigData(2x).pdf

https://www.centrify.com/media/1626274/wp-five-hadoop-security-risks-it.pdf

http://www.di.unisa.it/professori/ads/corso-security/www/CORSO-0001/win2000/protocollo_kerberos.htm

varie fonti(libri di testo)

5.Matematica:

varie fonti(tesi, elaborati e lezioni universitarie reperite su internet).

https://www.linkedin.com/pulse/big-data-analytics-lautomatizzazione-pu%C3%B2- battere-giuseppe-macario

http://www.gazzetta.it/calcio/europei/2016/09-06-2016/pronostici-digitali-germania- campione-italia-ko-cr7-1501017563226.shtml