Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un...

Post on 01-Apr-2020

3 views 0 download

Transcript of Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un...

Database (II parte)

Big Data – Open Data

Introduzione alle Query

Prof.ssa Alessandra Musolino a.a. 2019/2020

Data, data everywhere (The Economist, 2010)

• “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM, che ha scritto un paio di dozzine di libri sulla storia delle informazioni nella società.

• Joe Hellerstein, un computer scientist dell’Università della California a Berkeley, la definisce “la rivoluzione industriale dei dati”. L'effetto si fa sentire ovunque, dagli affari alla scienza, dal governo alle arti.

• Scienziati e ingegneri informatici hanno coniato un nuovo termine per il fenomeno: “big data”. (Economist, 2010)

Dati strutturati e non strutturati

• Dati strutturati – Sono di lunghezza, tipo e formato prestabilito,

• Dati non strutturati – Non hanno un formato predefinito e possono includere dati dalle più svariate fonti, come messaggi di posta elettronica, tweet, messaggi di testo, chat

Big Data I Big Data sono risorse informative di grandi dimensioni, con aggiornamenti che si susseguono con grande velocità, provenienti dalle più svariate fonti, che richiedono modalità innovative e adeguate di elaborazione delle informazioni per produrre approfondimenti, processi decisionali e automazione dei processi . “Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.” (Gartner IT Glossary) “Raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore” (Wikipedia)

Alcune caratteristiche dei Big Data

• Elaborazione efficente del Volume di dati in continua espansione

• 40/50 ZB (40/50 trillion gigabytes)

• Risposta adeguata all’incremento di velocità con la quale sono incrementati

• RFID - Radio-frequency identification (tecnologia per l'identificazione e/o memorizzazione automatica di informazioni)

• La molteplicità dei tipi di dati è in continua evoluzione

• L’80% dei dati mondiali non è strutturata

• Si deve stabilire la veridicità delle fonti di big data

• 1 dirigente su 3 non si fida delle informazioni che utilizza per prendere decisioni

• Volume: – Quanti dati sono veramente rilevanti per la soluzione del problema? Quanto

costa il trattamento? – Quindi, puoi davvero permetterti di archiviare ed elaborare tutti quei dati?

• Velocità: – Molti dati si aggiungono ad alta velocità – Necessità di un approccio streaming o blocco all'analisi dei dati – Quindi, come analizzare i dati in volo e combinarli con i dati a riposo

• Varietà: – Una piccola parte è costituita da formati strutturati, relazionali, XML, ecc. – Una discreta quantità è semi-strutturata, come i web log, ecc. – Il resto dei dati è costituito da testo non strutturato, fotografie, ecc. – Pertanto, attualmente nessun modello di dati può gestire la diversità

• Veracità: termine di copertura per ... – Accuratezza, precisione, affidabilità, integrità – Quindi, cos'è che non conosci sui dati?

• Valore: – Quanto valore viene creato per ogni unità di dati (qualunque essa sia)? – Quindi, qual è il contributo di sottoinsiemi di dati alla soluzione del problema?

Tipi di analisi • Descrittivo: una serie di tecniche per la revisione e l'esame dei set di dati per

comprendere i dati e analizzare le prestazioni aziendali.

• Diagnostica: una serie di tecniche per determinare cosa è successo e perché

• Predittivo: un insieme di tecniche che analizzano i dati attuali e storici per determinare ciò che è più probabile che accada (non)

• Prescrittivo: un insieme di tecniche per lo sviluppo e l'analisi computazionale di alternative che possono diventare percorsi d'azione - sia tattici che strategici - che possono scoprire l'inaspettato

• Decisivo: una serie di tecniche per visualizzare informazioni e raccomandare corsi di azione per facilitare il processo decisionale umano quando presentato con una serie di alternative.

Passivo Attivo

Deduttivo Descrittivo Diagnostico

Induttivo Predittivo Prescrittivo

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money

Analisi descrittiva trasformazione di dati grezzi in una forma che li renda facili da capire e

interpretare, riorganizzare, ordinare, e manipolare per generare informazione

utile“

• Processi:

– Identificare gli attributi, quindi fissare / valutare gli attributi

– Stimare la grandezza per correlare il contributo relativo di ciascun attributo alla soluzione finale

– accumulare più richieste di dati dalle fonti dati

– Se possibile, eseguire rapidamente le fasi di valutazione, classificazione e categorizzazione

– Ad una certa soglia, incrocia l’analisi diagnostica e predittiva

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money

Analisi diagnostica • Processi:

– Inizia con analisi descrittive

– Estrazione di modelli da grandi quantità di dati tramite il data mining

– Correlare i tipi di dati per la spiegazione del comportamento a breve termine - passato e presente

– Stimare il comportamento lineare / non lineare non facilmente identificabile attraverso altri approcci.

• Esempio: classificando i sinistri assicurativi passati, stimare il numero di sinistri futuri da segnalare per le indagini con un'alta probabilità di essere fraudolenti.

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H.

Money

Analisi predittiva

• Processi: – Inizia con analisi descrittive E diagnostiche

– Sceglie i dati giusti in base alla conoscenza del dominio e alle relazioni tra le variabili

– Sceglie le tecniche giuste per ottenere informazioni sui possibili risultati

– Determina la probabilità di possibili esiti date le condizioni al contorno iniziali

– Ricorda! L'analisi basata sui dati non è lineare; NON trattare come un progetto di ingegneria

Analitica prescrittiva

• Processi: – Inizia con l'analisi predittiva

– Determina cosa dovrebbe accadere e come farlo

– Determinare i fattori attenuanti che portano a risultati desiderabili / indesiderabili

– Analisi "what-if" con ottimizzazione locale o globale

– Es: trova la migliore serie di prezzi e frequenza pubblicitaria per massimizzare le entrate

– Es: E, il giusto set di mosse aziendali da compiere per raggiungere questo obiettivo

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money

Open data

• Dati liberamente accessibili i cui unici vincoli sono l’obbligo di citare la fonte e di mantenere la banca dati sempre aperta

• Open Knowledge Foundation ha pubblicato il documento “Conoscenza aperta” con la definizione:

– Un contenuto o un dato si definisce aperto se chiunque è in grado di utilizzarlo, ri-utilizzarlo e ridistribuirlo, soggetto al massimo alla richiesta di attribuzione e condivisione allo stesso modo.

• Requisiti tecnici necessari per una efficiente e moderna architettura di data centers dedicati agli Open Government Data

• Si raccomanda che: – 1) che i dataset pubblici siano pubblicati in una forma

la più possibile vicina a quella originaria (ovvero ai dati grezzi)

– 2) che ogni dataset sia associato a metadati ben documentati

– 3) che i dati siano esposti in una serie di formati leggibili sia dall’uomo che dagli elaboratori.

Open data

• Un metadato (dal greco μετὰ "oltre, dopo, per mezzo" e dal latino datum "informazione" - plurale: data), letteralmente "(dato) per mezzo di un (altro) dato", è un'informazione che descrive un insieme di dati.

• Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti più dati che si riferiscono al libro. Un altro contenuto tipico dei metadati può essere la fonte o l'autore dell'insieme di dati descritto, oppure le modalità d'accesso con le eventuali limitazioni. (Fonte Wikipedia)

Metadati

Introduzione alle Query

Query

Di selezione

Per visualizzare solo le informazioni che interessano ma non modificano i dati (viste)

Il dynaset è un insieme dinamico di record contenente le informazioni estratte da una o più tabelle

Di azione

agiscono sui dati Creazione tabella

Aggiornamento

Accodamento

Eliminazione

Le query Le query sono strutture che servono a interrogare le basi di dati ottenendo i risultati richiesti dall'utente.

Esse mettono in relazione i campi e i record di una tabella - o più campi e record presenti in database composto da più tabelle - a dei valori di riferimento che permettono di “estrarre” dalla base di dati solo quelle informazioni che soddisfano le condizioni espresse nella query.

Organizzazione di una base dati relazionale

QBE – Query by Example