Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un...

19
Database (II parte) Big Data Open Data Introduzione alle Query Prof.ssa Alessandra Musolino a.a. 2019/2020

Transcript of Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un...

Page 1: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Database (II parte)

Big Data – Open Data

Introduzione alle Query

Prof.ssa Alessandra Musolino a.a. 2019/2020

Page 2: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Data, data everywhere (The Economist, 2010)

• “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM, che ha scritto un paio di dozzine di libri sulla storia delle informazioni nella società.

• Joe Hellerstein, un computer scientist dell’Università della California a Berkeley, la definisce “la rivoluzione industriale dei dati”. L'effetto si fa sentire ovunque, dagli affari alla scienza, dal governo alle arti.

• Scienziati e ingegneri informatici hanno coniato un nuovo termine per il fenomeno: “big data”. (Economist, 2010)

Page 3: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Dati strutturati e non strutturati

• Dati strutturati – Sono di lunghezza, tipo e formato prestabilito,

• Dati non strutturati – Non hanno un formato predefinito e possono includere dati dalle più svariate fonti, come messaggi di posta elettronica, tweet, messaggi di testo, chat

Page 4: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Big Data I Big Data sono risorse informative di grandi dimensioni, con aggiornamenti che si susseguono con grande velocità, provenienti dalle più svariate fonti, che richiedono modalità innovative e adeguate di elaborazione delle informazioni per produrre approfondimenti, processi decisionali e automazione dei processi . “Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.” (Gartner IT Glossary) “Raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore” (Wikipedia)

Page 5: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Alcune caratteristiche dei Big Data

• Elaborazione efficente del Volume di dati in continua espansione

• 40/50 ZB (40/50 trillion gigabytes)

• Risposta adeguata all’incremento di velocità con la quale sono incrementati

• RFID - Radio-frequency identification (tecnologia per l'identificazione e/o memorizzazione automatica di informazioni)

• La molteplicità dei tipi di dati è in continua evoluzione

• L’80% dei dati mondiali non è strutturata

• Si deve stabilire la veridicità delle fonti di big data

• 1 dirigente su 3 non si fida delle informazioni che utilizza per prendere decisioni

Page 6: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

• Volume: – Quanti dati sono veramente rilevanti per la soluzione del problema? Quanto

costa il trattamento? – Quindi, puoi davvero permetterti di archiviare ed elaborare tutti quei dati?

• Velocità: – Molti dati si aggiungono ad alta velocità – Necessità di un approccio streaming o blocco all'analisi dei dati – Quindi, come analizzare i dati in volo e combinarli con i dati a riposo

• Varietà: – Una piccola parte è costituita da formati strutturati, relazionali, XML, ecc. – Una discreta quantità è semi-strutturata, come i web log, ecc. – Il resto dei dati è costituito da testo non strutturato, fotografie, ecc. – Pertanto, attualmente nessun modello di dati può gestire la diversità

• Veracità: termine di copertura per ... – Accuratezza, precisione, affidabilità, integrità – Quindi, cos'è che non conosci sui dati?

• Valore: – Quanto valore viene creato per ogni unità di dati (qualunque essa sia)? – Quindi, qual è il contributo di sottoinsiemi di dati alla soluzione del problema?

Page 7: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Tipi di analisi • Descrittivo: una serie di tecniche per la revisione e l'esame dei set di dati per

comprendere i dati e analizzare le prestazioni aziendali.

• Diagnostica: una serie di tecniche per determinare cosa è successo e perché

• Predittivo: un insieme di tecniche che analizzano i dati attuali e storici per determinare ciò che è più probabile che accada (non)

• Prescrittivo: un insieme di tecniche per lo sviluppo e l'analisi computazionale di alternative che possono diventare percorsi d'azione - sia tattici che strategici - che possono scoprire l'inaspettato

• Decisivo: una serie di tecniche per visualizzare informazioni e raccomandare corsi di azione per facilitare il processo decisionale umano quando presentato con una serie di alternative.

Passivo Attivo

Deduttivo Descrittivo Diagnostico

Induttivo Predittivo Prescrittivo

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money

Page 8: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Analisi descrittiva trasformazione di dati grezzi in una forma che li renda facili da capire e

interpretare, riorganizzare, ordinare, e manipolare per generare informazione

utile“

• Processi:

– Identificare gli attributi, quindi fissare / valutare gli attributi

– Stimare la grandezza per correlare il contributo relativo di ciascun attributo alla soluzione finale

– accumulare più richieste di dati dalle fonti dati

– Se possibile, eseguire rapidamente le fasi di valutazione, classificazione e categorizzazione

– Ad una certa soglia, incrocia l’analisi diagnostica e predittiva

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money

Page 9: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Analisi diagnostica • Processi:

– Inizia con analisi descrittive

– Estrazione di modelli da grandi quantità di dati tramite il data mining

– Correlare i tipi di dati per la spiegazione del comportamento a breve termine - passato e presente

– Stimare il comportamento lineare / non lineare non facilmente identificabile attraverso altri approcci.

• Esempio: classificando i sinistri assicurativi passati, stimare il numero di sinistri futuri da segnalare per le indagini con un'alta probabilità di essere fraudolenti.

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H.

Money

Page 10: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Analisi predittiva

• Processi: – Inizia con analisi descrittive E diagnostiche

– Sceglie i dati giusti in base alla conoscenza del dominio e alle relazioni tra le variabili

– Sceglie le tecniche giuste per ottenere informazioni sui possibili risultati

– Determina la probabilità di possibili esiti date le condizioni al contorno iniziali

– Ricorda! L'analisi basata sui dati non è lineare; NON trattare come un progetto di ingegneria

Page 11: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Analitica prescrittiva

• Processi: – Inizia con l'analisi predittiva

– Determina cosa dovrebbe accadere e come farlo

– Determinare i fattori attenuanti che portano a risultati desiderabili / indesiderabili

– Analisi "what-if" con ottimizzazione locale o globale

– Es: trova la migliore serie di prezzi e frequenza pubblicitaria per massimizzare le entrate

– Es: E, il giusto set di mosse aziendali da compiere per raggiungere questo obiettivo

Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money

Page 12: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Open data

• Dati liberamente accessibili i cui unici vincoli sono l’obbligo di citare la fonte e di mantenere la banca dati sempre aperta

• Open Knowledge Foundation ha pubblicato il documento “Conoscenza aperta” con la definizione:

– Un contenuto o un dato si definisce aperto se chiunque è in grado di utilizzarlo, ri-utilizzarlo e ridistribuirlo, soggetto al massimo alla richiesta di attribuzione e condivisione allo stesso modo.

Page 13: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

• Requisiti tecnici necessari per una efficiente e moderna architettura di data centers dedicati agli Open Government Data

• Si raccomanda che: – 1) che i dataset pubblici siano pubblicati in una forma

la più possibile vicina a quella originaria (ovvero ai dati grezzi)

– 2) che ogni dataset sia associato a metadati ben documentati

– 3) che i dati siano esposti in una serie di formati leggibili sia dall’uomo che dagli elaboratori.

Open data

Page 14: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

• Un metadato (dal greco μετὰ "oltre, dopo, per mezzo" e dal latino datum "informazione" - plurale: data), letteralmente "(dato) per mezzo di un (altro) dato", è un'informazione che descrive un insieme di dati.

• Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti più dati che si riferiscono al libro. Un altro contenuto tipico dei metadati può essere la fonte o l'autore dell'insieme di dati descritto, oppure le modalità d'accesso con le eventuali limitazioni. (Fonte Wikipedia)

Metadati

Page 15: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Introduzione alle Query

Page 16: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Query

Di selezione

Per visualizzare solo le informazioni che interessano ma non modificano i dati (viste)

Il dynaset è un insieme dinamico di record contenente le informazioni estratte da una o più tabelle

Di azione

agiscono sui dati Creazione tabella

Aggiornamento

Accodamento

Eliminazione

Page 17: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Le query Le query sono strutture che servono a interrogare le basi di dati ottenendo i risultati richiesti dall'utente.

Esse mettono in relazione i campi e i record di una tabella - o più campi e record presenti in database composto da più tabelle - a dei valori di riferimento che permettono di “estrarre” dalla base di dati solo quelle informazioni che soddisfano le condizioni espresse nella query.

Page 18: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

Organizzazione di una base dati relazionale

Page 19: Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM,

QBE – Query by Example