Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un...
Transcript of Database - lumsa.it€¦ · Data, data everywhere (The Economist, 2010) • “Noi siamo in un...
Database (II parte)
Big Data – Open Data
Introduzione alle Query
Prof.ssa Alessandra Musolino a.a. 2019/2020
Data, data everywhere (The Economist, 2010)
• “Noi siamo in un periodo diverso a causa di così tante informazioni” afferma James Cortada di IBM, che ha scritto un paio di dozzine di libri sulla storia delle informazioni nella società.
• Joe Hellerstein, un computer scientist dell’Università della California a Berkeley, la definisce “la rivoluzione industriale dei dati”. L'effetto si fa sentire ovunque, dagli affari alla scienza, dal governo alle arti.
• Scienziati e ingegneri informatici hanno coniato un nuovo termine per il fenomeno: “big data”. (Economist, 2010)
Dati strutturati e non strutturati
• Dati strutturati – Sono di lunghezza, tipo e formato prestabilito,
• Dati non strutturati – Non hanno un formato predefinito e possono includere dati dalle più svariate fonti, come messaggi di posta elettronica, tweet, messaggi di testo, chat
Big Data I Big Data sono risorse informative di grandi dimensioni, con aggiornamenti che si susseguono con grande velocità, provenienti dalle più svariate fonti, che richiedono modalità innovative e adeguate di elaborazione delle informazioni per produrre approfondimenti, processi decisionali e automazione dei processi . “Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.” (Gartner IT Glossary) “Raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore” (Wikipedia)
Alcune caratteristiche dei Big Data
• Elaborazione efficente del Volume di dati in continua espansione
• 40/50 ZB (40/50 trillion gigabytes)
• Risposta adeguata all’incremento di velocità con la quale sono incrementati
• RFID - Radio-frequency identification (tecnologia per l'identificazione e/o memorizzazione automatica di informazioni)
• La molteplicità dei tipi di dati è in continua evoluzione
• L’80% dei dati mondiali non è strutturata
• Si deve stabilire la veridicità delle fonti di big data
• 1 dirigente su 3 non si fida delle informazioni che utilizza per prendere decisioni
• Volume: – Quanti dati sono veramente rilevanti per la soluzione del problema? Quanto
costa il trattamento? – Quindi, puoi davvero permetterti di archiviare ed elaborare tutti quei dati?
• Velocità: – Molti dati si aggiungono ad alta velocità – Necessità di un approccio streaming o blocco all'analisi dei dati – Quindi, come analizzare i dati in volo e combinarli con i dati a riposo
• Varietà: – Una piccola parte è costituita da formati strutturati, relazionali, XML, ecc. – Una discreta quantità è semi-strutturata, come i web log, ecc. – Il resto dei dati è costituito da testo non strutturato, fotografie, ecc. – Pertanto, attualmente nessun modello di dati può gestire la diversità
• Veracità: termine di copertura per ... – Accuratezza, precisione, affidabilità, integrità – Quindi, cos'è che non conosci sui dati?
• Valore: – Quanto valore viene creato per ogni unità di dati (qualunque essa sia)? – Quindi, qual è il contributo di sottoinsiemi di dati alla soluzione del problema?
Tipi di analisi • Descrittivo: una serie di tecniche per la revisione e l'esame dei set di dati per
comprendere i dati e analizzare le prestazioni aziendali.
• Diagnostica: una serie di tecniche per determinare cosa è successo e perché
• Predittivo: un insieme di tecniche che analizzano i dati attuali e storici per determinare ciò che è più probabile che accada (non)
• Prescrittivo: un insieme di tecniche per lo sviluppo e l'analisi computazionale di alternative che possono diventare percorsi d'azione - sia tattici che strategici - che possono scoprire l'inaspettato
• Decisivo: una serie di tecniche per visualizzare informazioni e raccomandare corsi di azione per facilitare il processo decisionale umano quando presentato con una serie di alternative.
Passivo Attivo
Deduttivo Descrittivo Diagnostico
Induttivo Predittivo Prescrittivo
Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money
Analisi descrittiva trasformazione di dati grezzi in una forma che li renda facili da capire e
interpretare, riorganizzare, ordinare, e manipolare per generare informazione
utile“
• Processi:
– Identificare gli attributi, quindi fissare / valutare gli attributi
– Stimare la grandezza per correlare il contributo relativo di ciascun attributo alla soluzione finale
– accumulare più richieste di dati dalle fonti dati
– Se possibile, eseguire rapidamente le fasi di valutazione, classificazione e categorizzazione
– Ad una certa soglia, incrocia l’analisi diagnostica e predittiva
Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money
Analisi diagnostica • Processi:
– Inizia con analisi descrittive
– Estrazione di modelli da grandi quantità di dati tramite il data mining
– Correlare i tipi di dati per la spiegazione del comportamento a breve termine - passato e presente
– Stimare il comportamento lineare / non lineare non facilmente identificabile attraverso altri approcci.
• Esempio: classificando i sinistri assicurativi passati, stimare il numero di sinistri futuri da segnalare per le indagini con un'alta probabilità di essere fraudolenti.
Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H.
Money
Analisi predittiva
• Processi: – Inizia con analisi descrittive E diagnostiche
– Sceglie i dati giusti in base alla conoscenza del dominio e alle relazioni tra le variabili
– Sceglie le tecniche giuste per ottenere informazioni sui possibili risultati
– Determina la probabilità di possibili esiti date le condizioni al contorno iniziali
– Ricorda! L'analisi basata sui dati non è lineare; NON trattare come un progetto di ingegneria
Analitica prescrittiva
• Processi: – Inizia con l'analisi predittiva
– Determina cosa dovrebbe accadere e come farlo
– Determinare i fattori attenuanti che portano a risultati desiderabili / indesiderabili
– Analisi "what-if" con ottimizzazione locale o globale
– Es: trova la migliore serie di prezzi e frequenza pubblicitaria per massimizzare le entrate
– Es: E, il giusto set di mosse aziendali da compiere per raggiungere questo obiettivo
Copyright (except where referenced) 2014-2016 Stephen H. Kaisler, Frank Armour, Alberto Espinosa and William H. Money
Open data
• Dati liberamente accessibili i cui unici vincoli sono l’obbligo di citare la fonte e di mantenere la banca dati sempre aperta
• Open Knowledge Foundation ha pubblicato il documento “Conoscenza aperta” con la definizione:
– Un contenuto o un dato si definisce aperto se chiunque è in grado di utilizzarlo, ri-utilizzarlo e ridistribuirlo, soggetto al massimo alla richiesta di attribuzione e condivisione allo stesso modo.
• Requisiti tecnici necessari per una efficiente e moderna architettura di data centers dedicati agli Open Government Data
• Si raccomanda che: – 1) che i dataset pubblici siano pubblicati in una forma
la più possibile vicina a quella originaria (ovvero ai dati grezzi)
– 2) che ogni dataset sia associato a metadati ben documentati
– 3) che i dati siano esposti in una serie di formati leggibili sia dall’uomo che dagli elaboratori.
Open data
• Un metadato (dal greco μετὰ "oltre, dopo, per mezzo" e dal latino datum "informazione" - plurale: data), letteralmente "(dato) per mezzo di un (altro) dato", è un'informazione che descrive un insieme di dati.
• Un esempio tipico di metadati è costituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e la posizione di un libro, cioè dati riguardanti più dati che si riferiscono al libro. Un altro contenuto tipico dei metadati può essere la fonte o l'autore dell'insieme di dati descritto, oppure le modalità d'accesso con le eventuali limitazioni. (Fonte Wikipedia)
Metadati
Introduzione alle Query
Query
Di selezione
Per visualizzare solo le informazioni che interessano ma non modificano i dati (viste)
Il dynaset è un insieme dinamico di record contenente le informazioni estratte da una o più tabelle
Di azione
agiscono sui dati Creazione tabella
Aggiornamento
Accodamento
Eliminazione
Le query Le query sono strutture che servono a interrogare le basi di dati ottenendo i risultati richiesti dall'utente.
Esse mettono in relazione i campi e i record di una tabella - o più campi e record presenti in database composto da più tabelle - a dei valori di riferimento che permettono di “estrarre” dalla base di dati solo quelle informazioni che soddisfano le condizioni espresse nella query.
Organizzazione di una base dati relazionale
QBE – Query by Example