La natura della informazione statistica
Transcript of La natura della informazione statistica
Data Science – Big Data - Datanomics
12
• I dati «esistono».. Basta andare a cercarli .. E raccoglierli, anzi estrarli. È proprio così?
• I dati sono informazioni? Basta «leggere» i dati per saperli interpretare.. Ma cosa vuol dire leggere e interpretare?
• I dati sono statistiche? Occorre pertanto dirci cosa sono le statistiche e cosa è la statistica
• I dati oggi alimentano e «governano» diversi processi e meccanismi sociali: sia nell’ambito del settore pubblico che del settore privato;
• La digitalizzazione rende ancora più fluido e accelerato il processo di produzione dei dati ampliandone la quantità ma non sempre altrettanto la qualità;
• La diffusione degli «algoritmi» e dei processi di automazione e di Intelligenza Artificiale contribuisce a strutturare processi di trattamento ed elaborazione dei dati: la statistica diventa «machine learning»;
• I dati stessi diventano una «merce» di scambio fondamentale e preziosa, costituiscono un mercato che si muove tra la normativa di tutela delle riservatezza dei dati (Privacy) e quella della massima trasparenza (Open Governement).
L’acquisizione dei dati: raccolti, estratti, prodotti… comune mai «dati» ma sempre «presi»!
13
Rilevazioni dirette
• Censimenti• Indagini• Sondaggi• …
Fonti statistiche
• Statistiche ufficiali
• Altri fonti non ufficiali
Dati non strutturati
• Dati amministrativi, non originati da finalità statistiche
• Dati non strutturati relativi ad una pluralità di formati (documenti, file audio o video..)
14
Dati
Prodotti statisticamente
Riferiti a tutto il collettivo
(popolazione)
Riferiti ad una selezione della popolazione:
il campione
Campione selezionato (estratto) con metodo
probabilistico
Campioni ripetuti nel tempo
Campione selezionato in modo
ragionato
Forme miste di campionamento
AutoselezioniCampioni di convenienza
Raccolti e utilizzati a fini statistici
Aggregati in collettivi trattati come popolazioni o
campioni
Non utilizzabili a fini statistici
15
«Cattura» delle informazioni• In modo diretto• In modo indiretto
Traduzione delle informazioni• Formati logici• Formati numerici
e matematici
Conservazione e utilizzo• Archivi e
pubblicazioni• Archivi elettronici• Web
DIGITALIZZAZIONE
16
dati
Dai casi…
informazioni
…alle variabili
A
B
C
D
F
E
M1 M2 … Mk
A
B
C
D
E
F
• In un’analisi statistica l’interesse per la conoscenza delle unità elementari (i casi o osservazioni ) diventa meno interessante (rimane il valore del «profilo» ossia delle insieme di misure specifiche della singola informazione)
• per dare spazio all’interesse per la dimensione di analisi rappresentata dalla variabile attraverso l’informazione che essa offre tramite la distribuzione nelle unità, ognuna delle quali mostra un valore di tale variabile (modalità)
PROFILO DI B rispetto ai valori di ciascuna Mk
Distribuzione di M1
rispetto alle unità
17
M1 M2 … MkA
B
C
D
E
F
La «matrice dei dati» : oggetto base di ogni analisi statistica
Aumentare il numero di variabili migliorare le informazioni sui casi contribuendo ad una loro più precisa identificazione e classificazione…. Ma…richiede più informazioni…
Aumentare il numero dei casi contribuisce alla «consistenza» del supporto ma induce una maggiore eterogeneità
18
età altezza … residenza
Anna 19 175 … Palermo
Antonio 19 184 … Palermo
Maria 20 180 .. Trapani
… … … … …
Tullio 20 188 … Agrigento
Veronica 19 185 Alcamo
Vediamo un esempio: se io volessi descrivere per conoscere statisticamente la nostra aula potrei agire nelle due direzioni:
Aumentare il numero di variabili migliora la conoscenza di ogni studente sino (al limite!) ad individuare ciascuno precisamente: ciò spiega per esempio perché in ogni strumento di misura tendiamo ad aumentare il numero delle domande (item).. Ma aumentare le variabili migliora la conoscenza? (teoria della domanda marginale)Posso
scegliere di selezionare un gruppo per conoscere tuti, ma devo chiedermi quanto tale gruppo sia rappresentativo di tutta la classe… Consultare tutta la classe tuttavia può essere oneroso (ci vuole molto tempo, devo trovare tutti, costi….)
La conoscenza statistica:approcci e prospettive di metodo
• Riferimento ad un SUPPORTO aggregato e collettivo, totale o parziale.• Una volta costituita tale supporto può essere studiato in sé (analisi
descrittiva) oppure in relazione ad un referente superiore (universo) identificabile almeno teoricamente (analisi inferenziale o INFERENZA)• Rappresentazione dei fenomeni nella loro intrinseca eterogeneità o
VARIABILITÀ;• Ricerca di schemi di riduzione della complessità e di SINTESI: esistono
diversi percorsi di riduzione sia dal punto di vista della aggregazione delle unità (raggruppamento o classificazione) sia dal punto di vista delle variabili (tecniche fattoriali e studio delle connessioni).
19
Dati, approccio empirico e metodo scientifico
20
Informazioni
Statistiche
DatiConoscenza
Scientifica
Modellazione & Misurazione
Evidenza empirica
Il pensiero statistico: Melchiorre Gioia e la filosofia della Statistica
21
La filosofia dellastatistica è la cognizioneragionata delle normegenerali per ricercare, delle fonti a cui attingere, de’ sintomiper riconoscere, de’ principi per giudicare, degli usi a cui servonogli elementi allo statodelle nazioni
È la «cognizione ragionata delle norme generali per ricercare»
• La statistica è una scienza che ha un metodo (anzi ne ha tantissimi)… non è un metodo.• L’esigenza di conoscere statisticamente è antica: i censimenti dei sumeri e degli
egiziani. In principio era «il contare»…• Essa si fonda sul bisogno di descrivere qualità e quantità di universi e
popolazioni, ossia di avere una visione aggregata dei fenomeni.• L’utilizzo di collettivi statistici induce una ricerca di sintesi adeguate che
forniscano tendenze e comportamenti medi: lo sviluppo del metodo scientifico e l’empirismo positivista hanno dato un grande impulso a tale approccio basato sulla ricorrenza (incidenza, frequenza) di fatti e fenomeni fisici o sociali. Le «regolarità empiriche» assumono un valore «morale».
22
…delle fonti a cui attingere…
• La Statistica ha una finalità conoscitiva, di organizzazione di dati e informazioni la cui veridicità dipende dal «soggetto» che le produce, le detiene, le diffonde o pubblica: • Per questo nel tempo la funzione statistica è un importante compito degli Stati,
particolarmente di quelli moderni dove nascono sistemi democratici e repubblicani, laddove il potere viene dal popolo e non dalla divinità.
• Un processo di progressiva integrazione e armonizzazione: i sistemi statistici.• Criteri di qualità per i «dati» statistici sempre più rilevanti nella Data-crazia dove
i dati vanno sempre meno «cercati» e sempre più «estratti»
23
…de’ principi per giudicare…
• La statistica offre supporti informativi (campioni, indicatori, rapporti o indici…) per valutare ossia esprimere un giudizio su ipotesi (teoriche) da validare empiricamente sui dati• La statistica da descrittiva diviene inferenziale, utilizza la matematica e la
probabilità come linguaggio formale che aiuta progressivamente la statistica alla luce del metodo scientifico (il disegno sperimentale)
• La statistica è supporto della valutazione: dello sviluppo economico, dei problemi sociali, delle politiche pubbliche…
24
…degli usi a cui servono gli elementi allo stato delle nazioni.• La statistica è utile, serve ad agire con consapevolezza: nella vita
quotidiana, nella formazione del consenso elettorale, nelle scelte aziendali dell’impresa, nelle previsioni degli scenari macro economici dei governi.• La connessione tra statistica e «prosperità pubblica» (Gioia parla di
«incivilimento») che oggi chiamiamo in tanti modi «progresso» «sviluppo sostenibile» «benessere»…
25
Dati primari e dati secondari
• I dati statistici se sono rilevati direttamente e specificatamente vengono detti primari, altrimenti sono detti secondari.• I dati secondari sono rilevati da soggetti professionalmente
riconosciuti possono essere ufficiali o non ufficiali a seconda che derivino da fonti statistiche istituzionalmente dedicata alla produzione di statistiche pubbliche: i sistemi della statistica ufficiale (in Italia il SISTAN e l’ISTAT).
26
In sintesi: La rilevazione dei dati statistici
• I dati sono «prodotti»: lo schema di progettazione di una rilevazione viene detto «disegno» e riguarda i seguenti punti:
• Oggetto della rilevazione: cosa vogliamo conoscere attraverso i dati• Identificazione del collettivo e delle unità di rilevazioni (unità statistiche)• Adozione di uno strumento di misura e delle modalità di rilevazione• Organizzazione della rilevazione ed eventuale formazione dei rilevatori• Raccolta dei dati e controllo di qualità (presenza di errori c.d. non campionari)• Organizzazione dei dati ed elaborazione dell’informazione• Report finale di ricerca con note metodologiche, meta-informazioni e dati originari
27
Dati strutturati o non strutturati
• Nella società dell’informazione, i dati a nostra disposizione sono cresciuti per qualità e quantità.• Si parla di Big Data, facendo riferimento a dati che hanno un enorme volume
(tantissime osservazioni), una grande varietà (tantissime dimensioni o variabili), facilmente reperibili e accessibili ossia disponibili ad una grande velocità e aderenti alla realtà secondo un alto gradi accuratezza e veridicità.• Ci sono tanti tipi di dati che emergono da processi sociali o procedure
amministrative che sono detti non strutturati (immagini, foto, informazioni su opinioni o gradimenti tratte dai social…) .• I dati strutturati sono invece caratterizzati per la loro organizzazione statistica e
per il loro corredo di meta-informazione (definizioni, classificazioni, elaborazioni).
28
Dati accessibili o «aperti» (Open data)
• Uno dei requisiti importanti della qualità di un dato è la sua facile reperibilità o accessibilità.• La diffusione del web ha moltiplicato notevolmente questa possibilità,
pertanto si è definito il concetto di «dato aperto» commisurato all’attitudine del dato di essere facilmente reperibile e trasferibile.• Soprattutto nell’abito delle pubbliche amministrazioni si è diffusa questa
pratica di fornire dati accessibili a tutti per un esercizio più universale e diffuso del controllo e della valutazione tipico delle società democratiche.
29
Tecnologie digitali, informatica e statistica
• Lo sviluppo delle tecnologie informatiche nell’era digitale ha accresciuto la dotazione di informazioni.• In questo tempo – definito da alcuni come «diluvio informazionale» – il
problema non è disporre di dati ma avere «criteri» per la loro selezione e interpretazione.• La statistica diventa ancora più rilevante nella fase di analisi ed
elaborazione, nello studio delle connessioni e relazioni nonché dei modelli che permettono di estrarre informazione, identificando nessi di causalità dalla variabilità congiunta di numerose variabili.• Il trattamento della variabilità statistica è l’oggetto della statistica
moderna.30
Dalle statistiche ai Sistemi di Statistica: l’offerta diventa “globale
• Armonizzazione e Integrazione per favorire comparabilità• Sistemi ufficiali per assicurare continuità, tempestività e attendibilità• Comunità scientifiche per verificare rigore, rilevanza, accuratezza e
robustezza.• La rivoluzione informatica e quella digitale per accessibilità e
disponibilità.
31
Qualità dei dati: principi e dimensioni• Quality of statistics is defined by Eurostat with
reference to the following six criteria: 1. Relevance;2. Accuracy;3. timeliness and punctuality;4. accessibility and clarity;5. Comparability;6. Coherence.
32https://ec.europa.eu/eurostat/documents/64157/4373735/02-ESS-quality-definition.pdf
Collezioni di dati
• Matrici di dati
• Array ossia matrici multidimensionali (tre o più dimensioni)
• Sistemi informativi statistici (dati e metadati insieme)
• OLAP (On-Line Analytical Processing)
• DataWareHouse
33
La Meta-Informazione• Metadati ovvero informazioni o attributi che descrivono i dati per
facilitarne l’individuazione e la comprensione
• Esempio: gli indici di catalogazione di una biblioteca.
34
•Definizioni è GLOSSARIO•Classificazioni•Metodi
https://www.istat.it/it/metodi-e-strumenti
Il sistema dell’informazione statistica• Un sistema di collegamento tra soggetti produttori, in una logica di coordinamento
amministrativo, ma anche scientifico e metodologico: il SISTAN• Il portale Istat https://www.istat.it/it/
• L’organizzazione della statistica ufficiale a livello internazionale • https://www.unric.org/it/informazioni-generali-sullonu/34• https://ec.europa.eu/eurostat/web/links/international-organisations
• Il sistema comunitario: Eurostat• https://ec.europa.eu/eurostat/web/european-statistical-system/overview
• I principi (tra cui la qualità dei dati)
• Obbligo e segreto statistico (tutela della Privacy)35
Altre informazioni statistiche non ufficiali
• Ci sono ulteriori fonti, non ufficiali ossia non appartenenti al sistema ufficiale della organizzazione statistica, ma che contribuiscono a partire dalla esperienza/competenza di comunità scientifiche o organizzazioni di volontariato e/o Non profit:
• Criteri: Affidabilità/Reputazione – Trasparenza - Completezza
36
Lezione 1. Concetti ChiaveLa natura dell’informazione statistica
• La conoscenza statistica e il nuovo empirismo• Dati, statistiche, informazioni• Il disegno dell’indagine• Collettivo: Popolazione e Campione• La funzione sociale della Statistica: la statistica ufficiale• Fonti statistiche• Banche dati, Datawarehouse, Sistemi informativi, Cruscotti• Big Data, Open data: estrarre informazione dal web• Qualità dei dati• Meta-informazione
37