Post on 25-Jun-2020
Modulo 2 - Osservare la Realtà e Ottenere Informazioni Conoscenze Informatiche e Telematiche - 6CFU a.a. 2019/20 prof. Alessandro Iannella
Queste Slide3 Quesiti (domande o esercizi) 1 pt. ciascuno
Suff.: 1,8/3
Sullivan III, M. (2011) Fondamenti di Statistica. Cap. 1: pp. 2-26,
Pearson.Cosa studiare? L’esame
Informazioni sul Modulo
Cos’è la Statistica?1
Raccogliere i Dati: Impiegare le Fonti3
Concetti Base2
Raccogliere i Dati: Svolgere un Campionamento4
Raccogliere i Dati: Tecniche di Rilevazione5
Indice del Modulo
UNITÀ 1
Cos’è la Statistica?
1
1 . Cos’è la Statistica?
STATISTICA < lat . STATUS “stato politico”
1. Cos’è la Statistica?
“La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni per pervenire a una o più conclusioni così da rispondere a
una specifica domanda di ricerca” (Sullivan, 2011)
1
Definizione
5
Raccogliere Organizzare Sintetizzare Analizzare
“La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni per pervenire a una o più conclusioni così da
rispondere a una specifica domanda di ricerca” (Sullivan, 2011)
Aspetti chiave del procedimento statistico (fasi dell’indagine statistica)
Identificare una domanda
Trarre Conclusioni
1. Cos’è la Statistica?
1
Definizione
6
Le informazioni sono gli elementi che raccogliamo per rispondere alla nostra domanda di ricerca e che, una volta organizzati,
prendono il nome di dati.
1. Cos’è la Statistica?
1
Definizione
“La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni per pervenire a una o più conclusioni così da
rispondere a una specifica domanda di ricerca” (Sullivan, 2011)
7
Le conclusioni possono…
coincidere con una semplice analisi descrittiva dei dati
essere delle previsioni di tipo probabilistico su situazioni incerte o future
Statistica Descrittiva Statistica Inferenziale
1. Cos’è la Statistica?
1
“La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni per pervenire a una o più conclusioni così da
rispondere a una specifica domanda di ricerca” (Sullivan, 2011)
Definizione
8
La statistica offre una chiave di lettura della realtà.
Matematica Statistica
Certezza dei Risultati Confidenza≠
I dati sono soggetti a variabilità: la statistica ne individua le cause e ci aiuta a spiegarle.
1. Cos’è la Statistica?
1
Definizione
9
UNITÀ 2
Concetti Base
2. Concetti Base
21
È l’intero gruppo degli elementi cui si riferisce l’indagine statistica e che presentano almeno un elemento in
comune
È un sottoinsieme
della popolazione
Ciascun elemento appartenente al campione/alla
popolazione
CampionePopolazione Unità Statistica
2. Concetti Base
21
Popolazione, Campione e Unità
11
CampionePopolazione
2. Concetti Base
21
Popolazione, Campione e Unità
12
Inferenza Statistica (generalizzazione)
Unità Statistica
È l’intero gruppo degli elementi cui si riferisce l’indagine statistica e che presentano almeno un elemento in
comune
È un sottoinsieme
della popolazione
Ciascun elemento appartenente al campione/alla
popolazione
Unità Statistica
??
? ?
2. Concetti Base
21
Variabili e Dati
13
VariabileAspetto che può essere rilevato
in corrispondenza di ciascuna unità
statistica
Unità Statistica
PesoLivello Istr.
n° Figli
Colore Occhi
2. Concetti Base
21
Variabili e Dati
14
Dato o ModalitàValore che la variabile può
assumere in corrispondenza di
ciascuna unità statistica
Unità Statistica
60,5 kgLaurea
1 Blu
2. Concetti Base
21
Variabili e Dati
15
n° Figli
Dati o Modalità
Livello Istruzione
Età Colore Occhi
1 Laurea 60,5 kg Blu
2 Diploma 68 kg Verdi
2. Concetti Base
21
Variabili e Dati
16
Variabili
n° Figli Peso Livello
Istr.Colore Occhi
2. Concetti Base
21
Variabili e Dati
17
Variabili
Quantitative Qualitative (o Categoriali o Mutabili)
Il dato/modalità è un numero
Il dato/modalità è un attributo/etichetta/nome/categoria
n° Figli Peso Livello
Istr.Colore Occhi
2. Concetti Base
21
Variabili
Variabili e Dati
18
n° Figli Peso Livello
Istr.Colore Occhi
Discrete Continue Ordinali Nominali
Quantitative Qualitative (o Categoriali o Mutabili)
2. Concetti Base
21
Variabili e Dati
Variabili
19
Un altro modo per classificare le variabili è quello di definirle sulla base di una scala che denota la relazione tra i dati appartenenti all’insieme dei valori attraverso i quali la variabile si può esprimere.
1. la scala nominale possiede una relazione di equivalenza, ovvero permette di determinare se due modalità sono uguali o diverse;
2. la scala ordinale possiede una relazione d'ordine totale, ovvero le modalità possono essere ordinate e si può stabilire se una è "maggiore", uguale o "minore" di un’altra;
3. una scala a intervalli permette di calcolare la differenza tra due valori, quindi anche di ordinarli;
4. una scala di rapporto permette di calcolare la proporzione tra due valori, quindi anche la loro differenza.
Variabili Qualitative
Variabili Quantitative
2. Concetti Base
21
Scale di Misurazione
20
UNITÀ 3
Raccogliere i Dati: Impiegare le Fonti
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda
Trarre Conclusioni
ottenere Dati Primari
Impiegare le Fonti
Scegliere una Tecnica di Indagine (Metodo di Raccolta)
+
utilizzare Dati Secondari
Svolgere un Campionamento
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Raccogliere i Dati
22
Strumenti di Indicizzazione e di Analisi di Ricerca Big data
Si tratta di dati che, per volume, varietà e velocità di raccolta, eccedono le capacità di analisi degli strumenti tradizionali implicando la definizione di nuovi metodi per il loro controllo
Banche Dati di Enti, Istituti. Fondazioni e Associazioni
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Impiegare le Fonti
23
link: https://www.istat.it
banca dati: http://dati.istat.it
Dati e statistiche per tema
Comunicati stampa, note e report
Banche dati e tavole di dati
Contenuti interattivi
Informazioni e servizi al cittadino
Cosa offre?
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Il Portale Istat
24
link: https://trends.google.it/
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
25
nota: si osservino le inversioni di tendenza, con declino per l’argomento “DVD” e aumento della popolarità per l’argomento “iPhone”
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
26
nota: l’interesse per l’argomento “Giochi olimpici” si ha nei mesi di agosto e dicembre, in entrambi i casi ogni quattro anni (in concomitanza con i giochi).
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
27
nota: si osservi l’interesse continuo per l’argomento “Excel”.
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
28
nota: si osservi l’interesse per l’argomento “Mia Martini” nel periodo in cui è andata in onda la serie RAI “Io sono Mia”.
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
29
nota: è più frequente che gli utenti cerchino il termine e-mail nella forma errata senza trattino. Si osservi, inoltre, l’inversione di tendenza.
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
30
nota: si osservino gli argomenti correlati e le ricerche associate all’argomento “Chiara Ferragni”.
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
31
nota: si osservi la distribuzione geografica dell’interesse per gli argomenti “Apple” e “Microsoft”.
Declino e popolarità di un argomento
Interesse periodico (stagionalità)
Interesse continuativo (longevità)
Eventi incisivi
Argomenti correlati e ricerche associate
Distribuzione geografica delle ricerche
Consente di osservare…
Opinioni di massa
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Google Trends
32
Google Trends consente di esportare i dataset unicamente in CSV (Formato testo del tipo comma-separated values).
Esempio di file CSV
link: https://trends.google.it/
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Esportare i Dati
33
Il Portale Istat, invece, consente di esportare i dataset in diversi formati:
• XLS (Microsoft Excel); • CSV (Formato testo del tipo comma-
separated values); • PX (PC-axis); • XML (Statistical Data and Metadata
eXchange).
link: https://www.istat.it
banca dati: http://dati.istat.it
3. Raccogliere i Dati: Impiegare le Fonti
2 31
Esportare i Dati
34
UNITÀ 4
Raccogliere i Dati: Svolgere un Campionamento
2 3 41
Raccogliere Organizzare Sintetizzare AnalizzareIdentificare una domanda
Trarre Conclusioni
ottenere Dati Primari
Impiegare le Fonti
Scegliere una Tecnica di Indagine (Metodo di Raccolta)
+
utilizzare Dati Secondari
Svolgere un Campionamento
Raccogliere i Dati
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
36
Il campione deve essere rappresentativo, cioè in grado di rappresentare fedelmente le caratteristiche della popolazione studiata.
Il Campionamento
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
37
Il campionamento è l’identificazione di un sottoinsieme (campione) della popolazione oggetto di indagine, utile qualora non fosse possibile interrogare quest’ultima interamente.
Deve, pertanto, basarsi su di un principio di casualità: casuale non significa preso a caso ma equiprobabile, vale a dire che ogni elemento della popolazione deve avere la medesima probabilità di entrare a far parte del campione.
Casuale Semplice Stratificato Sistematico A Grappolo
Qualora le unità statistiche che compongono il campione vengano scelte in maniera non casuale parliamo di metodi di campionamento non probabilistici o di convenienza.
A Risposta Volontaria
I metodi di campionamento che si basano sul principio di casualità sono detti probabilistici.
1 2 3 4
5 6 7 8
9 10 11 12
8 12
2 7
1 3
4
5
6
7
8
9 10
11
12
2
126
7
2
1 2 3 4 5 6 7 8 9 10 11 12
2 5 8 11
1 2 3 4
5 6 7 8
9 10 11 12
11 12
3 4
8 12
2 7
Metodi di Campionamento
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
38
Consiste nel creare una lista di campionamento, cioè un elenco numerato di tutte le unità che compongono la popolazione di grandezza N, dal quale estrarre casualmente n unità che comporrano un campione di grandezza n. Pertanto, per poter essere considerato casuale, ogni possibile campione di grandezza n deve avere una medesima probabilità di essere selezionato.
N = grandezza della popolazione
n = grandezza del campione1 2 3 4
5 6 7 8
9 10 11 12
8 12
2 7
Campionamento Casuale Semplice
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
39
Può essere: • senza reinserimento quando ogni unità statistica può essere scelta un’unica volta; • con reinserimento quando l’unità statistica può essere scelta più di una volta.
1 2 3 4
5 6 7 8
9 10 11 12
8 12
2 7
Campionamento Casuale Semplice
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
40
Come eseguirlo: • sfruttando l'estrazione a sorte; • impiegando una tavola di numeri casuali; • impiegando strumenti digitali appositi, come questo; • impiegando la funzione CASUALE.TRA su Microsoft Excel o Google Fogli.
1 2 3 4
5 6 7 8
9 10 11 12
8 12
2 7
Campionamento Casuale Semplice
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
41
Di fianco osserviamo una tavola di numeri casuali.
Campionamento Casuale Semplice
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
42
All’interno di Excel e Google Fogli, la funzione CASUALE.TRA restituisce un numero casuale tra quelli indicati come min e max.
sintassi =CASUALE.TRA([min];[max]) esempio =CASUALE.TRA (1;10)
Campionamento Casuale Semplice
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
43
Consiste nel suddividere la popolazione in più strati, cioè gruppi omogenei tra loro rispetto a una determinata variabile (fattore di stratificazione), e poi operare un campionamento casuale semplice per ogni strato mantenendo la dovuta proporzione. Rispetto al campionamento casuale semplice, riesce a tenere maggiormente conto della eterogeneità del campione garantendo un’adeguata copertura anche degli strati meno numerosi.
1 2 3 4
5 6 7 8
9 10 11 12
1 3
4
5
6
7
8
9 10
11
12
2
126
7
2
2/4
1/4
1/4
Campionamento Stratificato
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
44
Prevede la selezione di ogni k-esima unità statistica della popolazione N (intervallo regolare). Dopo aver deciso l’ampiezza del campione n, k può essere calcolato come N/n arrotondato all’intero più vicino. Il primo elemento selezionato è un numero casuale p compreso tra 1 e k. Si rivela utile quando risulta complesso produrre una lista di campionamento, inoltre è più facile da impiegare e riduce la possibilità di errore.
1 2 3 4 5 6 7 8 9 10 11 12
2 5 8 11
Campionamento Sistematico
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
45
N = grandezza della popolazione
n = grandezza del campione
k = N/n arrotondato
p = numero casuale tra 1 e k
N =12
n = 4
k = 3
p = 2
1 2 3 4
5 6 7 8
9 10 11 12
3 4
11 12
Consiste nell’impiegare raggruppamenti (cluster) già insiti nella popolazione e formare il campione con un numero di cluster selezionati casualmente. I cluster sono simili tra loro ma ciascuno contiene elementi con caratteristiche diverse.
Campionamento a Grappolo
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
46
8 122 7
Consiste nell’impiegare un campione scelto non casualmente ma attraverso un’auto-selezione. Ne sono esempi i sondaggi telefonici o persone che si sottopongono spontaneamente a indagini su argomenti di loro interesse.
Campionamento a Risposta Volontaria
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
47
Se i risultati di un campione non sono rappresentativi della popolazione, allora il campione contiene un errore.
L’errore di campionamento deriva dall’utilizzo di un sotto-gruppo della popolazione, che inevitabilmente fornisce informazioni incomplete relative alla popolazione. Pertanto, ogni campione possiede un errore.
Altre tipologie di errore sono invece legate alla raccolta dei dati, alla loro trascrizione non corretta, alla sotto-copertura, ai non rispondenti, alle risposte non date, alle risposte non veritiere o travisate, agli errori nella formulazione delle domande.
Errori nel Campionamento
4. Raccogliere i Dati: Svolgere un Campionamento
2 3 41
48
UNITÀ 5
Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
Consente di ottenere informazioni specifiche, appannaggio di pochi individui
IntervistaUtile per raccogliere grandi quantità di dati, di qualsiasi tipologia (qualitativi e quantitativi) e a costi contenuti
Questionario
Distaccata o partecipata, utile generalmente per l’analisi di un gruppo sociale (etnografia)
Osservazione Diretta
Sono utili per osservazioni brevi e specifiche che riguardano un determinato comportamento
Diari/Schede/Registri
È un’intervista di gruppo, un momento di confronto collettivo per un’analisi approfondita di un fenomeno
Focus Group
Esseri umani
Animali, Vegetali, Oggetti…
5. Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
50
Tecniche di Rilevazione
L’impiego del digitale per la raccolta dati consente di non sottostare a barriere spaziali, temporali e sociali.
Può rivelarsi utile per: • raccogliere grandi quantità di dati; • abbassare i costi; • favorire la spontaneità e l’apertura da parte dell’intervistato
(anonimato, tempo, privacy).
Non si rivela utile in quelle occasioni nelle quali è necessaria una comunicazione “completa” tra intervistato e intervistatore (empatia, comunicazione non verbale…).
5. Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
51
Tecniche Digitali di Rilevazione
Per la realizzazione di un questionario efficace è opportuno: • curare l’apparato grafico (l’ambiente) sulla base delle caratteristiche del campione; • predisporre le domande in sequenza logica, evitando salti radicali; • utilizzare domande comprensibili, semplici, non ambigue, non viziate; • porre le domande delicate in maniera indiretta • non abbondare con le domande; • proporre modalità di risposta esaustive e non sovrapposte; • utilizzare domande filtro e domande condizionate; • utilizzare il branching, cioè proporre percorsi che si adattano all’intervistato; • optare per il response piping, cioè la personalizzazione delle domande sulla base di risposte precedenti.
Il Questionario Digitale
5. Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
52
Tradizionale Chatbot
Simula una conversazione con un utente
all’interno della tipica interfaccia di una chat (con IA o ad albero)
Riproduce la metodologia cartacea
assicurando accessibilità e interattività grazie a elementi adattivi e personalizzati
Il Questionario Digitale
5. Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
53
Tradizionale Chatbot
Simula una conversazione con un utente
all’interno della tipica interfaccia di una chat (con IA o ad albero)
Riproduce la metodologia cartacea
assicurando accessibilità e interattività grazie a elementi adattivi e personalizzati
Il Questionario Digitale
5. Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
54
È uno degli strumenti più popolari per la creazione di questionari, sondaggi e quiz. Tra le funzionalità:
• diverse tipologie di quesiti; • branching; • personalizzazione grafica e aggiunta di
elementi multimediali; • ampia dashboard per l’analisi dei risultati
con esportazione dei dati in vari formati.
Nota: Durante la lezione abbiamo visto come utilizzare Google Forms, generalmente denominato Google Moduli; se incontri diffi coltà, contatta il docente.
link: https://docs.google.com/forms/
Google Forms
5. Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
55
link: https://landbot.io/
È uno degli strumenti più popolari per la creazione di chatbot da integrare su blog, siti web e app di messaggistica (Whatsapp e Facebook Messenger).
La realizzazione avviene all’interno di un’interfaccia drag-and-drop nella quale è possibile trascinare una serie di blocchi, ciascuno dei quali corrisponde a una tipologia di interazione (un messaggio, una domanda, una risposta…).
Landbot.io
5. Raccogliere i Dati: Tecniche di Rilevazione
2 3 41 5
56Nota: Durante la lezione abbiamo visto come utilizzare Landbot.io; se incontri diffi coltà, contatta il docente.
Sullivan III, M. (2011) Fondamenti di Statistica. Cap. 1: pp. 2-26, Pearson
Bibliografia