(12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia...
Transcript of (12 CFU) A.A 2015/2016 CdL Sociologia e Criminologia...
Statistica Sociale e Criminale
(12 CFU)
A.A. 2015/2016
CdL Sociologia e Criminologia
Simone Di Zio
Dove siamo…
MODULO 2. La Statistica descrittiva
2.1 La rilevazione del dato statistico
2.2 La rappresentazione dei dati statistici
2.3 Le misure di tendenza centrale
2.4 Le misure di variabilità
2.5 Le Misure delle relazioni tra variabili
La rappresentazione dei dati statistici
Tipologie di variabili
Variabile (o carattere) caratteristica che viene rilevata su ciascuna unità statistica.
Ogni variabile si manifesta su ogni unità statistica con una determinata modalità.
Vediamo come si possono classificare le variabili ai fini di un’indagine statistica.
Un metodo si basa sul tipo di operazioni che su di esse si possono effettuare.
: non tutte le elaborazioni si possono fare indistintamente per tutte le variabili.
Ci sono metodi di elaborazione specifici adatti ad ogni tipologia di variabile.
Per ogni variabile è FONDAMENTALE individuarne correttamente la tipologia, al
fine di procedere correttamente alle elaborazioni ed interpretazione dei risultati.
Classificazione Variabili
Tipo di variabile Caratteristiche tipiche
dei valori
Procedura di
operativizzazione
Operazioni
consentite
Nominale Nomi Classificazione =
Ordinale Nomi o numeri ordinali Ordinamento = > <
Intervalli e Rapporti Numeri cardinali Misurazione = > < +
VARIABILI
Nominali Ordinali Intervalli e
di Rapporti
Contenuto Informativo
Variabili nominali Operazione di classificazione: raggruppare gli elementi di un insieme secondo una
variabile, stabilendo quali fra loro sono simili, cioè posseggono la stessa caratteristica.
Il risultato è un certo numero di sottogruppi, o classi, all’interno dei quali i soggetti
posseggono tutti la medesima caratteristica o, più esattamente, la stessa modalità
della variabile.
Requisiti di una procedura di classificazione:
1. Le classi sono esaurienti, ovvero devono includere tutti i casi possibili;
2. Le classi non si sovrappongono, cioè non deve esistere nessun caso che
appartenga a due diverse classi.
La classificazione avviene
sulla base di una variabile
Le classi sono le
modalità della variabile
GENERE
M
F
La classificazione è il più basso livello di misurazione e si parla di scala nominale.
Data un’operazione di classificazione, l’insieme delle classi che ne derivano si chiama
scala nominale.
Operazioni consentite fra gli elementi di una scala nominale
Possiamo dire se due elementi (A e B) appartengono alla stessa classe oppure no.
Se sì si dice che A e B sono equivalenti rispetto alla variabile di classificazione.
ESEMPIO
Colore dei capelli, secondo le seguenti classi: “biondi”, “castani”, “neri”, “rossi”
(Antonio, Beatrice) - capelli biondi
(Carlo, Damiano, Emma) - capelli castani
(Franco, Gaia) - capelli neri
Una variabile le cui modalità possono soltanto essere classificate
viene detta VARIABILE NOMINALE o variabile misurata su scala nominale.
Una scala nominale non consente di fare un ordinamento di importanza fra gli
elementi. Due elementi a confronto possono essere solo simili o diversi. (non possiamo mai affermare che i capelli di Beatrice sono “migliori” o “più belli” di quelli di
Emma).
CODIFICA
Per comodità si possono assegnare dei codici numerici alle classi.
Esempio
1 - “biondi”
2 - “castani”
3 - “neri”
4 - “rossi”
Questi non sono numeri che si possono sommare o dividere.
La codifica di locuzioni qualitative non ci autorizza ad eseguire operazioni
aritmetiche.
Le uniche operazioni che si possono effettuare sulle modalità assunte dalle variabili
nominali sono “essere equivalente” o “essere diverso”. In simboli: =, .
Variabili ordinali Nel classificare un insieme di oggetti, quando è possibile stabilire se una unità
possiede la variabile analizzata in misura “maggiore” o “minore” rispetto ad un’altra,
siamo in presenza di una scala ordinale.
Esempio, in una gerarchia militare è possibile stabilire che il “caporale” è più alto in
grado rispetto al “soldato semplice”, o che il “generale” è il grado più alto di tutti
Non è possibile misurare di quanto un grado sia più alto (o più basso) di un altro.
Questo livello di misura comprende le possibilità di analisi insite nel livello di scala
precedente, cioè nella scala nominale.
Nelle scale ordinali possiamo fare operazioni di equivalenza, ma in più possiamo dire
se una unità è “maggiore di” o “minore di”.
ESEMPIO
Antonio, Beatrice Licenza elementare
Carlo Diploma
Damiano Dottorato di ricerca
A e B sono equivalenti
B è minore di C
C è minore di D
ATTENZIONE
Non si può in nessun modo quantificare la distanza fra B e C o la distanza fra C e D.
CODIFICA
Anche in questo tipo di scala possiamo usare numeri per la codifica. Questi non
consentono le operazioni algebriche di somma, sottrazione, ecc.
Si tratta infatti di numeri ordinali, da non confondere con i numeri cardinali (che
invece si possono sommare, dividere ecc.).
Esempio: “l’anno di corso universitario” è una variabile che si misura su scala
ordinale, le cui modalità sono: “I anno”, “II anno”, “III anno”, e così via.
Possiamo anche indicare gli anni di corso con i numeri 1, 2, 3 ma in tal caso non ci è
consentito fare operazioni algebriche su di essi.
Se Mario e Anna si trovano all’anno di corso “1” e Giulia all’anno “3”, possiamo dire
che Giulia si trova più avanti nel corso di studi rispetto a Mario e Anna, mentre questi
due si trovano allo stesso anno di corso.
Certo non possiamo sommare i due numeri: 1+3=4 che significa?
Le operazioni consentite su una scala ordinale sono: =, , >, <
.
Come si definisce l’ordinamento
G
Prima modalità stabilita in
modo naturale
Scala ordinale
RETTILINEA
Prima modalità stabilita per
convenzione
Scala ordinale
CICLICA
Anno di corso universitario,
gradi gerarchia militare, titolo
di studio
Giorni della settimana,
direzione del vento.
Una variabile le cui modalità possono essere classificate e ordinate viene detta
VARIABILE ORDINALE o variabile misurata su scala orinale.
Variabili a intervalli e di rapporti Se possiamo classificare e ordinare le unità statistiche ma anche calcolare l’esatta
distanza fra di esse, siamo in presenza di una scala a intervalli.
Serve una unità di misura che restituisce gli stessi risultati ogni volta che viene usata
e indipendentemente da chi fa la misurazione. (Lunghezza, peso, temperatura, velocità…)
Esempio, la statura.
170
Una variabile le cui modalità possono essere classificate, ordinate, sommate,
moltiplicate e divise, viene detta VARIABILE A INTERVALLI, o variabile
misurata su scala a intervalli.
Non solo possiamo dire che Antonio è più
alto di Beatrice (come accadeva per le scale
ordinali) ma possiamo affermare con
precisione che è più alto di 15 cm.
Operazione di sottrazione:
𝟏𝟖𝟓 − 𝟏𝟕𝟎 = 𝟏𝟓 Antonio 185cm
Beatrice
170 cm
170
185 15
I numeri delle scale a intervalli sono detti numeri cardinali.
Le operazioni possibili in una scala a intervalli sono: =, , >, <, +, , ,
Intervalli e rapporti
Che differenza c’è fra la variabile “statura” e la variabile “temperatura”?
La statura si può misurare in metri o piedi
La temperatura si può misurare in gradi Centigradi o Fahrenheit.
Per la statura vi è un punto zero non arbitrario, che ha lo stesso significato sia in
metri che in piedi (assenza del fenomeno misurato).
Per la temperatura il punto zero è arbitrario. Lo zero della scala Centigradi non ha
un corrispondente con lo zero della scala Fahrenheit.
Gli zeri delle due scale non significano assenza del fenomeno temperatura.
STATURA TEMPERATURA
Un soggetto alto due metri rispetto a
uno alto un metro ha una statura
doppia.
Quindi possiamo calcolare il rapporto
fra le due stature, ovvero 2/1=2.
Questo rimane vero anche se
misuriamo la statura in piedi:
1 metro = 3.28 piedi
2 metri = 6.56 piedi
per cui il rapporto rimane sempre lo
stesso, infatti 6.563.28=2.
L’uomo più alto è sempre il doppio di
quello piccolo, sia se lo misuriamo in
metri che in piedi.
Non possiamo dire che una
temperatura di 20° è doppia rispetto
a 10°.
Esempio:
20°C = 68°F
10°C = 50°F
Quindi 20 è il doppio di 10
ma 68 non è il doppio di 50.
Una temperatura doppia nella scala
centigradi non rimane doppia in quella
Fahrenheit, e questo significa che
non possiamo mai affermare che una
temperatura è il doppio di un’altra.
STATURA TEMPERATURA
SCALE DI RAPPORTI SCALE A INTERVALLI
È il livello di misurazione più alto e si
ha quando è possibile individuare uno
zero assoluto o non arbitrario che
indica assenza del fenomeno.
Quando non è possibile avere uno
zero assoluto che indica assenza del
fenomeno.
Le operazioni che si possono fare su una scala nominale si possono fare anche
nella scala ordinale e a intervalli.
Le operazioni che si possono fare su una scala ordinale non sono possibili su una
scala nominale ma sono possibili su una scala a intervalli.
Le operazioni tipiche di una scala a intervalli o di rapporti non sono applicabili
alle scale nominali e ordinali.
Tipo di
variabile
Caratteristiche tipiche
dei valori
Procedura di
operativizzazione
Operazioni
consentite
Nominale Nomi Classificazione =
Ordinale Nomi o numeri ordinali Ordinamento = > <
Intervalli e
Rapporti
Numeri cardinali Misurazione = > < +
Classificazioni alternative delle variabili
Le variabili su scala a intervalli o di rapporti sono anche dette variabili
quantitative;
Le variabili su scale nominali e ordinali sono anche dette variabili qualitative.
Più esattamente le variabili nominali = variabili qualitative sconnesse e le
variabili ordinali = variabili qualitative ordinate.
A) Variabili quantitative discrete, quando fra due modalità consecutive non ve
ne sono altre. : . Le modalità di
questa variabile possono essere 1, 2, 3, …, (sono i numeri naturali). 3.2 o 5.7
non possono essere modalità di questa variabile.
B) Variabili quantitative continue, quando fra due distinte modalità esiste un
continuo, con infinite modalità intermedie. : .
Una persona può pesare 72 kg, ma con una bilancia più precisa potremmo avere
72.4 kg. Uno strumento ancora più preciso potrebbe darci 72.42, e il
ragionamento potrebbe teoricamente continuare fino all’infinito. Il peso è una
variabile quantitativa che può assumere qualunque valore all’interno di un
intervallo (nel nostro esempio fra 72 e 73 chilogrammi).
Le diverse classificazioni delle variabili
Classificazione
anglosassone
Classificazione
alternativa
Sottocategorie ESEMPI
Variabili
Nominali
Variabili qualitative
sconnesse
Colore degli occhi;
Religione
Variabili
Ordinali
Variabili qualitative
ordinate
Rettilinee Anno di corso;
Titolo di studio
Cicliche Giorno della settimana;
Segno dello zodiaco
Variabili a
Intervalli o di
rapporti
Variabili
quantitative
Discrete Numero comp. famiglia;
Numero di figli
Continue Peso;
Statura
Le scale Nell’ambito di un’indagine statistica, su ciascuna unità statistica (ad esempio
l’individuo) si andranno a rilevare una serie di variabili (per esempio genere, età,
peso, statura, titolo di studio ecc.).
Ogni variabile presenta un determinato numero di modalità (per il genere “maschio”
e “femmina”, per l’età avremo un numero corrispondente agli anni).
La rilevazione della modalità di una variabile assunta da un individuo presuppone una
operazione di misurazione che può avvenire tramite il questionario.
Per misurazione si intende il procedimento che si usa nelle scienze esatte.
Per misurare il peso di un oggetto si usa la bilancia.
Per misurare la lunghezza si usa il metro.
Dato uno strumento di misura, le procedure di misurazione sono standardizzate e
in tutto il mondo sono eseguite sempre allo stesso modo.
Nelle scienze umane, invece, la misurazione non è sempre agevole e chiara. Come si
può ad esempio misurare l’ansia, l’altruismo, oppure il dolore?
La misurazione nelle scienze sociali
La statistica affronta il problema ricorrendo alla tecnica delle scale, o scaling.
Il concetto è il mezzo attraverso il quale l’uomo conosce e comprende il mondo che
lo circonda
Ad esempio è un concetto complesso, per il quale è difficile dare una
definizione operativa. A tal fine si ricorre a degli indicatori.
Gli indicatori sono concetti più semplici, detti anche concetti specifici, più facilmente
osservabili.
Ad esempio un potrebbe essere “fare prepotenze ai compagni
di scuola”.
Un concetto è espresso da più indicatori ma, allo stesso tempo, un indicatore dipende
solo parzialmente dal concetto cui si riferisce, perché spesso è legato anche ad altri
concetti.
Il concetto di non si può misurare solo con l’indicatore delle prepotenze e,
allo stesso tempo, il fare prepotenze non è un indicatore esclusivo del bullismo ma può
dipendere anche da altri concetti, come ad esempio il “disagio giovanile”.
Per rilevare operativamente un concetto complesso bisogna ricorrere a più indicatori.
Per organizzare coerentemente un insieme di indicatori si ricorre alla tecnica delle
scale (scaling).
Una scala è un gruppo di elementi, detti items, che sono indicatori di un concetto
generale.
Il concetto sottostante una scala è anche detto variabile latente.
Un item rappresenta una singola domanda mentre la scala è l’intera batteria di
domande volta a misurare una variabile latente.
Quindi, con il termine scala si intende il processo di rilevazione di una proprietà
latente, non direttamente osservabile, relativa alle unità statistiche oggetto di analisi.
La variabile latente è una variabile quantitativa continua
Gli items in genere sono variabili ordinali.
Un item potrebbe essere:
Picchiare chi è più debole è giusto
modalità di risposta
non d’accordo
parzialmente d’accordo
completamente d’accordo.
Di conseguenza, i punteggi delle scale non hanno il significato pieno di numero
cardinale, perché vi è sempre un forte grado di soggettività nella loro attribuzione.
Tuttavia, tecnicamente i punteggi delle scale possono essere trattati come se fossero
numeri cardinali, cioè possono essere sommati, divisi ecc.
Per questo motivo si usa dire che le variabili derivanti dalle scale sono variabili quasi-
cardinali.
Alcune tecniche di scale
Serie di affermazioni (items) legate al concetto da misurare.
L’intervistato è chiamato a esprimere il suo grado di accordo o disaccordo scegliendo
fra cinque o sette modalità di risposta.
Ad esempio con cinque modalità di risposta si ha: 1. completamente d’accordo
2. d’accordo
3. incerto
4. in disaccordo
5. in completo disaccordo
Ad ognuna di queste modalità viene attribuito un punteggio decrescente, del tipo 5, 4,
3, 2, 1 e la somma dei punteggi di ogni rispondente su tutta la batteria di domande
rappresenta la posizione di quell’individuo rispetto al concetto sottostante.
Serie di domande con difficoltà crescente.
Chi ha risposto affermativamente ad una qualunque domanda deve aver risposto sì
anche a tutte quelle precedenti. Quindi, una sequenza di gradini (ecco perché
scalogramma)
Il punteggio di un soggetto si calcola attribuendo valore 1 alle risposte affermative e
0 a quelle negative, per poi sommare tutti i valori pari a 1.
Consiglieresti il tuo medico a: Sì No
Un conoscente
Un vicino di casa
Un amico
Un parente stretto
Una sequenza 1110 significa che chi è disposto a consigliare il proprio medico ad un
amico lo farebbe anche per un vicino di casa o un conoscente (in questo caso il
punteggio totale è 3).
L’obiettivo è rilevare il significato che i concetti assumono per gli individui
Associazioni che gli individui instaurano fra il concetto analizzato e altri concetti
proposti in maniera standardizzata, cioè allo stesso modo per tutti gli intervistati.
Ad esempio, invece di chiedere “cosa significa per lei il termine razzismo”, si pone
una batteria di coppie di aggettivi contrapposti, detti bipolari, preceduti da un’unica
domanda, come nello schema seguente:
Per lei il razzismo è:
1 2 3 4 5 6 7 Duro Soffice
Veloce Lento
Gradevole Sgradevole
Allegro Triste
Giusto Ingiusto
Opportuno Inopportuno
L’intervistato deve rispondere segnando con una croce la casella più vicina
all’aggettivo che meglio esprime, secondo il suo atteggiamento, il concetto richiesto.
Scala per misurare un certo atteggiamento tramite un insieme di frasi semanticamente
autonome.
L’atteggiamento viene rilevato in base alle posizioni espresse dagli intervistati su
questo insieme di affermazioni.
La scala è composta da 11 frasi e la caratteristica è che queste sono selezionate da un
insieme di 150 frasi che vengono date in valutazione e dei “giudici”.
LE DISTRIBUZIONI STATISTICHE Distribuzioni unitarie – variabile - modalità - frequenza
Siamo nella fase di registrazione dei dati.
Una volta rilevato 𝑝 variabili sul collettivo tramite un questionario, i dati sono
organizzati in una tabella chiamata matrice dei dati
Se il collettivo su cui la rilevazione è fatta si compone di 𝑁 unità statistiche, la tabella
dei dati avrà N righe e p colonne, ed è pertanto indicata come matrice 𝑁𝑝.
Un esempio di matrice dei dati 𝑵𝒑 𝑽𝟏 𝑽𝟐 𝑽𝟑 𝑽𝟒 … 𝑽𝒋 … 𝑽𝒑
Id. Nome Genere Età Occhi … … … Fuma
1 Alex M 15 Neri … … … Sì
2 Alessia F 12 Marroni … … … No
3 Andrea M 20 Marroni … … … No
4 Angelo M 30 Azzurri … … … Sì
5 Carmine M 35 Marroni … … … Sì
… … … … … … … … …
… … … … … … … … …
N Mauro M 59 Marroni … … … No
Distribuzione unitaria Analizziamo una generica colonna della matrice dei dati, che indichiamo con j.
Ogni unità statistica ha una e una sola modalità della variabile.
Nel linguaggio tecnico della statistica questa colonna costituisce la distribuzione
unitaria della variabile j-esima.
: su N=15 individui è stata rilevata la
variabile colore degli occhi, con 6 modalità.
neri, marroni, castani, verdi, grigi e azzurri.
I dati si organizzano in una tabella come questa
Si noti che ogni unità statistica possiede una sola
modalità della variabile ma ci sono due modalità che
non sono state rilevate (“castani” e “grigi”).
È molto importante individuare la relativa scala di misurazione:
in questo caso “colore degli occhi” è una variabile nominale
Questa tabella è tecnicamente una distribuzione unitaria semplice.
Distribuzione perché la tabella mostra come le modalità della variabile osservata
si distribuiscono fra le unità del collettivo.
Unitaria perché viene indicata espressamente ogni unità statistica
Semplice, fa riferimento al fatto che si tratta di una sola variabile. Se si prendono
in considerazione due variabili si parlerà di distribuzione unitaria doppia (o
bivariata), con tre variabili distribuzione unitaria tripla, ecc.
La distribuzione unitaria semplice di una variabile è l’elencazione delle
modalità osservate su ogni unità statistica nel collettivo esaminato.
Se l’elencazione si riferisce a due o più variabili si parla di distribuzione unitaria
multipla.
Simbologia
Indichiamo con 𝑋 la generica variabile della matrice dei dati e con
le lettere minuscole le modalità rilevate sulle unità statistiche.
𝑥1 è la modalità della variabile 𝑋 rilevata sull’unità statistica 1
𝑥2 è la modalità della variabile 𝑋 rilevata sull’unità statistica 2
….
ecc.
Se estrapoliamo dalla matrice dei dati due colonne, ovvero due variabili, si ha una
distribuzione unitaria doppia
Se aggiungiamo ancora una variabile, ad esempio il titolo di studio, avremo una
distribuzione unitaria tripla.
Distribuzione unitaria tripla
𝑽𝟏 𝑽𝟐 𝑽𝟑
Id Nome Colore occhi età titolo di studio
1 Alessandro Neri 15 Licenza media
2 Alessia Marroni 12 Licenza elementare
3 Andrea Marroni 20 Diploma
4 Angelo Azzurri 30 Laurea
5 Carmine Marroni 35 Licenza media
6 Daniele Neri 40 Diploma
7 Dario Marroni 20 Laurea
8 Donatello Azzurri 22 Laurea
9 Eros Marroni 24 Laurea
10 Federica Neri 60 Diploma
11 Francesca Marroni 65 Licenza media
12 Ivan Azzurri 40 Diploma
13 Luca Verdi 35 Diploma
14 Mattia Neri 38 Diploma
15 Mauro Marroni 59 Licenza media
Quando le variabili sono più di due non si usa il termine distribuzione ma matrice dei dati.
Identificazione del tipo di variabili variabile nominale (o qualitativa sconnessa)
variabile a intervalli (o quantitativa continua)
variabile ordinale (o qualitativa ordinata)
FREQUENZA
L’operazione di può essere effettuata su tutti i tipi di variabile. Si tratta
di verificare se due unità statistiche sono uguali o no, rispetto a una variabile.
Determinate le uguaglianze sulle 𝑁 unità del collettivo, queste si possono organizzare
in sottogruppi, che vengono detti .
Ogni classe accoglie tutte le unità con la stessa modalità di una variabile.
: distribuzione unitaria semplice del colore degli occhi.
NB: la tabella ha un numero di righe pari al numero delle modalità, cioè
6. Inoltre ci sono due classi vuote perché nel collettivo nessuna unità
presenta tali modalità.
Dalla distribuzione unitaria alla distribuzione di frequenze
Adesso facciamo una semplice operazione di , cioè contiamo quante unità
statistiche ci sono in ogni classe.
La somma di questi valori corrisponde alla numerosità del collettivo:
4 + 7 + 1 + 3 = 15.
Il numero di unità che appartengono a una classe, ovvero il numero di individui che
posseggono una data modalità della variabile, prende il nome di frequenza assoluta.
4
7
0
1
0
3
La Frequenza Assoluta Il termine ha lo stesso significato che ha nel linguaggio comune: il numero
di volte che un fatto si ripete.
Il termine è una specifica per distinguere questo tipo di frequenza da altri tipi
(come la frequenza relativa o percentuale) che vedremo più avanti.
Quindi la frequenza assoluta di una modalità di una variabile è il numero delle volte
che quella modalità è osservata nel collettivo.
I valori delle modalità della
variabile affiancati alle
frequenze assolute
costituiscono una tabella
chiamata distribuzione di
frequenze assolute.
Distribuzione di frequenze assolute
Variabile
Colore degli
occhi
Frequenza
Assoluta
Neri 4
Marroni 7
Castani 0
Verdi 1
Grigi 0
Azzurri 3
Totale 15
Simbologia
: 𝑋
: 𝑥𝑖
: 𝑛𝑖
Generica distribuzione
di frequenze assolute
𝑋 ni
𝑥1 𝑛1
𝑥2 𝑛2 … …
𝑥𝑖 𝑛𝑖 … …
𝑥𝑘 𝑛𝑘
Totale 𝑁
Si noti che l’ultima modalità è indiata con 𝑥𝑘 da non
confondere con la distribuzione unitaria, dove si ha 𝒙𝑵.
Colore degli
occhi
Frequenza
Assoluta
Neri 4
Marroni 7
Castani 0
Verdi 1
Grigi 0
Azzurri 3
Totale 15
𝐼𝑑 𝑋
1 𝑥1
2 𝑥2 3 𝑥2
… …
𝑖 𝑥𝑖 … …
… …
𝑁 𝑥𝑁
𝑋 ni
𝑥1 𝑛1 … …
𝑥𝑖 𝑛𝑖 … …
𝑥𝑘 𝑛𝑘
Totale 𝑁
𝑖 = 1,… ,𝑁
𝑖 = 1, … , 𝑘
La assolute altro non è che la
In simboli si ha la seguente identità:
𝑛1 + 𝑛2 +⋯+ 𝑛𝑘 =∑𝑛𝑖
𝑘
𝑖=1
= 𝑁
Una distribuzione di frequenze assolute è una
, in cui le diverse modalità
di una variabile si distribuiscono nelle unità
statistiche che compongono il collettivo oggetto di
studio.
Include 𝒌 coppie di valori di cui il primo elemento
indica la modalità della variabile e il secondo indica
il numero di unità su cui quella modalità è stata
osservata (la frequenza assoluta).
Il caso di due variabili
La consiste nel formare una classe per ogni coppia di modalità delle
due variabili.
Il numero delle possibili classi è dato dal prodotto del numero delle modalità delle due
variabili.
Se la prima variabile ha 3 modalità e la seconda 5 si possono formare 15 classi.
: prendiamo in considerazione le due variabili
X = “colore degli occhi” con 6 modalità
Y = “titolo di studio” con 4 modalità
abbiamo 24 classi
Partendo dalla matrice dei dati si tratta di inserire nella stessa classe le persone che
hanno lo stesso colore degli occhi e lo stesso titolo di studio.
Il risultato si inserisce in una tabella a doppia entrata
All’interno di ogni cella ci sono le secondo le due variabili considerate
𝑋
𝑌 Titolo di studio
Lic. Elem. Lic. Media Diploma Laurea
Colo
re d
egli
occ
hi Neri Alessandro
Mattia, Daniele,
Federica
Marroni Alessia
Carmine, Mauro,
Francesca Andrea Dario, Eros
Castani
Verdi Luca
Grigi
Azzurri Ivan
Donatello,
Angelo
La suddivisione in classi per gruppi di tre o più variabili è più difficile da
rappresentare ma segue la stessa logica, ovvero il raggruppamento di unità che
presentano la stessa combinazione di modalità su tutte le variabili considerate.
Distribuzione doppia di frequenze assolute
Per una variabile:
Per due variabili: .
𝑋
𝑌 Titolo di studio
Lic.
Elem.
Lic.
Media Diploma Laurea
Tot.
riga
Colo
re d
egli
occ
hi
Neri 0 1 3 0 4
Marroni 1 3 1 2 7
Castani 0 0 0 0 0
Verdi 0 0 1 0 1
Grigi 0 0 0 0 0
Azzurri 0 0 1 2 3
Tot. colonna 1 4 6 4 15
DISTRIBUZIONI MARGINALI
Se si uniscono prima colonna e totali di riga si ha la
distribuzione semplice di frequenze rispetto a X.
Se si uniscono prima riga e totali di colonna si ha la
distribuzione semplice di frequenze rispetto a Y.
𝑁 totale delle
frequenze
Frequenza
Marginale
di riga
Frequenza Marginale
di colonna
Frequenza
Congiunta
Distrib. Marginale
di X
Distrib. Marginale
di Y
DISTRIBUZIONI CONDIZIONATE
Se consideriamo una riga o
una colonna interne alla
tabella abbiamo una
distribuzione condizionata
Da una distribuzione doppia di frequenza si possono ricavare:
due distribuzioni marginali
un numero di distribuzioni condizionate pari alla somma del numero di modalità
delle due variabili. (Nel nostro esempio: 6 + 4 = 10 distribuzioni condizionate).
Frequenza Congiunta 𝑛𝑖𝑗.
Frequenza Marginale di riga 𝑛𝑖° Frequenza Marginale di colonna 𝑛°𝑗
Totale Generale 𝑵
𝑦1 𝑦2 … 𝑦𝑗 … 𝑦𝑚 Marginali di riga
𝑥1 𝑛11 𝑛12 … 𝑛1𝑗 … 𝑛1𝑚 𝑛1°
𝑥2 𝑛21 𝑛22 … 𝑛2𝑗 … 𝑛2𝑚 𝑛2° … … … … … … … …
𝑥𝑖 𝑛𝑖1 𝑛𝑖2 … 𝑛𝑖𝑗 … 𝑛𝑖𝑚 𝑛𝑖° … … … … … … … …
𝑥𝑘 𝑛𝑘1 𝑛𝑘2 … 𝑛𝑘𝑗 … 𝑛𝑘𝑚 𝑛𝑘° Marginali
di colonna 𝑛°1 𝑛°2 … 𝑛°𝑗 … 𝑛°𝑚 𝑁
Identità
Marginale di
riga 𝑛𝑖1 + 𝑛𝑖2 +⋯+ 𝑛𝑖𝑚 =∑𝑛𝑖𝑗 = 𝑛𝑖°
𝑚
𝑗=1
Somma delle frequenze della riga i-esima
Marginale di
colonna 𝑛1𝑗 + 𝑛2𝑗 +⋯+ 𝑛𝑘𝑗 =∑𝑛𝑖𝑗 = 𝑛°𝑗
𝑘
𝑖=1
Somma delle frequenze della colonna j-esima
Totale generale 𝑛11 + 𝑛12 +⋯+ 𝑛𝑘𝑚 =∑∑𝑛𝑖𝑗 = 𝑁
𝑚
𝑗=1
𝑘
𝑖=1
Somma di tutte le frequenze
: Spesa media mensile familiare per categoria di consumo e numero di componenti – Anno 2007
CATEGORIE DI CONSUMO
Numero componenti della famiglia
1
2
3
4
5 e +
Pane e cereali 49,69 73,10 92,89 107,23 121,92
Carne 62,67 103,08 122,51 140,14 163,01
Pesce 24,81 41,37 47,91 56,24 60,84
Latte, formaggi e uova 40,46 60,31 72,55 81,99 94,83
Oli e grassi 12,79 18,47 19,65 19,84 23,57
Patate, frutta e ortaggi 58,93 84,59 93,37 101,34 112,15
Zucchero, caffè e drogheria 23,15 31,99 37,58 41,40 46,81
Bevande 27,71 42,18 50,44 53,80 57,35
Alimentari e bevande 300,22 455,10 536,90 601,98 680,48
Tabacchi 12,26 19,33 26,97 29,32 33,96
Abbigliamento e calzature 80,24 128,53 196,21 245,55 245,53
Abitazione 570,76 707,06 707,04 702,70 645,63
Combustibili ed energia 87,41 115,52 130,27 134,87 146,46
Mobili, elettrod. e servizi 81,96 144,40 171,73 186,05 191,35 Fonte: ISTAT, indagine sui consumi delle famiglie residenti in Italia, anno 2007
Serie storiche Serie: classificazione delle osservazioni di un fenomeno rispetto ad un carattere
qualitativo.
Un particolare tipo di variabile qualitativa ordinale è il tempo
(le modalità possono essere gli anni, i mesi, i giorni o altre suddivisioni temporali).
La relativa distribuzione di frequenze prende il nome specifico di serie storica o serie
temporale.
Popolazione residente in Italia anni 1998-2008
ANNI Popolazione
a inizio anno
1998 56904379
1999 56909109
2000 56923524
2001 56960692
2002 56994000
2003 57321000
2004 57888000
2005 58462000
2006 58751711
2007 59131287
2008 59619290 Fonte: ISTAT
Rappresentazione grafica della serie storica
55500000
56000000
56500000
57000000
57500000
58000000
58500000
59000000
59500000
60000000
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Popolazione residente in Italia; anni 1998-2008
Serie geografiche Le variabili nominali sono qualitative sconnesse. Non è possibile ordinare le modalità.
Una importante tipologia di variabile nominale è quella territoriale.
Le modalità della variabile sono dei luoghi geografici (i comuni, le province, le regioni, le
nazioni o altre ripartizioni geografiche.)
La relativa distribuzione di frequenze prende il nome specifico di serie territoriale o
serie geografica. Popolazione residente in famiglia e numero di
famiglie, per regione - Anno 2008
REGIONI
Popolazione
residente in
famiglia
Numero di
famiglie
Piemonte 4399040 1983902
Valle d'Aosta 126137 59053
Lombardia 9691943 4203176
Trentino AA 1008964 420018
… … …
… … …
Sicilia 5019500 1968412
Sardegna 1664560 672526
Italia 60730890 25061218
Nati vivi per i grandi comuni - Anno 2008
Grandi
Comuni Nati vivi
Torino 8538
Milano 12583
Verona 2343
Venezia 2047
Genova 4777
Bologna 3009
Firenze 3223
Roma 27603
Napoli 9697
Bari 2791
Palermo 6989
Catania 3072
Totale 86672
Distribuzione di una variabile con modalità divise in classi
Un discorso a parte meritano le distribuzioni con modalità suddivise in classi.
Variabile quantitativa continua o quantitativa discreta con molte modalità
È impossibile prendere tutte le modalità oppure si rischia di avere troppi valori.
L’accorgimento è il raggruppamento delle modalità in classi di valori adiacenti.
: “statura” non è possibile riportare tutte le modalità della variabile, perché
sono infinite. È necessario allora costruire delle classi di valori
Statura Frequenze
da 130 a 150 1938
da 150 a 160 2609
da 160 a 165 1162
da 165 a 170 1195
da 170 a 190 468
da 190 a 230 219
Totale 7591
il primo valore di una classe è detto estremo inferiore
il secondo valore di una classe è detto estremo superiore
La differenza fra questi due valori si chiama ampiezza della classe
Statura Frequenze Ampiezza
della classe
Valore
centrale
𝑿 𝒏𝒊 𝒅𝒊 𝐜𝐢′
130 ⊢ 150 1938 20 140
150 ⊢ 160 2609 10 155
160 ⊢ 165 1162 5 162,5
165 ⊢ 170 1195 5 167,5
170 ⊢ 190 468 20 180
190 ⊢ 230 219 40 210 Totale 7591
Inclusione o meno degli estremi nella classe
Classi chiuse a sinistra: (70 ⊢ 75) ; (75 ⊢ 80) 75 va inserito nella seconda classe.
Classi chiuse a destra: (70 ⊣ 75) ; (75 ⊣ 80) 75 va inserito nella prima classe
Classi chiuse: (70 ⊢⊣ 75) ; (76 ⊢⊣ 80) 75 va inserito nella prima classe
𝐜𝐢′ =
ci−1 + ci2
è il valore che nei
calcoli andrà
utilizzato al posto di
𝑥𝑖, perché
rappresentativo della
classe.
Frequenze assolute e frequenze relative
Problema del confronto fra gruppi di unità statistiche.
: due classi di studenti sulla base dei voti
Corso A Corso B
voto in
statistica Frequenze
Assolute
Frequenze
Assolute
18 0 0
19 1 0
20 2 1
21 3 2
22 6 3
24 9 7
26 4 2
27 2 2
28 1 2
30 0 0
Totale 28 19
Prima di fare qualunque confronto, dobbiamo fare in modo che i due collettivi abbiano
la stessa numerosità senza però cambiare i dati.
Frequenze relative: dividere ogni frequenza assoluta per il corrispondente totale.
Ciò equivale a calcolare una frequenza rispetto ad un totale pari a 1.
Corso A Corso B
voto in
statistica Frequenze
Assolute
Frequenze
Assolute
18 0 0
19 1 0
20 2 1
21 3 2
22 6 3
24 9 7
26 4 2
27 2 2
28 1 2
30 0 0
Totale 28 19
Corso A Corso B
voto in
statistica
Frequenze Relative
Frequenze Relative
18 0.00 0.00
19 0.04 0.00
20 0.07 0.05
21 0.11 0.11
22 0.21 0.16
24 0.32 0.37
26 0.14 0.11
27 0.07 0.11
28 0.04 0.11
30 0.00 0.00
Totale 1.00 1.00
Simbologia
La i-esima frequenza relativa si indica con 𝑓𝑖
𝑓𝑖 =𝑛𝑖
𝑁 per 𝑖 = 1,… , 𝑘
Vale la seguente identità:
𝑓1+𝑓2 +⋯+ 𝑓𝑘 =∑𝑓𝑖
𝑘
𝑖=1
= 1
Frequenze percentuali
Spesso è più agevole capire il significato di un valore come 34% piuttosto che 0.34.
Si ricorre perciò alle frequenze percentuali, moltiplicando quelle relative per 100.
Frequenze
Relative
Frequenze
Percentuali
Titolo di studio Gruppo
A
Gruppo
B Titolo di studio Gruppo
A
Gruppo
B
Licenza elementare 0.06 0.03 Licenza elementare 6% 3%
Licenza media 0.19 0.27 Licenza media 19% 27%
Diploma 0.56 0.50 Diploma 56% 50%
Laurea 0.20 0.20 Laurea 20% 20%
totali 1.00 1.00 totali 100% 100%
Simbologia
La i-esima frequenza percentuale si indica con 𝑝𝑖
𝑝𝑖 =𝑛𝑖
𝑁× 100 = 𝑓𝑖 × 100 per 𝑖 = 1,… , 𝑘
Vale la seguente identità:
𝑝1+𝑝2 +⋯+ 𝑝𝑘 =∑𝑝𝑖
𝑘
𝑖=1
= 100
Freq.
Assolute
Freq.
Percentuali
𝑋 𝑛𝑖 𝑝𝑖 𝑥1 𝑛1 𝑝1 = 𝑛1 𝑁⁄ × 100
𝑥2 𝑛2 𝑝2 = 𝑛2 𝑁⁄ × 100 … … …
𝑥𝑖 𝑛𝑖 𝑝𝑖 = 𝑛𝑖 𝑁⁄ × 100 … … …
𝑥𝑘 𝑛𝑘 𝑝𝑘 = 𝑛𝑘 𝑁⁄ × 100
Totale 𝑵 100
Frequenze cumulate Quante unità statistiche posseggono le modalità che si trovano al di sotto di un
determinato valore della distribuzione.
Frequenza cumulata.
Titolo di studio
Frequenze
Assolute
Frequenze
Cumulate
Licenza elementare 5 5
Licenza media 17 22
Diploma 50 72
Laurea 18 90
totali 90
Quante persone posseggono un titolo inferiore o uguale alla licenza media?
La prima frequenza cumulata corrisponde alla frequenza assoluta
L’ultima frequenza cumulata è sempre pari al totale delle frequenze.
Ordinamento delle modalità e Simbologia
Per calcolare le frequenze cumulate bisogna avere le modalità ordinate.
Ha senso calcolare le frequenze cumulate solo se la variabile è misurata su scala
ordinale o a intervalli (no per le scale nominali)
La i-esima frequenza cumulata è data da:
𝑁𝑖 = 𝑛1 + 𝑛2 +⋯+ 𝑛𝑖
Frequenze relative cumulate 𝐹𝑖
𝐹𝑖 = 𝑓1 + 𝑓2 +⋯+ 𝑓𝑖 oppure 𝐹𝑖 =𝑁𝑖
𝑁
Frequenze percentuali cumulate 𝑃𝑖
𝑃𝑖 = 𝑝1 + 𝑝2 +⋯+ 𝑝𝑖 oppure 𝑃𝑖 = 100 ×𝑁𝑖
𝑁
Titolo di studio
Freq.
Assolute
Freq.
Cumulate
Fr. Relative
Cumulate
Fr. Percent.
Cumulate
Licenza elementare 5 5 0.056 5.6%
Licenza media 17 22 = 5+17 0.244 24.4%
Diploma 50 72 = 22+50 0.800 80.0%
Laurea 18 90 = 72+18 1.000 100.0%
totali 90
Simbologia
Variabile
Freq.
Assolute
Freq.
Relative
Freq.
Percentuali
Freq. Assolute
Cumulate
Freq. Relative
Cumulate
Freq. Percentuali
Cumulate
𝑿 𝒏𝒊 𝒇𝒊 𝒑𝒊 𝑵𝒊 𝑭𝒊 𝑷𝒊
𝑥1 𝑛1 𝑓1 𝑝1 𝑁1 = 𝑛1 𝐹1 = 𝑓1 𝑃1 = 𝑝1
𝑥2 𝑛2 𝑓2 𝑝2 𝑁2 = 𝑁1 + 𝑛2 𝐹2 = 𝐹1 + 𝑓2 𝑃2 = 𝑃1 + 𝑝2
… … … … … … …
𝑥𝑖 𝑛𝑖 𝑓𝑖 𝑝𝑖 𝑁𝑖 = 𝑁𝑖−1 + 𝑛𝑖 𝐹𝑖 = 𝐹𝑖−1 + 𝑓𝑖 𝑃𝑖 = 𝑃𝑖−1 + 𝑝𝑖 … … … … … … …
𝑥𝑘 𝑛𝑘 𝑓𝑘 𝑝𝑘 𝑁 = 𝑁𝑘−1 + 𝑛𝑘 1 100
Totale 𝑵 1 100
Esempi di distribuzioni di frequenza Quando si legge una tabella di dati non sempre è immediato capire quali sono le variabili, le modalità e
le frequenze oppure se si tratta di una serie storica o territoriale.
Nella pratica non ci troveremo mai di fronte a casi semplici come quelli visti.
Presidi residenziali socio-assistenziali, posti letto e ospiti presenti per regione al 31 dicembre 2005
REGIONI Presidi
residenziali
Totale
posti letto
OSPITI
Minori Adulti Anziani Totale
Piemonte 1163 48904 1387 5741 35825 42953
Valle d'Aosta 45 1073 20 98 919 1037
Lombardia 1129 64570 2610 9257 49308 61175
Trentino-Alto
Adige 381 11759 508 2586 7913 11007
Bolzano/Bozen 150 4585 139 949 3303 4391
… … … … … … …
Veneto 669 37685 1083 4558 29221 34861
Calabria 208 5102 1323 674 2075 4072
Sicilia 488 15522 2145 3034 6392 11571
Sardegna 234 6652 391 871 4179 5441
Nord-ovest 2800 130255 4621 17287 97377 119286
Nord-est 2779 99682 4092 14445 70113 88650
Centro 1543 52839 2593 9380 34357 46330
Sud 1027 33801 3956 5807 17208 26974
Isole 722 22174 2536 3905 10571 17012
TOTALE 8871 338750 17799 50824 229628 298251 Fonte: ISTAT indagine sui presidi residenziali socio assistenziali, anno 2005
Presidi residenziali socio-assistenziali per tipo di utenza e tipologia di presidio al 31 dicembre 2005
TIPOLOGIA DI PRESIDIO
Utenza
Minori
(0-17)
Minori e
adulti
Adulti
(18-64)
Adulti e
anziani
Anziani
(65 e +)
Utenza
mista Totale
presidi
Centro di pronta accoglienza 48 47 28 13 1 21 158 Centro di accoglienza notturna 0 0 33 58 0 2 93
Comunità familiare 215 167 35 27 25 188 658 Comunità socio-educativa per minori 591 164 0 0 0 0 755
Comunità socio-riabilitativa 11 140 266 135 2 167 722 Comunità alloggio 152 316 232 187 166 96 1150
Istituto per minori 103 17 0 0 0 0 120
Resid. assistenz. per anziani autosuff. 0 0 0 997 792 0 1789
Residenza socio-sanitaria per anziani 0 0 0 1030 501 0 1531 Residenza sanitaria assistenziale (Rsa) 0 0 71 912 391 37 1412
Centro di accoglienza immigrati 0 20 45 5 0 232 302 Altro 5 25 44 48 19 41 181
TOTALE 1124 897 754 3413 1898 785 8871 Fonte: ISTAT indagine sui presidi residenziali socio assistenziali, anno 2005
Tabella doppia di frequenze
Numero spettacoli, Ingressi, Spesa al botteghino,
Spesa del pubblico e Volume d'affari per Mese evento - Anno 2006
Mese
dell’evento
Numero
spettacoli Ingressi
Spesa al
botteghino
Spesa del
pubblico
Volume
d'affari
Gennaio 228012 22618119 158633217.82 307084256.51 572653335.34
Febbraio 216444 18750015 148734973.02 250756465.79 649225235.11
Marzo 234396 21260438 172080707.42 296604395.23 556037580.28
Aprile 231135 22980732 173518270.80 312667407.07 462120941.46
Maggio 214604 19151071 150208725.30 294308861.09 392007747.44
Giugno 202594 13162630 131235134.79 295754662.55 499807687.88
Luglio 202967 12689367 152901831.99 358750085.05 461984542.71
Agosto 192473 14539836 168984816.89 372531030.11 430817758.97
Settembre 199959 17729356 187429676.36 335743285.30 458228181.50
Ottobre 216566 18989435 171070190.50 286952933.81 399685707.29
Novembre 214639 19245425 163390729.52 248913855.45 355421888.36
Dicembre 240169 23926596 193629052.56 368865581.99 543793549.81
Totale 2593958 225043020 1971817326.97 3728932819.95 5781784156.15 Fonte: ISTAT, cultura in cifre, anno 2006
Attenzione a non confondere questa tipologia di tabella con quella doppia. Qui non si tratta di una
distribuzione di frequenze doppia, ma di 5 diverse distribuzioni di frequenze assolute.
Infatti, in questo caso non ha senso il calcolo dei totali per riga.
L’Istat fa una serie di indagini chiamate Indagini Multiscopo sulle famiglie. Una di queste
indagini si chiama “i cittadini e il tempo libero”.
Persone di 10-59 anni per eventuale pratica sportiva attuale o passata, frequenza della pratica
sportiva, sesso, classe di età e ripartiz. geogr. - Anno 2000 (per 100 persone di 10-59 anni) SESSO, CLASSI DI ETÀ
E RIPARTIZIONI
GEOGRAFICHE
PRATICA SPORTIVA
Con continuità Saltuariamente Con continuità
in passato
Saltuariamente
in passato
Mai fatto
sport
SESSO
Maschi 30.0 15.8 12.2 9.7 31.2 Femmine 19.0 9.7 10.8 8.2 51.0 Totale 24.5 12.7 11.5 9.0 41.0
CLASSI DI ETÀ
10⊢⊣14 53.7 10.5 6.3 1.8 25.6 15⊢⊣17 44.9 16.6 10.5 3.7 23.6 … … … … … … 50⊢⊣54 11.1 9.4 8.5 9.5 60.0 55⊢⊣59 11.0 7.0 8.2 8.0 63.9 Totale 24.5 12.7 11.5 9.0 41.0
RIPARTIZIONI GEOGRAFICHE
Italia nord-occidentale 27.1 15.4 13.6 10.0 33.1 Italia nord-orientale 31.0 16.0 15.1 9.1 27.9 Italia centrale 26.9 11.5 13.7 9.2 37.2 Italia meridionale 18.0 10.3 6.5 7.5 55.9 Italia insulare 18.9 9.0 8.5 9.1 52.8 Italia 24.5 12.7 11.5 9.0 41.0
Fonte: ISTAT, Indagine Multiscopo sulle famiglie “I cittadini e il tempo libero”, Anno 2000
Sempre nell’ambito dell’indagine multiscopo “i cittadini e il tempo libero” dell’anno 2000
proponiamo la lettura di un’altra tabella.
A differenza della precedente, i valori percentuali sono riferiti alle colonne.
Persone di 3 anni e più per classe di età, attività svolta nel tempo libero
Anno 2000 (per 100 persone di 3 anni e più)
ATTIVITÀ NEL
TEMPO LIBERO
CLASSI DI ETÀ
Tot. 3 ⊢⊣
5
6 ⊢⊣
10
11 ⊢⊣
14
15 ⊢⊣
17
18 ⊢⊣
19
20 ⊢⊣
24
25 ⊢⊣
34
35 ⊢⊣
44
45 ⊢⊣
54
55 ⊢⊣
59
60 ⊢⊣
64
65 ⊢⊣
74 75 e più
GITE, ESCURSIONI, PIC-NIC
Una o più volte a settim. 2.7 2.1 1.8 1.6 2.5 2.0 2.7 2.5 2.1 3.0 2.1 0.9 0.6 2.1 Una o più volte al mese 13.5 18.2 16.0 13.9 14.9 14.8 14.3 14.6 12.0 9.3 7.7 5.0 1.5 11.6
Più raramente 45.8 53.7 55.9 51.7 51.1 48.8 48.6 50.1 43.7 39.3 35.0 27.0 13.4 42.4 Mai 32.5 23.7 24.1 31.1 29.3 32.4 32.5 31.2 40.1 46.7 53.3 65.1 82.2 41.8
Non indicato 5.6 2.4 2.1 1.7 2.2 2.0 1.9 1.5 2.1 1.6 1.8 1.9 2.3 2.0
Totale 100 100 100 100 100 100 100 100 100 100 100 100 100 100
PASSEGGIATE IN CITTÀ
Una o più volte a settim. 13.2 15.1 22.9 30.5 31.1 26.8 23.0 18.1 18.6 20.9 21.1 19.8 12.8 20.2 Una o più volte al mese 21.3 22.2 26.0 26.3 28.1 29.2 28.6 26.4 22.2 19.9 17.3 14.6 6.7 22.3
Più raramente 29.9 33.9 25.9 22.5 22.4 23.0 27.3 29.7 28.4 26.4 26.1 21.3 18.3 26.2
Mai 29.8 25.7 23.0 19.1 16.5 19.0 19.4 24.2 28.8 31.5 34.0 42.7 60.2 29.4
Non indicato 5.7 3.0 2.1 1.7 1.9 2.0 1.8 1.5 2.0 1.3 1.5 1.6 2.1 1.9
Totale 100 100 100 100 100 100 100 100 100 100 100 100 100 100
Fonte: ISTAT, Indagine Multiscopo sulle famiglie “I cittadini e il tempo libero”, Anno 2000