Statistica Sociale e Criminale -...
Transcript of Statistica Sociale e Criminale -...
Statistica Sociale e
Criminale
(12 CFU)
A.A. 2015/2016
CdL Sociologia e Criminologia
Simone Di Zio
Dove siamo…
MODULO 2. La Statistica descrittiva
2.1 La rilevazione del dato statistico
2.2 La rappresentazione dei dati statistici
2.3 Le misure di tendenza centrale
2.4 Le misure di variabilità
2.5 Le Misure delle relazioni tra variabili
LE RAPPRESENTAZIONI GRAFICHE Grafico di una distribuzione
Rappresentazioni grafiche: sono diagrammi che riportano, in forma di disegni e
simboli, i dati contenuti nella distribuzione di frequenze.
Vantaggi: lettura complessiva e immediata del fenomeno (grande valore
comunicativo).
Svantaggi: minore precisione e minore dettaglio delle informazioni.
Di conseguenza, una
distribuzione di frequenza e
la sua rappresentazione
grafica devono essere visti
come modi complementari
di riprodurre le stesse
informazioni.
Elementi per la costruzione di un grafico
1. Componente statistica: tipo di grafico più adatto a rappresentare una
distribuzione di frequenza. Non si sceglie il grafico a seconda dei “gusti
personali” ma ci sono grafici opportuni a seconda del tipo di variabile da
rappresentare (nominale, ordinale, a intervalli);
2. Componente grafica: aspetti relativi al disegno vero e proprio (scelta delle
forme da utilizzare, dei colori, la composizione di tutti gli elementi)
In un grafico devono essere sempre riportati:
1. Il titolo, che specifica l’oggetto della rappresentazione;
2. La fonte, che ha generato i dati rappresentati;
3. La variabile, rilevata sul collettivo (o le variabili);
4. Le unità di misura, relative a tutti gli elementi che vengono rappresentati;
5. Eventuali indicazioni supplementari che sono utili a migliorare la lettura del
grafico e a comprendere il fenomeno rappresentato.
Grafici adatti a rappresentare variabili su scala nominale
Diagrammi a barre o a nastri Modalità sull’asse orizzontale
Frequenze sull’asse verticale
I rettangoli hanno tutti stessa base e altezze proporzionali alle frequenze.
Se le barre sono orizzontali si parla di diagramma a nastri
Condizione
Lavorativa
Frequenze
Assolute
Operaio 389
Impiegato 215
Dirigente 98
Libero prof. 172
Disoccupato 89
Altro 37
TOTALE 1000
Condizione Lavorativa
0
50
100
150
200
250
300
350
400
450
Operaio Impiegato Dirigente Libero
Professionista
Disoccupato Altro
Le barre sono tutte separate e
poste alla stessa distanza
Sull’asse orizzontale non è riportata una
quantità, ma solo una sequenza non
ordinata di valori qualitativi: lo spazio fra
“operaio” e “impiegato” non ha nessun
significato.
Diagramma a nastri
0 100 200 300 400 500
Operaio
Impiegato
Dirigente
Libero Professionista
Disoccupato
Altro
Condizione Lavorativa
Condizione Lavorativa
0
50
100
150
200
250
300
350
400
450
Operaio Impiegato Dirigente Libero
Professionista
Disoccupato Altro
Può essere utile ordinare le modalità secondo le frequenze (in maniera
crescente o decrescente).
Questo è possibile solo per le variabili nominali.
Questo migliora la lettura del grafico, perché si percepisce immediatamente qual è la
modalità più frequente e, in ordine decrescente, le successive.
Condizione Lavorativa
0
50
100
150
200
250
300
350
400
450
Operaio Impiegato Libero
Professionista
Dirigente Disoccupato Altro
Se il diagramma a barre non viene accompagnato dalla relativa distribuzione di
frequenze, è buona norma rappresentare in corrispondenza di ogni barra la frequenza
ad essa associata. In tal modo si hanno maggiori dettagli per la lettura del grafico e
per la sua interpretazione.
Grafici a colonne appaiate e grafici a nastri appaiati.
Distribuzione del colore degli occhi
22
15
7
25
3
25
10 11
5
1 1
0
5
10
15
20
25
30
Neri Marroni Castani Verdi Grigi Azzurri
Collettivo A
Collettivo B
Distribuzione del colore degli occhi
22
15
7
2
5
3
25
10
11
5
1
1
0 5 10 15 20 25 30
Neri
Marroni
Castani
Verdi
Grigi
Azzurri Collettivo B
Collettivo A
Aerogrammi Una figura piana (es. un cerchio, un rettangolo) è divisa in un certo numero di settori
le cui dimensioni sono proporzionali alle frequenze della distribuzione.
Molto adatti a rappresentare le frequenze relative e percentuali.
Esempio di aerogramma a rettangolo o diagramma a barra suddivisa
Fonte: ISTAT, indagine multiscopo i cittadini e il tempo libero, anno 2000
Un tipo particolare di aerogramma è il diagramma a settori circolari, noto anche
come diagramma a torta.
Fonte: ISTAT, indagine multiscopo i cittadini e il tempo libero, anno 2000
Si può usare sempre ma è opportuno solo quando abbiamo poche modalità.
Frequenza della pratica sportiva
24.70%
22.00%
53.30%
Una o più volte a settimana
Una o più volte al mese
Più raramente
9.8315.84
105.45
41.71
18.61
5.34
41.75
3.637.13
12.424.85
Spesa media mensile per alcuni prodotti alimentariAnno 2007
Biscotti
Pasta
Carne
Pesce
Latte
Uova
Frutta
Zucchero
Gelati
Vino
Birra0 20 40 60 80 100 120
Biscotti
Pasta
Carne
Pesce
Latte
Uova
Frutta
Zucchero
Gelati
Vino
Birra
Spesa media mensile per alcuni prodotti alimentariAnno 2007
Poco
leggibile
Meglio
questo
Molto utile per le variabili nominali è il pictogramma (detto anche ideogramma o
diagramma simbolico)
È composto da simboli che ricordano l’oggetto cui la variabile si riferisce.
Ripartizione
geografica
Numero di bovini
Nord 4.271.609
Centro 561.493
Mezzogiorno 1.531.253
ITALIA 6.364.355
Nord
Centro
Mezzogiorno
ITALIA
= 1000000 di capi
Grafici adatti a rappresentare variabili su scala ordinale
Grafici a raggi, a punti e a pettine Le modalità sono organizzate secondo un ordine ben preciso
Bisogna distinguere due casi:
La prima modalità è stabilita in modo naturale (scala ordinale rettilinea);
La prima modalità viene stabilita per convenzione (scala ordinale ciclica).
Variabile ordinale rettilinea: grafico a colonne o a nastri. La prima modalità
corrisponde al primo rettangolo del grafico.
Variabile ordinale ciclica: se le modalità non sono numerose, si può utilizzare il
grafico a torta.
Altro possibile grafico è il grafico a raggi
Come nel grafico a torta non c’è una modalità iniziale e una finale.
Inoltre si mantiene l’ordine delle modalità.
Quindi molto adatto a variabili cicliche.
Giorni della
settimana
Num. di
matrimoni
Lunedì 25
Martedì 20
Mercoledì 18
Giovedì 32
Venerdì 40
Sabato 58
Domenica 51
Totale 244
Grafico a Raggi con estremi collegati
A volte può essere utile unire gli estremi dei raggi con una spezzata.
Attenzione: la spezzata che collega due raggi non ha nessun significato statistico
Se avessimo una variabile quantitativa ciclica allora quei segmenti assumerebbero
un significato statistico.
0
10
20
30
40
50
60Lunedì
Martedì
Mercoledì
GiovedìVenerdì
Sabato
Domenica
Distribuzione del numero di matrimoni
Grafici adatti a rappresentare variabili quantitative
Si utilizza il sistema delle coordinate cartesiane del piano.
Sull’asse orizzontale (ascissa) si riportano le modalità della variabile
Su quello verticale (ordinata) le frequenze.
Bisogna però distinguere due casi:
1) variabile discreta
2) variabile continua
(1) VARIABILE DISCRETA La variabile assume distinte modalità.
Es. n° componenti famiglia: valori come 1.7 o 4.2 non possono essere assunti come
modalità della variabile. Per tali variabili la rappresentazione grafica più adatta è il
grafico a punti.
Per rendere più evidente il grafico si possono collegare i punti con l’asse orizzontale.
Si ottiene così un diagramma cartesiano ad aste, detto anche diagramma a
pettine.
Esempio: Distribuzione del numero di componenti di 100 famiglie
Diagramma a punti Diagramma cartesiano ad aste
(2) VARIABILE CONTINUA
In questo caso i punti si possono
collegare con dei segmenti, dando
vita ad una spezzata.
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8
Nu
me
ro d
i fam
iglie
Numero di componenti
Distribuzione del numero di componenti
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8
Nu
me
ro d
i fam
iglie
Numero di componenti
Distribuzione del numero di componentiLa sequenza di
punti/aste non
si può collegare
con segmenti.
Perché i valori
intermedi non
hanno
significato.
Istogramma Un caso particolare si ha quando la variabile è quantitativa continua e le modalità
sono infinite oppure troppo numerose.
In questo caso le modalità devono essere raggruppate in classi.
Esempio: Età N° individui
0 10 9
10 20 12
20 30 18
30 40 11
40 50 13
Totale 63
La rappresentazione grafica che si usa in questi casi è l’istogramma.
Grafico costituito da rettangoli adiacenti, con basi uguali o diverse, dove ogni
rettangolo ha un’area proporzionale alla frequenza.
Siccome la variabile è continua i rettangoli devono essere adiacenti.
Nel punto in cui finisce una classe inizia quella successiva.
Le basi dei rettangoli corrispondono alle ampiezze delle classi.
Sono tutte uguali quando le classi hanno tutte la stessa ampiezza, mentre saranno
diverse se le ampiezze sono diverse.
Area
=
Frequenza
Es. 40
Base = ampiezza
della classe
Es. 8
Altezza = ?
Densità di frequenza
Densità di frequenza
Età
n°
individui
Ampiezza delle
classi
Densità di
frequenza
0 10 9 10 0.9
10 20 12 10 1.2
20 30 18 10 1.8
30 40 11 10 1.1
40 50 13 10 1.3
Totale 63
Istogramma con classi di eguale ampiezza
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
0-10 10-20 20-30 30-40 40-50
De
nsi
tà d
i fre
qu
en
za
Classi di età
Istogramma
Quando le ampiezze delle classi sono diverse
Si segue sempre la stessa tecnica.
Ma nella rappresentazione grafica bisogna fare molta attenzione a costruire
rettangoli con basi diverse.
Età n°
individui
Ampiezza
delle classi
Densità di
frequenza
0 30 9 30 0.30
30 40 12 10 1.20
40 50 18 10 1.80
50 70 11 20 0.55
70 90 13 20 0.65
Totale 63
Diagrammi per serie storiche In una serie storica la variabile è il tempo (ricordare che è una variabile continua).
Il tempo sull’asse delle ascisse
Le frequenze sulle ordinate.
Il grafico che ne risulta prende il nome di diagramma cartesiano.
Fonte: dati ISTAT, Bilancio demografico 2009
56,000
56,500
57,000
57,500
58,000
58,500
59,000
59,500
60,000
60,50019
80
1984
1988
1992
1996
2000
2004
2008
Val
ori
in m
iglia
ia
Popolazione italiana dal 1980 al 2008
I diagrammi cartesiani sono molto utili anche per confrontare due o più fenomeni.
Fonte: ISTAT, Annuario Statistico Italiano 2009, Capitolo 16, Commercio interno
Fonte: ISTAT, Annuari statistico nazionale 2009, capitolo 18, Turismo
10000
20000
30000
40000
50000
60000
70000
80000
G F M A M G L A S O N DMesi
Quintali di tabacchi nazionali ed esteri venduti nel 2008
Nazionali
Esteri
23,000
43,000
63,000
83,000
103,000
123,000
143,000
2003 2004 2005 2006
Mig
lia
ia
Presenze dei clienti in esercizi alberrghieri
Alberghi 5 e 4 stelle
Alberghi a 3 stelle
Alberghi a 2 stelle
Diagrammi per serie geografiche
Le serie territoriali sono variabili le cui
modalità sono dei luoghi geografici.
Si usa in tal caso il cartogramma.
Si tratta di una carta geografica le cui
ripartizioni sono riempite con colori o
tratteggi diversi a seconda dell’intensità
del fenomeno.
Sono molto utili in questo caso i software
GIS
Fonte: ns. elaborazione su dati ISTAT, anno 2001
È possibile combinare la tecnica del
cartogramma con le altre rappresentazioni
grafiche.
Si ottengono i cosiddetti cartodiagrammi.
Fonte: Annuario Statistico Italiano 2009
Rappresentazioni grafiche per distribuzioni doppie di frequenze
Distribuzione doppia unitaria: quando entrambe le variabili sono quantitative il
grafico da utilizzare è il diagramma a dispersione.
Gli assi del piano cartesiano corrispondono alle due variabili rappresentate.
Attenzione a non confondere il grafico a dispersione con il diagramma a punti.
Qui ogni punto rappresenta un’unità statistica sul piano.
diagramma a dispersione Diagramma a punti
SONO RAPPRESENTATE DUE VARIABILI È RAPPRESENTATA UNA VARIABILE
45
50
55
60
65
70
75
80
85
90
95
145 150 155 160 165 170 175 180 185
Pe
so
Statura
Grafico a Dispersione Statura/Peso
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8N
um
ero
di f
amig
lie
Numero di componenti
Distribuzione del numero di componenti
Distribuzione doppia di frequenze: quando entrambe le variabili sono quantitative,
si può utilizzare il diagramma cartesiano tridimensionale.
Distribuzione doppia di frequenza per peso e statura Statura (cm)
Peso (Kg) 155 160 160 165 165 170 170 175 175 180 180 185 185 190 190 195 Totali
13 2 1 1 0 0 0 0 17
5 15 5 2 2 0 0 0 29
6 7 16 6 1 0 0 0 36
4 5 11 18 7 3 0 0 48
2 4 5 8 20 6 2 1 48
1 1 2 1 1 11 8 5 30
Totali 31 34 40 36 31 20 10 6 208
Diagramma cartesiano tridimensionale
0
2
4
6
8
10
12
Statura
Fre
qu
en
ze
Peso
Distribuzione di frequenze secondo peso e statura
Distribuzione doppia, indipendentemente dalla tipologia delle due variabili
Si può sempre utilizzare il grafico a colonne suddivise.
Ogni colonna è proporzionale alla frequenza complessiva di ciascuna modalità della
prima variabile.
Al suo interno viene suddivisa in tante parti quante sono le modalità della seconda
variabile, in modo proporzionale alle frequenze.
Esempio: distribuzione doppia della spesa media mensile familiare per numero di componenti e
categoria di consumi. 1. Numero componenti della famiglia: variabile quantitativa discreta
2. Categoria di bene consumato: variabile nominale
Nel grafico ogni colonna
rappresenta la spesa media
mensile rispetto alla dimensione
della famiglia, mentre ogni
singola colonna è suddivisa in tre
parti che sono proporzionali alle
frequenze del consumo di pesce,
carne e pane.
0
50
100
150
200
250
300
350
400
1 2 3 4 5 e più
Spesa mensile in euro, anno 2007
Pesce
Carne
Pane
Schema riassuntivo sui grafici Tipo di variabile Grafico suggerito
Distribuzione secondo una variabile
nominale (con poche modalità)
Grafico a settori circolari (a
torta)
Distribuzione secondo una variabile
nominale (con molte modalità)
Grafico a colonne o nastri
Distribuzione secondo una variabile
ordinale rettilinea
Grafico a colonne (o a nastri)
o istogramma a basi uguali
Distribuzione secondo una variabile
ordinale ciclica
Grafico a raggi
Distribuzione secondo una variabile a
intervalli discreta
Diagramma cartesiano a punti o
a pettine
Distribuzione secondo una variabile con
modalità in classi (ampiezze delle classi
uguali)
Istogramma di frequenza a basi
uguali
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
0-10 10-20 20-30 30-40 40-50
De
nsi
tà d
i fre
qu
en
za
Classi di età
Istogramma
0
10
20
30
40
50
60Lunedì
Martedì
Mercoledì
GiovedìVenerdì
Sabato
Domenica
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
0-10 10-20 20-30 30-40 40-50
De
nsi
tà d
i fre
qu
en
za
Classi di età
Istogramma
Distribuzione secondo una variabile con
modalità in classi (ampiezze delle classi
diverse)
Istogramma di frequenza a basi
diverse
Serie storica Diagramma cartesiano con punti
collegati
Serie territoriale Cartogramma
Serie storica e serie territoriale insieme Cartodiagramma
Distribuzione unitaria doppia, variabili
quantitative
Grafico a Dispersione
Distribuzione doppia di frequenze,
qualunque tipologia di variabile
Grafico a colonne suddivise
Distribuzione doppia di frequenze per
due variabili quantitative
Diagramma cartesiano
tridimensionale
60,000
65,000
70,000
75,000
80,000
85,000
90,000
95,000
G F M A M G L A S O N D
40
50
60
70
80
90
100
145 150 155 160 165 170 175 180 185
0
50
100
150
200
250
300
350
1 2 3 4 5
0
2
4
6
8
10
12