Indicazioni di massima per iniziare a lavorare -...
Transcript of Indicazioni di massima per iniziare a lavorare -...
Statistica Sociale e Criminale
(12 CFU)
A.A. 2015/2016
CdL Sociologia e Criminologia
Simone Di Zio
Dove siamo…
MODULO 2. La Statistica descrittiva
2.1 La rilevazione del dato statistico
2.2 La rappresentazione dei dati statistici
2.3 Le misure di tendenza centrale
2.4 Le misure di variabilità
2.5 Le Misure delle relazioni tra variabili
Le misure di variabilità
Il concetto di variabilità di una distribuzione
Le misure di tendenza centrale riassumono la distribuzione con un valore, ma non
forniscono nessuna informazione di come le altre modalità si dispongono attorno a
tale valore.
A tal fine serve il concetto di variabilità.
In un collettivo, più le unità statistiche sono distanti fra loro e maggiore è la
variabilità.
La variabilità è definita come l’attitudine di una variabile
ad assumere modalità diverse.
Esempio
Si hanno due distribuzioni unitarie riguardanti lo stesso gruppo di 10 studenti
Id. Alunni
Voto in
Economia Id. Alunni
Voto in
Statistica
1 Alessandro 7.0 1 Alessandro 4.5
2 Dario 7.0 2 Dario 8.0
3 Fulvio 7.0 3 Fulvio 7.0
4 Giuseppe 7.0 4 Giuseppe 4.5
5 Marilena 7.0 5 Marilena 8.0
6 Noemi 7.0 6 Noemi 9.0
7 Osvaldo 7.0 7 Osvaldo 8.0
8 Paride 7.0 8 Paride 6.5
9 Valentina 7.0 9 Valentina 7.5
10 Valerio 7.0 10 Valerio 7.0
Sappiamo calcolare la media aritmetica.
Media voti in Economia = 7.0
Media voti in Statistica = 7.0.
In termini di media, le due
distribuzioni sono IDENTICHE
Variabilità 𝟎 Variabilità > 𝟎
Le due distribuzioni sono uguali in media ma sono completamente diverse per
quanto riguarda la variabilità.
Id. Alunni
Voto in
Economia Id. Alunni
Voto in
Statistica
1 Alessandro 7.0 1 Alessandro 4.5
2 Dario 7.0 2 Dario 8.0
3 Fulvio 7.0 3 Fulvio 7.0
4 Giuseppe 7.0 4 Giuseppe 4.5
5 Marilena 7.0 5 Marilena 8.0
6 Noemi 7.0 6 Noemi 9.0
7 Osvaldo 7.0 7 Osvaldo 8.0
8 Paride 7.0 8 Paride 6.5
9 Valentina 7.0 9 Valentina 7.5
10 Valerio 7.0 10 Valerio 7.0
Economia: i valori sono addensati sulla media;
Statistica: i voti variano attorno alla media.
Rappresentazione grafica
Dobbiamo quantificare, cioè misurare, con opportuni indici la variabilità.
4
5
6
7
8
9
Economia Statistica
Variabilità 0:
linea costante
Variabilità >0
linea con
continue
variazioni
CONDIZIONI Qualunque indice di variabilità deve soddisfare almeno due condizioni:
Deve assumere valore minimo se e solo se tutte le unità della distribuzione
assumono la stessa modalità della variabile (come nell’esempio dei voti in
Economia);
Deve aumentare all’aumentare della diversità fra le modalità della
distribuzione.
Ancora una volta dobbiamo distinguere le scale:
Scale nominali indici di omogeneità ed eterogeneità
Scale ordinali indici di dispersione
Scale a intervalli indici di variabilità in senso stretto
Misure di variabilità per variabili
nominali
Si ricorre ai concetti di eterogeneità e omogeneità di una distribuzione.
Massima omogeneità: quando
tutte le unità statistiche
presentano la stessa modalità.
Minima omogeneità: quando le
unità sono equidistribuite fra le
modalità della variabile (si parla
anche di massima eterogeneità).
Religione
Frequenze
assolute Religione
Frequenze
assolute
Anglicana 0 Anglicana 20 Buddista 100 Buddista 20
Cattolica 0 Cattolica 20 Ortodossa 0 Ortodossa 20
Taoista 0 Taoista 20
Totale 100 Totale 100
Massima
OMOGENEITA’
Minima
OMOGENEITA’
Questi sono due casi teorici limite, mentre in situazioni reali ci sarà sempre una
condizione intermedia, più o meno vicina ai due estremi.
𝑶𝟏
L’indice di omogeneità più semplice è dato dalla somma dei quadrati delle frequenze
relative:
𝑂1 = 𝑓12 + 𝑓2
2 + ⋯ + 𝑓𝑘2 = ∑ 𝑓𝑖
2
𝑘
𝑖=1
Religione
Frequenze
assolute
Frequenze
Relative Religione
Frequenze
assolute
Frequenze
Relative
𝑛𝑖 𝒇𝒊 𝑛𝑖 𝒇𝒊
Anglicana 0 0 Anglicana 20 0.2 Buddista 100 1 Buddista 20 0.2
Cattolica 0 0 Cattolica 20 0.2 Ortodossa 0 0 Ortodossa 20 0.2
Taoista 0 0 Taoista 20 0.2
Totale 100 1 Totale 100 1.0
𝑶𝟏 = 02 + 12 + 02 + 02 + 02 = 𝟏
𝑶𝟏 = 0.22 + 0.22 + 0.22 + 0.22 + 0.22 = 0.04 + 0.04 + 0.04 + 0.04 + 0.04 = 𝟎. 𝟐
Valore massimo e minimo dell’indice 𝑶𝟏
L’indice 𝑂1 ha massimo sempre pari a 1
L’indice 𝑂1 ha minimo che dipende dal numero delle modalità: 1 𝑘⁄ ,
(dove come di consueto 𝑘 indica il numero delle modalità).
𝑶𝟐
Sfrutta il logaritmo delle frequenze relative:
𝑂2 = ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)
𝑘
𝑖=1
Valore massimo e minimo dell’indice 𝑶𝟐
L’indice 𝑂2 ha massimo sempre pari a 0
L’indice 𝑂2 ha minimo che dipende dal numero delle modalità: −𝑙𝑜𝑔(𝑘),
(dove come di consueto 𝑘 indica il numero delle modalità).
Calcolo di 𝑶𝟐 per le due distribuzioni precedenti (Per poter effettuare i calcoli dobbiamo assumere che 𝑙𝑜𝑔(0) = 0).
𝑂2 = ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)
𝑘
𝑖=1
Religione 𝒏𝒊 𝒇𝒊 𝒍𝒐𝒈(𝒇𝒊) 𝒇𝒊 ∙ 𝒍𝒐𝒈(𝒇𝒊) Religione 𝒏𝒊 𝒇𝒊 𝒍𝒐𝒈(𝒇𝒊) 𝒇𝒊 ∙ 𝒍𝒐𝒈(𝒇𝒊)
Anglicana 0 0 0 0 Anglicana 20 0.2 -0.699 -0.140
Buddista 100 1 0 0 Buddista 20 0.2 -0.699 -0.140
Cattolica 0 0 0 0 Cattolica 20 0.2 -0.699 -0.140
Ortodossa 0 0 0 0 Ortodossa 20 0.2 -0.699 -0.140
Taoista 0 0 0 0 Taoista 20 0.2 -0.699 -0.140
Totale 100 1 0 Totale 100 1.0 -0.699
Massima OMOGENEITA’ Minima OMOGENEITA’
𝑂2 = 0 𝑂2 = −𝑙𝑜𝑔(𝑘)
INDICI DI ETEROGENEITÀ
Sottraendo da 1 il primo indice di omogeneità, si ottiene l’indice di eterogeneità di
Gini (dal nome del suo ideatore):
𝐸1 = 1 − 𝑂1 = 1 − ∑ 𝑓𝑖2
𝑘
𝑖=1
Che ha minimo pari a 0 e massimo pari a 1 − 1 𝑘⁄ .
Dal secondo indice di omogeneità, semplicemente cambiando il suo segno, si ottiene
invece l’indice di Entropia:
𝐸2 = −𝑂2 = − ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)
𝑘
𝑖=1
Che ha valore minimo pari a 0 e massimo pari a 𝑙𝑜𝑔(𝑘).
INDICI RELATIVI
In statistica è spesso utile ottenere degli indici che varino fra 0 e 1
perché sono più facili da interpretare
perché si possono fare i confronti fra indici diversi.
Quando un indice viene trasformato in modo da avere minimo 0 e massimo 1 si dice
che si ha un indice relativo.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 1 0,33 0,8
Indici di eterogeneità relativi
Gli indici di eterogeneità relativi che derivano da 𝐸1 e 𝐸2 sono i seguenti (che
indichiamo con la e minuscola):
𝑒1 =𝑘
𝑘 − 1𝐸1
𝑒2 =𝐸2
𝑙𝑜𝑔(𝑘)
Come più volte detto in precedenza, essendo questi indici calcolabili per variabili
nominali, si possono ovviamente calcolare per qualunque tipo di variabile.
Per il calcolo di questi indici si utilizzano solo ed esclusivamente le informazioni
contenute nelle frequenze.
I valori estremi di un indice E’ sempre molto importante, quando si calcola un indice, sapere qual è il valore
massimo e minimo che può assumere.
Nella vita quotidiana, senza che ce ne rendiamo
conto, quando valutiamo una misura facciamo
sempre un confronto automatico con dei valori di
riferimento.
Quando abbiamo a che fare con gli indici statistici è lo stesso.
Se ad esempio abbiamo un indice di variabilità pari a 11 cosa possiamo dire su di
esso? E’ alto o basso?
Se minimo = 0 e massimo = 12 allora possiamo affermare che 12 è molto alto.
Se minimo = 0 e massimo = 3000 allora lo stesso numero 11 è bassa variabilità.
Quindi, non bisogna mai cercare di interpretare un indice senza conoscerne i valori
minimo e massimo (campo di variazione).
Esempio di calcolo e interpretazione Calcoliamo gli indici di omogeneità 𝑂1 e 𝑂2 sulla seguente distribuzione e
interpretiamo i risultati.
Condizione lavorativa
Frequenze
Assolute
Frequenze
Relative
calcolo
calcolo
calcolo
𝒙𝒊 𝒏𝒊 𝒇𝒊 𝒇𝒊𝟐 𝒍𝒐𝒈(𝒇𝒊) 𝒇𝒊 ∙ 𝒍𝒐𝒈(𝒇𝒊)
Operaio 389 0.389 0.3892 = 0.151 -0.410 -0.160
Impiegato 215 0.215 0.2152 = 0.046 -0.668 -0.144
Dirigente 98 0.098 0.0982 = 0.010 -1.009 -0.099
Libero Professionista 172 0.172 0.1722 = 0.030 -0.764 -0.131
Disoccupato 89 0.089 0.0892 = 0.008 -1.051 -0.094
Altro 37 0.037 0.0372 = 0.001 -1.432 -0.053
TOTALE 1.000 1.000
0.246
-0.680
𝑂1 = ∑ 𝑓𝑖2𝑘
𝑖=1 = 0.246 𝑚𝑖𝑛 = 1 6⁄ = 0.167 𝑚𝑎𝑥 = 1 omogeneità BASSA
𝑂2 = ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)𝑘𝑖=1 = −0.680 𝑚𝑖𝑛 = − log(6) = −0.778 𝑚𝑎𝑥 = 0 omogeneità BASSA
(ovviamente non possiamo avere due risultati contrastanti).
Indici di eterogeneità
Indice di Gini: 𝐸1 = 1 − 𝑂1 = 1 − 0.246 = 0.754 Eterogeneità ALTA
Indice di entropia: 𝐸2 = −𝑂2 = 0.680 Eterogeneità ALTA
Indici di eterogeneità relativi
𝑒1 =𝑘
𝑘−1𝐸1 =
6
6−1∙ 0.754 = 0.905 Eterogeneità ALTA
𝑒2 =𝐸2
𝑙𝑜𝑔(𝑘)=
0.680
0.778= 0.874 Eterogeneità ALTA
Sapendo che il massimo e il minimo di tali indici sono sempre zero e uno,
l’interpretazione è immediata.
Misure di variabilità per variabili
ordinali
Bisogna sfruttare l’informazione che deriva dall’ordinamento delle modalità.
Abbiamo gli indici di dispersione.
Per una variabile almeno ordinale si possono individuare le modalità estreme, cioè la
prima e l’ultima.
Una distribuzione ha dispersione minima quando tutte le unità presentano la
stessa modalità della variabile.
Una distribuzione ha dispersione massima quando metà delle unità presentano
la modalità più bassa e metà presentano la modalità più alta.
Esempio dei due casi estremi
Titolo di studio
Frequenze
assolute Titolo di studio
Frequenze
assolute
Licenza elementare 0 Licenza elementare 20 Licenza media 40 Licenza media 0
Diploma 0 Diploma 0
Laurea 0 Laurea 20
Totale 40 Totale 40
Minima DISPERSIONE Massima DISPERSIONE
L’indice di dispersione D sfrutta le frequenze relative cumulate (indicate con 𝐹𝑖)
𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)
𝑘−1
𝑖=1
Esempio di calcolo: CASO 1: MINIMA DISPERSIONE
𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)
𝑘−1
𝑖=1
Titolo di studio
Frequenze
assolute
Frequenze
Relative
Freq. Rel.
Cumulate calcolo calcolo
𝒏𝒊 𝒇𝒊 𝑭𝒊 𝟏 − 𝑭𝒊 𝑭𝒊(𝟏 − 𝑭𝒊)
Licenza elementare 0 0 0 1 0
Licenza media 40 1 1 0 0
Diploma 0 0 1 0 0
Laurea 0 0 1
Totale 40 1 0
Per calcolare D basta fare la somma dei valori ottenuti e moltiplicare per 2.
𝑫 = 𝟐 ∙ 𝟎 = 𝟎
Esempio di calcolo: CASO 2: MASSIMA DISPERSIONE
𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)
𝑘−1
𝑖=1
Titolo di studio
Frequenze
assolute
Frequenze
Relative
Freq. Rel.
Cumulate calcolo calcolo
𝒏𝒊 𝒇𝒊 𝑭𝒊 𝟏 − 𝑭𝒊 𝑭𝒊(𝟏 − 𝑭𝒊)
Licenza elementare 20 0.5 0.50 0.50 0.25
Licenza media 0 0.0 0.50 0.50 0.25
Diploma 0 0.0 0.50 0.50 0.25
Laurea 20 0.5 1.00
Totale 40 1.00 0.75
𝑫 = 𝟐 ∙ 𝟎. 𝟕𝟓 = 𝟏. 𝟓𝟎
Esempio di calcolo: CASO 3: DISPERSIONE INTERMEDIA
𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)
𝑘−1
𝑖=1
Titolo di studio
Frequenze
assolute
Frequenze
Relative
Freq. Rel.
Cumulate calcolo calcolo
𝒏𝒊 𝒇𝒊 𝑭𝒊 𝟏 − 𝑭𝒊 𝑭𝒊(𝟏 − 𝑭𝒊)
Licenza elementare 11 0.275 0.275 0.725 0.199
Licenza media 7 0.175 0.450 0.550 0.247
Diploma 9 0.225 0.675 0.325 0.219
Laurea 13 0.325 1.000
Totale 40 1.000 0.666
𝑫 = 𝟐 ∙ 𝟎. 𝟔𝟔𝟔 = 𝟏. 𝟑𝟑𝟐
Come ci aspettavamo è un valore intermedio fra il minimo (0) e il massimo (1.5).
Interpretazione: 1.332 è molto vicino al massimo, per cui si tratta di una
distribuzione con dispersione molto alta.
Misure di variabilità per
variabili a intervalli
Ricordiamo che possiamo calcolare la media aritmetica.
Possiamo quindi fare operazioni algebriche sulle modalità della variabile.
Campo di Variazione Un indice di variabilità molto semplice da calcolare è dato dalla differenza fra la
modalità più grande e quella più piccola: si chiama campo di variazione.
Id. Alunni
Voto in
Economia Id. Alunni
Voto in
Statistica
1 Alessandro 7.0 1 Alessandro 4.5
2 Dario 7.0 2 Dario 8.0
3 Fulvio 7.0 3 Fulvio 7.0
4 Giuseppe 7.0 4 Giuseppe 4.5
5 Marilena 7.0 5 Marilena 8.0
6 Noemi 7.0 6 Noemi 9.0
7 Osvaldo 7.0 7 Osvaldo 8.0
8 Paride 7.0 8 Paride 6.5
9 Valentina 7.0 9 Valentina 7.5
10 Valerio 7.0 10 Valerio 7.0
Variabile voto Economia: 77 = 0
Variabile voto Statistica: 94.5 = 4.5
La seconda distribuzione ha un campo di variazione maggiore.
Possibile commento “I voti in Economia e Statistica di questo gruppo di studenti sono mediamente uguali
e pari a 7, ma mentre in Economia non c’è variabilità fra gli alunni, nel caso di
Statistica i voti sono più variabili, con un campo di variazione pari a 4.5 voti. Tali
indici sembrano mostrare una preparazione mediamente buona per entrambe le
materie ma in Economia appare esserci maggiore equilibrio nella preparazione degli
studenti.”
Il campo di variazione ha il privilegio della semplicità di calcolo ma, per contro,
risulta troppo grezzo, perché tiene conto solo dei valori estremi.
Pertanto viene usato solo come prima approssimazione della variabilità
Varianza e scarto quadratico medio
Questi indici si basano sulla diversità fra le modalità assunte da ogni unità statistica e
la media aritmetica.
Scarti dalla media aritmetica In simboli queste differenze si indicano con 𝑥𝑖 − �̅� dove, al solito, 𝑥𝑖 sono le
modalità della variabile.
Id. Alunni
Voto in
Statistica
Scarti dalla media
aritmetica
1 Alessandro 4.5 4.5 - 7 = - 2.5
2 Dario 8.0 8.0 - 7 = +1.0
3 Fulvio 7.0 7.0 - 7 = +0.0
4 Giuseppe 4.5 4.5 - 7 = - 2.5
5 Marilena 8.0 8.0 - 7 = +1.0
6 Noemi 9.0 9.0 - 7 = +2.0
7 Osvaldo 8.0 8.0 - 7 = +1.0
8 Paride 6.5 6.5 - 7 = - 0.5
9 Valentina 7.5 7.5 - 7 = +0.5
10 Valerio 7.0 7.0 - 7 = +0.0 Totale 0.0
Gli scarti indicano in che modo le modalità si disperdono attorno alla media
aritmetica, quindi rappresentano, in prima approssimazione, la variabilità di questa
distribuzione.
Per ottenere un unico numero, la cosa più semplice sarebbe fare la somma.
Ma la somma vale sempre 0 (proprietà della media aritmetica)
Dobbiamo fare in modo di eliminare i segni delle differenze.
Ad esempio possiamo elevare al quadrato ogni differenza
Id. Alunni
Voto in
Statistica
Scarti dalla
media aritmetica
Quadrati
degli Scarti
𝑖 𝑥𝑖 𝑥𝑖 − �̅� (𝑥𝑖 − �̅�)2
1 Alessandro 4.5 -2.5 (-2.5)2 = 6.25
2 Dario 8.0 1.0 (+1.0)2 = 1.00
3 Fulvio 7.0 0.0 (0.0)2 = 0.00
4 Giuseppe 4.5 -2.5 (-2.5)2 = 6.25
5 Marilena 8.0 1.0 (+1.0)2 = 1.00
6 Noemi 9.0 2.0 (+2.0)2 = 4.00
7 Osvaldo 8.0 1.0 (+1.0)2 = 1.00
8 Paride 6.5 -0.5 (-0.5)2 = 0.25
9 Valentina 7.5 0.5 (+0.5)2 = 0.25
10 Valerio 7.0 0.0 (0.0)2 = 0.00
Totale 0.0 20.00
Somma degli scarti al quadrato ∑ (𝑥𝑖 − �̅�)2𝑁
𝑖=1 , otteniamo un unico valore e abbaino risolto anche il problema dei
segni (nell’esempio questa somma è 20.00).
Ma non siamo ancora arrivati a un indice di variabilità, perché il risultato dipende
dalla numerosità del collettivo.
Un indice di variabilità deve invece misurare la dispersione indipendentemente dalla
numerosità del collettivo.
Soluzione: dividere la somma così ottenuta per la numerosità del collettivo 𝑁 = 10.
20 10⁄ = 2
Questo indice è noto come varianza 2
Varianza 𝜎2 =∑ (𝑥𝑖−�̅�)2𝑁
𝑖=1
𝑁
Interpretazione Ma come interpretiamo il valore 2? Si tratta di due voti? La risposta è no, perché
essendo il risultato di una somma di quadrati, la varianza è espressa nel quadrato
dell’unità di misura della variabile.
Per questa ragione si usa fare la radice quadrata della varianza √𝜎2
Si ottiene un indice di variabilità con la stessa unità di misura della variabile.
Scarto quadratico medio Questo indice prende il nome di scarto quadratico medio (noto anche come
deviazione standard o scostamento quadratico medio) e si indica con la lettera
greca sigma minuscola: .
𝜎 = √∑ (𝑥𝑖 − �̅�)2𝑁
𝑖=1
𝑁
e 2 valgono 0 in assenza di variabilità e cresce all’aumentare della variabilità.
Nel nostro esempio abbiamo: 𝜎 = √2 = 1.41
Possiamo ora affermare che nella distribuzione dei voti in Statistica si ha uno scarto
quadratico medio di 1.41 voti.
Devianza Corrisponde al numeratore della varianza. Quindi la formula della devianza è:
𝐷𝑒𝑣 = ∑ (𝑥𝑖 − �̅�)2𝑁
𝑖=1
Formule per le distribuzioni di frequenze
Devianza 𝐷𝑒𝑣 = ∑ (𝑥𝑖 − �̅�)2𝑘
𝑖=1∙ 𝑛𝑖
Varianza 𝜎2 =∑ (𝑥𝑖 − �̅�)2 ∙ 𝑛𝑖
𝑘𝑖=1
𝑁=
𝐷𝑒𝑣
𝑁
Scarto quadratico medio
𝜎 = √
∑ (𝑥𝑖 − �̅�)2 ∙ 𝑛𝑖𝑘𝑖=1
𝑁= √𝜎2
Esempio di calcolo
Utilizzando la tecnica delle colonne affiancate calcoliamo ora questi indici di
variabilità per la distribuzione delle ore di studio (Tabella MV13), la cui media
ricordiamo è �̅� = 22.46.
Ore di
studio
Frequenze
Assolute
Scarti dalla media Quadrati degli
scarti
Prodotto per le
frequenze
𝑥𝑖 𝑛𝑖 𝑥𝑖 − �̅� (𝑥𝑖 − �̅�)2 (𝑥𝑖 − �̅�)2𝑛𝑖
18 2 18-22.46 = -4.46 -4.462 = 19.89 19.892 = 39.78
20 3 20-22.46 = -2.46 -2.462 = 6.05 6.053 = 18.15
22 4 22-22.46 = -0.46 -0.462 = 0.21 0.214 = 0.84
24 2 24-22.46 = 1.54 1.542 = 2.37 2.372 = 4.74
30 2 30-22.46 = 7.54 7.542 = 56.85 56.852 = 113.7
Totale 13 175.21
Devianza 𝐷𝑒𝑣 = 175.21
Varianza 𝜎2 =𝐷𝑒𝑣
𝑁=
175.21
13= 13.48
Scarto quadratico medio 𝜎 = √𝜎2 = √13.48 = 3.67
Caso particolare: modalità suddivise in classi Anche in questo caso si usa il valore centrale della classe ci
′ come modalità.
Prospetto riassuntivo sulle misure di variabilità
TIPO DI VARIABILE Operazioni
consentite
Misure di variabilità calcolabili Indici di variabilità
suggeriti
Variabili su scala
nominale = Omogeneità 𝑂1, 𝑂2
Variabili su scala
ordinale = > < Omogeneità e Dispersione 𝐷
Variabili su scala a
intervalli
= > <
+ -
Omogeneità, Dispersione, Campo di
variazione, Scarto Quadratico Medio,
Varianza, Differenze medie
Scarto Quadratico Medio:
𝜎
Varianza: 𝜎2
Devianza: 𝐷𝑒𝑣
Diff. medie: Δ, Δ2, Δ2, Δ𝑅2
Variabilità relativa alla media e al massimo Problema: confronto della variabilità di due diverse distribuzioni.
Vi sono situazioni in cui gli indici di variabilità precedentemente visti non sono
adatti al confronto della variabilità di due o più distribuzioni:
1 Fenomeni che sono misurati in unità di
misura diverse
Indici percentuali di variabilità
Indici relativi di variabilità 2 Fenomeni che pur avendo la stessa
unità di misura hanno valori medi
molto diversi
In entrambi i casi si ottengono dei numeri puri, cioè indipendenti dall’unità di
misura della variabile, consentendo pertanto i confronti.
Esempio 1: unità di misura diverse
Giorno
Modello A
(Litri)
Modello B
(Galloni)
Lunedì 6.250 1.651
Martedì 6.300 1.664
Mercoledì 7.500 1.981
Giovedì 4.250 1.123
Venerdì 5.750 1.519
Sabato 8.150 2.153
Domenica 5.950 1.572
Totale 44.150 11.663
Le medie aritmetiche sono �̅�𝐴 = 6.307 e �̅�𝐵 = 1.666.
La varianza e la deviazione standard sono:
Modello A: 𝝈𝑨𝟐 = 𝟏. 𝟑𝟓𝟔𝟎 𝝈𝑨 = 𝟏. 𝟏𝟔𝟒
Modello B: 𝝈𝑩𝟐 = 𝟎. 𝟎𝟗𝟒𝟔 𝝈𝑩 = 𝟎. 𝟑𝟎𝟖
C’è maggiore variabilità di consumo nel modello A? Non possiamo dirlo ancora!
Si tratta infatti di un fenomeno in due diverse unità di misura
Coefficiente di variazione
Il più noto indice percentuale di variabilità.
E’ dato dal rapporto fra deviazione standard e media aritmetica:
𝐶𝑉 =𝜎
�̅�
Come gli indici di variabilità assoluta anche il CV ha sempre minimo pari a zero e
massimo non definito.
Nel nostro esempio:
𝐶𝑉𝐴 =𝜎𝐴
�̅�𝐴=
1.164
6.307= 0.185
𝐶𝑉𝐵 =𝜎𝐵
�̅�𝐵=
0.308
1.666= 0.185
Le due misure di variabilità sono identiche.
Esempio 2: valori medi molto diversi
Animale Peso Cavalli
kg
Animale
Peso Cani
kg
Unità 1 570 Unità 1 2.5
Unità 2 500 Unità 2 2.4
Unità 3 510 Unità 3 2.4
Unità 4 490 Unità 4 3.0
Unità 5 530 Unità 5 3.1
Unità 6 525 Unità 6 2.9
Unità 7 515 Unità 7 2.7
Unità 8 580 Unità 8 2.6
Unità 9 480 Unità 9 2.5
Unità 10 535 Unità 10 3.2
Totale 5235 27.3
Le medie delle due distribuzioni sono 523.50kg e 2.73kg
La varianza e la deviazione standard sono:
Cavalli: 𝝈𝟐 = 𝟗𝟑𝟓. 𝟐𝟓𝟎 𝝈 = 𝟑𝟎. 𝟓𝟖𝟐
Cani: 𝝈𝟐 = 𝟎. 𝟎𝟖𝟎 𝝈 = 𝟎. 𝟐𝟖𝟑
C’è maggiore variabilità di peso fra i cavalli? Non possiamo dirlo ancora!
Si tratta infatti di un fenomeno con intensità media troppo diverse.
Deviazione standard 30.582kg. Va confrontata con un
peso medio di 523.50kg
Una variabilità di circa 30 chilogrammi su un animali di
circa mezza tonnellata.
Deviazione standard 283g. Va confrontata con un peso
medio di 2.5kg
Qualunque distribuzione dei pesi dei cavalli è sempre più variabile del peso dei
cani, semplicemente perché questi ultimi sono più piccoli.
Dobbiamo allora calcolare i coefficienti di variazione.
𝐶𝑉𝐶𝑎𝑣𝑎𝑙𝑙𝑖 =30.582
523.50= 0.058
𝐶𝑉𝐶𝑎𝑛𝑖 =0.283
2.73= 0.104
Nella distribuzione del peso dei cani la
variabilità è quasi il doppio di quella
della distribuzione dei cavalli, ribaltando
completamente le iniziali conclusioni.
La Concentrazione: concetto e misure Variabile quantitativa trasferibile.
Si tratta di variabili per le quali ha senso pensare che una parte o tutto
l’ammontare della variabile possa essere ceduto da una unità statistica ad un’altra.
Variabili quantitative trasferibili Variabili quantitative non trasferibili Reddito
Dipendenti di un’impresa
N° automobili di una famiglia
Titolo di studio
Età
Genere
La concentrazione è un concetto statistico che misura come una variabile
quantitativa trasferibile è ripartita fra le unità statistiche di un collettivo.
L’esempio classico è la misura della concentrazione del reddito.
Esempio: reddito delle famiglie italiane
Massima
CONCENTRAZIONE
Situazioni
intermedie
EQUIDISTRIBUZIONE
Se la maggior parte del
reddito è posseduto da poche
famiglie ricche, si dice che il
reddito è concentrato.
Ci sono infinite
situazioni intermedie
che si possono
misurare con
opportuni indici.
Se l’ammontare complessivo del
reddito è posseduto in parti uguali
da tutte le famiglie, si dice che c’è
equidistribuzione.
Collettivo di 𝑁 unità statistiche ordinate secondo la variabile 𝑥
Indichiamo l’ammontare complessivo della variabile 𝒙 con la lettera 𝐴:
𝐴 = ∑ 𝑥𝑖
𝑁
𝑖=1
Si ha equidistribuzione quando ogni unità statistica ha la stessa quantità della
variabile:
𝑥𝑖 =𝐴
𝑁𝑝𝑒𝑟 𝑖 = 1,2, … , 𝑁
Es. tutto il reddito
posseduto dalle famiglie
italiane
Ogni famiglia possiede la
stessa frazione di reddito
totale disponibile
Situazione opposta, cioè la massima concentrazione, si ha quando una sola unità
(l’ultima, cioè la N-esima) possiede tutto l’ammontare della variabile (A):
𝑥1 = 0
𝑥2 = 0 …
𝑥𝑛 = 𝐴
Quindi le possibili situazioni sono:
Massima
CONCENTRAZIONE
Situazioni
intermedie
EQUIDISTRIBUZIONE
𝑥1 = 0
𝑥2 = 0 …
…
𝑥𝑁 = 𝐴
?
𝑥1 =
𝐴
𝑁
𝑥2 =𝐴
𝑁
…
𝑥𝑁 =𝐴
𝑁
Situazioni intermedie Si ordinano le unità statistiche in modo non decrescente:
𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑁
Si definiscono le seguenti grandezze:
𝐴𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 ammontare della variabile posseduto dalle prime 𝑖 unità più povere (cioè posseggono meno).
𝑄𝑖 =𝐴𝑖
𝐴 frazione di questo ammontare sul tutto.
Quanta parte della variabile, rispetto al totale disponibile,
è posseduto dalle prime 𝑖 unità;
𝐹𝑖 =𝑖
𝑁 frazione di unità fino alla 𝑖-esima rispetto alla numerosità del
collettivo. Si tratta di una frequenza relativa cumulata.
Massima
CONCENTRAZIONE
Situazioni
intermedie
EQUIDISTRIBUZIONE
𝑥𝑁 = 𝐴 Quindi
𝑄1 =𝐴1
𝐴= 0
𝑄2 =𝐴2
𝐴= 0
…
𝑄𝑁−1 =𝐴𝑁−1
𝐴= 0
𝑄𝑁 =𝐴𝑁
𝐴= 1
𝑭𝒊 ≥ 𝑸𝒊
𝑭𝒊 = 𝑸𝒊
10% delle famiglie possiede il 10%
del reddito totale
20% delle famiglie possiede il 20%
del reddito totale
30% delle famiglie possiede il 30%
del reddito totale
La concentrazione si può misurare proprio partendo dal confronto fra le 𝑄𝑖 e le 𝐹𝑖
(𝑭𝟏 − 𝑸𝟏) = 𝑭𝟏
(𝑭𝟐 − 𝑸𝟐) = 𝑭𝟏
…
(𝑭𝑵 − 𝑸𝑵) = 𝟎
(𝑭𝒊 − 𝑸𝒊) ≥ 𝟎
sono sempre valori
non negativi.
(𝑭𝟏 − 𝑸𝟏) = 𝟎
(𝑭𝟐 − 𝑸𝟐) = 𝟎
…
(𝑭𝑵 − 𝑸𝑵) = 𝟎
Pertanto, si fa la somma di queste differenze
𝐶 = ∑(𝐹𝑖 − 𝑄𝑖)
𝑁−1
𝑖=1
Si noti che la somma va da 𝑖 fino a 𝑁 − 1 proprio perché è sempre (𝐹𝑁 − 𝑄𝑁) = 0.
Massima
CONCENTRAZIONE
Situazioni
intermedie
EQUIDISTRIBUZIONE
C assume valore Massimo
𝑪𝒎𝒂𝒙 = ∑ 𝑭𝒊
𝑵−𝟏
𝒊=𝟏
𝟎 ≤ 𝑪 ≤ 𝑪𝒎𝒂𝒙
C assume valore minimo
𝑪𝒎𝒊𝒏 = 𝟎
La grandezza 𝐶 risulta pertanto essere un indice di concentrazione.
Indice relativo Come al solito però è più utile lavorare con un indice di concentrazione relativo,
cioè una grandezza che varia da 0 (minima concentrazione) a 1 (massima
concentrazione).
Se il minimo di un indice è 0, un indice relativo si ottiene dividendo l’indice stesso
per il suo massimo.
Rapporto di concentrazione di Gini
𝑅 =𝐶
𝐶𝑚𝑎𝑥=
∑ (𝐹𝑖 − 𝑄𝑖)𝑁−1𝑖=1
∑ 𝐹𝑖𝑁−1𝑖=1
Massima
CONCENTRAZIONE
Situazioni
intermedie
EQUIDISTRIBUZIONE
𝑹 = 𝟏
𝟎 ≤ 𝑹 ≤ 𝟏
𝑹 = 𝟎
Esempio per il calcolo di 𝑹
Siano dati i redditi annui (in migliaia di euro) percepiti da un campione di 10
famiglie:
𝒊
famiglie 𝒙𝒊
reddito 𝑨𝒊 𝑭𝒊 𝑸𝒊 (𝑭𝒊 − 𝑸𝒊)
1 10 10 0.10 0.024 0.076
2 12 22 0.20 0.053 0.147
3 16 38 0.30 0.091 0.209
4 18 56 0.40 0.134 0.266
5 22 78 0.50 0.186 0.314
6 26 104 0.60 0.248 0.352
7 30 134 0.70 0.320 0.380
8 88 222 0.80 0.530 0.270
9 92 314 0.90 0.749 0.151
10 105 419 1.00 1.000
Totale 419 2.165
𝐴 = 419 𝐶 = 2.165
𝐴𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 ammontare della variabile posseduto
dalle prime 𝑖 unità.
𝐹𝑖 =𝑖
𝑁
frazione di unità fino alla 𝑖-esima
rispetto alla numerosità del collettivo.
𝑄𝑖 =𝐴𝑖
𝐴
frazione dell’ammontare sul tutto.
𝐶 = ∑(𝐹𝑖 − 𝑄𝑖)
𝑁−1
𝑖=1
𝒊 famiglie
𝒙𝒊 reddito
𝑨𝒊 𝑭𝒊 𝑸𝒊 (𝑭𝒊 − 𝑸𝒊)
1 10 10 0.10 0.024 0.076
2 12 22 0.20 0.053 0.147
3 16 38 0.30 0.091 0.209
4 18 56 0.40 0.134 0.266
5 22 78 0.50 0.186 0.314
6 26 104 0.60 0.248 0.352
7 30 134 0.70 0.320 0.380
8 88 222 0.80 0.530 0.270
9 92 314 0.90 0.749 0.151
10 105 419 1.00 1.000
Totale 419 2.165
Il 40% delle famiglie (𝐹4) possiede il 13.4% del totale della ricchezza (𝑸𝟒)
oppure
Il 70% delle famiglie (𝐹7) possiede il 32% della ricchezza (𝑸𝟕)
Già da queste semplici osservazioni si capisce come non c’è assolutamente
equidistribuzione, anzi il reddito sembra essere concentrato nelle mani delle famiglie
più ricche.
Calcolo di 𝑅
Per calcolare il rapporto di concentrazione del Gini manca solo il valore di 𝐶𝑚𝑎𝑥
𝐶𝑚𝑎𝑥 = ∑ 𝐹𝑖
𝑁−1
𝑖=1
= 4.5
Pertanto risulta:
𝑅 =𝐶
𝐶𝑚𝑎𝑥=
2.165
4.5= 0.481
Si tratta di un rapporto di concentrazione apprezzabile, come ci aspettavamo.
Curva di Lorenz Utilizzando i valori 𝐹𝑖 e 𝑄𝑖 è possibile disegnare un grafico chiamato spezzata di
concentrazione o curva di Lorenz
Si fa un piano cartesiano:
ascisse, valori delle 𝐹𝑖
ordinate, valori di 𝑄𝑖
Per ogni coppia di valori (𝐹𝑖 , 𝑄𝑖) si rappresenta un punto.
Tutti i punti vengono collegati con segmenti di retta a formare una linea spezzata.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Qi
Fi
Curva di Lorenz
Area di concentrazione
Si rappresenta un segmento di
retta che passa per l’origine e
per il punto di coordinate (1,1).
Ogni punto di questa linea ha la
peculiarità di avere 𝐹𝑖 = 𝑄𝑖,
quindi è una linea che
rappresenta la situazione di
equidistribuzione.
L’area che si forma tra la linea di equidistribuzione e la spezzata di concentrazione si
chiama area di concentrazione, e fornisce una misura geometrica della
concentrazione.
Più grande è l’area e maggiore è la concentrazione.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Qi
Fi
Curva di Lorenz
Area di concentrazione
Siccome vale la disuguaglianza
𝐹𝑖 ≥ 𝑄𝑖, i punti della curva di
Lorenz giacciono tutti al di sotto
della linea di equidistribuzione.
Più la curva di Lorenz si
allontana dalla linea di
equidistribuzione, maggiore è la
concentrazione.
Il Box plot Il box plot (o grafico a scatola) è una particolare rappresentazione grafica basata su
misure di tendenza centrale e variabilità.
Su un diagramma sono visualizzati:
il campo di variazione
alcuni percentili o quartili
la mediana.
Si costruisce un rettangolo, con base qualunque e altezza pari all’intervallo
interquartile (differenza fra il terzo e primo quartile)
𝑊 = 𝑄3 − 𝑄1.
Il lato inferiore del rettangolo parte dal primo quartile (𝑄1)
Il lato superiore si arriva al terzo quartile (𝑄3).
Una linea orizzontale ad un livello pari alla mediana (ovvero 𝑄2).
Le linee verticali che escono fuori dal rettangolo rappresentano l’estensione della
distribuzione al di fuori dell’intervallo interquartile, quindi sono delimitate dal
minimo e massimo valore della distribuzione.
𝑸𝟏
𝑸𝟑
Mediana
Massimo
Minimo
Dentro la scatola sono rappresentati il 50% dei valori della distribuzione.
Ogni baffo rappresenta il 25% dei valori più bassi e più alti.
Esempio:
Distr. A Distr. B
Minimo 0 5
𝑄1 12 20
Mediana 22 28
𝑄3 36 33
Massimo 50 60
Il box plot è utile per rappresentare una distribuzione in modo sintetico.
-2
8
18
28
38
48
58
68A B