Indicazioni di massima per iniziare a lavorare -...

Statistica Sociale e Criminale

(12 CFU)

A.A. 2015/2016

CdL Sociologia e Criminologia

Simone Di Zio

Dove siamo…

MODULO 2. La Statistica descrittiva

2.1 La rilevazione del dato statistico

2.2 La rappresentazione dei dati statistici

2.3 Le misure di tendenza centrale

2.4 Le misure di variabilità

2.5 Le Misure delle relazioni tra variabili

Le misure di variabilità

Il concetto di variabilità di una distribuzione

Le misure di tendenza centrale riassumono la distribuzione con un valore, ma non

forniscono nessuna informazione di come le altre modalità si dispongono attorno a

tale valore.

A tal fine serve il concetto di variabilità.

In un collettivo, più le unità statistiche sono distanti fra loro e maggiore è la

variabilità.

La variabilità è definita come l’attitudine di una variabile

ad assumere modalità diverse.

Esempio

Si hanno due distribuzioni unitarie riguardanti lo stesso gruppo di 10 studenti

Id. Alunni

Voto in

Economia Id. Alunni

Voto in

Statistica

1 Alessandro 7.0 1 Alessandro 4.5

2 Dario 7.0 2 Dario 8.0

3 Fulvio 7.0 3 Fulvio 7.0

4 Giuseppe 7.0 4 Giuseppe 4.5

5 Marilena 7.0 5 Marilena 8.0

6 Noemi 7.0 6 Noemi 9.0

7 Osvaldo 7.0 7 Osvaldo 8.0

8 Paride 7.0 8 Paride 6.5

9 Valentina 7.0 9 Valentina 7.5

10 Valerio 7.0 10 Valerio 7.0

Sappiamo calcolare la media aritmetica.

Media voti in Economia = 7.0

Media voti in Statistica = 7.0.

In termini di media, le due

distribuzioni sono IDENTICHE

Variabilità 𝟎 Variabilità > 𝟎

Le due distribuzioni sono uguali in media ma sono completamente diverse per

quanto riguarda la variabilità.

Id. Alunni

Voto in

Economia Id. Alunni

Voto in

Statistica











Economia: i valori sono addensati sulla media;

Statistica: i voti variano attorno alla media.

Rappresentazione grafica

Dobbiamo quantificare, cioè misurare, con opportuni indici la variabilità.

4

5

6

7

8

9

Economia Statistica

Variabilità 0:

linea costante

Variabilità >0

linea con

continue

variazioni

CONDIZIONI Qualunque indice di variabilità deve soddisfare almeno due condizioni:

Deve assumere valore minimo se e solo se tutte le unità della distribuzione

assumono la stessa modalità della variabile (come nell’esempio dei voti in

Economia);

Deve aumentare all’aumentare della diversità fra le modalità della

distribuzione.

Ancora una volta dobbiamo distinguere le scale:

Scale nominali indici di omogeneità ed eterogeneità

Scale ordinali indici di dispersione

Scale a intervalli indici di variabilità in senso stretto

Misure di variabilità per variabili

nominali

Si ricorre ai concetti di eterogeneità e omogeneità di una distribuzione.

Massima omogeneità: quando

tutte le unità statistiche

presentano la stessa modalità.

Minima omogeneità: quando le

unità sono equidistribuite fra le

modalità della variabile (si parla

anche di massima eterogeneità).

Religione

Frequenze

assolute Religione

Frequenze

assolute

Anglicana 0 Anglicana 20 Buddista 100 Buddista 20

Cattolica 0 Cattolica 20 Ortodossa 0 Ortodossa 20

Taoista 0 Taoista 20

Totale 100 Totale 100

Massima

OMOGENEITA’

Minima

OMOGENEITA’

Questi sono due casi teorici limite, mentre in situazioni reali ci sarà sempre una

condizione intermedia, più o meno vicina ai due estremi.

𝑶𝟏

L’indice di omogeneità più semplice è dato dalla somma dei quadrati delle frequenze

relative:

𝑂1 = 𝑓12 + 𝑓2

2 + ⋯ + 𝑓𝑘2 = ∑ 𝑓𝑖

2

𝑘

𝑖=1

Religione

Frequenze

assolute

Frequenze

Relative Religione

Frequenze

assolute

Frequenze

Relative

𝑛𝑖 𝒇𝒊 𝑛𝑖 𝒇𝒊

Anglicana 0 0 Anglicana 20 0.2 Buddista 100 1 Buddista 20 0.2

Cattolica 0 0 Cattolica 20 0.2 Ortodossa 0 0 Ortodossa 20 0.2

Taoista 0 0 Taoista 20 0.2

Totale 100 1 Totale 100 1.0

𝑶𝟏 = 02 + 12 + 02 + 02 + 02 = 𝟏

𝑶𝟏 = 0.22 + 0.22 + 0.22 + 0.22 + 0.22 = 0.04 + 0.04 + 0.04 + 0.04 + 0.04 = 𝟎. 𝟐

Valore massimo e minimo dell’indice 𝑶𝟏

L’indice 𝑂1 ha massimo sempre pari a 1

L’indice 𝑂1 ha minimo che dipende dal numero delle modalità: 1 𝑘⁄ ,

(dove come di consueto 𝑘 indica il numero delle modalità).

𝑶𝟐

Sfrutta il logaritmo delle frequenze relative:

𝑂2 = ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)

𝑘

𝑖=1

Valore massimo e minimo dell’indice 𝑶𝟐

L’indice 𝑂2 ha massimo sempre pari a 0

L’indice 𝑂2 ha minimo che dipende dal numero delle modalità: −𝑙𝑜𝑔(𝑘),

(dove come di consueto 𝑘 indica il numero delle modalità).

Calcolo di 𝑶𝟐 per le due distribuzioni precedenti (Per poter effettuare i calcoli dobbiamo assumere che 𝑙𝑜𝑔(0) = 0).

𝑂2 = ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)

𝑘

𝑖=1

Religione 𝒏𝒊 𝒇𝒊 𝒍𝒐𝒈(𝒇𝒊) 𝒇𝒊 ∙ 𝒍𝒐𝒈(𝒇𝒊) Religione 𝒏𝒊 𝒇𝒊 𝒍𝒐𝒈(𝒇𝒊) 𝒇𝒊 ∙ 𝒍𝒐𝒈(𝒇𝒊)

Anglicana 0 0 0 0 Anglicana 20 0.2 -0.699 -0.140

Buddista 100 1 0 0 Buddista 20 0.2 -0.699 -0.140

Cattolica 0 0 0 0 Cattolica 20 0.2 -0.699 -0.140

Ortodossa 0 0 0 0 Ortodossa 20 0.2 -0.699 -0.140

Taoista 0 0 0 0 Taoista 20 0.2 -0.699 -0.140

Totale 100 1 0 Totale 100 1.0 -0.699

Massima OMOGENEITA’ Minima OMOGENEITA’

𝑂2 = 0 𝑂2 = −𝑙𝑜𝑔(𝑘)

INDICI DI ETEROGENEITÀ

Sottraendo da 1 il primo indice di omogeneità, si ottiene l’indice di eterogeneità di

Gini (dal nome del suo ideatore):

𝐸1 = 1 − 𝑂1 = 1 − ∑ 𝑓𝑖2

𝑘

𝑖=1

Che ha minimo pari a 0 e massimo pari a 1 − 1 𝑘⁄ .

Dal secondo indice di omogeneità, semplicemente cambiando il suo segno, si ottiene

invece l’indice di Entropia:

𝐸2 = −𝑂2 = − ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)

𝑘

𝑖=1

Che ha valore minimo pari a 0 e massimo pari a 𝑙𝑜𝑔(𝑘).

INDICI RELATIVI

In statistica è spesso utile ottenere degli indici che varino fra 0 e 1

perché sono più facili da interpretare

perché si possono fare i confronti fra indici diversi.

Quando un indice viene trasformato in modo da avere minimo 0 e massimo 1 si dice

che si ha un indice relativo.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

0 1 0,33 0,8

Indici di eterogeneità relativi

Gli indici di eterogeneità relativi che derivano da 𝐸1 e 𝐸2 sono i seguenti (che

indichiamo con la e minuscola):

𝑒1 =𝑘

𝑘 − 1𝐸1

𝑒2 =𝐸2

𝑙𝑜𝑔(𝑘)

Come più volte detto in precedenza, essendo questi indici calcolabili per variabili

nominali, si possono ovviamente calcolare per qualunque tipo di variabile.

Per il calcolo di questi indici si utilizzano solo ed esclusivamente le informazioni

contenute nelle frequenze.

I valori estremi di un indice E’ sempre molto importante, quando si calcola un indice, sapere qual è il valore

massimo e minimo che può assumere.

Nella vita quotidiana, senza che ce ne rendiamo

conto, quando valutiamo una misura facciamo

sempre un confronto automatico con dei valori di

riferimento.

Quando abbiamo a che fare con gli indici statistici è lo stesso.

Se ad esempio abbiamo un indice di variabilità pari a 11 cosa possiamo dire su di

esso? E’ alto o basso?

Se minimo = 0 e massimo = 12 allora possiamo affermare che 12 è molto alto.

Se minimo = 0 e massimo = 3000 allora lo stesso numero 11 è bassa variabilità.

Quindi, non bisogna mai cercare di interpretare un indice senza conoscerne i valori

minimo e massimo (campo di variazione).

Esempio di calcolo e interpretazione Calcoliamo gli indici di omogeneità 𝑂1 e 𝑂2 sulla seguente distribuzione e

interpretiamo i risultati.

Condizione lavorativa

Frequenze

Assolute

Frequenze

Relative

calcolo

calcolo

calcolo

𝒙𝒊 𝒏𝒊 𝒇𝒊 𝒇𝒊𝟐 𝒍𝒐𝒈(𝒇𝒊) 𝒇𝒊 ∙ 𝒍𝒐𝒈(𝒇𝒊)

Operaio 389 0.389 0.3892 = 0.151 -0.410 -0.160

Impiegato 215 0.215 0.2152 = 0.046 -0.668 -0.144

Dirigente 98 0.098 0.0982 = 0.010 -1.009 -0.099

Libero Professionista 172 0.172 0.1722 = 0.030 -0.764 -0.131

Disoccupato 89 0.089 0.0892 = 0.008 -1.051 -0.094

Altro 37 0.037 0.0372 = 0.001 -1.432 -0.053

TOTALE 1.000 1.000

0.246

-0.680

𝑂1 = ∑ 𝑓𝑖2𝑘

𝑖=1 = 0.246 𝑚𝑖𝑛 = 1 6⁄ = 0.167 𝑚𝑎𝑥 = 1 omogeneità BASSA

𝑂2 = ∑ 𝑓𝑖 ∙ 𝑙𝑜𝑔(𝑓𝑖)𝑘𝑖=1 = −0.680 𝑚𝑖𝑛 = − log(6) = −0.778 𝑚𝑎𝑥 = 0 omogeneità BASSA

(ovviamente non possiamo avere due risultati contrastanti).

Indici di eterogeneità

Indice di Gini: 𝐸1 = 1 − 𝑂1 = 1 − 0.246 = 0.754 Eterogeneità ALTA

Indice di entropia: 𝐸2 = −𝑂2 = 0.680 Eterogeneità ALTA

Indici di eterogeneità relativi

𝑒1 =𝑘

𝑘−1𝐸1 =

6

6−1∙ 0.754 = 0.905 Eterogeneità ALTA

𝑒2 =𝐸2

𝑙𝑜𝑔(𝑘)=

0.680

0.778= 0.874 Eterogeneità ALTA

Sapendo che il massimo e il minimo di tali indici sono sempre zero e uno,

l’interpretazione è immediata.

Misure di variabilità per variabili

ordinali

Bisogna sfruttare l’informazione che deriva dall’ordinamento delle modalità.

Abbiamo gli indici di dispersione.

Per una variabile almeno ordinale si possono individuare le modalità estreme, cioè la

prima e l’ultima.

Una distribuzione ha dispersione minima quando tutte le unità presentano la

stessa modalità della variabile.

Una distribuzione ha dispersione massima quando metà delle unità presentano

la modalità più bassa e metà presentano la modalità più alta.

Esempio dei due casi estremi

Titolo di studio

Frequenze

assolute Titolo di studio

Frequenze

assolute

Licenza elementare 0 Licenza elementare 20 Licenza media 40 Licenza media 0

Diploma 0 Diploma 0

Laurea 0 Laurea 20

Totale 40 Totale 40

Minima DISPERSIONE Massima DISPERSIONE

L’indice di dispersione D sfrutta le frequenze relative cumulate (indicate con 𝐹𝑖)

𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)

𝑘−1

𝑖=1

Esempio di calcolo: CASO 1: MINIMA DISPERSIONE

𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)

𝑘−1

𝑖=1

Titolo di studio

Frequenze

assolute

Frequenze

Relative

Freq. Rel.

Cumulate calcolo calcolo

𝒏𝒊 𝒇𝒊 𝑭𝒊 𝟏 − 𝑭𝒊 𝑭𝒊(𝟏 − 𝑭𝒊)

Licenza elementare 0 0 0 1 0

Licenza media 40 1 1 0 0

Diploma 0 0 1 0 0

Laurea 0 0 1

Totale 40 1 0

Per calcolare D basta fare la somma dei valori ottenuti e moltiplicare per 2.

𝑫 = 𝟐 ∙ 𝟎 = 𝟎

Esempio di calcolo: CASO 2: MASSIMA DISPERSIONE

𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)

𝑘−1

𝑖=1

Titolo di studio

Frequenze

assolute

Frequenze

Relative

Freq. Rel.



Licenza elementare 20 0.5 0.50 0.50 0.25

Licenza media 0 0.0 0.50 0.50 0.25

Diploma 0 0.0 0.50 0.50 0.25

Laurea 20 0.5 1.00

Totale 40 1.00 0.75

𝑫 = 𝟐 ∙ 𝟎. 𝟕𝟓 = 𝟏. 𝟓𝟎

Esempio di calcolo: CASO 3: DISPERSIONE INTERMEDIA

𝐷 = 2 ∙ ∑ 𝐹𝑖(1 − 𝐹𝑖)

𝑘−1

𝑖=1

Titolo di studio

Frequenze

assolute

Frequenze

Relative

Freq. Rel.



Licenza elementare 11 0.275 0.275 0.725 0.199

Licenza media 7 0.175 0.450 0.550 0.247

Diploma 9 0.225 0.675 0.325 0.219

Laurea 13 0.325 1.000

Totale 40 1.000 0.666

𝑫 = 𝟐 ∙ 𝟎. 𝟔𝟔𝟔 = 𝟏. 𝟑𝟑𝟐

Come ci aspettavamo è un valore intermedio fra il minimo (0) e il massimo (1.5).

Interpretazione: 1.332 è molto vicino al massimo, per cui si tratta di una

distribuzione con dispersione molto alta.

Misure di variabilità per

variabili a intervalli

Ricordiamo che possiamo calcolare la media aritmetica.

Possiamo quindi fare operazioni algebriche sulle modalità della variabile.

Campo di Variazione Un indice di variabilità molto semplice da calcolare è dato dalla differenza fra la

modalità più grande e quella più piccola: si chiama campo di variazione.

Id. Alunni

Voto in

Economia Id. Alunni

Voto in

Statistica











Variabile voto Economia: 77 = 0

Variabile voto Statistica: 94.5 = 4.5

La seconda distribuzione ha un campo di variazione maggiore.

Possibile commento “I voti in Economia e Statistica di questo gruppo di studenti sono mediamente uguali

e pari a 7, ma mentre in Economia non c’è variabilità fra gli alunni, nel caso di

Statistica i voti sono più variabili, con un campo di variazione pari a 4.5 voti. Tali

indici sembrano mostrare una preparazione mediamente buona per entrambe le

materie ma in Economia appare esserci maggiore equilibrio nella preparazione degli

studenti.”

Il campo di variazione ha il privilegio della semplicità di calcolo ma, per contro,

risulta troppo grezzo, perché tiene conto solo dei valori estremi.

Pertanto viene usato solo come prima approssimazione della variabilità

Varianza e scarto quadratico medio

Questi indici si basano sulla diversità fra le modalità assunte da ogni unità statistica e

la media aritmetica.

Scarti dalla media aritmetica In simboli queste differenze si indicano con 𝑥𝑖 − �̅� dove, al solito, 𝑥𝑖 sono le

modalità della variabile.

Id. Alunni

Voto in

Statistica

Scarti dalla media

aritmetica

1 Alessandro 4.5 4.5 - 7 = - 2.5

2 Dario 8.0 8.0 - 7 = +1.0

3 Fulvio 7.0 7.0 - 7 = +0.0

4 Giuseppe 4.5 4.5 - 7 = - 2.5

5 Marilena 8.0 8.0 - 7 = +1.0

6 Noemi 9.0 9.0 - 7 = +2.0

7 Osvaldo 8.0 8.0 - 7 = +1.0

8 Paride 6.5 6.5 - 7 = - 0.5

9 Valentina 7.5 7.5 - 7 = +0.5

10 Valerio 7.0 7.0 - 7 = +0.0 Totale 0.0

Gli scarti indicano in che modo le modalità si disperdono attorno alla media

aritmetica, quindi rappresentano, in prima approssimazione, la variabilità di questa

distribuzione.

Per ottenere un unico numero, la cosa più semplice sarebbe fare la somma.

Ma la somma vale sempre 0 (proprietà della media aritmetica)

Dobbiamo fare in modo di eliminare i segni delle differenze.

Ad esempio possiamo elevare al quadrato ogni differenza

Id. Alunni

Voto in

Statistica

Scarti dalla

media aritmetica

Quadrati

degli Scarti

𝑖 𝑥𝑖 𝑥𝑖 − �̅� (𝑥𝑖 − �̅�)2

1 Alessandro 4.5 -2.5 (-2.5)2 = 6.25

2 Dario 8.0 1.0 (+1.0)2 = 1.00

3 Fulvio 7.0 0.0 (0.0)2 = 0.00

4 Giuseppe 4.5 -2.5 (-2.5)2 = 6.25

5 Marilena 8.0 1.0 (+1.0)2 = 1.00

6 Noemi 9.0 2.0 (+2.0)2 = 4.00

7 Osvaldo 8.0 1.0 (+1.0)2 = 1.00

8 Paride 6.5 -0.5 (-0.5)2 = 0.25

9 Valentina 7.5 0.5 (+0.5)2 = 0.25

10 Valerio 7.0 0.0 (0.0)2 = 0.00

Totale 0.0 20.00

Somma degli scarti al quadrato ∑ (𝑥𝑖 − �̅�)2𝑁

𝑖=1 , otteniamo un unico valore e abbaino risolto anche il problema dei

segni (nell’esempio questa somma è 20.00).

Ma non siamo ancora arrivati a un indice di variabilità, perché il risultato dipende

dalla numerosità del collettivo.

Un indice di variabilità deve invece misurare la dispersione indipendentemente dalla

numerosità del collettivo.

Soluzione: dividere la somma così ottenuta per la numerosità del collettivo 𝑁 = 10.

20 10⁄ = 2

Questo indice è noto come varianza 2

Varianza 𝜎2 =∑ (𝑥𝑖−�̅�)2𝑁

𝑖=1

𝑁

Interpretazione Ma come interpretiamo il valore 2? Si tratta di due voti? La risposta è no, perché

essendo il risultato di una somma di quadrati, la varianza è espressa nel quadrato

dell’unità di misura della variabile.

Per questa ragione si usa fare la radice quadrata della varianza √𝜎2

Si ottiene un indice di variabilità con la stessa unità di misura della variabile.

Scarto quadratico medio Questo indice prende il nome di scarto quadratico medio (noto anche come

deviazione standard o scostamento quadratico medio) e si indica con la lettera

greca sigma minuscola: .

𝜎 = √∑ (𝑥𝑖 − �̅�)2𝑁

𝑖=1

𝑁

e 2 valgono 0 in assenza di variabilità e cresce all’aumentare della variabilità.

Nel nostro esempio abbiamo: 𝜎 = √2 = 1.41

Possiamo ora affermare che nella distribuzione dei voti in Statistica si ha uno scarto

quadratico medio di 1.41 voti.

Devianza Corrisponde al numeratore della varianza. Quindi la formula della devianza è:

𝐷𝑒𝑣 = ∑ (𝑥𝑖 − �̅�)2𝑁

𝑖=1

Formule per le distribuzioni di frequenze

Devianza 𝐷𝑒𝑣 = ∑ (𝑥𝑖 − �̅�)2𝑘

𝑖=1∙ 𝑛𝑖

Varianza 𝜎2 =∑ (𝑥𝑖 − �̅�)2 ∙ 𝑛𝑖

𝑘𝑖=1

𝑁=

𝐷𝑒𝑣

𝑁

Scarto quadratico medio

𝜎 = √

∑ (𝑥𝑖 − �̅�)2 ∙ 𝑛𝑖𝑘𝑖=1

𝑁= √𝜎2

Esempio di calcolo

Utilizzando la tecnica delle colonne affiancate calcoliamo ora questi indici di

variabilità per la distribuzione delle ore di studio (Tabella MV13), la cui media

ricordiamo è �̅� = 22.46.

Ore di

studio

Frequenze

Assolute

Scarti dalla media Quadrati degli

scarti

Prodotto per le

frequenze

𝑥𝑖 𝑛𝑖 𝑥𝑖 − �̅� (𝑥𝑖 − �̅�)2 (𝑥𝑖 − �̅�)2𝑛𝑖

18 2 18-22.46 = -4.46 -4.462 = 19.89 19.892 = 39.78

20 3 20-22.46 = -2.46 -2.462 = 6.05 6.053 = 18.15

22 4 22-22.46 = -0.46 -0.462 = 0.21 0.214 = 0.84

24 2 24-22.46 = 1.54 1.542 = 2.37 2.372 = 4.74

30 2 30-22.46 = 7.54 7.542 = 56.85 56.852 = 113.7

Totale 13 175.21

Devianza 𝐷𝑒𝑣 = 175.21

Varianza 𝜎2 =𝐷𝑒𝑣

𝑁=

175.21

13= 13.48

Scarto quadratico medio 𝜎 = √𝜎2 = √13.48 = 3.67

Caso particolare: modalità suddivise in classi Anche in questo caso si usa il valore centrale della classe ci

′ come modalità.

Prospetto riassuntivo sulle misure di variabilità

TIPO DI VARIABILE Operazioni

consentite

Misure di variabilità calcolabili Indici di variabilità

suggeriti

Variabili su scala

nominale = Omogeneità 𝑂1, 𝑂2

Variabili su scala

ordinale = > < Omogeneità e Dispersione 𝐷

Variabili su scala a

intervalli

= > <

+ -

Omogeneità, Dispersione, Campo di

variazione, Scarto Quadratico Medio,

Varianza, Differenze medie

Scarto Quadratico Medio:

𝜎

Varianza: 𝜎2

Devianza: 𝐷𝑒𝑣

Diff. medie: Δ, Δ2, Δ2, Δ𝑅2

Variabilità relativa alla media e al massimo Problema: confronto della variabilità di due diverse distribuzioni.

Vi sono situazioni in cui gli indici di variabilità precedentemente visti non sono

adatti al confronto della variabilità di due o più distribuzioni:

1 Fenomeni che sono misurati in unità di

misura diverse

Indici percentuali di variabilità

Indici relativi di variabilità 2 Fenomeni che pur avendo la stessa

unità di misura hanno valori medi

molto diversi

In entrambi i casi si ottengono dei numeri puri, cioè indipendenti dall’unità di

misura della variabile, consentendo pertanto i confronti.

Esempio 1: unità di misura diverse

Giorno

Modello A

(Litri)

Modello B

(Galloni)

Lunedì 6.250 1.651

Martedì 6.300 1.664

Mercoledì 7.500 1.981

Giovedì 4.250 1.123

Venerdì 5.750 1.519

Sabato 8.150 2.153

Domenica 5.950 1.572

Totale 44.150 11.663

Le medie aritmetiche sono �̅�𝐴 = 6.307 e �̅�𝐵 = 1.666.

La varianza e la deviazione standard sono:

Modello A: 𝝈𝑨𝟐 = 𝟏. 𝟑𝟓𝟔𝟎 𝝈𝑨 = 𝟏. 𝟏𝟔𝟒

Modello B: 𝝈𝑩𝟐 = 𝟎. 𝟎𝟗𝟒𝟔 𝝈𝑩 = 𝟎. 𝟑𝟎𝟖

C’è maggiore variabilità di consumo nel modello A? Non possiamo dirlo ancora!

Si tratta infatti di un fenomeno in due diverse unità di misura

Coefficiente di variazione

Il più noto indice percentuale di variabilità.

E’ dato dal rapporto fra deviazione standard e media aritmetica:

𝐶𝑉 =𝜎

�̅�

Come gli indici di variabilità assoluta anche il CV ha sempre minimo pari a zero e

massimo non definito.

Nel nostro esempio:

𝐶𝑉𝐴 =𝜎𝐴

�̅�𝐴=

1.164

6.307= 0.185

𝐶𝑉𝐵 =𝜎𝐵

�̅�𝐵=

0.308

1.666= 0.185

Le due misure di variabilità sono identiche.

Esempio 2: valori medi molto diversi

Animale Peso Cavalli

kg

Animale

Peso Cani

kg

Unità 1 570 Unità 1 2.5










Totale 5235 27.3

Le medie delle due distribuzioni sono 523.50kg e 2.73kg

La varianza e la deviazione standard sono:

Cavalli: 𝝈𝟐 = 𝟗𝟑𝟓. 𝟐𝟓𝟎 𝝈 = 𝟑𝟎. 𝟓𝟖𝟐

Cani: 𝝈𝟐 = 𝟎. 𝟎𝟖𝟎 𝝈 = 𝟎. 𝟐𝟖𝟑

C’è maggiore variabilità di peso fra i cavalli? Non possiamo dirlo ancora!

Si tratta infatti di un fenomeno con intensità media troppo diverse.

Deviazione standard 30.582kg. Va confrontata con un

peso medio di 523.50kg

Una variabilità di circa 30 chilogrammi su un animali di

circa mezza tonnellata.

Deviazione standard 283g. Va confrontata con un peso

medio di 2.5kg

Qualunque distribuzione dei pesi dei cavalli è sempre più variabile del peso dei

cani, semplicemente perché questi ultimi sono più piccoli.

Dobbiamo allora calcolare i coefficienti di variazione.

𝐶𝑉𝐶𝑎𝑣𝑎𝑙𝑙𝑖 =30.582

523.50= 0.058

𝐶𝑉𝐶𝑎𝑛𝑖 =0.283

2.73= 0.104

Nella distribuzione del peso dei cani la

variabilità è quasi il doppio di quella

della distribuzione dei cavalli, ribaltando

completamente le iniziali conclusioni.

La Concentrazione: concetto e misure Variabile quantitativa trasferibile.

Si tratta di variabili per le quali ha senso pensare che una parte o tutto

l’ammontare della variabile possa essere ceduto da una unità statistica ad un’altra.

Variabili quantitative trasferibili Variabili quantitative non trasferibili Reddito

Dipendenti di un’impresa

N° automobili di una famiglia

Titolo di studio

Età

Genere

La concentrazione è un concetto statistico che misura come una variabile

quantitativa trasferibile è ripartita fra le unità statistiche di un collettivo.

L’esempio classico è la misura della concentrazione del reddito.

Esempio: reddito delle famiglie italiane

Massima

CONCENTRAZIONE

Situazioni

intermedie

EQUIDISTRIBUZIONE

Se la maggior parte del

reddito è posseduto da poche

famiglie ricche, si dice che il

reddito è concentrato.

Ci sono infinite

situazioni intermedie

che si possono

misurare con

opportuni indici.

Se l’ammontare complessivo del

reddito è posseduto in parti uguali

da tutte le famiglie, si dice che c’è

equidistribuzione.

Collettivo di 𝑁 unità statistiche ordinate secondo la variabile 𝑥

Indichiamo l’ammontare complessivo della variabile 𝒙 con la lettera 𝐴:

𝐴 = ∑ 𝑥𝑖

𝑁

𝑖=1

Si ha equidistribuzione quando ogni unità statistica ha la stessa quantità della

variabile:

𝑥𝑖 =𝐴

𝑁𝑝𝑒𝑟 𝑖 = 1,2, … , 𝑁

Es. tutto il reddito

posseduto dalle famiglie

italiane

Ogni famiglia possiede la

stessa frazione di reddito

totale disponibile

Situazione opposta, cioè la massima concentrazione, si ha quando una sola unità

(l’ultima, cioè la N-esima) possiede tutto l’ammontare della variabile (A):

𝑥1 = 0

𝑥2 = 0 …

𝑥𝑛 = 𝐴

Quindi le possibili situazioni sono:

Massima

CONCENTRAZIONE

Situazioni

intermedie

EQUIDISTRIBUZIONE

𝑥1 = 0

𝑥2 = 0 …

…

𝑥𝑁 = 𝐴

?

𝑥1 =

𝐴

𝑁

𝑥2 =𝐴

𝑁

…

𝑥𝑁 =𝐴

𝑁

Situazioni intermedie Si ordinano le unità statistiche in modo non decrescente:

𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑁

Si definiscono le seguenti grandezze:

𝐴𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 ammontare della variabile posseduto dalle prime 𝑖 unità più povere (cioè posseggono meno).

𝑄𝑖 =𝐴𝑖

𝐴 frazione di questo ammontare sul tutto.

Quanta parte della variabile, rispetto al totale disponibile,

è posseduto dalle prime 𝑖 unità;

𝐹𝑖 =𝑖

𝑁 frazione di unità fino alla 𝑖-esima rispetto alla numerosità del

collettivo. Si tratta di una frequenza relativa cumulata.

Massima

CONCENTRAZIONE

Situazioni

intermedie

EQUIDISTRIBUZIONE

𝑥𝑁 = 𝐴 Quindi

𝑄1 =𝐴1

𝐴= 0

𝑄2 =𝐴2

𝐴= 0

…

𝑄𝑁−1 =𝐴𝑁−1

𝐴= 0

𝑄𝑁 =𝐴𝑁

𝐴= 1

𝑭𝒊 ≥ 𝑸𝒊

𝑭𝒊 = 𝑸𝒊

10% delle famiglie possiede il 10%

del reddito totale


del reddito totale


del reddito totale

La concentrazione si può misurare proprio partendo dal confronto fra le 𝑄𝑖 e le 𝐹𝑖

(𝑭𝟏 − 𝑸𝟏) = 𝑭𝟏

(𝑭𝟐 − 𝑸𝟐) = 𝑭𝟏

…

(𝑭𝑵 − 𝑸𝑵) = 𝟎

(𝑭𝒊 − 𝑸𝒊) ≥ 𝟎

sono sempre valori

non negativi.

(𝑭𝟏 − 𝑸𝟏) = 𝟎

(𝑭𝟐 − 𝑸𝟐) = 𝟎

…

(𝑭𝑵 − 𝑸𝑵) = 𝟎

Pertanto, si fa la somma di queste differenze

𝐶 = ∑(𝐹𝑖 − 𝑄𝑖)

𝑁−1

𝑖=1

Si noti che la somma va da 𝑖 fino a 𝑁 − 1 proprio perché è sempre (𝐹𝑁 − 𝑄𝑁) = 0.

Massima

CONCENTRAZIONE

Situazioni

intermedie

EQUIDISTRIBUZIONE

C assume valore Massimo

𝑪𝒎𝒂𝒙 = ∑ 𝑭𝒊

𝑵−𝟏

𝒊=𝟏

𝟎 ≤ 𝑪 ≤ 𝑪𝒎𝒂𝒙

C assume valore minimo

𝑪𝒎𝒊𝒏 = 𝟎

La grandezza 𝐶 risulta pertanto essere un indice di concentrazione.

Indice relativo Come al solito però è più utile lavorare con un indice di concentrazione relativo,

cioè una grandezza che varia da 0 (minima concentrazione) a 1 (massima

concentrazione).

Se il minimo di un indice è 0, un indice relativo si ottiene dividendo l’indice stesso

per il suo massimo.

Rapporto di concentrazione di Gini

𝑅 =𝐶

𝐶𝑚𝑎𝑥=

∑ (𝐹𝑖 − 𝑄𝑖)𝑁−1𝑖=1

∑ 𝐹𝑖𝑁−1𝑖=1

Massima

CONCENTRAZIONE

Situazioni

intermedie

EQUIDISTRIBUZIONE

𝑹 = 𝟏

𝟎 ≤ 𝑹 ≤ 𝟏

𝑹 = 𝟎

Esempio per il calcolo di 𝑹

Siano dati i redditi annui (in migliaia di euro) percepiti da un campione di 10

famiglie:

𝒊

famiglie 𝒙𝒊

reddito 𝑨𝒊 𝑭𝒊 𝑸𝒊 (𝑭𝒊 − 𝑸𝒊)

1 10 10 0.10 0.024 0.076

2 12 22 0.20 0.053 0.147

3 16 38 0.30 0.091 0.209

4 18 56 0.40 0.134 0.266

5 22 78 0.50 0.186 0.314

6 26 104 0.60 0.248 0.352

7 30 134 0.70 0.320 0.380

8 88 222 0.80 0.530 0.270

9 92 314 0.90 0.749 0.151

10 105 419 1.00 1.000

Totale 419 2.165

𝐴 = 419 𝐶 = 2.165

𝐴𝑖 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 ammontare della variabile posseduto

dalle prime 𝑖 unità.

𝐹𝑖 =𝑖

𝑁

frazione di unità fino alla 𝑖-esima

rispetto alla numerosità del collettivo.

𝑄𝑖 =𝐴𝑖

𝐴

frazione dell’ammontare sul tutto.

𝐶 = ∑(𝐹𝑖 − 𝑄𝑖)

𝑁−1

𝑖=1

𝒊 famiglie

𝒙𝒊 reddito

𝑨𝒊 𝑭𝒊 𝑸𝒊 (𝑭𝒊 − 𝑸𝒊)

1 10 10 0.10 0.024 0.076

2 12 22 0.20 0.053 0.147

3 16 38 0.30 0.091 0.209

4 18 56 0.40 0.134 0.266

5 22 78 0.50 0.186 0.314

6 26 104 0.60 0.248 0.352

7 30 134 0.70 0.320 0.380

8 88 222 0.80 0.530 0.270

9 92 314 0.90 0.749 0.151

10 105 419 1.00 1.000

Totale 419 2.165

Il 40% delle famiglie (𝐹4) possiede il 13.4% del totale della ricchezza (𝑸𝟒)

oppure

Il 70% delle famiglie (𝐹7) possiede il 32% della ricchezza (𝑸𝟕)

Già da queste semplici osservazioni si capisce come non c’è assolutamente

equidistribuzione, anzi il reddito sembra essere concentrato nelle mani delle famiglie

più ricche.

Calcolo di 𝑅

Per calcolare il rapporto di concentrazione del Gini manca solo il valore di 𝐶𝑚𝑎𝑥

𝐶𝑚𝑎𝑥 = ∑ 𝐹𝑖

𝑁−1

𝑖=1

= 4.5

Pertanto risulta:

𝑅 =𝐶

𝐶𝑚𝑎𝑥=

2.165

4.5= 0.481

Si tratta di un rapporto di concentrazione apprezzabile, come ci aspettavamo.

Curva di Lorenz Utilizzando i valori 𝐹𝑖 e 𝑄𝑖 è possibile disegnare un grafico chiamato spezzata di

concentrazione o curva di Lorenz

Si fa un piano cartesiano:

ascisse, valori delle 𝐹𝑖

ordinate, valori di 𝑄𝑖

Per ogni coppia di valori (𝐹𝑖 , 𝑄𝑖) si rappresenta un punto.

Tutti i punti vengono collegati con segmenti di retta a formare una linea spezzata.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Qi

Fi

Curva di Lorenz

Area di concentrazione

Si rappresenta un segmento di

retta che passa per l’origine e

per il punto di coordinate (1,1).

Ogni punto di questa linea ha la

peculiarità di avere 𝐹𝑖 = 𝑄𝑖,

quindi è una linea che

rappresenta la situazione di

equidistribuzione.

L’area che si forma tra la linea di equidistribuzione e la spezzata di concentrazione si

chiama area di concentrazione, e fornisce una misura geometrica della

concentrazione.

Più grande è l’area e maggiore è la concentrazione.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Qi

Fi

Curva di Lorenz

Area di concentrazione

Siccome vale la disuguaglianza

𝐹𝑖 ≥ 𝑄𝑖, i punti della curva di

Lorenz giacciono tutti al di sotto

della linea di equidistribuzione.

Più la curva di Lorenz si

allontana dalla linea di

equidistribuzione, maggiore è la

concentrazione.

Il Box plot Il box plot (o grafico a scatola) è una particolare rappresentazione grafica basata su

misure di tendenza centrale e variabilità.

Su un diagramma sono visualizzati:

il campo di variazione

alcuni percentili o quartili

la mediana.

Si costruisce un rettangolo, con base qualunque e altezza pari all’intervallo

interquartile (differenza fra il terzo e primo quartile)

𝑊 = 𝑄3 − 𝑄1.

Il lato inferiore del rettangolo parte dal primo quartile (𝑄1)

Il lato superiore si arriva al terzo quartile (𝑄3).

Una linea orizzontale ad un livello pari alla mediana (ovvero 𝑄2).

Le linee verticali che escono fuori dal rettangolo rappresentano l’estensione della

distribuzione al di fuori dell’intervallo interquartile, quindi sono delimitate dal

minimo e massimo valore della distribuzione.

𝑸𝟏

𝑸𝟑

Mediana

Massimo

Minimo

Dentro la scatola sono rappresentati il 50% dei valori della distribuzione.

Ogni baffo rappresenta il 25% dei valori più bassi e più alti.

Esempio:

Distr. A Distr. B

Minimo 0 5

𝑄1 12 20

Mediana 22 28

𝑄3 36 33

Massimo 50 60

Il box plot è utile per rappresentare una distribuzione in modo sintetico.

-2

8

18

28

38

48

58

68A B

Indicazioni di massima per iniziare a lavorare -...

Documents

Transcript of Indicazioni di massima per iniziare a lavorare -...