Università degli Studi di Basilicata – Facoltà di Economia ... · Le scale di misura delle...
Transcript of Università degli Studi di Basilicata – Facoltà di Economia ... · Le scale di misura delle...
Università degli Studi di Basilicata – Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013
lezioni di statistica - di Massimo Cristallo -
LA SINTESI DELLE INFORMAZIONI CONTENUTE NEI DATI OSSERVATI
1. Introduzione
La Statistica è la disciplina che studia i fenomeni collettivi ed atipici allo scopo di
“scoprire” il contenuto informativo di un insieme di casi osservati.
La parola “statistica” trae la sua origine dal termine latino medievale “status”, in
quanto inizialmente indicava la scienza che studiava gli avvenimenti principali dello
Stato.
I successivi sviluppi della Statistica hanno fatto si che, oggi, la disciplina possa
essere applicata in diversi settori, quali l’economia, l’agricoltura, la climatologia, la
biologia, la medicina, ecc..
I nuovi sviluppi della Statistica moderna non hanno, però, ridotto la sua funzione
di “mezzo di informazione” per l’amministrazione di enti pubblici o privati.
Non vi sono limiti all’utilizzo dei metodi statistici, purché lo studio riguardi
fenomeni collettivi ed atipici, cioè riferiti a più osservazioni suscettibili alla diversità.
Accanto alla Statistica descrittiva, la quale si limita a descrivere un insieme di
dati mediante forme differenti, quali tabelle, grafici e misure di sintesi numerica, si
pone la Statistica inferenziale, che consente di trarre conclusioni su una popolazione
attraverso l’analisi dei risultati di un suo sottoinsieme (campione).
Per popolazione si intende l’insieme delle unità su cui il fenomeno si manifesta in
un certo “spazio” e in una determinata “epoca”, mentre i singoli elementi che la
costituiscono vengono denominati unità statistiche. Esempi di popolazione sono:
l’insieme dei ristoranti di una provincia in una certa epoca, l’insieme delle parti del
suolo o dell’atmosfera di una certa regione, l’insieme degli incidenti stradali avvenuti
in Basilicata nel 2007.
Una popolazione si definisce finita quando le unità che la costituiscono sono in
numero finito (anche grande), mentre è infinita quando è costituita da un numero
illimitato di unità.
Le caratteristiche che si osservano in una popolazione, denominate caratteri o
variabili, possono essere di tipo qualitativo oppure quantitativo, a seconda che le loro
determinazioni (o modalità) possano manifestarsi con espressioni verbali o mediante
numeri.
2
I caratteri quantitativi si distinguono, a loro volta, in continui e discreti. I primi
sono quelli che possono assumere tutti i valori appartenenti ad un intervallo reale,
come ad esempio l’età, la statura, il peso corporeo, il tempo necessario per compiere
un percorso, la temperatura, ecc.; i secondi sono quelli che possono assumere un
numero finito o una infinibilità numerabile di valori, come ad esempio il numero dei
componenti familiari, il numero degli impiegati nelle aziende, ecc..
Prima di decidere quale sia la tecnica statistica più adatta in una determinata
circostanza, è necessario, quindi, definire la natura dei dati rilevati. A riguardo, nel
presente lavoro si illustrerà la classificazione proposta da Stevens (1951), che
distingue le variabili in funzione della scala (o livello) di misura, ovvero delle
operazioni matematiche plausibili con le modalità.
2. Le scale di misura delle variabili
Secondo la classificazione proposta da Stevens (1951), le scale di misura di una
variabile si distinguono in nominali, ordinali, a intervalli e a rapporti (o cardinali).
La scala più semplice è quella nominale, dove le modalità rientrano in categorie o
classi non ordinabili; non è possibile, quindi, associare dei numeri a ciascuna
categoria, se non per motivi di convenienza quando si effettua l’analisi dei dati.
Esempi di variabili misurabili su scala nominale sono: il gruppo sanguigno delle
persone, il settore di attività economica prevalente di un’impresa, il comune di
residenza delle persone.
Si potrebbe, ad esempio, pensare di classificare un gruppo di individui in base al
gruppo sanguigno di appartenenza, assegnando il numero 1 al gruppo “0”, il numero 2
al gruppo “A”, il numero 3 al gruppo “B” ed il numero 4 al gruppo “AB”. L’ordine e
la grandezza dei numeri associati a ciascun gruppo non sono importanti; quindi, non è
possibile in questo caso trattare i dati con operazioni algebriche, né è possibile
ordinarli. Si può soltanto stabilire se un certo individuo appartiene ad un gruppo
piuttosto che ad un altro.
Quando le categorie o classi di una variabile presentano stati ordinabili, ma
tuttavia non esiste una unità di misura e quindi una distanza tra due categorie prese a
caso, allora si dice che la variabile è misurabile su scala ordinale: in questo caso esiste
un ordine naturale tra le diverse modalità, ma non è possibile applicare molte
operazioni algebriche.
3
Esempi di variabili misurabili su scala ordinale sono: le valutazioni espresse dai
consumatori sulle caratteristiche di un certo prodotto, il livello di inquadramento dei
dipendenti di una certa azienda, il titolo di studio delle persone, i gradi militari.
Il numero d’ordine che compete ad una certa modalità di un carattere misurabile
su scala ordinale si chiama “rango”.
Considerando la graduatoria crescente dei titoli di studio delle persone, i ranghi
sono: 1 per la licenza elementare, 2 per la licenza media inferiore, 3 per la licenza
media superiore, 4 per la laurea di primo livello, 5 per la laurea di secondo livello e 6
per il dottorato di ricerca. Per le cose dette, con la scala ordinale non è possibile
sommare due categorie: “licenza media inferiore” + “licenza media superiore” non è
uguale a “laurea di secondo livello”. Si può, però, stabilire tra due qualsiasi
osservazioni, se una è “minore”, “uguale” o “maggiore” dell’altra.
Quando esiste una unità di misura per le modalità di un certo carattere, che riflette
l’ordine di grandezza delle stesse, ed inoltre si può attribuire lo stesso significato a
differenze uguali nel fenomeno misurato, si dice che quel carattere è misurabile su
scala a intervalli: in questo caso è possibile effettuare non solo le operazioni di
classificazione ed ordinamento, ma anche quelle di addizione, sottrazione e
moltiplicazione per uno scalare k diverso da zero.
Tipico esempio di variabile misurabile su scala a intervalli è la temperatura
misurata in gradi centigradi. L’aumento di calore che si verifica tra 0° e 18° della
scala Celsius è, infatti, lo stesso che si verifica tra 18° e 36°, e ciò vale anche se si
utilizzano i gradi Fahrenheit, per cui è conservata l’uguaglianza di intervalli. Non è
possibile, invece, sostenere che il caldo a 36° è doppio che a 18°: il rapporto 36/18 è
dunque privo di significato, in quanto questa scala parte da un’origine arbitraria (non
esiste uno zero assoluto).
Quando le modalità di una variabile sono valutate a partire da un’origine, cioè da
uno zero assoluto, che rappresenta la nullità del fenomeno osservato, si dice che quella
variabile è misurabile su scala a rapporti (o cardinale): si tratta di una scala a
intervalli con uno zero assoluto.
Il peso corporeo è un esempio di carattere misurabile su scala a rapporti. Infatti,
non essendoci un peso al di sotto di 0, il rapporto tra le misure di due grandezze è
sempre uguale a prescindere dall’unità di misura prescelta, cioè, se A è il doppio di B,
anche la misura di A è doppia di quella di B, e viceversa.
4
Si fa notare che le scale sopra analizzate presentano una gerarchia cumulativa, ed
inoltre sono gradatamente più informative: il grado informativo più basso corrisponde
alla scala nominale, mentre quello più alto a quella a rapporti.
E’ evidente che l’analisi statistica dei dati deve essere effettuata in modo da
disporre di più informazioni possibili, per cui nella pratica si cercherà di utilizzare il
tipo di scala “più informativo” consentito dal fenomeno esaminato.
3. Le tabelle statistiche
Il modo più semplice per sintetizzare un insieme di osservazioni è la tabella, che
può essere utilizzata per ogni tipo di carattere.
Il tipo di tabella che viene maggiormente utilizzato è la distribuzione di
frequenze, la quale associa a ciascuna modalità di un certo carattere il numero delle
volte (frequenza assoluta) con cui essa si manifesta. Indicando con X il carattere oggetto d’indagine e con s il numero delle sue
possibili manifestazioni (modalità), una distribuzione di frequenze può essere
rappresentata nel modo seguente:
Modalità del carattere X
ix Frequenze assolute
in
1x 1n
2x 2n
… …
… …
sx sn
Totale N
ove ix e in stanno ad indicare, rispettivamente, la i-esima modalità del carattere X e
la corrispondente frequenza (assoluta).
Un semplice esempio di distribuzione di frequenze è fornito dalla tabella 2.1, che
riporta la classificazione di 100 lavoratori secondo il settore di attività economica:
5
Tabella 2.1 – Distribuzione di 100 lavoratori
secondo il settore di attività economica.
Settore di attività
economica
Numero di
lavoratori
Agricoltura 20
Commercio 30
Industria 27
Altre attività 23
Totale 100
Le distribuzioni di frequenza il cui carattere è quantitativo si chiamano
comunemente “variabili statistiche”, mentre quelle il cui carattere è qualitativo sono
dette “mutabili statistiche”.
Le variabili statistiche si dicono discrete o continue, a seconda che il carattere
quantitativo sia discreto o continuo.
La tabella 2.2 (A) riporta la classificazione di 80 dipendenti di una azienda
secondo la classe d’età di appartenenza:
Tabella 2.2 (A) – Distribuzione dei dipendenti
di una azienda secondo la classe d’età.
Classe d’età
(in anni compiuti)
Numero di dipendenti
Da 18 a 30 6
Da 31 a 40 14
Da 41 a 50 40
Da 51 a 65 20
Totale 80
6
Si fa notare che quando il carattere è continuo, come nel caso riportato nella Tabella
2.2 (A) , le modalità vengono raggruppate in classi.
Quando si vogliono confrontare distribuzioni di frequenza che presentano un
numero diverso di osservazioni, allora è utile far ricorso alle frequenze relative. La frequenza relativa della generica modalità ix o classe i-esima del carattere X,
che denotiamo con if , è ottenuta dividendo la corrispondente frequenza assoluta in
per il numero totale ( )s
1 2 s ii 1
N n n ... n n=
= + + + =∑ di osservazioni della tabella.
Il simbolo s
ii 1
n=∑ , che si legge “sommatoria di in , con i che varia da 1 a s”, indica
che dobbiamo sommare tutte le frequenze assolute che vanno dal posto 1 al posto s.
Per le cose dette, è evidente che risulta sempre valida la condizione s
ii 1
f 1=
=∑ .
Moltiplicando per 100 le frequenze relative si ottengono quelle percentuali, per
cui i dati riportati in tabella 2.2 (A) possono trasformarsi come di seguito riportato:
Tabella 2.2 (B) – Distribuzione dei dipendenti
di una azienda secondo la classe d’età.
Classe d’età
(in anni compiuti)
Frequenza relativa
(%)
Da 18 a 30 7,5
Da 31 a 40 17,5
Da 41 a 50 50,0
Da 51 a 65 25,0
Totale 100
Inoltre, sommando le frequenze relative per la generica modalità ix o classe
i-esima del carattere X insieme a quelle di tutte le modalità o classi precedenti, si
ottengono le frequenze relative cumulate.
Si fa notare, infine, che i dati osservati possono essere sintetizzati anche
attraverso l’uso di grafici, che consentano ad un primo sguardo di avere un’idea
dell’andamento generale del fenomeno. E’ necessario, però, che un grafico sia
7
corredato di un titolo e di una scala di misura, e che sugli assi sia indicato il nome
delle variabili.
Le rappresentazioni grafiche più comunemente utilizzate sono il diagramma a
barre, l’ istogramma, il diagramma a settori circolari, l’ortogramma e il poligono di
frequenza.
4. I valori medi
Una prima elaborazione finalizzata alla sintesi delle informazioni contenute nei
dati osservati, e che consente di formulare affermazioni quantitative, è il valore medio
(o semplicemente la media), che rappresenta il punto in cui le osservazioni tendono a
raccogliersi.
Le medie si distinguono in analitiche e lasche. Le prime tengono conto di alcuni
valori e vengono calcolate, attraverso operazioni algebriche, sulle modalità di un
carattere quantitativo, mentre le seconde sono basate solo su alcuni valori dell’intera
distribuzione.
La letteratura propone diversi valori medi per la sintesi delle osservazioni. La
scelta del miglior valore medio dipende dal singolo problema che si esamina: non
esiste una ricetta universale.
Per sintetizzare le modalità di un carattere quantitativo X , si utilizza generalmente la media aritmetica µ , ricavata sommando tutte le determinazioni del
fenomeno oggetto di indagine e dividendo il totale ottenuto per l’ampiezza della
popolazione, ovvero:
N
1 2 Ni
i 1
x x ... x 1x
N Nµ
=
+ + += = ∑ . (1)
In generale, quando si dispone di una distribuzione di frequenze, la media
aritmetica (ponderata) è ottenuta come segue:
s
1 1 2 2 s si i
i 11 2 s
x n x n ... x n 1x n .
n n ... n Nµ
=
+ + += =+ + + ∑ (2)
Utilizzando i dati riportati nella tabella 2.2 (A), se si vuole calcolare l’età media
dei dipendenti si dovrà, allora, associare a ciascuna classe d’età la semisomma dei
valori estremi e, poi, applicare la formula precedente:
8
24 6 35,5 14 45,5 40 58 20 3.621
45,26256 14 40 20 80
µ ⋅ + ⋅ + ⋅ + ⋅= = =+ + +
da cui risulta un valore medio pari a circa 45 anni.
E’ immediato verificare che la sommatoria degli scarti di ciascuna osservazione
dalla media aritmetica è pari a zero:
( ) ( ) ( ) ( )24 45,2625 6 35,5 45,2625 14 45,5 45,2625 40 58 45,2625 20 0− ⋅ + − ⋅ + − ⋅ + − ⋅ =
Il risultato precedente non è un caso, bensì rappresenta una importante proprietà
di cui gode la media aritmetica. In generale, nel caso di valori singoli vale la seguente
relazione:
( )N
i 1ix 0µ
=
− =∑ (3)
mentre quando si dispone di una distribuzione di frequenze si ha:
( )s
ii 1
ix n 0µ=
− =∑ (4)
Non si tratta dell’unica proprietà valida per la media aritmetica, ma ve ne sono
altre, non di minore importanza, che nel presente lavoro si tralasciano.
La media aritmetica è facilmente calcolabile, ha un significato immediato e può
essere calcolata con valori di qualsiasi tipo. Ha, però, il difetto di essere molto
sensibile ai valori anomali, soprattutto quando si dispone di un numero esiguo di
osservazioni.
Immaginando, infatti, un collettivo costituito da 5 unità, a cui corrispondono i
valori pari a 6, 7, 5, 4 e 118, è evidente che il valore medio, pari a 28, non caratterizza
l’intero gruppo, in quanto risulta influenzato dal valore atipico “118”. Per questo
motivo, più avanti si introdurranno valori medi “meno sensibili”.
La media aritmetica può essere impiegata come misura di sintesi per caratteri
quantitativi, ma non è adatta nel caso di caratteri qualitativi.
9
Si fa notare che nell’ipotesi in cui il carattere X sia qualitativo e si manifesti in due possibili modalità, S e S , allora posto ix 1= se la generica unità i presenta la
determinazione S e ix 0= in caso contrario, si ricava facilmente che:
N voltes
sN1 1 ... 1
N Nµ + + += = =
64748
f (5)
ovvero, che la media aritmetica coincide con la frequenza relativa f con cui S si
presenta nella popolazione, avendo indicato con sN la frequenza assoluta della
modalità S.
Un altro valore medio che può essere calcolato per caratteri quantitativi e che tiene conto di tutti i dati osservati è la media geometrica gM .
La media geometrica di N osservazioni 1 2 Nx , x ,..., x è ottenuta estraendo la radice
N- esima del prodotto delle N osservazioni:
N
N Ng 1 2 N ii 1
M x x ... x x=
= ⋅ ⋅ ⋅ = ∏ (6)
ove il simbolo N
ii 1
x=
∏ , che si legge “produttoria di ix , con i che varia da 1 a N”, indica
che dobbiamo effettuare il prodotto delle osservazioni che vanno dal posto 1 al posto
N. Se i dati sono raggruppati in una distribuzione di frequenze, la media geometrica è
data da:
s1 2 is
nn n nN Ng s1 2 ii 1M x x ... x x
== ⋅ ⋅ ⋅ = ∏ . (7)
La media geometrica è utilizzata generalmente quando i dati variano in tempi
successivi secondo un certo tasso di incremento (decremento) per calcolare
l’ incremento medio per unità di tempo.
Si utilizza la media geometrica, e precisamente la formula (6), se si vuole
determinare il tasso medio di variazione del prezzo del pane, disponendo dei dati
riportati nella tabella 4.1.
10
Tabella 4.1 - Serie “storica” dei prezzi del pane nella provincia “Z”
Anni Prezzi - € al Kg
2003 1,60 2004 1,80 2005 1,90 2006 2,10 2007 2,20
In primo luogo si calcolano le variazioni del prezzo del pane da un tempo al
precedente, e cioè:
1 2 3 4
1,80 1,90 2,10 2,20x , x , x , x
1,60 1,80 1,90 2,10= = = = .
Utilizzando, poi, la (6) si ha:
4 4g
1,80 1,90 2,10 2,20 2,20M 1,083
1,60 1,80 1,90 2,10 1,60= ⋅ ⋅ ⋅ = =
per cui il tasso medio di variazione del prezzo pane nel periodo considerato (2003-2007) è dato dalla differenza ( )1,083 1 0,083− = , ovvero è pari all’8,3% .
Si fa osservare che la media geometrica è più difficile da calcolare rispetto alla
media aritmetica e non può essere calcolata se vi è qualche dato negativo o nullo.
Nei problemi in cui vi sono legami inversi del fenomeno considerato con altri
fenomeni (ad esempio, dati inversamente proporzionali all’unità di tempo - velocità in
Km/h), si utilizza un altro valore medio, che tiene conto di tutti i dati osservati, noto
come media armonica. La media armonica di N osservazioni 1 2 Nx , x ,..., x si ottiene dal reciproco della
media aritmetica dei reciproci delle osservazioni:
11
a N
i 1 i
NM
1x=
=∑
(8)
mentre, per dati raggruppati in una distribuzione di frequenza, si ha:
a si
i 1 i
NM
nx=
=∑
. (9)
La media armonica non può essere utilizzata se vi è anche un solo valore pari a
zero.
Se si vuole conoscere il consumo medio annuo di pane di un certo collettivo,
mediante una ricerca diretta sui consumatori, non sarà opportuno chiedere “Quanto
pane consuma in media all’anno”? in quanto la domanda formulata in questo modo
richiede una stima relativa ad un ampio intervallo di tempo. Si potrebbe, invece,
chiedere: “Quanti giorni Le dura in media 1 Kg di pane”?
Supponendo di aver rilevato i seguenti dati relativi a 8 famiglie lucane:
per le cose dette si utilizza la media armonica:
a
8M 1,98
1 1 1 1 1 11 1
5 4 4 2 2 3
= =+ + + + + + +
Famiglie Durata media in giorni di 1 Kg di pane
F1 5 F2 4 F3 4 F4 2 F5 1 F6 2 F7 1 F8 3
Totale 22
12
e, quindi, si può dire che nelle 8 famiglie lucane considerate “1 Kg di pane” dura in
media circa 2 giorni.
Si osservi che, nel caso in questione, la media aritmetica è pari a 22 2,758µ = = ,
per cui la sua applicazione avrebbe prodotto un risultato errato.
Le medie finora esaminate sono dette analitiche, in quanto tengono conto di tutte
le osservazioni.
Dato un insieme di N osservazioni, ordinate in senso non decrescente, si definisce mediana eM quel valore che divide le osservazioni in due “metà”, l’una con valori
“maggiori” o “uguali” e l’altra con valori “minori” o “uguali” rispetto al valore
mediano. Pertanto, se il numero N delle osservazioni è dispari, la mediana è data dal valore centrale, ovvero da quel valore che occupa la posizione ( )N 1 2 + ; se N è
pari, la mediana è data dalla media aritmetica dei due valori centrali, cioè dei valori che occupano le posizioni ( )N 2 e ( )N 2 1 + .
Dati i seguenti valori: 7, 6, 10, 9 e 6, per la determinazione della mediana gli
stessi devono essere preventivamente ordinati in senso non decrescente, e, cioè,
nell’ordine 6, 6, 7, 9 e 10, e, poi, essendo N=5 dispari, si deve scegliere quel valore che occupa la 3^ posizione, cioè eM 7= . Aggiungendo il valore 15 alla serie
precedente, il numero delle osservazioni diventa N=6, per cui il valore mediano risulta pari alla media aritmetica dei valori 7 e 9, cioè a eM 8= .
Se i dati sono raggruppati in una distribuzione di frequenze oppure sono suddivisi
in classi, il calcolo della mediana diventa più difficile.
La mediana rientra nella categoria delle medie lasche, in quanto non tiene conto
di tutte le osservazioni, ma soltanto di quella o di quelle che occupano la posizione
centrale. Si tratta, quindi, di un indice di posizione, e come tale non risulta influenzato
da valori eccezionalmente bassi o elevati (valori anomali).
Un altro indice di posizione, utilizzato come misura di sintesi sia per caratteri
qualitativi che quantitativi, è la moda, cioè quel valore che, in una serie di N
osservazioni, si presenta con la maggiore frequenza.
Si noti, infine, che quando sintetizziamo i dati osservati con un valore medio,
qualunque esso sia, si perdono alcune informazioni, per cui diventa necessario avere
un’idea anche di come le osservazioni si discostano tra loro o rispetto ad un valore
caratteristico. Si ricorre, quindi, al calcolo degli indici di variabilità.
13
5. Gli indici di variabilità
Una volta calcolato il valore medio di un insieme di dati, può essere importante
conoscere l’attitudine degli stessi dati a manifestarsi in diverso modo.
La letteratura propone diversi indici di variabilità. La differenza sostanziale è tra
indici di dispersione e indici di disuguaglianza. Mentre i primi forniscono una misura
di sintesi degli scarti di ciascuna osservazione da un valore caratteristico
(generalmente dalla media), i secondi sintetizzano le differenze tra i dati osservati.
Il campo di variazione o range (W) di un insieme di N osservazioni è definito
come la differenza tra l’osservazione più grande e quella più piccola.
Per determinare il campo di variazione dei seguenti numeri: 6, 21, 24, 30, 80, si
deve, quindi, effettuare la differenza W = 80 – 6 = 74.
Come si può notare, il calcolo del campo di variazione è molto semplice, ma il
suo uso è tuttavia molto limitato, in quanto risente dei valori eccezionalmente piccoli
o grandi.
Una misura di variabilità (dispersione) che si potrebbe tentare di calcolare è la
seguente:
( )N
ii 1
1x
Nµ
=
−∑
ma per la (3) il suo valore risulterebbe sempre pari a zero. Per ovviare a questo
inconveniente, si può procedere in due modi distinti.
Un primo modo consiste nel calcolare la media aritmetica dei valori assoluti degli
scarti dalla media. Si definisce, quindi, lo scostamento semplice medio assoluto,
denotato con δ , come segue:
N
ii 1
1x
Nδ µ
=
= −∑ (10)
se si dispone di un insieme di N osservazioni, mentre si ha la quantità:
s
i ii 1
1x n
Nδ µ
=
= −∑ (11)
se i dati sono raggruppati in una distribuzione di frequenze.
Anche se il calcolo di cui sopra risulta piuttosto semplice, la misura che ne deriva
non gode di alcune importanti proprietà statistiche, per cui l’indice δ non trova largo
utilizzo nella pratica.
14
Si preferisce, invece, un’altra procedura, che consiste nell’elevare al quadrato gli
scarti dalla media, in modo da renderli positivi, e poi calcolare la media aritmetica di
questi scostamenti al quadrato. Questa misura di sintesi, nota come varianza e
denotata con 2σ , è ottenuta, nel caso di una serie di N osservazioni, come segue:
( )
N2
ii 12
x
N
µσ =
−=∑
(12)
mentre, nel caso di una distribuzione di frequenze, è data da:
( )
s2
i ii 12
x n
N
µσ =
−=∑
. (13)
Il numeratore della varianza prende il nome di devianza e si denota solitamente
con Dev (X). E’ evidente, considerando sia la (12) che la (13), che la devianza è ottenuta dal prodotto 2N σ⋅ .
Riprendendo i dati riportati nella tabella 2.2 (A), la varianza 2σ è ottenuta con la
formula (13), come segue:
( ) ( ) ( ) ( )( )
2 2 2 2
2 24 45,26 6 35,5 45,26 14 45,5 45,26 40 58 45,26 20
6 14 40 20
91,17
σ− ⋅ + − ⋅ + − ⋅ + − ⋅
= =+ + +
=
mentre la devianza è pari a Dev(X) 91,17 80 7.293,60= ⋅ = .
L’indice 2σ presenta l’inconveniente di essere espresso con una unità di misura
pari al quadrato di quella del carattere X. Di conseguenza l’indice di variabilità
comunemente utilizzato nelle applicazioni pratiche è lo scarto quadratico medio
(deviazione standard) σ , che ha la stessa unità di misura dei dati osservati (essendo
pari alla radice quadrata della (12) o della (13) a seconda dei casi).
Nel caso sopra esaminato la deviazione standard σ è pari a 91,17 9,55= .
Si può dire che, confrontando due insiemi di osservazioni, quello con la
deviazione standard minore presenta maggiore omogeneità, mentre l’altro ha
maggiore variabilità.
15
Il grado di variabilità di un insieme di osservazioni può essere utilizzato per
individuare le eventuali cause che agiscono sulla dispersione del fenomeno. E’
necessario a tal fine suddividere le osservazioni dell’intera popolazione in c gruppi, in
modo che la “devianza totale” Dev (X) possa essere scomposta in 2 componenti, l’una
pari alla “somma delle devianze calcolate con i dati di ciascun gruppo” (devianza
totale nei gruppi) e l’altra pari alla “devianza fra le medie dei gruppi” (devianza fra i
gruppi):
( ) ( ) ( )c c 2
i i ii 1 i 1
Dev X Dev X x nµ= =
= + −∑ ∑ (14)
ove ix è la media del carattere osservato sugli in elementi del gruppo i, mentre la
devianza di ciascun gruppo considerato singolarmente è pari a ( ) 2i i iDev X n σ= ⋅ .
La scomposizione della devianza è importante perché consente di analizzare la
variabilità del fenomeno in esame in relazione a quella di sottogruppi più omogenei.
Ad esempio, volendo effettuare una ricerca sulla variabilità della qualità di un
certo prodotto alimentare, nell’ambito del territorio della Regione Basilicata, non è
sufficiente analizzare i dati disponibili; si potrebbe, invece, scindere il collettivo preso
in esame in 5 sottogruppi omogenei, distinguendo tra Zona1, Zona2, Zona3, Zona4 e
Zona5, in modo da misurare il contributo che ciascuna Zona fornisce alla devianza
complessiva. Supponendo di aver ottenuto il seguente risultato:
( ) ( ) ( )5 5 2
i i ii 1 i 1
devianza totaledevianza totaleneigruppi devianza fra igruppi
Dev X 200, Dev X 180, x n 20µ= =
= = − =∑ ∑1442443
144424443 144424443
diremo che prevale la devianza totale nei gruppi, pari al 90% di quella complessiva,
per cui solo il 10% della devianza complessiva è attribuibile alla “distanza” fra i
gruppi. In altre parole, non essendovi influenza della zona di appartenenza sulla
qualità del prodotto alimentare preso in esame, si può dire che i gruppi appaiono
piuttosto omogenei.
Si fa osservare che il caso limite in cui la devianza fra i gruppi è pari a 0 sta a significare che le medie di gruppo ix coincidono con la media generale µ , per cui vi
è perfetta omogeneità dei gruppi. Nel caso opposto in cui la devianza totale coincide
con quella fra i gruppi si ha, invece, la massima eterogeneità dei gruppi.
Se si vogliono misurare le distanze esistenti tra le diverse modalità del carattere
osservato, si deve allora ricorrere agli indici di disuguaglianza. A riguardo, l’indice
16
più appropriato è la differenza media ∆ di Gini, ottenuta dalla media aritmetica di tutte le possibili differenze in valore assoluto i jx x− , che, nel caso in cui si dispone
di una serie di N osservazioni, risulta:
( )
N N
i ji 1 i j 1
x x
N N 1= ≠ =
−∑ ∑∆ =
− (15)
mentre, se i dati sono raggruppati in una distribuzione di frequenze, si ha:
( )
s s
i j i ji 1 i j 1
x x n n
N N 1= ≠ =
−∑ ∑∆ =
−. (16)
Ad esempio, il prezzo (in €) del pane al chilogrammo in 3 comuni della Regione
Basilicata, nell’anno 2007, è risultato il seguente: 2,20, 2,30 e 2,40. Per determinare la
differenza media di Gini, si deve, quindi, utilizzare la (15):
2,2 2,3 2,2 2,4 2,3 2,2 2,3 2,4 2,4 2,2 2,4 2,3
0,133 2
− + − + − + − + − + −∆ = =
⋅
cioè, il prezzo del pane nei 3 comuni considerati differisce in media “fra di loro” di
€ 0,13.
La doppia sommatoria che si presenta al numeratore della (15) e della (16) rende
il calcolo difficile quando il numero N delle osservazioni è grande. In letteratura sono
state proposte, pertanto, formule che permettono un calcolo più rapido. Tra queste
riportiamo soltanto la formula delle distanze graduali valida nel caso di una serie di
dati:
( ) ( ) ( )( )[ ]( )
N 2
N i 1 ii 1
2x x N 2 1
N N 1 − +=
∆ = − − ⋅ +∑−
i (17)
ove [ ]N 2 sta ad indicare la parte intera del rapporto N 2 , mentre le quantità
( ) ( )( )N i 1 ix x− + − e ( )N 2 1− ⋅ +i rappresentano, rispettivamente, le “differenze tra
termini equidistanti dagli estremi” e le “distanze graduali”. In generale, la simbologia
17
( ) ( ) ( )1 2 Nx , x ,..., x viene utilizzata per indicare che le modalità osservate sono state
ordinate in senso non decrescente, cioè dalla più piccola alla più grande.
Se, ad esempio, il prezzo (in €) del pane al chilogrammo in 7 comuni della
Regione Basilicata, nell’anno 2007, è risultato il seguente: 1,90, 1,95, 2,00, 2,10, 2,20,
2,30 e 2,40, conviene utilizzare la formula (17), da cui si ricava:
( ) ( ) ( ) ( ) ( ) ( )22,4 1,9 7 1 2,3 1,95 6 2 2,2 2,0 5 3 0,23
7 6 ∆ = − ⋅ − + − ⋅ − + − ⋅ − = ⋅
.
E’ evidente che gli indici di variabilità assoluta non sono adatti nei seguenti casi:
a) per confrontare la variabilità di due fenomeni di natura diversa;
b) per confrontare la variabilità di caratteri misurati con la stessa unità di misura
ma differenti per motivi di natura sociologica, geografica, ecc., oppure per
l’ordine di grandezza dei rispettivi valori medi.
Nelle applicazioni pratiche è frequente allora il ricorso ad indici di variabilità
relativa, ovvero ad indici ottenuti rapportando gli indici di variabilità assoluta a
grandezze espresse nella medesima unità di misura, cosicché da avere dei numeri puri
(ovvero degli indici privi di unità di misura) che permettono di eliminare gli
inconvenienti sopra descritti.
Un indice molto usato a tale scopo è il coefficiente di variazione C, ottenuto rapportando la deviazione standard σ alla media aritmetica µ e moltiplicando il
risultato per 100:
100.σµ
= ⋅C (18)
Con i risultati ottenuti in precedenza, utilizzando i dati riportati nella tabella
2.2 (A), il coefficiente di variazione si ricava come segue:
9,55
100 2145,26
= ⋅ =C .
L’indice (18) ha il difetto di non essere limitato superiormente, per cui non risulta
evidente quando la variabilità del fenomeno considerato è elevata o bassa: il
coefficiente di variazione è la misura più adeguata quando si vogliono confrontare
due o più insiemi di osservazioni.
18
Si ricorre, pertanto, agli indici di variabilità relativi al massimo. In questo modo si determina il valore massimo che il generico indice “assoluto” ( )AV può assumere, e
si utilizza come indice di variabilità relativo al massimo, denotato con RV , il rapporto:
AR
A
VV
Max V= (19)
che varia tra 0 (nel caso di modalità tutte uguali tra di loro) e 1 (nel caso di massima variabilità), ove AMax V rappresenta il valore massimo che l’indice di variabilità
assoluta può assumere. Tale indice ci consente, quindi, di stabilire se la variabilità di
una certa “distribuzione” è elevata o meno, senza la necessità di doverla confrontare
con quella di altre “distribuzioni”.
Poiché si dimostra che, in generale, il massimo valore che la deviazione standard
σ può assumere è pari a ( ) ( )L µ µ− ⋅ − l , ove l e L denotano, rispettivamente, il
valore minimo e quello massimo della distribuzione in esame, utilizzando i dati della
tabella 2.2 (A) si ha che:
( ) ( )Max 65 45,26 45,26 18 23,20σ = − ⋅ − =
da cui, considerando la formula (19), si ricava:
( )R
9,55V 0,41
23,20σ = =
il cui valore esprime una “mediocre” variabilità del fenomeno esaminato.
Per ogni indice di variabilità assoluta è possibile determinare, in generale, il
massimo valore che esso può assumere; poi, basta utilizzare la formula (19) per
ottenere il corrispondente indice di variabilità “relativo al massimo”, analogamente a
quanto visto per la deviazione standard.
6. La concentrazione
Un caso particolare della variabilità è rappresentato dalla concentrazione, che può
essere “esaminata” per quei fenomeni le cui modalità godono della proprietà di
trasferibilità da una unità statistica ad un’altra. Si può, quindi, parlare di
concentrazione dei redditi, ma non di concentrazione delle stature, in quanto il reddito
è trasferibile da un individuo ad un altro, mentre per la statura ciò non risulta
19
possibile. Anche il carattere quantitativo “numero dei pasti preparati da una ditta di
ristorazione” è trasferibile, poiché è possibile trasferire i pasti da un giorno ad un altro
della settimana.
Diremo che un fenomeno è molto concentrato se una parte notevole della sua
intensità globale è raggruppata in una piccola frazione di casi. Ad esempio, si ha alta
concentrazione nei “redditi” quando la maggior parte del reddito totale è posseduta da
una piccola frazione di individui, mentre si ha alta concentrazione nel “numero di
pasti preparati da una ditta di ristorazione” quando la maggior parte dei pasti è
concentrata in pochi giorni della settimana.
Come per la variabilità, anche per la concentrazione si pone il problema di
individuare degli indici statistici che permettono di misurarla.
Il problema della misurazione della concentrazione può essere affrontato sia nel
caso in cui si dispone di N quantità osservate (serie di dati), che nel caso in cui a
ciascun valore osservato (o classe di valori osservati) è associata una frequenza
(distribuzione di frequenze).
In entrambi casi, è necessario che le modalità osservate siano preliminarmente
ordinate in senso non decrescente, cioè dall’osservazione più piccola a quella più
grande. Quando si dispone di N osservazioni 1 2 Nx , x ,..., x (serie di dati), per misurare la
concentrazione si utilizza il seguente “rapporto di concentrazione” di Gini:
( )
N 1
i ii 1
N 1
ii 1
R
−
=−
=
−∑=
∑
p q
p (20)
ove i
i
N=p indica la frazione dei primi i possessori del carattere X, i
iN
A
A=q è la
frazione di carattere dei primi i possessori di X ed il generico iA è dato dalla somma
( ) ( ) ( )1 2 ix x ... x+ + + .
Se i dati sono raggruppati in una distribuzione di frequenze, allora si procede con
la seguente formula:
20
( )( )s
i i 1 i i 1i 1
R 1 − −=
= − − +∑ p p q q (21)
in cui 1 2 i ii
n + n +...+ n N
N N= =p è la generica frequenza relativa cumulata, mentre iq è
pari al rapporto i
s
A
A. In questo caso, il generico iA tiene conto delle frequenze
associate a ciascuna modalità del carattere osservato.
L’indice R è un numero puro che varia tra 0 e 1: è pari a 0 nel caso di
equidistribuzione (concentrazione nulla), mentre è pari a 1 quando il fenomeno è
concentrato in un solo elemento (concentrazione massima). E’ evidente che se R = 0, allora dovrà essere i i=p q per ogni elemento i.
Una società di ristorazione che vuole, ad esempio, rivedere il proprio programma
di assunzione del personale, esamina il numero di “coperti” registrati in una settimana
“tipo”. A riguardo, disponendo dei seguenti dati:
si decide di calcolare il rapporto di concentrazione di Gini, per cui essendo:
( )7A 16 28 43 46 105 155 280 673= + + + + + + =
da cui: ( ) ( )
( ) ( )
( )
1 3
4 5
6 7
16 28 16 28 43160,024, 0,065, 0,13,
673 673 673
16 28 43 46 16 28 43 46 1050,20, 0,35,
673 673
16 28 43 46 105 1550,58, q 1,
673
+ + += = = = = =
+ + + + + + += = = =
+ + + + += = =
2q q q
q q
q
utilizzando la formula (20) si ha:
Giorno Lun. (1) Mar. (2) Merc. (3) Giov. (4) Ven. (6) Sab. (7) Dom. (5)
“coperti” 16 28 43 46 155 280 105
21
1 2 3 4 5 6
0,024 0,065 0,13 0,20 0,35 0,587 7 7 7 7 7
R 0,551 2 3 4 5 67 7 7 7 7 7
− + − + + − + − + −=
+ + + + +
− =
che evidenzia una “adeguata” concentrazione del fenomeno preso in esame: il numero
dei “coperti” risulta infatti maggiore negli ultimi giorni della settimana, specialmente
il sabato.
7. Gli indici di mutabilità
Anche per i caratteri qualitativi è possibile esaminare il grado di omogeneità delle
unità osservate. Si parla in questi casi di mutabilità, anziché di variabilità.
L’omogeneità è massima (cioè l’eterogeneità è minima) quando tutte le unità
osservate si presentano con la stessa modalità, mentre è minima (cioè l’eterogeneità è
massima) quando le frequenze sono equidistribuite fra le diverse modalità.
Ad esempio, la distribuzione di un gruppo di lavoratori dipendenti presenta la
massima omogeneità quando tutti i soggetti sono impiegati nello stesso settore di
attività economica.
Un indice di mutabilità (o eterogeneità) utilizzato in letteratura è quello di Gini,
pari a:
s
2i
i 1E 1
== −∑ f (22)
ove ii
n
N=f è la frequenza relativa associata alla i-esima modalità del carattere in
esame.
Il massimo valore che l’indice E può assumere si ha quando le frequenze sono
equidistribuite, cioè quando i
i
s=f per ogni elemento i. Sostituendo la precedente
espressione nella formula (22) si ricava facilmente:
s 1
Max Es
−= (23)
per cui il corrispondente indice di mutabilità “relativa”, che varia fra 0 e 1, è dato da:
22
E
E 'Max E
= . (24)
Un altro indice utilizzato quale misura dell’eterogeneità di un carattere qualitativo
è quello di entropia:
( )s
i ii 1
H=
= −∑ f ln f (25)
il cui massimo valore si ottiene, come nel caso precedente, considerando ii
s=f per
ogni elemento i, per cui:
( )Max H s= ln (26)
e, quindi, l’indice di entropia “relativa” risulta pari a:
H
H 'Max H
= . (27)
Supponendo che alcuni prodotti alimentari siano stati classificati, a seconda della
qualità di appartenenza, in 5 classi ordinate in senso crescente (cioè dalla più bassa
alla più alta), rispettivamente denotate con Q1, Q2, Q3, Q4 e Q5, come riportato nella
tabella seguente:
Qualità
Prodotto
Numero di
Prodotti
Q1 16
Q2 14
Q3 10
Q4 20
Q5 30
Totale 90
se si vuole stabilire il grado di omogeneità degli elementi osservati si dovrà calcolare
l’indice di mutabilità di Gini o quello di entropia.
L’indice di Gini si ottiene con la formula (22):
23
2 2 2 2 216 14 10 20 30
E 1 0,7790 90 90 90 90
= − + + + + =
mentre il corrispondente indice “relativo” è ottenuto applicando la (24), cioè:
0,77
E ' 0,9644 5
= = .
Utilizzando la formula (25) si ricava l’indice di entropia, che assume il valore H 1,541= . Il corrispondente indice di entropia “relativa”, ottenuto applicando la
formula (27), è pari, invece, a H ' 0,957= .
In definitiva, entrambi gli indici calcolati denotano una “elevata” eterogeneità del
fenomeno in esame.
8. I rapporti statistici
Tra le tecniche di elaborazione dei dati statistici assumono notevole importanza i
rapporti statistici. Questi rapporti si istituiscono tra grandezze omogenee o tra
grandezze eterogenee che sono in relazione logica tra loro.
Se, ad esempio, si vuole confrontare la variazione del prezzo del pane (A) in due
epoche t1 e t2, con la variazione del prezzo di tartufo (B) nelle stesse due epoche t1 e
t2, non ha senso confrontare la differenza (A2-A1) con la differenza (B2-B1), in
quanto il livello dei prezzi dei due beni è diverso. Si potrebbe, invece, confrontare il
rapporto [(A2-A1)/A1] con il rapporto [(B2-B1)/B1].
Vi sono vari tipi di rapporti statistici. Si riportano nel seguito quelli
maggiormente utilizzati.
I rapporti di composizione (o di parte al tutto) sono rapporti che esprimono la
percentuale di una parte del fenomeno rispetto al “complesso”.
Un esempio di rapporto di composizione è il quoziente tra il valore del consumo
di un dato prodotto alimentare in un certo anno e il valore totale dei consumi per
prodotti alimentari di quell’anno.
I rapporti di derivazione si ottengono, invece, eseguendo il rapporto tra l’intensità
o la frequenza di un fenomeno con l’intensità o frequenza di un altro fenomeno che ne
è il presupposto necessario.
24
Nei rapporti di derivazione, solitamente si ha come numeratore un fenomeno di
flusso, cioè riferito ad un intervallo di tempo, mentre come denominatore si ha un
fenomeno di stato, cioè riferito ad un dato istante. Un esempio è fornito dal quoziente
di natalità, pari al rapporto tra i nati vivi di un certo anno t e la popolazione media di
quell’anno. Se moltiplichiamo per 1.000 questo rapporto, si ottiene il numero di nati
vivi nell’anno t per 1.000 abitanti.
I numeri indici semplici sono particolari rapporti statistici che misurano l’intensità
di un fenomeno in un dato periodo o in dato luogo rispetto all’intensità dello stesso
fenomeno in un periodo diverso oppure rispetto ad un luogo diverso. Il denominatore
di questi rapporti si chiama base; i numeri indici possono essere, a loro volta, a base
fissa o mobile.
Il numero indice rappresenta, in generale, uno strumento fondamentale per
valutare la diversità temporale o spaziale delle intensità.
Si supponga di avere una serie “storica” in relazione ai tempi 0, 1, 2, …, s, in ciascuno dei quali si sono osservate le intensità 0 1 2 sx , x , x ,..., x , tutte positive. Se il
generico rapporto i jx x è pari a 1, allora ciò sta a significare che il fenomeno si è
mantenuto costante nei due tempi i e j. Diversamente, se i jx x è maggiore di 1 allora
diremo che il fenomeno ha subito una variazione positiva al tempo i rispetto al tempo j, mentre se i jx x è minore di 1 diremo che vi è una variazione negativa.
Alcuni problemi sorgono quando avendo costruito più serie di numeri indici
semplici, che si riferiscono a fenomeni affini, si desideri sintetizzarli in un’unica serie.
Si pone allora il problema della scelta di una funzione aggregatrice che sintetizzi le
diverse serie di numeri indici semplici in un’unica serie. Si parla, in questo caso, di
numeri indici composti. Si supponga che, al tempo di riferimento 0, si abbiano la serie di s prezzi i0p , e
quella delle corrispondenti quantità i0q , con i =1, 2, …, s, riferite entrambe a s
prodotti alimentari, e che si dispone, altresì, dei prezzi i1p e delle corrispondenti
quantità i1q anche per il tempo 1. Con i dati disponibili si potrebbe, ad esempio,
decidere di calcolare il seguente indice sintetico: s
i1 i1i 1
s
i0 i0i 1
p q
p q
=
=
⋅∑
⋅∑.
25
Per il calcolo degli indici sintetici dei prezzi, in letteratura sono stati proposti
alcuni metodi di totalizzazione dei numeri indici semplici.
Un contributo fondamentale nella determinazione degli indici dei prezzi è stato
fornito dalla ponderazione dei prezzi stessi con le quantità relative ad un certo tempo
t. Si perviene all’indice dei prezzi di Laspeyres:
s
it i0i 1
L s
i0 i0i 1
p qI
p q
=
=
⋅∑=
⋅∑ (28)
se la ponderazione avviene con le quantità relative al tempo base i0q , o a quello di
Paasche:
s
it iti 1
P s
i0 iti 1
p qI
p q
=
=
⋅∑=
⋅∑ (29)
se la ponderazione avviene con le quantità relative al tempo finale itq .
Allo scopo di ottenere una formula “migliore”, il Fisher propose il seguente
indice:
s s
it i0 it iti 1 i 1
F s s
i0 i0 i0 iti 1 i 1
p q p qI
p q p q
= =
= =
⋅ ⋅∑ ∑= ⋅
⋅ ⋅∑ ∑ (30)
ottenuto dalla media geometrica degli indici di Laspeyres e Paasche. La (30) è nota
come formula ideale di Fisher.