Università degli Studi di Basilicata – Facoltà di Economia ... · Le scale di misura delle...

Università degli Studi di Basilicata – Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013

lezioni di statistica - di Massimo Cristallo -

LA SINTESI DELLE INFORMAZIONI CONTENUTE NEI DATI OSSERVATI

1. Introduzione

La Statistica è la disciplina che studia i fenomeni collettivi ed atipici allo scopo di

“scoprire” il contenuto informativo di un insieme di casi osservati.

La parola “statistica” trae la sua origine dal termine latino medievale “status”, in

quanto inizialmente indicava la scienza che studiava gli avvenimenti principali dello

Stato.

I successivi sviluppi della Statistica hanno fatto si che, oggi, la disciplina possa

essere applicata in diversi settori, quali l’economia, l’agricoltura, la climatologia, la

biologia, la medicina, ecc..

I nuovi sviluppi della Statistica moderna non hanno, però, ridotto la sua funzione

di “mezzo di informazione” per l’amministrazione di enti pubblici o privati.

Non vi sono limiti all’utilizzo dei metodi statistici, purché lo studio riguardi

fenomeni collettivi ed atipici, cioè riferiti a più osservazioni suscettibili alla diversità.

Accanto alla Statistica descrittiva, la quale si limita a descrivere un insieme di

dati mediante forme differenti, quali tabelle, grafici e misure di sintesi numerica, si

pone la Statistica inferenziale, che consente di trarre conclusioni su una popolazione

attraverso l’analisi dei risultati di un suo sottoinsieme (campione).

Per popolazione si intende l’insieme delle unità su cui il fenomeno si manifesta in

un certo “spazio” e in una determinata “epoca”, mentre i singoli elementi che la

costituiscono vengono denominati unità statistiche. Esempi di popolazione sono:

l’insieme dei ristoranti di una provincia in una certa epoca, l’insieme delle parti del

suolo o dell’atmosfera di una certa regione, l’insieme degli incidenti stradali avvenuti

in Basilicata nel 2007.

Una popolazione si definisce finita quando le unità che la costituiscono sono in

numero finito (anche grande), mentre è infinita quando è costituita da un numero

illimitato di unità.

Le caratteristiche che si osservano in una popolazione, denominate caratteri o

variabili, possono essere di tipo qualitativo oppure quantitativo, a seconda che le loro

determinazioni (o modalità) possano manifestarsi con espressioni verbali o mediante

numeri.

2

I caratteri quantitativi si distinguono, a loro volta, in continui e discreti. I primi

sono quelli che possono assumere tutti i valori appartenenti ad un intervallo reale,

come ad esempio l’età, la statura, il peso corporeo, il tempo necessario per compiere

un percorso, la temperatura, ecc.; i secondi sono quelli che possono assumere un

numero finito o una infinibilità numerabile di valori, come ad esempio il numero dei

componenti familiari, il numero degli impiegati nelle aziende, ecc..

Prima di decidere quale sia la tecnica statistica più adatta in una determinata

circostanza, è necessario, quindi, definire la natura dei dati rilevati. A riguardo, nel

presente lavoro si illustrerà la classificazione proposta da Stevens (1951), che

distingue le variabili in funzione della scala (o livello) di misura, ovvero delle

operazioni matematiche plausibili con le modalità.

2. Le scale di misura delle variabili

Secondo la classificazione proposta da Stevens (1951), le scale di misura di una

variabile si distinguono in nominali, ordinali, a intervalli e a rapporti (o cardinali).

La scala più semplice è quella nominale, dove le modalità rientrano in categorie o

classi non ordinabili; non è possibile, quindi, associare dei numeri a ciascuna

categoria, se non per motivi di convenienza quando si effettua l’analisi dei dati.

Esempi di variabili misurabili su scala nominale sono: il gruppo sanguigno delle

persone, il settore di attività economica prevalente di un’impresa, il comune di

residenza delle persone.

Si potrebbe, ad esempio, pensare di classificare un gruppo di individui in base al

gruppo sanguigno di appartenenza, assegnando il numero 1 al gruppo “0”, il numero 2

al gruppo “A”, il numero 3 al gruppo “B” ed il numero 4 al gruppo “AB”. L’ordine e

la grandezza dei numeri associati a ciascun gruppo non sono importanti; quindi, non è

possibile in questo caso trattare i dati con operazioni algebriche, né è possibile

ordinarli. Si può soltanto stabilire se un certo individuo appartiene ad un gruppo

piuttosto che ad un altro.

Quando le categorie o classi di una variabile presentano stati ordinabili, ma

tuttavia non esiste una unità di misura e quindi una distanza tra due categorie prese a

caso, allora si dice che la variabile è misurabile su scala ordinale: in questo caso esiste

un ordine naturale tra le diverse modalità, ma non è possibile applicare molte

operazioni algebriche.

3

Esempi di variabili misurabili su scala ordinale sono: le valutazioni espresse dai

consumatori sulle caratteristiche di un certo prodotto, il livello di inquadramento dei

dipendenti di una certa azienda, il titolo di studio delle persone, i gradi militari.

Il numero d’ordine che compete ad una certa modalità di un carattere misurabile

su scala ordinale si chiama “rango”.

Considerando la graduatoria crescente dei titoli di studio delle persone, i ranghi

sono: 1 per la licenza elementare, 2 per la licenza media inferiore, 3 per la licenza

media superiore, 4 per la laurea di primo livello, 5 per la laurea di secondo livello e 6

per il dottorato di ricerca. Per le cose dette, con la scala ordinale non è possibile

sommare due categorie: “licenza media inferiore” + “licenza media superiore” non è

uguale a “laurea di secondo livello”. Si può, però, stabilire tra due qualsiasi

osservazioni, se una è “minore”, “uguale” o “maggiore” dell’altra.

Quando esiste una unità di misura per le modalità di un certo carattere, che riflette

l’ordine di grandezza delle stesse, ed inoltre si può attribuire lo stesso significato a

differenze uguali nel fenomeno misurato, si dice che quel carattere è misurabile su

scala a intervalli: in questo caso è possibile effettuare non solo le operazioni di

classificazione ed ordinamento, ma anche quelle di addizione, sottrazione e

moltiplicazione per uno scalare k diverso da zero.

Tipico esempio di variabile misurabile su scala a intervalli è la temperatura

misurata in gradi centigradi. L’aumento di calore che si verifica tra 0° e 18° della

scala Celsius è, infatti, lo stesso che si verifica tra 18° e 36°, e ciò vale anche se si

utilizzano i gradi Fahrenheit, per cui è conservata l’uguaglianza di intervalli. Non è

possibile, invece, sostenere che il caldo a 36° è doppio che a 18°: il rapporto 36/18 è

dunque privo di significato, in quanto questa scala parte da un’origine arbitraria (non

esiste uno zero assoluto).

Quando le modalità di una variabile sono valutate a partire da un’origine, cioè da

uno zero assoluto, che rappresenta la nullità del fenomeno osservato, si dice che quella

variabile è misurabile su scala a rapporti (o cardinale): si tratta di una scala a

intervalli con uno zero assoluto.

Il peso corporeo è un esempio di carattere misurabile su scala a rapporti. Infatti,

non essendoci un peso al di sotto di 0, il rapporto tra le misure di due grandezze è

sempre uguale a prescindere dall’unità di misura prescelta, cioè, se A è il doppio di B,

anche la misura di A è doppia di quella di B, e viceversa.

4

Si fa notare che le scale sopra analizzate presentano una gerarchia cumulativa, ed

inoltre sono gradatamente più informative: il grado informativo più basso corrisponde

alla scala nominale, mentre quello più alto a quella a rapporti.

E’ evidente che l’analisi statistica dei dati deve essere effettuata in modo da

disporre di più informazioni possibili, per cui nella pratica si cercherà di utilizzare il

tipo di scala “più informativo” consentito dal fenomeno esaminato.

3. Le tabelle statistiche

Il modo più semplice per sintetizzare un insieme di osservazioni è la tabella, che

può essere utilizzata per ogni tipo di carattere.

Il tipo di tabella che viene maggiormente utilizzato è la distribuzione di

frequenze, la quale associa a ciascuna modalità di un certo carattere il numero delle

volte (frequenza assoluta) con cui essa si manifesta. Indicando con X il carattere oggetto d’indagine e con s il numero delle sue

possibili manifestazioni (modalità), una distribuzione di frequenze può essere

rappresentata nel modo seguente:

Modalità del carattere X

ix Frequenze assolute

in

1x 1n

2x 2n

… …

… …

sx sn

Totale N

ove ix e in stanno ad indicare, rispettivamente, la i-esima modalità del carattere X e

la corrispondente frequenza (assoluta).

Un semplice esempio di distribuzione di frequenze è fornito dalla tabella 2.1, che

riporta la classificazione di 100 lavoratori secondo il settore di attività economica:

5

Tabella 2.1 – Distribuzione di 100 lavoratori

secondo il settore di attività economica.

Settore di attività

economica

Numero di

lavoratori

Agricoltura 20

Commercio 30

Industria 27

Altre attività 23

Totale 100

Le distribuzioni di frequenza il cui carattere è quantitativo si chiamano

comunemente “variabili statistiche”, mentre quelle il cui carattere è qualitativo sono

dette “mutabili statistiche”.

Le variabili statistiche si dicono discrete o continue, a seconda che il carattere

quantitativo sia discreto o continuo.

La tabella 2.2 (A) riporta la classificazione di 80 dipendenti di una azienda

secondo la classe d’età di appartenenza:

Tabella 2.2 (A) – Distribuzione dei dipendenti

di una azienda secondo la classe d’età.

Classe d’età

(in anni compiuti)

Numero di dipendenti

Da 18 a 30 6

Da 31 a 40 14

Da 41 a 50 40

Da 51 a 65 20

Totale 80

6

Si fa notare che quando il carattere è continuo, come nel caso riportato nella Tabella

2.2 (A) , le modalità vengono raggruppate in classi.

Quando si vogliono confrontare distribuzioni di frequenza che presentano un

numero diverso di osservazioni, allora è utile far ricorso alle frequenze relative. La frequenza relativa della generica modalità ix o classe i-esima del carattere X,

che denotiamo con if , è ottenuta dividendo la corrispondente frequenza assoluta in

per il numero totale ( )s

1 2 s ii 1

N n n ... n n=

= + + + =∑ di osservazioni della tabella.

Il simbolo s

ii 1

n=∑ , che si legge “sommatoria di in , con i che varia da 1 a s”, indica

che dobbiamo sommare tutte le frequenze assolute che vanno dal posto 1 al posto s.

Per le cose dette, è evidente che risulta sempre valida la condizione s

ii 1

f 1=

=∑ .

Moltiplicando per 100 le frequenze relative si ottengono quelle percentuali, per

cui i dati riportati in tabella 2.2 (A) possono trasformarsi come di seguito riportato:

Tabella 2.2 (B) – Distribuzione dei dipendenti

di una azienda secondo la classe d’età.

Classe d’età

(in anni compiuti)

Frequenza relativa

(%)

Da 18 a 30 7,5

Da 31 a 40 17,5

Da 41 a 50 50,0

Da 51 a 65 25,0

Totale 100

Inoltre, sommando le frequenze relative per la generica modalità ix o classe

i-esima del carattere X insieme a quelle di tutte le modalità o classi precedenti, si

ottengono le frequenze relative cumulate.

Si fa notare, infine, che i dati osservati possono essere sintetizzati anche

attraverso l’uso di grafici, che consentano ad un primo sguardo di avere un’idea

dell’andamento generale del fenomeno. E’ necessario, però, che un grafico sia

7

corredato di un titolo e di una scala di misura, e che sugli assi sia indicato il nome

delle variabili.

Le rappresentazioni grafiche più comunemente utilizzate sono il diagramma a

barre, l’ istogramma, il diagramma a settori circolari, l’ortogramma e il poligono di

frequenza.

4. I valori medi

Una prima elaborazione finalizzata alla sintesi delle informazioni contenute nei

dati osservati, e che consente di formulare affermazioni quantitative, è il valore medio

(o semplicemente la media), che rappresenta il punto in cui le osservazioni tendono a

raccogliersi.

Le medie si distinguono in analitiche e lasche. Le prime tengono conto di alcuni

valori e vengono calcolate, attraverso operazioni algebriche, sulle modalità di un

carattere quantitativo, mentre le seconde sono basate solo su alcuni valori dell’intera

distribuzione.

La letteratura propone diversi valori medi per la sintesi delle osservazioni. La

scelta del miglior valore medio dipende dal singolo problema che si esamina: non

esiste una ricetta universale.

Per sintetizzare le modalità di un carattere quantitativo X , si utilizza generalmente la media aritmetica µ , ricavata sommando tutte le determinazioni del

fenomeno oggetto di indagine e dividendo il totale ottenuto per l’ampiezza della

popolazione, ovvero:

N

1 2 Ni

i 1

x x ... x 1x

N Nµ

=

+ + += = ∑ . (1)

In generale, quando si dispone di una distribuzione di frequenze, la media

aritmetica (ponderata) è ottenuta come segue:

s

1 1 2 2 s si i

i 11 2 s

x n x n ... x n 1x n .

n n ... n Nµ

=

+ + += =+ + + ∑ (2)

Utilizzando i dati riportati nella tabella 2.2 (A), se si vuole calcolare l’età media

dei dipendenti si dovrà, allora, associare a ciascuna classe d’età la semisomma dei

valori estremi e, poi, applicare la formula precedente:

8

24 6 35,5 14 45,5 40 58 20 3.621

45,26256 14 40 20 80

µ ⋅ + ⋅ + ⋅ + ⋅= = =+ + +

da cui risulta un valore medio pari a circa 45 anni.

E’ immediato verificare che la sommatoria degli scarti di ciascuna osservazione

dalla media aritmetica è pari a zero:

( ) ( ) ( ) ( )24 45,2625 6 35,5 45,2625 14 45,5 45,2625 40 58 45,2625 20 0− ⋅ + − ⋅ + − ⋅ + − ⋅ =

Il risultato precedente non è un caso, bensì rappresenta una importante proprietà

di cui gode la media aritmetica. In generale, nel caso di valori singoli vale la seguente

relazione:

( )N

i 1ix 0µ

=

− =∑ (3)

mentre quando si dispone di una distribuzione di frequenze si ha:

( )s

ii 1

ix n 0µ=

− =∑ (4)

Non si tratta dell’unica proprietà valida per la media aritmetica, ma ve ne sono

altre, non di minore importanza, che nel presente lavoro si tralasciano.

La media aritmetica è facilmente calcolabile, ha un significato immediato e può

essere calcolata con valori di qualsiasi tipo. Ha, però, il difetto di essere molto

sensibile ai valori anomali, soprattutto quando si dispone di un numero esiguo di

osservazioni.

Immaginando, infatti, un collettivo costituito da 5 unità, a cui corrispondono i

valori pari a 6, 7, 5, 4 e 118, è evidente che il valore medio, pari a 28, non caratterizza

l’intero gruppo, in quanto risulta influenzato dal valore atipico “118”. Per questo

motivo, più avanti si introdurranno valori medi “meno sensibili”.

La media aritmetica può essere impiegata come misura di sintesi per caratteri

quantitativi, ma non è adatta nel caso di caratteri qualitativi.

9

Si fa notare che nell’ipotesi in cui il carattere X sia qualitativo e si manifesti in due possibili modalità, S e S , allora posto ix 1= se la generica unità i presenta la

determinazione S e ix 0= in caso contrario, si ricava facilmente che:

N voltes

sN1 1 ... 1

N Nµ + + += = =

64748

f (5)

ovvero, che la media aritmetica coincide con la frequenza relativa f con cui S si

presenta nella popolazione, avendo indicato con sN la frequenza assoluta della

modalità S.

Un altro valore medio che può essere calcolato per caratteri quantitativi e che tiene conto di tutti i dati osservati è la media geometrica gM .

La media geometrica di N osservazioni 1 2 Nx , x ,..., x è ottenuta estraendo la radice

N- esima del prodotto delle N osservazioni:

N

N Ng 1 2 N ii 1

M x x ... x x=

= ⋅ ⋅ ⋅ = ∏ (6)

ove il simbolo N

ii 1

x=

∏ , che si legge “produttoria di ix , con i che varia da 1 a N”, indica

che dobbiamo effettuare il prodotto delle osservazioni che vanno dal posto 1 al posto

N. Se i dati sono raggruppati in una distribuzione di frequenze, la media geometrica è

data da:

s1 2 is

nn n nN Ng s1 2 ii 1M x x ... x x

== ⋅ ⋅ ⋅ = ∏ . (7)

La media geometrica è utilizzata generalmente quando i dati variano in tempi

successivi secondo un certo tasso di incremento (decremento) per calcolare

l’ incremento medio per unità di tempo.

Si utilizza la media geometrica, e precisamente la formula (6), se si vuole

determinare il tasso medio di variazione del prezzo del pane, disponendo dei dati

riportati nella tabella 4.1.

10

Tabella 4.1 - Serie “storica” dei prezzi del pane nella provincia “Z”

Anni Prezzi - € al Kg

2003 1,60 2004 1,80 2005 1,90 2006 2,10 2007 2,20

In primo luogo si calcolano le variazioni del prezzo del pane da un tempo al

precedente, e cioè:

1 2 3 4

1,80 1,90 2,10 2,20x , x , x , x

1,60 1,80 1,90 2,10= = = = .

Utilizzando, poi, la (6) si ha:

4 4g

1,80 1,90 2,10 2,20 2,20M 1,083

1,60 1,80 1,90 2,10 1,60= ⋅ ⋅ ⋅ = =

per cui il tasso medio di variazione del prezzo pane nel periodo considerato (2003-2007) è dato dalla differenza ( )1,083 1 0,083− = , ovvero è pari all’8,3% .

Si fa osservare che la media geometrica è più difficile da calcolare rispetto alla

media aritmetica e non può essere calcolata se vi è qualche dato negativo o nullo.

Nei problemi in cui vi sono legami inversi del fenomeno considerato con altri

fenomeni (ad esempio, dati inversamente proporzionali all’unità di tempo - velocità in

Km/h), si utilizza un altro valore medio, che tiene conto di tutti i dati osservati, noto

come media armonica. La media armonica di N osservazioni 1 2 Nx , x ,..., x si ottiene dal reciproco della

media aritmetica dei reciproci delle osservazioni:

11

a N

i 1 i

NM

1x=

=∑

(8)

mentre, per dati raggruppati in una distribuzione di frequenza, si ha:

a si

i 1 i

NM

nx=

=∑

. (9)

La media armonica non può essere utilizzata se vi è anche un solo valore pari a

zero.

Se si vuole conoscere il consumo medio annuo di pane di un certo collettivo,

mediante una ricerca diretta sui consumatori, non sarà opportuno chiedere “Quanto

pane consuma in media all’anno”? in quanto la domanda formulata in questo modo

richiede una stima relativa ad un ampio intervallo di tempo. Si potrebbe, invece,

chiedere: “Quanti giorni Le dura in media 1 Kg di pane”?

Supponendo di aver rilevato i seguenti dati relativi a 8 famiglie lucane:

per le cose dette si utilizza la media armonica:

a

8M 1,98

1 1 1 1 1 11 1

5 4 4 2 2 3

= =+ + + + + + +

Famiglie Durata media in giorni di 1 Kg di pane

F1 5 F2 4 F3 4 F4 2 F5 1 F6 2 F7 1 F8 3

Totale 22

12

e, quindi, si può dire che nelle 8 famiglie lucane considerate “1 Kg di pane” dura in

media circa 2 giorni.

Si osservi che, nel caso in questione, la media aritmetica è pari a 22 2,758µ = = ,

per cui la sua applicazione avrebbe prodotto un risultato errato.

Le medie finora esaminate sono dette analitiche, in quanto tengono conto di tutte

le osservazioni.

Dato un insieme di N osservazioni, ordinate in senso non decrescente, si definisce mediana eM quel valore che divide le osservazioni in due “metà”, l’una con valori

“maggiori” o “uguali” e l’altra con valori “minori” o “uguali” rispetto al valore

mediano. Pertanto, se il numero N delle osservazioni è dispari, la mediana è data dal valore centrale, ovvero da quel valore che occupa la posizione ( )N 1 2 + ; se N è

pari, la mediana è data dalla media aritmetica dei due valori centrali, cioè dei valori che occupano le posizioni ( )N 2 e ( )N 2 1 + .

Dati i seguenti valori: 7, 6, 10, 9 e 6, per la determinazione della mediana gli

stessi devono essere preventivamente ordinati in senso non decrescente, e, cioè,

nell’ordine 6, 6, 7, 9 e 10, e, poi, essendo N=5 dispari, si deve scegliere quel valore che occupa la 3^ posizione, cioè eM 7= . Aggiungendo il valore 15 alla serie

precedente, il numero delle osservazioni diventa N=6, per cui il valore mediano risulta pari alla media aritmetica dei valori 7 e 9, cioè a eM 8= .

Se i dati sono raggruppati in una distribuzione di frequenze oppure sono suddivisi

in classi, il calcolo della mediana diventa più difficile.

La mediana rientra nella categoria delle medie lasche, in quanto non tiene conto

di tutte le osservazioni, ma soltanto di quella o di quelle che occupano la posizione

centrale. Si tratta, quindi, di un indice di posizione, e come tale non risulta influenzato

da valori eccezionalmente bassi o elevati (valori anomali).

Un altro indice di posizione, utilizzato come misura di sintesi sia per caratteri

qualitativi che quantitativi, è la moda, cioè quel valore che, in una serie di N

osservazioni, si presenta con la maggiore frequenza.

Si noti, infine, che quando sintetizziamo i dati osservati con un valore medio,

qualunque esso sia, si perdono alcune informazioni, per cui diventa necessario avere

un’idea anche di come le osservazioni si discostano tra loro o rispetto ad un valore

caratteristico. Si ricorre, quindi, al calcolo degli indici di variabilità.

13

5. Gli indici di variabilità

Una volta calcolato il valore medio di un insieme di dati, può essere importante

conoscere l’attitudine degli stessi dati a manifestarsi in diverso modo.

La letteratura propone diversi indici di variabilità. La differenza sostanziale è tra

indici di dispersione e indici di disuguaglianza. Mentre i primi forniscono una misura

di sintesi degli scarti di ciascuna osservazione da un valore caratteristico

(generalmente dalla media), i secondi sintetizzano le differenze tra i dati osservati.

Il campo di variazione o range (W) di un insieme di N osservazioni è definito

come la differenza tra l’osservazione più grande e quella più piccola.

Per determinare il campo di variazione dei seguenti numeri: 6, 21, 24, 30, 80, si

deve, quindi, effettuare la differenza W = 80 – 6 = 74.

Come si può notare, il calcolo del campo di variazione è molto semplice, ma il

suo uso è tuttavia molto limitato, in quanto risente dei valori eccezionalmente piccoli

o grandi.

Una misura di variabilità (dispersione) che si potrebbe tentare di calcolare è la

seguente:

( )N

ii 1

1x

Nµ

=

−∑

ma per la (3) il suo valore risulterebbe sempre pari a zero. Per ovviare a questo

inconveniente, si può procedere in due modi distinti.

Un primo modo consiste nel calcolare la media aritmetica dei valori assoluti degli

scarti dalla media. Si definisce, quindi, lo scostamento semplice medio assoluto,

denotato con δ , come segue:

N

ii 1

1x

Nδ µ

=

= −∑ (10)

se si dispone di un insieme di N osservazioni, mentre si ha la quantità:

s

i ii 1

1x n

Nδ µ

=

= −∑ (11)

se i dati sono raggruppati in una distribuzione di frequenze.

Anche se il calcolo di cui sopra risulta piuttosto semplice, la misura che ne deriva

non gode di alcune importanti proprietà statistiche, per cui l’indice δ non trova largo

utilizzo nella pratica.

14

Si preferisce, invece, un’altra procedura, che consiste nell’elevare al quadrato gli

scarti dalla media, in modo da renderli positivi, e poi calcolare la media aritmetica di

questi scostamenti al quadrato. Questa misura di sintesi, nota come varianza e

denotata con 2σ , è ottenuta, nel caso di una serie di N osservazioni, come segue:

( )

N2

ii 12

x

N

µσ =

−=∑

(12)

mentre, nel caso di una distribuzione di frequenze, è data da:

( )

s2

i ii 12

x n

N

µσ =

−=∑

. (13)

Il numeratore della varianza prende il nome di devianza e si denota solitamente

con Dev (X). E’ evidente, considerando sia la (12) che la (13), che la devianza è ottenuta dal prodotto 2N σ⋅ .

Riprendendo i dati riportati nella tabella 2.2 (A), la varianza 2σ è ottenuta con la

formula (13), come segue:

( ) ( ) ( ) ( )( )

2 2 2 2

2 24 45,26 6 35,5 45,26 14 45,5 45,26 40 58 45,26 20

6 14 40 20

91,17

σ− ⋅ + − ⋅ + − ⋅ + − ⋅

= =+ + +

=

mentre la devianza è pari a Dev(X) 91,17 80 7.293,60= ⋅ = .

L’indice 2σ presenta l’inconveniente di essere espresso con una unità di misura

pari al quadrato di quella del carattere X. Di conseguenza l’indice di variabilità

comunemente utilizzato nelle applicazioni pratiche è lo scarto quadratico medio

(deviazione standard) σ , che ha la stessa unità di misura dei dati osservati (essendo

pari alla radice quadrata della (12) o della (13) a seconda dei casi).

Nel caso sopra esaminato la deviazione standard σ è pari a 91,17 9,55= .

Si può dire che, confrontando due insiemi di osservazioni, quello con la

deviazione standard minore presenta maggiore omogeneità, mentre l’altro ha

maggiore variabilità.

15

Il grado di variabilità di un insieme di osservazioni può essere utilizzato per

individuare le eventuali cause che agiscono sulla dispersione del fenomeno. E’

necessario a tal fine suddividere le osservazioni dell’intera popolazione in c gruppi, in

modo che la “devianza totale” Dev (X) possa essere scomposta in 2 componenti, l’una

pari alla “somma delle devianze calcolate con i dati di ciascun gruppo” (devianza

totale nei gruppi) e l’altra pari alla “devianza fra le medie dei gruppi” (devianza fra i

gruppi):

( ) ( ) ( )c c 2

i i ii 1 i 1

Dev X Dev X x nµ= =

= + −∑ ∑ (14)

ove ix è la media del carattere osservato sugli in elementi del gruppo i, mentre la

devianza di ciascun gruppo considerato singolarmente è pari a ( ) 2i i iDev X n σ= ⋅ .

La scomposizione della devianza è importante perché consente di analizzare la

variabilità del fenomeno in esame in relazione a quella di sottogruppi più omogenei.

Ad esempio, volendo effettuare una ricerca sulla variabilità della qualità di un

certo prodotto alimentare, nell’ambito del territorio della Regione Basilicata, non è

sufficiente analizzare i dati disponibili; si potrebbe, invece, scindere il collettivo preso

in esame in 5 sottogruppi omogenei, distinguendo tra Zona1, Zona2, Zona3, Zona4 e

Zona5, in modo da misurare il contributo che ciascuna Zona fornisce alla devianza

complessiva. Supponendo di aver ottenuto il seguente risultato:

( ) ( ) ( )5 5 2

i i ii 1 i 1

devianza totaledevianza totaleneigruppi devianza fra igruppi

Dev X 200, Dev X 180, x n 20µ= =

= = − =∑ ∑1442443

144424443 144424443

diremo che prevale la devianza totale nei gruppi, pari al 90% di quella complessiva,

per cui solo il 10% della devianza complessiva è attribuibile alla “distanza” fra i

gruppi. In altre parole, non essendovi influenza della zona di appartenenza sulla

qualità del prodotto alimentare preso in esame, si può dire che i gruppi appaiono

piuttosto omogenei.

Si fa osservare che il caso limite in cui la devianza fra i gruppi è pari a 0 sta a significare che le medie di gruppo ix coincidono con la media generale µ , per cui vi

è perfetta omogeneità dei gruppi. Nel caso opposto in cui la devianza totale coincide

con quella fra i gruppi si ha, invece, la massima eterogeneità dei gruppi.

Se si vogliono misurare le distanze esistenti tra le diverse modalità del carattere

osservato, si deve allora ricorrere agli indici di disuguaglianza. A riguardo, l’indice

16

più appropriato è la differenza media ∆ di Gini, ottenuta dalla media aritmetica di tutte le possibili differenze in valore assoluto i jx x− , che, nel caso in cui si dispone

di una serie di N osservazioni, risulta:

( )

N N

i ji 1 i j 1

x x

N N 1= ≠ =

−∑ ∑∆ =

− (15)

mentre, se i dati sono raggruppati in una distribuzione di frequenze, si ha:

( )

s s

i j i ji 1 i j 1

x x n n

N N 1= ≠ =

−∑ ∑∆ =

−. (16)

Ad esempio, il prezzo (in €) del pane al chilogrammo in 3 comuni della Regione

Basilicata, nell’anno 2007, è risultato il seguente: 2,20, 2,30 e 2,40. Per determinare la

differenza media di Gini, si deve, quindi, utilizzare la (15):

2,2 2,3 2,2 2,4 2,3 2,2 2,3 2,4 2,4 2,2 2,4 2,3

0,133 2

− + − + − + − + − + −∆ = =

⋅

cioè, il prezzo del pane nei 3 comuni considerati differisce in media “fra di loro” di

€ 0,13.

La doppia sommatoria che si presenta al numeratore della (15) e della (16) rende

il calcolo difficile quando il numero N delle osservazioni è grande. In letteratura sono

state proposte, pertanto, formule che permettono un calcolo più rapido. Tra queste

riportiamo soltanto la formula delle distanze graduali valida nel caso di una serie di

dati:

( ) ( ) ( )( )[ ]( )

N 2

N i 1 ii 1

2x x N 2 1

N N 1 − +=

∆ = − − ⋅ +∑−

i (17)

ove [ ]N 2 sta ad indicare la parte intera del rapporto N 2 , mentre le quantità

( ) ( )( )N i 1 ix x− + − e ( )N 2 1− ⋅ +i rappresentano, rispettivamente, le “differenze tra

termini equidistanti dagli estremi” e le “distanze graduali”. In generale, la simbologia

17

( ) ( ) ( )1 2 Nx , x ,..., x viene utilizzata per indicare che le modalità osservate sono state

ordinate in senso non decrescente, cioè dalla più piccola alla più grande.

Se, ad esempio, il prezzo (in €) del pane al chilogrammo in 7 comuni della

Regione Basilicata, nell’anno 2007, è risultato il seguente: 1,90, 1,95, 2,00, 2,10, 2,20,

2,30 e 2,40, conviene utilizzare la formula (17), da cui si ricava:

( ) ( ) ( ) ( ) ( ) ( )22,4 1,9 7 1 2,3 1,95 6 2 2,2 2,0 5 3 0,23

7 6 ∆ = − ⋅ − + − ⋅ − + − ⋅ − = ⋅

.

E’ evidente che gli indici di variabilità assoluta non sono adatti nei seguenti casi:

a) per confrontare la variabilità di due fenomeni di natura diversa;

b) per confrontare la variabilità di caratteri misurati con la stessa unità di misura

ma differenti per motivi di natura sociologica, geografica, ecc., oppure per

l’ordine di grandezza dei rispettivi valori medi.

Nelle applicazioni pratiche è frequente allora il ricorso ad indici di variabilità

relativa, ovvero ad indici ottenuti rapportando gli indici di variabilità assoluta a

grandezze espresse nella medesima unità di misura, cosicché da avere dei numeri puri

(ovvero degli indici privi di unità di misura) che permettono di eliminare gli

inconvenienti sopra descritti.

Un indice molto usato a tale scopo è il coefficiente di variazione C, ottenuto rapportando la deviazione standard σ alla media aritmetica µ e moltiplicando il

risultato per 100:

100.σµ

= ⋅C (18)

Con i risultati ottenuti in precedenza, utilizzando i dati riportati nella tabella

2.2 (A), il coefficiente di variazione si ricava come segue:

9,55

100 2145,26

= ⋅ =C .

L’indice (18) ha il difetto di non essere limitato superiormente, per cui non risulta

evidente quando la variabilità del fenomeno considerato è elevata o bassa: il

coefficiente di variazione è la misura più adeguata quando si vogliono confrontare

due o più insiemi di osservazioni.

18

Si ricorre, pertanto, agli indici di variabilità relativi al massimo. In questo modo si determina il valore massimo che il generico indice “assoluto” ( )AV può assumere, e

si utilizza come indice di variabilità relativo al massimo, denotato con RV , il rapporto:

AR

A

VV

Max V= (19)

che varia tra 0 (nel caso di modalità tutte uguali tra di loro) e 1 (nel caso di massima variabilità), ove AMax V rappresenta il valore massimo che l’indice di variabilità

assoluta può assumere. Tale indice ci consente, quindi, di stabilire se la variabilità di

una certa “distribuzione” è elevata o meno, senza la necessità di doverla confrontare

con quella di altre “distribuzioni”.

Poiché si dimostra che, in generale, il massimo valore che la deviazione standard

σ può assumere è pari a ( ) ( )L µ µ− ⋅ − l , ove l e L denotano, rispettivamente, il

valore minimo e quello massimo della distribuzione in esame, utilizzando i dati della

tabella 2.2 (A) si ha che:

( ) ( )Max 65 45,26 45,26 18 23,20σ = − ⋅ − =

da cui, considerando la formula (19), si ricava:

( )R

9,55V 0,41

23,20σ = =

il cui valore esprime una “mediocre” variabilità del fenomeno esaminato.

Per ogni indice di variabilità assoluta è possibile determinare, in generale, il

massimo valore che esso può assumere; poi, basta utilizzare la formula (19) per

ottenere il corrispondente indice di variabilità “relativo al massimo”, analogamente a

quanto visto per la deviazione standard.

6. La concentrazione

Un caso particolare della variabilità è rappresentato dalla concentrazione, che può

essere “esaminata” per quei fenomeni le cui modalità godono della proprietà di

trasferibilità da una unità statistica ad un’altra. Si può, quindi, parlare di

concentrazione dei redditi, ma non di concentrazione delle stature, in quanto il reddito

è trasferibile da un individuo ad un altro, mentre per la statura ciò non risulta

19

possibile. Anche il carattere quantitativo “numero dei pasti preparati da una ditta di

ristorazione” è trasferibile, poiché è possibile trasferire i pasti da un giorno ad un altro

della settimana.

Diremo che un fenomeno è molto concentrato se una parte notevole della sua

intensità globale è raggruppata in una piccola frazione di casi. Ad esempio, si ha alta

concentrazione nei “redditi” quando la maggior parte del reddito totale è posseduta da

una piccola frazione di individui, mentre si ha alta concentrazione nel “numero di

pasti preparati da una ditta di ristorazione” quando la maggior parte dei pasti è

concentrata in pochi giorni della settimana.

Come per la variabilità, anche per la concentrazione si pone il problema di

individuare degli indici statistici che permettono di misurarla.

Il problema della misurazione della concentrazione può essere affrontato sia nel

caso in cui si dispone di N quantità osservate (serie di dati), che nel caso in cui a

ciascun valore osservato (o classe di valori osservati) è associata una frequenza

(distribuzione di frequenze).

In entrambi casi, è necessario che le modalità osservate siano preliminarmente

ordinate in senso non decrescente, cioè dall’osservazione più piccola a quella più

grande. Quando si dispone di N osservazioni 1 2 Nx , x ,..., x (serie di dati), per misurare la

concentrazione si utilizza il seguente “rapporto di concentrazione” di Gini:

( )

N 1

i ii 1

N 1

ii 1

R

−

=−

=

−∑=

∑

p q

p (20)

ove i

i

N=p indica la frazione dei primi i possessori del carattere X, i

iN

A

A=q è la

frazione di carattere dei primi i possessori di X ed il generico iA è dato dalla somma

( ) ( ) ( )1 2 ix x ... x+ + + .

Se i dati sono raggruppati in una distribuzione di frequenze, allora si procede con

la seguente formula:

20

( )( )s

i i 1 i i 1i 1

R 1 − −=

= − − +∑ p p q q (21)

in cui 1 2 i ii

n + n +...+ n N

N N= =p è la generica frequenza relativa cumulata, mentre iq è

pari al rapporto i

s

A

A. In questo caso, il generico iA tiene conto delle frequenze

associate a ciascuna modalità del carattere osservato.

L’indice R è un numero puro che varia tra 0 e 1: è pari a 0 nel caso di

equidistribuzione (concentrazione nulla), mentre è pari a 1 quando il fenomeno è

concentrato in un solo elemento (concentrazione massima). E’ evidente che se R = 0, allora dovrà essere i i=p q per ogni elemento i.

Una società di ristorazione che vuole, ad esempio, rivedere il proprio programma

di assunzione del personale, esamina il numero di “coperti” registrati in una settimana

“tipo”. A riguardo, disponendo dei seguenti dati:

si decide di calcolare il rapporto di concentrazione di Gini, per cui essendo:

( )7A 16 28 43 46 105 155 280 673= + + + + + + =

da cui: ( ) ( )

( ) ( )

( )

1 3

4 5

6 7

16 28 16 28 43160,024, 0,065, 0,13,

673 673 673

16 28 43 46 16 28 43 46 1050,20, 0,35,

673 673

16 28 43 46 105 1550,58, q 1,

673

+ + += = = = = =

+ + + + + + += = = =

+ + + + += = =

2q q q

q q

q

utilizzando la formula (20) si ha:

Giorno Lun. (1) Mar. (2) Merc. (3) Giov. (4) Ven. (6) Sab. (7) Dom. (5)

“coperti” 16 28 43 46 155 280 105

21

1 2 3 4 5 6

0,024 0,065 0,13 0,20 0,35 0,587 7 7 7 7 7

R 0,551 2 3 4 5 67 7 7 7 7 7

− + − + + − + − + −=

+ + + + +

− =

che evidenzia una “adeguata” concentrazione del fenomeno preso in esame: il numero

dei “coperti” risulta infatti maggiore negli ultimi giorni della settimana, specialmente

il sabato.

7. Gli indici di mutabilità

Anche per i caratteri qualitativi è possibile esaminare il grado di omogeneità delle

unità osservate. Si parla in questi casi di mutabilità, anziché di variabilità.

L’omogeneità è massima (cioè l’eterogeneità è minima) quando tutte le unità

osservate si presentano con la stessa modalità, mentre è minima (cioè l’eterogeneità è

massima) quando le frequenze sono equidistribuite fra le diverse modalità.

Ad esempio, la distribuzione di un gruppo di lavoratori dipendenti presenta la

massima omogeneità quando tutti i soggetti sono impiegati nello stesso settore di

attività economica.

Un indice di mutabilità (o eterogeneità) utilizzato in letteratura è quello di Gini,

pari a:

s

2i

i 1E 1

== −∑ f (22)

ove ii

n

N=f è la frequenza relativa associata alla i-esima modalità del carattere in

esame.

Il massimo valore che l’indice E può assumere si ha quando le frequenze sono

equidistribuite, cioè quando i

i

s=f per ogni elemento i. Sostituendo la precedente

espressione nella formula (22) si ricava facilmente:

s 1

Max Es

−= (23)

per cui il corrispondente indice di mutabilità “relativa”, che varia fra 0 e 1, è dato da:

22

E

E 'Max E

= . (24)

Un altro indice utilizzato quale misura dell’eterogeneità di un carattere qualitativo

è quello di entropia:

( )s

i ii 1

H=

= −∑ f ln f (25)

il cui massimo valore si ottiene, come nel caso precedente, considerando ii

s=f per

ogni elemento i, per cui:

( )Max H s= ln (26)

e, quindi, l’indice di entropia “relativa” risulta pari a:

H

H 'Max H

= . (27)

Supponendo che alcuni prodotti alimentari siano stati classificati, a seconda della

qualità di appartenenza, in 5 classi ordinate in senso crescente (cioè dalla più bassa

alla più alta), rispettivamente denotate con Q1, Q2, Q3, Q4 e Q5, come riportato nella

tabella seguente:

Qualità

Prodotto

Numero di

Prodotti

Q1 16

Q2 14

Q3 10

Q4 20

Q5 30

Totale 90

se si vuole stabilire il grado di omogeneità degli elementi osservati si dovrà calcolare

l’indice di mutabilità di Gini o quello di entropia.

L’indice di Gini si ottiene con la formula (22):

23

2 2 2 2 216 14 10 20 30

E 1 0,7790 90 90 90 90

= − + + + + =

mentre il corrispondente indice “relativo” è ottenuto applicando la (24), cioè:

0,77

E ' 0,9644 5

= = .

Utilizzando la formula (25) si ricava l’indice di entropia, che assume il valore H 1,541= . Il corrispondente indice di entropia “relativa”, ottenuto applicando la

formula (27), è pari, invece, a H ' 0,957= .

In definitiva, entrambi gli indici calcolati denotano una “elevata” eterogeneità del

fenomeno in esame.

8. I rapporti statistici

Tra le tecniche di elaborazione dei dati statistici assumono notevole importanza i

rapporti statistici. Questi rapporti si istituiscono tra grandezze omogenee o tra

grandezze eterogenee che sono in relazione logica tra loro.

Se, ad esempio, si vuole confrontare la variazione del prezzo del pane (A) in due

epoche t1 e t2, con la variazione del prezzo di tartufo (B) nelle stesse due epoche t1 e

t2, non ha senso confrontare la differenza (A2-A1) con la differenza (B2-B1), in

quanto il livello dei prezzi dei due beni è diverso. Si potrebbe, invece, confrontare il

rapporto [(A2-A1)/A1] con il rapporto [(B2-B1)/B1].

Vi sono vari tipi di rapporti statistici. Si riportano nel seguito quelli

maggiormente utilizzati.

I rapporti di composizione (o di parte al tutto) sono rapporti che esprimono la

percentuale di una parte del fenomeno rispetto al “complesso”.

Un esempio di rapporto di composizione è il quoziente tra il valore del consumo

di un dato prodotto alimentare in un certo anno e il valore totale dei consumi per

prodotti alimentari di quell’anno.

I rapporti di derivazione si ottengono, invece, eseguendo il rapporto tra l’intensità

o la frequenza di un fenomeno con l’intensità o frequenza di un altro fenomeno che ne

è il presupposto necessario.

24

Nei rapporti di derivazione, solitamente si ha come numeratore un fenomeno di

flusso, cioè riferito ad un intervallo di tempo, mentre come denominatore si ha un

fenomeno di stato, cioè riferito ad un dato istante. Un esempio è fornito dal quoziente

di natalità, pari al rapporto tra i nati vivi di un certo anno t e la popolazione media di

quell’anno. Se moltiplichiamo per 1.000 questo rapporto, si ottiene il numero di nati

vivi nell’anno t per 1.000 abitanti.

I numeri indici semplici sono particolari rapporti statistici che misurano l’intensità

di un fenomeno in un dato periodo o in dato luogo rispetto all’intensità dello stesso

fenomeno in un periodo diverso oppure rispetto ad un luogo diverso. Il denominatore

di questi rapporti si chiama base; i numeri indici possono essere, a loro volta, a base

fissa o mobile.

Il numero indice rappresenta, in generale, uno strumento fondamentale per

valutare la diversità temporale o spaziale delle intensità.

Si supponga di avere una serie “storica” in relazione ai tempi 0, 1, 2, …, s, in ciascuno dei quali si sono osservate le intensità 0 1 2 sx , x , x ,..., x , tutte positive. Se il

generico rapporto i jx x è pari a 1, allora ciò sta a significare che il fenomeno si è

mantenuto costante nei due tempi i e j. Diversamente, se i jx x è maggiore di 1 allora

diremo che il fenomeno ha subito una variazione positiva al tempo i rispetto al tempo j, mentre se i jx x è minore di 1 diremo che vi è una variazione negativa.

Alcuni problemi sorgono quando avendo costruito più serie di numeri indici

semplici, che si riferiscono a fenomeni affini, si desideri sintetizzarli in un’unica serie.

Si pone allora il problema della scelta di una funzione aggregatrice che sintetizzi le

diverse serie di numeri indici semplici in un’unica serie. Si parla, in questo caso, di

numeri indici composti. Si supponga che, al tempo di riferimento 0, si abbiano la serie di s prezzi i0p , e

quella delle corrispondenti quantità i0q , con i =1, 2, …, s, riferite entrambe a s

prodotti alimentari, e che si dispone, altresì, dei prezzi i1p e delle corrispondenti

quantità i1q anche per il tempo 1. Con i dati disponibili si potrebbe, ad esempio,

decidere di calcolare il seguente indice sintetico: s

i1 i1i 1

s

i0 i0i 1

p q

p q

=

=

⋅∑

⋅∑.

25

Per il calcolo degli indici sintetici dei prezzi, in letteratura sono stati proposti

alcuni metodi di totalizzazione dei numeri indici semplici.

Un contributo fondamentale nella determinazione degli indici dei prezzi è stato

fornito dalla ponderazione dei prezzi stessi con le quantità relative ad un certo tempo

t. Si perviene all’indice dei prezzi di Laspeyres:

s

it i0i 1

L s

i0 i0i 1

p qI

p q

=

=

⋅∑=

⋅∑ (28)

se la ponderazione avviene con le quantità relative al tempo base i0q , o a quello di

Paasche:

s

it iti 1

P s

i0 iti 1

p qI

p q

=

=

⋅∑=

⋅∑ (29)

se la ponderazione avviene con le quantità relative al tempo finale itq .

Allo scopo di ottenere una formula “migliore”, il Fisher propose il seguente

indice:

s s

it i0 it iti 1 i 1

F s s

i0 i0 i0 iti 1 i 1

p q p qI

p q p q

= =

= =

⋅ ⋅∑ ∑= ⋅

⋅ ⋅∑ ∑ (30)

ottenuto dalla media geometrica degli indici di Laspeyres e Paasche. La (30) è nota

come formula ideale di Fisher.

Università degli Studi di Basilicata – Facoltà di Economia ... · Le scale di misura delle...

Documents

Transcript of Università degli Studi di Basilicata – Facoltà di Economia ... · Le scale di misura delle...