Unità 3 - BIS

44
Corso di Laurea in modalità teledidattica “Scienze dell’Educazione e della Formazione in una società multiculturale” SECS-S/01 Statistica MODULO A - 1 CFU Massimiliano Bultrini, Carla Rossi Elementi di Statistica Sociale

description

Unità 3 - BIS

Transcript of Unità 3 - BIS

Corso di Laurea in modalità teledidattica“Scienze dell’Educazione e della Formazione in una società multiculturale”

SECS-S/01 Statistica

MODULO A - 1 CFU

Massimiliano Bultrini, Carla Rossi

Elementi di Statistica Sociale

© Scuola IaD – Roma, 2003M. Bultrini, C. Rossi Tutti i diritti riservati

TERZA UNITÀ...............................................................................................................3

3 ELABORAZIONI DI DATI: GLI INDICI STATISTICI.....................................4

3.1 INDICI STATISTICI UNIVARIATI.................................................43.2 LE MEDIE ANALITICHE...........................................................53.2.1 LA MEDIA ARITMETICA.............................................................................................53.2.2 LA MEDIA GEOMETRICA.......................................................................................143.3 LE MEDIE DI POSIZIONE.......................................................173.3.1 LA MEDIANA.........................................................................................................173.3.2 I QUARTILI............................................................................................................223.3.3 LA MODA..............................................................................................................243.4 INDICI DI DISPERSIONE........................................................253.4.1 LA VARIANZA.......................................................................................................283.4.2 LO SCARTO QUADRATICO MEDIO........................................................................303.4.3 LO SCARTO INTERQUARTILE................................................................................313.4.4 IL COEFFICIENTE DI VARIAZIONE........................................................................32

2

TERZA UNITÀ

3 ELABORAZIONE DI DATI: GLI INDICI STATISTICI

3.1 Indici statistici univariatiIntroduciamo l’argomento con un esempio.

Esempio 1. Le altezze dei diciottenni di leva (1)

Consideriamo i dati riportati nella tabella 3.1 relativi alla distribuzione di frequenza dell’altezza degli iscritti alla leva nati nell’anno 1972 per regione e poniamoci l’obiettivo di confrontare le regioni elencandole “in ordine di altezza”.

Non è semplice rispondere a questa domanda confrontando direttamente le righe della tabella.

Il modo più intuitivo di procedere è sintetizzare ogni distribuzione in un unico valore che possa essere messo a confronto con quelli delle altre, permettendoci di effettuare l’ordinamento.

3

Tabella 3.1 Distribuzione di frequenza (%) dell’altezza (cm) degli iscritti di leva nati nell’anno 1972 per regione (Fonte ISTAT, Compendio statistico 1994)

Regione Fino a 159

160-164

165-169

170-174

175-179

180-184

185-189

più di 189

Piemonte 1,3 6,0 17,4 28,7 26,0 14,4 5,0 1,3Valle d’Aosta 1,3 4,3 16,0 27,9 25,6 16,9 6,1 1,9Lombardia 1,2 5,6 16,3 28,6 26,9 15,0 5,1 1,3

Trentino-A. Adige

0,7 2,7 13,7 26,9 29,9 17,6 6,8 1,7

Veneto 0,8 3,6 12,7 26,5 28,6 18,7 7,1 2,1Friuli-V. Giulia 0,4 2,7 10,2 22,7 29,3 21,4 9,9 3,5

Liguria 1,6 6,1 17,1 28,2 26,4 14,4 4,9 1,2Emilia-

Romagna1,1 5,2 16,2 27,8 27,3 15,4 5,5 1,6

Toscana 1,0 4,8 15,3 27,6 28,0 15,9 5,9 1,4Umbria 1,2 5,4 17,0 29,5 27,5 13,6 4,7 1,0Marche 1,0 5,1 17,4 30,0 26,9 14,0 4,5 1,1Lazio 1,3 6,1 17,9 30,1 26,1 13,3 4,1 1,2

Abruzzo 1,3 6,2 17,5 31,7 26,4 12,6 3,5 0,8Molise 2,6 8,9 21,7 31,5 22,7 9,6 2,1 1,0

Campania 2,3 8,4 22,5 30,6 23,1 9,9 2,6 0,6Puglia 2,3 8,8 21,4 30,7 23,0 10,3 2,9 0,6

Basilicata 2,5 9,4 25,5 30,9 21,1 8,2 2,0 0,5Calabria 3,4 10,6 25,9 30,2 20,5 7,4 1,7 0,4Sicilia 3,1 10,0 24,2 30,8 21,0 8,6 2,0 0,4

Sardegna 4,6 13,9 27,4 28,8 17,2 6,3 1,5 0,3Italia 1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1

Un valore rappresentativo di un’intera distribuzione, per esempio un valore attorno a cui i dati si “addensano”, viene denominato indice di posizione. La conoscenza di un indice di posizione non può sostituire, in ogni circostanza, quella dell’intera distribuzione. Poiché distribuzioni anche molto diverse possono dare luogo ad uno stesso indice di posizione, è opportuno disporre almeno di un ulteriore valore che misuri la complessiva “distanza”, dall’indice di posizione prescelto, dei valori della distribuzione; esso viene denominato indice di dispersione. Gli indici di posizione sono anche detti medie, distinte in medie analitiche e medie di posizione.

Le medie analitiche si possono applicare soltanto a caratteri quantitativi e sono calcolate mediante operazioni algebriche a partire dalle misure osservate. Nel seguito utilizzeremo solo la media aritmetica e la media geometrica. Il calcolo delle medie di posizione richiede anche operazioni quali l’ordinamento ed il confronto dei dati.

4

Utilizzeremo nel seguito la mediana, i quartili e la moda, che si possono applicare sia a caratteri qualitativi ordinati sia a caratteri quantitativi. La moda è l’unico indice che può essere utilizzato anche per caratteri qualitativi sconnessi.

Fra gli indici di dispersione, prenderemo in considerazione la varianza, lo scarto quadratico medio o scarto standard, il coefficiente di variazione e lo scarto interquartile.

3.2 Le medie analiticheSpesso negli articoli di giornale è presente la parola “media”,

e questa parola è usata comunemente in molte occasioni; chiediamoci allora quale sia il suo significato dal punto di vista statistico. Innanzitutto notiamo che, quando nel linguaggio tecnico si parla di media senza altra specificazione, si intende generalmente la media aritmetica.

Per definirla e imparare a calcolarla partiamo da un esempio semplice

3.2.1 LA MEDIA ARITMETICA

Esempio 2. Le altezze dei diciottenni di leva (2)

Consideriamo un gruppo di iscritti alla leva, che siano una piccola parte (solo 18 casi) di quello i cui dati sono riportati in tabella 3.1, e misuriamone le altezze in cm. Riportiamo poi i dati in una tabella unità/caratteri (tabella 3.2).

Tabella 3.2 Matrice di dati relativa alle18 unità statistiche selezionate tra gli iscritti di leva

Unitàstatist

ica

Altezza

(cm)

Unitàstatist

ica

Altezza

(cm

Unitàstatist

ica

Altezza

(cm01 172 07 171 13 16802 162 08 174 14 16803 170 09 162 15 16304 169 10 163 16 16205 157 11 160 17 17506 168 12 169 18 173

Per calcolare l’altezza media delle 18 unità considerate basterà sommare le singole altezze e dividere per 18, che è il numero totale delle unità statistiche considerate.

5

Il valore così ottenuto è la media aritmetica delle altezze delle nostre unità statistiche.

Definizione.

Si chiama media aritmetica di n misure il valore che si ottiene dividendo la loro somma per n

La media aritmetica sintetizza in un unico valore tutte le misure osservate per un certo carattere nelle diverse unità statistiche.

Torniamo ora la nostro problema relativo al confronto tra le diverse regioni in merito alle altezze degli iscritti di leva (esempio 1). Purtroppo non disponiamo dei dati originali, ma solo delle distribuzioni statistiche relative a classi di altezze; non possiamo, quindi, applicare direttamente la formula di calcolo riportata sopra. L’ISTAT però possiede i dati originali ha calcolato le medie che ci interessano per ogni regione.

Ora abbiamo gli elementi per elencare le regioni in ordine di altezza utilizzando la media come valore rappresentativo di ogni regione (tabella 3.3).

Tabella 3.3 Altezze medie in ordine crescente degli iscritti di leva nati nell’anno 1972 per regione

Regione

Statura media

Regione Statura media

Sardegna

170,71 Piemonte 174,48

Calabria

171,44 Marche 174,51

Sicilia 171,96 Umbria 174,56

6

Basilicata

172,16 Lombardia 174,63

Campania

172,67 Emilia-Romagna

174,99

Molise 172,70 Toscana 175,21Puglia 172,79 Valle d’Aosta 175,31Abruzzo 173,85 Trentino-A.

Adige175,91

Lazio 174,23 Veneto 176,10Liguria 174,45 Friuli-V. Giulia 177,35

Esempio 3. Una sperimentazione della TEXACO (3)

Possiamo anche utilizzare il concetto di media per confrontare le prestazioni dei due filtri antirumore (già visti negli esempi 1 e 4 dell’unità 2) a partire dai dati relativi al livello di rumore separati per i due tipi di filtro (tabella 2.14), otteniamo:

M(filtro 1) =

+

=

M(filtro 2) =

+

=

Come si vede, il confronto delle medie conferma quanto si era osservato analizzando le distribuzioni cumulate, ovvero il secondo tipo di filtro sembra leggermente migliore del primo.

Osserviamo che ogni valore compare nella somma un numero di volte uguale alla sua frequenza assoluta, possiamo, quindi,

7

sostituire la somma semplice con quella che si ottiene applicando la proprietà associativa dell’addizione e scrivere, per esempio:

M(filtro 2) =

=

Inoltre, il numero totale delle misure che compare al denominatore si ottiene come somma di tutte le frequenze, cioè:

18 = 1 + 1 + 1 + 3 + 1 + 5 + 6

Definizione

La media aritmetica di n valori x1,…, xn, ciascuno dei quali si presenta con frequenza f1,f2,…,fn, si calcola mediante la formula:

Si parla in questo caso di media aritmetica ponderata, in quanto ciascuno dei valori x1,…, xn interviene nel calcolo della media con un “peso” dato dalla sua frequenza.

Esercizio 1.

Quanto vale il livello medio di rumore applicando il tipo di silenziatore standard alle auto di media dimensione? E se si applica il silenziatore di nuovo tipo?

Svolgimento

I valori del livello di rumore corrispondenti alle auto di media dimensione cui è stato applicato il silenziatore standard sono: 840, 840, 845, 855, 850; facendone la somma e dividendo per 6, si ottiene M(filtro 1) = 845,83. Per il nuovo tipo, le corrispondenti misure sono: 820, 820, 825, 815, 825, 825; quindi la loro media è: M(filtro 2) = 821,67.

Osserviamo che il valore della media ottenuto in entrambe le situazioni dell’esercizio 1:

non coincide con nessuno dei valori effettivamente osservati;

8

è compreso tra il valore minimo osservato e il valore massimo.

La prima osservazione non rappresenta una proprietà caratteristica della media, infatti può succedere che il valore della media coincida con uno dei valori effettivamente osservati. La seconda osservazione, invece, evidenzia una proprietà caratteristica della media che è possibile dimostrare.

Proprietà

Considerati n valori x1,…, xn, indicata con M(X) la loro media aritmetica e detti min e max il minimo e il massimo tra essi, risulta:

Dimostrazione.

Per la definizione di minimo e massimo risultano le seguenti relazione d’ordine:

dividendo ciascuna delle somme per n si ottiene:

cioè:

da cui semplicemente:

.

9

Esercizio 2. Una sperimentazione della TEXAXO(4)

L’applicazione del nuovo filtro antirumore risulta in media più conveniente sulle auto di media dimensione o su quelle di grande dimensione?

Esercizio 3.

Quanti viaggi in Italia hanno fatto in media gli intervistati davanti al supermercato (dati tabella 2.4)? Quanti viaggi all’estero?

Esercizio 4.

Hanno effettuato mediamente più viaggi all’estero i giovani al di sopra dei 25 anni o quelli di età maggiore?

Esercizio 5.

Hanno effettuato mediamente più viaggi in Italia i maschi o le femmine?

La media aritmetica gode di atre due importanti proprietà che cercheremo di illustrare a partire da esempi.

Esempio 4.

Supponiamo di voler determinare l’altezza media delle sei montagne più alte della Terra. A tale scopo consultiamo un atlante e ci annotiamo le altezze (tabella 3.4).

Tabella 3.4 Altezze delle montagne più alte della Terra

Monte Altezza in metri

Altezza in piedi

Everest 8846 29022,3K2 8616 28267,7Kanchenjunga

8586 28169,3

Lhotse I 8501 27890,4Makalu 8481 27824,8Lhotse II 8400 27559,1

10

In tale tabella abbiamo indicato per ciascun valore anche la corrispondente altezza in piedi, unità di misura dei paesi anglosassoni, moltiplicando per il coefficiente di conversione che approssimiamo a 3,28084 (1 piede = 0,3048 metri 1 metro =

piedi).

L’altezza media in metri Mm corrisponde pertanto alla media aritmetica dei valori in metri riportati, pertanto:

Calcoliamo, ora, l’altezza media in piedi Mp(X):

Avremmo ottenuto lo stesso valore moltiplicando semplicemente l’altezza media in metri per il coefficiente di conversione 3,28084, ovvero

8571,67 · 3,28084 = 28122,27.

Il risultato precedente vale in generale, poiché si può dimostrare che la media aritmetica verifica la seguente proprietà:

Proprietà (Omogeneità)

Se M(X) è la media aritmetica dei valori x1,…, xn allora la media aritmetica dei valori è .

Esempio 5.

Consideriamo una famiglia composta da 5 componenti: padre, madre e tre figli, con età rispettive:

Componente

Padre

Madre

1º figlio

2º figlio

3º figlio

Età 47 44 17 15 12

11

Risulta che l’età media di tale nucleo familiare è 27 anni.

Supponiamo di voler calcolare, di nuovo, tale media fra 5 anni, si avranno allora i seguenti dati:

Componente

Padre

Madre

1º figlio

2º figlio

3º figlio

Età 52 49 22 20 17

per cui risulterà:

Tale risultato si poteva ottenere più facilmente “traslando” di 5 anni il valore medio che avevamo già ottenuto in precedenza cioè:

27 + 5 = 32

Questo vale poiché la media aritmetica verifica la seguente proprietà:

Proprietà (Traslazione)

Se M(X) è la media aritmetica dei valori x1,…, xn, allora M(X)+k è la media aritmetica dei valori x1+k,…, xn+k, dove k è un qualsiasi numero.

Le due proprietà precedenti possono sintetizzarsi nell’unica seguente

Proprietà

12

Se M(X) è la media aritmetica dei valori x1,…, xn, allora hM(X) + k è la media aritmetica dei valori hx1+k,…, hxn+k, dove h e k sono una coppia qualsiasi di numeri.

È possibile calcolare la media aritmetica anche per dati raggruppati pur di scegliere un valore interno a ogni classe come valore rappresentativo della classe. Naturalmente il risultato non risulta identico a quello che si avrebbe considerando gli effettivi valori osservati.

Esempio 6. Una sperimentazione della TEXACO (5)

Consideriamo l’esempio del livello di rumore (tabella 2.15) e assumiamo come valore rappresentativo il valore medio di ogni classe, che si calcola semplicemente sommando il minimo e il massimo e quindi dividendo per 2. In questo modo otteniamo la tabella 3.5.

Tabella 3.5 Distribuzioni di frequenza per il carattere quantitativo livello di rumore (in decibel) con valori raggruppati in classi identificate dal valore medio

Intervalli

Frequenza assoluta(tipo 1)

Frequenza assoluta(tipo 2)

769,5 3 6789,5 3 0809,5 1 1829,5 5 11849,5 6 0

Calcolando i valori medi mediante l’utilizzo della formula per la media ponderata si ottiene:

M(filtro 1) = 818,39; M(filtro 2) = 808,39

Osserviamo che i valori ottenuti sono entrambi di poco maggiori di quelli ottenuti dal calcolo diretto sulle misure effettive.

13

Esempio 7. Le altezze dei diciottenni di leva (3)

In alcuni casi può essere meno naturale scegliere un valore rappresentativo per le classi, questo accade, per esempio, quando le classi sono aperte come si verifica per i dati ISTAT sulla statura degli iscritti alla leva relativamente alla prima e all’ultima classe. Consideriamo la tabella 3.6 in cui riportiamo l’informazione relativa a tutti i dati nazionali.

Tabella 3.6 Distribuzione di frequenza (%) dell’altezza (cm) degli iscritti di leva nati nell’anno 1972 (Fonte ISTAT, Compendio statistico 1994)

Classi di

altezza

Finoa 159

160-164

165-169

170-174

175-179

180-184

185-189

Piùdi

189Italia 1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1

Decidiamo di rappresentare ogni classi chiusa con il valore medio, la prima classe con il valore 150 e l’ultima con il valore 195 (tabella 3.7).

Tabella 3.7 Distribuzione di frequenza (%) dell’altezza (cm) degli iscritti di leva nati nel 1972 (Fonte ISTAT, Compendio statistico 1994)

Classi di altezza

150

162

167

172

177

182

187

195

Italia 1,7

6,8

18,6

29,1

25,2

13,2

4,3

1,1

e procediamo al calcolo della media:

M(altezza) =

14

+

che risulta leggermente inferiore a quella calcolata dall’ISTAT sulle misure effettive (173,96).

Per completare l’analisi riportiamo anche le rappresentazioni grafiche relative alla tabella 3.7 (diagramma a barre e spezzata delle frequenze) in figura 3.1.

Figura 3.1 Rappresentazioni grafiche relative alla tabella 3.7 (diagramma a barre e spezzata delle frequenze)

Esercizio 6.

Si calcolino le medie regionali per i dati di tabella 3.1, seguendo lo stesso procedimento utilizzato per il calcolo della

15

media nazionale, e si confronti l’ordinamento regionale che si ottiene con quello ottenuto sulla base dei dati sulle medie forniti dall’ISTAT e calcolati sulle misure effettive (tabella 3.3).

3.2.2 LA MEDIA GEOMETRICA

Supponiamo di dover risolvere il seguente problema.

Una popolazione di batteri in una certa coltura è cresciuta da 1000 a 8000 individui in 3 giorni. Quanto si accresce in media ogni giorno, ovvero qual è il tasso di crescita medio giornaliero?

Come possiamo procedere?

Tale problema non è diverso da quello che viene presentato qui di seguito.

Esempio 8.

Supponiamo che il signor Giovanni abbia investito in banca un ammontare e di euro al tempo iniziale e che nei due anni successivi i rendimenti, espressi come fattori di crescita, siano stati r1 e r2, in modo che il “gruzzolo” e’ dopo 2 anni risulta:

e’ = (r1 r2) e

Ci chiediamo: quale tasso annuale di rendimento “medio” r* fornirebbe lo stesso risultato? In parole semplici, quale fattore di crescita costante r*, moltiplicato per se stesso e poi per il gruzzolo iniziale e, darebbe come risultato e’? Per determinare tale valore occorre risolvere l’equazione nell’incognita r*:

e’ = (r*)2 e

L’equazione si risolve immediatamente ponendo:

(r*)2 = (r1 r2)

che fornisce come soluzione:

r* =

r* è la media geometrica dei 2 tassi annuali.

16

Definizione.

Dati gli n valori positivi x1, x2, …, xn che costituiscono le misure relative all’osservazione di un carattere quantitativo, si dice media geometrica la radice n-esima con segno positivo del loro prodotto. Se indichiamo tale risultato con la lettera G, possiamo scrivere:

.

Possiamo adesso risolvere il problema della crescita dei batteri.

Detti k1, k2, k3, i tassi di crescita nei tre giorni, impostando le equazioni:

N1 = k1N0, N2 = k2N1 = k1 k2N0, N3 = k3N2 = k1 k2 k3N0, si ricava che N3/N0 = k1 k2 k3 = 8; estraendo la radice cubica si verifica subito che la media geometrica richiesta è 2.

Esercizio 7.

Una popolazione di scimmie è passata nel corso di tre anni da 1000 a 3375 individui. Qual è il tasso medio di crescita annuale?

Esercizio 8.

In corrispondenza dei tre ultimi censimenti del secolo scorso i dati (in milioni di individui) della popolazione italiana sono risultati:

Anno del censimento

Popolazione in milioni di individui

1971 54,1371981 56,5571991 57,441

17

Qual è stato il tasso di incremento decennale tra il 1971 e il 1981? Qual è stato il tasso di incremento decennale tra il 1981 e il 1991? E quello medio decennale tra il 1971 e il 1991?

Se tra il 1991 e il 2001 il tasso di incremento fosse rimasto pari a quello medio determinato, quanti milioni di individui ci saremmo aspettati di rilevare al censimento del 2001?

Esercizio 9.

Una popolazione batterica in una certa coltura è cresciuta da 1000 a 64000 individui in 3 ore. Quanto si accresce in media in un’ora, cioè qual è il tasso medio di crescita in un’ora?

Osserviamo che se consideriamo la media aritmetica e la media geometrica di due valori, per esempio 5 e 3, otteniamo che la prima è maggiore della seconda. Questo corrisponde ad una proprietà generale che lega le due medie.

Proprietà.

La media geometrica dei numeri x1, x2, …, xn è sempre minore o uguale alla media aritmetica dei numeri dati.

Dimostrazione.

Nel caso di due soli numeri a e b questo avviene perché

e perciò

da cui si ottiene la disuguaglianza

Nel caso generale la dimostrazione è solo un po’ più complessa, ma si può ricondurre al caso semplice di due soli valori.

18

3.3 Le medie di posizioneEsistono altri indici di posizione, non analitici, che forniscono

informazioni diverse sulla distribuzione statistica.

3.3.1 LA MEDIANA

Un’importante media di posizione per la descrizione sintetica di una distribuzione statistica è la mediana, definita come quel valore che nella successione dei dati, disposti in ordine non decrescente (o non crescente), divide la graduatoria in due parti tali che il numero dei termini che la precede è uguale al numero dei termini che la segue: in altre parole la mediana occupa il posto centrale della successione dei valori. Poiché per calcolare la mediana dobbiamo ordinare le osservazioni (o le modalità nel caso in cui compaiono le frequenze) segue che ha senso parlare di mediana in relazione a caratteri sia quantitativi sia qualitativi ordinati.

In generale si può dare la regola di calcolo che definisce la mediana nel modo seguente.

Se si ha un numero dispari n di osservazioni, ordinate in modo non crescente o non decrescente, la mediana (Me) è il termine che occupa il posto centrale, ovvero la posizione (n+1)/2.

Se le osservazioni sono in numero n pari la mediana (Me) viene definita come semisomma dei termini che occupano i posti n/2 è (n/2)+1.

Esempio 9. Una sperimentazione della TEXACO (6)

Consideriamo i dati della TEXACO sul livello di rumore per i due filtri separatamente e ordiniamoli in modo crescente:

Filtro 1: 760 760 770 785 785 790 810 820 820 835 835 835 840 840 845 845 850 850

Filtro 2: 760 765 770 775 775 775 815 820 820 820 820 820 825 825 825 825 825 825

Le due mediane risultano dalla semisomma dei termini posti al nono e decimo posto nelle de graduatorie:

19

Me(filtro1) = 827,5; Me(filtro2) = 820

Anche le mediane si comportano come le medie, pur avendo valori diversi da quelle. Infatti la mediana relativa al filtro2 è minore di quella relativa al filtro1.

Naturalmente quando i dati sono molti e i valori non ordinabili in modo così semplice, il calcolo della mediana può risultare laborioso.

Esercizio 10.

Consideriamo le seguenti misure che furono ottenute da Henry Cavendish nel 1798 usando una bilancia di torsione e che presentano la misura della densità della Terra come multiplo della densità dell’acqua, che viene, quindi, assunta come unità di misura.

misurazione

valore

misurazione

valore

misurazione

valore

1 5,50 11 5,29 21 5,752 5,57 12 5,34 22 5,293 5,42 13 5,26 23 5,104 5,61 14 5,44 24 5,865 5,53 15 5,46 25 5,586 5,47 16 5,55 26 5,277 4,88 17 5,34 27 5,858 5,62 18 5,30 28 5,659 5,63 19 5,36 29 5,39

Determinare la mediana delle misure.

Svolgimento

Per determinare la mediana occorre porre le misure in ordine crescente e identificare quella che si trova al quindicesimo posto. Per semplicità elenchiamo sotto sulla prima riga le 14 misure, sulla seconda la quindicesima (mediana) e sulla terza le ultime 14.

20

4,07 4,88 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34 5,36 5,39 5,42 5,445,465,47 5,50 5,53 5,55 5,57 5,58 5,61 5,62 5,63 5,65 5,75, 5,79 5,85 5,86

Il valore della mediana risulta Me = 5,46.

Per completezza calcoliamo anche la media (aritmetica) che risulta M = 5,42 ed è un valore molto simile a quello della mediana.

È possibile determinare graficamente il valore approssimato della mediana a partire dalla rappresentazione come ogiva della distribuzione cumulata delle frequenze relative. Consideriamo questa rappresentazione per le misure dell’esercizio 10 che riportiamo in figura 3.2.

Figura 3.2

Per definizione la mediana è quel valore delle misure che corrisponde al valore 0,5 della distribuzione cumulata delle frequenze relative. Nel nostro grafico, quindi, dobbiamo determinare il valore dell’ascissa cui corrisponde il valore 0,5 dell’ordinata. Per fare questo possiamo tracciare, a partire dall’asse delle ordinate, in corrispondenza al valore 0,5 la semiretta parallela all’asse delle ascisse, determinare l’intersezione di tale semiretta con l’ogiva e, da quel punto, tracciare la semiretta parallela all’asse delle ordinate fino ad

21

intersecare l’asse delle ascisse: il punto d’intersezione corrisponde al valore della mediana. Riportiamo in figura 3.3 la costruzione descritta per i dati dell’esercizio 10.

Esercizio 11.

Determinare la mediana e la media della distribuzione delle età riportata nella matrice dei dati della tabella 2.4.

Possiamo commentare dicendo che il valore relativamente alto della mediana è in gran parte dovuto ad alcune età piuttosto elevate ma che, comunque, il nostro campione è costituito in gran parte di persone relativamente giovani?

Figura 3.3

Nei casi trattati abbiamo calcolato la mediana di successioni ordinate di dati; quando si hanno a disposizione i dati sotto forma di distribuzioni di frequenza, la mediana va calcolata sulla base della distribuzione cumulata delle frequenze delle modalità, precedentemente ordinate in tabella.

22

Esempio 10.

Supponiamo di voler calcolare il voto mediano di maturità conseguito in un liceo scientifico in base ai dati riportati in tabella

Voto

60

62

66

75

80

82

88

90

95

96

100

Freq.

15

610

721

18

915

18

5 7

Il valore mediano è quello conseguito dallo studente che ha lo stesso numero di compagni che hanno superato l’esame con un voto più alto o più basso del suo.

Tale studente non è immediatamente individuabile con la procedura finora utilizzata; in presenza di frequenze dobbiamo fare un passaggio intermedio: determinare la distribuzione cumulata delle frequenze.

Voto

Frequenza

Frequenza cumulata

60 15 1562 6 2166 10 3175 7 3880 21 5982 18 7788 9 8690 15 10195 18 11996 5 124

100 7 131

Nel caso in esame, poiché il totale delle osservazioni è 131, si avrà che la mediana è il voto corrispondente al (131+1)/2 = 66° posto della successione. Per cui il valore mediano è pari a 82, più

23

esattamente il 7° nella sequenza dei 18 studenti che hanno conseguito tale votazione (infatti fino al 59° posto della graduatoria ci sono coloro che hanno un voto inferiore o uguale a 80, per arrivare a colui che occupa il 66° posto dobbiamo conteggiare altre 7 persone che hanno un voto di 82).

Se i valori del carattere osservato sono raggruppati in classi oppure si tratta di un carattere qualitativo ordinato, come per esempio il titolo di studio in tabella 2.4, la procedura è la stessa soltanto che non parleremo di mediana ma di classe mediana, che la classe che al suo interno contiene il valore mediano

Esercizio 12.

Determinare la classe mediana per i dati di tabella 3.6.

Esercizio 13.

Determinare la classe mediana per quanto riguarda il titolo di studio in relazione ai dati di tabella 2.4.

3.3.2 I QUARTILI

È possibile estendere il concetto di media di posizione a partire dalla mediana. In particolare, può essere interessante suddividere la distribuzione in quattro parti definendo i quartili:

Definizione

Si dice primo quartile di una distribuzione statistica, e si indica con q1/4, il valore che lascia alla sua sinistra un quarto dei valori osservati e alla sua destra ¾.

Il secondo quartile è la mediana stessa.

Si dice terzo quartile di una distribuzione statistica, e si indica con q3/4, il valore che lascia alla sua sinistra ¾ dei valori osservati e alla sua destra un quarto.

24

Nel caso della distribuzione delle altezze della tabella 3.6, per determinare le classi che corrispondono ai diversi quartili dobbiamo identificare in corrispondenza a quali classi di altezze la distribuzione percentuale raggiunge il valore 25 (primo quartile), il valore 50 (mediana), il valore 75 (terzo quartile). Dall’osservazione della tabella otteniamo:

q1/4 = classe(160-164);

mediana = q1/2 = classe(170-174);

q3/4 = classe(175-179).

Esercizio 14.

Determinare i quartili per i dati dell’esercizio 10.

Svolgimento

Dalla definizione appena data si ricava che il primo quartile non è altro che la mediana della distribuzione delle misure inferiori alla mediana della distribuzione originale e il terzo quartile è la mediana delle misure superiori alla mediana della distribuzione originale.

Applicando la regola di calcolo della mediana, rispettivamente alle 14 misure inferiori e alle 14 misure superiori, otteniamo:

q1/4 = 5,295 (semisomma del settimo e ottavo valore inferiore);

mediana = q1/2 = 5,46;

q3/4 = 5,61 (semisomma del settimo e ottavo valore superiore).

Anche per i quartili si può procedere alla determinazione grafica in analogia a quanto visto per la mediana. Il primo quartile si otterrà a partire dalla semiretta posta al livello 0,25 dell’asse delle ordinate, mentre per il terzo quartile si partirà dal livello 0,75.

Nella figura 3.4 sono rappresentati i quartili dell’esercizio 10.

25

Figura 3.4

Esercizio 15.

Determinare i quartili per le misure relative al livello di rumorosità per i due filtri separatamente in tabella 2.14 dell’unità 2.

3.3.3 LA MODA

Consideriamo la distribuzione del carattere sesso per i dati dell’esercizio 7 della seconda unità.

Modalità del carattere “sesso”

Frequenza assoluta

Maschio 4Femmina 6

Diciamo che la modalità “femmina” è la moda della distribuzione.

Definizione

26

Si dice moda la modalità cui è associata la maggiore frequenza, cioè la modalità che si presenta più volte.

Dire “quest’anno va di moda” o “va di moda” significa indicare qual è la tendenza della maggioranza degli individui. È evidente che la moda può essere definita per qualsiasi tipo di carattere. Nell’esempio 10 il valore modale è 80, che è il voto cui corrisponde la massima frequenza.

Se i valori di un carattere quantitativo sono raggruppati in classi di uguale ampiezza, anziché di moda parliamo di classe modale, ovvero la classe in corrispondenza della quale si ha la massima frequenza. Le classi modali per i dati dell’esercizio 8 dell’unità 2 si leggono immediatamente dalla figura 2.14 e risultano:

filtro1: 840 ├ 860; filtro2: 820 ├ 840.

Esercizio 16.

Suddividere le misure dell’esercizio 10 in classi di ampiezza 0,10. Determinare quindi la distribuzione di frequenze, la distribuzione cumulata, la classe mediana e la classe modale.

Esercizio 17.

Qual è la moda della distribuzione rappresentata in figura 3.1?

3.4 Indici di dispersioneSupponiamo di dover eseguire un’indagine comparativa sulle

condizioni economiche di due paesi A e B e che il rapporto della ricchezza complessiva rispetto al numero di abitanti sia, nei due paesi, uguale. Possiamo concludere che le condizioni dei due paesi sono, per quest’anno, del tutto simili?

Certamente no. Infatti il valore uguale delle due statistiche può celare differenze fortissime. La ricchezza è uno di quei caratteri che può variare moltissimo da individuo a individuo e potrebbe benissimo capitare che in uno dei due paesi sia abbastanza uniformemente distribuita tra gli abitanti, mentre nell’altro potrebbe essere concentrata principalmente nelle mani

27

di pochi privilegiati. Lo studio comparativo non potrà, quindi, fermarsi all’analisi basata soltanto su un indice di posizione, ma dovrà essere integrato da uno studio della variabilità, cioè della tendenza a presentare nei singoli casi valori differenti, che il carattere manifesta nei due paesi.

Una prima informazione a questo proposito si ha considerando la differenza tra il valore più grande e il valore più piccolo tra quelli osservati. Tale differenza, che possiamo indicare con D, si dice campo di variazione. Tale indice è piuttosto grossolano perché non tiene conto di ciò che accade per tutti i valori intermedi.

Esempio 11.

Per chiarire consideriamo i seguenti gruppi di misure e calcoliamone la media e il campo di variazione

UnitàGrupp

o 1Grupp

o 2Grupp

o 3Grupp

o 4Gruppo

51 49 48 48 54 602 51 52 51 49 363 49 48 49 46 314 51 52 52 49 505 49 48 47 51 486 51 52 52 53 507 49 48 46 50 548 51 52 51 50 569 49 48 53 49 6210 51 52 51 49 53

Somma

500 500 500 500 500

Dal calcolo delle medie risulta che tutti i gruppi hanno la stessa media M = 50. Calcoliamo allora i campi di variazione:

D(gruppo 1) = 2;

D(gruppo 2) = 4;

D(gruppo 3) = 7;

28

D(gruppo 4) = 8;

D(gruppo 5) = 31.

Come si vede già dal campo di variazione i 5 gruppi mostrano situazioni ben diverse rispetto alla distribuzione dei valori. Se, però, si vuole tenere conto anche dei valori intermedi occorre utilizzare qualche altro strumento. La prima cosa che ci viene in mente è di “misurare” quanto i singoli valori differiscano dalla media della distribuzione. Supponiamo che la media in questione sia la media aritmetica (ma può essere un altro valor medio qualsiasi). Possiamo dare la seguente definizione.

Definizione

Si definiscono scarti dalla media le differenze fra ciascun valore osservato e la media aritmetica. Più precisamente: dati i valori x1, x2, …, xn e la loro media M, si definiscono scarti dalla media le differenze: x1-M, x2-M, …, xn-M.

Poiché la media è compresa fra il valore più piccolo e quello più grande, alcuni scarti sono positivi e altri negativi.

Esercizio 18.

Calcolare gli scarti dalla media aritmetica per i dati dell’esempio 11.

Svolgimento.

Per calcolare gli scarti basta sottrarre ad ogni valore riportato in tabella il valore della media (50). Si ottiene così:

UnitàGrupp

o 1Grupp

o 2Grupp

o 3Grupp

o 4Gruppo

51 -1 -2 -2 4 10

2 1 2 1 -1 -14

3 -1 -2 -1 -4 -19

4 1 2 2 -1 0

29

5 -1 -2 -3 1 -2

6 1 2 2 3 0

7 -1 -2 -4 0 4

8 1 2 1 0 6

9 -1 -2 3 -1 12

10 1 2 1 -1 3

Somma

0 0 0 0 0

Osserviamo che il valore assoluto dei singoli scarti risulta maggiore per i gruppi in cui le misure mostrano maggiore variabilità e che, comunque, la somma degli scarti risulta sempre nulla. Questa è una proprietà generale che può essere dimostrata. Risulta infatti che:

Proprietà

La somma di tutti gli scarti dalla media aritmetica è uguale a zero.

Dimostrazione

Indicando con S tale somma, e ricordando che:

ovvero nM = x1+…+ xn, si ha:

3.4.1 LA VARIANZA

Quanto detto finora indica che la variabilità e gli scarti sono fra loro legati e che, quindi, si può pensare di misurare la

30

variabilità di un fenomeno statistico considerando e sintetizzando la distribuzione degli scarti. Posto ciò, resta però il fatto che tale sintesi non può essere fatta calcolando semplicemente la media degli scarti, dato che questa è nulla in quanto scarti postivi e scarti negativi si compensano. L’inconveniente può essere superato ricorrendo a un espediente: anziché considerare la media degli scarti consideriamo la degli scarti al quadrato, che sono tutti positivi. Questo indice si chiama varianza.

Definizione

Indichiamo la varianza con il simbolo :

Osserviamo che:

Proprietà

La varianza è sempre positiva.

Infatti il numeratore è somma di addendi tutti positivi.

Proprietà

La varianza è uguale a zero se (e solo se) la variabilità è nulla.

Infatti, in questo caso si ha:

e, quindi tutti gli addendi che figurano al numeratore della precedente relazione sono uguali a zero; viceversa, se la varianza è uguale a zero, essendo il numeratore somma di

31

termini tutti non negativi, è necessario che questi siano tutti nulli, ovvero .

Proprietà

La varianza è tanto più elevata quanto più elevata è la variabilità.

Infatti, se la variabilità è più elevata, i termini al numeratore tenderanno ad essere più grandi.

Esercizio 19.

Calcolare le varianze per i dati dell’esercizio 18.

Dal calcolo otteniamo i seguenti valori delle varianze:

2(gruppo 1) = 1;

2(gruppo 2) = 4;

2(gruppo 3) = 5;

2(gruppo 4) = 4,6;

2(gruppo 5) = 8,66;

Confrontando i valori ottenuti per il gruppo 3 e per il gruppo 4, possiamo osservare che la varianza più grande corrisponde a un campo di variazione più piccolo; questo sta a indicare che l’influenza dei valori interni al campo di variazione è rilevante nel misurare la variabilità.

32

Nel caso di distribuzioni con dati raggruppati in classi vale il discorso già fatto per il calcolo della media aritmetica: occorre assumere dei valori rappresentativi per le classi e procedere poi al calcolo della varianza mediante la formula per la media ponderata.

Esercizio 20.

I dati riportati qui di seguito rappresentano la retribuzione annua (in migliaia di dollari) di 59 dirigenti americani.

145

498

343 206

808

155

621

643

536 250

543

802

262

390

543 21 149

200

208

332

217 298

350

282

362

750

298 350

242

573

424

368

1103

800

198

388

339

659

406 726

213

250

736

234

254 370

296

396

291

396

862 536

317

572

58 300

204 291

482

Raggruppando in classi di ampiezza 200 dollari, costruire la distribuzione di frequenza e rappresentarla con un istogramma. Preso il punto centrale di ogni classe come rappresentativo, calcolare la media, la moda, la mediana, i quartili e la varianza.

3.4.2 LO SCARTO QUADRATICO MEDIO

Molto spesso, per misurare il grado di variabilità di una distribuzione, è preferibile calcolare la radice quadrata (positiva) della varianza.

Definizione

33

Lo scarto quadratico medio, o scostamento quadratico medio o scarto standard si ottiene dal calcolo della radice quadrata della varianza:

.

Per capire il motivo di questa preferenza riprendiamo l’esempio delle retribuzioni annue (esercizio 20):

i dati osservati sono espressi in dollari (migliaia);

la media aritmetica è espressa in dollari (migliaia);

la varianza è espressa in dollari (migliaia) al quadrato;

lo scarto quadratico medio è espresso in dollari (migliaia) perché è la radice quadrata della varianza.

Dunque, la media aritmetica e la varianza sono espresse in unità di misura diverse (rispettivamente in dollari e dollari al quadrato) mentre la media aritmetica e lo scarto quadratico medio sono espressi nella medesima unità di misura (dollari). Questo è un fatto molto importante nel confronto di situazioni diverse.

Esercizio 21.

Calcolare gli scarti quadratici medi per i dati degli esercizi 19 e 20.

3.4.3 LO SCARTO INTERQUARTILE

Un ulteriore modo di misurare la variabilità di una distribuzione è basato sul calcolo dello scarto interquartile.

34

Definizione

Lo scarto interquartile è la differenza tra i valori del terzo quartile e del primo quartile: q3/4 – q1/4.

Per i dati dell’esercizio 20, per esempio, si ottiene:

q3/4 – q1/4 = 347.

Osserviamo che, per come sono stati definiti il primo e il terzo quartile, la percentuale di osservazioni comprese tra il loro valore è esattamente 50.

Esercizio 22.

Calcolare scarto quadratico medio e scarto interquartile per tutte le misure presentate nelle unità 2 e 3 per cui tale operazione ha senso.

3.4.4 IL COEFFICIENTE DI VARIAZIONE

Supponiamo ora di voler trasformare in euro i dati dell’esercizio 20 per poterli meglio confrontare con la situazione del nostro paese. Ogni misura espressa in dollari va moltiplicata per la quotazione del giorno corrente. Ammettendo che il valore sia di 1,11 si ottiene:

M = 450 = 246

Chiaramente la variabilità delle misure non dipende dall’unità di misura utilizzata, così per rendere più facilmente confrontabili le misure della dispersione, si può rapportare il valore dello scarto quadratico medio al valore della media espressa nella stessa unità di misura, ottenendo un indice che è un numero puro indipendente dall’unità di misura utilizzata. L’indice che si

35

ottiene in questo modo si chiama coefficiente di variazione e si indica con CV.

Esercizio 23.

Calcolare il coefficiente di variazione per i dati dell’esercizio 20 e confrontare i valori ottenuti utilizzando come unità di misura il dollaro (migliaia) e l’euro.

Svolgimento

Calcolando il rapporto tra lo scarto quadratico medio e la media espressi in dollari otteniamo CV = 1,83, che è lo stesso valore che si ottiene anche dal calcolo del rapporto delle stesse quantità espresse in euro.

Esercizio 24.

Calcolare il coefficiente di variazione per la variabile “livello di rumore” per i due tipi di filtro (dati di tabella 2.1).

Esercizio 25.

In un collettivo in cui sono state rilevate le stature, in cm, e i pesi, in kg, risulta:

peso medio = 67,6 kg

= 7,8 kg

statura media = 171,7 cm

= 7,7 cm

Quale delle due distribuzioni è più dispersa? In altre parole, risulta più variabile il peso o la statura?

36

Esercizio 26.

Negli Stati Uniti la statura viene rilevata in pollici. Un gruppo di studenti americani ha una statura media di 69 pollici con uno scostamento quadratico medio di 2,4 pollici. Un gruppo di studenti italiani ha una statura media di 175,3 cm e scostamento quadratico medio di 6 cm. In quale dei due gruppi la statura è più variabile?

37