Unità 3 - BIS
-
Upload
mariosmargiassi -
Category
Documents
-
view
221 -
download
1
description
Transcript of Unità 3 - BIS
Corso di Laurea in modalità teledidattica“Scienze dell’Educazione e della Formazione in una società multiculturale”
SECS-S/01 Statistica
MODULO A - 1 CFU
Massimiliano Bultrini, Carla Rossi
Elementi di Statistica Sociale
© Scuola IaD – Roma, 2003M. Bultrini, C. Rossi Tutti i diritti riservati
TERZA UNITÀ...............................................................................................................3
3 ELABORAZIONI DI DATI: GLI INDICI STATISTICI.....................................4
3.1 INDICI STATISTICI UNIVARIATI.................................................43.2 LE MEDIE ANALITICHE...........................................................53.2.1 LA MEDIA ARITMETICA.............................................................................................53.2.2 LA MEDIA GEOMETRICA.......................................................................................143.3 LE MEDIE DI POSIZIONE.......................................................173.3.1 LA MEDIANA.........................................................................................................173.3.2 I QUARTILI............................................................................................................223.3.3 LA MODA..............................................................................................................243.4 INDICI DI DISPERSIONE........................................................253.4.1 LA VARIANZA.......................................................................................................283.4.2 LO SCARTO QUADRATICO MEDIO........................................................................303.4.3 LO SCARTO INTERQUARTILE................................................................................313.4.4 IL COEFFICIENTE DI VARIAZIONE........................................................................32
2
TERZA UNITÀ
3 ELABORAZIONE DI DATI: GLI INDICI STATISTICI
3.1 Indici statistici univariatiIntroduciamo l’argomento con un esempio.
Esempio 1. Le altezze dei diciottenni di leva (1)
Consideriamo i dati riportati nella tabella 3.1 relativi alla distribuzione di frequenza dell’altezza degli iscritti alla leva nati nell’anno 1972 per regione e poniamoci l’obiettivo di confrontare le regioni elencandole “in ordine di altezza”.
Non è semplice rispondere a questa domanda confrontando direttamente le righe della tabella.
Il modo più intuitivo di procedere è sintetizzare ogni distribuzione in un unico valore che possa essere messo a confronto con quelli delle altre, permettendoci di effettuare l’ordinamento.
3
Tabella 3.1 Distribuzione di frequenza (%) dell’altezza (cm) degli iscritti di leva nati nell’anno 1972 per regione (Fonte ISTAT, Compendio statistico 1994)
Regione Fino a 159
160-164
165-169
170-174
175-179
180-184
185-189
più di 189
Piemonte 1,3 6,0 17,4 28,7 26,0 14,4 5,0 1,3Valle d’Aosta 1,3 4,3 16,0 27,9 25,6 16,9 6,1 1,9Lombardia 1,2 5,6 16,3 28,6 26,9 15,0 5,1 1,3
Trentino-A. Adige
0,7 2,7 13,7 26,9 29,9 17,6 6,8 1,7
Veneto 0,8 3,6 12,7 26,5 28,6 18,7 7,1 2,1Friuli-V. Giulia 0,4 2,7 10,2 22,7 29,3 21,4 9,9 3,5
Liguria 1,6 6,1 17,1 28,2 26,4 14,4 4,9 1,2Emilia-
Romagna1,1 5,2 16,2 27,8 27,3 15,4 5,5 1,6
Toscana 1,0 4,8 15,3 27,6 28,0 15,9 5,9 1,4Umbria 1,2 5,4 17,0 29,5 27,5 13,6 4,7 1,0Marche 1,0 5,1 17,4 30,0 26,9 14,0 4,5 1,1Lazio 1,3 6,1 17,9 30,1 26,1 13,3 4,1 1,2
Abruzzo 1,3 6,2 17,5 31,7 26,4 12,6 3,5 0,8Molise 2,6 8,9 21,7 31,5 22,7 9,6 2,1 1,0
Campania 2,3 8,4 22,5 30,6 23,1 9,9 2,6 0,6Puglia 2,3 8,8 21,4 30,7 23,0 10,3 2,9 0,6
Basilicata 2,5 9,4 25,5 30,9 21,1 8,2 2,0 0,5Calabria 3,4 10,6 25,9 30,2 20,5 7,4 1,7 0,4Sicilia 3,1 10,0 24,2 30,8 21,0 8,6 2,0 0,4
Sardegna 4,6 13,9 27,4 28,8 17,2 6,3 1,5 0,3Italia 1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1
Un valore rappresentativo di un’intera distribuzione, per esempio un valore attorno a cui i dati si “addensano”, viene denominato indice di posizione. La conoscenza di un indice di posizione non può sostituire, in ogni circostanza, quella dell’intera distribuzione. Poiché distribuzioni anche molto diverse possono dare luogo ad uno stesso indice di posizione, è opportuno disporre almeno di un ulteriore valore che misuri la complessiva “distanza”, dall’indice di posizione prescelto, dei valori della distribuzione; esso viene denominato indice di dispersione. Gli indici di posizione sono anche detti medie, distinte in medie analitiche e medie di posizione.
Le medie analitiche si possono applicare soltanto a caratteri quantitativi e sono calcolate mediante operazioni algebriche a partire dalle misure osservate. Nel seguito utilizzeremo solo la media aritmetica e la media geometrica. Il calcolo delle medie di posizione richiede anche operazioni quali l’ordinamento ed il confronto dei dati.
4
Utilizzeremo nel seguito la mediana, i quartili e la moda, che si possono applicare sia a caratteri qualitativi ordinati sia a caratteri quantitativi. La moda è l’unico indice che può essere utilizzato anche per caratteri qualitativi sconnessi.
Fra gli indici di dispersione, prenderemo in considerazione la varianza, lo scarto quadratico medio o scarto standard, il coefficiente di variazione e lo scarto interquartile.
3.2 Le medie analiticheSpesso negli articoli di giornale è presente la parola “media”,
e questa parola è usata comunemente in molte occasioni; chiediamoci allora quale sia il suo significato dal punto di vista statistico. Innanzitutto notiamo che, quando nel linguaggio tecnico si parla di media senza altra specificazione, si intende generalmente la media aritmetica.
Per definirla e imparare a calcolarla partiamo da un esempio semplice
3.2.1 LA MEDIA ARITMETICA
Esempio 2. Le altezze dei diciottenni di leva (2)
Consideriamo un gruppo di iscritti alla leva, che siano una piccola parte (solo 18 casi) di quello i cui dati sono riportati in tabella 3.1, e misuriamone le altezze in cm. Riportiamo poi i dati in una tabella unità/caratteri (tabella 3.2).
Tabella 3.2 Matrice di dati relativa alle18 unità statistiche selezionate tra gli iscritti di leva
Unitàstatist
ica
Altezza
(cm)
Unitàstatist
ica
Altezza
(cm
Unitàstatist
ica
Altezza
(cm01 172 07 171 13 16802 162 08 174 14 16803 170 09 162 15 16304 169 10 163 16 16205 157 11 160 17 17506 168 12 169 18 173
Per calcolare l’altezza media delle 18 unità considerate basterà sommare le singole altezze e dividere per 18, che è il numero totale delle unità statistiche considerate.
5
Il valore così ottenuto è la media aritmetica delle altezze delle nostre unità statistiche.
Definizione.
Si chiama media aritmetica di n misure il valore che si ottiene dividendo la loro somma per n
La media aritmetica sintetizza in un unico valore tutte le misure osservate per un certo carattere nelle diverse unità statistiche.
Torniamo ora la nostro problema relativo al confronto tra le diverse regioni in merito alle altezze degli iscritti di leva (esempio 1). Purtroppo non disponiamo dei dati originali, ma solo delle distribuzioni statistiche relative a classi di altezze; non possiamo, quindi, applicare direttamente la formula di calcolo riportata sopra. L’ISTAT però possiede i dati originali ha calcolato le medie che ci interessano per ogni regione.
Ora abbiamo gli elementi per elencare le regioni in ordine di altezza utilizzando la media come valore rappresentativo di ogni regione (tabella 3.3).
Tabella 3.3 Altezze medie in ordine crescente degli iscritti di leva nati nell’anno 1972 per regione
Regione
Statura media
Regione Statura media
Sardegna
170,71 Piemonte 174,48
Calabria
171,44 Marche 174,51
Sicilia 171,96 Umbria 174,56
6
Basilicata
172,16 Lombardia 174,63
Campania
172,67 Emilia-Romagna
174,99
Molise 172,70 Toscana 175,21Puglia 172,79 Valle d’Aosta 175,31Abruzzo 173,85 Trentino-A.
Adige175,91
Lazio 174,23 Veneto 176,10Liguria 174,45 Friuli-V. Giulia 177,35
Esempio 3. Una sperimentazione della TEXACO (3)
Possiamo anche utilizzare il concetto di media per confrontare le prestazioni dei due filtri antirumore (già visti negli esempi 1 e 4 dell’unità 2) a partire dai dati relativi al livello di rumore separati per i due tipi di filtro (tabella 2.14), otteniamo:
M(filtro 1) =
+
=
M(filtro 2) =
+
=
Come si vede, il confronto delle medie conferma quanto si era osservato analizzando le distribuzioni cumulate, ovvero il secondo tipo di filtro sembra leggermente migliore del primo.
Osserviamo che ogni valore compare nella somma un numero di volte uguale alla sua frequenza assoluta, possiamo, quindi,
7
sostituire la somma semplice con quella che si ottiene applicando la proprietà associativa dell’addizione e scrivere, per esempio:
M(filtro 2) =
=
Inoltre, il numero totale delle misure che compare al denominatore si ottiene come somma di tutte le frequenze, cioè:
18 = 1 + 1 + 1 + 3 + 1 + 5 + 6
Definizione
La media aritmetica di n valori x1,…, xn, ciascuno dei quali si presenta con frequenza f1,f2,…,fn, si calcola mediante la formula:
Si parla in questo caso di media aritmetica ponderata, in quanto ciascuno dei valori x1,…, xn interviene nel calcolo della media con un “peso” dato dalla sua frequenza.
Esercizio 1.
Quanto vale il livello medio di rumore applicando il tipo di silenziatore standard alle auto di media dimensione? E se si applica il silenziatore di nuovo tipo?
Svolgimento
I valori del livello di rumore corrispondenti alle auto di media dimensione cui è stato applicato il silenziatore standard sono: 840, 840, 845, 855, 850; facendone la somma e dividendo per 6, si ottiene M(filtro 1) = 845,83. Per il nuovo tipo, le corrispondenti misure sono: 820, 820, 825, 815, 825, 825; quindi la loro media è: M(filtro 2) = 821,67.
Osserviamo che il valore della media ottenuto in entrambe le situazioni dell’esercizio 1:
non coincide con nessuno dei valori effettivamente osservati;
8
è compreso tra il valore minimo osservato e il valore massimo.
La prima osservazione non rappresenta una proprietà caratteristica della media, infatti può succedere che il valore della media coincida con uno dei valori effettivamente osservati. La seconda osservazione, invece, evidenzia una proprietà caratteristica della media che è possibile dimostrare.
Proprietà
Considerati n valori x1,…, xn, indicata con M(X) la loro media aritmetica e detti min e max il minimo e il massimo tra essi, risulta:
Dimostrazione.
Per la definizione di minimo e massimo risultano le seguenti relazione d’ordine:
dividendo ciascuna delle somme per n si ottiene:
cioè:
da cui semplicemente:
.
9
Esercizio 2. Una sperimentazione della TEXAXO(4)
L’applicazione del nuovo filtro antirumore risulta in media più conveniente sulle auto di media dimensione o su quelle di grande dimensione?
Esercizio 3.
Quanti viaggi in Italia hanno fatto in media gli intervistati davanti al supermercato (dati tabella 2.4)? Quanti viaggi all’estero?
Esercizio 4.
Hanno effettuato mediamente più viaggi all’estero i giovani al di sopra dei 25 anni o quelli di età maggiore?
Esercizio 5.
Hanno effettuato mediamente più viaggi in Italia i maschi o le femmine?
La media aritmetica gode di atre due importanti proprietà che cercheremo di illustrare a partire da esempi.
Esempio 4.
Supponiamo di voler determinare l’altezza media delle sei montagne più alte della Terra. A tale scopo consultiamo un atlante e ci annotiamo le altezze (tabella 3.4).
Tabella 3.4 Altezze delle montagne più alte della Terra
Monte Altezza in metri
Altezza in piedi
Everest 8846 29022,3K2 8616 28267,7Kanchenjunga
8586 28169,3
Lhotse I 8501 27890,4Makalu 8481 27824,8Lhotse II 8400 27559,1
10
In tale tabella abbiamo indicato per ciascun valore anche la corrispondente altezza in piedi, unità di misura dei paesi anglosassoni, moltiplicando per il coefficiente di conversione che approssimiamo a 3,28084 (1 piede = 0,3048 metri 1 metro =
piedi).
L’altezza media in metri Mm corrisponde pertanto alla media aritmetica dei valori in metri riportati, pertanto:
Calcoliamo, ora, l’altezza media in piedi Mp(X):
Avremmo ottenuto lo stesso valore moltiplicando semplicemente l’altezza media in metri per il coefficiente di conversione 3,28084, ovvero
8571,67 · 3,28084 = 28122,27.
Il risultato precedente vale in generale, poiché si può dimostrare che la media aritmetica verifica la seguente proprietà:
Proprietà (Omogeneità)
Se M(X) è la media aritmetica dei valori x1,…, xn allora la media aritmetica dei valori è .
Esempio 5.
Consideriamo una famiglia composta da 5 componenti: padre, madre e tre figli, con età rispettive:
Componente
Padre
Madre
1º figlio
2º figlio
3º figlio
Età 47 44 17 15 12
11
Risulta che l’età media di tale nucleo familiare è 27 anni.
Supponiamo di voler calcolare, di nuovo, tale media fra 5 anni, si avranno allora i seguenti dati:
Componente
Padre
Madre
1º figlio
2º figlio
3º figlio
Età 52 49 22 20 17
per cui risulterà:
Tale risultato si poteva ottenere più facilmente “traslando” di 5 anni il valore medio che avevamo già ottenuto in precedenza cioè:
27 + 5 = 32
Questo vale poiché la media aritmetica verifica la seguente proprietà:
Proprietà (Traslazione)
Se M(X) è la media aritmetica dei valori x1,…, xn, allora M(X)+k è la media aritmetica dei valori x1+k,…, xn+k, dove k è un qualsiasi numero.
Le due proprietà precedenti possono sintetizzarsi nell’unica seguente
Proprietà
12
Se M(X) è la media aritmetica dei valori x1,…, xn, allora hM(X) + k è la media aritmetica dei valori hx1+k,…, hxn+k, dove h e k sono una coppia qualsiasi di numeri.
È possibile calcolare la media aritmetica anche per dati raggruppati pur di scegliere un valore interno a ogni classe come valore rappresentativo della classe. Naturalmente il risultato non risulta identico a quello che si avrebbe considerando gli effettivi valori osservati.
Esempio 6. Una sperimentazione della TEXACO (5)
Consideriamo l’esempio del livello di rumore (tabella 2.15) e assumiamo come valore rappresentativo il valore medio di ogni classe, che si calcola semplicemente sommando il minimo e il massimo e quindi dividendo per 2. In questo modo otteniamo la tabella 3.5.
Tabella 3.5 Distribuzioni di frequenza per il carattere quantitativo livello di rumore (in decibel) con valori raggruppati in classi identificate dal valore medio
Intervalli
Frequenza assoluta(tipo 1)
Frequenza assoluta(tipo 2)
769,5 3 6789,5 3 0809,5 1 1829,5 5 11849,5 6 0
Calcolando i valori medi mediante l’utilizzo della formula per la media ponderata si ottiene:
M(filtro 1) = 818,39; M(filtro 2) = 808,39
Osserviamo che i valori ottenuti sono entrambi di poco maggiori di quelli ottenuti dal calcolo diretto sulle misure effettive.
13
Esempio 7. Le altezze dei diciottenni di leva (3)
In alcuni casi può essere meno naturale scegliere un valore rappresentativo per le classi, questo accade, per esempio, quando le classi sono aperte come si verifica per i dati ISTAT sulla statura degli iscritti alla leva relativamente alla prima e all’ultima classe. Consideriamo la tabella 3.6 in cui riportiamo l’informazione relativa a tutti i dati nazionali.
Tabella 3.6 Distribuzione di frequenza (%) dell’altezza (cm) degli iscritti di leva nati nell’anno 1972 (Fonte ISTAT, Compendio statistico 1994)
Classi di
altezza
Finoa 159
160-164
165-169
170-174
175-179
180-184
185-189
Piùdi
189Italia 1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1
Decidiamo di rappresentare ogni classi chiusa con il valore medio, la prima classe con il valore 150 e l’ultima con il valore 195 (tabella 3.7).
Tabella 3.7 Distribuzione di frequenza (%) dell’altezza (cm) degli iscritti di leva nati nel 1972 (Fonte ISTAT, Compendio statistico 1994)
Classi di altezza
150
162
167
172
177
182
187
195
Italia 1,7
6,8
18,6
29,1
25,2
13,2
4,3
1,1
e procediamo al calcolo della media:
M(altezza) =
14
+
che risulta leggermente inferiore a quella calcolata dall’ISTAT sulle misure effettive (173,96).
Per completare l’analisi riportiamo anche le rappresentazioni grafiche relative alla tabella 3.7 (diagramma a barre e spezzata delle frequenze) in figura 3.1.
Figura 3.1 Rappresentazioni grafiche relative alla tabella 3.7 (diagramma a barre e spezzata delle frequenze)
Esercizio 6.
Si calcolino le medie regionali per i dati di tabella 3.1, seguendo lo stesso procedimento utilizzato per il calcolo della
15
media nazionale, e si confronti l’ordinamento regionale che si ottiene con quello ottenuto sulla base dei dati sulle medie forniti dall’ISTAT e calcolati sulle misure effettive (tabella 3.3).
3.2.2 LA MEDIA GEOMETRICA
Supponiamo di dover risolvere il seguente problema.
Una popolazione di batteri in una certa coltura è cresciuta da 1000 a 8000 individui in 3 giorni. Quanto si accresce in media ogni giorno, ovvero qual è il tasso di crescita medio giornaliero?
Come possiamo procedere?
Tale problema non è diverso da quello che viene presentato qui di seguito.
Esempio 8.
Supponiamo che il signor Giovanni abbia investito in banca un ammontare e di euro al tempo iniziale e che nei due anni successivi i rendimenti, espressi come fattori di crescita, siano stati r1 e r2, in modo che il “gruzzolo” e’ dopo 2 anni risulta:
e’ = (r1 r2) e
Ci chiediamo: quale tasso annuale di rendimento “medio” r* fornirebbe lo stesso risultato? In parole semplici, quale fattore di crescita costante r*, moltiplicato per se stesso e poi per il gruzzolo iniziale e, darebbe come risultato e’? Per determinare tale valore occorre risolvere l’equazione nell’incognita r*:
e’ = (r*)2 e
L’equazione si risolve immediatamente ponendo:
(r*)2 = (r1 r2)
che fornisce come soluzione:
r* =
r* è la media geometrica dei 2 tassi annuali.
16
Definizione.
Dati gli n valori positivi x1, x2, …, xn che costituiscono le misure relative all’osservazione di un carattere quantitativo, si dice media geometrica la radice n-esima con segno positivo del loro prodotto. Se indichiamo tale risultato con la lettera G, possiamo scrivere:
.
Possiamo adesso risolvere il problema della crescita dei batteri.
Detti k1, k2, k3, i tassi di crescita nei tre giorni, impostando le equazioni:
N1 = k1N0, N2 = k2N1 = k1 k2N0, N3 = k3N2 = k1 k2 k3N0, si ricava che N3/N0 = k1 k2 k3 = 8; estraendo la radice cubica si verifica subito che la media geometrica richiesta è 2.
Esercizio 7.
Una popolazione di scimmie è passata nel corso di tre anni da 1000 a 3375 individui. Qual è il tasso medio di crescita annuale?
Esercizio 8.
In corrispondenza dei tre ultimi censimenti del secolo scorso i dati (in milioni di individui) della popolazione italiana sono risultati:
Anno del censimento
Popolazione in milioni di individui
1971 54,1371981 56,5571991 57,441
17
Qual è stato il tasso di incremento decennale tra il 1971 e il 1981? Qual è stato il tasso di incremento decennale tra il 1981 e il 1991? E quello medio decennale tra il 1971 e il 1991?
Se tra il 1991 e il 2001 il tasso di incremento fosse rimasto pari a quello medio determinato, quanti milioni di individui ci saremmo aspettati di rilevare al censimento del 2001?
Esercizio 9.
Una popolazione batterica in una certa coltura è cresciuta da 1000 a 64000 individui in 3 ore. Quanto si accresce in media in un’ora, cioè qual è il tasso medio di crescita in un’ora?
Osserviamo che se consideriamo la media aritmetica e la media geometrica di due valori, per esempio 5 e 3, otteniamo che la prima è maggiore della seconda. Questo corrisponde ad una proprietà generale che lega le due medie.
Proprietà.
La media geometrica dei numeri x1, x2, …, xn è sempre minore o uguale alla media aritmetica dei numeri dati.
Dimostrazione.
Nel caso di due soli numeri a e b questo avviene perché
e perciò
da cui si ottiene la disuguaglianza
Nel caso generale la dimostrazione è solo un po’ più complessa, ma si può ricondurre al caso semplice di due soli valori.
18
3.3 Le medie di posizioneEsistono altri indici di posizione, non analitici, che forniscono
informazioni diverse sulla distribuzione statistica.
3.3.1 LA MEDIANA
Un’importante media di posizione per la descrizione sintetica di una distribuzione statistica è la mediana, definita come quel valore che nella successione dei dati, disposti in ordine non decrescente (o non crescente), divide la graduatoria in due parti tali che il numero dei termini che la precede è uguale al numero dei termini che la segue: in altre parole la mediana occupa il posto centrale della successione dei valori. Poiché per calcolare la mediana dobbiamo ordinare le osservazioni (o le modalità nel caso in cui compaiono le frequenze) segue che ha senso parlare di mediana in relazione a caratteri sia quantitativi sia qualitativi ordinati.
In generale si può dare la regola di calcolo che definisce la mediana nel modo seguente.
Se si ha un numero dispari n di osservazioni, ordinate in modo non crescente o non decrescente, la mediana (Me) è il termine che occupa il posto centrale, ovvero la posizione (n+1)/2.
Se le osservazioni sono in numero n pari la mediana (Me) viene definita come semisomma dei termini che occupano i posti n/2 è (n/2)+1.
Esempio 9. Una sperimentazione della TEXACO (6)
Consideriamo i dati della TEXACO sul livello di rumore per i due filtri separatamente e ordiniamoli in modo crescente:
Filtro 1: 760 760 770 785 785 790 810 820 820 835 835 835 840 840 845 845 850 850
Filtro 2: 760 765 770 775 775 775 815 820 820 820 820 820 825 825 825 825 825 825
Le due mediane risultano dalla semisomma dei termini posti al nono e decimo posto nelle de graduatorie:
19
Me(filtro1) = 827,5; Me(filtro2) = 820
Anche le mediane si comportano come le medie, pur avendo valori diversi da quelle. Infatti la mediana relativa al filtro2 è minore di quella relativa al filtro1.
Naturalmente quando i dati sono molti e i valori non ordinabili in modo così semplice, il calcolo della mediana può risultare laborioso.
Esercizio 10.
Consideriamo le seguenti misure che furono ottenute da Henry Cavendish nel 1798 usando una bilancia di torsione e che presentano la misura della densità della Terra come multiplo della densità dell’acqua, che viene, quindi, assunta come unità di misura.
misurazione
valore
misurazione
valore
misurazione
valore
1 5,50 11 5,29 21 5,752 5,57 12 5,34 22 5,293 5,42 13 5,26 23 5,104 5,61 14 5,44 24 5,865 5,53 15 5,46 25 5,586 5,47 16 5,55 26 5,277 4,88 17 5,34 27 5,858 5,62 18 5,30 28 5,659 5,63 19 5,36 29 5,39
Determinare la mediana delle misure.
Svolgimento
Per determinare la mediana occorre porre le misure in ordine crescente e identificare quella che si trova al quindicesimo posto. Per semplicità elenchiamo sotto sulla prima riga le 14 misure, sulla seconda la quindicesima (mediana) e sulla terza le ultime 14.
20
4,07 4,88 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34 5,36 5,39 5,42 5,445,465,47 5,50 5,53 5,55 5,57 5,58 5,61 5,62 5,63 5,65 5,75, 5,79 5,85 5,86
Il valore della mediana risulta Me = 5,46.
Per completezza calcoliamo anche la media (aritmetica) che risulta M = 5,42 ed è un valore molto simile a quello della mediana.
È possibile determinare graficamente il valore approssimato della mediana a partire dalla rappresentazione come ogiva della distribuzione cumulata delle frequenze relative. Consideriamo questa rappresentazione per le misure dell’esercizio 10 che riportiamo in figura 3.2.
Figura 3.2
Per definizione la mediana è quel valore delle misure che corrisponde al valore 0,5 della distribuzione cumulata delle frequenze relative. Nel nostro grafico, quindi, dobbiamo determinare il valore dell’ascissa cui corrisponde il valore 0,5 dell’ordinata. Per fare questo possiamo tracciare, a partire dall’asse delle ordinate, in corrispondenza al valore 0,5 la semiretta parallela all’asse delle ascisse, determinare l’intersezione di tale semiretta con l’ogiva e, da quel punto, tracciare la semiretta parallela all’asse delle ordinate fino ad
21
intersecare l’asse delle ascisse: il punto d’intersezione corrisponde al valore della mediana. Riportiamo in figura 3.3 la costruzione descritta per i dati dell’esercizio 10.
Esercizio 11.
Determinare la mediana e la media della distribuzione delle età riportata nella matrice dei dati della tabella 2.4.
Possiamo commentare dicendo che il valore relativamente alto della mediana è in gran parte dovuto ad alcune età piuttosto elevate ma che, comunque, il nostro campione è costituito in gran parte di persone relativamente giovani?
Figura 3.3
Nei casi trattati abbiamo calcolato la mediana di successioni ordinate di dati; quando si hanno a disposizione i dati sotto forma di distribuzioni di frequenza, la mediana va calcolata sulla base della distribuzione cumulata delle frequenze delle modalità, precedentemente ordinate in tabella.
22
Esempio 10.
Supponiamo di voler calcolare il voto mediano di maturità conseguito in un liceo scientifico in base ai dati riportati in tabella
Voto
60
62
66
75
80
82
88
90
95
96
100
Freq.
15
610
721
18
915
18
5 7
Il valore mediano è quello conseguito dallo studente che ha lo stesso numero di compagni che hanno superato l’esame con un voto più alto o più basso del suo.
Tale studente non è immediatamente individuabile con la procedura finora utilizzata; in presenza di frequenze dobbiamo fare un passaggio intermedio: determinare la distribuzione cumulata delle frequenze.
Voto
Frequenza
Frequenza cumulata
60 15 1562 6 2166 10 3175 7 3880 21 5982 18 7788 9 8690 15 10195 18 11996 5 124
100 7 131
Nel caso in esame, poiché il totale delle osservazioni è 131, si avrà che la mediana è il voto corrispondente al (131+1)/2 = 66° posto della successione. Per cui il valore mediano è pari a 82, più
23
esattamente il 7° nella sequenza dei 18 studenti che hanno conseguito tale votazione (infatti fino al 59° posto della graduatoria ci sono coloro che hanno un voto inferiore o uguale a 80, per arrivare a colui che occupa il 66° posto dobbiamo conteggiare altre 7 persone che hanno un voto di 82).
Se i valori del carattere osservato sono raggruppati in classi oppure si tratta di un carattere qualitativo ordinato, come per esempio il titolo di studio in tabella 2.4, la procedura è la stessa soltanto che non parleremo di mediana ma di classe mediana, che la classe che al suo interno contiene il valore mediano
Esercizio 12.
Determinare la classe mediana per i dati di tabella 3.6.
Esercizio 13.
Determinare la classe mediana per quanto riguarda il titolo di studio in relazione ai dati di tabella 2.4.
3.3.2 I QUARTILI
È possibile estendere il concetto di media di posizione a partire dalla mediana. In particolare, può essere interessante suddividere la distribuzione in quattro parti definendo i quartili:
Definizione
Si dice primo quartile di una distribuzione statistica, e si indica con q1/4, il valore che lascia alla sua sinistra un quarto dei valori osservati e alla sua destra ¾.
Il secondo quartile è la mediana stessa.
Si dice terzo quartile di una distribuzione statistica, e si indica con q3/4, il valore che lascia alla sua sinistra ¾ dei valori osservati e alla sua destra un quarto.
24
Nel caso della distribuzione delle altezze della tabella 3.6, per determinare le classi che corrispondono ai diversi quartili dobbiamo identificare in corrispondenza a quali classi di altezze la distribuzione percentuale raggiunge il valore 25 (primo quartile), il valore 50 (mediana), il valore 75 (terzo quartile). Dall’osservazione della tabella otteniamo:
q1/4 = classe(160-164);
mediana = q1/2 = classe(170-174);
q3/4 = classe(175-179).
Esercizio 14.
Determinare i quartili per i dati dell’esercizio 10.
Svolgimento
Dalla definizione appena data si ricava che il primo quartile non è altro che la mediana della distribuzione delle misure inferiori alla mediana della distribuzione originale e il terzo quartile è la mediana delle misure superiori alla mediana della distribuzione originale.
Applicando la regola di calcolo della mediana, rispettivamente alle 14 misure inferiori e alle 14 misure superiori, otteniamo:
q1/4 = 5,295 (semisomma del settimo e ottavo valore inferiore);
mediana = q1/2 = 5,46;
q3/4 = 5,61 (semisomma del settimo e ottavo valore superiore).
Anche per i quartili si può procedere alla determinazione grafica in analogia a quanto visto per la mediana. Il primo quartile si otterrà a partire dalla semiretta posta al livello 0,25 dell’asse delle ordinate, mentre per il terzo quartile si partirà dal livello 0,75.
Nella figura 3.4 sono rappresentati i quartili dell’esercizio 10.
25
Figura 3.4
Esercizio 15.
Determinare i quartili per le misure relative al livello di rumorosità per i due filtri separatamente in tabella 2.14 dell’unità 2.
3.3.3 LA MODA
Consideriamo la distribuzione del carattere sesso per i dati dell’esercizio 7 della seconda unità.
Modalità del carattere “sesso”
Frequenza assoluta
Maschio 4Femmina 6
Diciamo che la modalità “femmina” è la moda della distribuzione.
Definizione
26
Si dice moda la modalità cui è associata la maggiore frequenza, cioè la modalità che si presenta più volte.
Dire “quest’anno va di moda” o “va di moda” significa indicare qual è la tendenza della maggioranza degli individui. È evidente che la moda può essere definita per qualsiasi tipo di carattere. Nell’esempio 10 il valore modale è 80, che è il voto cui corrisponde la massima frequenza.
Se i valori di un carattere quantitativo sono raggruppati in classi di uguale ampiezza, anziché di moda parliamo di classe modale, ovvero la classe in corrispondenza della quale si ha la massima frequenza. Le classi modali per i dati dell’esercizio 8 dell’unità 2 si leggono immediatamente dalla figura 2.14 e risultano:
filtro1: 840 ├ 860; filtro2: 820 ├ 840.
Esercizio 16.
Suddividere le misure dell’esercizio 10 in classi di ampiezza 0,10. Determinare quindi la distribuzione di frequenze, la distribuzione cumulata, la classe mediana e la classe modale.
Esercizio 17.
Qual è la moda della distribuzione rappresentata in figura 3.1?
3.4 Indici di dispersioneSupponiamo di dover eseguire un’indagine comparativa sulle
condizioni economiche di due paesi A e B e che il rapporto della ricchezza complessiva rispetto al numero di abitanti sia, nei due paesi, uguale. Possiamo concludere che le condizioni dei due paesi sono, per quest’anno, del tutto simili?
Certamente no. Infatti il valore uguale delle due statistiche può celare differenze fortissime. La ricchezza è uno di quei caratteri che può variare moltissimo da individuo a individuo e potrebbe benissimo capitare che in uno dei due paesi sia abbastanza uniformemente distribuita tra gli abitanti, mentre nell’altro potrebbe essere concentrata principalmente nelle mani
27
di pochi privilegiati. Lo studio comparativo non potrà, quindi, fermarsi all’analisi basata soltanto su un indice di posizione, ma dovrà essere integrato da uno studio della variabilità, cioè della tendenza a presentare nei singoli casi valori differenti, che il carattere manifesta nei due paesi.
Una prima informazione a questo proposito si ha considerando la differenza tra il valore più grande e il valore più piccolo tra quelli osservati. Tale differenza, che possiamo indicare con D, si dice campo di variazione. Tale indice è piuttosto grossolano perché non tiene conto di ciò che accade per tutti i valori intermedi.
Esempio 11.
Per chiarire consideriamo i seguenti gruppi di misure e calcoliamone la media e il campo di variazione
UnitàGrupp
o 1Grupp
o 2Grupp
o 3Grupp
o 4Gruppo
51 49 48 48 54 602 51 52 51 49 363 49 48 49 46 314 51 52 52 49 505 49 48 47 51 486 51 52 52 53 507 49 48 46 50 548 51 52 51 50 569 49 48 53 49 6210 51 52 51 49 53
Somma
500 500 500 500 500
Dal calcolo delle medie risulta che tutti i gruppi hanno la stessa media M = 50. Calcoliamo allora i campi di variazione:
D(gruppo 1) = 2;
D(gruppo 2) = 4;
D(gruppo 3) = 7;
28
D(gruppo 4) = 8;
D(gruppo 5) = 31.
Come si vede già dal campo di variazione i 5 gruppi mostrano situazioni ben diverse rispetto alla distribuzione dei valori. Se, però, si vuole tenere conto anche dei valori intermedi occorre utilizzare qualche altro strumento. La prima cosa che ci viene in mente è di “misurare” quanto i singoli valori differiscano dalla media della distribuzione. Supponiamo che la media in questione sia la media aritmetica (ma può essere un altro valor medio qualsiasi). Possiamo dare la seguente definizione.
Definizione
Si definiscono scarti dalla media le differenze fra ciascun valore osservato e la media aritmetica. Più precisamente: dati i valori x1, x2, …, xn e la loro media M, si definiscono scarti dalla media le differenze: x1-M, x2-M, …, xn-M.
Poiché la media è compresa fra il valore più piccolo e quello più grande, alcuni scarti sono positivi e altri negativi.
Esercizio 18.
Calcolare gli scarti dalla media aritmetica per i dati dell’esempio 11.
Svolgimento.
Per calcolare gli scarti basta sottrarre ad ogni valore riportato in tabella il valore della media (50). Si ottiene così:
UnitàGrupp
o 1Grupp
o 2Grupp
o 3Grupp
o 4Gruppo
51 -1 -2 -2 4 10
2 1 2 1 -1 -14
3 -1 -2 -1 -4 -19
4 1 2 2 -1 0
29
5 -1 -2 -3 1 -2
6 1 2 2 3 0
7 -1 -2 -4 0 4
8 1 2 1 0 6
9 -1 -2 3 -1 12
10 1 2 1 -1 3
Somma
0 0 0 0 0
Osserviamo che il valore assoluto dei singoli scarti risulta maggiore per i gruppi in cui le misure mostrano maggiore variabilità e che, comunque, la somma degli scarti risulta sempre nulla. Questa è una proprietà generale che può essere dimostrata. Risulta infatti che:
Proprietà
La somma di tutti gli scarti dalla media aritmetica è uguale a zero.
Dimostrazione
Indicando con S tale somma, e ricordando che:
ovvero nM = x1+…+ xn, si ha:
3.4.1 LA VARIANZA
Quanto detto finora indica che la variabilità e gli scarti sono fra loro legati e che, quindi, si può pensare di misurare la
30
variabilità di un fenomeno statistico considerando e sintetizzando la distribuzione degli scarti. Posto ciò, resta però il fatto che tale sintesi non può essere fatta calcolando semplicemente la media degli scarti, dato che questa è nulla in quanto scarti postivi e scarti negativi si compensano. L’inconveniente può essere superato ricorrendo a un espediente: anziché considerare la media degli scarti consideriamo la degli scarti al quadrato, che sono tutti positivi. Questo indice si chiama varianza.
Definizione
Indichiamo la varianza con il simbolo :
Osserviamo che:
Proprietà
La varianza è sempre positiva.
Infatti il numeratore è somma di addendi tutti positivi.
Proprietà
La varianza è uguale a zero se (e solo se) la variabilità è nulla.
Infatti, in questo caso si ha:
e, quindi tutti gli addendi che figurano al numeratore della precedente relazione sono uguali a zero; viceversa, se la varianza è uguale a zero, essendo il numeratore somma di
31
termini tutti non negativi, è necessario che questi siano tutti nulli, ovvero .
Proprietà
La varianza è tanto più elevata quanto più elevata è la variabilità.
Infatti, se la variabilità è più elevata, i termini al numeratore tenderanno ad essere più grandi.
Esercizio 19.
Calcolare le varianze per i dati dell’esercizio 18.
Dal calcolo otteniamo i seguenti valori delle varianze:
2(gruppo 1) = 1;
2(gruppo 2) = 4;
2(gruppo 3) = 5;
2(gruppo 4) = 4,6;
2(gruppo 5) = 8,66;
Confrontando i valori ottenuti per il gruppo 3 e per il gruppo 4, possiamo osservare che la varianza più grande corrisponde a un campo di variazione più piccolo; questo sta a indicare che l’influenza dei valori interni al campo di variazione è rilevante nel misurare la variabilità.
32
Nel caso di distribuzioni con dati raggruppati in classi vale il discorso già fatto per il calcolo della media aritmetica: occorre assumere dei valori rappresentativi per le classi e procedere poi al calcolo della varianza mediante la formula per la media ponderata.
Esercizio 20.
I dati riportati qui di seguito rappresentano la retribuzione annua (in migliaia di dollari) di 59 dirigenti americani.
145
498
343 206
808
155
621
643
536 250
543
802
262
390
543 21 149
200
208
332
217 298
350
282
362
750
298 350
242
573
424
368
1103
800
198
388
339
659
406 726
213
250
736
234
254 370
296
396
291
396
862 536
317
572
58 300
204 291
482
Raggruppando in classi di ampiezza 200 dollari, costruire la distribuzione di frequenza e rappresentarla con un istogramma. Preso il punto centrale di ogni classe come rappresentativo, calcolare la media, la moda, la mediana, i quartili e la varianza.
3.4.2 LO SCARTO QUADRATICO MEDIO
Molto spesso, per misurare il grado di variabilità di una distribuzione, è preferibile calcolare la radice quadrata (positiva) della varianza.
Definizione
33
Lo scarto quadratico medio, o scostamento quadratico medio o scarto standard si ottiene dal calcolo della radice quadrata della varianza:
.
Per capire il motivo di questa preferenza riprendiamo l’esempio delle retribuzioni annue (esercizio 20):
i dati osservati sono espressi in dollari (migliaia);
la media aritmetica è espressa in dollari (migliaia);
la varianza è espressa in dollari (migliaia) al quadrato;
lo scarto quadratico medio è espresso in dollari (migliaia) perché è la radice quadrata della varianza.
Dunque, la media aritmetica e la varianza sono espresse in unità di misura diverse (rispettivamente in dollari e dollari al quadrato) mentre la media aritmetica e lo scarto quadratico medio sono espressi nella medesima unità di misura (dollari). Questo è un fatto molto importante nel confronto di situazioni diverse.
Esercizio 21.
Calcolare gli scarti quadratici medi per i dati degli esercizi 19 e 20.
3.4.3 LO SCARTO INTERQUARTILE
Un ulteriore modo di misurare la variabilità di una distribuzione è basato sul calcolo dello scarto interquartile.
34
Definizione
Lo scarto interquartile è la differenza tra i valori del terzo quartile e del primo quartile: q3/4 – q1/4.
Per i dati dell’esercizio 20, per esempio, si ottiene:
q3/4 – q1/4 = 347.
Osserviamo che, per come sono stati definiti il primo e il terzo quartile, la percentuale di osservazioni comprese tra il loro valore è esattamente 50.
Esercizio 22.
Calcolare scarto quadratico medio e scarto interquartile per tutte le misure presentate nelle unità 2 e 3 per cui tale operazione ha senso.
3.4.4 IL COEFFICIENTE DI VARIAZIONE
Supponiamo ora di voler trasformare in euro i dati dell’esercizio 20 per poterli meglio confrontare con la situazione del nostro paese. Ogni misura espressa in dollari va moltiplicata per la quotazione del giorno corrente. Ammettendo che il valore sia di 1,11 si ottiene:
M = 450 = 246
Chiaramente la variabilità delle misure non dipende dall’unità di misura utilizzata, così per rendere più facilmente confrontabili le misure della dispersione, si può rapportare il valore dello scarto quadratico medio al valore della media espressa nella stessa unità di misura, ottenendo un indice che è un numero puro indipendente dall’unità di misura utilizzata. L’indice che si
35
ottiene in questo modo si chiama coefficiente di variazione e si indica con CV.
Esercizio 23.
Calcolare il coefficiente di variazione per i dati dell’esercizio 20 e confrontare i valori ottenuti utilizzando come unità di misura il dollaro (migliaia) e l’euro.
Svolgimento
Calcolando il rapporto tra lo scarto quadratico medio e la media espressi in dollari otteniamo CV = 1,83, che è lo stesso valore che si ottiene anche dal calcolo del rapporto delle stesse quantità espresse in euro.
Esercizio 24.
Calcolare il coefficiente di variazione per la variabile “livello di rumore” per i due tipi di filtro (dati di tabella 2.1).
Esercizio 25.
In un collettivo in cui sono state rilevate le stature, in cm, e i pesi, in kg, risulta:
peso medio = 67,6 kg
= 7,8 kg
statura media = 171,7 cm
= 7,7 cm
Quale delle due distribuzioni è più dispersa? In altre parole, risulta più variabile il peso o la statura?
36
Esercizio 26.
Negli Stati Uniti la statura viene rilevata in pollici. Un gruppo di studenti americani ha una statura media di 69 pollici con uno scostamento quadratico medio di 2,4 pollici. Un gruppo di studenti italiani ha una statura media di 175,3 cm e scostamento quadratico medio di 6 cm. In quale dei due gruppi la statura è più variabile?
37