CIAC La statistica · L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio...

Renato Agati – Appunti di Statistica Pagina 2


CONTENUTI

LA STATISTICA

La Statistica

Le fasi di un’indagine statistica

o Definizione del fenomeno

o Individuazione della popolazione

o Le variabili statistiche

o Le scale di misurazione

o Rilevamento dei dati

Elaborazione e rappresentazione dei dati

o Costruzione delle tabelle delle frequenze

o Rappresentazione grafica

Gli indicatori statistici: indici di posizione

o Moda

o media aritmetica

o Mediana

o Quantili

Gli indicatori statistici: indici di dispersione

o Campo di variazione

o Scarto semplice medio

o Varianza

o Deviazione standard


LA STATISTICA

La statistica è una scienza nata per analizzare e descrivere i fenomeni d’importanza sociale che

riguardano uno Stato.

Oggi viene applicata in tutti quei campi dove intervengono fenomeni collettivi del tutto casuali, la

cui mancanza di ripetitività ne rende impossibile lo studio attraverso la sperimentazione

scientifica.

Sono fenomeni collettivi quei fatti, avvenimenti o situazioni che abbracciano un numero

sufficientemente grande di fenomeni individuali fra loro uguali o simili.

Ad esempio, il fatto che Antonio è alto cm 145 è un fenomeno individuale mentre l’altezza dei ragazzi della stessa età di Antonio di tutte le scuole di un paese è un fenomeno collettivo.

Il fatto che io vengo a scuola in auto è fenomeno individuale. Il mezzo utilizzato da tutti i docenti e alunni della mia scuola è un fenomeno collettivo.

L’aumento della popolazione di uno stato, la comparsa di una certa malattia in un determinato ambiente, la diminuzione dei posti di lavoro in un particolare settore, sono quindi fenomeni collettivi, e la conoscenza delle caratteristiche o dell’andamento di un fenomeno collettivo può avvenire solo attraverso la statistica:

La statistica è la scienza che studia i fenomeni collettivi di vario genere. Essa raccoglie, analizza e

interpreta (utilizzando metodi e strumenti matematici) le informazioni riguardanti il particolare

fenomeno considerato, ne misura e studia certe caratteristiche e permette di fare previsioni sul

futuro o sull’andamento del fenomeno stesso.


E’ da precisare che, nel suo complesso, la statistica non dà risultati certi, ma arriva solo a fare delle

previsioni su determinati fenomeni, previsioni che – teoricamente – sono certe ma anche quasi

sicuramente certe: occorre quindi fare le valutazioni con la dovuta attenzione.

La statistica dà quindi delle previsioni permettendo di programmare soluzioni o interventi adatti.

(es. l’aumento di una malattia).


FASI DI UN’INDAGINE STATISTICA

Un’indagine statistica, seppur ben definita nel fenomeno preso in considerazione, può essere resa

non appropriata o può essere totalmente vanificata da una raccolta dei dati non corretta o una

loro presentazione inadeguata.

Per evitare ciò, è bene seguire uno schema preciso che, in linea di massima, è basato sullo sviluppo

di quattro FASI essenziali che sono:

definire in maniera esatta e completa il fenomeno su cui si vuole indagare;

individuare la popolazione interessata al fenomeno su cui si indaga;

rilevare e raccogliere in maniera appropriata i dati;

elaborare e interpretare i dati raccolti e rappresentarli graficamente.

Queste fasi devono essere affrontate nella sequenza indicata: raccogliere dati prima di aver

chiaramente espresso le finalità dell’indagine può facilmente condurre a analisi e interpretazione

dei dati non adeguati e quindi a risultati poco attendibili.

DEFINIZIONE DEL FENOMENO

Il primo passo è la definizione del fenomeno su cui vogliamo indagare precisando anche, con

accuratezza, i particolari aspetti che si vogliono analizzare.

E’ la fase iniziale e più importante ai fini di un più preciso proseguimento dell’indagine stessa, in

quanto bisogna predisporre, logicamente e praticamente, il tipo di indagine più adatta al

conseguimento dei nostri obiettivi.

Se per esempio vogliamo prendere in esame il fenomeno “distribuzione demografica in una città”

sarà opportuno precisare se vogliamo un esame che riguardi:

la caratteristica numerica complessiva (numero di abitanti)


la caratteristica numerica per sesso (numero maschi e numero femmine)

la caratteristica numerica secondo il reddito

la caratteristica numerica secondo l’attività lavorativa

ecc.

INDIVIDUAZIONE DELLA POPOLAZIONE

Definito il fenomeno, va indicata chiaramente la collettività a cui il fenomeno si riferisce e sulla

quale verrà quindi svolta l’indagine.

Tale collettività in termini statistici si chiama popolazione statistica o, semplicemente, popolazione; ogni singolo elemento della popolazione si chiama unità statistica.

Si definisce popolazione qualsiasi insieme di elementi, reale o virtuale, che forma oggetto di studio.

Costituiscono una popolazione, ad esempio:

gli alunni di una classe;

gli impiegati di un’azienda;

tutti i residenti nel comune di Torino il 31/12/2007;

le malattie tipiche di una certa regione.

E’ di fondamentale importanza (nonché indicatore di serietà della ricerca) definire esattamente la

popolazione di riferimento dell’indagine.


LE VARIABILI STATISTICHE

Se consideriamo una popolazione statistica, es. gli impiegati di un’azienda, ogni unità statistica

(ogni impiegato) differisce da un’altra unità per una o più caratteristiche: il sesso, l’attività svolta, il

mezzo di trasporto per recarsi in azienda, lo stato civile, il numero di figli, ecc.

Queste caratteristiche prendono il nome di variabili statistiche ed è rispetto ad una o più di

queste variabili che si effettua l’indagine statistica.

Le variabili statistiche possono essere:

variabili quantitative, se espresse da un numero

variabili qualitative, se non possono essere espresse da un numero (stato civile, il sesso, mezzo di

trasporto, attività svolta,..)

Sono pertanto variabili quantitative:

l’età

il numero figli

lo stipendio percepito

mentre le variabili qualitative possono essere :

lo stato civile

il sesso

il mezzo di trasporto

l’attività svolta

Possiamo quindi dire che:

L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio consiste nell’analizzare come

una popolazione statistica si distribuisce rispetto ad una certa variabile statistica.


RILEVAMENTO DEI DATI

Il fenomeno, la popolazione e la/le variabili statistiche su cui vogliamo indagare ci suggeriranno

come meglio procedere nella fase di rilevamento dati.

Il rilevamento dati può essere diretto o completo se viene eseguito direttamente su tutte le unità

statistiche che formano la popolazione interessata al fenomeno. Ciò è possibile quando la

popolazione è formata da un numero non eccessivo di unità e ogni unità statistica può quindi

essere contattata e intervistata. Fanno eccezione i censimenti e le indagini su nascite, morti,

matrimoni (attraverso gli archivi statali).

Spesso però l’intera popolazione è talmente vasta da non permettere il rilevamento diretto per

vari motivi (costi, tempi, disponibilità di tutte le unità statistiche). Si deve pertanto scegliere al suo

interno una parte ridotta di unità statistiche, ovvero un opportuno campione rappresentativo, su

cui si eseguirà l’indagine. In questo caso si parla di rilevamento indiretto o per campione, perchè

viene eseguito solo su una parte più o meno estesa della popolazione.

La scelta del campione rappresentativo è un momento molto importante e delicato, che deve

tenere conto di alcuni fattori:

il numero di campioni deve essere tale da rendere attendibili i risultati;

la scelta dei campioni non deve rendere selettiva l’indagine stessa;

i risultati ottenuti sul campione non devono provocare errori di valutazione quando vengono estesi a tutta la popolazione.

Per il numero dei campioni in genere si decide per una percentuale veramente rappresentativa,

che non sia né ristretta né inutilmente vasta.

Per la scelta del campione si ricorre in genere a:

rilevamento casuale: si effettua estraendo a caso i campioni dall’intera popolazione; se non esiste

alcun vincolo di convenienza (economica, sociale, ecc.) che potrebbe imporre la scelta ragionata di

uno o dell’altro campione, i campioni vengono decisi dal caso.


rilevamento stratificato: si effettua suddividendo la popolazione in più strati, o classi, e scegliendo

a caso, in ognuno di essi, singoli campioni che complessivamente formano i campioni

dell’indagine. In ogni strato il numero dei campioni da scegliere sarà proporzionale al numero

totale degli elementi della classe stessa.

Se per esempio si vuole indagare sul fenomeno “reddito degli abitanti di una regione”, è

opportuno fare il campionamento stratificato in quanto il reddito varia secondo alcuni strati o

classi della popolazione, strati che in questo caso sono le diverse attività lavorative.

Per una corretta e completa raccolta dati dobbiamo definire non solo il metodo di rilevamento

(diretto o per campionamento) e le variabili statistiche (quantitative e qualitative) già descritte in

precedenza, ma anche altri criteri di classificazione quali le cosiddette scale di misurazione.

LE SCALE DI MISURAZIONE

Le variabili possono essere classificate anche in base alla scala di misurazione o, in altre parole, alle operazioni che si possono fare con le loro modalità.

Esistono quattro scale: la scala nominale, la scala ordinale, la scala per intervallo, la scala per rapporto.

Scala nominale

Le modalità non hanno un ordinamento (è il caso delle variabili qualitative)

Esempi:

giudizio su un film: bello / brutto;

si / no;

colore degli occhi;


Scala ordinale

Le modalità sono attributi non numerici ma logicamente ordinabili

Esempi:

titolo di studio;

livello di soddisfazione per un prodotto (per niente, poco, abbastanza, ecc..);

Scala per intervallo

Sono le variabili quantitative che consentono confronti solo per differenza ma non per rapporto.

Per esempio, se misuriamo un giorno la temperatura minima e massima a Torino e a New York potremmo

ottenere i seguenti valori:

Se vogliamo confrontare le temperature di Torino e di New York, ha senso dire che l’escursione termica è

la stessa nelle due città, ma non ha senso dire che la minima a New York è la metà della minima a Torino.

Scala per rapporto

Sono variabili numeriche per le quali è intrinseca la definizione dello zero.

Esempi sono il peso, l’altezza, la lunghezza, la concentrazione.

In questo caso le modalità possono essere confrontate per rapporto.

Per esempio, si può affermare che la concentrazione di cloro in un campione di acqua è doppia rispetto a quella di un altro campione.

Temp. massime

Temp. minime

Torino 25 16

New York 17 8


GLI STRUMENTI

Scelto il metodo per il rilevamento dati, diretto o per campionamento, si passa alla raccolta delle

informazioni che può avvenire tramite:

interviste: si pongono a ciascuna unità statistica delle precise domande in merito al fenomeno e si registrano le relative risposte;

questionari: si distribuisce a ciascuna unità statistica un questionario che successivamente viene ritirato con le risposte;

consultazione di archivi o pubblicazioni specializzate.

Sarà pertanto necessario preparare gli opportuni strumenti per registrare facilmente i dati che

dovremo raccogliere.

I moduli per l’intervista dovranno consentirci di segnare velocemente le risposte che otteniamo:

un modulo già organizzato “a crocette” ci farà risparmiare tempo sia durante l’intervista, sia dopo,

quando dovremo elaborare i dati raccolti. Di contro, un modulo che ci obbliga a scrivere ciò che ci

risponde la persona intervistata farà solamente spazientire la persona stessa.

Nella creazione e definizione di un questionario si deve invece porre attenzione a come la

domanda viene formulata, affinché chi lo compila possa poter rispondere senza possibilità di

equivoci.

E’ superfluo precisare che i questionari, essendo compilati senza la presenza e assistenza di chi sta

conducendo l’indagine statistica, sono generalmente basati su risposte predefinite da crocettare.

Nelle pagine seguenti viene riportato, come esempio, il questionario che la casa automobilistica

SEAT invia ai suoi clienti per indagare sulla qualità del servizio di assistenza.


ELABORAZIONE E RAPPRESENTAZIONE DATI

Questa fase, nel suo complesso, abbraccia diversi momenti:

si va dal riscontro delle informazioni al loro spoglio per ricavare i veri dati statistici;

si passa alla loro trascrizione in apposite tabelle;

dall’esame di queste tabelle si arriva all’elaborazione vera e propria dei dati;

si conclude con la rappresentazione dei risultati dell’indagine mediante opportuni grafici.

Si dice dato statistico una qualsiasi informazione di cui si conosce il numero di volte con cui si

ripete in un’indagine.

A seconda dei dati statistici raccolti e dell’elaborazione che intendiamo effettuare – elaborazione

che dipende anche dagli obiettivi della nostra indagine statistica – possiamo creare vari tipi di

tabelle:

tabella semplice o tabella di frequenza assoluta

tabella delle frequenze relative

tabella multipla e tabella a doppia entrata

tabella per classi.


LE TABELLE

Tabella semplice (tabella di frequenza assoluta)

Supponiamo di aver indagato sul fenomeno “altezza dei ragazzi della

classe III di una scuola media” e di avere raccolto informazioni relative

a 20 campioni scelti, come da tabella qui a sinistra:

Eseguiamo successivamente lo spoglio delle informazioni realizzando

una tabella dove nella prima colonna scriveremo tutte le altezze

registrate e nella seconda colonna, sulla stessa riga, il numero dei

ragazzi che presentano quell’altezza.

La tabella che otteniamo è riportata qui

a destra:

Abbiamo ottenuto una tabella semplice di dati statistici, in grado di fornirci già in’immagine del

fenomeno.

I dati riportati nella seconda colonna (numero dei ragazzi) rappresentano la frequenza assoluta di

ciascun dato (altezza), ovvero il numero di volte con cui il dato si presenta nell’indagine.

Nome Altezza

Maria 145

Giulio 148

Mario 149

Ernesto 151

Giorgio 140

Elena 148

Vittorio 149

Marco 151

Eleonora 145

Fabio 140

Ettore 149

Massimo 151

Cristian 145

Rossana 149

Elisabetta 138

Roberto 145

Walter 140

Nicoletta 152

Sara 145

Nicola 148

Altezza Numero ragazzi

138 1

140 3

145 5

148 3

149 4

151 3

152 1

TOTALE 20


Tabella delle frequenze

Nel paragrafo precedente abbiamo realizzato una tabella con indicato il numero di volte con cui un

dato si presenta nell’indagine, ovvero abbiamo indicato per ciascun dato la sua frequenza

assoluta.

Può essere a volte opportuno indicare per ciascun dato il rapporto tra la sua frequenza assoluta e

il totale dei casi esaminati. In tal caso si parla di frequenza relativa di un dato, che viene espressa

in percentuale.

Per ottenere la frequenza relativa di un dato si applica la seguente formula:

frequenza relativa = (frequenza assoluta / totale casi) * 100

Applicando tale formula alla nostra tabella delle altezze di 20 ragazzi otteniamo quanto segue:


138 1

140 3

145 5

148 3

149 4

151 3

152 1

TOTALE 20

Altezza Frequenza assoluta

Frequenza relativa

138 1 5%

140 3 15%

145 5 25%

148 3 15%

149 4 20%

151 3 15%

152 1 5%

TOTALE 20 100%

(1 / 20)*100 = 5 (3 / 20)*100 = 15 (5 / 20)*100 = 25 (3 / 20)*100 = 15 (4 / 20)*100 = 20 (3 / 20)*100 = 15 (1 / 20)*100 = 5


Tabella multipla e tabella a doppia entrata

Negli esempi fin qui riportati non abbiamo preso in considerazione il fatto che gli alunni del

campione selezionato sono sia maschi che femmine e che il fenomeno altezza può essere

influenzato dalla variabile statistica del sesso.

E’ opportuno prevedere ciò in fase di definizione dell’indagine, per raccogliere i dati in maniera

opportuna e realizzare, pertanto una tabella multipla come la seguente:

Anche in questo caso posiamo, oltre alle frequenze assolute, calcolare e riportare in tabella le

frequenze relative:

Questa tabella è detta tabella multipla a doppia entrata:

multipla perché il fenomeno “altezza” è stato suddiviso in due entrate (ragazzi e ragazze);

a doppia entrata perché per ogni entrata abbiamo una suddivisione in due colonne, quella

delle frequenze assolute e quella delle frequenze relative.


Numero ragazze

138 0 1

140 3 0

145 2 3

148 2 1

149 3 1

151 3 0

152 0 1

TOTALE 13 7

Altezza Numero ragazzi totale %

Numero ragazze totale %

138 0 0,0 1 14,3

140 3 23,1 0 0,0

145 2 15,4 3 42,9

148 2 15,4 1 14,3

149 3 23,1 1 14,3

151 3 23,1 0 0,0

152 0 0,0 1 14,3

TOTALE 13 100,0 7 100,0


Tabella per classi

Supponiamo di eseguire un’indagine sul fenomeno “altezza dei ragazzi delle classi quinte di un

liceo” e di raccogliere i seguenti valori:

1,50 1,60 1,65 1,70 1,66 1,57 1,71 1,67 1,67 1,75

1,61 1,76 1,58 1,77 1,62 1,79 1,70 1,55 1,78 1,74

1,72 1,57 1,62 1,68 1,85 1,65 1,85 1,73 1,58 1,73

1,65 1,78 1,66 1,61 1,71 1,54 1,70 1,54 1,68 1,74

1,80 1,69 1,81 1,59 1,68 1,81 1,61 1,65 1,60 1,80

1,72 1,64 1,73 1,68 1,82 1,63 1,69 1,69 1,82 1,85

Come si può prevedere, l’elaborazione di questi dati potrebbe non essere semplice in quanto le

informazioni sono numeri completamente diversi tra loro. Calcolare la frequenza o la percentuale

di frequenza risulterebbe non solo laborioso, ma sopratutto poco significativo.

In casi del genere si procede compattando i risultati in gruppi e realizzando tabelle suddivise per

classi. Vediamo come procedere.

Innanzitutto dobbiamo riscrivere i dati in ordine crescente:

1,50 1,54 1,54 1,55 1,57 1,57 1,58 1,58 1,59 1,60

1,60 1,61 1,61 1,61 1,62 1,62 1,63 1,64 1,65 1,65

1,65 1,65 1,66 1,66 1,67 1,67 1,68 1,68 1,68 1,68

1,69 1,69 1,69 1,70 1,70 1,70 1,71 1,71 1,72 1,72

1,73 1,73 1,73 1,74 1,74 1,75 1,76 1,77 1,78 1,78

1,79 1,80 1,80 1,81 1,81 1,82 1,85 1,82 1,85 1,85

Consideriamo l’intervallo numerico tra il dato più piccolo e quello più grande, cioè 1,50 ÷ 1,85;

esso rappresenta il campo di variazione della variabile statistica considerata.

Consideriamo gli estremi del campo di variazione e eseguiamo la loro differenza che vale 0,35 m

(1,85 – 1,50 = 0,35). Questa differenza è detta ampiezza del campo di variazione, cioè è

l’ampiezza del raggruppamento di tutti i dati.

Suddividiamo l’ampiezza in opportuni intervalli uguali, ad esempio otto, ottenendo che l’ampiezza

di ciascun intervallo vale 0,04 m (0,35 / 8 = 0,04)


Possiamo a questo punto definire le otto classi di altezza che sono:

1a classe : 1,50 ÷ 1,54 (da 1,50 a 1,50 + 0,04)

2a classe : 1,55 ÷ 1,59 (da 1,55 a 1,55 + 0,04)

3a classe : 1,60 ÷ 1,64 (da 1,60 a 1,60 + 0,04)

4a classe : 1,65 ÷ 1,69 (da 1,65 a 1,65 + 0,04)

5a classe : 1,70 ÷ 1,74 (da 1,70 a 1,70 + 0,04)

6a classe : 1,75 ÷ 1,79 (da 1,75 a 1,75 + 0,04)

7a classe : 1,80 ÷ 1,84 (da 1,80 a 1,80 + 0,04)

8a classe : 1,85 ÷ 1,89 (da 1,85 a 1,85 + 0,04)

In queste otto classi sistemiamo la nostra popolazione: basterà considerare gli alunni appartenenti

ad ogni classe per avere la frequenza della classe, ovvero la distribuzione di frequenza del

raggruppamento dati.

Classi di altezza

Frequenza assoluta

Frequenza relativa

1,50 ÷ 1,54 3 5

1,55 ÷ 1,59 6 10

1,60 ÷ 1,64 9 15

1,65 ÷ 1,69 15 25

1,70 ÷ 1,74 12 20

1,75 ÷ 1,79 6 10

1,80 ÷ 1,84 6 10

1,85 ÷ 1,89 3 5

TOTALE 60 100


LE RAPPRESENTAZIONI GRAFICHE

I dati raccolti nelle tabelle possono essere rappresentati graficamente.

I grafici più utilizzati sono gli istogrammi, i grafici a barre, i grafici a torta e i grafici a linea.

La scelta del grafico dipende dal tipo di tabelle che abbiamo creato.

Esistono vari programmi software che, partendo dalla serie dei dati raccolti in tabella, realizzano

automaticamente il grafico desiderato. Generalmente sono i programmi per l’elaborazione dei

cosiddetti fogli elettronici.

I più popolari sono Microsoft Excel (contenuto nel pacchetto Microsoft Office, a pagamento) e

OpenOffice Calc (software di tipo “open source”, totalmente gratuito).

Tabella semplice (tabella di frequenza assoluta)

In questo caso il grafico più opportuno è l’istogramma, serie di barre verticali la cui altezza è

proporzionale al valore della frequenza.


138 1

140 3

145 5

148 3

149 4

151 3

152 1

TOTALE 20


Tabella delle frequenze relative

In questo caso il grafico più opportuno è la torta che dà un immediato messaggio visivo di come i

dati statistici sono distribuiti l’uno rispetto agli altri.

Tabella multipla

Anche per le tabelle multiple l’istogramma rappresenta il grafico più adatto.

Si possono realizzare due tipi di istogrammi, a

barre affiancate e a barre sovrapposte.

Altezza Frequenza assoluta

Frequenza relativa

138 1 5%

140 3 15%

145 5 25%

148 3 15%

149 4 20%

151 3 15%

152 1 5%

TOTALE 20 100%


Numero ragazze

138 0 1

140 3 0

145 2 3

148 2 1

149 3 1

151 3 0

152 0 1

TOTALE 13 7


Tabella multipla e tabella a doppia entrata

Non esiste un unico grafico che possa rappresentare tutti i dati di una tabella multipla e a doppia

entrata.

In tal caso si ricorre a più di un grafico, come ad esempio un istogramma per rappresentare le

frequenze assolute dei ragazzi e delle ragazze e due grafici a torta per la distribuzione relativa dei

ragazzi (un grafico) e delle ragazze (secondo grafico).

Tabella per classi

Una tabella per classi differisce da una tabella semplice solo per il fatto che l’evento è

rappresentato non da un valore singolo ma da un intervallo di valori.

Una tabella per classi può pertanto essere ben rappresentata

da istogrammi.

Altezza Numero ragazzi totale %

Numero ragazze totale %

138 0 0,0 1 14,3

140 3 23,1 0 0,0

145 2 15,4 3 42,9

148 2 15,4 1 14,3

149 3 23,1 1 14,3

151 3 23,1 0 0,0

152 0 0,0 1 14,3

TOTALE 13 100,0 7 100,0

Classi di altezza

Frequenza assoluta

Frequenza relativa

1,50 ÷ 1,54 3 5

1,55 ÷ 1,59 6 10

1,60 ÷ 1,64 9 15

1,65 ÷ 1,69 15 25

1,70 ÷ 1,74 12 20

1,75 ÷ 1,79 6 10

1,80 ÷ 1,84 6 10

1,85 ÷ 1,89 3 5

TOTALE 60 100


Grafici a linea

Può capitare che i dati in nostro possesso siano dati che rappresentano l’evoluzione nel tempo

dell’evento osservato, come l’andamento giornaliero delle quotazioni in borsa di un titolo

azionario o le temperature rilevate nello stesso posto ad intervalli regolari.

In questo caso i grafici a linea costituiscono la rappresentazione ideale in quanto danno

immediatamente un messaggio “visivo” sull’andamento del fenomeno, oltre a rappresentarne i

valori.

Nell’esempio qui riportato sono indicate le temperature minime e massime rilevate a Torino nel

periodo 1/10/2006 – 1/09/2007 (per semplicità sono state riportate le temperature del primo del

mese).

Data Temp. minima

T

1/09/2007 15,8 27,4

1/08/2007 15,7 28,3

1/07/2007 19,8 29,2

1/06/2007 12,4 19,8

1/05/2007 14,3 21,8

1/04/2007 7,3 11,0

1/03/2007 4,3 13,9

1/02/2007 ‐1,7 11,8

1/01/2007 0,2 8,6

1/12/2006 3,1 13,2

1/11/2006 7,1 20,4

1/10/2006 17,1 22,4


GLI INDICATORI STATISTICI : INDICI DI POSIZIONE

Gli indici, o indicatori statistici, sono i risultati di funzioni matematiche che vengono utilizzati per

effettuare una sintesi dei dati.

Gli indici più frequentemente utilizzati sono:

gli indici di posizione: danno un’idea approssimata dell’ordine di grandezza dei valori esistenti.

I più utilizzati sono la moda, la media, la mediana e i quantili.

gli indici di dispersione: vengono utilizzati per descrivere sinteticamente come i valori di una

distribuzione sono distanti da un valore centrale (identificato solitamente con la media o con la

mediana)

MODA

Si chiama MODA di un’indagine statistica il dato o la classe di dati che ha maggiore frequenza.

In questo caso la frequenza maggiore è 5 e corrisponde al numero di

ragazzi alti 145 cm.

Pertanto, la moda è 145.

In una distribuzione può esserci un solo valore avente la maggiore frequenza, oppure due valori o

più: in tal caso si parla di distribuzione unimodale, bimodale, trimodale, e così via.


138 1

140 3

145 5

148 3

149 4

151 3

152 1

TOTALE 20


MEDIA ARITMETICA

In un insieme di dati statistici numerici la MEDIA ARITMETICA viene utilizzata per riassumere un

insieme di dati con un solo valore.

Per calcolare la media di una distribuzione semplice si devono sommare tutti i dati e dividere tale

somma per il numero dei dati.

In presenza di una tabella di frequenza si calcola la media aritmetica ponderata ( o pesata).

I singoli valori prima di essere sommati vengono moltiplicati con il peso (ponderazione) a loro

assegnato, ovvero al numero di volte (frequenza) in cui i valori compaiono.

La somma ottenuta deve poi essere divisa non con il numero di valori ma con la somma dei pesi.


E’ possibile calcolare la media aritmetica ponderata anche nel caso di distribuzioni per classi, ma

bisogna prima sostituire le classi con il loro valore medio, come nell’esempio che segue:

A questo punto si può calcolare la media aritmetica ponderata.

MEDIANA

Si dice MEDIANA di un insieme di dati statistici numerici, disposti in ordine crescente, il dato che

occupa il posto centrale.

Per determinare la mediana si procede in modi differenti secondo che abbiamo una distribuzione

semplice, una distribuzione ponderata o una per classi.

Caso 1 – Distribuzione semplice

Scrivendo i dati in ordine crescente, se i dati sono in numero dispari la mediana è il termine che

occupa il posto centrale; se i dati sono in numero pari, la mediana è rappresentata dalla media

aritmetica tra i due valori centrali.

Per calcolare in maniera semplice qual è / quali sono i termini centrali, basta dividere per due il

numero totale dei dati.

Esempio: se abbiamo una serie di 49 dati, poiché 49 / 2 = 24 con il resto di 1, il termine di mezzo è

il 25esimo (che avrà 24 dati a destra e 24 dati a sinistra).


Se abbiamo una serie di 150 dati, poiché 150 / 2 = 75, i due termini centrali sono il 75esimo e il

76esimo. La mediana è data dalla media aritmetica di questi due valori, ottenibile sommandoli tra

loro e dividendo il risultato per 2.

Caso 2 – Distribuzione ponderata

Si calcolano anzitutto le frequenze cumulate. A questo scopo si scrivono ordinatamente la prima

frequenza, la somma delle prime due, la somma delle prime tre, e così via

Operando come nel caso di una distribuzione semplice, si

calcola che la mediana è il 30esimo termine.

Nella colonna delle frequenze cumulate si ricava che il 30esimo

termine vale 21: pertanto la mediana è 21.

Valore Frequenza Frequenza cumulata

20 12 12

21 19 31

22 18 49

23 7 56

26 2 58

30 1 59

TOTALE 59


Caso 3 – Distribuzione per classi

Consideriamo la seguente distribuzione per classi (età di 400 persone):

Calcoliamo la metà della frequenza cumulata complessiva ottenendo 200 (400/2); ciò vuol dire che

per arrivare all’età mediana dobbiamo contare le prime 200 persone disposte in ordine di età; ciò

vuole anche dire che la 200esima persona ha un’età tra i 40 e i 50 anni.

La mediana cade quindi nella classe 40‐50 ed è precisamente: 40 + x, ove x rappresenta una

frazione dell’ampiezza 10 della classe.

Per calcolare x si nota che le frequenze cumulate fino a 40 sono 152. Poiché l’età mediana è la

200esima, essa è la 48esima età nella classe 40‐50 (200 – 152 = 48).

Calcoliamo quindi x applicando il criterio di proporzionalità:

48 : 114 = x : 10

Dove 114 è il numero di elementi della classe 40‐50.

Quindi:

x = ( 48 * 10 ) / 114 = 4,21

In definitiva la mediana della distribuzione per classi è:

40 + 4,21 = 44,21

Età Frequenza Frequenzacumulata

20 ‐ 30 60 60

30 – 40 92 152

40 – 50 114 266

50 – 60 86 352

60 – 70 40 392

70 – 80 8 400


QUANTILI

Si può reinterpretare la mediana come la più piccola modalità che divide la serie dei dati in due

parti uguali, lasciando il 50% delle unità statistiche alla sua sinistra e il 50% alla sua destra.

Se invece divido la serie delle unità statistiche in più di due parti uguali, allora si parla di quantili.

I quantili sono modalità del carattere che suddividono la distribuzione dei dati in q distribuzioni

parziali ciascuna contenente 1/q della numerosità totale.

In questo senso la mediana diventa il quantile di ordine q=1/2.

Se q=4, allora si parla di quartili. I quartili ripartiscono la distribuzione in quattro parti

caratterizzate dalla stessa numerosità, pari al 25% della numerosità totale.

Il primo quartile è il valore o l’insieme dei valori per cui la frequenza cumulata vale 0,25 (pari al

25% ), il secondo quartile coincide con la mediana, il terzo quartile è il valore o l’insieme dei valori

per cui la frequenza cumulata vale 0,75 (pari al 75% ).


GLI INDICATORI STATISTICI : INDICI DI DISPERSIONE

Consideriamo i seguenti dati:

Tre studenti, nel primo quadrimestre, hanno riportato le seguenti successioni di voti nelle prove

scritte di matematica:

Se calcoliamo le medie aritmetiche e le mediane dei voti di ogni studente, vediamo che esse

coincidono:

Nonostante ciò, è evidente che le tre successioni di voti sono diverse tra loro.

Per evidenziare queste differenze si deve introdurre il concetto di variabilità:

La variabilità è l’attitudine che la grandezza in oggetto ha di assumere valori più o meno diversi tra

loro.

Se i dati sono vicini al loro valore medio, allora la variabilità è bassa. Se i dati si discostano

fortemente dal loro valore medio allora la variabilità è alta.

La variabilità dei dati viene misurata attraverso nuovi indici, detti indici di variabilità o indici di

dispersione, che sono il campo di variazione, lo scarto semplice medio, lo scarto quadratico, la

varianza e lo scarto quadratico medio.

Studente Voti

Anna 5 6 6 7

Giovanni 4 5 7 8

Giuseppe 3 4 8 9

Studente Media Mediana

Anna 6 6

Giovanni 6 6

Giuseppe 6 6


Campo di variazione

E’ l’indice di variabilità più semplice. E’ dato dalla differenza tra il dato massimo e il dato minimo

ed equivale all’ampiezza dell’intervallo che contiene tutti i dati.

Con riferimento all’esempio precedente abbiamo:

il campo di variabilità dei voti di Anna è : 7 – 5 = 2

il campo di variabilità dei voti di Giovanni è : 8 – 4 = 4

il campo di variabilità dei voti di Giuseppe è : 9 – 3 = 6

Pertanto si può dedurre che i voti di Anna sono pressoché costanti, mentre quelli di Giuseppe sono

molto diversi tra loro.

Il campo di variazione non è però un buon indice di variabilità: se consideriamo, ad esempio, un

quarto studente, Mario, i cui voti sono 4, 4, 8, 8, è evidente che il campo di variazione è lo stesso

di quello di Giovanni, ma la variabilità (ovvero l’attitudine che la grandezza in oggetto ha di

assumere valori diversi tra loro) è diversa.

Pertanto, il campo di variazione non è sufficiente e si deve ricorrere a nuovi indici di variabilità più

sensibili.

Scarto semplice medio

Per calcolare lo scarto semplice medio si procede nel seguente modo.

Si calcola innanzitutto lo scarto semplice, rappresentato dalla differenza del singolo valore dalla

media (Xi – M). Gli scarti semplici possono essere sia positivi che negativi, e la loro somma è

uguale a zero.

Infatti, se consideriamo per esempio i voti di Giuseppe (3, 4, 8, 9, la cui media vale 6) e calcoliamo

la somma degli scarti semplici abbiamo:

(3 – 6) + (4 – 6) + (8 – 6) + (9 – 6) = (‐ 3) + (‐ 2) + (+ 2) + (+ 3) = 0

Si ricorre pertanto allo scarto semplice medio ottenuto calcolando la media aritmetica dei valori

assoluti degli scarti semplici, ovvero la media degli scarti semplici presi con il segno positivo:

( |3 – 6| + |4 – 6| + |8 – 6| + |9 – 6| ) / 4 = ( (+ 3) + (+ 2) + (+ 2) + (+ 3) ) / 4 = 10 / 4 = 2,5


Varianza

Lo scarto semplice medio, sebbene dia indicazioni su come i valori della distribuzione differiscono

tra loro, risulta insufficiente quando i campi di variazione sono minimi.

Si ricorre pertanto alla varianza, indicatore di dispersione che vale zero solo nei casi in cui tutti i

valori sono uguali tra di loro (e pertanto uguali alla loro media) e che cresce con il crescere delle

differenze reciproche dei valori.

La varianza viene calcolata nel seguente modo: si calcolano gli scarti quadratici che sono i quadrati

degli scarti semplici, e se ne calcola la media aritmetica.

Considerando anche stavolta i voti di Giuseppe abbiamo:

( (3 – 6)2 + (4 – 6)2 + (8 – 6)2 + (9 – 6)2 ) / 4 =

( (‐ 3)2 + (‐ 2)2 + (+ 2)2 + (+ 3)2 ) / 4 =

( 9 + 4 + 4 + 9 ) / 4 = 26 / 4 = 6,5

Se calcoliamo anche la varianza dei voti di Anna e di Giovanni avremo:

Deviazione standard

La varianza esprime meglio la distribuzione dei valori ma l’elevamento al quadrato rappresenta

un’anomalia che può essere recuperata solo con un’operazione inversa, l’estrazione della radice

quadrata.

Il valore che otteniamo è la deviazione standard, indicata con la lettera σ (sigma), ed è l’indice di

variabilità più utilizzato per misurare la dispersione dei dati intorno al valore atteso.

Nella tabella che segue sono indicati i vari indici di variabilità calcolati sui voti di Anna, Giovanni e

Giuseppe:

Studente Campo di variazione

Scarto semplice medio

Varianza Scarto quadratico medio

Anna 2 0,5 0,5 0,70

Giovanni 4 1,5 2,5 1,58

Giuseppe 6 2,5 6,5 2,54


GLI INDICATORI STATISTICI : QUANDO, COME, PERCHE’

Quando è preferibile utilizzare la MODA?

• La moda è calcolabile sia con variabili qualitative, sia con quelle quantitative, ciò che conta

è la frequenza dei dati.

• La moda diventa importante quando tra tutti i dati ne spicca uno con frequenza massima

• Se tra i dati parecchi hanno la stessa frequenza o frequenze simili, e non ne spicca uno in

particolare, la moda non dà grandi soddisfazioni

• Se i dati hanno tutti frequenza 1 (cioè tutti diversi tra loro) la moda non esiste.

Quando è preferibile utilizzare la MEDIA?

• La media è calcolabile solo se i dati sono numerici.

• La media è più utile (più significativa) quando la distribuzione dei dati è abbastanza

uniforme

• La media permette di confrontare due sequenze di dati anche se il numero di dati raccolti

nelle due sequenze è diverso

Quando è preferibile utilizzare la MEDIANA?

• La mediana è calcolabile solo se i dati sono riferiti a variabili quantitative o qualitative

ordinate.

• La mediana, a differenza della media, non è influenzata dal fatto che i dati non siano

uniformi, ma dipende solo dalla loro distribuzione.


Renato Agati

http://www.renatoagati.com

CIAC La statistica · L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio...

Documents

Transcript of CIAC La statistica · L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio...