CIAC La statistica · L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio...
Transcript of CIAC La statistica · L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio...
Renato Agati – Appunti di Statistica Pagina 2
Renato Agati – Appunti di Statistica Pagina 3
CONTENUTI
LA STATISTICA
La Statistica
Le fasi di un’indagine statistica
o Definizione del fenomeno
o Individuazione della popolazione
o Le variabili statistiche
o Le scale di misurazione
o Rilevamento dei dati
Elaborazione e rappresentazione dei dati
o Costruzione delle tabelle delle frequenze
o Rappresentazione grafica
Gli indicatori statistici: indici di posizione
o Moda
o media aritmetica
o Mediana
o Quantili
Gli indicatori statistici: indici di dispersione
o Campo di variazione
o Scarto semplice medio
o Varianza
o Deviazione standard
Renato Agati – Appunti di Statistica Pagina 4
Renato Agati – Appunti di Statistica Pagina 5
LA STATISTICA
La statistica è una scienza nata per analizzare e descrivere i fenomeni d’importanza sociale che
riguardano uno Stato.
Oggi viene applicata in tutti quei campi dove intervengono fenomeni collettivi del tutto casuali, la
cui mancanza di ripetitività ne rende impossibile lo studio attraverso la sperimentazione
scientifica.
Sono fenomeni collettivi quei fatti, avvenimenti o situazioni che abbracciano un numero
sufficientemente grande di fenomeni individuali fra loro uguali o simili.
Ad esempio, il fatto che Antonio è alto cm 145 è un fenomeno individuale mentre l’altezza dei ragazzi della stessa età di Antonio di tutte le scuole di un paese è un fenomeno collettivo.
Il fatto che io vengo a scuola in auto è fenomeno individuale. Il mezzo utilizzato da tutti i docenti e alunni della mia scuola è un fenomeno collettivo.
L’aumento della popolazione di uno stato, la comparsa di una certa malattia in un determinato ambiente, la diminuzione dei posti di lavoro in un particolare settore, sono quindi fenomeni collettivi, e la conoscenza delle caratteristiche o dell’andamento di un fenomeno collettivo può avvenire solo attraverso la statistica:
La statistica è la scienza che studia i fenomeni collettivi di vario genere. Essa raccoglie, analizza e
interpreta (utilizzando metodi e strumenti matematici) le informazioni riguardanti il particolare
fenomeno considerato, ne misura e studia certe caratteristiche e permette di fare previsioni sul
futuro o sull’andamento del fenomeno stesso.
Renato Agati – Appunti di Statistica Pagina 6
E’ da precisare che, nel suo complesso, la statistica non dà risultati certi, ma arriva solo a fare delle
previsioni su determinati fenomeni, previsioni che – teoricamente – sono certe ma anche quasi
sicuramente certe: occorre quindi fare le valutazioni con la dovuta attenzione.
La statistica dà quindi delle previsioni permettendo di programmare soluzioni o interventi adatti.
(es. l’aumento di una malattia).
Renato Agati – Appunti di Statistica Pagina 7
FASI DI UN’INDAGINE STATISTICA
Un’indagine statistica, seppur ben definita nel fenomeno preso in considerazione, può essere resa
non appropriata o può essere totalmente vanificata da una raccolta dei dati non corretta o una
loro presentazione inadeguata.
Per evitare ciò, è bene seguire uno schema preciso che, in linea di massima, è basato sullo sviluppo
di quattro FASI essenziali che sono:
definire in maniera esatta e completa il fenomeno su cui si vuole indagare;
individuare la popolazione interessata al fenomeno su cui si indaga;
rilevare e raccogliere in maniera appropriata i dati;
elaborare e interpretare i dati raccolti e rappresentarli graficamente.
Queste fasi devono essere affrontate nella sequenza indicata: raccogliere dati prima di aver
chiaramente espresso le finalità dell’indagine può facilmente condurre a analisi e interpretazione
dei dati non adeguati e quindi a risultati poco attendibili.
DEFINIZIONE DEL FENOMENO
Il primo passo è la definizione del fenomeno su cui vogliamo indagare precisando anche, con
accuratezza, i particolari aspetti che si vogliono analizzare.
E’ la fase iniziale e più importante ai fini di un più preciso proseguimento dell’indagine stessa, in
quanto bisogna predisporre, logicamente e praticamente, il tipo di indagine più adatta al
conseguimento dei nostri obiettivi.
Se per esempio vogliamo prendere in esame il fenomeno “distribuzione demografica in una città”
sarà opportuno precisare se vogliamo un esame che riguardi:
la caratteristica numerica complessiva (numero di abitanti)
Renato Agati – Appunti di Statistica Pagina 8
la caratteristica numerica per sesso (numero maschi e numero femmine)
la caratteristica numerica secondo il reddito
la caratteristica numerica secondo l’attività lavorativa
ecc.
INDIVIDUAZIONE DELLA POPOLAZIONE
Definito il fenomeno, va indicata chiaramente la collettività a cui il fenomeno si riferisce e sulla
quale verrà quindi svolta l’indagine.
Tale collettività in termini statistici si chiama popolazione statistica o, semplicemente, popolazione; ogni singolo elemento della popolazione si chiama unità statistica.
Si definisce popolazione qualsiasi insieme di elementi, reale o virtuale, che forma oggetto di studio.
Costituiscono una popolazione, ad esempio:
gli alunni di una classe;
gli impiegati di un’azienda;
tutti i residenti nel comune di Torino il 31/12/2007;
le malattie tipiche di una certa regione.
E’ di fondamentale importanza (nonché indicatore di serietà della ricerca) definire esattamente la
popolazione di riferimento dell’indagine.
Renato Agati – Appunti di Statistica Pagina 9
LE VARIABILI STATISTICHE
Se consideriamo una popolazione statistica, es. gli impiegati di un’azienda, ogni unità statistica
(ogni impiegato) differisce da un’altra unità per una o più caratteristiche: il sesso, l’attività svolta, il
mezzo di trasporto per recarsi in azienda, lo stato civile, il numero di figli, ecc.
Queste caratteristiche prendono il nome di variabili statistiche ed è rispetto ad una o più di
queste variabili che si effettua l’indagine statistica.
Le variabili statistiche possono essere:
variabili quantitative, se espresse da un numero
variabili qualitative, se non possono essere espresse da un numero (stato civile, il sesso, mezzo di
trasporto, attività svolta,..)
Sono pertanto variabili quantitative:
l’età
il numero figli
lo stipendio percepito
mentre le variabili qualitative possono essere :
lo stato civile
il sesso
il mezzo di trasporto
l’attività svolta
Possiamo quindi dire che:
L’indagine statistica è lo studio di un fenomeno collettivo. Tale studio consiste nell’analizzare come
una popolazione statistica si distribuisce rispetto ad una certa variabile statistica.
Renato Agati – Appunti di Statistica Pagina 10
RILEVAMENTO DEI DATI
Il fenomeno, la popolazione e la/le variabili statistiche su cui vogliamo indagare ci suggeriranno
come meglio procedere nella fase di rilevamento dati.
Il rilevamento dati può essere diretto o completo se viene eseguito direttamente su tutte le unità
statistiche che formano la popolazione interessata al fenomeno. Ciò è possibile quando la
popolazione è formata da un numero non eccessivo di unità e ogni unità statistica può quindi
essere contattata e intervistata. Fanno eccezione i censimenti e le indagini su nascite, morti,
matrimoni (attraverso gli archivi statali).
Spesso però l’intera popolazione è talmente vasta da non permettere il rilevamento diretto per
vari motivi (costi, tempi, disponibilità di tutte le unità statistiche). Si deve pertanto scegliere al suo
interno una parte ridotta di unità statistiche, ovvero un opportuno campione rappresentativo, su
cui si eseguirà l’indagine. In questo caso si parla di rilevamento indiretto o per campione, perchè
viene eseguito solo su una parte più o meno estesa della popolazione.
La scelta del campione rappresentativo è un momento molto importante e delicato, che deve
tenere conto di alcuni fattori:
il numero di campioni deve essere tale da rendere attendibili i risultati;
la scelta dei campioni non deve rendere selettiva l’indagine stessa;
i risultati ottenuti sul campione non devono provocare errori di valutazione quando vengono estesi a tutta la popolazione.
Per il numero dei campioni in genere si decide per una percentuale veramente rappresentativa,
che non sia né ristretta né inutilmente vasta.
Per la scelta del campione si ricorre in genere a:
rilevamento casuale: si effettua estraendo a caso i campioni dall’intera popolazione; se non esiste
alcun vincolo di convenienza (economica, sociale, ecc.) che potrebbe imporre la scelta ragionata di
uno o dell’altro campione, i campioni vengono decisi dal caso.
Renato Agati – Appunti di Statistica Pagina 11
rilevamento stratificato: si effettua suddividendo la popolazione in più strati, o classi, e scegliendo
a caso, in ognuno di essi, singoli campioni che complessivamente formano i campioni
dell’indagine. In ogni strato il numero dei campioni da scegliere sarà proporzionale al numero
totale degli elementi della classe stessa.
Se per esempio si vuole indagare sul fenomeno “reddito degli abitanti di una regione”, è
opportuno fare il campionamento stratificato in quanto il reddito varia secondo alcuni strati o
classi della popolazione, strati che in questo caso sono le diverse attività lavorative.
Per una corretta e completa raccolta dati dobbiamo definire non solo il metodo di rilevamento
(diretto o per campionamento) e le variabili statistiche (quantitative e qualitative) già descritte in
precedenza, ma anche altri criteri di classificazione quali le cosiddette scale di misurazione.
LE SCALE DI MISURAZIONE
Le variabili possono essere classificate anche in base alla scala di misurazione o, in altre parole, alle operazioni che si possono fare con le loro modalità.
Esistono quattro scale: la scala nominale, la scala ordinale, la scala per intervallo, la scala per rapporto.
Scala nominale
Le modalità non hanno un ordinamento (è il caso delle variabili qualitative)
Esempi:
giudizio su un film: bello / brutto;
si / no;
colore degli occhi;
Renato Agati – Appunti di Statistica Pagina 12
Scala ordinale
Le modalità sono attributi non numerici ma logicamente ordinabili
Esempi:
titolo di studio;
livello di soddisfazione per un prodotto (per niente, poco, abbastanza, ecc..);
Scala per intervallo
Sono le variabili quantitative che consentono confronti solo per differenza ma non per rapporto.
Per esempio, se misuriamo un giorno la temperatura minima e massima a Torino e a New York potremmo
ottenere i seguenti valori:
Se vogliamo confrontare le temperature di Torino e di New York, ha senso dire che l’escursione termica è
la stessa nelle due città, ma non ha senso dire che la minima a New York è la metà della minima a Torino.
Scala per rapporto
Sono variabili numeriche per le quali è intrinseca la definizione dello zero.
Esempi sono il peso, l’altezza, la lunghezza, la concentrazione.
In questo caso le modalità possono essere confrontate per rapporto.
Per esempio, si può affermare che la concentrazione di cloro in un campione di acqua è doppia rispetto a quella di un altro campione.
Temp. massime
Temp. minime
Torino 25 16
New York 17 8
Renato Agati – Appunti di Statistica Pagina 13
GLI STRUMENTI
Scelto il metodo per il rilevamento dati, diretto o per campionamento, si passa alla raccolta delle
informazioni che può avvenire tramite:
interviste: si pongono a ciascuna unità statistica delle precise domande in merito al fenomeno e si registrano le relative risposte;
questionari: si distribuisce a ciascuna unità statistica un questionario che successivamente viene ritirato con le risposte;
consultazione di archivi o pubblicazioni specializzate.
Sarà pertanto necessario preparare gli opportuni strumenti per registrare facilmente i dati che
dovremo raccogliere.
I moduli per l’intervista dovranno consentirci di segnare velocemente le risposte che otteniamo:
un modulo già organizzato “a crocette” ci farà risparmiare tempo sia durante l’intervista, sia dopo,
quando dovremo elaborare i dati raccolti. Di contro, un modulo che ci obbliga a scrivere ciò che ci
risponde la persona intervistata farà solamente spazientire la persona stessa.
Nella creazione e definizione di un questionario si deve invece porre attenzione a come la
domanda viene formulata, affinché chi lo compila possa poter rispondere senza possibilità di
equivoci.
E’ superfluo precisare che i questionari, essendo compilati senza la presenza e assistenza di chi sta
conducendo l’indagine statistica, sono generalmente basati su risposte predefinite da crocettare.
Nelle pagine seguenti viene riportato, come esempio, il questionario che la casa automobilistica
SEAT invia ai suoi clienti per indagare sulla qualità del servizio di assistenza.
Renato Agati – Appunti di Statistica Pagina 14
Renato Agati – Appunti di Statistica Pagina 15
Renato Agati – Appunti di Statistica Pagina 16
Renato Agati – Appunti di Statistica Pagina 17
ELABORAZIONE E RAPPRESENTAZIONE DATI
Questa fase, nel suo complesso, abbraccia diversi momenti:
si va dal riscontro delle informazioni al loro spoglio per ricavare i veri dati statistici;
si passa alla loro trascrizione in apposite tabelle;
dall’esame di queste tabelle si arriva all’elaborazione vera e propria dei dati;
si conclude con la rappresentazione dei risultati dell’indagine mediante opportuni grafici.
Si dice dato statistico una qualsiasi informazione di cui si conosce il numero di volte con cui si
ripete in un’indagine.
A seconda dei dati statistici raccolti e dell’elaborazione che intendiamo effettuare – elaborazione
che dipende anche dagli obiettivi della nostra indagine statistica – possiamo creare vari tipi di
tabelle:
tabella semplice o tabella di frequenza assoluta
tabella delle frequenze relative
tabella multipla e tabella a doppia entrata
tabella per classi.
Renato Agati – Appunti di Statistica Pagina 18
LE TABELLE
Tabella semplice (tabella di frequenza assoluta)
Supponiamo di aver indagato sul fenomeno “altezza dei ragazzi della
classe III di una scuola media” e di avere raccolto informazioni relative
a 20 campioni scelti, come da tabella qui a sinistra:
Eseguiamo successivamente lo spoglio delle informazioni realizzando
una tabella dove nella prima colonna scriveremo tutte le altezze
registrate e nella seconda colonna, sulla stessa riga, il numero dei
ragazzi che presentano quell’altezza.
La tabella che otteniamo è riportata qui
a destra:
Abbiamo ottenuto una tabella semplice di dati statistici, in grado di fornirci già in’immagine del
fenomeno.
I dati riportati nella seconda colonna (numero dei ragazzi) rappresentano la frequenza assoluta di
ciascun dato (altezza), ovvero il numero di volte con cui il dato si presenta nell’indagine.
Nome Altezza
Maria 145
Giulio 148
Mario 149
Ernesto 151
Giorgio 140
Elena 148
Vittorio 149
Marco 151
Eleonora 145
Fabio 140
Ettore 149
Massimo 151
Cristian 145
Rossana 149
Elisabetta 138
Roberto 145
Walter 140
Nicoletta 152
Sara 145
Nicola 148
Altezza Numero ragazzi
138 1
140 3
145 5
148 3
149 4
151 3
152 1
TOTALE 20
Renato Agati – Appunti di Statistica Pagina 19
Tabella delle frequenze
Nel paragrafo precedente abbiamo realizzato una tabella con indicato il numero di volte con cui un
dato si presenta nell’indagine, ovvero abbiamo indicato per ciascun dato la sua frequenza
assoluta.
Può essere a volte opportuno indicare per ciascun dato il rapporto tra la sua frequenza assoluta e
il totale dei casi esaminati. In tal caso si parla di frequenza relativa di un dato, che viene espressa
in percentuale.
Per ottenere la frequenza relativa di un dato si applica la seguente formula:
frequenza relativa = (frequenza assoluta / totale casi) * 100
Applicando tale formula alla nostra tabella delle altezze di 20 ragazzi otteniamo quanto segue:
Altezza Numero ragazzi
138 1
140 3
145 5
148 3
149 4
151 3
152 1
TOTALE 20
Altezza Frequenza assoluta
Frequenza relativa
138 1 5%
140 3 15%
145 5 25%
148 3 15%
149 4 20%
151 3 15%
152 1 5%
TOTALE 20 100%
(1 / 20)*100 = 5 (3 / 20)*100 = 15 (5 / 20)*100 = 25 (3 / 20)*100 = 15 (4 / 20)*100 = 20 (3 / 20)*100 = 15 (1 / 20)*100 = 5
Renato Agati – Appunti di Statistica Pagina 20
Tabella multipla e tabella a doppia entrata
Negli esempi fin qui riportati non abbiamo preso in considerazione il fatto che gli alunni del
campione selezionato sono sia maschi che femmine e che il fenomeno altezza può essere
influenzato dalla variabile statistica del sesso.
E’ opportuno prevedere ciò in fase di definizione dell’indagine, per raccogliere i dati in maniera
opportuna e realizzare, pertanto una tabella multipla come la seguente:
Anche in questo caso posiamo, oltre alle frequenze assolute, calcolare e riportare in tabella le
frequenze relative:
Questa tabella è detta tabella multipla a doppia entrata:
multipla perché il fenomeno “altezza” è stato suddiviso in due entrate (ragazzi e ragazze);
a doppia entrata perché per ogni entrata abbiamo una suddivisione in due colonne, quella
delle frequenze assolute e quella delle frequenze relative.
Altezza Numero ragazzi
Numero ragazze
138 0 1
140 3 0
145 2 3
148 2 1
149 3 1
151 3 0
152 0 1
TOTALE 13 7
Altezza Numero ragazzi totale %
Numero ragazze totale %
138 0 0,0 1 14,3
140 3 23,1 0 0,0
145 2 15,4 3 42,9
148 2 15,4 1 14,3
149 3 23,1 1 14,3
151 3 23,1 0 0,0
152 0 0,0 1 14,3
TOTALE 13 100,0 7 100,0
Renato Agati – Appunti di Statistica Pagina 21
Tabella per classi
Supponiamo di eseguire un’indagine sul fenomeno “altezza dei ragazzi delle classi quinte di un
liceo” e di raccogliere i seguenti valori:
1,50 1,60 1,65 1,70 1,66 1,57 1,71 1,67 1,67 1,75
1,61 1,76 1,58 1,77 1,62 1,79 1,70 1,55 1,78 1,74
1,72 1,57 1,62 1,68 1,85 1,65 1,85 1,73 1,58 1,73
1,65 1,78 1,66 1,61 1,71 1,54 1,70 1,54 1,68 1,74
1,80 1,69 1,81 1,59 1,68 1,81 1,61 1,65 1,60 1,80
1,72 1,64 1,73 1,68 1,82 1,63 1,69 1,69 1,82 1,85
Come si può prevedere, l’elaborazione di questi dati potrebbe non essere semplice in quanto le
informazioni sono numeri completamente diversi tra loro. Calcolare la frequenza o la percentuale
di frequenza risulterebbe non solo laborioso, ma sopratutto poco significativo.
In casi del genere si procede compattando i risultati in gruppi e realizzando tabelle suddivise per
classi. Vediamo come procedere.
Innanzitutto dobbiamo riscrivere i dati in ordine crescente:
1,50 1,54 1,54 1,55 1,57 1,57 1,58 1,58 1,59 1,60
1,60 1,61 1,61 1,61 1,62 1,62 1,63 1,64 1,65 1,65
1,65 1,65 1,66 1,66 1,67 1,67 1,68 1,68 1,68 1,68
1,69 1,69 1,69 1,70 1,70 1,70 1,71 1,71 1,72 1,72
1,73 1,73 1,73 1,74 1,74 1,75 1,76 1,77 1,78 1,78
1,79 1,80 1,80 1,81 1,81 1,82 1,85 1,82 1,85 1,85
Consideriamo l’intervallo numerico tra il dato più piccolo e quello più grande, cioè 1,50 ÷ 1,85;
esso rappresenta il campo di variazione della variabile statistica considerata.
Consideriamo gli estremi del campo di variazione e eseguiamo la loro differenza che vale 0,35 m
(1,85 – 1,50 = 0,35). Questa differenza è detta ampiezza del campo di variazione, cioè è
l’ampiezza del raggruppamento di tutti i dati.
Suddividiamo l’ampiezza in opportuni intervalli uguali, ad esempio otto, ottenendo che l’ampiezza
di ciascun intervallo vale 0,04 m (0,35 / 8 = 0,04)
Renato Agati – Appunti di Statistica Pagina 22
Possiamo a questo punto definire le otto classi di altezza che sono:
1a classe : 1,50 ÷ 1,54 (da 1,50 a 1,50 + 0,04)
2a classe : 1,55 ÷ 1,59 (da 1,55 a 1,55 + 0,04)
3a classe : 1,60 ÷ 1,64 (da 1,60 a 1,60 + 0,04)
4a classe : 1,65 ÷ 1,69 (da 1,65 a 1,65 + 0,04)
5a classe : 1,70 ÷ 1,74 (da 1,70 a 1,70 + 0,04)
6a classe : 1,75 ÷ 1,79 (da 1,75 a 1,75 + 0,04)
7a classe : 1,80 ÷ 1,84 (da 1,80 a 1,80 + 0,04)
8a classe : 1,85 ÷ 1,89 (da 1,85 a 1,85 + 0,04)
In queste otto classi sistemiamo la nostra popolazione: basterà considerare gli alunni appartenenti
ad ogni classe per avere la frequenza della classe, ovvero la distribuzione di frequenza del
raggruppamento dati.
Classi di altezza
Frequenza assoluta
Frequenza relativa
1,50 ÷ 1,54 3 5
1,55 ÷ 1,59 6 10
1,60 ÷ 1,64 9 15
1,65 ÷ 1,69 15 25
1,70 ÷ 1,74 12 20
1,75 ÷ 1,79 6 10
1,80 ÷ 1,84 6 10
1,85 ÷ 1,89 3 5
TOTALE 60 100
Renato Agati – Appunti di Statistica Pagina 23
LE RAPPRESENTAZIONI GRAFICHE
I dati raccolti nelle tabelle possono essere rappresentati graficamente.
I grafici più utilizzati sono gli istogrammi, i grafici a barre, i grafici a torta e i grafici a linea.
La scelta del grafico dipende dal tipo di tabelle che abbiamo creato.
Esistono vari programmi software che, partendo dalla serie dei dati raccolti in tabella, realizzano
automaticamente il grafico desiderato. Generalmente sono i programmi per l’elaborazione dei
cosiddetti fogli elettronici.
I più popolari sono Microsoft Excel (contenuto nel pacchetto Microsoft Office, a pagamento) e
OpenOffice Calc (software di tipo “open source”, totalmente gratuito).
Tabella semplice (tabella di frequenza assoluta)
In questo caso il grafico più opportuno è l’istogramma, serie di barre verticali la cui altezza è
proporzionale al valore della frequenza.
Altezza Numero ragazzi
138 1
140 3
145 5
148 3
149 4
151 3
152 1
TOTALE 20
Renato Agati – Appunti di Statistica Pagina 24
Tabella delle frequenze relative
In questo caso il grafico più opportuno è la torta che dà un immediato messaggio visivo di come i
dati statistici sono distribuiti l’uno rispetto agli altri.
Tabella multipla
Anche per le tabelle multiple l’istogramma rappresenta il grafico più adatto.
Si possono realizzare due tipi di istogrammi, a
barre affiancate e a barre sovrapposte.
Altezza Frequenza assoluta
Frequenza relativa
138 1 5%
140 3 15%
145 5 25%
148 3 15%
149 4 20%
151 3 15%
152 1 5%
TOTALE 20 100%
Altezza Numero ragazzi
Numero ragazze
138 0 1
140 3 0
145 2 3
148 2 1
149 3 1
151 3 0
152 0 1
TOTALE 13 7
Renato Agati – Appunti di Statistica Pagina 25
Tabella multipla e tabella a doppia entrata
Non esiste un unico grafico che possa rappresentare tutti i dati di una tabella multipla e a doppia
entrata.
In tal caso si ricorre a più di un grafico, come ad esempio un istogramma per rappresentare le
frequenze assolute dei ragazzi e delle ragazze e due grafici a torta per la distribuzione relativa dei
ragazzi (un grafico) e delle ragazze (secondo grafico).
Tabella per classi
Una tabella per classi differisce da una tabella semplice solo per il fatto che l’evento è
rappresentato non da un valore singolo ma da un intervallo di valori.
Una tabella per classi può pertanto essere ben rappresentata
da istogrammi.
Altezza Numero ragazzi totale %
Numero ragazze totale %
138 0 0,0 1 14,3
140 3 23,1 0 0,0
145 2 15,4 3 42,9
148 2 15,4 1 14,3
149 3 23,1 1 14,3
151 3 23,1 0 0,0
152 0 0,0 1 14,3
TOTALE 13 100,0 7 100,0
Classi di altezza
Frequenza assoluta
Frequenza relativa
1,50 ÷ 1,54 3 5
1,55 ÷ 1,59 6 10
1,60 ÷ 1,64 9 15
1,65 ÷ 1,69 15 25
1,70 ÷ 1,74 12 20
1,75 ÷ 1,79 6 10
1,80 ÷ 1,84 6 10
1,85 ÷ 1,89 3 5
TOTALE 60 100
Renato Agati – Appunti di Statistica Pagina 26
Grafici a linea
Può capitare che i dati in nostro possesso siano dati che rappresentano l’evoluzione nel tempo
dell’evento osservato, come l’andamento giornaliero delle quotazioni in borsa di un titolo
azionario o le temperature rilevate nello stesso posto ad intervalli regolari.
In questo caso i grafici a linea costituiscono la rappresentazione ideale in quanto danno
immediatamente un messaggio “visivo” sull’andamento del fenomeno, oltre a rappresentarne i
valori.
Nell’esempio qui riportato sono indicate le temperature minime e massime rilevate a Torino nel
periodo 1/10/2006 – 1/09/2007 (per semplicità sono state riportate le temperature del primo del
mese).
Data Temp. minima
T
1/09/2007 15,8 27,4
1/08/2007 15,7 28,3
1/07/2007 19,8 29,2
1/06/2007 12,4 19,8
1/05/2007 14,3 21,8
1/04/2007 7,3 11,0
1/03/2007 4,3 13,9
1/02/2007 ‐1,7 11,8
1/01/2007 0,2 8,6
1/12/2006 3,1 13,2
1/11/2006 7,1 20,4
1/10/2006 17,1 22,4
Renato Agati – Appunti di Statistica Pagina 27
GLI INDICATORI STATISTICI : INDICI DI POSIZIONE
Gli indici, o indicatori statistici, sono i risultati di funzioni matematiche che vengono utilizzati per
effettuare una sintesi dei dati.
Gli indici più frequentemente utilizzati sono:
gli indici di posizione: danno un’idea approssimata dell’ordine di grandezza dei valori esistenti.
I più utilizzati sono la moda, la media, la mediana e i quantili.
gli indici di dispersione: vengono utilizzati per descrivere sinteticamente come i valori di una
distribuzione sono distanti da un valore centrale (identificato solitamente con la media o con la
mediana)
MODA
Si chiama MODA di un’indagine statistica il dato o la classe di dati che ha maggiore frequenza.
In questo caso la frequenza maggiore è 5 e corrisponde al numero di
ragazzi alti 145 cm.
Pertanto, la moda è 145.
In una distribuzione può esserci un solo valore avente la maggiore frequenza, oppure due valori o
più: in tal caso si parla di distribuzione unimodale, bimodale, trimodale, e così via.
Altezza Numero ragazzi
138 1
140 3
145 5
148 3
149 4
151 3
152 1
TOTALE 20
Renato Agati – Appunti di Statistica Pagina 28
MEDIA ARITMETICA
In un insieme di dati statistici numerici la MEDIA ARITMETICA viene utilizzata per riassumere un
insieme di dati con un solo valore.
Per calcolare la media di una distribuzione semplice si devono sommare tutti i dati e dividere tale
somma per il numero dei dati.
In presenza di una tabella di frequenza si calcola la media aritmetica ponderata ( o pesata).
I singoli valori prima di essere sommati vengono moltiplicati con il peso (ponderazione) a loro
assegnato, ovvero al numero di volte (frequenza) in cui i valori compaiono.
La somma ottenuta deve poi essere divisa non con il numero di valori ma con la somma dei pesi.
Renato Agati – Appunti di Statistica Pagina 29
E’ possibile calcolare la media aritmetica ponderata anche nel caso di distribuzioni per classi, ma
bisogna prima sostituire le classi con il loro valore medio, come nell’esempio che segue:
A questo punto si può calcolare la media aritmetica ponderata.
MEDIANA
Si dice MEDIANA di un insieme di dati statistici numerici, disposti in ordine crescente, il dato che
occupa il posto centrale.
Per determinare la mediana si procede in modi differenti secondo che abbiamo una distribuzione
semplice, una distribuzione ponderata o una per classi.
Caso 1 – Distribuzione semplice
Scrivendo i dati in ordine crescente, se i dati sono in numero dispari la mediana è il termine che
occupa il posto centrale; se i dati sono in numero pari, la mediana è rappresentata dalla media
aritmetica tra i due valori centrali.
Per calcolare in maniera semplice qual è / quali sono i termini centrali, basta dividere per due il
numero totale dei dati.
Esempio: se abbiamo una serie di 49 dati, poiché 49 / 2 = 24 con il resto di 1, il termine di mezzo è
il 25esimo (che avrà 24 dati a destra e 24 dati a sinistra).
Renato Agati – Appunti di Statistica Pagina 30
Se abbiamo una serie di 150 dati, poiché 150 / 2 = 75, i due termini centrali sono il 75esimo e il
76esimo. La mediana è data dalla media aritmetica di questi due valori, ottenibile sommandoli tra
loro e dividendo il risultato per 2.
Caso 2 – Distribuzione ponderata
Si calcolano anzitutto le frequenze cumulate. A questo scopo si scrivono ordinatamente la prima
frequenza, la somma delle prime due, la somma delle prime tre, e così via
Operando come nel caso di una distribuzione semplice, si
calcola che la mediana è il 30esimo termine.
Nella colonna delle frequenze cumulate si ricava che il 30esimo
termine vale 21: pertanto la mediana è 21.
Valore Frequenza Frequenza cumulata
20 12 12
21 19 31
22 18 49
23 7 56
26 2 58
30 1 59
TOTALE 59
Renato Agati – Appunti di Statistica Pagina 31
Caso 3 – Distribuzione per classi
Consideriamo la seguente distribuzione per classi (età di 400 persone):
Calcoliamo la metà della frequenza cumulata complessiva ottenendo 200 (400/2); ciò vuol dire che
per arrivare all’età mediana dobbiamo contare le prime 200 persone disposte in ordine di età; ciò
vuole anche dire che la 200esima persona ha un’età tra i 40 e i 50 anni.
La mediana cade quindi nella classe 40‐50 ed è precisamente: 40 + x, ove x rappresenta una
frazione dell’ampiezza 10 della classe.
Per calcolare x si nota che le frequenze cumulate fino a 40 sono 152. Poiché l’età mediana è la
200esima, essa è la 48esima età nella classe 40‐50 (200 – 152 = 48).
Calcoliamo quindi x applicando il criterio di proporzionalità:
48 : 114 = x : 10
Dove 114 è il numero di elementi della classe 40‐50.
Quindi:
x = ( 48 * 10 ) / 114 = 4,21
In definitiva la mediana della distribuzione per classi è:
40 + 4,21 = 44,21
Età Frequenza Frequenzacumulata
20 ‐ 30 60 60
30 – 40 92 152
40 – 50 114 266
50 – 60 86 352
60 – 70 40 392
70 – 80 8 400
Renato Agati – Appunti di Statistica Pagina 32
QUANTILI
Si può reinterpretare la mediana come la più piccola modalità che divide la serie dei dati in due
parti uguali, lasciando il 50% delle unità statistiche alla sua sinistra e il 50% alla sua destra.
Se invece divido la serie delle unità statistiche in più di due parti uguali, allora si parla di quantili.
I quantili sono modalità del carattere che suddividono la distribuzione dei dati in q distribuzioni
parziali ciascuna contenente 1/q della numerosità totale.
In questo senso la mediana diventa il quantile di ordine q=1/2.
Se q=4, allora si parla di quartili. I quartili ripartiscono la distribuzione in quattro parti
caratterizzate dalla stessa numerosità, pari al 25% della numerosità totale.
Il primo quartile è il valore o l’insieme dei valori per cui la frequenza cumulata vale 0,25 (pari al
25% ), il secondo quartile coincide con la mediana, il terzo quartile è il valore o l’insieme dei valori
per cui la frequenza cumulata vale 0,75 (pari al 75% ).
Renato Agati – Appunti di Statistica Pagina 33
GLI INDICATORI STATISTICI : INDICI DI DISPERSIONE
Consideriamo i seguenti dati:
Tre studenti, nel primo quadrimestre, hanno riportato le seguenti successioni di voti nelle prove
scritte di matematica:
Se calcoliamo le medie aritmetiche e le mediane dei voti di ogni studente, vediamo che esse
coincidono:
Nonostante ciò, è evidente che le tre successioni di voti sono diverse tra loro.
Per evidenziare queste differenze si deve introdurre il concetto di variabilità:
La variabilità è l’attitudine che la grandezza in oggetto ha di assumere valori più o meno diversi tra
loro.
Se i dati sono vicini al loro valore medio, allora la variabilità è bassa. Se i dati si discostano
fortemente dal loro valore medio allora la variabilità è alta.
La variabilità dei dati viene misurata attraverso nuovi indici, detti indici di variabilità o indici di
dispersione, che sono il campo di variazione, lo scarto semplice medio, lo scarto quadratico, la
varianza e lo scarto quadratico medio.
Studente Voti
Anna 5 6 6 7
Giovanni 4 5 7 8
Giuseppe 3 4 8 9
Studente Media Mediana
Anna 6 6
Giovanni 6 6
Giuseppe 6 6
Renato Agati – Appunti di Statistica Pagina 34
Campo di variazione
E’ l’indice di variabilità più semplice. E’ dato dalla differenza tra il dato massimo e il dato minimo
ed equivale all’ampiezza dell’intervallo che contiene tutti i dati.
Con riferimento all’esempio precedente abbiamo:
il campo di variabilità dei voti di Anna è : 7 – 5 = 2
il campo di variabilità dei voti di Giovanni è : 8 – 4 = 4
il campo di variabilità dei voti di Giuseppe è : 9 – 3 = 6
Pertanto si può dedurre che i voti di Anna sono pressoché costanti, mentre quelli di Giuseppe sono
molto diversi tra loro.
Il campo di variazione non è però un buon indice di variabilità: se consideriamo, ad esempio, un
quarto studente, Mario, i cui voti sono 4, 4, 8, 8, è evidente che il campo di variazione è lo stesso
di quello di Giovanni, ma la variabilità (ovvero l’attitudine che la grandezza in oggetto ha di
assumere valori diversi tra loro) è diversa.
Pertanto, il campo di variazione non è sufficiente e si deve ricorrere a nuovi indici di variabilità più
sensibili.
Scarto semplice medio
Per calcolare lo scarto semplice medio si procede nel seguente modo.
Si calcola innanzitutto lo scarto semplice, rappresentato dalla differenza del singolo valore dalla
media (Xi – M). Gli scarti semplici possono essere sia positivi che negativi, e la loro somma è
uguale a zero.
Infatti, se consideriamo per esempio i voti di Giuseppe (3, 4, 8, 9, la cui media vale 6) e calcoliamo
la somma degli scarti semplici abbiamo:
(3 – 6) + (4 – 6) + (8 – 6) + (9 – 6) = (‐ 3) + (‐ 2) + (+ 2) + (+ 3) = 0
Si ricorre pertanto allo scarto semplice medio ottenuto calcolando la media aritmetica dei valori
assoluti degli scarti semplici, ovvero la media degli scarti semplici presi con il segno positivo:
( |3 – 6| + |4 – 6| + |8 – 6| + |9 – 6| ) / 4 = ( (+ 3) + (+ 2) + (+ 2) + (+ 3) ) / 4 = 10 / 4 = 2,5
Renato Agati – Appunti di Statistica Pagina 35
Varianza
Lo scarto semplice medio, sebbene dia indicazioni su come i valori della distribuzione differiscono
tra loro, risulta insufficiente quando i campi di variazione sono minimi.
Si ricorre pertanto alla varianza, indicatore di dispersione che vale zero solo nei casi in cui tutti i
valori sono uguali tra di loro (e pertanto uguali alla loro media) e che cresce con il crescere delle
differenze reciproche dei valori.
La varianza viene calcolata nel seguente modo: si calcolano gli scarti quadratici che sono i quadrati
degli scarti semplici, e se ne calcola la media aritmetica.
Considerando anche stavolta i voti di Giuseppe abbiamo:
( (3 – 6)2 + (4 – 6)2 + (8 – 6)2 + (9 – 6)2 ) / 4 =
( (‐ 3)2 + (‐ 2)2 + (+ 2)2 + (+ 3)2 ) / 4 =
( 9 + 4 + 4 + 9 ) / 4 = 26 / 4 = 6,5
Se calcoliamo anche la varianza dei voti di Anna e di Giovanni avremo:
Deviazione standard
La varianza esprime meglio la distribuzione dei valori ma l’elevamento al quadrato rappresenta
un’anomalia che può essere recuperata solo con un’operazione inversa, l’estrazione della radice
quadrata.
Il valore che otteniamo è la deviazione standard, indicata con la lettera σ (sigma), ed è l’indice di
variabilità più utilizzato per misurare la dispersione dei dati intorno al valore atteso.
Nella tabella che segue sono indicati i vari indici di variabilità calcolati sui voti di Anna, Giovanni e
Giuseppe:
Studente Campo di variazione
Scarto semplice medio
Varianza Scarto quadratico medio
Anna 2 0,5 0,5 0,70
Giovanni 4 1,5 2,5 1,58
Giuseppe 6 2,5 6,5 2,54
Renato Agati – Appunti di Statistica Pagina 36
GLI INDICATORI STATISTICI : QUANDO, COME, PERCHE’
Quando è preferibile utilizzare la MODA?
• La moda è calcolabile sia con variabili qualitative, sia con quelle quantitative, ciò che conta
è la frequenza dei dati.
• La moda diventa importante quando tra tutti i dati ne spicca uno con frequenza massima
• Se tra i dati parecchi hanno la stessa frequenza o frequenze simili, e non ne spicca uno in
particolare, la moda non dà grandi soddisfazioni
• Se i dati hanno tutti frequenza 1 (cioè tutti diversi tra loro) la moda non esiste.
Quando è preferibile utilizzare la MEDIA?
• La media è calcolabile solo se i dati sono numerici.
• La media è più utile (più significativa) quando la distribuzione dei dati è abbastanza
uniforme
• La media permette di confrontare due sequenze di dati anche se il numero di dati raccolti
nelle due sequenze è diverso
Quando è preferibile utilizzare la MEDIANA?
• La mediana è calcolabile solo se i dati sono riferiti a variabili quantitative o qualitative
ordinate.
• La mediana, a differenza della media, non è influenzata dal fatto che i dati non siano
uniformi, ma dipende solo dalla loro distribuzione.
Renato Agati – Appunti di Statistica Pagina 37
Renato Agati
http://www.renatoagati.com