Post on 01-May-2015
La statistica
Elementi di statistica descrittiva
per i ragazzi della V ITER a.s. 2009/2010
(e per tutti gli altri che vorranno leggerli ed usarli).
Prof. Claudio Scordari
STATISTICA
Si definisce statistica la scienza cha ha per oggetto la raccolta, l’analisi e la descrizione di fenomeni collettivi.
In generale si distingue tra:
• Statistica descrittiva
• Statistica induttiva o inferenza statistica
• La statistica descrittiva ha lo scopo di raccogliere ed elaborare dati per descrivere fenomeni collettivi o di massa
• La statistica induttiva si occupa di stimare le caratteristiche di un fenomeno collettivo a partire dall’analisi delle caratteristiche di un campione.
Unità statistiche
• Definiamo unità statistica il più piccolo elemento su cui si operano le rilevazioni.
• A sua volta l’unità statistica può essere suddivisa in :Unità statistica semplice se corrisponde ad un
solo elemento (persone, automobili etc.)Unità statistica composta se corrisponde ad
un insieme di elementi (famiglie, categorie sociali etc.)
• Definiamo dato statistico il dato ottenuto da una rilevazione operata sulle unità statistiche.
• All’insieme sul quale viene svolta l’indagine si dà il nome di popolazione statistica .
La popolazione statistica può essere unUniverso statistico se costituita da tutti gli elementi
oggetto di rilevazioneCampione statistico se costituita da un certo numero
di elementi estratti dalla popolazione.
DATI E POPOLAZIONE
Caratteri
L’indagine statistica si indirizza su una o più caratteristiche comuni di una popolazione. Tali caratteristiche prendono il nome di caratteri statistici.
Gli aspetti secondo i quali i caratteri si manifestano si chiamano modalità.
Esse possono essere:Qualitative se sono espresse da attributi (colore dei
capelli, marche etc.)Quantitative se sono espresse da numeri (altezze,
reddito, pesi etc.)
FASI DELL’INDAGINE STATISTICA
• Pianificazione
• Raccolta dei dati
• Spoglio
• Rappresentazione
• Elaborazione
• Interpretazione
Sistemazione dei dati
• Tabella a semplice entrata:– È costituita da due colonne: nella prima sono
riportate le modalità del carattere qualitativo o le varie intensità del carattere quantitativo. Nella seconda colonna sono riportate le frequenze (ossia il numero di unità statistiche che possiedono quella modalità del carattere).
– Per esempio è una tabella a semplice entrata la seguente:
Indagine sul tipo di lettura preferita dagli alunni dell’ITC.”Calasso”
Tipo di lettura N.di giovani
Narrativa 300
Fantascienza 175
Giallo 200
Storica 150
Scientifica 175
totale 1000
• Tabelle a doppia entrata:Le unità statistiche vengono classificate
secondo due caratteri.Sulle righe si riportano le modalità di un
carattere e sulle colonne le modalità dell’altro carattere.
Nell’ultima colonna e nell’ultima riga si riportano i totali.
Vediamo un esempio…..
Distribuzione di 100 abitazioni secondo il numero di vani e i componenti della famiglia
N. vani
Componenti famiglia
Totali1 2 3 4 5 6
1 10 4 1 0 0 0 15
2 6 10 5 2 0 0 23
3 3 10 12 8 2 1 36
4 1 3 8 4 2 2 20
5 0 1 2 1 1 1 6
totali 20 28 28 15 5 4 100
Frequenza assoluta, relativa e percentuale
• Frequenza assoluta è il numero di individui il cui carattere assume una determinata modalità
• Frequenza relativa è il rapporto tra la frequenza assoluta e la totalità della popolazione statistica su cui si sta svolgendo l’indagine. Pertanto è un numero positivo minore o uguale a uno.
• Frequenza percentuale è semplicemente la frequenza relativa moltiplicata per cento. Pertanto è un numero positivo minore o uguale a cento.
Indagine sul tipo di lettura preferita dagli alunni dell’ITC.”Calasso”
Tipo di lettura Freq. Assolute Freq. relative Percentuali
Narrativa 300 0,3 30%
Fantascienza 175 0,175 17,5%
Giallo 200 0,2 20%
Storica 150 0,15 15%
Scientifica 175 0,175 17,5%
totale 1000 1 100%
Rappresentazione grafica di un’indagine statistica
• Diagrammi cartesiani:si usano per rappresentare caratteri quantitativi:in ascissa si riportano i valori del carattere ed in ordinate le frequenze.
Andamento delle iscrizioni
0
500
1000
1500
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
anno scolasticon
um
ero
di i
scr
itti
Istogrammi• Si usano soprattutto nel
caso di caratteri divisi in classi. L’asse del carattere viene suddiviso in intervalli adiacenti e su ogni intervallo si disegna un rettangolo la cui area è proporzionale alla frequenza assoluta o relativa.
N.B. Con i dati divisi per classi la costruzione dell’istogramma deve tener conto anche dell’ampiezza della classe. Nell’esempio i rettangoli hanno tutti la stessa base e quindi sono le altezze ad essere proporzionali alle frequenze.
Andamento delle iscrizioni
0
500
1000
1500
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
anno scolastico
num
ero
di is
critt
i
Diagrammi a torta
• Diagrammi a torta (o a settori circolari):
si divide un cerchio in settori ciascuno dei quali ha un’area (ovvero l’angolo al centro) proporzionale alla frequenza corrispondente.
Letture preferite
300
175200
150
175
Narrativa
Fantascienza
Giallo
Storica
Scientifica
I valori di sintesi
Spesso è utile descrivere una distribuzione di dati statistici mediante pochi valori sintetici che possono consentire di:•Confrontare analisi effettuate in tempi e luoghi diversi •Farci un’idea della variabilità dei dati.Per quanto riguarda il primo punto distinguiamo tra: Medie di calcolo : sono quelle che dipendono da tutti i valori della distribuzione e si ottengono mediante una formula (con la condizione di lasciare invariato un risultato operato sui dati) Medie di posizione: si ottengono considerando solo alcuni valori della distribuzione.
Media aritmetica semplice e ponderata
• La media aritmetica è quel valore che sostituito ai dati lascia invariata la loro somma.
• Se i dati sono singoli si parla di media aritmetica semplice:
n
XM
ni
ii
1
Esempio
Se i tuoi voti sono:
5,7,8,3,5,6,7,7,7,5
Allora
n=10
10
1
605777653875i
iiX
610
60
10
1
n
XM i
i
• Se ad ogni valore è associata una frequenza allora si parla di :
media aritmetica ponderata:
• Dove pi sono le frequenze associate al dato i-mo
ni
ii
ni
iii
p
pXM
1
1
Esempio di calcolo di una media aritmetica ponderata:
Dato Frequenza Dato x freq.
X p Xp
3 2 6
4 4 16
5 5 25
7 3 21
8 5 40
10 1 10
totali 20 118
M=118/20= 5,9
Classe Valore Frequenza Dato x freq.
da a centrale p Xp
0 5 2,5 2 5
5 10 7,5 4 30
10 15 12,5 5 62,5
15 20 17,5 3 52,5
20 30 25 5 125
30 50 40 1 40
totali 20 315
M=315/20= 15,75
Calcolo di una media aritmetica con dati divisi per classi
Medie di posizione
• Mediana.Se i dati sono ordinati in senso non decrescente la
mediana è il valore centrale ossia il valore che supera la prima metà dei valori ed è superato dall’altra metà.
• Moda E’ il valore al quale corrisponde la frequenza più
alta.
….non ci addentriamo oltre nel calcolo delle medie di posizione
Indici di variabilità
• I valori medi non sono sufficienti a darci un’idea della distribuzione dei dati attorno al valore medio. Distribuzioni diverse possono avere la stessa media ma dati molto diversi tra di loro e diversi dal valore medio.
• Per quantificare la variabilità di una distribuzione si utilizzano alcuni indici di variabilità.
Ne vedremo solo alcuni….
Intervallo di variazione
• Non è altro che la differenza tra il valore massimo ed il valore minimo della distribuzione.
• Per esempio nella tabella riportata a lato l’intervallo di variazione è pari a (10-3)=7
Dato
X
3
4
5
7
8
10
Varianza a scarto quadratico medio
• Se definiamo scarto di un valore dalla media aritmetica la differenza di quel valore dalla media stessa, allora
• La Varianza è il valore medio degli scarti al quadrato
• Lo Scarto quadratico medio è la radice quadrata della varianza
….Vedremo nelle prossime diapositive due esempi di calcolo della varianza e dello s.q.m.
Calcolo della varianza e dello scarto quadratico medio nel caso di dati singoli
Voti Scarti Scarti ^2
5 -1 1
7 1 1
8 2 4
3 -3 9
4 -2 4
6 0 0
9 3 9
somma 42 0 28
media=42/7= 6
Varianza=28/7= 4
S.q.m.= radq(4)= 2
Calcolo della varianza e dello scarto quadratico medio nel caso di dati con frequenze diverse
Dato FrequenzaDato x
freq. Scarti Scarti x p Scarti^2Scarti^2 x
p
X p Xp v vp v^2 v^2p
3 2 6 -2,9 -5,8 8,41 16,82
4 4 16 -1,9 -7,6 3,61 14,44
5 5 25 -0,9 -4,5 0,81 4,05
7 3 21 1,1 3,3 1,21 3,63
8 5 40 2,1 10,5 4,41 22,05
10 1 10 4,1 4,1 16,81 16,81
totali 20 118 1,6 0 35,26 77,80
M=118/20= 5.9
Varianza = 77.80/20= 3.89
S.q.m.= radq(3.89)=1.97
Buon lavoro da parte del vostro prof. !!!