CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che...

24
CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Statistica_Appunti_1 1/24 I DATI STATISTICI LA STATISTICA DESCRITTIVA La Statistica si occupa dei modi di raccogliere e analizzare dati relativi ad un certo gruppo di persone (gli studenti di una scuola, gli abitanti di un quartiere, gli elettori di una regione, …) o di oggetti (le automobili, i dischi, i libri, …), per trarne conclusioni e fare previsioni. La fasi fondamentali di un’indagine statistica sono quindi: - rilevamento dei dati - elaborazione dei dati Il gruppo preso in considerazione viene detto popolazione. Spesso viene presa in esame soltanto una parte della popolazione, detta campione, scelta in modo che rappresenti l’intero gruppo. Poiché la raccolta dei dati di tipo globale è molto costosa, la maggior parte della raccolta dati è di tipo campionario. I CARATTERI QUALITATIVI E I CARATTERI QUANTITATIVI Gli elementi di una popolazione si chiamano unità statistiche. E’ possibile studiare diverse caratteristiche di tali unità e ogni caratteristica rappresenta un carattere della popolazione. I caratteri possono essere di due tipi: qualitativi quantitativi Per esempio, se scegliamo come unità statistiche gli studenti di una scuola, alcuni caratteri qualitativi sono il sesso, il paese di provenienza, il mezzo di trasporto usato per raggiungere la scuola; sono invece caratteri quantitativi l’età, il peso, la statura. Ogni carattere vien descritto mediante le modalità con cui esso si può manifestare. Ad esempio: - il carattere sesso ha due modalità: maschile e femminile - il carattere mezzo di trasporto ha più modalità: treno, autobus, scooter, … - anche il carattere età ha più modalità: 14, 15, 16, … (se espresso in anni). TABELLE DI FREQUENZA In un compito in classe di matematica gli alunni hanno ottenuto i seguenti voti 5, 6, 6, 6, 5, 8, 6, 5, 5, 4, 7, 8, 7, 7, 4, 5, 6, 7, 7, 9 Dalla lettura di questa sequenza è difficile trarre informazioni perché i risultati si susseguono in modo disordinato. Costruiamo allora la tabella, dove nella prima colonna mettiamo le diverse modalità. Nella seconda colonna indichiamo le volte (occorrenze) in cui il voto si presenta. modalità frequenza 4 2 5 5 6 5 7 5 8 2 9 1 totale 20

Transcript of CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che...

Page 1: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 1/24

I DATI STATISTICI LA STATISTICA DESCRITTIVA La Statistica si occupa dei modi di raccogliere e analizzare dati relativi ad un certo gruppo di persone (gli studenti di una scuola, gli abitanti di un quartiere, gli elettori di una regione, …) o di oggetti (le automobili, i dischi, i libri, …), per trarne conclusioni e fare previsioni. La fasi fondamentali di un’indagine statistica sono quindi: - rilevamento dei dati - elaborazione dei dati Il gruppo preso in considerazione viene detto popolazione. Spesso viene presa in esame soltanto una parte della popolazione, detta campione, scelta in modo che rappresenti l’intero gruppo. Poiché la raccolta dei dati di tipo globale è molto costosa, la maggior parte della raccolta dati è di tipo campionario. I CARATTERI QUALITATIVI E I CARATTERI QUANTITATIVI Gli elementi di una popolazione si chiamano unità statistiche. E’ possibile studiare diverse caratteristiche di tali unità e ogni caratteristica rappresenta un carattere della popolazione. I caratteri possono essere di due tipi:

• qualitativi • quantitativi

Per esempio, se scegliamo come unità statistiche gli studenti di una scuola, alcuni caratteri qualitativi sono il sesso, il paese di provenienza, il mezzo di trasporto usato per raggiungere la scuola; sono invece caratteri quantitativi l’età, il peso, la statura. Ogni carattere vien descritto mediante le modalità con cui esso si può manifestare. Ad esempio: - il carattere sesso ha due modalità: maschile e femminile - il carattere mezzo di trasporto ha più modalità: treno, autobus, scooter, … - anche il carattere età ha più modalità: 14, 15, 16, … (se espresso in anni). TABELLE DI FREQUENZA In un compito in classe di matematica gli alunni hanno ottenuto i seguenti voti 5, 6, 6, 6, 5, 8, 6, 5, 5, 4, 7, 8, 7, 7, 4, 5, 6, 7, 7, 9 Dalla lettura di questa sequenza è difficile trarre informazioni perché i risultati si susseguono in modo disordinato. Costruiamo allora la tabella, dove nella prima colonna mettiamo le diverse modalità. Nella seconda colonna indichiamo le volte (occorrenze) in cui il voto si presenta. modalità frequenza

4 2 5 5 6 5 7 5 8 2 9 1

totale 20

Page 2: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 2/24

Definiamo il numero delle volte che il dato si presenta frequenza. L’insieme delle coppie ordinate di cui il primo elemento è la modalità e il secondo la frequenza corrispondente viene detto distribuzione di frequenza. Più spesso interessa il valore della frequenza confrontato con il numero totale delle unità statistiche. Per questo motivo viene calcolata la frequenza relativa che è definita come il rapporto fra la frequenza e il numero totale delle unità statistiche. La frequenza relativa può anche essere espressa anche in percentuale, moltiplicandola per cento. La tabella seguente riassume le frequenze relative delle modalità dell’esempio precedente modalità frequenza frequenza

relativa frequenza relativa %

4 2 0,1 10% 5 5 0,25 25% 6 5 0,25 25% 7 5 0,25 25% 8 2 0,1 10% 9 1 0,05 5%

totale 20 1 100% Si noti che qualora vengano fornite le frequenze relative if e il numero totale T delle unità

statistiche, è possibile calcolare le frequenze iF di ogni modalità. Infatti essendo

T

Ff i

i = , conoscendo if e T, possiamo ricavare TfF ii ⋅=

Inoltre dalla definizione di frequenza relativa risulta che - la frequenza relativa è un numero compreso tra 0 e 1, 10 ≤≤ if

- la somma di tutte le frequenze relative di una distribuzione è uguale all’unità (condizione di normalizzazione)

111

11

=⋅== ∑∑==

nn

fnn

f n

ii

n

i

i

Page 3: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 3/24

LE CLASSI DI FREQUENZA Studiamo i risultati ottenuti da un gruppo di studenti che, nell’ora di educazione fisica, hanno eseguito una prova di salto in lungo da fermo 1,36 1,46 1,62 1,54 1,94 1,85 1,75 1,88 1,61 1,90 1,65 1,53 1,36 1,67 1,40 1,60 1,50 1,67 1,65 1,78 2,12 1,86 In casi come questo, casi nei quali in genere le modalità dei caratteri qualitativi sono valori continui, è utile raggruppare le modalità in classi, determinando la frequenza di ogni classe. Nella tabella seguente consideriamo cinque classi

classi frequenza frequenza relativa

1,20 – 1,40 2 0,09 1,40 – 1,60 6 0,27 1,60 – 1,80 8 0,36 1,80 – 2,00 5 0,23 2,00 – 2,20 1 0,5

totale 22 1 In tali casi di ogni classe è spesso utile calcolare il valore centrale, che si ottiene dividendo per 2 la somma degli estremi della classe. FREQUENZE CUMULATE E’ spesso utile indicare nelle tabelle di frequenza le frequenze cumulate: esse sono calcolando sommando le frequenze delle modalità. Si ottiene dunque, nel nostro esempio, la tabella

classi frequenza frequenza cumulata

frequenza relativa %

frequenza relativa % cumulata

1,20 – 1,40 2 2 9% 9% 1,40 – 1,60 6 8 27% 36% 1.60 – 1,80 8 16 36% 72% 1,80 – 2,00 5 21 23% 95% 2,00 – 2,20 1 22 5% 100%

totale 22

Page 4: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 4/24

LE SERIE STATISTICHE Le tabelle ch riportano nella prima colonna le modalità di un carattere qualitativo vengono dette serie statistiche Nella seconda colonna compare o la misura della modalità quantitativa (intensità) o il numero delle volte col quale essa si presenta (frequenza). La tabella seguente riporta per quattro imprese il fatturato annuo impresa fatturato

(euro) A 57300 B 48000 C 63300 D 32200 In tali distribuzioni se nella prima colonna sono riportati dei periodi di tempo, si hanno le serie storiche. Se i periodi di tempo si ripetono nel tempo, le serie storiche sono dette serie cicliche. Nelle serie storiche la seconda colonna spesso riporta non la frequenza ma l’intensità di un fenomeno (pesi, valori monetari, …) Di seguito sono riportate due esempi di serie storiche: la seconda è una serie ciclica

anno prezzo (euro)

1995 5,81 1996 6,41 1997 6,61 1998 6,21 1999 6,81

giorno vendite (kg)

Lunedì 240 Martedì 310

Mercoledì 185 Giovedì 170 Venerdì 280 Sabato 135

Page 5: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 5/24

SERIAZIONI STATISTICHE Le tabelle che riportano nella prima colonna un carattere quantitativo vengono dette seriazioni statistiche. Nella seconda colonna compare la frequenza, cioè il numero delle volte col quale si presenta la relativa modalità. L’insieme delle modalità di un carattere quantitativo, alle quali è associata la loro frequenza, definisce una variabile statistica Studiamo per esempio la numerosità dei nuclei familiari degli studenti di una classe numero studente

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

numero componenti

4 3 3 4 4 5 3 4 3 2 2 3 4 5 4 4 2 3 3 4

Otteniamo la distribuzione di frequenza

Numero componenti frequenza 2 2 3 10 4 8 5 2

totale 22

Page 6: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 6/24

LA RAPPRESENTAZIONE DEI DATI ORTOGRAMMA Data la tabella seguente di distribuzione di frequenze di modalità qualitative, riportiamo le frequenze su un asse verticale e sull’asse orizzontale tanti segmenti, della stessa lunghezza, quante sono le modalità

0

1

2

3

4

5

6

7

8

9

10

A B C D E

ISTOGRAMMA Dalla tabella seguente di distribuzione di frequenze di caratteri quantitativi con le modalità raggruppati in classi, riportiamo sull’asse orizzontale i valori estremi delle classi ottenendo così dei segmenti le cui lunghezze rappresentano le ampiezze degli intervalli. Disegniamo poi dei rettangoli che hanno per base i segmenti e la cui area è proporzionale alla frequenza della classe. Se le classi hanno tutti la stessa ampiezza, come per l’ortogramma, è sufficiente prendere rettangoli con le altezze proporzionali alle frequenze

classi frequenza 1,20 – 1,40 2 1,40 – 1,60 6 1,60 – 1,80 8 1,80 – 2,00 5 2,00 – 2,20 1

modalità frequenza A 7 B 3 C 9 D 4 E 5

1,20 1,40 1,60 1,80 2,00 2,20

1

3

5

7

9

Page 7: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 7/24

Consideriamo la seguente tabella che riporta classi di frequenza con ampiezza diversa. Le altezze dei rettangoli si ottengono dividendo ogni frequenza if per la relativa ampiezza della

classe ix , ottenendo così la densità di frequenza i

i

x

f

classi frequenza densità

frequenza 1,20 – 1,50 5 16,67 1,50 – 1,60 3 30,00 1,60 – 1,70 6 60,00 1,70 – 1,90 6 30,00 1,90 – 2,20 2 6,67

Pertanto la frequenza di ogni classe si ottiene moltiplicando l’ampiezza dell’intervallo per l’altezza del rettangolo

i

iii x

fxf ⋅=

ed è rappresentata dall’area del rettangolo che ha per base l’ampiezza dell’intervallo e per altezza la densità di frequenza. L’AREOGRAMMA Questo tipo di grafico, detto anche diagramma circolare o diagramma a torta è utile per rappresentare le frequenze relative espresse in percentuale. Un cerchio viene suddiviso in tanti settori circolari, ognuno dei quali corrisponde ad una modalità di un carattere. Gli angoli al centro dei diversi settori hanno ampiezza proporzionale alle frequenze percentuali.

modalità frequenza percentuale

A 20% B 15% C 15% D 10% E 40%

A

20%

B 15%

C

15%

D

10%

E 40%

1,20 1,50 1,60 1,70 1,90 2,20

6,67

16,67

30

60

Page 8: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 8/24

I DIAGRAMMI CARTESIANI Si usa questo tipo di rappresentazione per le seriazioni statistiche aventi modalità quantitativa discreta e per le serie storiche. Riportiamo sull’asse delle ascisse i valori della modalità discreta e sull’asse delle ordinate le frequenze. Si può costruire il diagramma semplicemente segnando i punti. L’insieme dei punti si chiama nuvola di punti

0

1

2

3

4

5

3 4 5 6 7 8 9

Si possono anche evidenziare i segmenti corrispondenti alle ordinate dei punti. Il diagramma è chiamato diagramma a segmenti

0

1

2

3

4

5

3 4 5 6 7 8 9

Si può anche collegare i punti allo scopo di evidenziare l’andamento del fenomeno: si ottiene così il poligono delle frequenze che fa risaltare la forma della distribuzione

0

1

2

3

4

5

3 4 5 6 7 8 9

modalità frequenze 4 1 5 2 6 4 7 2 8 1

Page 9: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 9/24

GLI INDICI DI POSIZIONE CENTRALE In statistica si cerca di riassumere una serie di dati con un valore medio (compreso tra il minimo e il massimo valore della distribuzione) che possa esprimere sinteticamente il fenomeno. Esistono medie algebriche (o medie ferme) che si determinano tenendo conto di tutti i valori della distribuzione (media aritmetica, media aritmetica ponderata, media geometrica, media armonica e media quadratica) e medie di posizione che si calcolano tenendo conto solo di alcuni valori (mediana e moda) MEDIA ARITMETICA Si definisce media aritmetica M di n numeri nxxx ,...,, 21 il quoziente fra la loro somma e il

numero n

n

x

n

xxxM

n

ii

n∑

==++

= 121 ...

Ad esempio per la serie di dati 61, 60, 62, 62, 64, 64, 63, 65, 65, 65, 65, 67, 67, 69, 68, 68, 66, 66, 69, 66 la media aritmetica è

1,6420

66696666...64626061 =++++++++=M

Se consideriamo la tabella di frequenza dei dati sopra elencati

classi modalità

frequenze

60 – 62 2 62 – 64 3 64 – 66 6 66 – 68 5 68 - 70 4

notiamo che la media, utilizzata come valore di sintesi, ossia valore che riassume una caratteristica di un insieme di dati, si trova nella zona della distribuzione dove si addensano maggiormente i dati. Quando il valore di sintesi ha questa proprietà si dice che è un buon indice di posizione centrale.

Page 10: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 10/24

MEDIA PONDERATA Consideriamo la tabella relativa ai voti di una classe ottenuti in un compito e calcoliamo la media voto frequenza

4 2 5 7 6 8 7 3 8 2

totale 22

82,522

887777766666666555555544 =+++++++++++++++++++++++=M

Al numeratore si può anche scrivere, raccogliendo in gruppi i voti uguali 2837867524 ⋅+⋅+⋅+⋅+⋅

La media allora è

82,522

2837867524 =⋅+⋅+⋅+⋅+⋅=P

Le frequenze rappresentano i diversi “pesi” che devono avere i singoli voti nel calcolo della media. La media così calcolata è detta media aritmetica ponderata Se si calcola la media ponderata nel caso di classi, si assumono come valori nxxx ,...,, 21

i valori centrali di ogni classe e come pesi le frequenze. Il valore ottenuto può essere diverso dalla media aritmetica Per la tabella di frequenza in classi

classi frequenza 1,20 – 1,40 2 1,40 – 1,60 6 1,60 – 1,80 8 1,80 – 2,00 5 2,00 – 2,20 1 la media ponderata è

673,122

110,2590,1870,1650,1230,1 =⋅+⋅+⋅+⋅+⋅=P

Il valore ottenuto può essere diverso, anche se di poco, dalla media semplice in quanto in ogni classe si è sostituito ai valori della classe il valore centrale. La media ponderata è particolarmente significativa quando i pesi servono per indicare l’ importanza dei diversi valori

Page 11: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 11/24

n volte

Osserviamo che la media aritmetica indica che se i dati avessero lo stesso valore questo sarebbe uguale alla media. La somma totale dei dati è uguale al numero dei dati moltiplicato per la media. Infatti dalla

n

xM

n

ii∑

== 1 si ha che ∑=

=n

ii nMx

1

La media aritmetica possiede diverse proprietà P1. sommando ad ogni dato i x di una distribuzione con media M una costante k, la media risultante aritmetica risulta aumentata della stessa costante M + k P2. moltiplicando ogni dato i x di una distribuzione con media M per una costante k, la media aritmetica risulta moltiplicata per la stessa costante k ⋅M P3. come conseguenza delle precedenti proprietà, sommando b e moltiplicando per a ogni dato i x di una distribuzione la media aritmetica risulta a ⋅M + b Inoltre definiti: valor medio di un insieme di dati statistici quantitativi qualunque valore dal minimo al massimo dei dati ; scarti (o scostamenti) le differenze (positive, nulla o negative) fra ciascun di ciascun dato ix

e un loro valor medio M, Mx −1 , Mx −2 , …., Mxn −

si hanno le ulteriori proprietà P4. la somma algebrica degli scarti dalla media aritmetica vale zero. Infatti ( ) ( ) ( ) MMMxxxMxMxMx nn −−−−+++=−++−+− ........... 2121

e poiché Mnxxx n ⋅=+++ ...21

si ha 0=⋅−⋅ MnMn In notazione abbreviata

( )∑ ∑∑= ==

=⋅−⋅=−=−n

i

n

i

n

iii MnMnMxMx

1 11

0

P5. la somma dei quadrati degli scarti è minima quando gli scarti sono calcolati dalla media aritmetica M .

( ) ( )∑ ∑= =

−≤−n

i

n

iii AxMx

1 1

Ciò significa che se si calcolano gli scarti, anziché dalla media aritmetica M, da un altro numero qualunque A, la somma dei quadrati di tali scarti risulta maggiore.

Page 12: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 12/24

MEDIA GEOMETRICA Si definisce media geometrica G (o GM ) di n numeri 1x , 2x , …, nx la radice n-esima

aritmetica del prodotto degli n numeri

nnxxxG ⋅⋅⋅⋅= 21

La media geometrica è di uso meno frequente della media aritmetica. In ogni caso viene usata quando il carattere è moltiplicativo e si debba determinare una distribuzione uniforme dei suoi valori, senza alterarne il prodotto. Ad esempio quando si considera il variare di un fenomeno nel tempo come il tasso di variazione dei prezzi, dei componenti di una popolazione (essere umani, insetti, ecc.), tassi di rendimento dei capitali. Esempio. Calcoliamo la media geometrica dell’andamento dei prezzi di un prodotto esposto nella tabella Anno Prezzo Rapporto

rispetto l’anno precedente

2005 5,8 - 2006 6,4 1,103 2007 6,6 1,031 2008 6,2 0,939 2009 6,8 1,097

040,1097,1939,0031,1103,14 ≅⋅⋅⋅=G

Ciò significa che se il rapporto del prezzo di un periodo rispetto a quello precedente fosse costantemente circa 1,040 il prodotto di tutti i rapporti sarebbe stato invariato. Infatti 040,1040,1040,1040,1097,1939,0031,1103,1 ⋅⋅⋅=⋅⋅⋅ MEDIA GEOMTRICA PONDERATA Dati n numeri positivi nxxx ,...,, 21 aventi come frequenze rispettivamente nfff ,...,, 21 , con

nfff n =++ ...21 si definisce la loro media geometrica ponderata il numero

n f

nff nxxx ⋅⋅⋅⋅ 2121

Page 13: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 13/24

MEDIA ARMONICA Si definisce media armonica H di n numeri 1x , 2x , …, nx il reciproco della media aritmetica

dei reciproci dei valori

nn xxx

n

n

xxx

H1

...111

...11

1

2121

+++=

+++=

La media armonica si calcola per valori 1x , 2x , …, nx tutti positivi.

Vediamo un esempio dell’utilità dell’utilizzo della media armonica Esempio. La tabella riporta prezzo di un litro di benzina in quattro successivi momenti. Ogni volta si è effettuato un rifornimento per 30 euro. Calcoliamo quanto è costata in media la benzina al litro. Tempo Prezzo

I 1,382 II 1,395 III 1,405 IV 1,442

Per rispondere in modo corretto si deve prima calcolare quanti litri di benzina si sono acquistati ogni volta, dividendo per 30 per il prezzo al litro ottenendo i valori della tabella Tempo Prezzo Litri

acquistati I 1,382 21,71 II 1,395 21,51 III 1,405 21,35 IV 1,442 20,80

Dunque in totale si sono acquistati 85,37 litri spendendo 120 euro. Pertanto il costo al litro è stato

406,137,85

120 ≅

Allo stesso risultato saremmo giunti calcolando la media armonica dei prezzi:

406,1

442,1

1

405,1

1

395,1

1

382,1

14 ≅

+++=H

Page 14: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 14/24

MEDIA ARMONICA PONDERATA Dati n numeri 1x , 2x , …, nx , tutti diversi da zero, aventi come frequenze

rispettivamente nfff ,...,, 21 , si definisce la loro media armonica ponderata il rapporto

n

n

n

n

x

f

x

f

x

ffff

+++

+++

...

...

2

1

1

21

Page 15: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 15/24

MEDIA QUADRATICA Si definisce media quadratica qM di n numeri 1x , 2x , …, nx la radice quadrata della media

aritmetica dei quadrati dei numeri

n

xxxM n

q

222

21 ....+++

=

La media quadratica utilizzata per calcolare il valore medio degli scostamenti da un livello prefissato. Esempio. La tabella Giorno Variazione

lunedì -2,5 martedì 1,5 mercoledì 0,8 Giovedì -1,5 Venerdì -2,4 Totale riporta le variazioni della temperatura in gradi Celsius relative ad alcuni giorni di una settimana rispetto alla temperatura media annuale. Calcoliamo il valore della variazione media. Allo scopo si sono calcolate le variazioni al quadrato che si sono riportati nella tabella seguente Giorno Variazione Variazioni

al quadrato

lunedì -2,5 6,25 martedì 1,5 2,25 mercoledì 0,8 0,64 Giovedì -1,5 2,25 Venerdì -2,4 5,76 Totale 17,15 La media quadratica risulta

85,15

5,17 ≅=qM

In generale le diverse medie fin qui viste, relative allo stesso insiemi di numeri, sono diverse fra loro. Si può infatti dimostrare che, se i dati non sono tutti uguali e sono positivi, vale la relazione

qMMGH <<<

Page 16: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 16/24

LA MEDIANA Le medie finora viste sono dette medie algebriche perché si calcolano mediante operazioni algebriche. In statistica però si considerano anche valori medi, caratteristiche di una distribuzione, che non provengono dal calcolo, bensì dall’esame della posizione dei dati nella distribuzione stessa. Consideriamo i valori 8, 12, 7, 9, 4, 10, 55 la cui media risulta

157

5510497128 =++++++=M

15 non rappresenta un buon indice di posizione centrale in quanto tutti i numeri, tranne 55, sono minori di 15. La presenza del 55 “sposta” il valor medio rispetto la posizione centrale. Si preferisce allora scegliere l’indice di posizione centrale nel seguente modo: - si dispongono i numeri in ordine crescente (o decrescente) - si sceglie il valore che sta nel centro che è 9. Tale valore è detto mediana Si può determinare la mediana anche nel caso in cui il numero dei dati è pari. Per i numeri seguenti 36, 22, 41, 8, 33, 46, 38, 44 dopo averli disposti in ordine crescente 8, 22, 33, 36, 38, 41, 44, 46 si prende come mediana la media dei due valori centrali, 36 e 38. La mediana dunque è

372

3836 =+

La determinazione della mediana presenta qualche difficoltà quando i termini non sono elencati singolarmente ma in tabella di frequenza modalità frequenze frequenze

cumulate 0 3 3 1 8 11 2 7 18 3 4 22 4 1 23 5 1 24 6 1 25

Poiché il totale delle frequenze è 25, la mediana occupa il 13° posto. Dall’esame delle frequenze cumulate si rileva che il valore 2 occupa dal 12° al 18° posto della distribuzione di frequenze; pertanto la mediana è 2..

Page 17: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 17/24

Difficoltà ulteriore si incontra se le modalità quantitative si presentano in classi come nell’esempio seguente modalità frequenze frequenze

cumulate 0 – 10 73 73 10 – 20 240 313 20 - 30 190 503 30 – 40 121 624 40 - 50 32 656 50 - 60 5 661

Si introduce l’ipotesi che i valori delle frequenze si distribuiscano uniformemente in ogni intervallo. La mediana è il valore che occupa il 331° posto e si colloca nella classe 20 e 30. Dalle frequenze cumulate rileviamo che il 313° posto è 20 e il valore cercato occupa all’interno della classe la posizione numero 331 – 313 = 18 Dividiamo l’intervallo della classe per la sua frequenza

0526,0190

10 =

Il 18-esimo elemento della classe pertanto avrà valore 9468,20180526,020 =⋅+

Che può essere preso, approssimandolo a 20,9. come valore della mediana. A volte, in distribuzioni con modalità raccolte in classi, si considera come approssimazione della mediana il valore di centrale della classe che occupa il posto centrale della distribuzione, che risulta dunque essere la classe mediana. Con riferimento alla distribuzione dell’esempio precedente, il cui posto centrale è il 331°, dalle frequenze cumulate si deduce che la classe “20 – 30” occupa dal 314° al 503° posto, dunque tale classe è la classe mediana. Allora si assume come valore approssimato di mediana il valore centrale di tale classe:

252

3020 =+

Page 18: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 18/24

LA MODA Consideriamo i seguenti valori 3, 8, 2, 3, 5, 1, 7, 3, 5, 3, 15, 2, 10, 3, 12, 4 e ordiniamoli in senso crescente 1, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 7, 8, 10, 12, 15 Il valore 3 ha una frequenza maggiore rispetto a tutti gli altri e vicino al 3 si trovano molti degli altri valori. In questo caso si preferisce assumere come indice di posizione centrale tale numero, che viene chiamato moda. Ci sono serie di dati che hanno più di una moda Ad esempio la distribuzione voto 4 5 6 7 8 frequenza 2 9 3 9 2 risulta bimodale. Si può calcolare la moda anche nel caso di distribuzioni di frequenza i cui valori sono raggruppati in classi. In tale caso si parla di classe modale. Nel caso in cui le classi siano di ampiezza costante la classe modale è quella avente la frequenza massima. Nel caso di classi non aventi ampiezza costante, la classe modale è quella avente maggiore il rapporto tra la frequenza e l’ampiezza della classe (densità di frequenza) classi frequenza 0 – 10 73 10 – 20 240 20 – 30 190 30 – 40 121 40- 50 32 50 - 60 5 classi frequenze densità 0 – 10 73 7,3 10 – 15 106 21,2 15 – 20 134 26,8 20 – 25 143 28,6 25 – 35 158 15,8 35 – 45 35 3,5 45 - 60 12 0,8

Page 19: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 19/24

Osservazione sull’utilizzo delle medie Quando si parla di valor medio è necessario saper con precisione a quale tipo di media ci si riferisce e bisogna prefissare lo scopo per cui si intende calcolare una media.

• La media aritmetica si usa in situazioni come le seguenti:

- in meteorologia per ottenere la temperature media o la caduta media di precipitazioni; - in medicina per scoprire la durata media di una malattia; - in antropologia per scoprire certe caratteristiche di un insieme di essere umani; - in economia per calcolare salari medi, prezzi, ecc.

• La moda, che si considera come il valore più tipico di un insieme, non tiene però conto degli altri valori dei dati. Tuttavia anche se la moda è la media meno utile in statistica, qualche volta solo la moda è il valor medio più appropriato. Ad esempio un fabbricante di capi di vestiario è attrezzato per fare una sola taglia di camicie da uomo e deve scegliere la taglia. Se egli decide sulla base della media aritmetica delle taglie acquistate dagli uomini, non fa la scelta migliore in quanto per vendere più camicie avrebbe dovuto scegliere la moda, ovvero la taglia più comune.

• La mediana è un valore intermedio e non è influenzato dagli altri valori dei dati, ma soltanto dal fatto che essi siano sotto o sopra il centro dell’insieme dei dati. La mediana si usa in diverse ricerche statistiche fra cui: - nelle assicurazioni per trovare la lunghezza media della vita; - nello studio dei medicinali per misurare l’efficacia media di un medicinale; - nell’industria per controllare la qualità di certi prodotti

Page 20: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 20/24

GLI INDICI DI VARIABILITA’ Il calcolo della media serve solo per capire l’ordine di grandezza del fenomeno sintetizzandolo in un unico valore. Per una descrizione più completa è necessario studiare come variano i dati. Consideriamo le due sequenze di valori a) 12, 24, 32, 43, 56, 74, 88 b) 42, 43, 44, 46, 49, 52, 53 Per entrambe la media è 47. Tuttavia la distribuzione dei valori intorno al valor medio 47 è diversa per le due sequenze: i valori della seconda sequenza sono più vicini al valor medio, mentre quelli della prima sequenza sono più sparsi. In statistica per indicare questo fatto, si dice che le due sequenze hanno diversa dispersione o variabilità . Per misurare la variabilità si usano gli indici di variabilità quali il campo di variazione, lo scarto semplice medio e lo scarto quadratico medio. IL CAMPO DI VARIAZIONE Il campo di variazione di una sequenza di numeri è la differenza fra il numero maggiore e il numero minore. Nella sequenza a) il campo di variazione è 88 – 12 = 76; nella sequenza b) è 53 – 42 = 11 LO SCARTO SEMPLICE MEDIO (DALLA MEDIA ARITMETICA) Il campo di variazione non è un buon indice di variabile perché tiene conto soltanto del primo e dell’ultimo valore e non di quelli intermedi. Consideriamo altre due sequenze di numeri c) 1, 4, 5, 5, 6, 6, 7, 7, 7, 12 d) 1, 1, 1, 1, 2, 10, 10, 11, 11, 12 Esse hanno entrambe lo stesso valor medio 11. Tuttavia i valori della sequenza d) sono più lontani dal 6 di quelli della sequenza c). Cerchiamo un indice che permetta di rilevare questa differenza. Per ogni valore della sequenza c) calcoliamo lo scarto assoluto dalla media che è la differenza in valore assoluto fra il valore stesso e la media: |1- 6| = 5, |4 – 6| = 2, |5 – 6|= 1, |5 – 6| = 1, |6 – 6| = 0, |6 – 6| = 0 |7 – 6| = 1, |7 – 6| = 1, |7 – 6| = 1, |12 – 6| = 6

Page 21: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 21/24

Calcoliamola la media aritmetica degli scarti che chiamiamo scarto semplice medio

8,110

6111001125 =+++++++++=S

In generale per una sequenza di numeri 1x , 2x , …, nx lo scarto semplice medio è dato dalla

n

MxMxMxS n −++−+−

=...21

Lo scarto semplice medio e le frequenze Consideriamo di nuovo la sequenza d) 1, 1, 1, 1, 2, 10, 10, 11, 11, 12 Essa può essere descritta dalla tabella modalità frequenza

1 4 2 1 10 2 11 2 12 1

Nel calcolo dello scarto semplice ogni scarto assoluto dalla media va moltiplicato per la sua frequenza. Dunque

8,410

1625241445 =⋅+⋅+⋅+⋅+⋅=S

Le frequenze rappresentano i diversi “pesi” che devono avere i singoli scarti assoluti. In pratica si è calcolata la media ponderata degli scarti assoluti dalla media.

Page 22: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 22/24

LA VARIANZA E LO SCARTO QUADRATICO MEDIO ( O DEVIAZIONE STANDARD) Invece dello scarto semplice dalla media si utilizza più spesso lo scarto quadratico medio perché è un indice più sensibile del precedente , anche per piccole variazioni nella distribuzione dei dati intorno alla media. Consideriamo la sequenza di valori 4, 7, 9, 13, 14, 18, 21, 34 La cui media è 15 Per ogni valore calcoliamo lo scarto dalla media e lo eleviamo al quadrato: i valori che si ottengono vengono detti scarti quadratici (4 – 15)2 = 121; (7 – 15)2 = 64; (9 – 15)2 = 36; (13 – 15)2 = 4; (14 – 15)2 = 1 (18 – 15)2 = 9; (21 – 15)2 = 36; (34 – 15)2 = 361 Calcoliamo poi la media degli scarti quadratici chiamata varianza

798

361369143664121 =+++++++

Lo scarto quadratico medio, detto anche deviazione standard, si ottiene eseguendo la radice quadrata della varianza e si indica con la lettera greca “sigma”

8882,879 ==σ In generale per una serie di valori 1x , 2x , …, nx lo scarto quadratico medio (o deviano

standard è fornito dalla

( ) ( ) ( )n

MxMxMx n22

22

1 ... −++−+−=σ

dove M è la media aritmetica dei valori stessi P1. Sia k è un numero reale , se a tutti i numeri 1x , 2x , …, nx si aggiunge (o si toglie) k, la

varianza e la deviazione standard restano invariate. P2. Sia k è un numero reale , se tutti i numeri 1x , 2x , …, nx vengono moltiplicati per k,

allora: • la varianza dei nuovi numeri risulta moltiplicata per 2k ,

22 σ⋅k • la deviazione standard dei nuovi numeri ottenuti risulta moltiplicata per k ,

σ⋅k

Page 23: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 23/24

La varianza e le frequenze Consideriamo la tabella di frequenza seguente modalità frequenza

2 3 4 1 8 2 11 4

La media risulta

710

411281432 =⋅+⋅+⋅+⋅

Per il calcolo dello scarto quadratico medio si deve moltiplicare ogni scarto quadratico pr la frequenza dei valori. La varianza è allora

( ) ( ) ( ) ( )15

10

4711278174372 2222

=⋅−+⋅−+⋅−+⋅−

Anche in questo caso le frequenze rappresentano i diversi “pesi” che devono avere i singoli scarti: abbiamo calcolato quindi la media ponderata degli scarti quadratici. Il calcolo pratico della varianza può avvenire con la regola:

Se M è la media aritmetica dei dati e n

xM

n

ii∑

== 1

2

2 la media aritmetica dei quadrati dei dati ,

si ha: 2

22 MM −=σ

Infatti, poiché

( ) ∑∑ ∑ ∑∑ ∑ ∑== = == = =

=+−=+−=−n

i

n

i

n

i

n

ii

n

i

n

i

n

iiii MxMxMMxxMx

1

2

1 1 1

21

2

1 1 1

22 22

2

1 1

222 2 nMxnMnMMxn

i

n

iii −=+⋅−=∑ ∑

= =

si ha

( )∑ ∑= =

−=−n

i

n

iii nMxMx

1 1

222 e dividendo per n si ottiene

( )21

22

1

2

Mn

x

n

Mxn

ii

ii

−=− ∑∑

== c.d.d.

Page 24: CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di …€¦ · Definiamo il numero delle volte che il dato si presenta frequenza . L’insieme delle coppie ordinate di cui il primo

CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica

Statistica_Appunti_1 24/24

Coefficiente di variazione La varianza e la deviazione standard sono indici che dipendono dall’unità di misura e dall’ordine di grandezza dei dati. Per eseguire il confronto fra la variabilità di due fenomeni, occorre utilizzare una misura della variabilità “depurata” dall’influenza dell’unità di misura e dall’ordine di grandezza dei dati. Questo obiettivo si raggiunge costruendo il rapporto tra la deviazione standard e un valore che sintetizzi l’ordine di grandezza delle modalità del fenomeno osservato e che sia espresso nella medesima unità di misura: il valore che soddisfa queste proprietà è la media aritmetica. In definitiva si definisce il seguente indice, detto coefficiente di variazione:

MCv

σ=

dove σ e M sono rispettivamente lo scarto quadratico medio e la media di un insieme di dati.