La statisti a è la s ienza he studia l’andamento di un ... · Molto utile per Classe di la...

18

Transcript of La statisti a è la s ienza he studia l’andamento di un ... · Molto utile per Classe di la...

La statistica è la scienza che studia l’andamento di un fenomeno collettivo, indagando sulla popolazione interessata a tale fenomeno in relazione a una o più caratteristiche, le variabili, che possono essere qualitative o quantitative.

Sono variabili qualitative, per esempio, il sesso, lo stato civile, il titolo di studio, la nazionalità, la professione ecc.

Sono variabili quantitative, per esempio, l’età, la statura, il peso, il numero dei figli, i voti di un esame ecc.

A dati discreti A dati continui

• n° casi accertati di una malattia

• n° figli per una famiglia

• Statura di un gruppo di persone

• Voti riportati a un esame

In un’indagine possiamo avere:

Nazionalità

Italiana

Francese

Spagnola

Tedesca

…………

a dati discreti

Numero figli

0

1

2

…….

a dati continui

Peso (in Kg)

40

40,5

40,59

………

La fase più importante di un’indagine statistica è l’elaborazione dati, che prevede:

• Il calcolo della frequenza assoluta, relativa e percentuale;

• Il riscontro della moda;

• La rappresentazione grafica dei dati.

Se l’indagine riguarda una variabile quantitativa, l’elaborazione dati prevede:

• Il calcolo della frequenza assoluta, relativa e percentuale;

• Il riscontro della moda;

• Il calcolo della mediana;

• Il calcolo della media aritmetica e della deviazione;

• La rappresentazione grafica dei dati.

L’indagine in questo caso prevede:

• Il raggruppamento in classi dei dati;

• Il calcolo della distribuzione di frequenza assoluta, relativa e percentuale;

• Il riscontro della classe modale;

• Il calcolo della mediana;

• Il calcolo della media aritmetica e della deviazione;

• La rappresentazione grafica dei dati.

Indagine sul fenomeno “altezza (in metri) delle matricole di una facoltà universitaria”, svolta su un campione di 60 universitari del 1° anno.

1,50 1,60 1,65 1,70 1,66 1,57 1,71 1,67 1,67 1,75

1,61 1,76 1,58 1,77 1,62 1,79 1,70 1,55 1,78 1,74

1,72 1,57 1,62 1,68 1,85 1,65 1,85 1,73 1,58 1,73

1,65 1,76 1,66 1,61 1,71 1,54 1,70 1,54 1,68 1,74

1,80 1,69 1,81 1,59 1,66 1,81 1,61 1,65 1,60 1,80

1,72 1,64 1,73 1,68 1,82 1,63 1,69 1,69 1,82 1,85

Questi dati sono quasi tutti diversi fra loro e non avrebbe senso considerarli così come sono; la prima elaborazione che dobbiamo fare consiste nel raggruppamento in classi.

Riscriviamo i numeri in ordine crescente:

1,50 1,54 1,54 1,55 1,57 1,57 1,58 1,58 1,59 1,60

1,60 1,61 1,61 1,62 1,62 1,63 1,64 1,65 1,65 1,65

1,65 1,65 1,66 1,66 1,66 1,67 1,67 1,68 1,68 1,68

1,69 1,69 1,69 1,70 1,70 1,70 1,71 1,71 1,72 1,72

1,73 1,73 1,73 1,74 1,74 1,75 1,76 1,76 1,77 1,78

1,79 1,80 1,80 1,81 1,81 1,82 1,82 1,85 1,85 1,85

• Consideriamo l’intervallo numerico fra il dato più piccolo e quello più grande, cioè fra l’altezza minima e quella massima ; esso rappresenta il campo di variazione della variabile statistica considerata.

• Consideriamo gli estremi del campo di variazione ed eseguiamo la loro differenza, cioè (1,85 – 1,50)m=0,35 m; otteniamo l’ampiezza del raggruppamento di tutti i dati.

• Suddividiamo l’ampiezza in opportuni intervalli uguali, per esempio otto, (0,35:8)m=0,04.

85,150,1

Consideriamo le otto classi di altezze che si ottengono:

1ª classe:

2ª classe:

3ª classe:

4ª classe: 8ª classe:

7ª classe:

6ª classe:

5ª classe:

mm 69,1 65,1

; 54,1 50,1 mm

mm 59,1 55,1

mm 64,1 60,1

mm 74,1 70,1

mm 79,1 75,1

mm 84,1 80,1

mm 89,1 85,1

Abbiamo così ottenuto il raggruppamento in classi dei nostri dati,esattamente il raggruppamento in 8 classi di ampiezza 0,04 m.

Tabuliamo adesso i nostri dati in una tabella che riporti le otto classi, la frequenza di ogni classe, che prende il nome di distribuzione di frequenza, la frequenza relativa e la frequenza percentuale.

Classe di

altezza

Frequenza Frequenza

relativa

Frequenza

percentuale

3 3/60=0,05 5%

6 6/60=0,1 10%

9 9/60=0,15 15%

15 15/60=0,25 25%

12 12/60=0,2 20%

6 6/60=0,1

10%

6 6/60=0,1 10%

3 3/60=0,05 5%

; 54,1 50,1 mm

mm 59,1 55,1

mm 64,1 60,1

mm 69,1 65,1

mm 74,1 70,1

mm 79,1 75,1

mm 84,1 80,1

mm 89,1 85,1

Continuiamo l’elaborazione dei dati della nostra indagine considerando gli altri momenti di questa fase.

• La classe che presenta il maggior numero di frequenze, viene detta classe modale. Nel nostro caso, la classe modale è che presenta il massimo delle frequenze (15, 0,25, 25%).

• Altro valore significativo dell’indagine è la mediana. Consideriamo ancora tutti i dati trascritti in ordine crescente e consideriamo il dato centrale; poiché nel nostro esempio sono in numero pari, circa 60, consideriamo i due centrali e facciamone la semisomma. La mediana della nostra indagine sarà:

mm 69,1 65,1

m 685,12

69,168,1

• Calcoliamo infine la media aritmetica:

mx 69,160

24,101

60

85,182,1....70,165,160,150,1

Molto utile per la valutazione dell’indagine è, il calcolo delle frequenze cumulate e il calcolo delle frequenze cumulate percentuali.

Le frequenze cumulate indicano le frequenze al di sotto di un determinato valore e si ottengono aggiungendo a ciascuna frequenza il valore delle frequenze che la precedono.

Le frequenze cumulate percentuali indicano la relativa percentuale e si ottengono dividendo le frequenze cumulate per il totale delle frequenze e moltiplicando il risultato per 100.

Dai dati della tabella possiamo dire immediatamente che, 33 matricole hanno un’altezza che al più raggiunge 1,69 m, che il 95% delle matricole non supera l’altezza di 1,84 m.

Classe di

altezza

Frequenza Frequenza

cumulata

Frequenza

cumulata

percentuale

3 3 3:60x100=5%

6 3 + 6 = 9 9:60x100=15%

9 9 + 9 = 18 18:60x100=30%

15 18+15=33 33:60x100=55%

12 33+12=45 45:60x100=75%

6 45+6=51 51:60x100=85%

6 51+6=57 57:60x100=95%

3 57+3=60 60:60x100=100%

; 54,1 50,1 mm

mm 59,1 55,1

mm 64,1 60,1

mm 69,1 65,1

mm 74,1 70,1

mm 79,1 75,1

mm 84,1 80,1

mm 89,1 85,1

classe

modale

0

2

4

6

8

10

12

14

16

Serie1 3 6 9 15 12 6 6 3

1° 2° 3° 4° 5° 6° 7° 8°

y

Poligonale delle frequenze

x

Classe di

altezza

Frequenza

3

6

9

15

12

6

6

3

; 54,1 50,1 mm

mm 59,1 55,1

mm 64,1 60,1

mm 69,1 65,1

mm 74,1 70,1

mm 79,1 75,1

mm 84,1 80,1

mm 89,1 85,1

Se nel nostro istogramma uniamo con una spezzata i punti medi delle basi superiori dei rettangoli otteniamo una linea spezzata, detta poligonale delle frequenze.

0

5

10

15

20

25

0 5 10 15 20

La poligonale delle frequenze all’aumentare dei dati assume l’andamento di una curva a campana continua.

Questa curva prende il nome di curva di Gauss, dal nome del matematico Karl Friedrich Gauss che per primo la studiò.

Essa rappresenta la distribuzione normale a cui si avvicina qualsiasi distribuzione di frequenza purchè il rilevamento statistico sia relativo a un numero molto esteso di casi.

Curva di Gauss

0

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Per valutare l’andamento di un fenomeno nel corso di un certo periodo si usano i numeri indici. Essi sono adatti per valutare le variazione nel tempo:

• dei prezzi di vari prodotti di consumo;

• della produzione o del consumo delle merci;

• del costo della vita;

• della popolazione

• ecc.

I numeri indici sono particolari rapporti statistici calcolati tra ciascun termine di una serie di dati quantitativi relativi a un fenomeno e un termine della serie stessa preso come riferimento e detto base.

Chiariamo i concetti detti con un esempio di indagine statistica.

• Come è variata la popolazione italiana dal 1950 a oggi? Secondo i dati Istat, i censimenti fatti dal 1950 al 2001 ci forniscono i seguenti dati:

1951 47516000 1981 56557000

1961 50624000 1991 56778000

1971 54137000 2001 57844000

Prendiamo come base di riferimento, per esempio, l’anno 1951 e consideriamone il dato relativo: 47516000. Dividiamo i dati relativi agli altri anni per il dato dell’anno base e moltiplichiamo il risultato per 100; avremo i numeri indici dei vari anni che indichiamo con :annoi

Numeri indici dei vari anni:

7,12110047516000

57844000: 9,113100

74516000

54137000:

5,11910047516000

56778000: 5,106100

47516000

50624000:

11910047516000

56557000: 100100

47516000

47516000:

0171

9161

8151

ii

ii

ii

(per l’anno base il numero indice è sempre 100)

Compiliamo la tabella con i numeri indici e la variazione percentuale rispetto all’anno base:

Anni Popolazione

residente in

Italia

Numeri

indici

Variazione %

1951 47 516 000 100 /

1961 50 624 000 106,5 106,5-100=6,5%

1971 56 557 000 113,9 113,9-100=13,9%

1981 56 778 000 119 119-100=19%

1991 56 778 000 119,5 119,5-100=19,5

2001 57 844 000 121,7 121,7-100=21,7%

Che tipo di valutazione ci permettono questi numeri indici?

La loro analisi ci fa immediatamente constatare la variazione annuale del fenomeno osservato e il valore percentuale di tale variazione rispetto all’anno base.

Nel nostro esempio, possiamo notare che:

• I numeri indici sono tutti crescenti e quindi la popolazione nei vari anni è sempre aumentata.

• Rispetto all’anno base, il 1951, nel 1961 si è avuto un aumento del 6,5%, nel 1971 del 13,9%, ecc.