Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei...

26
Statistica descrittiva in una variabile Dott. Nicola Pintus A.a. 2018-2019

Transcript of Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei...

Page 1: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Statistica descrittiva in una variabile

Dott. Nicola Pintus

A.a. 2018-2019

Page 2: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Cosa e la statistica?

La statistica e la scienza che studia con metodi matematici fenomenicollettivi.La statistica descrittiva e quella parte di statistica che si limita adescrivere i fenomeni attraverso indici e grafici.La statistica inferenziale, anche avvalendosi di metodi probabilistici,permette di trarre conclusioni generali a partire dall’esame di un campione.

Page 3: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Fasi dell’indagine statistica

1 Individuo il fenomeno di indagare.

2 Individuo le unita statistiche, ovvero il singolo oggetto interessato dalfenomeno. L’insieme delle unita statistiche e detta popolazionestatistiche o universo statistico.

3 Decido se la mia indagine prevede la rilevazione dei dati sull’interouniverso statistico o su un suo sottoinsieme.

4 Decido la modalita di svolgimento dell’indagine.

5 Raccolta dei dati.

6 Spoglio dei dati.

7 Rappresentazione ed elaborazione dei dati.

8 Interpretazione dei dati.

Page 4: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Il tipo di carattere

I dati che rilevo dalle unita statistiche sono di due tipi:

Qualitativo: se il dato che rilevo e descritto da un aggettivo.

Quantitativo: se il dato che rilevo e descritto da un valore numerico.

Qualitativo

Il colore degli occhi

Grado di infestazione da parassiti in un albero

Quantitativo

Il numero di animali in casa per nucleo famigliare

L’altezza di un gruppo di individui

La rappresentazione dei dati sul grafico dipende dal tipo di dato.

Page 5: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Rappresentazione dei dati: quantitativo discreto

X = (2, 1, 1, 2, 3, 1, 2)

Modalita Freq. Ass. Freq. Rel.

1 3 0.4286

2 3 0.4286

3 1 0.1429

Page 6: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Rappresentazione dei datiIstogramma a classi di ampiezza uguale

X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01)

Classe Freq. Ass. Freq. Rel.

[0.96, 0.99] 4 0.31

(0.99, 1.02] 5 0.38

(1.02, 1.05] 3 0.23

(1.05, 1.08] 1 0.08

Page 7: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Rappresentazione dei datiIstogramma a classi di ampiezza diversa

X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01)

Classe Freq. Ass. Freq. Rel. Altezza Barra

[0.96, 0.98] 3 0.23 frequenza rel.ampiezza classe = 0.23

0.02 = 11.5

(0.98, 1.02] 6 0.46 11.5

(1.02, 1.08] 4 0.31 5.2

Page 8: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Rappresentazione dei datiOrtogramma

Y = (giallo, rosso, rosso, blu, rosso, verde, verde)

Modalita Freq. Ass. Freq. Rel.

Blu 1 0.14

Giallo 1 0.14

Rosso 4 0.43

Verde 3 0.29

Page 9: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di sintesi

Gli indici di sintesi permettono di riassumere gli elementi del vettore deidati rilevati.

Gli indici di centralita sintetizzano con un unico numero il centro delvettore dei dati.

Gli indici di dispersione sintetizzano quanto gli elementi del vettoredei dati sono distanti da un valore centrale.

Page 10: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di centralitaMedie

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN).

Media aritmetica. X =

∑Ni=1 xi

N;

Media geometrica. X g = N

√∏Ni=1 xi ;

Media quadratica. X q =

√∑Ni=1 x

2i

N;

Media armonica. X a =N∑Ni=1

1xi

.

Per la media geometrica si richiede che xi > 0 per ogni i . Per la mediaarmonica si richiede che xi 6= 0.

Page 11: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di centralitaMedie

La media aritmetica si usa per determinare il valore piu preciso di unaserie di misure purche gli errori di misurazione siano accidentali e nonsistematici.

La media geometrica si usa per determinare il tasso medio diaccrescimento di un fenomeno.

Page 12: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di centralitaMedie

Esempio

Un malato si misura la febbre ogni 4 ore a partire dalle 7 di mattino finoalle 23 di sera, registrando i seguenti dati:

Ore 7 37.5◦C

Ore 11 38◦C

Ore 15 38.8◦C

Ore 19 38.5◦C

Ore 23 37.9◦C

Calcola la temperatura media.

x =37.5 + 38 + 38.8 + 38.5 + 37.9

5= 38.14◦C .

Page 13: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di centralitaMedie

Esempio

Una colonia di batteri consiste di 2.7 · 106 unita. Dopo un’ora vi e unaumento del 30% e dopo un’altra ora di un ulteriore 50%. Calcolarel’incremento medio.

Ci aspettiamo che l’incremento medio sia quella percentuale p% che,applicata successivamente dopo un’ora e dopo due ore, porta allo stessonumero di batteri che abbiamo trovato applicando prima un aumento del30% e poi uno del 50%.

x0 = 2.7 · 10630%−→ x1 = 3.51 · 106

50%−→ x2 = 5.265 · 106

Page 14: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di centralitaMedie

Se applichiamo un doppio incremento alla media aritmetica degliincrementi singoli non otteniamo x2:

2.7 · 10640%−→ 3.78 · 106

40%−→ 5.292 · 106 6= x2

Dunque l’incremento medio non puo essere la media aritmetica degliincrementi.Infatti l’incremento medio e la media geometrica dei singoli incrementi.

xg =√

1.3 · 1.5 ≈ 1.3964

Dunque l’incremento medio e 39.64%.

Page 15: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di centralitaMediana e moda

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Consideriamo ilnuovo vettore X avente gli stessi elementi di X ma posti in ordinecrescente. Allora la mediana di X e

xN+12

se N e dispari.

xN2+xN

2 +1

2 se N e pari.

Indichiamo la mediana con il simbolo X0.5.

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La moda e lamodalita (o le modalita) che compare piu frequentemente.

Page 16: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di centralitaMediana e moda

Esempio

Consideriamo il vettore di rilevazione X = (2, 1, 1, 2, 3, 1, 2). Calcolaremediana e moda.

Costruiamo il vettore X in cui poniamo in ordine crescente gli elementi diX :

X = (1, 1, 1, 2, 2, 2, 3).

Quindi la mediana e uguale a 2. Poiche le modalita 1 e 2 hanno la stessamassima frequenza assoluta, saranno entrambe moda. Quindi ladistribuzione e bimodale.

Page 17: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di dispersioneDeviazione standard e varianza

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Lo scarto medioquadratico o deviazione standard e

σX =

√√√√ 1

N

N∑i=1

(xi − X

)2.

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La varianza di X e ilquadrato della deviazione standard.

Page 18: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di dispersioneDeviazione standard e varianza

Esempio

Consideriamo il vettore X = (2, 1, 1, 2, 3, 1, 2). Calcolare la deviazionestandard.

Abbiamo X = 127 ≈ 1.7

xi xi − X (xi − X )2

2 2− 1.7 = 0.3 (0.3)2 = 0.09

1 1− 1.7 = −0.7 (−0.7)2 = 0.49

1 1− 1.7 = −0.7 (−0.7)2 = 0.49

2 2− 1.7 = 0.3 (0.3)2 = 0.09

3 3− 1.7 = 1.3 (1.3)2 = 1.69

1 1− 1.7 = −0.7 (−0.7)2 = 0.49

2 2− 1.7 = 0.3 (0.3)2 = 0.09

Page 19: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di dispersioneDeviazione standard e varianza

Allora abbiamo che

σ =

√3 · 0.492 + 3 · 0.092 + 1 · 1.692

7≈ 0.69.

Page 20: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di dispersioneSignificato della deviazione standard

Sia dato il vettore di rilevazioni X = (x1, · · · , xN). Se la numerositacampionaria e alta (nella teoria si indica una numerosita campionariamaggiore di 20), approssimativamente

il 68% dei dati cadono dentro l’intervallo (X − σ,X + σ);

il 95% dei dati cadono dentro l’intervallo (X − 2σ,X + 2σ);

il 99% dei dati cadono dentro l’intervallo (X − 3σ,X + 3σ);

Queste percentuali possono differire notevolmente se i dati in X nonseguono un andamento a campana di Gauss.

Page 21: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di dispersione

Esempio

Consideriamo il vettore delle rilevazioni

X = (1, 2, 1, 3, 1, 2, 1, 1, 3, 2, 3, 2, 4, 1, 0, 2, 1, 3, 2, 3, 2, 1)

Quanti valori cadono nell’intervallo(X − σ,X + σ

)?

Abbiamo X = 3620 e σ ≈ 0.98. Nell’intervallo(

X − σ,X + σ)≈ (0.82, 2.78)

cadono 15 elementi di X , ovvero il 70% circa del campione.

Page 22: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Indici di dispersioneSignificato della deviazione standard

XX − σX X + σX

1 2 3 4

2

4

6

8

M

fi

Page 23: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Formula di Konig

Questa formula ci permette un calcolo piu veloce della varianza, e quindidella deviazione standard.

Teorema

Consideriamo il vettore di rilevazioni X = (x1, · · · , xN). Allora

Var(X ) = X 2 − X2.

Quindi

σ =

√X 2 − X

2.

Page 24: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Formula di Konig

Esercizio

Usando la formula di Konig calcolare la deviazione standard diX = (2, 1, 1, 2, 3, 1, 2).

Calcoliamo X 2:

xi 2 1 1 2 3 1 2

x2i 4 1 1 4 9 1 4

da cui X 2 =∑

i x2i

7 = 247 . Poiche X = 12

7 avremo che

Var(X ) = X 2 − X2

=24

7− 144

49=

24

49

quindi σX =√

2449 ≈ 0.69.

Page 25: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Esercizio proposto

Abbiamo misurato la glicemia a 20 topi di laboratorio dopo lasomministrazione di un farmaco. Si ha il seguente vettore delle rilevazioniin mg/dl :

X = (120, 110, 121, 122, 109, 103, 110, 111, 121, 102,

110, 109, 113, 114, 110, 125, 111, 120, 121, 101)

1 Si illustri con una rappresentazione tabellare la distribuzione X con leclassi M1 = [100, 110], M2 = (110, 120] e M3 = (120, 130].

2 Si calcoli la media aritmetica e mediana dei valori di X .

3 Si calcoli lo scarto quadratico medio dei valori di X . Si dica inpercentuale quanti valori di X appartengono all’intervallo X ± σ.

Page 26: Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei dati sull’intero universo statistico o su un suo sottoinsieme. 4 Decido la modalit

Esercizio proposto

Un certo comune ha avuto la seguente variazione di popolazione

Anno Popolazione

1990 20000

1995 24000

2000 22000

2005 23000

2010 25000

2005 15000

Calcolare la percentuale di incremento medio della popolazione.