Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore...

25
Statistica descrittiva in una variabile Dott. Piermario Schirru A.a. 2018-2019

Transcript of Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore...

Page 1: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Statistica descrittiva in una variabile

Dott. Piermario Schirru

A.a. 2018-2019

Page 2: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Cosa e la statistica?

La statistica e la scienza che studia con metodi matematici fenomenicollettivi.La statistica descrittiva e quella parte di statistica che si limita adescrivere i fenomeni attraverso indici e grafici.La statistica inferenziale, anche avvalendosi di metodi probabilistici,permette di trarre conclusioni generali a partire dall’esame di un campione.

Page 3: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Fasi dell’indagine statistica

1 Individuo il fenomeno di indagare.

2 Individuo le unita statistiche, ovvero il singolo oggetto interessato dalfenomeno. L’insieme delle unita statistiche e detta popolazionestatistiche o universo statistico.

3 Decido se la mia indagine prevede la rilevazione dei dati sull’interouniverso statistico o su un suo sottoinsieme.

4 Decido la modalita di svolgimento dell’indagine.

5 Raccolta dei dati.

6 Spoglio dei dati.

7 Rappresentazione ed elaborazione dei dati.

8 Interpretazione dei dati.

Page 4: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Il tipo di carattere

I dati che rilevo dalle unita statistiche sono di due tipi:

Qualitativo: se il dato che rilevo e descritto da un aggettivo.

Quantitativo: se il dato che rilevo e descritto da un valore numerico.

Qualitativo

Il colore degli occhi

Grado di infestazione da parassiti in un albero

Quantitativo

Il numero di animali in casa per nucleo famigliare

L’altezza di un gruppo di individui

La rappresentazione dei dati sul grafico dipende dal tipo di dato.

Page 5: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Rappresentazione dei dati: quantitativo discreto

Il seguente vettore contiene il numero di pazienti visitati da uno specialistain un certo poliambulatorio in un campione di venti giorni.

X = (2, 2, 4, 4, 3, 4, 4, 6, 3, 3, 4, 3, 1, 3, 1, 4, 1, 2, 3, 2)

Modalita Freq. Ass. Freq. Rel.

1 3 0.15

2 4 0.20

3 6 0.30

4 6 0.30

6 1 0.05

Page 6: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Rappresentazione dei dati: quantitativo continuoIstogramma a classi di ampiezza uguale

Il seguente vettore contiene la lunghezza dei sepali di un campione di 15fiori di iris setosa.

X = (5.0, 5.0, 5.3, 4.6, 5.8, 5.2, 4.8, 5.1, 5.0, 5.5, 4.9, 4.5, 5.0, 5.4, 5.1)

Classe Freq. Ass. Freq. Rel.

[4.5, 4.76] 2 0.13

(4.76, 5.02] 6 0.40

(5.02, 5.28] 3 0.20

(5.28, 5.54] 3 0.20

(5.54, 5.80] 1 0.07

Page 7: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Rappresentazione dei dati: quantitativo continuoIstogramma a classi di ampiezza diversa

X = (5.0, 5.0, 5.3, 4.6, 5.8, 5.2, 4.8, 5.1, 5.0, 5.5, 4.9, 4.5, 5.0, 5.4, 5.1)

Classe Freq. Ass. Freq. Rel. Densita di freq.

[4.5, 5.0] 8 0.53 frequenza rel.ampiezza classe = 0.53

0.5 = 11.5

(5.0, 5.5] 6 0.40 0.8

(5.5, 5.8] 1 0.07 0.23

Page 8: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Rappresentazione dei dati: qualitativoOrtogramma

X = (giallo, rosso, rosso, blu, rosso, verde, verde)

Modalita Freq. Ass. Freq. Rel.

Blu 1 0.14

Giallo 1 0.14

Rosso 3 0.43

Verde 2 0.29

Page 9: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Rappresentazione dei datiRicapitolando...

Se vogliamo rappresentare i dati di un vettore di rilevazioni di tipoquantitativo:

I se le classi sono della stessa ampiezza, usiamo l’istogramma difrequenza (relativa o assoluta), ovvero un istogramma in cui irettangoli hanno come base la classe e come altezza la frequenza(relativa o assoluta) di quella classe;

I se le classi sono di diversa ampiezza, usiamo l’istogramma di densitadi frequenza (relativa o assoluta) in cui i rettangoli hanno come basela classe e area la frequenza (relativa o assoluta) di quella classe.

Se vogliamo rappresentare un vettore di rilevazioni di tipoquantitativo usiamo un ortogramma o un diagramma a torta.

Page 10: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di sintesi

Gli indici di sintesi permettono di riassumere gli elementi del vettore deidati rilevati.

Gli indici di centralita sintetizzano con un unico numero il centro delvettore dei dati.

Gli indici di dispersione sintetizzano quanto gli elementi del vettoredei dati sono distanti da un valore centrale.

Page 11: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di centralitaMedie

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN).

Media aritmetica. Si usa per determinare il valore piu preciso di unaserie di misure purche gli errori di misurazione siano accidentali e nonsistematici.

x =1

N

N∑i=1

xi

Media geometrica. Si usa per determinare il tasso medio diaccrescimento di un fenomeno.

xg = N

√√√√ N∏i=1

xi

Per la media geometrica si richiede che xi > 0 per ogni i .

Page 12: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di centralitaMedie

Esempio

Un malato si misura la febbre ogni 4 ore a partire dalle 7 di mattino finoalle 23 di sera, registrando i seguenti dati:

Ore 7 37.5◦C

Ore 11 38◦C

Ore 15 38.8◦C

Ore 19 38.5◦C

Ore 23 37.9◦C

Calcola la temperatura media.

x =37.5 + 38 + 38.8 + 38.5 + 37.9

5= 38.14◦C .

Page 13: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di centralitaMedie

Esempio

Una colonia di batteri consiste di 2.7 · 106 unita. Dopo un’ora vi e unaumento del 30% e dopo un’altra ora di un ulteriore 50%. Calcolarel’incremento medio.

Ci aspettiamo che l’incremento medio sia quella percentuale p% che,applicata successivamente dopo un’ora e dopo due ore, porta allo stessonumero di batteri che abbiamo trovato applicando prima un aumento del30% e poi uno del 50%.

x0 = 2.7 · 10630%−→ x1 = 3.51 · 106

50%−→ x2 = 5.265 · 106

Page 14: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di centralitaMedie

Se applichiamo un doppio incremento alla media aritmetica degliincrementi singoli non otteniamo x2:

2.7 · 10640%−→ 3.78 · 106

40%−→ 5.292 · 106 6= x2

Dunque l’incremento medio non puo essere la media aritmetica degliincrementi.Infatti l’incremento medio e la media geometrica dei singoli incrementi.

xg =√

1.3 · 1.5 ≈ 1.3964

Dunque l’incremento medio e 39.64%.

Page 15: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di centralitaMediana e moda

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Consideriamo ilvettore X avente gli stessi elementi di X ma posti in ordine crescente.Allora la mediana di X e

Me =

xN+1

2N dispari

xN2

+ xN2+1

2N pari

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La moda e lamodalita (o le modalita) che compare piu frequentemente.

Page 16: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di centralita

Esempio

Il seguente vettore contiene il numero di pazienti visitati da uno specialistain un certo poliambulatorio in un campione di venti giorni.

X = (2, 2, 4, 4, 3, 4, 4, 6, 3, 3, 4, 3, 1, 3, 1, 4, 1, 2, 3, 2)

Ricavare la mediana di X .

Costruiamo il vettore X in cui poniamo in ordine crescente gli elementi diX :

X = (1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 6).

Essendo pari il numero degli elementi di X allora la mediana sara la mediaaritmetica fra x10 = 3 e x11 = 3. Quindi la mediana di X e uguale a 3.

Page 17: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Simmetria di un istogramma

Distribuzione simmetrica: x = Me.

Distribuzione obliqua a destra: x > Me.

Distribuzione obliqua a sinistra: x < Me.

Page 18: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di dispersioneDeviazione standard e varianza

Definizione

Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Lo scarto medioquadratico o deviazione standard e

σX =

√√√√ 1

N

N∑i=1

(xi − x)2.

La varianza di X e il quadrato della deviazione standard della popolazione.

E un indice che esprime la dispersione dei dati intorno alla mediaaritmetica.

Page 19: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di dispersioneDeviazione standard e varianza

Esempio

Consideriamo il vettore X = (1.08, 0.92, 1.07, 1.03, 0.87). Calcolare ladeviazione standard.

Abbiamo x = 0.994.

xi xi − x (xi − x)2

1.08 0.086 0.007396

0.92 −0.074 0.005476

1.07 0.076 0.005776

1.03 0.036 0.001296

0.87 −0.124 0.015376

σ =

√0.007396 + 0.005476 + 0.005776 + 0.001296 + 0.015376

5≈ 0.08

Page 20: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di dispersioneDeviazione standard e varianza

La seguente formula e molto utile per il calcolo della varianza (e quindidella deviazione standard).

Formula di Konig

Var(X ) = x2 − x2.

Page 21: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di dispersioneDeviazione standard e varianza

Esempio

Consideriamo il vettore X = (1.08, 0.92, 1.07, 1.03, 0.87). Calcolare ladeviazione standard utilizzando la formula di Konig.

Abbiamo x = 0.994.

X 2 = (1.1664, 0.8464, 1.1449, 1.0609, 0.7569)

da cui otteniamo che x2 = 0.9951. Quindi

Var(X ) = 0.9951− (0.994)2 = 0.007064

da cui abbiamo che σ ≈ 0.08.

Page 22: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di dispersioneLa regola empirica

Sia dato il vettore di rilevazioni X = (x1, · · · , xN). Se

N > 20

i dati seguono una forma a campana (distribuzione gaussiana onormale)

allora approssimativamente

il 68% dei dati cadono dentro l’intervallo (x − σ, x + σ);

il 95% dei dati cadono dentro l’intervallo (x − 2σ, x + 2σ);

il 99% dei dati cadono dentro l’intervallo (x − 3σ, x + 3σ);

Queste percentuali possono differire notevolmente se i dati in X nonseguono un andamento a campana.

Page 23: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Indici di dispersioneLa regola empirica

Esempio

Consideriamo il vettore delle rilevazioni

X = (1, 2, 1, 3, 1, 2, 1, 1, 3, 2, 3, 2, 4, 1, 0, 2, 1, 3, 2, 3, 2, 1)

Quanti valori cadono nell’intervallo (x − σ, x + σ)?

Abbiamo µX = 3620 e σ ≈ 0.98. Nell’intervallo

(x − σ, x + σ) ≈ (0.82, 2.78)

cadono 15 elementi di X , ovvero il 70% circa del campione.

Page 24: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Esercizio proposto

Abbiamo misurato la glicemia a 20 topi di laboratorio dopo lasomministrazione di un farmaco. Si ha il seguente vettore delle rilevazioniin mg/dl :

X = (120, 110, 121, 122, 109, 103, 110, 111, 121, 102,

110, 109, 113, 114, 110, 125, 111, 120, 121, 101)

1 Si illustri con una rappresentazione tabellare la distribuzione X con leclassi M1 = [100, 110], M2 = (110, 120] e M3 = (120, 130].

2 Si calcoli la media aritmetica e mediana dei valori di X .

3 Si calcoli lo scarto quadratico medio dei valori di X . Si dica inpercentuale quanti valori di X appartengono all’intervallo X ± σ.

Page 25: Statistica descrittiva in una variabileQuantitativo: se il dato che rilevo e descritto da un valore numerico. Qualitativo Il colore degli occhi Grado di infestazione da parassiti in

Esercizio proposto

Un certo comune ha avuto la seguente variazione di popolazione

Anno Popolazione

1990 20000

1995 24000

2000 22000

2005 23000

2010 25000

2005 15000

Calcolare la percentuale di incremento medio della popolazione.