Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei...
Transcript of Statistica descrittiva in una variabile · 3 Decido se la mia indagine prevede la rilevazione dei...
Statistica descrittiva in una variabile
Dott. Nicola Pintus
A.a. 2018-2019
Cosa e la statistica?
La statistica e la scienza che studia con metodi matematici fenomenicollettivi.La statistica descrittiva e quella parte di statistica che si limita adescrivere i fenomeni attraverso indici e grafici.La statistica inferenziale, anche avvalendosi di metodi probabilistici,permette di trarre conclusioni generali a partire dall’esame di un campione.
Fasi dell’indagine statistica
1 Individuo il fenomeno di indagare.
2 Individuo le unita statistiche, ovvero il singolo oggetto interessato dalfenomeno. L’insieme delle unita statistiche e detta popolazionestatistiche o universo statistico.
3 Decido se la mia indagine prevede la rilevazione dei dati sull’interouniverso statistico o su un suo sottoinsieme.
4 Decido la modalita di svolgimento dell’indagine.
5 Raccolta dei dati.
6 Spoglio dei dati.
7 Rappresentazione ed elaborazione dei dati.
8 Interpretazione dei dati.
Il tipo di carattere
I dati che rilevo dalle unita statistiche sono di due tipi:
Qualitativo: se il dato che rilevo e descritto da un aggettivo.
Quantitativo: se il dato che rilevo e descritto da un valore numerico.
Qualitativo
Il colore degli occhi
Grado di infestazione da parassiti in un albero
Quantitativo
Il numero di animali in casa per nucleo famigliare
L’altezza di un gruppo di individui
La rappresentazione dei dati sul grafico dipende dal tipo di dato.
Rappresentazione dei dati: quantitativo discreto
X = (2, 1, 1, 2, 3, 1, 2)
Modalita Freq. Ass. Freq. Rel.
1 3 0.4286
2 3 0.4286
3 1 0.1429
Rappresentazione dei datiIstogramma a classi di ampiezza uguale
X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01)
Classe Freq. Ass. Freq. Rel.
[0.96, 0.99] 4 0.31
(0.99, 1.02] 5 0.38
(1.02, 1.05] 3 0.23
(1.05, 1.08] 1 0.08
Rappresentazione dei datiIstogramma a classi di ampiezza diversa
X = (1.01, 0.99, 0.97, 1.01, 1.01, 1.05, 1.04, 0.98, 1.08, 1.03, 0.96, 1.02, 1.01)
Classe Freq. Ass. Freq. Rel. Altezza Barra
[0.96, 0.98] 3 0.23 frequenza rel.ampiezza classe = 0.23
0.02 = 11.5
(0.98, 1.02] 6 0.46 11.5
(1.02, 1.08] 4 0.31 5.2
Rappresentazione dei datiOrtogramma
Y = (giallo, rosso, rosso, blu, rosso, verde, verde)
Modalita Freq. Ass. Freq. Rel.
Blu 1 0.14
Giallo 1 0.14
Rosso 4 0.43
Verde 3 0.29
Indici di sintesi
Gli indici di sintesi permettono di riassumere gli elementi del vettore deidati rilevati.
Gli indici di centralita sintetizzano con un unico numero il centro delvettore dei dati.
Gli indici di dispersione sintetizzano quanto gli elementi del vettoredei dati sono distanti da un valore centrale.
Indici di centralitaMedie
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN).
Media aritmetica. X =
∑Ni=1 xi
N;
Media geometrica. X g = N
√∏Ni=1 xi ;
Media quadratica. X q =
√∑Ni=1 x
2i
N;
Media armonica. X a =N∑Ni=1
1xi
.
Per la media geometrica si richiede che xi > 0 per ogni i . Per la mediaarmonica si richiede che xi 6= 0.
Indici di centralitaMedie
La media aritmetica si usa per determinare il valore piu preciso di unaserie di misure purche gli errori di misurazione siano accidentali e nonsistematici.
La media geometrica si usa per determinare il tasso medio diaccrescimento di un fenomeno.
Indici di centralitaMedie
Esempio
Un malato si misura la febbre ogni 4 ore a partire dalle 7 di mattino finoalle 23 di sera, registrando i seguenti dati:
Ore 7 37.5◦C
Ore 11 38◦C
Ore 15 38.8◦C
Ore 19 38.5◦C
Ore 23 37.9◦C
Calcola la temperatura media.
x =37.5 + 38 + 38.8 + 38.5 + 37.9
5= 38.14◦C .
Indici di centralitaMedie
Esempio
Una colonia di batteri consiste di 2.7 · 106 unita. Dopo un’ora vi e unaumento del 30% e dopo un’altra ora di un ulteriore 50%. Calcolarel’incremento medio.
Ci aspettiamo che l’incremento medio sia quella percentuale p% che,applicata successivamente dopo un’ora e dopo due ore, porta allo stessonumero di batteri che abbiamo trovato applicando prima un aumento del30% e poi uno del 50%.
x0 = 2.7 · 10630%−→ x1 = 3.51 · 106
50%−→ x2 = 5.265 · 106
Indici di centralitaMedie
Se applichiamo un doppio incremento alla media aritmetica degliincrementi singoli non otteniamo x2:
2.7 · 10640%−→ 3.78 · 106
40%−→ 5.292 · 106 6= x2
Dunque l’incremento medio non puo essere la media aritmetica degliincrementi.Infatti l’incremento medio e la media geometrica dei singoli incrementi.
xg =√
1.3 · 1.5 ≈ 1.3964
Dunque l’incremento medio e 39.64%.
Indici di centralitaMediana e moda
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Consideriamo ilnuovo vettore X avente gli stessi elementi di X ma posti in ordinecrescente. Allora la mediana di X e
xN+12
se N e dispari.
xN2+xN
2 +1
2 se N e pari.
Indichiamo la mediana con il simbolo X0.5.
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La moda e lamodalita (o le modalita) che compare piu frequentemente.
Indici di centralitaMediana e moda
Esempio
Consideriamo il vettore di rilevazione X = (2, 1, 1, 2, 3, 1, 2). Calcolaremediana e moda.
Costruiamo il vettore X in cui poniamo in ordine crescente gli elementi diX :
X = (1, 1, 1, 2, 2, 2, 3).
Quindi la mediana e uguale a 2. Poiche le modalita 1 e 2 hanno la stessamassima frequenza assoluta, saranno entrambe moda. Quindi ladistribuzione e bimodale.
Indici di dispersioneDeviazione standard e varianza
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). Lo scarto medioquadratico o deviazione standard e
σX =
√√√√ 1
N
N∑i=1
(xi − X
)2.
Definizione
Sia dato il vettore delle rilevazioni X = (x1, · · · , xN). La varianza di X e ilquadrato della deviazione standard.
Indici di dispersioneDeviazione standard e varianza
Esempio
Consideriamo il vettore X = (2, 1, 1, 2, 3, 1, 2). Calcolare la deviazionestandard.
Abbiamo X = 127 ≈ 1.7
xi xi − X (xi − X )2
2 2− 1.7 = 0.3 (0.3)2 = 0.09
1 1− 1.7 = −0.7 (−0.7)2 = 0.49
1 1− 1.7 = −0.7 (−0.7)2 = 0.49
2 2− 1.7 = 0.3 (0.3)2 = 0.09
3 3− 1.7 = 1.3 (1.3)2 = 1.69
1 1− 1.7 = −0.7 (−0.7)2 = 0.49
2 2− 1.7 = 0.3 (0.3)2 = 0.09
Indici di dispersioneDeviazione standard e varianza
Allora abbiamo che
σ =
√3 · 0.492 + 3 · 0.092 + 1 · 1.692
7≈ 0.69.
Indici di dispersioneSignificato della deviazione standard
Sia dato il vettore di rilevazioni X = (x1, · · · , xN). Se la numerositacampionaria e alta (nella teoria si indica una numerosita campionariamaggiore di 20), approssimativamente
il 68% dei dati cadono dentro l’intervallo (X − σ,X + σ);
il 95% dei dati cadono dentro l’intervallo (X − 2σ,X + 2σ);
il 99% dei dati cadono dentro l’intervallo (X − 3σ,X + 3σ);
Queste percentuali possono differire notevolmente se i dati in X nonseguono un andamento a campana di Gauss.
Indici di dispersione
Esempio
Consideriamo il vettore delle rilevazioni
X = (1, 2, 1, 3, 1, 2, 1, 1, 3, 2, 3, 2, 4, 1, 0, 2, 1, 3, 2, 3, 2, 1)
Quanti valori cadono nell’intervallo(X − σ,X + σ
)?
Abbiamo X = 3620 e σ ≈ 0.98. Nell’intervallo(
X − σ,X + σ)≈ (0.82, 2.78)
cadono 15 elementi di X , ovvero il 70% circa del campione.
Indici di dispersioneSignificato della deviazione standard
XX − σX X + σX
1 2 3 4
2
4
6
8
M
fi
Formula di Konig
Questa formula ci permette un calcolo piu veloce della varianza, e quindidella deviazione standard.
Teorema
Consideriamo il vettore di rilevazioni X = (x1, · · · , xN). Allora
Var(X ) = X 2 − X2.
Quindi
σ =
√X 2 − X
2.
Formula di Konig
Esercizio
Usando la formula di Konig calcolare la deviazione standard diX = (2, 1, 1, 2, 3, 1, 2).
Calcoliamo X 2:
xi 2 1 1 2 3 1 2
x2i 4 1 1 4 9 1 4
da cui X 2 =∑
i x2i
7 = 247 . Poiche X = 12
7 avremo che
Var(X ) = X 2 − X2
=24
7− 144
49=
24
49
quindi σX =√
2449 ≈ 0.69.
Esercizio proposto
Abbiamo misurato la glicemia a 20 topi di laboratorio dopo lasomministrazione di un farmaco. Si ha il seguente vettore delle rilevazioniin mg/dl :
X = (120, 110, 121, 122, 109, 103, 110, 111, 121, 102,
110, 109, 113, 114, 110, 125, 111, 120, 121, 101)
1 Si illustri con una rappresentazione tabellare la distribuzione X con leclassi M1 = [100, 110], M2 = (110, 120] e M3 = (120, 130].
2 Si calcoli la media aritmetica e mediana dei valori di X .
3 Si calcoli lo scarto quadratico medio dei valori di X . Si dica inpercentuale quanti valori di X appartengono all’intervallo X ± σ.
Esercizio proposto
Un certo comune ha avuto la seguente variazione di popolazione
Anno Popolazione
1990 20000
1995 24000
2000 22000
2005 23000
2010 25000
2005 15000
Calcolare la percentuale di incremento medio della popolazione.