Statistica descrittiva: forma di una distribuzionee Indici di posizione
1 / 49
Forma della distribuzioneUn grafico relativo a dei dati mostra la distribuzionedei dati, ossia i valori che la variabile può assumerecorrelati dalla frequenza con cui ciascuno è statoosservatoControllare la configurazione globale: i dati sonoraggruppati o ci sono osservazioni che deviano inmaniera evidente dal resto ?
istogramma lunghezza conchiglie
lunghezza
frequenza
2 3 4 5 6 7 8 9
05
1015
Una distribuzione si dice unimodale quando presentaun solo piccoUna distribuzione si dice bimodale quando presentadue picchi
2 / 49
Forma della distribuzioneSi chiama moda l’osservazione che si verifica conmaggiore frequenza in una data distribuzione
Una distribuzione si dice unimodale quando presentaun solo picco.Una distribuzione si dice bimodale quando presentadue picchi. 3 / 49
Forma della distribuzione
I La forma della distribuzione si dice simmetricase la parte della distribuzione che precede unvalore centrale è sovrapponibile, comeun’immagine allo specchio, alla parte che seguequel valore centrale
I In una distribuzione simmetrica le modalitàposizionate alla stessa distanza dal centropresentano la stessa frequenza
4 / 49
Forma della distribuzione
5 / 49
Forma della distribuzioneLa distribuzione si dice asimmetrica quando unaparte della distribuzione si presenta più allungatadell’altra
6 / 49
Indici di sintesi
Le quantità numeriche calcolata a partire da uninsieme di dati si chiamano statistiche. Inparticolare tratteremo le seguenti statistiche:
I Indici di centralità
1. moda: si può sempre calcolare2. mediana: si può calcolare per dati
quantitativi o qualitativi ordinali3. media: si può calcolare solo per dati
quantitativi
I Indici di dispersione
7 / 49
Indici di centralità: la media
I La media (aritmetica) semplice di x1, · · · ,xn è lasomma delle osservazioni divisa per il numerodelle osservazioni stesse
x = x1 + · · ·+ xnn =
∑ni=1 xin
I La media (aritmetica) pesata è definita come
x = n1z1 + · · ·+ nkzkn1 + · · ·+ nk
=∑k
i=1 nizin
dove i pesi ni sono le frequenze assolute di ognimodalità zi
8 / 49
Proprietà della media aritmetica
I Se si sostituisce il valore della media aritmeticaa ciascuna delle osservazioni, il valore totaleosservato non cambia
n∑i=1
xi = n× x
I È compresa tra il minimo dei dati e il massimodei dati
I può coincidere con nessuna osservazione
9 / 49
Proprietà della media aritmeticaI La somma delle differenze tra le osservazioni e lamedia (scarti) è pari a 0
n∑i=1
(xi − x) = 0
Interpretazione fisica: se n pesi di pari massavengono posti su un’asta nei punti xi allora x è ilpunto in cui l’asta può essere messa in equilibrio
I La somma dei quadrati delle differenze tra ivalori osservati e una costante a
n∑i=1
(xi −a)2
è minima se a = x10 / 49
Proprietà della media aritmetica
I se ciascuna xi viene moltiplicata per c, lo èanche la media
yi = c× xi ⇒ y = cx
I se ciascuna xi viene incrementata di unacostante c allora anche la media vieneincrementata di c
yi = xi + c⇒ y = x + c
11 / 49
EsempioPeso di 10 polli da allevamento in kg:
1.8, 2.8, 1.9, 2.5, ,2.0, 2.6, 3.0, 2.3, 2.4, 2.0
x = 1.8+2.8+1.9+2.5+2.0×2+3.0+2.6+2.3+2.410 = 2.33
verifichiamo che la somma degli scarti è pari a 0:n∑
i=1(xi − x) = (1.8−2.33) + (2.8−2.33) + · · ·+ (2.4−2.33) = 0
supponiamo di cambiare unità di misura da Kg a g, i datidiventano:
1800, 2800, 1900, 2500, 2000, 2600, 3000, 2300, 2400, 2000
y = 1800+2800+1900+2500+2000×2+3000+2600+2300+240010 =
= 2330 = 2.33×1000 = 1000× x12 / 49
Proprietà della media aritmetica
I La media è notevolmente influenzata dallapresenza di valori estremi (outliers)
I Il numeratore della media aritmetica coinvolgetutte le osservazioni: questo fa si che nel suocalcolo entrino eventualmente gli outliers
I Per questo si dice che non è robusta
13 / 49
Esempio
Numero di cuccioli nati da una coppia di Chihuahua in 12cucciolate:
2, 4, 5, 5, 2, 1, 3, 4, 2, 3, 3, 2
x = 3
Lo statistico distratto mette insieme il 2 con l’1 successivoottenendo ora i dati
2, 4, 5, 5, 21, 3, 4, 2, 3, 3, 2
y = 4.73
14 / 49
Calcolo media con tabella di frequenza, dati continui
Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti. Calcolare la mediaaritmetica
Intervalli punteggi (xi) ni fi
[32.5,40.5) 5 0.125[40.5,48.5) 5 0.125[48.5,56.5) 7 0.175[56.5,64.5) 10 0.25[64.5,72.5) 8 0.2[72.5,80.5) 4 0.1[80.5,88.5] 1 0.025
Totale 40 1
15 / 49
Calcolo media con tabella di frequenza, dati continui
Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti.Consideriamo la colonna dei valori centrali degli intervalli (mi)
Intervalli punteggi (xi) mi ni fi
[32.5,40.5) 36.5 5 0.125[40.5,48.5) 44.5 5 0.125[48.5,56.5) 52.5 7 0.175[56.5,64.5) 60.5 10 0.25[64.5,72.5) 68.5 8 0.2[72.5,80.5) 76.5 4 0.1[80.5,88.5] 84.5 1 0.025
Totale 40 1
16 / 49
Calcolo media con tabella di frequenza, dati continui
Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti.
xx =5 ∗ 36.5 + 5 ∗ 44.5 + 7 ∗ 52.5 + 10 ∗ 60.5 + 8 ∗ 68.5 + 4 ∗ 76.5 + 1 ∗ 84.5
40=
7∑i=1
ni ∗ mi
n= 57.9
x = 0.125∗36.5+0.125∗44.5+0.175∗52.5+0.25∗60.5+0.2∗68.5+0.1∗76.5+0.025∗84.5 =
=7∑
i=1
fi ∗ mi = 57.9
17 / 49
Indici di centralità: la mediana
x1, x2, x3, . . . ,xn
ordiniamo i dati in senso crescente
x(1), x(2), x(3), . . . ,x(n)
x(1) = min(x1, . . . ,xn) x(n) = max(x1, . . . ,xn)
I La mediana: è il valore che permette di ripartirela distribuzione in due parti in ciascuna dellequali cade il 50% delle osservazioni
18 / 49
Calcolo della mediana
I Si ordinano i dati in senso crescenteI se il numero di dati n è dispari, la medianacorrisponde al dato che occupa la posizione(n + 1)/2
x0.5 = x(n+12 )
I se il numero di dati n è pari, la mediana è datadalla media aritmetica dei due dati cheoccupano la posizione n/2 e quella n/2 + 1
x0.5 =x(n
2 ) + x(n2 +1)
2
19 / 49
Proprietà della mediana
I Per il calcolo della mediana interessa laposizione occupata dalla osservazioni non il lorovalore numerico
I La mediana è robusta ossia non è influenzatadalla presenza degli outliers
20 / 49
Esempio
Numero di cuccioli nati da una coppia di Chihuahua in 12cucciolate:
2, 4, 5, 5, 2, 1, 3, 4, 2, 3, 3, 2
x0.5 = 3
Lo statistico distratto mette insieme il 2 con l’1 successivoottenendo ora i dati
2, 4, 5, 5, 21, 3, 4, 2, 3, 3, 2
y0.5 = 3
21 / 49
Indici di centralità: la moda
La moda è una misura di tendenza centrale per datisia qualitativi che quantitativi.
I È il valore, o la classe, che ricorre piùfrequentemente
I non è influenzata da outliers
I può non esserci una moda
I ci può essere più di una moda
22 / 49
Esercizio
In sette città in Canada il 14 gennaio 2006 sonostate registrate le seguenti temperature.Calcolarne moda, media e mediana
−12 −5 2 2 0 −3 5
23 / 49
EsercizioCalcolarne moda, media e mediana
−12 −5 2 2 0 −3 5
Moda = 2
x = −12−5 + 2 + 2 + 0−3 + 57 =−11
7 =−1.57
Riordiniamo i dati per calcolare la moda:
−12,−5,−3,0,2,2,5
i dati sono dispari prendo il valore alla posizionen+1
2 , ossia 82 = 4
x0.5 = 024 / 49
Esercizio
In 20 marche di cereali è stato analizzato il contenuto di sodio inmg in una porzione standard, secondo quanto codificato dalNational Labelling and educatioal Act.Calcolare moda media e mediana delle 20 misurazioni:
0 340 70 140 200 180 210 150 100 130
140 180 190 160 290 50 220 180 200 210
25 / 49
Esercizio
I seguenti dati indicano la pressione sistolica sanguigna di 15 donne
130 115 148 100 156 162 151 156 162
158 155 160 125 150 165
Calcola media e mediana. Cosa succede se 100 viene sostituito con300?
26 / 49
Relazioni tra media, mediana e moda
I In una distribuzione perfettamente simmetrica,la media, la mediana (e la moda) hanno lostesso valore
I Per una distribuzione asimmetrica, la mediaviene, rispetto alla mediana, trascinata verso lecode più pronunciate ( si posiziona quindi nelladirezione dell’asimmetria)
27 / 49
Relazioni tra media, mediana e moda
Nelle distribuzioni di datibiologici, l’asimmetria è quasisempre verso destra e quindi lamedia è > della mediana o dellamoda
invece in caso di asimmetrica asinistra: media più piccola dellamediana
28 / 49
Confronto media e mediana
Preferiamo usare la mediana:I quando i dati sono fortemente asimmetrici;I in presenza di outliers
E’ sconsigliato usare la mediana:I quando i dati sono fortemente discretiI i dati sono abbastanza simmetrici
29 / 49
Confronto media e medianaDati fortemente discreti sono dati che assumonopoche modalità.In quel caso insiemi di dati molto diversi possonoriportare la stessa mediana.Esempio: si considerino due campioni didimensione 5 di dati binari (con due sole modalità)
(0,0,1,1,1) e (1,1,1,1,1)
la mediana è 1 per entrambi. In questo caso èpreferibile la media che indica la porzione di 1presenti nel campione. Si ha 0.6 per il primocampione e 1 per il secondo
30 / 49
Esercizio con tabella di frequenza, dati discreti
Consideriamo la tabella di frequenze di una rilevazione in cui sonostati contati per 50 alberi il numero di alberi ad essi vicini. Siconsiderano vicini alberi ad una distanza radiale inferiore ai 5metri. Dalla rilevazione si osserva che:
Numero di alberi vicini (xi) ni fi
0 3 0.061 4 0.082 6 0.123 13 0.264 13 0.265 6 0.126 5 0.10
Totale 50 1
Calcolare moda, media e mediana
31 / 49
Esercizio con tabella di frequenza, dati discreti
Consideriamo la tabella di frequenze di una rilevazione in cui sonostati contati per 50 alberi il numero di alberi ad essi vicini.
Moda = 3 e 4
x =3 ∗ 0 + 4 ∗ 1 + 6 ∗ 2 + 13 ∗ 3 + 13 ∗ 4 + 6 ∗ 5 + 5 ∗ 6
50=
7∑i=1
ni ∗ xi
n= 3.34
x = 0.06∗0+0.08∗1+0.12∗2+0.26∗3+0.26∗4+0.12∗5+0.10∗6 =7∑
i=1
fi ∗xi = 3.34
x0.5 = 3 = Classe mediana
32 / 49
Misure di posizione: percentili
Il concetto di mediana si pu ò generalizzare:Il p-simo percentile è il valore tale che lascia alla sua sinistra il p%delle osservazioni e alla sua destra il restante (1−p)%
33 / 49
Misure di posizione: quartili
Nelle applicazioni pratiche esistono 3 percentili piùutilizzati detti quartiliI quartili dividono la sequenza ordinata dei dati in 4segmenti contenenti lo stesso numero di valori.
I Il primo quartile, q0.25, è il valore che lascia allasua sinistra 25% e alla sua destra il 75%
I Il secondo quartile, q0.50, coincide con lamediana (50% sono minori, 50% sono maggiori)
I Il terzo quartile, q0.75, è il valore tale che il 75%delle osservazioni sono minori e 25% sonomaggiori di esso
34 / 49
Calcolo dei quartiliUn quartile si trova determinando il valore della suaposizione nella sequenza ordinata dei dati osservati.
I Posizione primo quartile
0.25(n + 1)
se è intero altrimenti si approssima con l’interoprecedente o successivo
I Posizione terzo quartile
0.75(n + 1)
se è intero altrimenti si approssima con l’interoprecedente o successivo
con n il numero di valori osservati35 / 49
Esercizio
In sette città in Canada il 14 gennaio 2006 sonostate registrate le seguenti temperature.
−12 −5 2 2 0 −3 5Calcolare primo e terzo quartile
36 / 49
Esercizio
Ordiniamo i dati in senso crescente:
−12 −5 −3 0 2 2 5
con n = 7I Posizione primo quartile
0.25(8) = 2⇒ q0.25 = x(2) =−5
I Posizione terzo quartile
0.75(8) = 6⇒ q0.75 = x(6) = 2
37 / 49
Esercizio
In 20 marche di cereali è stato analizzato il contenuto di sodio inmg in una porzione standard, secondo quanto codificato dalNational Labelling and educational ActCalcolare primo e terzo quartile delle 20 misurazioni:
0 340 70 140 200 180 210 150 100 130
140 180 190 160 290 50 220 180 200 210
38 / 49
EsercizioDati ordinati:
0 50 70 100 130 140 140 150 160 180
180 180 190 200 200 210 210 220 290 340
dove n = 20.
I Posizione primo quartile
0.25(21) = 5.25⇒ q0.25 = 130
I Posizione terzo quartile
0.75(21) = 15.75⇒ q0.75 = 210
Per il calcolo di q0.25 : 5.25≤ 5.5 approssimiamo a 5
Per il calcolo di q0.75 : 15.75 > 15.5 approssimiamo a 16
39 / 49
Lo scarto interquartileI quartili possono essere utilizzati per definire unamisura di variabilità detta distanza interquartileLo scarto interquartile è la differenza tra il terzo e ilprimo quartile:
IQR = q0.75− q0.25
IQR individua l’intervallo in cui si trovano il 50%delle osservazioni centrali. Eliminando i datiestremi, non è influenzata dalla presenza di outliersEsempio contenuto sodio in cereali:
IQR = q0.75− q0.25 = 210−130 = 80
40 / 49
Outliers
Regola empirica basata sullo scarto interquartile chepermette di identificare i potenziali outlier
Un valore più basso di q0.25−1.5× IQR o più altodi q0.75 + 1.5× IQR viene considerato un potenzialeoutlier
Esempio contenuto sodio in marche di cereali
q0.25−1.5× IQR = 130−1.5×80 = 130−120 = 10
q0.75 +1.5×IQR = 210+1.5×80 = 210+120 = 330I potenziali outlier sono 0 e 340
41 / 49
Boxplot
I Abbiamo introdotto 5 diverse misure di posizione
x(1) q0.25 x0.5 q0.75 x(n)
che ci permettono di sintetizzare la tendenzacentrale e la variabilità di una distribuzione didati
I Possiamo rappresentare questa sintesi con ungrafico detto boxplot
42 / 49
Boxplot
43 / 49
Boxplot
Come si disegna un boxplot?I Si disegna una scatola dal primo quartile q0.25 al terzo quartile
q0.75
I Si traccia un segmento orizzontale nella scatola incorrispondenza della mediana x0.5
I Si disegna un segmento verticale dalla sinistra della scatolafino alla più piccola osservazione che non sia un potenzialeoutlier. Un altro segmento orizzontale va dalla destra dellascatola fino alla più grande osservazione che non sia unpotenziale outlier. I potenziali outlier vengono disegnati comedei cerchietti che ”escono” dai baffi del boxplot
44 / 49
BoxplotEsempio contenuto di sodio in 20 marche di cereali
050
100
150
200
250
300
350
massimo
minimo
mediana
3 quartile
1 quartile
45 / 49
Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco la forma diuna distribuzioneUn boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogrammaIl boxplot ci permette di individuare potenziali outlier
46 / 49
Boxplot e istogramma
47 / 49
Boxplot e istogramma
48 / 49
Boxplot e istogramma
49 / 49
Top Related