Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda...

Post on 14-Jun-2020

1 views 0 download

Transcript of Statisticadescrittiva: formadiunadistribuzione ... · Relazioni tra media, mediana e moda...

Statistica descrittiva: forma di una distribuzionee Indici di posizione

1 / 49

Forma della distribuzioneUn grafico relativo a dei dati mostra la distribuzionedei dati, ossia i valori che la variabile può assumerecorrelati dalla frequenza con cui ciascuno è statoosservatoControllare la configurazione globale: i dati sonoraggruppati o ci sono osservazioni che deviano inmaniera evidente dal resto ?

istogramma lunghezza conchiglie

lunghezza

frequenza

2 3 4 5 6 7 8 9

05

1015

Una distribuzione si dice unimodale quando presentaun solo piccoUna distribuzione si dice bimodale quando presentadue picchi

2 / 49

Forma della distribuzioneSi chiama moda l’osservazione che si verifica conmaggiore frequenza in una data distribuzione

Una distribuzione si dice unimodale quando presentaun solo picco.Una distribuzione si dice bimodale quando presentadue picchi. 3 / 49

Forma della distribuzione

I La forma della distribuzione si dice simmetricase la parte della distribuzione che precede unvalore centrale è sovrapponibile, comeun’immagine allo specchio, alla parte che seguequel valore centrale

I In una distribuzione simmetrica le modalitàposizionate alla stessa distanza dal centropresentano la stessa frequenza

4 / 49

Forma della distribuzione

5 / 49

Forma della distribuzioneLa distribuzione si dice asimmetrica quando unaparte della distribuzione si presenta più allungatadell’altra

6 / 49

Indici di sintesi

Le quantità numeriche calcolata a partire da uninsieme di dati si chiamano statistiche. Inparticolare tratteremo le seguenti statistiche:

I Indici di centralità

1. moda: si può sempre calcolare2. mediana: si può calcolare per dati

quantitativi o qualitativi ordinali3. media: si può calcolare solo per dati

quantitativi

I Indici di dispersione

7 / 49

Indici di centralità: la media

I La media (aritmetica) semplice di x1, · · · ,xn è lasomma delle osservazioni divisa per il numerodelle osservazioni stesse

x = x1 + · · ·+ xnn =

∑ni=1 xin

I La media (aritmetica) pesata è definita come

x = n1z1 + · · ·+ nkzkn1 + · · ·+ nk

=∑k

i=1 nizin

dove i pesi ni sono le frequenze assolute di ognimodalità zi

8 / 49

Proprietà della media aritmetica

I Se si sostituisce il valore della media aritmeticaa ciascuna delle osservazioni, il valore totaleosservato non cambia

n∑i=1

xi = n× x

I È compresa tra il minimo dei dati e il massimodei dati

I può coincidere con nessuna osservazione

9 / 49

Proprietà della media aritmeticaI La somma delle differenze tra le osservazioni e lamedia (scarti) è pari a 0

n∑i=1

(xi − x) = 0

Interpretazione fisica: se n pesi di pari massavengono posti su un’asta nei punti xi allora x è ilpunto in cui l’asta può essere messa in equilibrio

I La somma dei quadrati delle differenze tra ivalori osservati e una costante a

n∑i=1

(xi −a)2

è minima se a = x10 / 49

Proprietà della media aritmetica

I se ciascuna xi viene moltiplicata per c, lo èanche la media

yi = c× xi ⇒ y = cx

I se ciascuna xi viene incrementata di unacostante c allora anche la media vieneincrementata di c

yi = xi + c⇒ y = x + c

11 / 49

EsempioPeso di 10 polli da allevamento in kg:

1.8, 2.8, 1.9, 2.5, ,2.0, 2.6, 3.0, 2.3, 2.4, 2.0

x = 1.8+2.8+1.9+2.5+2.0×2+3.0+2.6+2.3+2.410 = 2.33

verifichiamo che la somma degli scarti è pari a 0:n∑

i=1(xi − x) = (1.8−2.33) + (2.8−2.33) + · · ·+ (2.4−2.33) = 0

supponiamo di cambiare unità di misura da Kg a g, i datidiventano:

1800, 2800, 1900, 2500, 2000, 2600, 3000, 2300, 2400, 2000

y = 1800+2800+1900+2500+2000×2+3000+2600+2300+240010 =

= 2330 = 2.33×1000 = 1000× x12 / 49

Proprietà della media aritmetica

I La media è notevolmente influenzata dallapresenza di valori estremi (outliers)

I Il numeratore della media aritmetica coinvolgetutte le osservazioni: questo fa si che nel suocalcolo entrino eventualmente gli outliers

I Per questo si dice che non è robusta

13 / 49

Esempio

Numero di cuccioli nati da una coppia di Chihuahua in 12cucciolate:

2, 4, 5, 5, 2, 1, 3, 4, 2, 3, 3, 2

x = 3

Lo statistico distratto mette insieme il 2 con l’1 successivoottenendo ora i dati

2, 4, 5, 5, 21, 3, 4, 2, 3, 3, 2

y = 4.73

14 / 49

Calcolo media con tabella di frequenza, dati continui

Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti. Calcolare la mediaaritmetica

Intervalli punteggi (xi) ni fi

[32.5,40.5) 5 0.125[40.5,48.5) 5 0.125[48.5,56.5) 7 0.175[56.5,64.5) 10 0.25[64.5,72.5) 8 0.2[72.5,80.5) 4 0.1[80.5,88.5] 1 0.025

Totale 40 1

15 / 49

Calcolo media con tabella di frequenza, dati continui

Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti.Consideriamo la colonna dei valori centrali degli intervalli (mi)

Intervalli punteggi (xi) mi ni fi

[32.5,40.5) 36.5 5 0.125[40.5,48.5) 44.5 5 0.125[48.5,56.5) 52.5 7 0.175[56.5,64.5) 60.5 10 0.25[64.5,72.5) 68.5 8 0.2[72.5,80.5) 76.5 4 0.1[80.5,88.5] 84.5 1 0.025

Totale 40 1

16 / 49

Calcolo media con tabella di frequenza, dati continui

Distribuzione di frequenza per classi ordinate di punteggi ad untest di abilità di rotazione mentale di oggetti.

xx =5 ∗ 36.5 + 5 ∗ 44.5 + 7 ∗ 52.5 + 10 ∗ 60.5 + 8 ∗ 68.5 + 4 ∗ 76.5 + 1 ∗ 84.5

40=

7∑i=1

ni ∗ mi

n= 57.9

x = 0.125∗36.5+0.125∗44.5+0.175∗52.5+0.25∗60.5+0.2∗68.5+0.1∗76.5+0.025∗84.5 =

=7∑

i=1

fi ∗ mi = 57.9

17 / 49

Indici di centralità: la mediana

x1, x2, x3, . . . ,xn

ordiniamo i dati in senso crescente

x(1), x(2), x(3), . . . ,x(n)

x(1) = min(x1, . . . ,xn) x(n) = max(x1, . . . ,xn)

I La mediana: è il valore che permette di ripartirela distribuzione in due parti in ciascuna dellequali cade il 50% delle osservazioni

18 / 49

Calcolo della mediana

I Si ordinano i dati in senso crescenteI se il numero di dati n è dispari, la medianacorrisponde al dato che occupa la posizione(n + 1)/2

x0.5 = x(n+12 )

I se il numero di dati n è pari, la mediana è datadalla media aritmetica dei due dati cheoccupano la posizione n/2 e quella n/2 + 1

x0.5 =x(n

2 ) + x(n2 +1)

2

19 / 49

Proprietà della mediana

I Per il calcolo della mediana interessa laposizione occupata dalla osservazioni non il lorovalore numerico

I La mediana è robusta ossia non è influenzatadalla presenza degli outliers

20 / 49

Esempio

Numero di cuccioli nati da una coppia di Chihuahua in 12cucciolate:

2, 4, 5, 5, 2, 1, 3, 4, 2, 3, 3, 2

x0.5 = 3

Lo statistico distratto mette insieme il 2 con l’1 successivoottenendo ora i dati

2, 4, 5, 5, 21, 3, 4, 2, 3, 3, 2

y0.5 = 3

21 / 49

Indici di centralità: la moda

La moda è una misura di tendenza centrale per datisia qualitativi che quantitativi.

I È il valore, o la classe, che ricorre piùfrequentemente

I non è influenzata da outliers

I può non esserci una moda

I ci può essere più di una moda

22 / 49

Esercizio

In sette città in Canada il 14 gennaio 2006 sonostate registrate le seguenti temperature.Calcolarne moda, media e mediana

−12 −5 2 2 0 −3 5

23 / 49

EsercizioCalcolarne moda, media e mediana

−12 −5 2 2 0 −3 5

Moda = 2

x = −12−5 + 2 + 2 + 0−3 + 57 =−11

7 =−1.57

Riordiniamo i dati per calcolare la moda:

−12,−5,−3,0,2,2,5

i dati sono dispari prendo il valore alla posizionen+1

2 , ossia 82 = 4

x0.5 = 024 / 49

Esercizio

In 20 marche di cereali è stato analizzato il contenuto di sodio inmg in una porzione standard, secondo quanto codificato dalNational Labelling and educatioal Act.Calcolare moda media e mediana delle 20 misurazioni:

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

25 / 49

Esercizio

I seguenti dati indicano la pressione sistolica sanguigna di 15 donne

130 115 148 100 156 162 151 156 162

158 155 160 125 150 165

Calcola media e mediana. Cosa succede se 100 viene sostituito con300?

26 / 49

Relazioni tra media, mediana e moda

I In una distribuzione perfettamente simmetrica,la media, la mediana (e la moda) hanno lostesso valore

I Per una distribuzione asimmetrica, la mediaviene, rispetto alla mediana, trascinata verso lecode più pronunciate ( si posiziona quindi nelladirezione dell’asimmetria)

27 / 49

Relazioni tra media, mediana e moda

Nelle distribuzioni di datibiologici, l’asimmetria è quasisempre verso destra e quindi lamedia è > della mediana o dellamoda

invece in caso di asimmetrica asinistra: media più piccola dellamediana

28 / 49

Confronto media e mediana

Preferiamo usare la mediana:I quando i dati sono fortemente asimmetrici;I in presenza di outliers

E’ sconsigliato usare la mediana:I quando i dati sono fortemente discretiI i dati sono abbastanza simmetrici

29 / 49

Confronto media e medianaDati fortemente discreti sono dati che assumonopoche modalità.In quel caso insiemi di dati molto diversi possonoriportare la stessa mediana.Esempio: si considerino due campioni didimensione 5 di dati binari (con due sole modalità)

(0,0,1,1,1) e (1,1,1,1,1)

la mediana è 1 per entrambi. In questo caso èpreferibile la media che indica la porzione di 1presenti nel campione. Si ha 0.6 per il primocampione e 1 per il secondo

30 / 49

Esercizio con tabella di frequenza, dati discreti

Consideriamo la tabella di frequenze di una rilevazione in cui sonostati contati per 50 alberi il numero di alberi ad essi vicini. Siconsiderano vicini alberi ad una distanza radiale inferiore ai 5metri. Dalla rilevazione si osserva che:

Numero di alberi vicini (xi) ni fi

0 3 0.061 4 0.082 6 0.123 13 0.264 13 0.265 6 0.126 5 0.10

Totale 50 1

Calcolare moda, media e mediana

31 / 49

Esercizio con tabella di frequenza, dati discreti

Consideriamo la tabella di frequenze di una rilevazione in cui sonostati contati per 50 alberi il numero di alberi ad essi vicini.

Moda = 3 e 4

x =3 ∗ 0 + 4 ∗ 1 + 6 ∗ 2 + 13 ∗ 3 + 13 ∗ 4 + 6 ∗ 5 + 5 ∗ 6

50=

7∑i=1

ni ∗ xi

n= 3.34

x = 0.06∗0+0.08∗1+0.12∗2+0.26∗3+0.26∗4+0.12∗5+0.10∗6 =7∑

i=1

fi ∗xi = 3.34

x0.5 = 3 = Classe mediana

32 / 49

Misure di posizione: percentili

Il concetto di mediana si pu ò generalizzare:Il p-simo percentile è il valore tale che lascia alla sua sinistra il p%delle osservazioni e alla sua destra il restante (1−p)%

33 / 49

Misure di posizione: quartili

Nelle applicazioni pratiche esistono 3 percentili piùutilizzati detti quartiliI quartili dividono la sequenza ordinata dei dati in 4segmenti contenenti lo stesso numero di valori.

I Il primo quartile, q0.25, è il valore che lascia allasua sinistra 25% e alla sua destra il 75%

I Il secondo quartile, q0.50, coincide con lamediana (50% sono minori, 50% sono maggiori)

I Il terzo quartile, q0.75, è il valore tale che il 75%delle osservazioni sono minori e 25% sonomaggiori di esso

34 / 49

Calcolo dei quartiliUn quartile si trova determinando il valore della suaposizione nella sequenza ordinata dei dati osservati.

I Posizione primo quartile

0.25(n + 1)

se è intero altrimenti si approssima con l’interoprecedente o successivo

I Posizione terzo quartile

0.75(n + 1)

se è intero altrimenti si approssima con l’interoprecedente o successivo

con n il numero di valori osservati35 / 49

Esercizio

In sette città in Canada il 14 gennaio 2006 sonostate registrate le seguenti temperature.

−12 −5 2 2 0 −3 5Calcolare primo e terzo quartile

36 / 49

Esercizio

Ordiniamo i dati in senso crescente:

−12 −5 −3 0 2 2 5

con n = 7I Posizione primo quartile

0.25(8) = 2⇒ q0.25 = x(2) =−5

I Posizione terzo quartile

0.75(8) = 6⇒ q0.75 = x(6) = 2

37 / 49

Esercizio

In 20 marche di cereali è stato analizzato il contenuto di sodio inmg in una porzione standard, secondo quanto codificato dalNational Labelling and educational ActCalcolare primo e terzo quartile delle 20 misurazioni:

0 340 70 140 200 180 210 150 100 130

140 180 190 160 290 50 220 180 200 210

38 / 49

EsercizioDati ordinati:

0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340

dove n = 20.

I Posizione primo quartile

0.25(21) = 5.25⇒ q0.25 = 130

I Posizione terzo quartile

0.75(21) = 15.75⇒ q0.75 = 210

Per il calcolo di q0.25 : 5.25≤ 5.5 approssimiamo a 5

Per il calcolo di q0.75 : 15.75 > 15.5 approssimiamo a 16

39 / 49

Lo scarto interquartileI quartili possono essere utilizzati per definire unamisura di variabilità detta distanza interquartileLo scarto interquartile è la differenza tra il terzo e ilprimo quartile:

IQR = q0.75− q0.25

IQR individua l’intervallo in cui si trovano il 50%delle osservazioni centrali. Eliminando i datiestremi, non è influenzata dalla presenza di outliersEsempio contenuto sodio in cereali:

IQR = q0.75− q0.25 = 210−130 = 80

40 / 49

Outliers

Regola empirica basata sullo scarto interquartile chepermette di identificare i potenziali outlier

Un valore più basso di q0.25−1.5× IQR o più altodi q0.75 + 1.5× IQR viene considerato un potenzialeoutlier

Esempio contenuto sodio in marche di cereali

q0.25−1.5× IQR = 130−1.5×80 = 130−120 = 10

q0.75 +1.5×IQR = 210+1.5×80 = 210+120 = 330I potenziali outlier sono 0 e 340

41 / 49

Boxplot

I Abbiamo introdotto 5 diverse misure di posizione

x(1) q0.25 x0.5 q0.75 x(n)

che ci permettono di sintetizzare la tendenzacentrale e la variabilità di una distribuzione didati

I Possiamo rappresentare questa sintesi con ungrafico detto boxplot

42 / 49

Boxplot

43 / 49

Boxplot

Come si disegna un boxplot?I Si disegna una scatola dal primo quartile q0.25 al terzo quartile

q0.75

I Si traccia un segmento orizzontale nella scatola incorrispondenza della mediana x0.5

I Si disegna un segmento verticale dalla sinistra della scatolafino alla più piccola osservazione che non sia un potenzialeoutlier. Un altro segmento orizzontale va dalla destra dellascatola fino alla più grande osservazione che non sia unpotenziale outlier. I potenziali outlier vengono disegnati comedei cerchietti che ”escono” dai baffi del boxplot

44 / 49

BoxplotEsempio contenuto di sodio in 20 marche di cereali

050

100

150

200

250

300

350

massimo

minimo

mediana

3 quartile

1 quartile

45 / 49

Confronto tra boxplot e istogrammaIl boxplot permette di sintetizzare in un modo univoco la forma diuna distribuzioneUn boxplot non mostra alcune caratteristiche della distribuzionequali, ad esempio, eventuali picchi o valli, cosa che invecepossiamo osservare in un istogrammaIl boxplot ci permette di individuare potenziali outlier

46 / 49

Boxplot e istogramma

47 / 49

Boxplot e istogramma

48 / 49

Boxplot e istogramma

49 / 49