1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere...

17
1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita e rappresenta nel modo più corretto l’insieme dei dati osservati

Transcript of 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere...

Page 1: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

1

Sintesi dei dati

La sintesi dei dati comporta una perdita di

informazioni, deve quindi essere privilegiato

l’indice di sintesi che minimizza la perdita e

rappresenta nel modo più corretto l’insieme dei

dati osservati

Page 2: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

2

Indice di sintesi

deve essere compresa tra il dato più piccolo ed il dato più elevato della distribuzione

x1 ≤ sintesi ≤ xn

deve identificarsi con i valori più frequenti

sono localizzati al centro della distribuzione

indici di ““tendenza centrale”

Page 3: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

3

Indici di sintesi:

medie analitiche: il calcolo richiede operazioni algebriche su tutti i valori del carattere

dati quantitativi

indici di posizione: il calcolo non considera tutti i valori ma solo la loro posizione

tutti i tipi di dati

Page 4: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

4

MEDIA ARITMETICA

N

XN

ii

1

Calcolabile per dati quantitativi continui

Page 5: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

Esempio sulla media aritmentica

5

Peso di un campione di n=60 casse di legno Peso di un campione di n=60 casse di legno presenti in porto da caricare su nave mercipresenti in porto da caricare su nave merci

19, 29, 15, 20, 20, 17, 25, 15, 26, 25, 17, 21, 22, 25, 26, 17, 19, 21, 22, 24, 23, 19, 20, 21, 26, 26, 24, 19, 20, 24, 24, 25, 26, 25, 19, 19, 25, 19, 26, 19, 20, 20, 25, 26, 24, 24, 20, 20, 26, 26, 20, 24, 20, 24, 24, 26, 24, 24, 26, 24

Somma delle x = 1341Media = 1341/60 = 22.35 Kg

N

XN

ii

1

Page 6: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

6

INDICI DI POSIZIONE

forniscono indicazioni sulla tendenza centrale di una distribuzione, senza ricorrere all’elaborazione di tutti i dati

sono utilizzabili:

per i dati qualitativi ordinali

per i dati quantitativi

Page 7: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

7

MODA

è quel valore che corrisponde alla massima frequenza del fenomeno

può essere utilizzata: per dati qualitativi per dati quantitativi discreti per dati quantitativi continui ma divisi in classi

non prende in considerazione i dati relativi ad un carattere, ma le frequenze con cui i dati del carattere osservato si presentano (nessuna operazione algebrica)

Page 8: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

8

Esempio:

Numero di

viaggi negli

ultimi 5 anni

F

0 1

1 2

2 5

3 3

4 1

5 1

Totale 13

Page 9: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

9

MEDIANA

utilizzata quando:

dati qualitativi, oppure quantitativi ordinati in senso crescente o decrescente

Valori anomali

valore che occupa la posizione centrale divide in due parti uguali la distribuzione

il 50% dei dati sono di valore superiore a quello della mediana ed il 50% di valore inferiore

Page 10: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

10

Mediana

Calcolo:

Se N è dispariMediana = dato che occupa la posizione (N+1)/2

tale che la metà dei valori è rispettivamente maggiore e minore rispetto al valore della mediana

Se N è pariMediana = dati nella posizione N/2 ed ( N /2 ) + 1*

* nel caso in cui i dati siano quantitativi, la mediana è data dalla media dei due valori centrali della distribuzione

Page 11: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

11

Esempio:

Autotrasportatori che alloggiano in albergo

Categoria n°autisti1 Stella 3912 Stelle 18753 Stelle 89224 Stelle 24435 Stelle 218Tot 13849

391

1875

8922

2443

2180

1000

20003000

4000

5000

6000

70008000

9000

10000

1 Stella 2 Stelle 3 Stelle 4 Stelle 5 Stelle

Posto mediano=(13849+1)/2= 6925Mediana=3 stelle

Moda= 3 stelle

Page 12: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

12

Quantili

QUANTILI: valori che dividono la distribuzione in parti uguali

Assumono denominazioni diverse a seconda del numero di parti in cui suddividono l’insieme delle unità ordinate per grandezza

QUARTILI: valori per cui una distribuzione, ordinata in senso crescente, risulta

suddivisa in 4 parti ugualiIl primo quartile (Q1) è quel valore che lascia a sinistra il 25% della distribuzione ed il 75% a destraIl secondo quartile (Q2) corrisponde con la mediana e lascia destra ed a sinistra il 50% dei dati;Il terzo quartile (Q3), è quel valore che lascia a destra il 25% della distribuzione ed il 75% a sinistra

CENTILI: In una distribuzione si calcola la distribuzione cumulativa della frequenza relativa per una certa variabile X.

Il valore xi che separa l’1% delle osservazioni è chiamato primo centile, il valore xi che separa il 2% delle osservazioni è il secondo centile e così via. Il 500 centile corrisponde alla mediana della distribuzione

Page 13: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

13

Box-Whisker plot

minimo massimo

75° percentile

25° percentile

mediana (50° percentile)

25 50 75 100

mesi

Page 14: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

14

Distribuzione Simmetrica

μ = Me = Mo

Page 15: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

15

Distribuzione con asimmetria positiva

Mo < Me < μ

Page 16: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

16

Distribuzione con asimmetria negativa

μ < Me < Mo

Page 17: 1 Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato lindice di sintesi che minimizza la perdita.

17

Simmetria e Asimmetria

Se la distribuzione è simmetrica μ = Me = MoSe μ = Me = Mo la distribuzione è simmetrica

La condizione dell’uguaglianza delle tre misure è necessaria, ma non sufficiente, a garantire la simmetria di una distribuzione

infatti, data la seguente distribuzione:4, 16, 20, 20, 20, 30, 30

media = 20mediana = 20moda =20

la distribuzione è asimmetrica!!!0

5

10

15

20

25

30