Analisi monovariata: valori caratteristici

22
Analisi monovariata: valori caratteristici • Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di confrontare le distribuzioni di frequenze. Per questo motivo è spesso più conveniente confrontare alcuni elementi informatici sintetici, che sintetizzano appunto alcuni aspetti della distribuzione. • le caratteristiche fondamentali di una distribuzione di frequenza sono due: la tendenza centrale e la variabilità • la tendenza centrale indica, genericamente, verso quale modalità della variabile i valori tendono a concentrarsi • la variabilità, invece, ci informa su come i valori della variabile tendono a disperdersi lontano dai valori di tendenza centrale Per conoscere con correttezza la distribuzione di una variabile è necessario conoscere il comportamento sia della tendenza centrale sia della variabilità, altrimenti si rischia di fare degli errori di interpretazione.

description

Analisi monovariata: valori caratteristici. - PowerPoint PPT Presentation

Transcript of Analisi monovariata: valori caratteristici

Page 1: Analisi monovariata: valori caratteristici

Analisi monovariata: valori caratteristici• Spesso, per motivi di tempo o per convenienza, non si ha la possibilità di

confrontare le distribuzioni di frequenze. Per questo motivo è spesso più conveniente confrontare alcuni elementi informatici sintetici, che sintetizzano appunto alcuni aspetti della distribuzione.

• le caratteristiche fondamentali di una distribuzione di frequenza sono due: la tendenza centrale e la variabilità

• la tendenza centrale indica, genericamente, verso quale modalità della variabile i valori tendono a concentrarsi

• la variabilità, invece, ci informa su come i valori della variabile tendono a disperdersi lontano dai valori di tendenza centrale

Per conoscere con correttezza la distribuzione di una variabile è necessario conoscere il comportamento sia della tendenza centrale sia della variabilità, altrimenti si rischia di fare degli errori di interpretazione.

Page 2: Analisi monovariata: valori caratteristici

Analisi monovariata: tendenza centraleCome già visto in precedenza, anche le misure di tendenza centrale

dipendono dal tipo di variabile che si ha a disposizione

Variabile nominale = moda

La moda è la modalità della variabile alla quale è associata la maggiore frequenza

0

10

20

30

40

50

Musulmano Cattol i co Protes tante Buddi s ta

Moda • è un valore molto povero, poiché ci dice solo la modalità con la più alta frequenza e nulla più• è possibile che oltre alla moda si possano individuare delle sottomode, ossia modalità diverse dalla moda ma con frequenze relativamente alte (es. modalità protestante)• se è possibile individuare una sola moda, la distribuzione si definisce unimodale; se è presente una sottomoda, si definisce bimodale e così via

Page 3: Analisi monovariata: valori caratteristici

Analisi monovariata: tendenza centrale - 2Oltre alla moda, per le variabili ordinali è possibile rilevare un altro valore

caratteristico:

Variabile ordinale = mediana

La mediana è la modalità del caso che occupa il posto «di mezzo» nella distribuzione ordinata dei casi secondo quella variabile

• Se N è dispari, c’è un solo caso centrale (N+1 /2). Se N è pari, i casi centrali sono due: N/2 e N/2+1. Se entrambi i casi presentano la stessa modalità, la variabile ha una sola mediana; altrimenti le mediane sono due (se la variabile è cardinale, la mediana è uguale alla media dei valori assunti dai due casi)• Se sono disponibili le frequenze cumulate, la mediana corrisponde alla modalità in corrispondenza della quale le frequenze cumulate superano la soglia del 50%

Titolo di studio

Freq. %%

cum.

Nessun titolo 30 2,5 2,5

Lic. Elementare

509 42,4 44,7

Lic. Media 342 28,5 73,4

Diploma 264 22,0 95,4

Laurea 55 4,6 100,0

Totale 1.200 100,0

mediana

Page 4: Analisi monovariata: valori caratteristici

Analisi monovariata: tendenza centrale - 3Oltre alla moda ed alla mediana, per le variabili cardinali è possibile rilevare

un altro valore caratteristico, molto conosciuto:

Variabile cardinale = media aritmetica

La media è data dalla somma dei valori assunti dalla variabile su tutti i casi, divisa per il numero di casi

• La formula a sx è la definizione formale di media aritmetica e si legge «sommatoria di X con i, per i che va da 1 a N, fratto N»• è possibile calcolare la media anche se abbiamo a disposizione solo la rappresentazione tabulare con le frequenze assolute. La formula diventa:

Xi × fi

N

X = X1 + X2 +…+ Xn = Xi

N N

N

i =1

N

i =1

poiché per calcolare la media sono necessarie operazioni di addizione, moltiplicazione e divisione, è possibile calcolare la media solo per le variabili cardinali

Page 5: Analisi monovariata: valori caratteristici

Analisi monovariata: tendenza centrale - 5Esercizio 1:

Ripartizione geografica %

Italia Nord-occidentale 22,9

Italia Nord-orientale 22,5

Italia Centrale 18,7

Italia Meridionale 26,6

Italia Insulare 9,3

Totale 100,0(N=60.000)

Tipo di comune %

Comuni fino a 2.000 ab. 12,4

Comuni con 2.001 – 10.000 ab. 34,7

Comuni con 10.001 – 50.000 ab 30,9

Comuni con oltre 50.000 ab. 22,0

Totale 100,0(N=48.664)

Che tipo di variabili sono e che valori caratteristici di tendenza centrale posso calcolare?

Page 6: Analisi monovariata: valori caratteristici

Analisi monovariata: tendenza centrale - 6Esercizio 2:

N. di furti subìti %

1 50,0

2 25,0

3 25,0

Totale 100,0(N=200)

Settore economico intervistato % % cum.

Agricoltura 8,7 8,7

Attività manifatturiere 27,3 36,0

Servizi – terziario 38,7 74,7

Pubblica amministrazione e istruzione 25,3 100,0

Totale 100,0(N=46.349)

Che tipo di variabili sono e che valori caratteristici di tendenza centrale posso calcolare?

Page 7: Analisi monovariata: valori caratteristici

Analisi monovariata: tendenza centrale - 4

• Ricapitolando:

• variabili nominali = moda

• variabili ordinali = moda, mediana

• variabili cardinali = moda, mediana, media aritmetica

• Nel caso sia possibili calcolare tutti i valori di tendenza centrale, non è detto che questi coincidano tra loro. In genere è più opportuno utilizzare la media, poiché riflette il comportamento di tutti i valori della variabile

• La media, tuttavia, risente molto dei valori estremi; quindi, in caso di variabili cardinali che assumono valori molto alti o bassi rispetto alla media, è più opportuno utilizzare la mediana

Page 8: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 1

• I valori caratteristici di tendenza centrale ci indicano il “baricentro” della distribuzione, ma non ci dicono nulla sul modo di collocarsi delle altre modalità intorno a questo baricentro

Xi Yi

18 3

20 6

20 9

20 16

21 20

23 30

25 63

Xi = 21 Yi = 21

• Se osserviamo, ad esempio, le due distribuzioni della variabile “età” a lato, possiamo notare che esse hanno la stessa media, pari a 21, ma anche con uno sguardo “rapido” possiamo notare che le modalità sono estremamente differenti. Questa differenza viene computata attraverso i valori caratteristici di variabilità.

• Come per la tendenza centrale, i valori caratteristici di variabilità si differenziano a seconda del tipo di variabile sottoposta ad analisi.

Page 9: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 2VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI

• Per una variabile nominale possiamo ipotizzare due condizioni:

1. Se tutti i casi si addensano in una sola modalità (che sarà la moda di quella variabile), avremo una situazione di scarsa variabilità, ossia di massima omogeneità (o squilibrio, o concentrazione)

2. Se tutti i casi sono, invece, equidistribuiti fra le modalità, ossia quando ogni modalità raccoglie lo stesso numero di casi, si ha una situazione di forte variabilità, quindi massima eterogeneità (o equilibrio, o dispersione)

Modalità Omogeneità Eterogeneità

Ateo 0 25

Cattolico 100 25

Protestante

0 25

Buddista 0 25

Totale 100 100

E’ quindi necessario individuare un indice che possa sintetizzare la variabilità della distribuzione di una variabile nominale.

Page 10: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 3VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI

• Il valore caratteristico di variabilità per le nominali è l’indice di omogeneità (O)

O = p21 + p2

2 + … + p2k = p2

ii =1

k

L’indice di omogeneità è dato dalla somma dei quadrati delle frequenze proporzionali (o proporzioni)

• L’indice assume valore massimo quando una sola proporzione assume valore 1 (ossia tutti i casi si concentrano in quella modalità) e tutte le altre hanno valore 0 (ossia nessun caso si concentra in queste modalità). Per tali motivi il valore massimo dell’indice sarà 1

• Il valore minimo dell’indice dipende, invece, dal numero di modalità, ed è pari a 1/k (dove k è il numero di modalità della variabile)

Page 11: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 4VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI

Modalità Prop. 1 Prop. 2 Prop. 3

Ateo 0,25 0 0,33

Cattolico 0,25 1 0,33

Protestante 0,25 0 0,33

Buddista 0,25 0 1

Totale 1 1

Ind. omogeneità 0,252 + 0,252 + 0,252 + 0,252 = 0,25 02 + 12 + 02 + 02 = 1 0,332 + 0,332 + 0,332 = 0,33

Se si confrontano le distribuzioni in colonna 1 e 3 si noterà che entrambe sono completamente omogenee (ad ogni modalità è assegnato lo stesso numero di casi), ma il risultato dell’indice di omogeneità sarà diverso: nel primo caso è uguale a 0,25 (1/4 modalità), nel secondo è pari a 0,33 (1/3 modalità). Questo perché, come abbiamo già detto, il valore minimo assunto dall’indice dipende dal numero di modalità della variabile. E’ quindi opportuno modificare l’indice affinché il suo campo di variazione sia uguale per tutte le variabili, indipendentemente dalle modalità.

O – 1/k

1 – 1/kIndice di omogeneità relativa Orel

Campo di variazione: 0 ÷ 1

X – Vmin

Vmax - Vmin

Page 12: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 5VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI NOMINALI

Modalità Distribuzione A Distribuzione B

% p p2 % p p2

Ateo 55,0 0,550 0,3025 89,5 0,895 0,8010

Cattolico 32,7 0,327 0,1069 3,5 0,035 0,0012

Protestante 7,6 0,076 0,0058 3,5 0,035 0,0012

Buddista 4,7 0,047 0,0022 3,5 0,035 0,0012

Totale 100,0 1 100,0 1

O = 0,3025 + 0,1069 + 0,0058 + 0,0022 = 0,42

Orel = 0,42 – 1/4 = 0,23

1 – 1/4

O = 0,8010 + 0,0012 + 0,0012 + 0,0012 = 0,80

Orel = 0,80 – 1/4 = 0,73

1 – 1/4

Page 13: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 6VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI ORDINALI

• Abbiamo già visto il ruolo della mediana, ossia quello di dividere in due parti uguali la distribuzione di una variabile almeno ordinale• E’ utile suddividere la distribuzione anche in quattro parti, dalla numerosità uguale. Le modalità che segnano il confine di ogni parte sono dette quartili.

• primo quartile: valore al di sotto del quale si trova il 25% dei casi, e al di sopra del quale si trova il 75%

• terzo quartile: valore al di sotto del quale si trova il 75% dei casi, e al di sopra il 25%

• Se il primo quartile corrisponde alla modalità più “bassa”, secondo l’ordine della variabile, ed il terzo quartile alla modalità più “alta”, è possibile che la variabile sia eterogenea

• Se la distanza tra il primo ed il terzo quartile è minore (ossia le modalità individuate sono vicine tra loro), allora è possibile che la variabile sia più omogenea

Page 14: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 7VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI ORDINALI

Modalità % % cum. % % cum

Estrema sinistra 2,2 2,2 10,1 10,1

Sinistra 19,0 21,2 16,8 26,9

Centro-sinistra 32,8 54,0 12,0 38,9

Centro 14,0 68,0 25,1 64,0

Centro-destra 28,9 96,9 10,3 74,3

Destra 2,1 99,0 13,7 88,0

Estrema destra 1,0 100,0 12,0 100,0

Totale 100,0 100,0

• è possibile assumere come misura di variabilità la differenza tra il primo ed il terzo quartile:

differenza interquartile Q = Q3 – Q1

Page 15: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 8VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI

• Per le variabili cardinali un primo valore che può fornirci un’indicazione della variabilità della distribuzione è dato dal campo di variazione, ossia la differenza tra il valore minimo ed il valore massimo.

Età

Xi Xk

22 3

23 15

24 22

25 25

26 56

27 67

Se prendiamo, ad esempio, due distribuzione della variabile “età”, possiamo calcolare il campo di variazione per ciascuna distribuzione

• Xi 27 – 22 = 5

• Xk 67 – 3 = 64

L’informazione rilevata con il campo di variazione, tuttavia, è abbastanza “grezza”, per il semplice motivo che tiene conto esclusivamente del valore più alto e più basso della distribuzione, e non ci dice nulla su ciò che accade al suo interno.

Page 16: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 9VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI

• Altri valori caratteristici, invece, prendono come riferimento la media aritmetica che, come abbiamo già detto, ci dà informazioni su quale valore i casi della variabile tendono a concentrarsi.

• Per questo motivo, un primo passaggio può essere quello di calcolare lo scostamento di ogni valore dalla media della distribuzione (Xi – Xi), seguendo questo ragionamento:

1. Più i casi si discostano dalla media, più la distribuzione di una variabile cardinale risulta dispersa (poiché i casi tenderanno ad assumere valori lontani dalla tendenza centrale);

2. Meno i casi, invece, si discostano dalla media, più la distribuzione sarà concentrata (ossia i casi tenderanno a ruotare intorno alla media)

• Si potrebbe ipotizzare di calcolare la media di tutti gli scarti per creare un valore che indichi la variabilità della distribuzione; tuttavia, per definizione la somma degli scarti è pari a 0

(Xi – X) = 0i

N

Page 17: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 10VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI

• La somma degli scarti è pari 0 per il semplice motivo che, all’interno di una distribuzione, alcuni scarti saranno positivi (il valore è più alto del valore della media), altri scarti saranno negativi (ossia il valore è più basso del valore della media)

Età

Xi Xi - X

22 -2,5

23 -1,5

24 -0,5

25 0,5

26 1,5

27 2,5

Media X = 24,5

(-2,5)+(-1,5)+(-0,5)+(0,5)+(1,5)+(2,5) = 0

• Una possibile soluzione a questo problema è utilizzare i valori assoluti degli scarti della media (ossia eliminare il “segno” dal numero – es. -2,5 diventa 2,5).

• La somma dei valori assoluti degli scarti dalla media, divisa per N, è detta scostamento semplice medio. E’ un valore, tuttavia, che non viene usato per rilevare la variabilità di una cardinale. Come è possibile, quindi, risolvere il problema?

Page 18: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 11VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI

• La soluzione utilizzata consiste nell’elevare al quadrato gli scarti dalla media, così da annullare il segno negativo dei valori.

• Il vantaggio di questa soluzione, oltre ad eliminare il problema della somma degli scarti pari a 0, consiste nel conferire un maggior peso agli scarti più “forti” (elevandoli, appunto, al quadrato), accentuando così il carattere di indicatore di variabilità allo scarto dalla media.

Età

Xi (Xi – X)2

22 6,25

23 2,25

24 0,25

25 0,25

26 2,25

27 6,25

Media X = 24,5

(6,25)+(2,25)+(0,25)+(0,25)+(2,25)+(6,25) = 17,5

• Ora è possibile calcolare un valore che ci permetta di valutare la variabilità di una distribuzione cardinale. Il primo valore caratteristico consiste nel dividere gli scarti dalla media elevati al quadrato per N

S2 = (Xi – X)2 = 2,92

N

i

N

VARIANZA

Page 19: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 12VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI

• La varianza, tuttavia, è una grandezza quadratica (infatti è costruita sugli scarti dalla media elevati al quadrato) e per questo motivo non può essere messa in relazione con altre grandezze (es. media). Perciò, nell’analisi monovariata si utilizza più la radice della varianza:

S = (Xi – X)2

N

NDEVIAZIONE STANDARD

(o scarto quadratico medio) i

La deviazione standard è il valore caratteristico di variabilità per le variabili cardinali: esso ci permette di individuare il grado di dispersione di una distribuzione:

- A valori bassi di S corrisponderà una bassa dispersione dei valori della variabile tra le diverse modalità

- A valori altri di S, invece, corrisponderà un’alta dispersione dei valori della variabile tra le diverse modalità

Page 20: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 13VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI

Xi (Xi – X)2 Yi (Yi – Y)2

18 9 3 324

20 1 6 225

20 1 9 144

20 1 16 25

21 0 20 1

23 4 30 81

25 16 63 1.764

Poiché il valore della deviazione standard di Yi è più alto di quello di Xi, possiamo pensare che la prima vari più della seconda, ma purtroppo questo non è sempre vero perché:• Le unità di conto o misura delle due variabili possono essere diverse;• pur avendo la stessa unità di misura/conto, possono riferirsi a ordini di grandezza diversi (es. una distribuzione con vmax=18.000€, la seconda con vmax=50.000€)

Page 21: Analisi monovariata: valori caratteristici

Analisi monovariata: variabilità - 14VALORI CARATTERISTICI DI VARIABILITA’ PER VARIABILI CARDINALI

Xi (Xi – X)2 Yi (Yi – Y)2

18 9 3 324

20 1 6 225

20 1 9 144

20 1 16 25

21 0 20 1

23 4 30 81

25 16 63 1.764

X = 21 S = 2,1 Y = 21 S = 19,1

Poiché non è possibile confrontare direttamente la deviazione standard di due distribuzioni, è necessario costruire un nuovo valore caratteristico

COEFFICIENTE DI VARIAZIONE

Cv = S X

Più alto sarà il coefficiente di variazione, più la distribuzione della variabile sarà dispersa:

CvX = 2,1/21 = 0,10

CvY = 19,1/21 = 0,91

Page 22: Analisi monovariata: valori caratteristici

Contatti

Domingo Scisci

Università di Milano-Bicocca

Via Bicocca degli Arcimboldi 8 20126 Milano 

Edificio U7/II Piano

Stanza 207

Telefono: 02 64487513Mail: [email protected]

Quest'opera è stata rilasciata sotto la licenza Creative Commons Attribuzione-Non commerciale-Condividi allo stesso modo 2.5 Italia. Per leggere una copia della licenza visita il sito web http://creativecommons.org/licenses/by-nc-sa/2.5/it/ o spedisci una lettera a Creative Commons, 171 Second Street, Suite 300, San Francisco, California, 94105, USA.