Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un...

27
Caratteri Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità (maschio e femmina; viaggio per lavoro, per vacanza, per studio, ecc…) I caratteri si distinguono in: Qualitativi sconnessi (sesso, luogo di nascita, colore degli occhi, luogo di destinazione di un viaggio,…) Qualitativi ordinati (titolo di studio, grado di soddisfazione, posizione in graduatoria, mese …) Quantitativi (numero di figli, pm percorsi, voto ad un esame, numero di posti letto…)

Transcript of Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un...

Page 1: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

CaratteriCaratteriIn corrispondenza di ogni unità statistica si possono

osservare dei caratteri. Un carattere può assumere modalità differenti per

le varie unità (maschio e femmina; viaggio per lavoro, per vacanza, per studio, ecc…)

I caratteri si distinguono in:Qualitativi sconnessi (sesso, luogo di nascita, colore

degli occhi, luogo di destinazione di un viaggio,…)Qualitativi ordinati (titolo di studio, grado di

soddisfazione, posizione in graduatoria, mese …)Quantitativi (numero di figli, pm percorsi, voto ad

un esame, numero di posti letto…)

Page 2: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Caratteri (o variabili)Caratteri (o variabili)Tipo di carattere Operazioni che posso

fare

Qualitativi sconnessi =

Qualitativi ordinati =, >, <

Quantitativi =, >, <, posso misurare di

quanto è minore o maggiore

Page 3: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Matrice di datiMatrice di datiX1 X2 X3 X4 X5 … … Xp

1 X11 X12 X13 X14 X15 … … X1p

2 X21 X22 X23 X24 X25 … … X2p

3 X31 X32 X33 X34 X35 … … X3p

4 X41 X42 X43 X44 X45 … … X4p

5 X51 X52 X53 X54 X55 … … X5p

6 X61 X62 X63 X64 X65 … … X6p

… … … … … … … … …… … … … … … … … …… … … … … … … … …n-1 Xn-11 Xn-12 Xn-13 Xn-14 Xn-15 … … Xn-1p

n Xn1 Xn2 Xn3 Xn4 Xn5 … … Xnp

Page 4: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Distribuzione di frequenzaDistribuzione di frequenzaLa distribuzione di frequenza di una variabile è

una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei dati.

Distribuzione di frequenza della variabile sesso

Frequenza assoluta

Frequenza relativa

Frequenza percentuale

Frequenza assoluta cumulata

Frequenza relativa

cumulata

Frequenza percentuale cumulata

nj fj pj Nj Fj Pj

Maschi 4941 0.501 50.096 4941 0.501 50.096

Femmine 4922 0.499 49.904 9863 1.000 100.0

Totale 9863 1 100.0

Page 5: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Distribuzione di frequenzaDistribuzione di frequenzaIn un collettivo composto da n elementi una variabile

statistica X può assumere k modalità diverse

x1, x2, x3, …….. xp

In modo che la modalità x1 si presenta n1 , la modalità

x2 si presenta n2 …….. la modalità xk si presenta nk

n1 + n2 + n3 + …….. + nk-1 + nn = n

Page 6: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

I graficiI graficiDevo tenere conto di: Fenomeno oggetto di studio Tipo di variabile esaminata Distribuzione di frequenza

Il grafico deve avere le proprietà della Chiarezza – immediatamente chiaro Accuratezza – presenza dell’unità di misura Proporzionalità – indicazioni sulle reali dimensioni del

fenomeno

Il grafico deve sempre contenere: Intestazione – titolo Variabili Unità di misura Fonte dei dati

Page 7: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

I grafici – variabili sconnesse o qualitative I grafici – variabili sconnesse o qualitative ordinabiliordinabiliGrafici a barre – ogni modalità viene rappresentato da una barra

(orizzontale o verticale) la cui lunghezza misura la frequenza (assoluta, relativa o %)

Diagrammi circolari – sono a forma di cerchio (torta) - gli spicchi del cerchio sono proporzionali alle modalità da rappresentare. Per ottenere gli spicchi bisogna calcolare l’angolo corrispondente alla modalità (es: usando le frequenze percentuali si usa la proporzione

360° : 100 = ß : pj

Diagrammi in coordinate polari – grafici circolari espressi in coordinate polari – indicati per rappresentare i fenomeni ciclici (giorni della settimana, mesi)

Cartogrammi – per rappresentare le serie territoriali – cartine geografiche dove sono rappresentate le partizioni territoriali con sfumature differenti a seconda della frequenza

Pictogrammi – grafico con finalità divulgative in cui figure e disegni e simboli simili al fenomeno considerato sono utilizzati con dimensione e numero variabile per indicare la frequenza

Page 8: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

I grafici – variabili quantitativeI grafici – variabili quantitative

Istogramma – le classi possono essere di pari ampiezza o con ampiezza diversa. In questo caso la lettura del grafico si basa sulle aree delle colonne e non sull’altezza – dobbiamo calcolare la densità di frequenza (frequenza / ampiezza della classe)

Diagrammi in coordinate cartesiane a canne d’organo – per caratteri quantitativi discreti

Diagrammi in coordinate cartesiane ortogonali – grafico a linea, si usa per le serie storiche ponendo il tempo sulle ascisse e l’intensità del fenomeno sulle ordinate

Page 9: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Misure di tendenza Misure di tendenza centralecentrale

La distribuzione di frequenza è una descrizione completa della variabile cioè di come la variabile è distribuita nella popolazione

In molte situazioni abbiamo bisogno di indici di sintesi della distribuzione

MODA: è la modalità della variabile che si presenta nella distribuzione con maggiore frequenza

Si può applicare a tutti i tipi di variabili

Page 10: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Misure di variabilitàMisure di variabilitàLa moda segnala il valore maggiore, ma nulla ci

dice su come è distribuita la variabile. Una variabile sconnessa ha una distribuzione

massimamente OMOGENEA quando tutti i casi si presentano con la stessa modalità (il 100% del collettivo presenta una unica modalità) – è più omogenea quanto più essa è concentrata

È massimamente eterogenea quando i casi sono equidistribuiti fra le modalità

Page 11: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Misure di tendenza Misure di tendenza centralecentrale

Data una distribuzione ordinata in senso crescente la mediana è il valore che biripartisce la distribuzione lasciando uguali numero di termini a destra e a sinistra

MEDIANA: è la modalità medianaSi può applicare alle variabili ordinabili (non ai

caratteri qualitativi sconnessi)Se n è dispari la mediana è il valore o la modalità

che occupa la posizione (n+1)/2Me = x(n +1)/2

Se n è pari la mediana è il valore o la modalità che occupa la posizione (n/2)+1

Me = (x(n /2) + x(n/2+1) )/2

Page 12: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Misure di tendenza Misure di tendenza centralecentrale

Data una distribuzione ordinata in senso crescente i quartili sono tre indici che dividono la distribuzione ordinata in 4 parti uguali.

Il primo quartile (Q1) è il valore che lascia alla propria sinistra il 25% dei termini e il 75% alla destra.

Il secondo quartile (Q2) coincide con la mediana, ed è il valore cha divide in due parti uguali la distribuzione.

Il terzo quartile (Q3) è il valore che la scia alla propria sinistra il 75% dei termini e il 25% alla destra.

Page 13: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

La mediaLa mediaData un insieme di valori quantitativi e un funzione f f (x1 , x2 , …. , xn )

si definisce media dei valori x1 , x2 , …. , xn

secondo il criterio f quel valore M tale che f (x1 , x2 , …. , xn ) = f (M, M, , … , M )

La media M rappresenta il valore che sostituito ai singoli valori della distribuzione mantiene inalterato il totale.

La media M è semrpe un valore interno all’intervallo di valori di xj cioè

xmin <= M <= xmax

Page 14: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

La media aritmeticaLa media aritmeticaLa media aritmetica μ di un insieme di n valori x1 , x2 , …. , xn di un carattere quantitativo X è

pari alla somma dei valori divisa per il loro numero

μ =( x1 + x2 + …. + xn ) / n

μ = (∑ xi ) / n

Page 15: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

La media aritmeticaLa media aritmeticaSe la distribuzione del carattere è una

distribuzione di frequenza la media aritmetica μ si calcola come una media ponderata, cioè sommando i prodotti delle singole modalitàxj per j=1 , …. , k

e le rispettive frequenze nj per j = 1 , …. , k

diviso la numerosità del collettivoμ =( x1n1 + x2n2 + …. + xknk ) / n

μ = (∑ xjnj ) / n

Se ho le frequenze relative la formula diventaμ = ∑ xjfj

Page 16: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

La media aritmeticaLa media aritmeticaLa media aritmetica risente fortemente dei valori

estremi della distribuzione. Se sono presenti valori anomali (outlier), il valore medio calcolato può non rappresentare bene la distribuzione. La media aritmetica è molto sensibile ai valori anomali.

A volte si usa la media troncata (trimmed mean) ossia la media calcolata solo sui valori centrali della distribuzione

La trimmed mean al 90% significa calcolare la media escludendo il 5% dei valori più piccoli e il 5% dei valori più grandi

Page 17: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Proprietà della media Proprietà della media aritmeticaaritmetica

1) La somma dei valori x1 + x2 + …. + xn è uguale alla media moltiplicata per il numero di unità A

∑ xi = nμ

2) La somma degli scarti positivi dalla media aritmetica è uguale in valore assoluto a quella degli scarti negativi e quindi la somma degli scarti (positivi e negativi) è uguale a zero

Scarto (xi – μ)

∑ (xi – μ) = 0

Page 18: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Proprietà della media Proprietà della media aritmeticaaritmetica

1) La media M è sempre un valore interno all’intervallo di valori di xj cioè

xmin <= M <= xmax

2) La somma dei valori x1 + x2 + …. + xn è uguale alla media moltiplicata per il numero di unità n

∑ xi = nμ

3) La somma degli scarti positivi dalla media aritmetica è uguale, in valore assoluto, a quella degli scarti negativi e quindi la somma degli scarti (positivi e negativi) è uguale a zero

Scarto (xi – μ)

∑ (xi – μ) = 0

Page 19: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Proprietà della media Proprietà della media aritmeticaaritmetica

4) La somma dei quadrati degli scarti dalla media aritmetica è minore della somma dei quadrati degli scarti da qualsiasi numero c ≠ μ

Scarto (xi – μ)

Scarto (xi – c)

∑ (xi – c)2 = min per c= μ

Page 20: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Medie e CaratteriMedie e CaratteriTipo di carattere Medie che posso fare

Qualitativi sconnessi Moda

Qualitativi ordinati Moda, Mediana, Quartile

Quantitativi Moda, Mediana, Quartile e Media

Page 21: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

VariabilitàVariabilitàLa sola rappresentazione della distribuzione con gli indici

di posizione e con le medie non consente spesso di descrivere la distribuzione. Si utilizzano allora delle misure di variabilità.

La variabilità esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere

Un indice di variabilità V(x) ha le seguenti proprietà:V(x) = 0 se tutte le unità presentano la medesima

modalitàV(x) > 0 cresce al crescere della diversità tra le modalitàV(x + c) = V(x) + c aggiungendo una costante alle

modalità di x la variabilità non cambiaSe V(x) >= V(y) allora il carattere x è più variabile del

carattere y

Page 22: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

VariabilitàVariabilità3 categorie di indici:1. Indici di dispersione intorno alla media2. Indici di disuguaglianza a coppie3. Indici di mutabilità che misurano l’omogeneità

ed eterogeneità tra modalità

UNA ULTERIORE DISTINZIONE in:Indici ASSOLUTI: utilizzano la stessa unità di

misura della distribuzione e non consentono di fare confronti tra modalità espresse con unità di misura diverse

Indici RELATIVI: depurano la distribuzione dell’unità di misura e sono adatti per operare dei confronti.

Page 23: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Variabilità rispetto ad una Variabilità rispetto ad una mediamedia

Misura la presenza o no di una certa stabilità dei valori assunti dalle unità rispetto ad una media – indici si basano sul concetto di scarto o scostamento rispetto alla media delle varie unità

La VARIANZAσ2 = (∑ (xi – μ)2 ) / n

Se ho una distribuzione di frequenza la varianza sarà

σ2 = (∑ (xj – μ)2 nj ) / n

σ2 = ∑ (xj – μ)2 fj

Page 24: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Variabilità rispetto ad una Variabilità rispetto ad una mediamedia

La DEVIANZA è la somma degli scarti al quadrato (è il numeratore della varianza)

DEV = ∑ (xi – μ)2

La varianza ha il limite di utilizzare come unità di misura l’unità di misura del carattere elevata al quadrato

Per questo si utilizza lo scarto quadratico medio o deviazione standard che è la RADICE QUADRATA della varianza

Page 25: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Coefficiente di variazioneCoefficiente di variazioneLe misure viste fino ad ora sono indici ASSOLUTI,

ossia strettamente legati alle unità di misuraÈ difficile fare dei confronti tra distribuzioni diverseIl più diffuso indice di variabilità relativa è il

coefficiente di variazione (CV) che si ottiene dividendo la deviazione standard con la media

CV = σ / μ

Molto spesso il CV è espresso in termini % cioè moltiplicato per 100

CV = (σ / μ)*100

Page 26: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Campo di variazioneCampo di variazioneTra le misure che si basano sul confronto di misure

caratteristiche della distribuzione c’è il CAMPO DI VARIAZIONE o RANGE

Dato un insieme n di valori x1 , x2 , …. , xn ordinati il campo di variazione è la differenza tra il valore più grande e il più piccolo

R = xn - x1

È un indice molto grezzo e molto sensibile ai valori anomali (è = 0 quando tutti i valori sono uguali e crescere al crescere della variabilità)

Page 27: Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un carattere può assumere modalità differenti per le varie unità

Differenza interquartileDifferenza interquartileÈ un indice semplice ma che mitiga l’effetto dei

valori anomaliDato un insieme n di valori x1 , x2 , …. , xn ordinati

la differenza interquartile (DQ) è la distanza tra il terzo (Q3) e il primo (Q1) quartile

DQ = Q3 - Q1

Se l’intervallo interquartilico è piccolo vuol dire che la metà delle osservazioni si trova intorno alla mediana, all’aumentare della distanza interquartilica aumenta la dispersione del 50% delle osservazione centrali intorno alla mediana