Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un...
-
Upload
ferro-marchesi -
Category
Documents
-
view
213 -
download
0
Transcript of Caratteri In corrispondenza di ogni unità statistica si possono osservare dei caratteri. Un...
CaratteriCaratteriIn corrispondenza di ogni unità statistica si possono
osservare dei caratteri. Un carattere può assumere modalità differenti per
le varie unità (maschio e femmina; viaggio per lavoro, per vacanza, per studio, ecc…)
I caratteri si distinguono in:Qualitativi sconnessi (sesso, luogo di nascita, colore
degli occhi, luogo di destinazione di un viaggio,…)Qualitativi ordinati (titolo di studio, grado di
soddisfazione, posizione in graduatoria, mese …)Quantitativi (numero di figli, pm percorsi, voto ad
un esame, numero di posti letto…)
Caratteri (o variabili)Caratteri (o variabili)Tipo di carattere Operazioni che posso
fare
Qualitativi sconnessi =
Qualitativi ordinati =, >, <
Quantitativi =, >, <, posso misurare di
quanto è minore o maggiore
Matrice di datiMatrice di datiX1 X2 X3 X4 X5 … … Xp
1 X11 X12 X13 X14 X15 … … X1p
2 X21 X22 X23 X24 X25 … … X2p
3 X31 X32 X33 X34 X35 … … X3p
4 X41 X42 X43 X44 X45 … … X4p
5 X51 X52 X53 X54 X55 … … X5p
6 X61 X62 X63 X64 X65 … … X6p
… … … … … … … … …… … … … … … … … …… … … … … … … … …n-1 Xn-11 Xn-12 Xn-13 Xn-14 Xn-15 … … Xn-1p
n Xn1 Xn2 Xn3 Xn4 Xn5 … … Xnp
Distribuzione di frequenzaDistribuzione di frequenzaLa distribuzione di frequenza di una variabile è
una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei dati.
Distribuzione di frequenza della variabile sesso
Frequenza assoluta
Frequenza relativa
Frequenza percentuale
Frequenza assoluta cumulata
Frequenza relativa
cumulata
Frequenza percentuale cumulata
nj fj pj Nj Fj Pj
Maschi 4941 0.501 50.096 4941 0.501 50.096
Femmine 4922 0.499 49.904 9863 1.000 100.0
Totale 9863 1 100.0
Distribuzione di frequenzaDistribuzione di frequenzaIn un collettivo composto da n elementi una variabile
statistica X può assumere k modalità diverse
x1, x2, x3, …….. xp
In modo che la modalità x1 si presenta n1 , la modalità
x2 si presenta n2 …….. la modalità xk si presenta nk
n1 + n2 + n3 + …….. + nk-1 + nn = n
I graficiI graficiDevo tenere conto di: Fenomeno oggetto di studio Tipo di variabile esaminata Distribuzione di frequenza
Il grafico deve avere le proprietà della Chiarezza – immediatamente chiaro Accuratezza – presenza dell’unità di misura Proporzionalità – indicazioni sulle reali dimensioni del
fenomeno
Il grafico deve sempre contenere: Intestazione – titolo Variabili Unità di misura Fonte dei dati
I grafici – variabili sconnesse o qualitative I grafici – variabili sconnesse o qualitative ordinabiliordinabiliGrafici a barre – ogni modalità viene rappresentato da una barra
(orizzontale o verticale) la cui lunghezza misura la frequenza (assoluta, relativa o %)
Diagrammi circolari – sono a forma di cerchio (torta) - gli spicchi del cerchio sono proporzionali alle modalità da rappresentare. Per ottenere gli spicchi bisogna calcolare l’angolo corrispondente alla modalità (es: usando le frequenze percentuali si usa la proporzione
360° : 100 = ß : pj
Diagrammi in coordinate polari – grafici circolari espressi in coordinate polari – indicati per rappresentare i fenomeni ciclici (giorni della settimana, mesi)
Cartogrammi – per rappresentare le serie territoriali – cartine geografiche dove sono rappresentate le partizioni territoriali con sfumature differenti a seconda della frequenza
Pictogrammi – grafico con finalità divulgative in cui figure e disegni e simboli simili al fenomeno considerato sono utilizzati con dimensione e numero variabile per indicare la frequenza
I grafici – variabili quantitativeI grafici – variabili quantitative
Istogramma – le classi possono essere di pari ampiezza o con ampiezza diversa. In questo caso la lettura del grafico si basa sulle aree delle colonne e non sull’altezza – dobbiamo calcolare la densità di frequenza (frequenza / ampiezza della classe)
Diagrammi in coordinate cartesiane a canne d’organo – per caratteri quantitativi discreti
Diagrammi in coordinate cartesiane ortogonali – grafico a linea, si usa per le serie storiche ponendo il tempo sulle ascisse e l’intensità del fenomeno sulle ordinate
Misure di tendenza Misure di tendenza centralecentrale
La distribuzione di frequenza è una descrizione completa della variabile cioè di come la variabile è distribuita nella popolazione
In molte situazioni abbiamo bisogno di indici di sintesi della distribuzione
MODA: è la modalità della variabile che si presenta nella distribuzione con maggiore frequenza
Si può applicare a tutti i tipi di variabili
Misure di variabilitàMisure di variabilitàLa moda segnala il valore maggiore, ma nulla ci
dice su come è distribuita la variabile. Una variabile sconnessa ha una distribuzione
massimamente OMOGENEA quando tutti i casi si presentano con la stessa modalità (il 100% del collettivo presenta una unica modalità) – è più omogenea quanto più essa è concentrata
È massimamente eterogenea quando i casi sono equidistribuiti fra le modalità
Misure di tendenza Misure di tendenza centralecentrale
Data una distribuzione ordinata in senso crescente la mediana è il valore che biripartisce la distribuzione lasciando uguali numero di termini a destra e a sinistra
MEDIANA: è la modalità medianaSi può applicare alle variabili ordinabili (non ai
caratteri qualitativi sconnessi)Se n è dispari la mediana è il valore o la modalità
che occupa la posizione (n+1)/2Me = x(n +1)/2
Se n è pari la mediana è il valore o la modalità che occupa la posizione (n/2)+1
Me = (x(n /2) + x(n/2+1) )/2
Misure di tendenza Misure di tendenza centralecentrale
Data una distribuzione ordinata in senso crescente i quartili sono tre indici che dividono la distribuzione ordinata in 4 parti uguali.
Il primo quartile (Q1) è il valore che lascia alla propria sinistra il 25% dei termini e il 75% alla destra.
Il secondo quartile (Q2) coincide con la mediana, ed è il valore cha divide in due parti uguali la distribuzione.
Il terzo quartile (Q3) è il valore che la scia alla propria sinistra il 75% dei termini e il 25% alla destra.
La mediaLa mediaData un insieme di valori quantitativi e un funzione f f (x1 , x2 , …. , xn )
si definisce media dei valori x1 , x2 , …. , xn
secondo il criterio f quel valore M tale che f (x1 , x2 , …. , xn ) = f (M, M, , … , M )
La media M rappresenta il valore che sostituito ai singoli valori della distribuzione mantiene inalterato il totale.
La media M è semrpe un valore interno all’intervallo di valori di xj cioè
xmin <= M <= xmax
La media aritmeticaLa media aritmeticaLa media aritmetica μ di un insieme di n valori x1 , x2 , …. , xn di un carattere quantitativo X è
pari alla somma dei valori divisa per il loro numero
μ =( x1 + x2 + …. + xn ) / n
μ = (∑ xi ) / n
La media aritmeticaLa media aritmeticaSe la distribuzione del carattere è una
distribuzione di frequenza la media aritmetica μ si calcola come una media ponderata, cioè sommando i prodotti delle singole modalitàxj per j=1 , …. , k
e le rispettive frequenze nj per j = 1 , …. , k
diviso la numerosità del collettivoμ =( x1n1 + x2n2 + …. + xknk ) / n
μ = (∑ xjnj ) / n
Se ho le frequenze relative la formula diventaμ = ∑ xjfj
La media aritmeticaLa media aritmeticaLa media aritmetica risente fortemente dei valori
estremi della distribuzione. Se sono presenti valori anomali (outlier), il valore medio calcolato può non rappresentare bene la distribuzione. La media aritmetica è molto sensibile ai valori anomali.
A volte si usa la media troncata (trimmed mean) ossia la media calcolata solo sui valori centrali della distribuzione
La trimmed mean al 90% significa calcolare la media escludendo il 5% dei valori più piccoli e il 5% dei valori più grandi
Proprietà della media Proprietà della media aritmeticaaritmetica
1) La somma dei valori x1 + x2 + …. + xn è uguale alla media moltiplicata per il numero di unità A
∑ xi = nμ
2) La somma degli scarti positivi dalla media aritmetica è uguale in valore assoluto a quella degli scarti negativi e quindi la somma degli scarti (positivi e negativi) è uguale a zero
Scarto (xi – μ)
∑ (xi – μ) = 0
Proprietà della media Proprietà della media aritmeticaaritmetica
1) La media M è sempre un valore interno all’intervallo di valori di xj cioè
xmin <= M <= xmax
2) La somma dei valori x1 + x2 + …. + xn è uguale alla media moltiplicata per il numero di unità n
∑ xi = nμ
3) La somma degli scarti positivi dalla media aritmetica è uguale, in valore assoluto, a quella degli scarti negativi e quindi la somma degli scarti (positivi e negativi) è uguale a zero
Scarto (xi – μ)
∑ (xi – μ) = 0
Proprietà della media Proprietà della media aritmeticaaritmetica
4) La somma dei quadrati degli scarti dalla media aritmetica è minore della somma dei quadrati degli scarti da qualsiasi numero c ≠ μ
Scarto (xi – μ)
Scarto (xi – c)
∑ (xi – c)2 = min per c= μ
Medie e CaratteriMedie e CaratteriTipo di carattere Medie che posso fare
Qualitativi sconnessi Moda
Qualitativi ordinati Moda, Mediana, Quartile
Quantitativi Moda, Mediana, Quartile e Media
VariabilitàVariabilitàLa sola rappresentazione della distribuzione con gli indici
di posizione e con le medie non consente spesso di descrivere la distribuzione. Si utilizzano allora delle misure di variabilità.
La variabilità esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere
Un indice di variabilità V(x) ha le seguenti proprietà:V(x) = 0 se tutte le unità presentano la medesima
modalitàV(x) > 0 cresce al crescere della diversità tra le modalitàV(x + c) = V(x) + c aggiungendo una costante alle
modalità di x la variabilità non cambiaSe V(x) >= V(y) allora il carattere x è più variabile del
carattere y
VariabilitàVariabilità3 categorie di indici:1. Indici di dispersione intorno alla media2. Indici di disuguaglianza a coppie3. Indici di mutabilità che misurano l’omogeneità
ed eterogeneità tra modalità
UNA ULTERIORE DISTINZIONE in:Indici ASSOLUTI: utilizzano la stessa unità di
misura della distribuzione e non consentono di fare confronti tra modalità espresse con unità di misura diverse
Indici RELATIVI: depurano la distribuzione dell’unità di misura e sono adatti per operare dei confronti.
Variabilità rispetto ad una Variabilità rispetto ad una mediamedia
Misura la presenza o no di una certa stabilità dei valori assunti dalle unità rispetto ad una media – indici si basano sul concetto di scarto o scostamento rispetto alla media delle varie unità
La VARIANZAσ2 = (∑ (xi – μ)2 ) / n
Se ho una distribuzione di frequenza la varianza sarà
σ2 = (∑ (xj – μ)2 nj ) / n
σ2 = ∑ (xj – μ)2 fj
Variabilità rispetto ad una Variabilità rispetto ad una mediamedia
La DEVIANZA è la somma degli scarti al quadrato (è il numeratore della varianza)
DEV = ∑ (xi – μ)2
La varianza ha il limite di utilizzare come unità di misura l’unità di misura del carattere elevata al quadrato
Per questo si utilizza lo scarto quadratico medio o deviazione standard che è la RADICE QUADRATA della varianza
Coefficiente di variazioneCoefficiente di variazioneLe misure viste fino ad ora sono indici ASSOLUTI,
ossia strettamente legati alle unità di misuraÈ difficile fare dei confronti tra distribuzioni diverseIl più diffuso indice di variabilità relativa è il
coefficiente di variazione (CV) che si ottiene dividendo la deviazione standard con la media
CV = σ / μ
Molto spesso il CV è espresso in termini % cioè moltiplicato per 100
CV = (σ / μ)*100
Campo di variazioneCampo di variazioneTra le misure che si basano sul confronto di misure
caratteristiche della distribuzione c’è il CAMPO DI VARIAZIONE o RANGE
Dato un insieme n di valori x1 , x2 , …. , xn ordinati il campo di variazione è la differenza tra il valore più grande e il più piccolo
R = xn - x1
È un indice molto grezzo e molto sensibile ai valori anomali (è = 0 quando tutti i valori sono uguali e crescere al crescere della variabilità)
Differenza interquartileDifferenza interquartileÈ un indice semplice ma che mitiga l’effetto dei
valori anomaliDato un insieme n di valori x1 , x2 , …. , xn ordinati
la differenza interquartile (DQ) è la distanza tra il terzo (Q3) e il primo (Q1) quartile
DQ = Q3 - Q1
Se l’intervallo interquartilico è piccolo vuol dire che la metà delle osservazioni si trova intorno alla mediana, all’aumentare della distanza interquartilica aumenta la dispersione del 50% delle osservazione centrali intorno alla mediana