Metodi Quantitativi per Economia, Finanza e Management
Lezione n°3Le distribuzioni di frequenza e le misure di sintesi univariate
Metodi Quantitativi per Economia, Finanza e Management
SUDDIVISIONE PER ESERCITAZIONI
Venerdì ore 08.30Economia e direzione d'impresa, Marketing.
Venerdì ore 11.00Amministrazione aziendale e libera professione, Banche mercati e finanza d'impresa, Management delle risorse umane.
Percorso di Analisi
Tipo di analisi Cosa è? Strumenti
ANALISI UNIVARIATA
La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione. Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione.
- DISTRIBUZIONI DI FREQUENZA - INDICI DI POSIZIONE (MISURE DI TENDENZA CENTRALE E MISURE DI TENDENZA NON CENTRALE)- INDICI DI DISPERSIONE- MISURE DI FORMA DELLA DISTRIBUZIONE
ANALSI BIVARIATA E TEST STATISTICI PER LO STUDIO DELL'ASSOCIAZIONE TRA VARIABILI
La statistica descrittiva bivariata si occupa dello studio della distribuzione di due variabili congiuntamente considerate.
I test statistici per lo studio dell'associazione tra variabili ci permettono di formulare delle ipotesi e verificarle tramite i dati campionari. I dati campionari sono utilizzati per stabilire se tale ipotesi è ragionevolmente accettabile o rifiutabile.
Due variabili qualitative o quantitative discrete:TABELLA DI CONTINGENZA E INDICI CHI QUADRO E V DI CRAMERTEST CHI QUADRO PER L'INDIPENDENZA STATISTICADue variabili quantitative continue:INDICE DI CORRELAZIONE DI PEARSON (ρ) E COVARIANZATEST t PER L'INDIPENDENZA LINEAREUna variabile qualitativa e una quantitativa continua:
INDICE η2
TEST F PER L'INDIPENDENZA IN MEDIA
ANALISI MULTIVARIATA
L'analisi statistica multivariata e' l'insieme di metodi statistici usati per analizzare simultaneamente più variabili. Esistono molte tecniche diverse, usate per risolvere problemi anche lontani fra loro.
- ANALISI FATTORIALE- REGRESSIONE LINEARE- REGRESSIONE LOGISTICA- SERIE STORICHE
Matrice dei dati
X Y Z W
1Modalità della variabile X rilevata sull'unità statistica 1
2
3
4
…
…
…
n
Modalità della variabile W rilevata sull'unità statistica n
Variabili rilevateUnità statistiche
modalità
Esempio di matrice dei datiPopolazione
di 20 individuiN=20
Numerodi figli
1 0 175 Maschio Laurea2 1 170 Maschio Diploma3 1 173 Femmina Diploma4 3 180 Maschio Licenza scuola media5 2 155 Femmina Laurea6 0 165 Femmina Laurea7 0 188 Maschio Diploma8 1 175 Femmina Diploma9 2 182 Femmina Licenza scuola media
10 2 165 Maschio Licenza scuola media11 3 158 Maschio Diploma12 6 188 Maschio Laurea13 0 180 Femmina Laurea14 0 170 Maschio Diploma15 0 179 Femmina Laurea16 0 169 Maschio Licenza scuola media17 2 178 Femmina Laurea18 1 188 Maschio Laurea19 0 175 Maschio Diploma20 0 165 Femmina Laurea
Unità statistiche Altezza Sesso Titolo di studio
Variabili rilevate su ogni unità statistica
Tipologia di variabili:
NUMERO DI FIGLI variabile quantitativa discreta
ALTEZZAvariabile quantitativa continua
SESSOvariabile qualitativa nominale
TITOLO DI STUDIOvariabile qualitativa ordinale
Statistica descrittiva univariataLa statistica descrittiva univariata ha come obiettivo lo studio della
distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione.
Fornisce strumenti per la lettura dei fenomeni osservati di rapida ed immediata interpretazione.
• Distribuzioni di frequenza• Misure di sintesi
– Misure di posizione– Misure di dispersione– Misure della forma della distribuzione
• Data Audit
– Errori di imputazione– Dati mancanti (missing)– Valori anomali (outliers)
• Analisi preliminari
Numerodi figli
1 0 1752 1 1703 1 1734 3 1805 2 1556 0 1657 0 1888 1 1759 2 182
10 2 16511 3 15812 6 18813 0 18014 0 17015 0 17916 0 16917 2 17818 1 18819 0 17520 0 165
Unità statistiche
Altezza
Le distribuzioni di frequenzaPer variabili qualitative e quantitative
discrete
La distribuzione di frequenza è in grado di «compattare» la lista di dati dando un’immagine immediata e di facile lettura della distribuzione della variabile.
1 Maschio2 Maschio3 Femmina4 Maschio5 Femmina6 Femmina7 Maschio8 Femmina9 Femmina
10 Maschio11 Maschio12 Maschio13 Femmina14 Maschio15 Femmina16 Maschio17 Femmina18 Maschio19 Maschio20 Femmina
SessoUnità statistiche
Lista dei dati
ni pi
Femmina 9 9/20 = 45%Maschio 11 11/20 = 55%Totale (N) 20 100%
Frequenza assoluta
Frequenza relativa
Sesso
Le distribuzioni di frequenza
• Frequenza assoluta: è un primo livello di sintesi dei dati, consiste nell’associare a ciascuna categoria, o modalità, il numero di volte in cui compare nei dati
• Distribuzione di frequenza: insieme delle modalità e delle loro frequenze
• Frequenza relativa: rapporto tra la frequenza assoluta ed il numero complessivo delle osservazioni effettuate.
I due tipi di frequenze vengono usati con dati qualitativi (nominali e ordinali)
e quantitativi discreti.
pi= ni/ N
• Rappresentazione grafica variabili qualitative:
Diagr. a barre: nell’asse delle ascisse ci sono le categorie, senza un ordine preciso; in quello delle ordinate le frequenze assolute/relative corrispondenti alle diverse modalità
Diagr. a torta: la circonferenza è divisa proporzionalmente alle frequenze
Diagramma a torta - sesso
Le distribuzioni di frequenza
Diagramma a barre – titolo di studio
• Rappresentazione grafica var.quantitative discrete:
Diagr. delle frequenze: nell’asse delle ascisse ci sono i valori assunti dalla var. discreta (quindi ha un significato quantitativo); l’altezza delle barre è proporzionale alle frequenze relative o assolute del valore stesso
Istogramma: nell’asse delle ascisse ci sono le classi degli intervalli considerati; l’asse delle ordinate rappresenta la densità di frequenza; l’area del rettangolo corrisponde alla frequenza della classe stessa.
Le distribuzioni di frequenza
Diagramma delle frequenze – numero di figli
Le distribuzioni di frequenzaesempi
Cumulative CumulativeFrequency Percent
0 9 45 9 451 4 20 13 652 4 20 17 853 2 10 19 956 1 5 20 100
Numero di figliNumero_di_figli Frequency Percent
Cumulative CumulativeFrequency Percent
Diploma 7 35 7 35Laurea 9 45 16 80
Licenza scuola media 4 20 20 100
Titolo di studioTitolo_di_studio Frequency Percent
Misure di sintesi
Misure di posizione:Misure di tendenza centrale:– Media aritmetica– Mediana– Moda Misure di tendenza non centrale:– Quantili di ordine p (percentili, quartili)
Misure di dispersione:• Campo di variazione• Differenza interquantile• Varianza• Scarto quadratico medio• Coefficiente di variazioneMisure di forma della distribuzione:• Skewness• Kurtosis
Misure di sintesi
Misure di posizione:Misure di tendenza centrale:– Media aritmetica– Mediana– Moda Misure di tendenza non centrale:– Quantili di ordine p (percentili, quartili)
Misure di dispersione:• Campo di variazione• Differenza interquantile• Varianza• Scarto quadratico medio• Coefficiente di variazioneMisure di forma della distribuzione:• Skewness• Kurtosis
Misure di Tendenza Centrale
Tendenza Centrale
Media Mediana Moda
n
xx
n
1ii
Valore centrale delle osservazioni ordinate
Valore più frequente
Media Aritmetica
Media Aritmetica
• E’ è quel valore (non necessariamente una modalità osservata) che rileva la tendenza centrale della distribuzione
• E’ la misura di tendenza centrale più comune• Media = somma dei valori diviso il numero di valori• Influenzata da valori estremi (outlier)
0 1 2 3 4 5 6 7 8 9 10
Media = 3
0 1 2 3 4 5 6 7 8 9 10
Media = 4
35
15
5
54321
4
5
20
5
104321
Media Aritmetica
30,2120
00,4261
n
nxk
iii
Voto
Frequenze assolute
xi ni xi*ni 18 1 (18*1)=18,00 19 5 (19*5)=95,00 20 3 (20*3)=60,00 21 2 (21*2)=42,00 22 3 (22*3)=66,00 23 1 (23*1)=23,00 24 3 (24*3)=72,00 25 2 (25*2)=50,00 Totale 20 =426,00
Mediana
• In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto)
• Non influenzata da valori estremi
0 1 2 3 4 5 6 7 8 9 10
Mediana = 3
0 1 2 3 4 5 6 7 8 9 10
Mediana = 3
Moda• Valore che occorre più frequentemente, cioè quella
modalità della distribuzione di frequenza alla quale è associata la frequenza assoluta (o relativa) maggiore
• Non influenzata da valori estremi• Usata sia per dati numerici che categorici• Può non esserci una moda• Ci può essere più di una moda
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
0 1 2 3 4 5 6
No Moda
Moda
Quale è la moda della variabile “Sesso”?
Quale è la moda della variabile “Titolo di Studio”?
Femmina 9Maschio 11Totale 20
Frequenza assoluta
Sesso
Titolo di studio Frequenza relativaDiploma 35%Laurea 45%Licenza scuola media 20%Totale 100%
Media, Moda & Mediana
La moda è pari a 1, è il valore che occorre più frequentemente 1 2 3 4
1 1 1 2 2 3 4
In una lista ordinata, la mediana è il valore “centrale”, è pari a 2
1 2 3 4
(1+1+1+2+2+3+4)/7 = (1*3 + 2*2 + 3*1 + 4*1)/7 = 14/7 = 2
Media = somma dei valori diviso il numero di valori = 2
• Il quantile di ordine p (p (0,1)) è quella modalità della distribuzione che lascia prima di sé almeno il p% delle n unità statistiche indagate e dopo di sé almeno il restante (1-p)%.
• Quantile è il termine generico che individua una famiglia di indici di posizione, ad esempio si parla di:– percentili quando p assume un valore dell’insieme {0.01;0.02;
…;0.99} – quartili quando p assume uno dei seguenti valori
{0.25;0.50;0.75}.
• Si noti che la mediana (il quantile più famoso) coincide con il 50° percentile o il 2° quartile.
Misure di Tendenza Non CentraleI quantili di ordine p
• I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori
25% 25% 25% 25%
• Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso
• Q2 coincide con la mediana (50% sono minori, 50% sono maggiori)
• Solo 25% delle osservazioni sono maggiori del terzo quartile
Q1 Q2 Q3
Misure di Tendenza Non CentraleI Quartili
Misure di Tendenza Non CentraleESEMPIO
Quantile Estimate100% Max 190
99% 18895% 18490% 182
75% Q3 18050% Median 175
25% Q1 16710% 1655% 1601% 155
0% Min 150
Unità statistiche
Altezza
1 175
2 170
3 173
4 180
5 158
6 166
7 188
8 175
9 182
10 165
MATRICE DEI DATI:
PRINCIPALI QUANTILI:
• Il primo quartile, Q1, è 167, cosa significa?
• Il 25% delle unità statistiche che compongono il campione hanno un’altezza minore di 167 cm e il 75% un’altezza maggiore
Box Plot
Mediana(Q2)
XmassimoX
minimo Q1 Q3
25% 25% 25% 25%
12 30 45 57 70
Differenza Interquartile 57 – 30 = 27
OUTLIERS: Q1 - 1,5 * Differenza interquartileQ3 + 1,5 * Differenza interquartile
INDICE DI DISPERSIONE
Misure di sintesi
Misure di posizione:Misure di tendenza centrale:– Media aritmetica– Mediana– Moda Misure di tendenza non centrale:– Quantili di ordine p (percentili, quartili)
Misure di dispersione:• Campo di variazione• Differenza interquantile• Varianza• Scarto quadratico medio• Coefficiente di variazioneMisure di forma della distribuzione:• Skewness• Kurtosis
Stesso centro, diversa variabilità
Misure di Variabilità
Variabilità
Varianza Scarto Quadratico
Medio
Coefficiente di Variazione
Campo di Variazione
Differenza Interquartile
• Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori.
Campo di Variazione
• La più semplice misura di variabilità • Differenza tra il massimo e il minimo dei valori osservati:
Campo di variazione = Xmassimo – Xminimo
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Campo di Variazione = 14 - 1 = 13
Esempio:
• Ignora il modo in cui i dati sono distribuiti
• Sensibile agli outlier
7 8 9 10 11 12
Campo di Var. = 12 - 7 = 5
7 8 9 10 11 12
Campo di Var. = 12 - 7 = 5
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Campo di Var. = 5 - 1 = 4
Campo di Var = 120 - 1 = 119
Campo di Variazione
Differenza Interquartile
• Possiamo eliminare il problema degli outlier usando la differenza interquartile
• Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati
• Differenza Interquartile = 3o quartile – 1o quartile
IQR = Q3 – Q1
• Media dei quadrati delle differenze fra ciascuna osservazione e la media
– Varianza della Popolazione:
Varianza
N
μ)(xσ
N
1i
2i
2
dove = media della popolazione
N = dimensione della popolazione
xi = iimo valore della variabile X
μ
Scarto Quadratico Medio• Misura di variabilità comunemente usata• Mostra la variabilità rispetto alla media• Ha la stessa unità di misura dei dati originali• Assume valori maggiori o uguali a 0; il caso particolare
SQM=0 si verifica solamente in caso di assenza di variabilità
– Scarto Quadratico Medio della Popolazione:
N
μ)(xσ
N
1i
2i
Scarto quadratico medio piccolo
Scarto quadratico medio grande
Scarto Quadratico Medio
Media = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Dati B
Dati A
Media = 15.5 s = 0.926
11 12 13 14 15 16 17 18 19 20 21
Media = 15.5 s = 4.570
Dati C
Scarto Quadratico Medio
• Viene calcolato usando tutti i valori nel set di dati
• Valori lontani dalla media hanno più peso (poichè si usa il quadrato delle deviazioni dalla media)
• Le stesse considerazioni valgono anche per il calcolo della Varianza
Scarto Quadratico Medio
Coefficiente di Variazione
• Misura la variabilità relativa• Sempre in percentuale (%)• Mostra la variabilità relativa rispetto alla media
• Può essere usato per confrontare due o più set di dati
misurati con unità di misura diversa • Assume valori maggiori di 0 e crescenti al crescere della
variabilità; ancora una volta, si avrà che CV=0 in assenza di
variabilità.
100%|x|
sC V
• Azione A:– Prezzo medio scorso anno = $50– Scarto Quadratico Medio = $5
• Azione B:– Prezzo medio scorso anno = $100– Scarto Quadratico Medio = $5
Entrambe le azioni hanno lo stesso scarto quadratico medio, ma
l’azione B è meno variabile rispetto al suo prezzo
10%100%$50
$5100%
|x|
sC VA
5%100%$100
$5100%
|x|
sC VB
Coefficiente di Variazione
Misure di sintesi
Misure di posizione:Misure di tendenza centrale:– Media aritmetica– Mediana– Moda Misure di tendenza non centrale:– Quantili di ordine p (percentili, quartili)
Misure di dispersione:• Campo di variazione• Differenza interquantile• Varianza• Scarto quadratico medio• Coefficiente di variazioneMisure di forma della distribuzione:• Skewness• Kurtosis
Forma della Distribuzione
• La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro.
Distribuzione Simmetrica
0123456789
10
1 2 3 4 5 6 7 8 9F
req
uen
za0
20
40
60
80
100
120
• La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro.
Distribuzione con Asimmetria Positiva
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9
Fre
qu
en
za
Distribuzione con Asimmetria Negativa
0
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9
Fre
qu
en
za
Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi.
Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi.
Forma della Distribuzione
• Descrive come i dati sono distribuiti• Misure della forma
– Simmetrica o asimmetrica
Media = Mediana Media < Mediana Mediana < Media
Obliqua a destraObliqua a sinistra Simmetrica
Misure di Forma della Distribuzione
Skewness: indice che informa circa il grado di simmetria o asimmetria di una distribuzione. – γ=0 ditribuzione simmetrica;– γ<0 asimmetria negativa (mediana>media);– γ>0 asimmetria positiva (mediana<media).
Kurtosis: indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica).– β=3 se la distribuzione è “Normale”;– β<3 se la distribuzione è iponormale (rispetto alla
distribuzione di una Normale ha densità di frequenza minore per valori molto distanti dalla media);
– β>3 se la distribuzione è ipernormale (rispetto alla distribuzione di una Normale ha densità di frequenza maggiore per i valori molto distanti dalla media).
Misure di Forma della Distribuzione
altezza
Mean 173.9 Std Deviation 9.41946Median 175 Variance 88.72632Mode 165 Range 33
Interquartile Range 13
Basic Statistical MeasuresLocation Variability
Unità statistiche
Altezza
1 175
2 170
3 173
4 180
5 158
6 166
7 188
8 175
9 182
10 165
11 158
12 188
13 180
14 170
15 179
16 169
17 178
18 188
19 175
20 165
The mode displayed is the smallest of 3 modes with a count of 3.
Univariate Analysis
Distribution Mode Percentiles Moments ShapeNominal X XOrdinal X X XQuantitative X X X X X
• Frequency distribution• Synthesis measures
– Measures of location– Measures of spread– Measures of shape
N_ ID D_8_2H1 0.1H2 0H3 0H4 0.2H5 0.05H6 0.2H7 0.1H8 0.1H9 0.2H10 0.05H11 0H12 0H13 0H14 0.15H15 0H16 0.1H17 0H18 0.2H19 0H20 0.05H21 0.2H22 0.2
……H234 0.2H235 0.1H236 0.1
• Data Audit– Input errors– Outliers– Missing values
• Basic insights
Analisi di ConcentrazioneCaratteri quantitativi trasferibili
• Un carattere è trasferibile se possiamo immaginare che un’unità possa cedere parte del carattere che possiede ad un’altra unità.
• Sono esempi di carattere trasferibile: reddito, fatturato, numero addetti, audience televisiva, clienti.
• Sono esempi di carattere non trasferibile: altezza e peso.
Analisi di ConcentrazioneCaratteri quantitativi trasferibili
Si rilevi il reddito delle famiglie di un campione.
L’analisi di concentrazione ci aiuta a ripondere alla seguente domanda:
Il reddito complessivo è equidistribuito tra le famiglie oppure la maggior parte dell’ammontare complessivo del reddito è posseduto da un numero esiguo di famiglie?
Vogliamo misurare il grado di concentrazione del carattere nella nostra popolazione.
Analisi di Concentrazione
μ.......321 nxxxxEquidistribuzione:
01.......321 nxxxxμNnx
Max concentrazione:
Per caratteri quantitativi trasferibili
Se tutte le famiglie hanno lo stesso reddito, si parla di equidistribuzione;
Nel caso in cui tutto il reddito sia posseduto da una sola famiglia mentre tutte le altre hanno zero reddito, si parla di massima concentrazione.
Analisi di Concentrazione
NF
ii
N
1jj
i
1j
j
x
x
iQ2. Calcolare le quantità:
1. Ordinare le osservazioni
Dove Fi è la frazione, sul totale delle unità, delle i unità più povere
e Qi è la frazione di ammontare del carattere, sull’ammontare complessivo, posseduto dalle i unità più povere.
le unità sono ordinate dalla più povera alla più ricca
CURVA DI CONCENTRAZIONE REDD. >=0QI
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
FI0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
20%
50%
60%
90%
Analisi di Concentrazione
Top Related