Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management...
-
Upload
concetto-dini -
Category
Documents
-
view
219 -
download
2
Transcript of Analisi Bivariata e Test Statistici Metodi Quantitativi per Economia, Finanza e Management...
Analisi BivariataAnalisi Bivariatae Test Statisticie Test Statistici
Metodi Quantitativi per Economia, Finanza e Management
Esercitazione n°5
Statistica descrittiva bivariata
Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate:
• Variabili qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata)
• Variabili quantitative: analisi di correlazione lineare
• una var. qualitativa e una quantitativa: confronto tra le medie
Test per lo studio dell’associazione tra variabili
• Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno ò più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione.
• Obiettivo dei testObiettivo dei test:: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario.
Esistono due ipotesi: – HH00 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata– HH11 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che
il ricercatore sta cercando di dimostrare.
Legenda:Risultato
(Probabilità)
Stato di Natura
Decisione
NonRifiutare
H0
No errore (1 - )
Errore Secondo Tipo
( β )
RifiutareH0
Errore Primo Tipo
( )
Possibili Risultati Verifica di Ipotesi
H0 Falsa H0 Vera
No Errore ( 1 - β )
Test per lo studio dell’associazione tra variabili
• Si può incorrere in due tipologie di errore:
• Errore di Primo Tipo – Rifiutare un’ipotesi nulla vera– Considerato un tipo di errore molto serio
• Chiamato livello si significatività del test• Fissato a priori dal ricercatore (i valori comuni sono 0.01, 0.05, 0.10)
• Errore di Secondo Tipo
– Non rifiutare un’ipotesi nulla falsa
• (1 – β) è definito come la potenza del test
Test per lo studio dell’associazione tra variabili
La probabilità dell’errore di secondo tipo è β
La probabilità dell’errore di primo tipo è
Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata
Lettura di un test statistico (1)Esempio:
almeno un bi≠01) Ipotesi
b1= b2 = ....=bk = 0 H0:
H1:
2) Statistica test Statistica F
3) p-value
Rappresenta la probabilità di commettere l’errore di prima specie.Può essere interpretato come la probabilità che H0 sia “vera” in base al valore osservato della statistica test
Lettura di un test statistico (2)
Se p-value piccolo (< ) RIFIUTO H0
Altrimenti (>= ) ACCETTO H0
Il p-value è il più piccolo valore di Il p-value è il più piccolo valore di per il quale Hper il quale H00 pu puòò essere rifiutata essere rifiutata
Fissato un livello di significatività :
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative
discrete
• calcolare indici di dipendenza relativi a tabelle di contingenza
PROC FREQ – Sintassi generale
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
Distribuzione di frequenza bivariata
OPTIONS:• noprint non mostra i risultati nella finestra di output• /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ - Esempio
Variabili qualitative: sesso e operatore telefonico
proc freq data=corso.telefonia;
table sesso * operatore;
run;
Output PROC FREQ - Esempio
Frequency Percent Row Pct Col Pct
236100.00
156.36
15465.25
5523.31
125.08
Total
13657.63
125.088.8280.00
9138.5666.9159.09
2811.8620.5950.91
52.123.6841.67
M
10042.37
31.273.0020.00
6326.6963.0040.91
2711.4427.0049.09
72.977.0058.33
F
Wind Vodafone Tim 3
Totaloperatoresesso
Table of sesso by operatore
Frequenze congiunte assolute e relative
Distribuzioni marginali: frequenze marginali assolute e relative
Frequenze subordinate
Output PROC FREQ - Esempio
Frequency Percent Row Pct Col Pct
236100.00
156.36
15465.25
5523.31
125.08
Total
13657.63
125.088.8280.00
9138.5666.9159.09
2811.8620.5950.91
52.123.6841.67
M
10042.37
31.273.0020.00
6326.6963.0040.91
2711.4427.0049.09
72.977.0058.33
F
Wind Vodafone Tim 3
Totaloperatoresesso
Table of sesso by operatore
freq. marginale assoluta=7+27+63+3
freq. marginale relativa=(7+27+63+3)/236*100
freq. subordinate:
% di riga=5/136*100
% di col=5/12*100
freq. congiunta relativa =(7/236)*100
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative
discrete
• calcolare indici di dipendenza relativi a tabelle di contingenza
Test chi-quadro – Indipendenza statistica
• Si applica alle tabelle di contingenza a due dimensioni
• Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa)
• Si calcola con la PROC FREQ (opzione CHISQ)
PROC FREQ – Sintassi generale
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
Calcolo dell’indice chi-quadro
OPTIONS:• noprint non mostra i risultati nella finestra di output• /missing considera anche i missing nel calcolo delle frequenze• /chisq calcola l’indice chi-quadro e altre misure di
associazione basate sul chi-quadro
Esempio n°1- Test chi-quadro – Indipendenza statistica
proc freq data=corso.telefonia;
table sesso * computer /chisq;
run;
C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)?
Le frequenze della variabile COMPUTER subordinata a SESSO:Le frequenze della variabile COMPUTER subordinata a SESSO:
Esempio n°1- Test chi-quadro – Indipendenza statistica
Le frequenze della variabile di SESSO subordinata a COMPUTER:Le frequenze della variabile di SESSO subordinata a COMPUTER:
Cosa sono le frequenze Cosa sono le frequenze subordinate?subordinate?Frequency
PercentRow Pct 0 1Col Pct 16 84 100
6.78 35.59 42.3716 84
28.57 46.6740 96 136
16.95 40.68 57.6329.41 70.5971.43 53.33
56 180 23623.73 76.27 100
F
M
Total
Table of sesso by computersesso(sesso) computer(computer) Total
sesso=F
Cumulative CumulativeFrequency Percent
0 16 16 16 161 84 84 100 100
sesso=M
Cumulative CumulativeFrequency Percent
0 40 29.41 40 29.411 96 70.59 136 100
computercomputer Frequency Percent
computercomputer Frequency Percent
computer = 0
Cumulative CumulativeFrequency Percent
F 16 28.57 16 28.57M 40 71.43 56 100
computer = 1
Cumulative CumulativeFrequency Percent
F 84 46.67 84 46.67M 96 53.33 180 100
sesso
sesso Frequency Percent
sesso
sesso Frequency Percent
Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diversedenota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)
Esempio n°1- Test chi-quadro – Indipendenza statistica
FrequencyPercentRow Pct 0 1Col Pct 16 84 100
6.78 35.59 42.3716 84
28.57 46.6740 96 136
16.95 40.68 57.6329.41 70.5971.43 53.33
56 180 23623.73 76.27 100
F
M
Total
Table of sesso by computersesso(sesso) computer(computer) Total
Esempio n°1- Test chi-quadro – Indipendenza statistica
Il p-value del test chi-quadro è basso (<0.05) rifiuto l’hp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti
Statistic DF Value ProbChi-Square 1 5.7275 0.0167Likelihood Ratio Chi-Square 1 5.9139 0.015Continuity Adj. Chi-Square 1 5.0104 0.0252Mantel-Haenszel Chi-Square 1 5.7032 0.0169Phi Coefficient -0.1558Contingency Coefficient 0.1539Cramer's V -0.1558
Possiamo concludere che le due variabili sono statisticamente dipendenti?
Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui:
H0 : indipendenza statistica tra X e Y
H1 : dipendenza statistica tra X e Y
proc freq data=corso.telefonia;
table sesso * marca /chisq;
run;
C’è indipendenza statistica tra le variabili SESSO e MARCA?
Esempio n°2 - Test chi-quadro – Indipendenza statistica
Esempio n°2 - Test chi-quadro – Indipendenza statistica
Attenzione: molte celle con frequenze congiunte assolute molto bassetest non molto affidabile
Frequency
PercentRow Pct Altro Lg Motorola Nek Nokia PalmOne Samsung Siemens Sony
EricssonCol Pct 2 8 19 2 45 1 15 1 7 100
0.85 3.39 8.05 0.85 19.07 0.42 6.36 0.42 2.97 42.372 8 19 2 45 1 15 1 7
33.33 61.54 36.54 50 43.69 100 37.5 20 58.334 5 33 2 58 0 25 4 5 136
1.69 2.12 13.98 0.85 24.58 0 10.59 1.69 2.12 57.632.94 3.68 24.26 1.47 42.65 0 18.38 2.94 3.68
66.67 38.46 63.46 50 56.31 0 62.5 80 41.676 13 52 4 103 1 40 5 12 236
2.54 5.51 22.03 1.69 43.64 0.42 16.95 2.12 5.08 100
F
M
Total
Table of sesso by marcasesso marca Total
Esempio n°2 - Test chi-quadro – Indipendenza statistica
Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti
Statistic DF Value ProbChi-Square 8 7.0754 0.5285
Likelihood Ratio Chi-Square
8 7.5018 0.4836
Mantel-Haenszel Chi-Square
1 0.0103 0.9191
Phi Coefficient 0.1731Contingency Coefficient 0.1706
Cramer's V 0.1731
than 5. Chi-Square may not be a valid test.
WARNING: 44% of the cells have expected counts less
Test t – Indipendenza lineare
• Si applica a variabili quantitative
• Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo)
• Si calcola con la PROC CORR
PROC CORR - Descrizione
La PROC CORR permette di
• calcolare la correlazione tra due o più variabili quantitative
PROC CORR – Sintassi generale
proc corr data= dataset;
var variabile1 variabile2 … variabilen;
run;
Correlazione tra due o più variabili
PROC CORR - Esempio
Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno.
proc corr data=corso.telefonia;
var cell_h fisso_h;
run;
Output PROC CORR - Esempio
Coefficiente di correlazione lineare ρ(X,Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare.
1 2 3 4 5fi sso_h
5
10
15
20
c
e
l
l
_
h
Esempio n°1 - Test t – Indipendenza lineare
C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)?
proc corr data=corso.telefonia;
var cell_h fisso_h;
run;
Esempio n°1 - Test t – Indipendenza lineare
Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato)
Esempio n°2 - Test t – Indipendenza lineare
C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)?
proc corr data=corso.telefonia;
var fisso_h email_h;
run;
Esempio n°2 - Test t – Indipendenza lineare
Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili
Esercizi
1.Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti
2.Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI