Post on 02-May-2015
1/89
Statistica Aziendale
L’informazione statistica per le decisioni aziendaliL’informazione statistica per le decisioni aziendali
1. Informazione già esistente (dati secondari) Statistiche ufficiali e non
2. Informazione creata attraverso indagini ad hoc (dati primari) Tecniche di campionamento
3. La matrice dei dati e le analisi preliminari Indici di distanza tra unità (e di associazione tra variabili)
4. Relazioni causali tra variabili Regressione multivariata
5. Segmentazione per omogeneità delle unità Metodi di analisi dei gruppi
6. Produttività ed efficienza aziendale Numeri Indici
Metodi statistici per l’analisi dei dati aziendaliMetodi statistici per l’analisi dei dati aziendali
2/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le indagini campionarieLe indagini campionarie
Le fasi di un’indagine campionaria Il campionamento: schemi e stima dei
parametri Gli errori campionari e non campionari Tipologie di quesiti, scale di valutazione, classificazione dei caratteri statistici
3/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Indagini censuarie e campionarie
Un’indagine conoscitiva può essere condotta secondo due approcci distinti:
indagine totale o censuaria indagine parziale o campionaria
Il collettivo di unità su cui deve essere effettuata l’indagine è esaminato in maniera completa
È esaminata solo una parte del collettivo - un campione - anziché la sua totalità
4/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Confronto tra indagine censuariae indagine campionaria
AspettiIndaginecensuaria
Indagine campionaria
Risorse economiche Elevate Contenute
Durata delle operazioni Lunga Breve
Errore campionario Assente Presente
Altri tipi di errore Presenti Presenti
5/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento - prime definizioni
InferenzaInferenza statisticastatistica: si desumono le caratteristiche di una popolazione attraverso lo studio di una parte di essa detta campione
Popolazione o universo: un insieme di unità che soddisfano in maniera esaustiva uno o più criteri
Indagine campionaria: metodologia per conoscere le caratteristiche della popolazione tramite un campione
Il campionamentocampionamento può essere:- probabilistico: scelta delle unità affidata al caso
- non probabilistico: scelta delle unità dipendente dalla soggettività di chi raccoglie le informazioni
6/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Confronto tra campionamento probabilistico e non probabilistico
Campionamento probabilistico
Campionamento non probabilistico
Risorse economiche
Relativamenteelevate Contenute
Durata delle operazioni
Relativamentelunga Breve
Errore campionario Valutabile Non valutabile Rappresentatività della popolazione Buona Non valutabile
7/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le fasi di un’indagine campionaria
1. Formulazione degli obiettivi dell’indagine1. Formulazione degli obiettivi dell’indagine
- Si decide quali informazioni rilevare
- informazioni prioritarieprioritarie (relative agli obiettivi principali dell’indagine)
- informazioni complementaricomplementari (relative agli obiettivi secondari)
8/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le fasi di un’indagine campionaria
2. Individuazione della popolazione obiettivo2. Individuazione della popolazione obiettivo
- E’ l’insieme delle unità sulle quali si intende ottenere le informazioni obiettivo dell’indagine
- definito in base ad alcuni criteri (in particolare criteri spazio-temporali) - Lista di campionamento: elenco esaustivo delle unità
appartenenti alla popolazione obiettivo
9/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le fasi di un’indagine campionaria
3. Individuazione tecnica di campionamento3. Individuazione tecnica di campionamento
- Metodo di selezione del campione
- prima distinzione: metodi probabilistici e non probabilistici
- Scelta dipendente da:
- livello di attendibilità desiderato
- vincoli sui costi dell’indagine
Diversi schemi di campionamento probabilistico e non probabilistico
10/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le fasi di un’indagine campionaria
4. Individuazione modalità di raccolta dati4. Individuazione modalità di raccolta dati
- Osservazione diretta (es.: rilevazione prezzi)
- In genere intervista, con diverse modalità:
- postale (con autocompilazione del questionario)
- telefonica (compilazione assistita)
- diretta o faccia a faccia (compilazione assistita)
- via internet o email (con autocompilazione)
Par. 2.4 per i dettagli sulle tecniche di rilevazione dei dati
(vantaggi e svantaggi delle diverse tecniche)
Scelta modalità: compromesso tra diversi obiettivi spesso contrastanti: partecipazione; qualità dei dati; costi
11/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le fasi di un’indagine campionaria
5. 5. Progettazione del questionarioProgettazione del questionario
- Strumento per la rilevazione dei dati
- Caratteristiche (lunghezza, complessità dei quesiti, istruzioni)
dipendenti dalla modalità di rilevazione:
- con autocompilazione (breve e semplice; istruzioni per l’intervistato)
- intervista telefonica (breve e semplice; istruzioni per l’intervistatore)
- intervista diretta (anche più complesso)
- Test (indagini pilota) e revisioni
12/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le fasi di un’indagine campionaria
6. 6. Rilevazione dei datiRilevazione dei dati - Determinazione del periodo più appropriato per la raccolta dei dati
- Evitare i periodi non idonei
- Concentrazione in un breve periodo
7. Codifica e archiviazione dei dati7. Codifica e archiviazione dei dati - Codifica numerica delle variabili qualitative (in particolare, in caso di domande a risposte aperte)
- Inserimento delle informazioni in un supporto informatico
13/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le fasi di un’indagine campionaria
8. Analisi dei dati8. Analisi dei dati - Produzione delle stime campionarie dei valori ignoti relativi alla popolazione
9. Redazione di un rapporto di ricerca9. Redazione di un rapporto di ricerca - Descrizione delle caratteristiche dell’indagine
- Descrizione dei principali risultati ottenuti
14/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il processo di stima– concetti di base
Processo di stima: procedimento per ricavare, tramite una funzione delle osservazioni campionarie, il valore incognito di una caratteristica della popolazione
Il parametro da stimareparametro da stimare: la caratteristica della popolazione che costituisce l’obiettivo dell’indagine
Lo stimatorestimatore: una formula analitica atta a stimare il valore incognito della caratteristica della popolazione sulla base dei dati campionari
Il valore della stima o stimastima: il risultato dell’applicazione dello stimatore ai dati campionari
15/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il processo di stima– un esempioIl parametro da stimareparametro da stimare è la media aritmetica del fatturato delle aziende di un paese, le quali costituiscono la popolazione di riferimento (composta da N unità):
1
1 N
ii
Y YN
1
1 n
jj
y yn
Dalla popolazione si estrae un campionecampione casuale di n unità sulle quali si rileva il fatturato.La stima del parametro della popolazione si ottiene applicando ai dati campionari lo stimatore stimatore media aritmetica:
16/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il processo di stima
Altri parametri da stimareparametri da stimare (oltre la media):
- Il totale:
- La varianza: 2 2
1
1( )
N
Y ii
S Y YN
1
N
Y ii
t Y
Stima del totale: 1
ˆn
Y ii
t y
?
ˆYt N Y N y No
17/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il processo di stima
Caso di variabile binaria o dicotomica
Codifica: Y = 1 (presenza attributo); Y = 0 (assenza attributo)
- Totale:
- Frequenza (proporzione):
1
N
Y ii
t Y
1
1 NY
ii
tP Y Y
N N
ˆP Y y p ˆ
Yt N Y N y N p
Stima di una frequenza:
Stima del totale:
18/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Gli stimatori
Lo stimatorestimatore di un parametro θ della popolazione: una funzione dei dati campionariper assegnare un valore a θ sulla base del campione
ˆ ( )cf Y
Stimatore correttoStimatore corretto (o non distorto): se nell’insieme dei campioni casuali estraibili il valore medio delle stime è pari al valore del parametro nella popolazione:
ˆ( )E
ˆ ˆ( ) ( )B E
Altrimenti, stimatore non corretto
DistorsioneDistorsione:
19/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Gli stimatori - Esempio
Campionamento casuale semplice senza ripetizionePopolazione di N = 4 unità; campioni di n = 2 unità
Popolazionen. Y
Possibilicampio
ni
Valori di y
1 1102 1203 804 90
(1; 2)(1; 3)(1; 4)(2; 3)(2; 4)(3; 4)
110; 120110; 80110; 90120; 80120; 9080; 90
11595
10010010585
( ) 100 E y
y
100 Y
20/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Gli stimatori
Uno stimatore corretto è sempre da preferire a uno distorto?No se è caratterizzato da una molto maggiore dispersione delle stime intorno al valore del parametro da stimare
2ˆ ˆMSE( ) ( )E
Errore statistico: differenza tra la stima e il parametro da stimare:
Errore quadratico medioErrore quadratico medio: valore medio, nell’insieme dei campioni estraibili, dell’errore statistico al quadrato
21/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Gli stimatori - Esempio
Campionamento casuale semplice senza ripetizionePopolazione di N = 4 unità; campioni di n = 2 unità
Popolazionen. Y
Possibilicampioni
Errorestatistico
Erroreal
quadrato
1 1102 1203 804 90
(1; 2)(1; 3)(1; 4)(2; 3)(2; 4)(3; 4)
11595
10010010585
15-5005
-15
2252500
25225
( ) 100 E y MSE = 83.3
y
100 Y
22/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Gli stimatori
Scomposizione dell’errore quadratico medio:
2ˆ ˆ ˆMSE( ) var( ) ( )B ˆ ˆMSE( ) var( ) Se lo stimatore è
corretto:
Stimatore piùStimatore più efficienteefficiente: dati due stimatori di uno stesso parametro si definisce stimatore più efficiente quello con minore MSE
2ˆ ˆMSE( ) ( )E
Se lo stimatore è corretto, lo stimatore più efficiente è quello a varianza minima
23/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Lo stimatore fondamentale nel campionamento probabilisticoNel campionamento probabilistico la probabilità di probabilità di inclusione nel campione è notainclusione nel campione è nota e diversa da zero per ogni unità della popolazione
Probabilità di inclusioneProbabilità di inclusione: probabilità che una unità appartenga al campione. Non necessariamente uguale per ogni unità
Esempio: Campionamento casuale semplice senza ripetizionePopolazione di N = 4 unità: 1; 2; 3; 4
Insieme dei possibili campioni di n = 2 unità (1,2); (1,3); (1,4); (2,3); (2,4); (3,4)
Probabilità di inclusione dell’unità 1: 3/6= ½ (= n/N)(idem per 2, 3, 4)
24/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Lo stimatore fondamentale
Stimatore corretto per il campionamento probabilistico senza ripetizione - Notazioni:Probabilità di inclusione: j
1 1
1 1ˆn n
jj j
j jj
yY w y
N N
1/j jw
1 1
ˆˆn n
jY j j
j jj
yt NY w y
Coefficienti di espansione:Stimatore fondamentale (di Horvitz-Thompson) della mediamedia:
e del totaletotale:
25/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Stimatore fondamentale - Esempio
Popolazione di N = 4 unità:
Y1 = 110; Y2 = 120; Y3 = 80; Y4 = 90;
100; 400YY t
1ˆ (2 110 2 80) 954
Y
ˆ 4 95 380Yt
Campione estratto di n = 2 unità: (1,3)
1
1ˆn
j jj
Y w yN
ˆ
Yt NY
26/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le tecniche di campionamento probabilistico
Principali tecniche di campionamento probabilistico: casuale semplice (CCS) sistematico (CSI) stratificato (CST) a grappoli (CGRA) a più stadi (CSTA)
27/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento casuale semplice Tecnica di campionamento più elementarepiù elementare tra i metodi probabilistici
Rappresenta il naturale punto di partenzapunto di partenza per lo studio di tutti gli altri metodi di campionamento
La probabilità di inclusioneprobabilità di inclusione nel campione è la stessa per ogni unità della popolazione - pari alla frazione di campionamento - data da:
j
nf
N
28/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La tecnica di estrazione del CCS- illustrazione
1 2
50 49
3 6
11 12
25 28
31
44
37
46
Dato N=50, le unità della popolazione sono numerate da 1 a 50
Per estrarre un CCS di 10 unità (f = 1/5) si genera una sequenza di numeri casuali {3, 6, 11, 12, 25, 28, 31, 37, 44, 46}
Le unità corrispondenti a tali numeri d’ordine costituiscono il campione
29/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Pro e contro del CCS
La semplicità semplicità concettuale è il suo principale punto di punto di forzaforza
Il CCS presenta tuttavia anche alcuni possibili svantaggi:svantaggi:
Il campione potrebbe presentarsi sparsosparso sul territorio con conseguenti costi elevaticosti elevati di organizzazione
Poiché tutti i possibili campioni hanno uguale probabilità di essere estratti, è possibile estrarre un ‘‘cattivo’’‘‘cattivo’’ campione campione (poco rappresentativopoco rappresentativo della popolazione)
30/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento sistematico
Tecnica alternativa assimilabile a quella per l’estrazione di un CCS
Consiste nella selezione di una unità ogni k presenti nella lista
k è il passo di campionamento: la parte intera del reciproco della frazione di campionamento k = N/n
31/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La tecnica di estrazione del CSI- illustrazione
Dato N = 50 e fissata la dimensione campionaria n = 10, si
determina il passo di campionamento, dato da k = N/n = 50/10 = 5
Si estrae un numero casuale compreso tra 1 e k (5) per esempio 2 e si seleziona l’unità corrispondente
Si procede selezionando le unità corrispondenti ai seguenti n. d’ordine: 2+k = 7, 2+2k = 12, 2+3k = 17, … fino ad esaurimento della lista
2 1
50 49
7
12 17
22 27
32 37
42 47
32/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Pro e contro del CSI
ProPro: Per formare il campione è sufficiente una sola estrazione casuale Teoricamente si potrebbe prescindere dalla lista di campionamento
ControContro: Se la lista presenta particolari ordinamenti il CSI produce un ‘‘cattivo’’ campione: esclude a priori alcuni segmenti di popolazione legati alla periodicità della lista
33/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le stime con il CCS
Media:Media:
Lo stimatore corretto della media della popolazione è lamedia campionaria
Totale:Totale:
VarianzaVarianza (stima della varianza di Y nella pop. ):
1 1
1 1n nj
jj j
yy y
N n N n
yt N y
22
1
11
n
y jj
s y yn
1
1ˆn
j
j j
yY
N
2 2
1
1( )
N
Y ii
S Y YN
34/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Stima di una frequenza
Popolazione: Yi = 1 se l’attributo è presente; Yi = 0 se assente
Stimatore fondamentale della frequenza: frequenza:
1
1 N
ii
P YN
1 1
1 1ˆn n
jj
j jj
yP y p
N n
35/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Varianza degli stimatori
Varianza teorica della media campionaria:Varianza teorica della media campionaria:
Stima della varianza della media campionaria:Stima della varianza della media campionaria:
Varianza della stima del totale:Varianza della stima del totale:
2
var( ) (1 ) ysy f
n
2
Var( )1
YN n Sy
N n
2ˆvar( ) var( )yt N y ˆ( )yt N y
36/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Varianza degli stimatori - EsempioPopolazionen. Y
Possibilicampio
ni
1 1102 1203 804 90
(1; 2)(1; 3)(1; 4)(2; 3)(2; 4)(3; 4)
11595
10010010585
12.5112.5
50200
112.512.5
( ) 100 E y
y
(var( )) 83.3 E y
var( ) y
2 4 2 250Var( ) 83.3
1 4 1 2YN n S
yN n
Y =1002S =250Y
2
var( ) (1 ) ysy f
n
(25 25) /1(1 0.5) 12.5
2
Varianza teorica: Stima – campione (1; 2):
37/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Intervalli di confidenza per le stime
Per n sufficientemente elevato la distribuzione campionaria
della media può essere approssimata con una normale
Intervallo di confidenzaIntervallo di confidenza per la media campionaria: per la media campionaria:
2 2
2 2[ (1 ) ; (1 ) ]y ys sy z f y z f
n n
2[ var( )]y z y
38/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Intervalli di confidenza per le stime
Intervallo di confidenzaIntervallo di confidenza per il totale: per il totale:
2 2
2 2[ (1 ) ; (1 ) ]y yy y
s st z N f t z N f
n n
2ˆ ˆ[ var( )]y yt z t
2ˆvar( ) var( )yt N y2
2 (1 ) ysN f
n
39/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento stratificato
L’obiettivo è estrarre un campione più efficiente più efficiente rispetto al CCS: stime più precise (o numerositàcampionaria inferiore)
Esempio: Popolazione di N = 12 imprese
Media ROI popolazione: 3.75
Campioni CS: (4; 6; 9; 10) media ROI: (3+2+3+2)/4 = 2.5
(2; 3; 7; 12) media ROI: (4+6+4+6)/4 = 5
Risultato: stime poco precise e a forte variabilità
N. imp.
1 2 3 4 5 6 7 8 9 10
11
12
ROI 3 4 6 3 2 2 4 6 3 2 4 6
40/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento stratificato
Disponibilità informazione aggiuntiva: settore di attività
Riorganizzazione informazioni: Popolazione: Campione:
N. imp.
1 2 3 4 5 6 7 8 9 10
11
12
ROI 3 4 6 3 2 2 4 6 3 2 4 6
Settore
A C M A T T C M A T C M
Settore
N. imp.
ROI
A 3 3; 3; 3
T 3 2; 2; 2
M 3 6; 6; 6
C 3 4; 4; 4
N=12 Media 3.75
Settore
n. imp.
ROI
A 1 3
T 1 2
M 1 6
C 1 4
n=4 Media3.75
41/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento stratificato
a. La popolazione obiettivo è classificata in sottopopolazioni - esaustive e mutuamente esclusive - dette stratistrati
b. Gli strati devono essere possibilmente omogenei al loro interno ed eterogenei tra di loro
c. Da ogni strato si estrae un campione casuale semplice
d. Infine l’aggregazione di tali campioni produce il campione stratificato
NB: E’ necessario disporre di informazioni aggiuntive - variabili ausiliarie - per ogni unità della popolazione
42/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La tecnica di estrazione del CST
Schema di campionamento stratificato:
In blu le unità campionate in ciascuno dei tre strati
43/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Campionamento stratificato
Schema di popolazione di dimensione N ripartita in H strati
Strato Unità Dimens. Media Varianza
1
.
h
.
H
Y11 … Y1i … Y1N1
Yh1 … Yhi … YhNh
YH1 … YHi … YHNH
N1
Nh
NH
S12
Sh2
SH2
1
1 hN
h hiih
Y YN
2 2
1
1( )
hN
h hi hih
S Y YN
1
H
hh
N N
Parametri di strato:
1Y
hY
HY
44/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Campionamento stratificato
Schema di campione di dimensione n estratto dagli H strati
Strato Unità Dimens. Media Varianza
1
.
h
.
H
y11 … y1j … y1n1
yh1 … yhj … yhnh
yH1 … yHj … yHnH
n1
nh
nH
s12
sh2
sH2
1
1 hn
h hjjh
y yn
2 2
1
1( )
1
hn
h hj hjh
s y yn
1
H
hh
n n
Media e varianza campionaria di strato:
1y
hy
Hy
45/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Stime con CST
In caso di CCS negli strati, la probabilità di inclusione
per l’unità i dello strato h è:
Lo stimatore della mediamedia:
hhj h
h
nf
N
hh
NW
N
1 1 1 1 1 1 1
1 1 1ˆh h hn n nH H H H
hj h hST hj hj h h ST
h j h j h j hhj h h
y N NY y y W y y
N N n N n
: peso di strato Lo stimatore del totaletotale:
,1
H
Y ST ST h hh
t N y N y
46/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Esempio stima con CST
Popolazione: Campione:
Settore
N. imp.
ROI
A 2 3; 3
T 3 2; 2; 2
M 2 6; 6
C 3 4; 4; 4
N=10 Media 3.6
Settore
n. imp Pr.incl.
ROI
A 1 1/2 3
T 1 1/3 2
M 1 1/2 6
C 1 1/3 4
n=4 Media 3.6
1
0.2 3 0.3 2 0.2 6 0.3 4 3.6H
ST h hh
y W y
1 1
1 1ˆn n
jj j
j jj
yY w y
N N
1
(2 3 3 2 2 6 3 4) 3.610
47/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le stime con il CST
Varianza della media campionaria:Varianza della media campionaria:
Varianza del totale:Varianza del totale:
2
2 2
1 1
var( ) var( ) 1H H
hST h h h h
h h h
sy W y W f
n
2
2 2,
1
ˆvar( ) var( ) 1H
hyST ST h h
h h
st N y N f
n
1
H
ST h hh
y W y
,Y ST STt N y
48/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le stime con il CST
Intervalli di confidenzaIntervalli di confidenza
media campionaria:media campionaria:
totale:totale:
2[ var( )]ST STy z y
, 2 ,ˆ ˆ[ var( )]y ST y STt z t
49/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
L’allocazione della numerosità campionaria tra gli stratiAllocazioneAllocazione proporzionale:proporzionale: La numerosità campionaria n viene ripartita tra gli strati in proporzione al peso di ogni strato nella popolazione:
Pesi di strato nel campione = pesi di strato nella popolazione:
h hn n W
( = 1,..., )hh
h
n nf f h H
N N
;h hn N
n N
(campione autoponderante)
Frazione di campionamento uguale in ogni strato (pari alla frazione di campionamento globale f)
50/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Campionamento stratificato -Schema con allocazione proporzionale
Dato N=50 e fissata la dimensione campionaria n=10, si determina la frazione di campionamento f = 1/5
Nella popolazione sono stati individuati 3 strati: N1=10; N2=25; N3=15
Applicando f = 1/5 ad ogni strato si ottengono le numerosità campionarie di strato:
1 1 2 2 3 3
1 1 110 2; 25 5; 15 3.
5 5 5n f N n f N n f N
h=1
h=2 h=3
51/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Stima CST con allocazione proporzionale
Media campionaria:Media campionaria:
Varianza della media campionaria:Varianza della media campionaria:
,1 1 1 1
1 1hnH H nh
ST PR h h hj jh h j jh
ny W y y y
n n n
22 2
, 21 1
(1 )var( ) (1 )
H Hh
ST PR h h hh hh
s fy W f n s
n n
52/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
L’allocazione non proporzionale
Applicazione di frazioni di campionamento differenti nei diversi strati.
Preferibile in caso di maggiore variabilità del fenomeno oggetto di studio in alcuni strati rispetto ad altri
Esempio:
Strati N. impr. ROI
1 5 5.5; 5.7; 6; 6.3; 6.5
2 5 2; 3; 4; 5; 6
Al fine di produrre stime più efficienti, negli strati a maggiore variabilità si può intenzionalmente applicareuna frazione di campionamento maggiore
53/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
L’allocazione non proporzionale
AllocazioneAllocazione ottimale di Neyman:ottimale di Neyman:la numerosità campionaria di strato è direttamente proporzionale, oltre che al peso di strato Wh, alla variabilità di strato espressa da Sh:
1
h hh H
h hh
W Sn n
W S
Esempio: Popolazione N = 10; Campione n = 5
Strati N. impr. ROI Sh nh ottimale
1 5 5.5; 5.7; 6; 6.3; 6.5 0.369 1
2 5 2; 3; 4; 5; 6 1.414 4
54/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Pro e contro del CST
ProPro: Guadagno in efficienza rispetto al CCS
Possibilità di stimare le variabili in sottopopolazioni di particolare interesse per gli scopi della ricerca
Riduzione della probabilità di estrazione di campioni poco rappresentativi della popolazione obiettivo
ControContro: Se le variabili ausiliari non sono di buona qualità (sufficientemente correlate con il fenomeno oggetto di studio) ne può derivare una perdita di efficienza
55/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il Deff
Sulla base della variabilità delle stime è possibile calcolare una misura del guadagno in efficienzamisura del guadagno in efficienza derivante da un disegno di campionamento alternativo al CCS
La misura è denominata effetto di disegno effetto di disegno o DeffDeff
In generale, il Deff è definito come segue (dove ALT sta per disegno di campionamento alternativo al CCS):
( )( )
ALTALT
Var yDeff
Var y
< 1 guadagno in efficienza
> 1 perdita in efficienza
56/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il Deff
Nel caso di campionamento stratificato in genere si ha:
var( )1
var( )ST
ST
yDeff
y
Più specificamente, in genere si verifica:
, ,var( ) var( ) var( )ST OT ST PRy y y
57/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento a grappoli
Una popolazione oggetto di indagine può essere talvolta considerata come costituita da sottoinsiemi “naturali” di unità elementari denominati grappoligrappoli
Esempi: - la popolazione delle persone residenti in una città è costituita dalle persone appartenenti alle famiglie residenti;
- gli studenti di una scuola sono costituiti dagli appartenenti alle sue diverse classi
58/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento a grappoli
Lo schema di campionamento a grappoli prevede: a. l’estrazione casuale di alcuni grappoli (es: famiglie)b. l’analisi completa di tutte le unità in essi contenute
ObiettivoObiettivo diverso da quello della stratificazione: convenienza in termini di costi e di tempo, facilitare il processo di raccolta delle informazioni
Può essere anche più efficiente? In teoria: se i grappoli fossero eterogenei al loro interno e omogenei tra essi (alcuni grappoli rappresentano anche quelli non selezionati) Ma nella realtà in genere si verifica il contrario
59/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La tecnica di estrazione del CGRA - illustrazione
La popolazione di 50 unità è suddivisa in 7 grappoli Vengono estratti casualmente 3 grappoli Per ognuno di essi vengono esaminate tutte le unità Il campione risultante si compone di 20 unità
60/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La stima della media con il CGRA
1
A
N B
1
a
n B
Grappoli N. unità per grappolo
Unità Totale di grappolo
1
α
A
B1
Bα
BA
Y11 … Y1β …Y1B1
Yα1 … Yαβ …YαBα
YA1 … YAβ …YABA
tY1
tYα
tYA
1
A
Y Yt t
1
1 A
YY tN
Campione di a grappoli; probabilità di inclusione: a/AStimatore fondamentale della media:
GRA1 1
1 1 1 1( )
a ay
y y
ty t t
N a A N A a N A
Num. campionaria:
1
B
Yt Y
61/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La stima della media con il CGRA
GRA1
1 1( )
a
yy tN A a
N/A = n/a :
GRA1 1 1 1
1 1 1B Ba a
y y yn a a n
1
B
yt y
Media delle osservazioni campionarie
Dimensione media dei grappoli nella popolazione
=Dimensione media dei grappoli nel campione
62/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La stima della varianza con il CGRA
Varianza della media campionaria:2
2var( ) var( )GRA y
Ay t
N
2 2
1
1( )
1y
a
t y ys t ta
Dove:
f = a/A: frazione di campionamento
22
1
11
n
y jj
s y yn
Stima varianza del totale: corrisponde alla stima della varianza di Y nel caso di CCS:
GRA
1y y
Ay t t
N A N
NB: var( ) corrisponde alla stima della varianza di nel CCS:
y
22
2var( ) (1 ) yt
GRA
sAy f
N a yt
2
var( ) (1 ) ysy f
n
63/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Pro e contro del CGRA
ProPro: Vantaggioso quando i grappoli costituiscono una naturale aggregazione delle unità finali per le quali invece non si possiede una lista
Effettuare la rilevazione solo su alcuni grappoli è molto meno dispendioso rispetto al CCS soprattutto se: a) si rende necessario un contatto diretto; b) le unità sono caratterizzate da dispersione sul territorio
ControContro: E’ in genere meno efficiente: i raggruppamenti naturali di unità tendono ad essere omogenei al loro interno ed eterogenei tra loro
64/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Campionamento a due stadi
Nella popolazione vengono individuati:
- raggruppamenti di unità (grappoli) denominati unità di primo stadiounità di primo stadio (esempio: comuni)
- unità elementari appartenenti alle unità di primo stadio denominate unità di secondo stadiounità di secondo stadio (esempio: aziende)
Lo schema di campionamento a due stadi consiste:
- nel selezionare casualmente un campione di unità di primo stadio (es: comuni)
- nel selezionare casualmente un campione di unità di secondo stadio da quelle di primo stadio (es: aziende)
Può essere visto come un campionamento a grappoli in cui si osserva solo una parte delle unità appartenenti ai grappoli campione
65/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La tecnica di estrazione del CSTA -illustrazione
1° stadio sono estratte casualmente 3 UPS 2° stadio da ogni UPS selezionata sono estratte casualmente delle USS (f = 1/2)
66/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Pro e contro del CSTA
ProPro: nelle indagini con rilevazione diretta tramite intervistatori consente di ridurre notevolmente la dispersione territoriale della rilevazione e quindi i suoi costi
ControContro: Di norma si verifica che le UPS sono omogenee al loro interno ed eterogenee tra esse. Di conseguenza il CSTA risulta meno efficiente del CCS
67/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Tecniche di campionamento non probabilistico
Trovano largo impiego in particolare nelle ricerche di mercato
VantaggiVantaggi: la semplicità organizzativa i bassi costi di realizzazione la velocità di esecuzione
Limiti:Limiti:
- l’arbitrio di chi raccoglie i dati può comportare una distorsione da selezione del campione
- non è possibile effettuare una stima della precisione dei risultati
68/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento per quote
Il metodo si basa sulla riproduzione nella composizione del campione di alcune caratteristiche distributive note della popolazione, nonostante che:
• non si dispone di una lista di campionamento
• non si applicano criteri di casualità nella selezione delle unità campionarie
69/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Il campionamento per quote
Fasi del metodo:Fasi del metodo:
1. Si individuano le caratteristiche rilevanti della popolazione da riprodurre nel campione (esempio: genere e/o età degli individui; settore e/o dimensione delle aziende)
2. Attraverso idonee fonti statistiche si calcola il peso percentuale dei corrispondenti gruppi sul totale della popolazione
3. Stabilita la numerosità campionaria, essa è ripartita tra i gruppi individuati in modo che il campione rispecchi la composizione della popolazione
4. Ai rilevatori sono assegnate le quote, ovvero il numero di interviste da effettuare liberamente in ognuno dei gruppi
70/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Profilo dell’errore
Errore statistico:Errore statistico: differenza tra il valore vero - relativo ad una certa caratteristica della popolazione - ed il valore osservato sui dati campionari
Ignota la vera entità dell’errore, poiché è ignoto il valore vero della caratteristica oggetto di studio
Scomposizione dell’errore statistico in:
1. errore campionario:1. errore campionario: derivante dal fatto che si esamina solo un campione della popolazione, anziché la sua totalità
2. errore non campionario:2. errore non campionario: a sua volta scomponibile in diversi tipi di errore a seconda delle fonti
71/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
L’errore campionario
La stima dell’errore campionario definisce l’intervallointervallo didi confidenza. confidenza. Nel cNel campionamento casuale semplice:
ErroreErrore campionariocampionario:
Errore standardErrore standard:
2
2 2ˆ(1 ) ( )ys
e z f z ES yn
2 2
2 2[ (1 ) ; (1 ) ]y ys sy z f y z f
n n
2
ˆ( ) var( ) (1 ) ysES y y f
n
72/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
L’errore campionario
Sulla base della sua espressione si deduce che l’ errore l’ errore campionario è tanto più grandecampionario è tanto più grande:
quanto maggiore è il livello di fiduciamaggiore è il livello di fiducia che si vuole avere nella stima i valori dei coefficienti zα/2 crescono al crescere del livello di fiducia
quanto più elevata è la variabilità della caratteristicapiù elevata è la variabilità della caratteristica studiata nella popolazione tale variabilità si riflette in quella osservata sul campione (e quindi sulla varianza e sull’errore standard della media campionaria)
quanto minore è la dimensione del campioneminore è la dimensione del campione legata alla varianza della media campionaria secondo una proporzione inversa
73/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
L’errore campionario - Esempio
- Popolazione di 10.000 imprese (N = 10000); - Estratte 400 unità (n = 400) mediante CCS- Stima della media del fatturato: 495 (migliaia di euro);- Stima della varianza: 2500 (migliaia di euro).
La stima dell’errore campionario, in corrispondenza di un livello di fiducia del 95%:
Conclusione: nella stima della media del fatturato delle aziende - per un livello di fiducia del 95% - si può commettere un errore pari a 4,8 migliaia di euro, per difetto o per eccesso
Ovvero, al 95% di probabilità, il valore vero incognito si trova nell’intervallo di confidenza [495 - 4,8; 495 + 4,8]
400 25001,96 (1 ) 4,8
10000 400e
74/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
L’errore campionario - Esempio
Per una diversa numerosità campionaria: n = 300(e a parità di livello di fiducia e stima della varianza nella popolazione)
Errore campionario:
Intervallo di confidenza: [495 – 5,6; 495 + 5,6]
300 25001,96 (1 ) 5,6
10000 300e
75/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Calcolo numerosità campionaria
Stabilita prima di estrarre il campione in base in base all’errore campionario massimoall’errore campionario massimo che si è disposti a commettere
Come si fissa l’errore massimo?
Non possiamo partire dalla sua stima campionaria (non abbiamo ancora il campione)
Dobbiamo partire dai valori teorici La varianza teorica della media campionariavarianza teorica della media campionaria nel CCS:
2
Var( )1
YN n Sy
N n
76/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Calcolo numerosità campionaria
Da cui deriva il valore teorico dell’errore standard:
e il valore teorico dell’errore campionario:
da cui si ottiene n in funzione di e (e di altri parametri):
2
1YSN n
ESN n
2 222 2
22 1
Y
Y
S zn
S zNe
N N
2
2 1YSN n
e zN n
77/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Calcolo numerosità campionaria
Poiché la varianza della caratteristica nella popolazione S2
Y è ignota, in genere si ricorre a:
una misura della variabilità derivante da eventuali indagini pregresse
una stima proveniente da un’indagine pilota
78/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Calcolo numerosità campionaria
Caso di stima di una frequenza stima di una frequenza Variabile dicotomica: Y = 1 (presenza attributo); Y = 0 (assenza attributo)
La varianza di Y nella popolazione è: S2Y = P (1 - P)
La numerosità campionaria può essere determinata assumendo il valore massimo della varianza, che si ha per P = 0.5, e sostituendolo nella formula generale, ottenendo:
22
222
0.25
0.251
zn
zNe
N N
79/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Calcolo numerosità campionaria - EsempioPopolazione di N = 10000 imprese Calcolo della numerosità campionaria per la stima della proporzione di imprese che hanno fatto investimenti nel triennio precedente, con - un errore massimo del 3% in più o in meno (e = 0.03)
- un livello di fiducia del 95% (α = 0.05; zα/2 = 1.96)
2
22
0.25 1.96964
0.25 1.9699990.03
10000 10000
n
Per N = 100.000 ?
Per N = 1.000.000 ? n = 1066
n = 1056
80/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Calcolo numerosità campionaria - Esempio
Per P = 0.2 ? (e N = 10000)
2
22
0.16 1.96640
0.16 1.9699990.03
10000 10000
n
2
(1 ) 0.2(1 0.2)(1 ) =1.96 (1 0.0964) 0.024
1 963p p
e z fn
Bastava un campione più piccolo:
Oppure (per n = 964) avremo un errore campionario minore:
e quindi un intervallo di confidenza meno ampio
81/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Errore non campionario
• Casuale
• Sistematico
è attribuibile unicamente al caso e i suoi effetti tendono ad annullarsi all’aumentare della numerosità campionaria 1. di copertura
2. di non risposta
3. di misura
4. di codifica e archiviazione dei dati
a. totale
b. parziale
imputabile a insufficienze metodologiche o
organizzative che possono originare in ogni fase di una
indagine
82/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Errore di copertura
Legato al grado di corrispondenza tra le unità elencate nella lista di campionamento e quelle effettive della popolazione
Due tipi di errore:1. SovracoperturaSovracopertura - la lista include unità non appartenenti alla popolazione
2. SottocoperturaSottocopertura - la lista esclude unità appartenenti alla popolazione (es. elenchi telefonici)
• si diagnostica con un quesito iniziale per verificare l’appartenenza• si risolve eliminando le unità e con un campione di riserva per la loro sostituzione
• si diagnostica analizzando le caratteristiche della lista • si risolve con riponderazione o post-stratificazione
83/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Errore di non risposta
Deriva dalla mancata osservazione sull’unità di rilevazione di alcune o di tutte le caratteristiche oggetto di studio Si distingue in:
a.a. non risposta totalenon risposta totale - se riguarda tutte le caratteristiche
b.b. non risposta parzialenon risposta parziale - se riguarda un numero contenuto di caratteristiche oggetto di indagine
• si previene con: motivazione unità selezionate; semplicità del questionario; solleciti; incentivi; sovracampionamento• si risolve con: sostituzione unità; riponderazione, post- stratificazione
• si previene con: chiarezza domande; attenzione alla riservatezza; addestramento intervistatori• si risolve con: imputazione dati mancanti (Cap. 3)
84/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Errori di non risposta o di copertura
Effetto sul campione delle non risposte totali o della sotto-copertura: alcune componenti della popolazione sottorappresentate, altre sovrarappresentate; composizione campione diversa da quella della popolazione
EsempioEsempio (mancate risposte): M F TOTPopolazione: 8000 12000 20000 (40%) (60%) (100%)
Campione: 160 240 400 (40%) (60%) (100%)
Rispondenti 90 210 300 (30%) (70%) (100%)N. R. 70 30 100
Tassi di risposta: 56.2% 87.5% 75%
85/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Errori di non risposta o di copertura
EsempioEsempio (sottocopertura): M F TOTPopolazione: 8000 12000 20000 (40%) (60%) (100%)Campione Selezionato: 120 280 400 (30%) (70%) (100%)Rispondenti: 90 210 300 (30%) (70%) (100%)Tassi di risposta: 75% 75% 75%
86/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Riponderazione / post-stratificazione Nota la composizione della popolazione secondo una o più caratteristiche, la riponderazioneriponderazione consiste: - nell’aumentare il peso delle unità campionarie sotto- rappresentate - e nel diminuire il peso di quelle sovra-rappresentate (fino a riportare i pesi a quelli noti nella popolazione)
Informazioni necessarie:Informazioni necessarie:Composizione della popolazione (oltre che del campione) secondo le k modalità della caratteristica (o delle caratteristiche) utilizzata/e per la riponderazione(Esempio: percentuale di M e di F nella popolazione e nel campione)
87/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Riponderazione / post-stratificazione
Composizione della popolazione e del campione secondo le k modalità della caratteristica: Popolazione: Campione:
Pesi di riponderazione: (per ogni unità j appartenente al sottocampione i):
iPi
NP
N ( 1,..., )i ki
Ci
nP
n
Pi iij
Ci i
P N Nw
P n n ( 1,..., )i k
unità sottorappresentate: peso aumentato
1ijw
1ijw unità sovrarappresentate: peso diminuito
88/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Riponderazione / post-stratificazioneStima della mediaStima della media:
1 1
1 1
; ( 1,..., )
i
i
nk
ij iji j i
ijnki
iji j
w yN N
y w i kn n
w
EsempioEsempio (mancate risposte): M F TOTPopolazione: 8000 12000 20000 (40%) (60%) (100%)Campione: 160 240 400 (40%) (60%) (100%)Rispondenti 90 210 300 (30%) (70%) (100%)Pesi riponderazione: 1.333 0.857
89/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Riponderazione / post-stratificazione
1 1
1 1
( );
i
i
nk
ij iji j i
ijnki
iji j
w yN N
y wn n
w
1
ki
ii
Ny y
N
Formula del campionamento stratificato applicata ai k strati costruiti a posteriori
Riponderazione = Post-stratificazione
Classificazione del campione secondo le k modalità:classificazione del campione in k strati (post-stratificazione)
90/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Post-stratificazione - Esempio
EsempioEsempio (mancate risposte): M F TOTPopolazione 8000 12000 20000 (40%) (60%) (100%)Rispondenti 90 210 300 (30%) (70%) (100%)N. R. 70 30 100
Post-stratificazione:
Pesi (Ni / N) 0.4 0.6
Medie 30 20
1
0.4 30 0.6 20 24k
ii
i
Ny y
N
Senza tenere conto della diversa incidenza delle mancate risposte ?
1
0.3 30 0.7 20 23k
ii
i
ny y
n
91/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le tipologie di quesiti
Classificati in base alle modalità di rispostamodalità di risposta- domande a risposta apertadomande a risposta aperta (o domande aperte): - non sono fornite le categorie di risposta; - l’intervistato deve fornire un valore numerico esatto oppure rispondere con parole proprie
domande a risposta chiusadomande a risposta chiusa (o domande chiuse): - sono elencate le possibili categorie di risposta tra cui il rispondente deve indicarne una o più di una
92/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Domande aperte vs domande chiuse
Pro aperte:Pro aperte: consentono l’espressione libera del rispondente consentono l’acquisizione di dati numerici esatti
nelle fasi di test del questionario consentono di individuare le categorie di risposta per le domande chiuse della versione finale
Contro aperte:Contro aperte: interpretazione soggettiva della domanda
carico di lavoro più elevato con maggiori probabilità di errore e/o abbandono
93/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le scale di valutazione
Utilizzate nella rilevazione di opinioni o atteggiamenti
Esempio: accordo/disaccordo molto, abbastanza, … Oppure: soddisfazione/insoddisfazione Trovano impiego nei sondaggi di opinione e nelle ricerche di mercato
94/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Le scale di valutazione
Scala continua: opzioni di risposta un insieme continuo di valori
Scala ancorata: possibilità di selezionare valori interi all’interno di un certo intervallo 1 2 3 4 5Totalmente Abbastanza Né d’accordo Abbastanza Totalmente in disaccordo in disaccordo né in disaccordo d’accordo d’accordo
95/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
Classificazione dei caratteri statisticiPrincipale distinzione Caratteri quantitativi:Caratteri quantitativi: che derivano da misurazioni o operazioni di conteggio (es: reddito, n. di addetti) Caratteri qualitativi:Caratteri qualitativi: in cui è assente il concetto di quantità (es: condizione occupazionale)
Classificazione più fine, fondata sulla scala di scala di misurazionemisurazione:
da essa dipendono le operazioni che si possono compiere
96/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La scala di misurazione
Caratteri qualitativiCaratteri qualitativi
Scala nominale:Scala nominale: le modalità non possono essere messe in ordine secondo una sequenza logica (es: nazionalità)
Confronto ammissibile tra due unità statistiche: se sono uguali o diverse rispetto a quel carattere
Scala ordinale: Scala ordinale: le modalità possono essere messe in ordine secondo una sequenza logica (es: titolo di studio)
Confronto ammissibile tra due unità statistiche: se l’una ha modalità maggiore o minore dell’altra secondo quel carattere
97/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La scala di misurazione
Caratteri quantitativiCaratteri quantitativi
Scala di intervalli:Scala di intervalli: le modalità non possiedono uno “zero assoluto” che indichi assenza della quantità
Esempio: temperatura; zero convenzionale, diverso a seconda della scala adottata
Confronto ammissibile: per differenza tra i valori assunti dal carattere sulle unità
Esempio: l’aumento di calore che si verifica tra 0° e 20° della scala Celsius è lo stesso che si verifica tra 20° e 40°. Ma non si può affermare che il caldo a 40° è doppio che a 20°
98/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La scala di misurazione
Caratteri quantitativiCaratteri quantitativi
Scala di rapporti: Scala di rapporti: le modalità possono essere misurate partendo da un’origine che rappresenta l’assenza della quantità (Esempio: fatturato)
Confronto ammissibile: rapporto tra i valori assunti dal carattere in due diverse unità
(Esempio: se il rapporto è 2 il fatturato è doppio)
99/89Bracalente, Cossignani, Mulas, Statistica aziendale, 2009, McGraw-Hill
La classificazione dei caratteri statistici
Esame del carattere statistico: le modalità sono ordinabili?
Esame del carattere statistico: si individua zero assoluto?
Scala nominale
Sì No
Scala ordinale
Scala di intervalli
Sì No
Scala di rapporti
Sì No
Esame del carattere statistico: si denota concetto di quantità?
Carattere quantitativo Carattere qualitativo