Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ......
Transcript of Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ......
Esercitazione n.° 2 - Corso di STATISTICA - Università della Basilicata - a.a. 2011/12 Prof. Roberta Siciliano
Si consideri un collettivo di 20 aziende italiane per le quali sono stati rilevati i dati relativi al Fatturato dell’ultimo anno (espresso in milioni di euro), il Settore economico (distinto per Costruzioni: 1, Tessile e abbigliamento: 2, Altro: 3), il Numero di addetti, l’Area geografica della principale sede operativa (distinta per NORD, CENTRO, SUD).
Aziende Fatturato
(in milioni di euro) Settore
economico Numero di addetti
Area geografica
A 0,5 3 4 SUD
B 0,8 3 9 CENTRO
C 1 2 12 CENTRO
D 1,2 2 20 SUD E 1,5 2 20 NORD
F 1,8 2 16 NORD
G 2 3 22 NORD
H 2,2 3 15 CENTRO
I 2,5 2 25 CENTRO J 2,8 2 50 SUD K 3 3 40 NORD L 3,2 2 50 NORD M 3,5 1 50 SUD N 3,8 3 60 CENTRO O 4 1 80 CENTRO P 4 1 100 SUD Q 5 1 120 NORD R 8 1 150 SUD S 12 2 200 NORD T 15 1 250 NORD
A) Si descriva la distribuzione del Fatturato con indici di posizione e di variabilità, rappresentando i dati con il box-‐plot;
B) Si descriva la distribuzione del Numero di addetti con indici di posizione e di variabilità, rappresentando i dati con il box-‐plot;
C) Si analizzi la concentrazione delle aziende del solo settore “Costruzioni” rispetto al Fatturato e rispetto al Numero di addetti;
D) Si rappresenti in tabella la distribuzione doppia di frequenze (ossia, classificando le aziende rispetto a due caratteri), incrociando il Settore economico e l’Area geografica, e si analizzi l’associazione o connessione tra i due caratteri;
E) Si analizzi l’eterogeneità delle aziende rispetto al Settore economico; F) Si rappresenti in tabella la distribuzione doppia di frequenze, incrociando il Fatturato e
l’Area geografica, e si analizzi l’associazione tra i due caratteri; G) Si analizzi la dipendenza in media del Fatturato dall’Area geografica e dal Settore economico; H) Si rappresenti in tabella la distribuzione doppia di frequenze, incrociando il Fatturato e il
Numero di Addetti, e si analizzi la relazione tra i due caratteri.
Svolgimento
A) Si descriva la distribuzione del Fatturato con indici di posizione e di variabilità, rappresentando i dati con il box-plot.
Considerando la distribuzione unitaria del Fatturato si determinano le seguenti statistiche descrittive:
-‐ la media aritmetica:
€
µFatturato =1N
xll=1
N
∑ =120
0,5 + 0,8 +1+1,2 + ...+15( ) =77,8020
= 3,89
La media aritmetica è un indice di posizione o di centralità che individua quale valore rappresentativo della distribuzione il valore che sostituito a ciascuno dei valori osservati della distribuzione unitaria lascia invariata la loro somma, altresì è il baricentro della distribuzione, è quel valore che rende minima la somma dei quadrati degli scarti dei valori osservati rispetto ad una costante.
-‐ la mediana:
€
Me =
x N2
⎛
⎝ ⎜
⎞
⎠ ⎟ + x N
2+1
⎛
⎝ ⎜
⎞
⎠ ⎟
2=x 10( ) + x 11( )
2=2,8 + 32
= 2,9
La mediana è un indice di posizione che, per un carattere numerico, individua il valore osservato per l’individuo mediano, in corrispondenza dell’unità statistica che bipartisce la distribuzione unitaria dopo aver ordinato le unità statistiche rispetto ai valori osservati. Se la numerosità totale del collettivo è un numero dispari, con rifierimento alla distribuzione unitaria, si potrà individuare un solo individuo mediano, se invece è un numero pari è possibile individuare due individui mediani. In tal caso, per un carattere numerico, si considera la semisomma dei valori osservati per i due individui mediani. Si osserva che il numero di unità statistiche è pari (N=20) e che il Fatturato è un carattere numerico così che possiamo rilevare la mediana come la semisomma dei valori centrali della distribuzione ordinata. Si nota che la distribuzione del Fatturato è già ordinata, pertanto possiamo calcolare la mediana come la semisomma delle modalità osservate per le aziende nella posizione N/2 ed N/2 +1.
-‐ il primo quartile:
€
Q1 =
x N4
⎛
⎝ ⎜
⎞
⎠ ⎟
+ x N4
+1⎛
⎝ ⎜
⎞
⎠ ⎟
2=x 5( ) + x 6( )
2=1,5 +1,82
=1,65
Il primo quartile è un indice di posizione che, per un carattere numerico, individua il valore osservato per l’individuo mediano della prima metà della distribuzione ordinata.
-‐ il terzo quartile:
€
Q3 =
x 34N
⎛
⎝ ⎜
⎞
⎠ ⎟ + x 3
4N +1
⎛
⎝ ⎜
⎞
⎠ ⎟
2=x 15( ) + x 16( )
2=4 + 42
= 4
Il terzo quartile è un indice di posizione che, per un carattere numerico, individua il valore osservato per l’individuo mediano della seconda metà della distribuzione ordinata.
-‐ il valore minimo della distribuzione:
€
xmin = x 1( ) = 0,5
-‐ il valore massimo della distribuzione:
€
xmax = x 20( ) =15
-‐ il campo di variazione:
€
C = xmax − xmin = x 20( ) − x 1( ) =15 − 0,5 =14,5 Il campo di variazione è un indice di variabilità di un carattere numerico che definisce l’ampiezza dell’intervallo dei valori osservati per la distribuzione data.
-‐ la differenza interquartile:
€
D =Q 3( ) −Q1( ) = 4 −1,65 = 2,35 La differenza interquartile è un indice di variabilità che per un carattere numerico definisce l’ampiezza dell’intervallo considerando solo la metà dei valori osservati posizionati nel centro della distribuzione data. In altre parole, eliminando li valori nelle code della distribuzione ordinata, per il 25% a destra e a sinistra, si considera l’ampiezza dell’intervallo dei valori osservati nel corpo centrale della distribuzione ordinata.
-‐ la varianza, come media dei quadrati degli scarti dei valori dalla media:
€
σFatturato2 =
1N
xl − µ( )2l=1
N
∑ =120
0,5 − 3,89( )2 + 0,8 − 3,89( )2 + ...+ 15 − 3,89( )2[ ] =13,25
oppure, come differenza tra la media dei quadrati dei valori e il quadrato della media:
€
σFatturato2 =
1N
xl2 − µ2
l=1
N
∑ =120
0,52 + 0,82 + ...+152( ) − 3,892 =13,25
La varianza è un indice di variabilità, ossia dell’attitudine del carattere ad assumere diverse modalità. In particolare, la varianza è espressa nel quadrato dell’unità di misura con cui il carattere è osservato ed evidenzia la dispersione dei valori osservati rispetto alla media aritmetica, assunta come misura della centralità della distribuzione.
-‐ lo scarto quadratico medio, come media quadratica degli scarti dalla media, oppure come radice quadrata della varianza
€
s.q.m. =σFatturato =1N
xl − µ( )2l=1
N
∑ = 13,25 = 3,64
Lo scarto quadratico medio è un indice di variabilità, espresso nella stessa unità di misura del carattere, evidenzia in media quanto sono distanti i valori osservati dalla media. In tal modo si evince quanto attendibile è la media aritmetica ad essere assunta come rappresentativa del carattere.
-‐ il coefficiente di variazione:
€
CV =σ| µ |
=3,643,89
= 0,93
Il coefficiente di variazione è un indice di variabilità relativa, espresso come numero puro e pertanto non più espresso nell’unità di misura del carattere, permette di misurare la dispersione dei valori intorno alla media indipendentemente dall’unità di misura con cui sono stati rilevati i dati osservati. Usualmente, tale indice viene considerato per confrontare la variabilità tra distribuzioni di caratteri numerici espressi in unità di misura diverse, altresì posizionate intorno a valori medi molto distanti. La rappresentazione grafica mediante box-‐plot è la seguente:
Il box-‐plot evidenzia, considerando la scala di misurazione del carattere, come sono distribuiti i valori osservati, potendo descrivere sotto forma di scatola il corpo centrale dei dati osservati, posizionati al centro, ossia il 50% delle osservazioni presenti tra il primo e il terzo quartile, all’interno della quale si individua con una linea la posizione della mediana. I baffi della scatola sono individuati distanziandosi dal primo e dal terzo quartile per una lunghezza proporzionale alla larghezza del rettangolo, ossia la differenza interquartile. Ad esempio, scegliendo la metà della differenza interquartile, si potranno determinare i baffi nel seguente modo:
€
L 1( ) =Q1( ) − 0,5 × D =1,65 − 0,5 × 2,35 = 0,325L 2( ) =Q 3( ) + 0,5 × D = 4 + 0,5 × 2,35 = 5,325
Con i baffi, l’idea è di descrivere quanto le code della distribuzione si distanziano dal corpo centrale dei dati, potendo evidenziare, quali valori anomali, eventuali valori osservati all’esterno dei baffi della scatola. Analizzando i risultati si evince che sebbene il campo di variazione della distribuzione del Fatturato risulti piuttosto ampio, il 50% delle aziende presenta un fatturato inferiore a 2,9 milioni di euro (valore mediano) e la distribuzione si posiziona intorno ad un valore medio pari a 3,89 milioni euro con in media uno scarto dalla media pari a 3,64 milioni euro, evidenziando così una dispersione dei valori intorno alla media piuttosto bassa. Il 50% delle aziende è concentrata intorno alla mediana in un intervallo molto ristretto di valori, pari a 2,35 milioni di euro (la differenza interquartile), con una evidente distribuzione simmetrica, come si evince dalla posizione della mediana rispetto ai quartili nel grafico del box-‐plot. Da tale grafico, si evince inoltre che il restante 50% delle aziende non presenta dei valori del fatturato molto distanti da tale intervallo, e che l’ampio campo di variazione è determinato da tre aziende che presentano valori eccezionalmente alti (valori anomali) rispetto agli altri valori osservati. B) Si descriva la distribuzione del Numero di addetti con indici di posizione e di variabilità, rappresentando i dati con il box-plot.
€
µ = 64,65 σ = 66,16 Me = 45 Q1( ) =18 Q 3( ) = 90 D = 62 C = 250 - 4
Analizzando i risultati si evince che il carattere Numero di addetti si distribuisce asimmetricamente in un intervallo piuttosto ampio, con il 50% delle aziende con meno di 45 addetti. Le aziende rispetto al numero di addetti si posizionano intorno ad una media di circa 65 addetti con una discreta dispersione, con scostamenti medi dalla media di circa 66 addetti. Il corpo centrale dei dati si posiziona in un discreto intervallo tra 18 e 90 addetti, evidenziando due aziende con valori eccezionalmente alti rispetto alla distribuzione dei dati osservati.
C) Si analizzi la concentrazione delle aziende del solo settore “Costruzioni” rispetto al Fatturato e rispetto al Numero di addetti.
Occorre considerare la distribuzione unitaria del Fatturato per le sole aziende del settore Costruzioni:
Aziende Fatturato
(in milioni di euro) Settore
economico
M 3,5 1 O 4 1 P 4 1 Q 5 1 R 8 1 T 15 1
Si evince che la distribuzione è già ordinata rispetto ai valori del Fatturato, altrimenti si sarebbero dovute ordinare le unità statistiche rispetto a valori non decrescenti del carattere numerico.
Si osserva, inoltre, che il carattere Fatturato osservato per le aziende appartenenti ad un solo settore economico gode della proprietà della trasferibilità, in quanto è ipotizzabile re-‐distribuire differentemente il fatturato provenienti dalle attività economiche del settore Costruzioni tra le diverse aziende.
Ai fini del calcolo del rapporto di concentrazione, si determinano i valori in termini relativi delle unità statistiche cumulate e delle intensità cumulate nel seguente modo:
Aziende (l)
Fatturato (in milioni di €)
Unità relative cumulate
(p)
Intensità relative cumulate
(q)
Differenze (p-‐q)
M 3,5 1/6=0,17 3,5/39,5=0,09 0,078 O 4 2/6=0,33 7,5/39,5=0,19 0,143 P 4 3/6=0,50 11,5/39,5=0,29 0,209 Q 5 4/6=0,66 16,5/39,5=0,42 0,249 R 8 5/6=0,83 24,5/39,5=0,62 0,213 T 15 6/6=1 39,5/39,5=1 0
totale 6 39,5 0,892
Si osserva ad esempio che il primo 50% di aziende ha cumulato solo il 29% del Fatturato.
Il rapporto di concentrazione del Gini può essere così determinato:
€
G =
pl − ql( )l=1
N
∑
pll=1
N
∑=0,8922,5
= 0,357
Pur constatando che la distribuzione non è equidistribuita, il valore del rapporto di concentrazione è meno distante dal valore minimo pari a zero (equidistribuzione) e maggiormente distante dal valore massimo pari a uno (massima concentrazione).
Si può illustrare la concentrazione mediante la seguente rappresentazione grafica:
In blu si evince la retta di equidistribuzione, qualora il fatturato totale fosse distribuito equamente tra le aziende, con un valore pari alla media aritmetica.
In verde si evince la spezzata di massima concentrazione, qualora il fatturato totale fosse concentrato in una sola azienda e le altre con valori pari a zero.
In rosso si evince la spezzata di concentrazione per i dati osservati.
L’area compresa tra la retta di equidistribuzione e la spezzata di concentrazione descrive la concentrazione: maggiore è il divario tra le due spezzate, maggiore è la concentrazione rilevata nei dati osservati. Dal punto di geometrico, l’area di concentrazione può essere desunta come differenza tra l’area compresa tra la linea blu e la linea verde, e l’area compresa tra la linea rossa e la linea verde. Analiticamente, ricorrendo alla formula dell’area dei trapezi è possibile desumere il valore del rapporto di concentrazione normalizzato (dividendo l’area di concentrazione per il suo massimo, essendo il minimo pari a zero):
€
G =
12 −
12 ×1× 1− pN −1( )[ ] − 1
2 pl − pl−1( ) ql + ql−1( )l=1
N
∑ − 12 ×1× 1− pN −1( )⎡
⎣ ⎢
⎤
⎦ ⎥
12 −
12 ×1× 1− pN −1( )[ ]
=
=
12 −
12 pl − pl−1( ) ql + ql−1( )
l=1
N
∑12 −
12 ×1× 1− pN −1( )
=
1− pl − pl−1( ) ql + ql−1( )l=1
N
∑pN −1
=1− 0,7020,833
= 0,357
Qualora il numero N di unità statistiche fosse alto (si dice per N che tende all’infinito), la spezzata di massima concentrazione tenderebbe a coincidere con la spezzata formata dai cateti del triangolo
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
0,00 0,17 0,33 0,50 0,67 0,83 1,00
rettangolo. In tal modo, l’area di concentrazione può essere desunta come differenza tra l’area del triangolo rettangolo (pari a ½) e la somma delle aree dei trapezi sottesi dalla spezzata di concentrazione. Dividendo tale differenza per il massimo valore dell’area di concentrazione, cioè ½, si desume un valore normalizzato, compreso tra zero e uno, che rappresenta un’approssimazione del rapporto di concentrazione:
€
˜ G =
12 −
12 pl − pl−1( ) ql + ql−1( )
l =1
N
∑1
2=1− pl − pl−1( ) ql + ql−1( )
l =1
N
∑
D) Si rappresenti in tabella la distribuzione doppia di frequenze (ossia, classificando le aziende rispetto a due caratteri), incrociando il Settore economico e l’Area geografica, e si analizzi l’associazione o connessione tra i due caratteri.
Si desume la classificazione incrociata dei due caratteri attraverso la determinazione delle frequenze doppie, ossia contando quante unità statistiche presentano contemporaneamente la i-‐esima modalità distinta del carattere posto in riga e la j-‐esima modalità distinta del carattere posto in colonna, ciò per ciascuna combinazione (i,j) delle modalità distinte dei due caratteri.
Si ottiene in tal modo la tabella della distribuzione doppia di frequenze dei due caratteri Settore economico e Area geografica.
Settore
economico Area geografica
Costruzioni Tessile e abbigliamento
Altro totale
NORD 2 4 2 8 CENTRO 1 2 3 6 SUD 3 2 1 6
totale 6 8 6 20
I totali di riga sono le frequenze marginali di riga che associate alle modalità del carattere X definiscono la distribuzione semplice (marginale) del carattere X. Analogamente, i totali di colonna sono le frequenze marginali di colonna che associate alle modalità del carattere Y definiscono la distribuzione semplice (marginale) del carattere Y. Di seguito, si descrivono le distribuzioni parziali o condizionate del tipo Y|X=x, ossia del carattere posto in colonna, il Settore economico, per ciascuna delle modalità del carattere posto in riga, l’Area geografica, così da poterle confrontare con la distribuzione marginale di colonna.
Settore
economico Area geografica
Costruzioni Tessile e abbigliamento
Altro totale
NORD 2/8 4/8 2/8 1 CENTRO 1/6 2/6 3/6 1 SUD 3/6 2/6 1/6 1
totale 6/20 8/20 6/20 1
Ad esempio, la prima distribuzione parziale o condizionata è ottenuta associando alle modalità distinte del carattere Settore economico le frequenze relative della prima riga della tabella
(dividendo ciascuna frequenza doppia nella cella per il totale di riga), ossia selezionando le sole aziende del NORD. Qualora le distribuzioni parziali, o condizionate, del tipo Y|X=x fossero tutte equivalenti alla distribuzione marginale di colonna Y si potrebbe concludere che i due caratteri sono INDIPENDENTI IN DISTRIBUZIONE. Ciò vorrebbe dire che la classificazione delle aziende nei tre settori economici si replica identicamente nelle tre distinte aree geografiche, e pertanto non vi sarebbe una maggiore o minore concentrazione di aziende in particolari settori economici in funzione dell’area geografica. In altre parole, non ci sarebbe associazione o connessione tra i due caratteri.
Nella tabella, si evince che i caratteri non sono indipendenti, ad esempio i 2/8 delle aziende nel settore delle costruzioni appartenenti al NORD non coincide con i 6/20 del totale delle aziende operanti nel settore delle costruzioni, ossia a prescindere dall’Area geografica. In altre parole, se le aziende operano nel NORD esse sono concentrare nel settore economico delle costruzioni in misura maggiore della media.
Infatti, per le proprietà della tabella si evince che ciascuno degli h margini di colonna è la media delle k corrispondenti frequenze condizionate, ponderate per le frequenze relative di riga:
€
ni1ni+i
∑ ni+N
=28820
+16620
+36620
=620
=n+1
Nni2ni+i
∑ ni+N
=48820
+26620
+26620
=820
=n+2
Nni3ni+i
∑ ni+N
=28820
+36620
+16620
=620
=n+3
N
Per questo motivo, le distribuzioni condizionate del tipo Y|X=x vengono anche dette “profili riga” mentre la distribuzione marginale di colonna Y viene detta “profilo medio di riga” in quanto la si ottiene come media dei profili riga, opportunamente pesati tenendo conto delle numerosità dei gruppi parziali, ossia dei totali di riga.
Dal momento che non vi è indipendenza in distribuzione nella tabella data, occorre misurare il grado di associazione o connessione mediante l’indice medio quadratico di contingenza del Pearson, detto anche indice di connessione o associazione.
Riferendoci alla sua formulazione più semplice dal punto di vista del calcolo, si ha:
€
φ 2 =χ2
N=
nij2
ni+n+ jj=1
h
∑i=1
k
∑ −1 =22
8 × 6+42
8 × 8+ ....+ 12
6 × 6−1 = 0,134
L’indice di connessione varia da un minimo pari a zero (in caso di indipendenza in distribuzione) ad un massimo pari a {min(k,h) – 1} (in caso di perfetta connessione); nel nostro caso il massimo è pari a 2.
Rapportando il valore osservato dell’indice di connessione al suo massimo, si ottiene l’indice normalizzato, che varia tra zero e uno.
Nel nostro caso, il valore normalizzato risulta:
€
φnorm2 =
φ 2
min h,k( ) −1= 0,069
Si evince una scarsa associazione, prossima allo zero.
E) Si analizzi l’eterogeneità delle aziende rispetto al Settore economico. Si considera la distribuzione di frequenze del carattere Settore economico:
Settore economico Frequenze
assolute Frequenze relative
Costruzioni 6 6/20 Tessile e abbigliamento 8 8/20
Altro 6 6/20 totale 20 1
Di seguito si determina l’indice di eterogeneità del Gini, che può variare da un minimo pari a zero (in caso di perfetta omogeneità, qualora tutte le unità statistiche si concentrano in una unica modalità distinta) ad un massimo pari a (k-‐1)/k = 2/3 (in caso di perfetta eterogeneità, qualora tutte le unità statistiche si equidistribuiscono tra le modalità distinte).
€
H =1− fi2
i=1
k
∑ =1− 620⎛
⎝ ⎜
⎞
⎠ ⎟ 2
−820⎛
⎝ ⎜
⎞
⎠ ⎟ 2
−620⎛
⎝ ⎜
⎞
⎠ ⎟ 2
= 0,66
Rapportando tale valore al massimo possibile per la tabella data, si determina il valore dell’indice di eterogeneità normalizzato, che varia tra 0 e 1, ossia
€
Hnorm =H
k −1( )k
=0,6623
= 0,99
Si evince un’eterogeneità molto prossima al valore massimo. Invero, la distribuzione delle aziende si distribuisce quasi uniformemente tra i tre settori economici. F) Si rappresenti in tabella la distribuzione doppia di frequenze, incrociando il Fatturato e l’Area geografica, e si analizzi l’associazione tra i due caratteri.
Per la determinazione della distribuzione doppia di frequenze, occorre definire le modalità distinte dei due caratteri. Mentre il carattere Area geografica presenta tre modalità distinte (NORD, CENTRO, SUD), il carattere Fatturato è numerico con molti valori distinti. Pertanto, si procede nella suddivisione dei valori osservati del Fatturato in classi.
Si sceglie una suddivisione in tre classi di valori, con la determinazione degli intervalli in modo da avere classi equifrequenti. Dal momento che il totale di 20 aziende non è divisibile per tre, si decide per costituire un primo intervallo di 7 unità, il secondo con le successive 6 unità, il terzo con le ultime 7 unità, definendo le classi 0-‐-‐|2, 2-‐-‐|3,5, 3,5-‐-‐|15.
Si procede in tal modo alla costruzione della tabella che incrocia l’Area geografica e il Fatturato.
Fatturato Area geografica
0-‐-‐|2 2-‐-‐|3,5 3,5-‐-‐|15 totale
NORD 3 2 3 8 CENTRO 2 2 2 6 SUD 2 2 2 6
totale 7 6 7 20 Si evince che non c’è indipendenza in distribuzione e si determina l’indice di connessione del Pearson:
€
φ 2 =χ2
N=
nij2
ni+n+ jj=1
h
∑i=1
k
∑ −1 =32
8 × 7+22
8 × 6+ ....+ 22
6 × 7−1 = 0,0079
Rapportando il valore al suo massimo si ottiene l’indice normalizzato pari a 0,0039, evidenziando una scarsa associazione. G) Si analizzi la dipendenza in media del Fatturato dall’Area geografica e dal Settore economico. Per l’analisi della dipendenza in media del Fatturato dall’Area geografica, si considera la precedente distribuzione doppia di frequenze e si determinano le distribuzioni condizionate del tipo Y|X=x.
Fatturato
Area geografica 0-‐-‐|2 2-‐-‐|3,5 3,5-‐-‐|15 totale
NORD 3/8 2/8 3/8 1 CENTRO 2/6 2/6 2/6 1 SUD 2/6 2/6 2/6 1
totale 7/20 6/20 7/20 1 Si determinano le medie parziali del Fatturato per ciascuna delle tre aree geografiche, considerando come modalità distinta all’interno di ciascun intervallo il valore centrale (1; 2,75=2+(3,5-‐2)/2; 9,25=3,5+(15-‐3,5)/2):
€
µFatturato|Area≡NORD = y j
n1 jn1+j=1
h
∑ =1× 38
+ 2,75 × 28
+ 9,25 38
= 4,531
µFatturato|Area≡CENTRO = y j
n2 jn2+j=1
h
∑ =1× 26
+ 2,75 × 26
+ 9,25 26
= 4,433
µFatturato|Area≡SUD = y j
n3 jn3+j=1
h
∑ =1× 26
+ 2,75 × 26
+ 9,25 26
= 4,433
Si determina inoltre la media del Fatturato considerando la distribuzione marginale di colonna:
€
µFatturato = y j
n+ j
Nj=1
h
∑ =1× 720
+ 2,75 × 620
+ 9,25 720
= 4,4125
Si evince come le medie parziali siano prossime alla media generale. Del resto, già l’analisi della connessione tra i caratteri ha dimostrato come le distribuzioni parziali siano molto prossime alla distribuzione marginale, ossia nella tabella data vi è quasi indipendenza in distribuzione. Qualora vi
fosse indipendenza in distribuzione si dimostrerebbe indipendenza in media. Non ha pertanto senso calcolare il rapporto di correlazione del Pearson che risulterebbe prossimo allo zero. H) Si rappresenti in tabella la distribuzione doppia di frequenze, incrociando il Fatturato e il Numero di Addetti, e si analizzi la relazione tra i due caratteri.
Si procede nella costruzione della tabella che incrocia il Fatturato (distinto nelle classi di valori come in precedenza) e il Numero di addetti (distinto in quattro classi di valori):
Fatturato
Numero di addetti 0-‐-‐|2 2-‐-‐|3,5 3,5-‐-‐|15 totale
0-‐-‐|10 2 0 0 2 10-‐-‐|20 4 1 0 5 20-‐-‐|50 1 5 0 6 50-‐-‐|250 0 0 7 7
totale 7 6 7 20 La tabella presenta molte celle vuote e pertanto le distribuzioni condizionate del tipo Y|X=x sono internamente omogenee, ossia per ciascun gruppo parziale (o classe di addetti) le aziende si concentrano in una classe di fatturato, o al più in due classi, e tali classi sono diverse per ciascun gruppo. Pertanto, si evince che il carattere Y certamente non è indipendente in distribuzione dal carattere X. Inoltre, le celle vuote corrispondono a classi diverse di fatturato. Pertanto, il calcolo delle medie parziali delle distribuzioni condizionate Y|X=x, seguendo quanto sopra operato, dimostrerebbe valori diversi dalla media generale della distribuzione di Y. Risulta quindi interessante determinare il rapporto di correlazione del Pearson, dato dal rapporto tra la Devianza Between (fra i gruppi) e la Devianza Totale del carattere Y. La Devianza Between corrisponde alla devianza della distribuzione delle medie parziali che può essere riassunta nella seguente tabella:
MEDIE PARZIALI di Y|X=x Numerosità dei gruppi parziali
€
µFatturato|Add1 =1 2
€
µFatturato|Add 2 =1,35 5
€
µFatturato|Add 3 = 2,46 6
€
µFatturato|Add 4 = 9,25 7 20
Si determina la Devianza Between del Fatturato tra i diversi gruppi in uno dei seguenti modi:
€
DevY B( ) = µY |X =xi− µY( )2ni+
i=1
k
∑ =
= (1− 4,412)2 × 2 + 1,35 − 4,412( )2 × 5 + 2,458 − 4,412( )2 × 6 + 9,25 − 4,412( )2 × 7 = 256,9072
DevY B( ) = µY |X =xi2 ni+
i=1
k
∑ − N × µY2 =12 × 2 +1,352 × 5 + 2,462 × 6 + 9,252 × 7 − 20 × 4,4122 = 256,9072
Si determina la Devianza totale del Fatturato in uno dei seguenti modi:
€
DevY T( ) = y j − µY( )2n+ j
j=1
h
∑ =
= 1− 4,412( )2 × 7 + 2,75 − 4,412( )2 × 6 + 9,25 − 4,412( )2 × 7 = 261,9094
DevY T( ) = y j2n+ j
j=1
h
∑ − N × µY2 =12 × 7 + 2,752 × 6 + 9,252 × 7 − 20 × 4,41252 = 261,9094
Il rapporto di correlazione è pertanto pari a:
€
ηY |X2 =
DevY B( )DevY T( )
=256,9073261,9094
= 0,9809
Si evince una forte correlazione di Y da X in quanto il valore del rapporto di correlazione è molto prossimo ad uno. Si ricorda che il rapporto di correlazione del Pearson varia tra zero ed uno, in quanto deriva, come rapporto di composizione, dalla identità tra la devianza totale e la somma delle devianze tra i gruppi ed entro i gruppi, dividendo una parte al tutto. Esso è pari a zero nel caso di indipendenza in media di Y da X ed è pari a uno in caso di perfetta correlazione tra i caratteri (ad ogni gruppo di X corrisponde una sola modalità di Y). Per la tabella proposta, si sarebbe potuto calcolare anche il rapporto di correlazione di X da Y, essendo entrambi i caratteri quantitativi, considerando la scomposizione della devianza totale del carattere X.