Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ......

13
Esercitazione n.° 2 Corso di STATISTICA Università della Basilicata a.a. 2011/12 Prof. Roberta Siciliano Si consideri un collettivo di 20 aziende italiane per le quali sono stati rilevati i dati relativi al Fatturato dell’ultimo anno (espresso in milioni di euro), il Settore economico (distinto per Costruzioni: 1, Tessile e abbigliamento: 2, Altro: 3), il Numero di addetti, l’Area geografica della principale sede operativa (distinta per NORD, CENTRO, SUD). Aziende Fatturato (in milioni di euro) Settore economico Numero di addetti Area geografica A 0,5 3 4 SUD B 0,8 3 9 CENTRO C 1 2 12 CENTRO D 1,2 2 20 SUD E 1,5 2 20 NORD F 1,8 2 16 NORD G 2 3 22 NORD H 2,2 3 15 CENTRO I 2,5 2 25 CENTRO J 2,8 2 50 SUD K 3 3 40 NORD L 3,2 2 50 NORD M 3,5 1 50 SUD N 3,8 3 60 CENTRO O 4 1 80 CENTRO P 4 1 100 SUD Q 5 1 120 NORD R 8 1 150 SUD S 12 2 200 NORD T 15 1 250 NORD A) Si descriva la distribuzione del Fatturato con indici di posizione e di variabilità, rappresentando i dati con il boxplot; B) Si descriva la distribuzione del Numero di addetti con indici di posizione e di variabilità, rappresentando i dati con il boxplot; C) Si analizzi la concentrazione delle aziende del solo settore “Costruzioni” rispetto al Fatturato e rispetto al Numero di addetti; D) Si rappresenti in tabella la distribuzione doppia di frequenze (ossia, classificando le aziende rispetto a due caratteri), incrociando il Settore economico e l’Area geografica, e si analizzi l’associazione o connessione tra i due caratteri; E) Si analizzi l’eterogeneità delle aziende rispetto al Settore economico; F) Si rappresenti in tabella la distribuzione doppia di frequenze, incrociando il Fatturato e l’Area geografica, e si analizzi l’associazione tra i due caratteri; G) Si analizzi la dipendenza in media del Fatturato dall’Area geografica e dal Settore economico; H) Si rappresenti in tabella la distribuzione doppia di frequenze, incrociando il Fatturato e il Numero di Addetti, e si analizzi la relazione tra i due caratteri.

Transcript of Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ......

Page 1: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

Esercitazione  n.°  2  -­  Corso  di  STATISTICA  -­  Università  della  Basilicata  -­  a.a.  2011/12    Prof.  Roberta  Siciliano  

 Si   consideri   un   collettivo   di   20   aziende   italiane   per   le   quali   sono   stati   rilevati   i   dati   relativi   al   Fatturato  dell’ultimo   anno   (espresso   in  milioni   di   euro),   il   Settore   economico   (distinto   per   Costruzioni:   1,   Tessile   e  abbigliamento:  2,  Altro:  3),     il  Numero  di  addetti,   l’Area  geografica  della  principale  sede  operativa  (distinta  per  NORD,  CENTRO,  SUD).  

Aziende  Fatturato  

(in  milioni  di  euro)  Settore  

economico  Numero  di  addetti  

Area  geografica  

A   0,5   3   4   SUD  

B   0,8   3   9   CENTRO  

C   1   2   12   CENTRO  

D   1,2   2   20   SUD  E   1,5   2   20   NORD  

F   1,8   2   16   NORD  

G   2   3   22   NORD  

H   2,2   3   15   CENTRO  

I   2,5   2   25   CENTRO  J   2,8   2   50   SUD  K   3   3   40   NORD  L   3,2   2   50   NORD  M   3,5   1   50   SUD  N   3,8   3   60   CENTRO  O   4   1   80   CENTRO  P   4   1   100   SUD  Q   5   1   120   NORD  R   8   1   150   SUD  S   12   2   200   NORD  T   15   1   250   NORD  

 

A) Si   descriva   la   distribuzione   del   Fatturato   con   indici   di   posizione   e   di   variabilità,  rappresentando  i  dati  con  il  box-­‐plot;  

B) Si   descriva   la   distribuzione   del   Numero   di   addetti   con   indici   di   posizione   e   di   variabilità,  rappresentando  i  dati  con  il  box-­‐plot;  

C) Si  analizzi  la  concentrazione  delle  aziende  del  solo  settore  “Costruzioni”  rispetto  al  Fatturato  e  rispetto  al  Numero  di  addetti;  

D) Si  rappresenti  in  tabella  la  distribuzione  doppia  di  frequenze  (ossia,  classificando  le  aziende  rispetto  a  due  caratteri),   incrociando   il   Settore  economico  e   l’Area  geografica,  e   si  analizzi  l’associazione  o  connessione  tra  i  due  caratteri;  

E) Si  analizzi  l’eterogeneità  delle  aziende  rispetto  al  Settore  economico;  F) Si   rappresenti   in   tabella   la   distribuzione   doppia   di   frequenze,   incrociando   il   Fatturato   e  

l’Area  geografica,  e  si  analizzi  l’associazione  tra  i  due  caratteri;    G) Si  analizzi  la  dipendenza  in  media  del  Fatturato  dall’Area  geografica  e  dal  Settore  economico;  H) Si   rappresenti   in   tabella   la   distribuzione  doppia  di   frequenze,   incrociando   il   Fatturato   e   il  

Numero  di  Addetti,  e  si  analizzi  la  relazione  tra  i  due  caratteri.    

Page 2: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

Svolgimento    

A) Si  descriva  la  distribuzione  del  Fatturato  con  indici  di  posizione  e  di  variabilità,  rappresentando  i  dati  con  il  box-­plot.  

 Considerando   la   distribuzione   unitaria   del   Fatturato   si   determinano   le   seguenti   statistiche  descrittive:    

-­‐ la  media  aritmetica:    

µFatturato =1N

xll=1

N

∑ =120

0,5 + 0,8 +1+1,2 + ...+15( ) =77,8020

= 3,89  

 La   media   aritmetica   è   un   indice   di   posizione   o   di   centralità   che   individua   quale   valore  rappresentativo   della   distribuzione   il   valore   che   sostituito   a   ciascuno   dei   valori   osservati   della  distribuzione   unitaria   lascia   invariata   la   loro   somma,   altresì   è   il   baricentro   della   distribuzione,   è  quel  valore  che  rende  minima  la  somma  dei  quadrati  degli  scarti  dei  valori  osservati  rispetto  ad  una  costante.    

-­‐ la  mediana:    

Me =

x N2

⎝ ⎜

⎠ ⎟ + x N

2+1

⎝ ⎜

⎠ ⎟

2=x 10( ) + x 11( )

2=2,8 + 32

= 2,9  

 La  mediana  è  un   indice  di  posizione  che,  per  un  carattere  numerico,   individua   il  valore  osservato  per   l’individuo   mediano,   in   corrispondenza   dell’unità   statistica   che   bipartisce   la   distribuzione  unitaria  dopo  aver  ordinato  le  unità  statistiche  rispetto  ai  valori  osservati.      Se   la   numerosità   totale   del   collettivo   è   un   numero   dispari,   con   rifierimento   alla   distribuzione  unitaria,   si   potrà   individuare   un   solo   individuo  mediano,   se   invece   è   un  numero  pari   è   possibile  individuare   due   individui   mediani.   In   tal   caso,   per   un   carattere   numerico,   si   considera   la  semisomma  dei  valori  osservati  per  i  due  individui  mediani.    Si  osserva  che  il  numero  di  unità  statistiche  è  pari  (N=20)  e  che  il  Fatturato  è  un  carattere  numerico  così   che  possiamo  rilevare   la  mediana  come   la   semisomma  dei  valori   centrali  della  distribuzione  ordinata.  Si  nota  che   la  distribuzione  del  Fatturato  è  già  ordinata,  pertanto  possiamo  calcolare   la  mediana  come  la  semisomma  delle  modalità  osservate  per   le  aziende  nella  posizione  N/2  ed  N/2  +1.      

-­‐ il  primo  quartile:    

Q1 =

x N4

⎝ ⎜

⎠ ⎟

+ x N4

+1⎛

⎝ ⎜

⎠ ⎟

2=x 5( ) + x 6( )

2=1,5 +1,82

=1,65  

 Il   primo   quartile   è   un   indice   di   posizione   che,   per   un   carattere   numerico,   individua   il   valore  osservato  per  l’individuo  mediano  della  prima  metà  della  distribuzione  ordinata.      

-­‐ il  terzo  quartile:    

Page 3: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

Q3 =

x 34N

⎝ ⎜

⎠ ⎟ + x 3

4N +1

⎝ ⎜

⎠ ⎟

2=x 15( ) + x 16( )

2=4 + 42

= 4  

 Il   terzo   quartile   è   un   indice   di   posizione   che,   per   un   carattere   numerico,   individua   il   valore  osservato  per  l’individuo  mediano  della  seconda  metà  della  distribuzione  ordinata.    

 -­‐ il  valore  minimo  della  distribuzione:  

 

xmin = x 1( ) = 0,5    

-­‐ il  valore  massimo  della  distribuzione:    

xmax = x 20( ) =15    

-­‐ il  campo  di  variazione:    

C = xmax − xmin = x 20( ) − x 1( ) =15 − 0,5 =14,5    Il  campo  di  variazione  è  un  indice  di  variabilità  di  un  carattere  numerico  che  definisce  l’ampiezza  dell’intervallo  dei  valori  osservati  per  la  distribuzione  data.    

-­‐ la  differenza  interquartile:    

D =Q 3( ) −Q1( ) = 4 −1,65 = 2,35    La   differenza   interquartile   è   un   indice   di   variabilità   che   per   un   carattere   numerico   definisce  l’ampiezza  dell’intervallo  considerando  solo  la  metà  dei  valori  osservati  posizionati  nel  centro  della  distribuzione  data.  In  altre  parole,  eliminando  li  valori  nelle  code  della  distribuzione  ordinata,  per  il  25%   a   destra   e   a   sinistra,   si   considera   l’ampiezza   dell’intervallo   dei   valori   osservati   nel   corpo  centrale  della  distribuzione  ordinata.      

-­‐ la  varianza,  come  media  dei  quadrati  degli  scarti  dei  valori  dalla  media:    

σFatturato2 =

1N

xl − µ( )2l=1

N

∑ =120

0,5 − 3,89( )2 + 0,8 − 3,89( )2 + ...+ 15 − 3,89( )2[ ] =13,25  

 oppure,  come  differenza  tra  la  media  dei  quadrati  dei  valori  e  il  quadrato  della  media:  

 

σFatturato2 =

1N

xl2 − µ2

l=1

N

∑ =120

0,52 + 0,82 + ...+152( ) − 3,892 =13,25  

 La   varianza   è   un   indice   di   variabilità,   ossia   dell’attitudine   del   carattere   ad   assumere   diverse  modalità.  In  particolare,  la  varianza  è  espressa  nel  quadrato  dell’unità  di  misura  con  cui  il  carattere  è  osservato  ed  evidenzia  la  dispersione  dei  valori  osservati  rispetto  alla  media  aritmetica,  assunta  come  misura  della  centralità  della  distribuzione.    

-­‐ lo   scarto  quadratico  medio,   come  media  quadratica  degli   scarti   dalla  media,   oppure   come  radice  quadrata  della  varianza  

 

Page 4: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

s.q.m. =σFatturato =1N

xl − µ( )2l=1

N

∑ = 13,25 = 3,64  

 Lo   scarto   quadratico   medio   è   un   indice   di   variabilità,   espresso   nella   stessa   unità   di   misura   del  carattere,   evidenzia   in  media   quanto   sono   distanti   i   valori   osservati   dalla  media.   In   tal  modo   si  evince   quanto   attendibile   è   la   media   aritmetica   ad   essere   assunta   come   rappresentativa   del  carattere.    

-­‐ il  coefficiente  di  variazione:    

CV =σ| µ |

=3,643,89

= 0,93  

 Il   coefficiente   di   variazione   è   un   indice   di   variabilità   relativa,   espresso   come   numero   puro   e  pertanto  non  più  espresso  nell’unità  di  misura  del  carattere,  permette  di  misurare   la  dispersione  dei  valori  intorno  alla  media  indipendentemente  dall’unità  di  misura  con  cui  sono  stati  rilevati  i  dati  osservati.  Usualmente,  tale  indice  viene  considerato  per  confrontare  la  variabilità  tra  distribuzioni  di  caratteri  numerici  espressi   in  unità  di  misura  diverse,  altresì  posizionate   intorno  a  valori  medi  molto  distanti.    La  rappresentazione  grafica  mediante  box-­‐plot  è  la  seguente:    

   Il   box-­‐plot   evidenzia,   considerando   la   scala   di  misurazione   del   carattere,   come   sono   distribuiti   i  valori   osservati,   potendo   descrivere   sotto   forma   di   scatola   il   corpo   centrale   dei   dati   osservati,  posizionati   al   centro,   ossia   il   50%   delle   osservazioni   presenti   tra   il   primo   e   il   terzo   quartile,  all’interno   della   quale   si   individua   con   una   linea   la   posizione   della  mediana.   I   baffi   della   scatola  sono  individuati  distanziandosi  dal  primo  e  dal  terzo  quartile  per  una  lunghezza  proporzionale  alla  larghezza   del   rettangolo,   ossia   la   differenza   interquartile.   Ad   esempio,   scegliendo   la   metà   della  differenza  interquartile,  si  potranno  determinare  i  baffi  nel  seguente  modo:  

Page 5: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

L 1( ) =Q1( ) − 0,5 × D =1,65 − 0,5 × 2,35 = 0,325L 2( ) =Q 3( ) + 0,5 × D = 4 + 0,5 × 2,35 = 5,325

 

 Con  i  baffi,  l’idea  è  di  descrivere  quanto  le  code  della  distribuzione  si  distanziano  dal  corpo  centrale  dei   dati,   potendo  evidenziare,   quali   valori   anomali,   eventuali   valori   osservati   all’esterno  dei   baffi  della  scatola.      Analizzando  i  risultati  si  evince  che  sebbene  il  campo  di  variazione  della  distribuzione  del  Fatturato  risulti   piuttosto   ampio,   il   50%  delle   aziende  presenta  un   fatturato   inferiore   a  2,9  milioni  di   euro  (valore  mediano)  e  la  distribuzione  si  posiziona  intorno  ad  un  valore  medio  pari  a  3,89  milioni  euro  con  in  media  uno  scarto  dalla  media  pari  a  3,64  milioni  euro,  evidenziando  così  una  dispersione  dei  valori  intorno  alla  media  piuttosto  bassa.  Il  50%  delle  aziende  è  concentrata  intorno  alla  mediana  in  un  intervallo  molto  ristretto  di  valori,  pari  a  2,35  milioni  di  euro  (la  differenza  interquartile),  con  una   evidente   distribuzione   simmetrica,   come   si   evince   dalla   posizione   della  mediana   rispetto   ai  quartili  nel  grafico  del  box-­‐plot.  Da  tale  grafico,  si  evince  inoltre  che  il  restante  50%  delle  aziende  non   presenta   dei   valori   del   fatturato   molto   distanti   da   tale   intervallo,   e   che   l’ampio   campo   di  variazione   è   determinato   da   tre   aziende   che   presentano   valori   eccezionalmente   alti   (valori  anomali)  rispetto  agli  altri  valori  osservati.    B) Si   descriva   la   distribuzione   del   Numero   di   addetti   con   indici   di   posizione   e   di   variabilità,  rappresentando  i  dati  con  il  box-­plot.  

 

µ = 64,65 σ = 66,16 Me = 45 Q1( ) =18 Q 3( ) = 90 D = 62 C = 250 - 4      

   Analizzando  i  risultati  si  evince  che  il  carattere  Numero  di  addetti  si  distribuisce  asimmetricamente  in   un   intervallo   piuttosto   ampio,   con   il   50%   delle   aziende   con   meno   di   45   addetti.   Le   aziende  rispetto   al   numero   di   addetti   si   posizionano   intorno   ad   una   media   di   circa   65   addetti   con   una  discreta  dispersione,  con  scostamenti  medi  dalla  media  di  circa  66  addetti.  Il  corpo  centrale  dei  dati  si   posiziona   in   un   discreto   intervallo   tra   18   e   90   addetti,   evidenziando   due   aziende   con   valori  eccezionalmente  alti  rispetto  alla  distribuzione  dei  dati  osservati.            

Page 6: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

C) Si   analizzi   la   concentrazione   delle   aziende   del   solo   settore   “Costruzioni”   rispetto   al   Fatturato   e  rispetto  al  Numero  di  addetti.  

 Occorre   considerare   la   distribuzione   unitaria   del   Fatturato   per   le   sole   aziende   del   settore  Costruzioni:  

 

Aziende  Fatturato  

(in  milioni  di  euro)  Settore  

economico  

M   3,5   1  O   4   1  P   4   1  Q   5   1  R   8   1  T   15   1  

 Si  evince  che  la  distribuzione  è  già  ordinata  rispetto  ai  valori  del  Fatturato,  altrimenti  si  sarebbero  dovute  ordinare  le  unità  statistiche  rispetto  a  valori  non  decrescenti  del  carattere  numerico.  

 Si   osserva,   inoltre,   che   il   carattere   Fatturato   osservato   per   le   aziende   appartenenti   ad   un   solo  settore   economico   gode  della   proprietà   della   trasferibilità,   in   quanto   è   ipotizzabile   re-­‐distribuire  differentemente   il   fatturato   provenienti   dalle   attività   economiche   del   settore   Costruzioni   tra   le  diverse  aziende.  

 Ai   fini  del   calcolo  del   rapporto  di   concentrazione,   si  determinano   i  valori   in   termini   relativi  delle  unità  statistiche  cumulate  e  delle  intensità  cumulate  nel  seguente  modo:  

   

Aziende  (l)  

Fatturato  (in  milioni  di  €)  

 

Unità  relative  cumulate  

(p)  

Intensità  relative  cumulate  

(q)  

Differenze  (p-­‐q)  

  M   3,5   1/6=0,17   3,5/39,5=0,09   0,078     O   4   2/6=0,33   7,5/39,5=0,19   0,143     P   4   3/6=0,50   11,5/39,5=0,29   0,209     Q   5   4/6=0,66   16,5/39,5=0,42   0,249     R   8   5/6=0,83   24,5/39,5=0,62   0,213     T   15   6/6=1   39,5/39,5=1   0  

totale   6   39,5       0,892    

Si  osserva  ad  esempio  che  il  primo  50%  di  aziende  ha  cumulato  solo  il  29%  del  Fatturato.    

Il  rapporto  di  concentrazione  del  Gini  può  essere  così  determinato:    

G =

pl − ql( )l=1

N

pll=1

N

∑=0,8922,5

= 0,357  

 Pur  constatando  che  la  distribuzione  non  è  equidistribuita,  il  valore  del  rapporto  di  concentrazione  è  meno   distante   dal   valore  minimo   pari   a   zero   (equidistribuzione)   e  maggiormente   distante   dal  valore  massimo  pari  a  uno  (massima  concentrazione).    

Page 7: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

Si  può  illustrare  la  concentrazione  mediante  la  seguente  rappresentazione  grafica:      

     

In  blu  si  evince  la  retta  di  equidistribuzione,  qualora  il  fatturato  totale  fosse  distribuito  equamente  tra  le  aziende,  con  un  valore  pari  alla  media  aritmetica.  

 In   verde   si   evince   la   spezzata   di   massima   concentrazione,   qualora   il   fatturato   totale   fosse  concentrato  in  una  sola  azienda  e  le  altre  con  valori  pari  a  zero.  

 In  rosso  si  evince  la  spezzata  di  concentrazione  per  i  dati  osservati.  

 L’area   compresa   tra   la   retta   di   equidistribuzione   e   la   spezzata   di   concentrazione   descrive   la  concentrazione:  maggiore  è  il  divario  tra  le  due  spezzate,  maggiore  è  la  concentrazione  rilevata  nei  dati  osservati.      Dal   punto   di   geometrico,   l’area   di   concentrazione   può   essere   desunta   come   differenza   tra   l’area  compresa   tra   la   linea   blu   e   la   linea   verde,   e   l’area   compresa   tra   la   linea   rossa   e   la   linea   verde.  Analiticamente,   ricorrendo   alla   formula   dell’area   dei   trapezi   è   possibile   desumere   il   valore   del  rapporto  di   concentrazione  normalizzato   (dividendo   l’area  di   concentrazione  per   il   suo  massimo,  essendo  il  minimo  pari  a  zero):    

G =

12 −

12 ×1× 1− pN −1( )[ ] − 1

2 pl − pl−1( ) ql + ql−1( )l=1

N

∑ − 12 ×1× 1− pN −1( )⎡

⎣ ⎢

⎦ ⎥

12 −

12 ×1× 1− pN −1( )[ ]

=

=

12 −

12 pl − pl−1( ) ql + ql−1( )

l=1

N

∑12 −

12 ×1× 1− pN −1( )

=

1− pl − pl−1( ) ql + ql−1( )l=1

N

∑pN −1

=1− 0,7020,833

= 0,357

 

 Qualora  il  numero  N  di  unità  statistiche  fosse  alto  (si  dice  per  N  che  tende  all’infinito),  la  spezzata  di  massima  concentrazione   tenderebbe  a  coincidere  con   la   spezzata   formata  dai   cateti  del   triangolo  

0,0  

0,1  

0,2  

0,3  

0,4  

0,5  

0,6  

0,7  

0,8  

0,9  

1,0  

0,00   0,17   0,33   0,50   0,67   0,83   1,00  

Page 8: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

rettangolo.  In  tal  modo,  l’area  di  concentrazione  può  essere  desunta  come  differenza  tra  l’area  del  triangolo   rettangolo   (pari   a   ½)   e   la   somma   delle   aree   dei   trapezi   sottesi   dalla   spezzata   di  concentrazione.  Dividendo  tale  differenza  per  il  massimo  valore  dell’area  di  concentrazione,  cioè  ½,  si  desume  un  valore  normalizzato,  compreso  tra  zero  e  uno,  che  rappresenta  un’approssimazione  del  rapporto  di  concentrazione:  

 

˜ G =

12 −

12 pl − pl−1( ) ql + ql−1( )

l =1

N

∑1

2=1− pl − pl−1( ) ql + ql−1( )

l =1

N

∑  

   D) Si   rappresenti   in   tabella   la   distribuzione   doppia   di   frequenze   (ossia,   classificando   le   aziende  rispetto   a   due   caratteri),   incrociando   il   Settore   economico   e   l’Area   geografica,   e   si   analizzi  l’associazione  o  connessione  tra  i  due  caratteri.  

 Si   desume   la   classificazione   incrociata   dei   due   caratteri   attraverso   la   determinazione   delle  frequenze   doppie,   ossia   contando   quante   unità   statistiche   presentano   contemporaneamente   la   i-­‐esima  modalità  distinta  del  carattere  posto  in  riga  e  la  j-­‐esima  modalità  distinta  del  carattere  posto  in  colonna,  ciò  per  ciascuna  combinazione  (i,j)  delle  modalità  distinte  dei  due  caratteri.  

 Si   ottiene   in   tal  modo   la   tabella  della  distribuzione  doppia  di   frequenze  dei  due   caratteri   Settore  economico  e  Area  geografica.  

 Settore  

economico  Area  geografica  

Costruzioni   Tessile  e  abbigliamento  

Altro   totale  

NORD   2   4   2   8  CENTRO   1   2   3   6  SUD   3   2   1   6  

totale   6   8   6   20    

I   totali   di   riga   sono   le   frequenze   marginali   di   riga   che   associate   alle   modalità   del   carattere   X  definiscono  la  distribuzione  semplice  (marginale)  del  carattere  X.  Analogamente,  i  totali  di  colonna  sono   le   frequenze  marginali   di   colonna   che   associate   alle  modalità  del   carattere  Y  definiscono   la  distribuzione  semplice  (marginale)  del  carattere  Y.    Di  seguito,  si  descrivono  le  distribuzioni  parziali  o  condizionate  del  tipo  Y|X=x,  ossia  del  carattere  posto  in  colonna,  il  Settore  economico,  per  ciascuna  delle  modalità  del  carattere  posto  in  riga,  l’Area  geografica,  così  da  poterle  confrontare  con  la  distribuzione  marginale  di  colonna.    

 Settore  

economico  Area  geografica  

Costruzioni   Tessile  e  abbigliamento  

Altro   totale  

NORD   2/8   4/8   2/8   1  CENTRO   1/6   2/6   3/6   1  SUD   3/6   2/6   1/6   1  

totale   6/20   8/20   6/20   1    

 Ad   esempio,   la   prima   distribuzione   parziale   o   condizionata   è   ottenuta   associando   alle   modalità  distinte   del   carattere   Settore   economico   le   frequenze   relative   della   prima   riga   della   tabella  

Page 9: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

(dividendo   ciascuna   frequenza   doppia   nella   cella   per   il   totale   di   riga),   ossia   selezionando   le   sole  aziende  del  NORD.      Qualora   le   distribuzioni   parziali,   o   condizionate,   del   tipo   Y|X=x   fossero   tutte   equivalenti   alla  distribuzione   marginale   di   colonna   Y   si   potrebbe   concludere   che   i   due   caratteri   sono  INDIPENDENTI   IN  DISTRIBUZIONE.  Ciò   vorrebbe  dire   che   la   classificazione  delle   aziende  nei   tre  settori   economici   si   replica   identicamente   nelle   tre   distinte   aree   geografiche,   e   pertanto   non   vi  sarebbe   una   maggiore   o   minore   concentrazione   di   aziende   in   particolari   settori   economici   in  funzione  dell’area  geografica.   In  altre  parole,  non  ci  sarebbe  associazione  o  connessione  tra   i  due  caratteri.  

 Nella   tabella,   si   evince   che   i   caratteri   non   sono   indipendenti,   ad   esempio   i   2/8  delle   aziende  nel  settore   delle   costruzioni   appartenenti   al   NORD   non   coincide   con   i   6/20   del   totale   delle   aziende  operanti  nel  settore  delle  costruzioni,  ossia  a  prescindere  dall’Area  geografica.  In  altre  parole,  se  le  aziende  operano  nel  NORD  esse  sono  concentrare  nel  settore  economico  delle  costruzioni  in  misura  maggiore  della  media.  

 Infatti,  per   le  proprietà  della   tabella   si  evince  che  ciascuno  degli  h  margini  di   colonna  è   la  media  delle  k  corrispondenti  frequenze  condizionate,  ponderate  per  le  frequenze  relative  di  riga:  

 

ni1ni+i

∑ ni+N

=28820

+16620

+36620

=620

=n+1

Nni2ni+i

∑ ni+N

=48820

+26620

+26620

=820

=n+2

Nni3ni+i

∑ ni+N

=28820

+36620

+16620

=620

=n+3

N

 

   Per  questo  motivo,   le  distribuzioni  condizionate  del   tipo  Y|X=x  vengono  anche  dette  “profili   riga”  mentre   la  distribuzione  marginale  di  colonna  Y  viene  detta  “profilo  medio  di  riga”   in  quanto   la  si  ottiene   come  media   dei   profili   riga,   opportunamente   pesati   tenendo   conto   delle   numerosità   dei  gruppi  parziali,  ossia  dei  totali  di  riga.  

 Dal   momento   che   non   vi   è   indipendenza   in   distribuzione   nella   tabella   data,   occorre  misurare   il  grado   di   associazione   o   connessione   mediante   l’indice   medio   quadratico   di   contingenza   del  Pearson,  detto  anche  indice  di  connessione  o  associazione.  

 Riferendoci  alla  sua  formulazione  più  semplice  dal  punto  di  vista  del  calcolo,  si  ha:  

 

φ 2 =χ2

N=

nij2

ni+n+ jj=1

h

∑i=1

k

∑ −1 =22

8 × 6+42

8 × 8+ ....+ 12

6 × 6−1 = 0,134  

 L’indice  di  connessione  varia  da  un  minimo  pari  a  zero  (in  caso  di  indipendenza  in  distribuzione)  ad  un  massimo  pari  a   {min(k,h)  –  1}   (in  caso  di  perfetta  connessione);  nel  nostro  caso   il  massimo  è  pari  a  2.  

 Rapportando   il   valore   osservato   dell’indice   di   connessione   al   suo   massimo,   si   ottiene   l’indice  normalizzato,  che  varia  tra  zero  e  uno.  

 Nel  nostro  caso,  il  valore  normalizzato  risulta:  

 

Page 10: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

φnorm2 =

φ 2

min h,k( ) −1= 0,069

   

Si  evince  una  scarsa  associazione,  prossima  allo  zero.    

E) Si  analizzi  l’eterogeneità  delle  aziende  rispetto  al  Settore  economico.    Si  considera  la  distribuzione  di  frequenze  del  carattere  Settore  economico:  

 Settore  economico   Frequenze  

assolute  Frequenze  relative  

Costruzioni   6   6/20  Tessile  e  abbigliamento   8   8/20  

Altro   6   6/20  totale   20   1  

 Di  seguito  si  determina  l’indice  di  eterogeneità  del  Gini,  che  può  variare  da  un  minimo  pari  a  zero  (in   caso   di   perfetta   omogeneità,   qualora   tutte   le   unità   statistiche   si   concentrano   in   una   unica  modalità   distinta)   ad  un  massimo  pari   a   (k-­‐1)/k  =  2/3   (in   caso  di   perfetta   eterogeneità,   qualora  tutte  le  unità  statistiche  si  equidistribuiscono  tra  le  modalità  distinte).  

 

H =1− fi2

i=1

k

∑ =1− 620⎛

⎝ ⎜

⎠ ⎟ 2

−820⎛

⎝ ⎜

⎠ ⎟ 2

−620⎛

⎝ ⎜

⎠ ⎟ 2

= 0,66  

 Rapportando  tale  valore  al  massimo  possibile  per  la  tabella  data,  si  determina  il  valore  dell’indice  di  eterogeneità  normalizzato,  che  varia  tra  0  e  1,  ossia    

Hnorm =H

k −1( )k

=0,6623

= 0,99  

 Si  evince  un’eterogeneità  molto  prossima  al  valore  massimo.  Invero,  la  distribuzione  delle  aziende  si  distribuisce  quasi  uniformemente  tra  i  tre  settori  economici.    F) Si   rappresenti   in   tabella   la   distribuzione   doppia   di   frequenze,   incrociando   il   Fatturato   e   l’Area  geografica,  e  si  analizzi  l’associazione  tra  i  due  caratteri.  

 Per  la  determinazione  della  distribuzione  doppia  di  frequenze,  occorre  definire  le  modalità  distinte  dei   due   caratteri.   Mentre   il   carattere   Area   geografica   presenta   tre   modalità   distinte   (NORD,  CENTRO,  SUD),  il  carattere  Fatturato  è  numerico  con  molti  valori  distinti.  Pertanto,  si  procede  nella  suddivisione  dei  valori  osservati  del  Fatturato  in  classi.    

 Si  sceglie  una  suddivisione  in  tre  classi  di  valori,  con  la  determinazione  degli  intervalli  in  modo  da  avere  classi  equifrequenti.  Dal  momento  che  il  totale  di  20  aziende  non  è  divisibile  per  tre,  si  decide  per   costituire   un  primo   intervallo   di   7   unità,   il   secondo   con   le   successive   6   unità,   il   terzo   con   le  ultime  7  unità,  definendo  le  classi  0-­‐-­‐|2,  2-­‐-­‐|3,5,  3,5-­‐-­‐|15.    

           

Page 11: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

Si  procede  in  tal  modo  alla  costruzione  della  tabella  che  incrocia  l’Area  geografica  e  il  Fatturato.    

Fatturato  Area  geografica  

0-­‐-­‐|2   2-­‐-­‐|3,5   3,5-­‐-­‐|15   totale  

NORD   3   2   3   8  CENTRO   2   2   2   6  SUD   2   2   2   6  

totale   7   6   7   20    Si   evince   che   non   c’è   indipendenza   in   distribuzione   e   si   determina   l’indice   di   connessione   del  Pearson:  

 

φ 2 =χ2

N=

nij2

ni+n+ jj=1

h

∑i=1

k

∑ −1 =32

8 × 7+22

8 × 6+ ....+ 22

6 × 7−1 = 0,0079  

 Rapportando  il  valore  al  suo  massimo  si  ottiene  l’indice  normalizzato  pari  a  0,0039,  evidenziando  una  scarsa  associazione.      G) Si  analizzi  la  dipendenza  in  media  del  Fatturato  dall’Area  geografica  e  dal  Settore  economico.    Per  l’analisi  della  dipendenza  in  media  del  Fatturato  dall’Area  geografica,  si  considera  la  precedente  distribuzione  doppia  di  frequenze  e  si  determinano  le  distribuzioni  condizionate  del  tipo  Y|X=x.  

 Fatturato  

Area  geografica  0-­‐-­‐|2   2-­‐-­‐|3,5   3,5-­‐-­‐|15   totale  

NORD   3/8   2/8   3/8   1  CENTRO   2/6   2/6   2/6   1  SUD   2/6   2/6   2/6   1  

totale   7/20   6/20   7/20   1    Si  determinano  le  medie  parziali  del  Fatturato  per  ciascuna  delle  tre  aree  geografiche,  considerando  come   modalità   distinta   all’interno   di   ciascun   intervallo   il   valore   centrale   (1;   2,75=2+(3,5-­‐2)/2;  9,25=3,5+(15-­‐3,5)/2):    

µFatturato|Area≡NORD = y j

n1 jn1+j=1

h

∑ =1× 38

+ 2,75 × 28

+ 9,25 38

= 4,531

µFatturato|Area≡CENTRO = y j

n2 jn2+j=1

h

∑ =1× 26

+ 2,75 × 26

+ 9,25 26

= 4,433

µFatturato|Area≡SUD = y j

n3 jn3+j=1

h

∑ =1× 26

+ 2,75 × 26

+ 9,25 26

= 4,433

 

   Si  determina  inoltre  la  media  del  Fatturato  considerando  la  distribuzione  marginale  di  colonna:  

 

µFatturato = y j

n+ j

Nj=1

h

∑ =1× 720

+ 2,75 × 620

+ 9,25 720

= 4,4125  

 Si   evince   come   le  medie  parziali   siano  prossime   alla  media   generale.  Del   resto,   già   l’analisi   della  connessione  tra   i  caratteri  ha  dimostrato  come   le  distribuzioni  parziali  siano  molto  prossime  alla  distribuzione  marginale,  ossia  nella  tabella  data  vi  è  quasi  indipendenza  in  distribuzione.  Qualora  vi  

Page 12: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

fosse   indipendenza   in   distribuzione   si   dimostrerebbe   indipendenza   in   media.   Non   ha   pertanto  senso  calcolare  il  rapporto  di  correlazione  del  Pearson  che  risulterebbe  prossimo  allo  zero.    H) Si  rappresenti  in  tabella  la  distribuzione  doppia  di  frequenze,  incrociando  il  Fatturato  e  il  Numero  di  Addetti,  e  si  analizzi  la  relazione  tra  i  due  caratteri.  

 Si   procede   nella   costruzione   della   tabella   che   incrocia   il   Fatturato   (distinto   nelle   classi   di   valori  come  in  precedenza)  e  il  Numero  di  addetti  (distinto  in  quattro  classi  di  valori):  

 Fatturato  

Numero  di  addetti  0-­‐-­‐|2   2-­‐-­‐|3,5   3,5-­‐-­‐|15   totale  

0-­‐-­‐|10   2   0   0   2  10-­‐-­‐|20   4   1   0   5  20-­‐-­‐|50   1   5   0   6  50-­‐-­‐|250   0   0   7   7  

totale   7   6   7   20    La  tabella  presenta  molte  celle  vuote  e  pertanto   le  distribuzioni  condizionate  del   tipo  Y|X=x  sono  internamente   omogenee,   ossia   per   ciascun   gruppo   parziale   (o   classe   di   addetti)   le   aziende   si  concentrano  in  una  classe  di   fatturato,  o  al  più   in  due  classi,  e  tali  classi  sono  diverse  per  ciascun  gruppo.  Pertanto,   si   evince   che   il   carattere  Y   certamente  non  è   indipendente   in  distribuzione  dal  carattere  X.   Inoltre,   le   celle   vuote   corrispondono   a   classi   diverse   di   fatturato.   Pertanto,   il   calcolo  delle   medie   parziali   delle   distribuzioni   condizionate   Y|X=x,   seguendo   quanto   sopra   operato,  dimostrerebbe  valori  diversi  dalla  media  generale  della  distribuzione  di  Y.    Risulta  quindi  interessante  determinare  il  rapporto  di  correlazione  del  Pearson,  dato  dal  rapporto  tra   la  Devianza  Between  (fra   i  gruppi)  e   la  Devianza  Totale  del  carattere  Y.  La  Devianza  Between  corrisponde   alla   devianza   della   distribuzione   delle  medie   parziali   che   può   essere   riassunta   nella  seguente  tabella:  

 MEDIE  PARZIALI  di  Y|X=x   Numerosità  dei  gruppi  parziali  

µFatturato|Add1 =1   2  

µFatturato|Add 2 =1,35   5  

µFatturato|Add 3 = 2,46   6  

µFatturato|Add 4 = 9,25   7     20  

 Si  determina  la  Devianza  Between  del  Fatturato  tra  i  diversi  gruppi  in  uno  dei  seguenti  modi:    

DevY B( ) = µY |X =xi− µY( )2ni+

i=1

k

∑ =

= (1− 4,412)2 × 2 + 1,35 − 4,412( )2 × 5 + 2,458 − 4,412( )2 × 6 + 9,25 − 4,412( )2 × 7 = 256,9072

DevY B( ) = µY |X =xi2 ni+

i=1

k

∑ − N × µY2 =12 × 2 +1,352 × 5 + 2,462 × 6 + 9,252 × 7 − 20 × 4,4122 = 256,9072

   

 Si  determina  la  Devianza  totale  del  Fatturato  in  uno  dei  seguenti  modi:  

 

Page 13: Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12 ... › ... › esercitazione2_def.pdf · 2012-05-02 · Esercitazione,n.°,2,0,Corso,di,STATISTICA,0,Università,della,Basilicata,0a.a.2011/12,

DevY T( ) = y j − µY( )2n+ j

j=1

h

∑ =

= 1− 4,412( )2 × 7 + 2,75 − 4,412( )2 × 6 + 9,25 − 4,412( )2 × 7 = 261,9094

DevY T( ) = y j2n+ j

j=1

h

∑ − N × µY2 =12 × 7 + 2,752 × 6 + 9,252 × 7 − 20 × 4,41252 = 261,9094

 

 Il  rapporto  di  correlazione  è  pertanto  pari  a:    

ηY |X2 =

DevY B( )DevY T( )

=256,9073261,9094

= 0,9809  

   Si  evince  una  forte  correlazione  di  Y  da  X  in  quanto  il  valore  del  rapporto  di  correlazione  è  molto  prossimo  ad  uno.      Si  ricorda  che  il  rapporto  di  correlazione  del  Pearson  varia  tra  zero  ed  uno,  in  quanto  deriva,  come  rapporto   di   composizione,   dalla   identità   tra   la   devianza   totale   e   la   somma   delle   devianze   tra   i  gruppi  ed  entro  i  gruppi,  dividendo  una  parte  al  tutto.  Esso  è  pari  a  zero  nel  caso  di  indipendenza  in  media  di  Y  da  X  ed  è  pari  a  uno  in  caso  di  perfetta  correlazione  tra  i  caratteri  (ad  ogni  gruppo  di  X  corrisponde  una  sola  modalità  di  Y).      Per   la   tabella   proposta,   si   sarebbe   potuto   calcolare   anche   il   rapporto   di   correlazione   di   X   da   Y,  essendo  entrambi  i  caratteri  quantitativi,  considerando  la  scomposizione  della  devianza  totale  del  carattere  X.