1– Centralità, variabilità e forma - Unical

13
Corso di Laurea: Economia Aziendale Insegnamento: Statistica (I a parte) Docente: G.Latorre, D.Costanzo, M.Misuraca Lezione n° 07 Docente: G.Latorre, D.Costanzo, M.Misuraca 1 – Centralità, variabilità e forma Una volta studiata la distribuzione attraverso il calcolo delle misure di centralità e variabilità abbiamo delle informazioni sintetiche per poter comprendere il comportamento di un certo fenomeno rispetto al collettivo oggetto di studio La centralità e la variabilità di una distribuzione non esauriscono le informazioni contenute nei dati, in alcuni casi non sono esaustive per poter interpretare come il carattere si manifesta Abbiamo bisogno quindi anche di un altro elemento per meglio definire le caratteristiche della distribuzione: due variabili possono avere infatti, ad esempio, la stessa media/mediana e la stessa variabilità ma differire per il peso dei valori più grandi o più piccoli rispetto al valore stessa variabilità ma differire per il peso dei valori più grandi o più piccoli rispetto al valore centrale, a causa del comportamento differenziato delle “code” della distribuzione, cioè delle parti più esterne dell’insieme ordinato dei dati Tale studio può essere effettuato considerando la cosiddetta forma della distribuzione Tale argomento meriterebbe una trattazione separata, ma per semplicità lo consideriamo ll’ bi d ll i bili à d d ll nell’ ambito della variabilità, essendoad essa strettamente collegato

Transcript of 1– Centralità, variabilità e forma - Unical

Page 1: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

1 – Centralità, variabilità e forma 

Una volta studiata la distribuzione attraverso il calcolo delle misure di centralità e variabilità abbiamo delle informazioni sintetiche per poter comprendere il comportamento di un certo fenomeno rispetto al collettivo oggetto di studio

La centralità e la variabilità di una distribuzione non esauriscono le informazioni contenute nei dati, in alcuni casi non sono esaustive per poter interpretare come il carattere si manifesta

Abbiamo bisogno quindi anche di un altro elemento per meglio definire le caratteristiche della distribuzione: due variabili possono avere infatti, ad esempio, la stessa media/mediana e la stessa variabilità ma differire per il peso dei valori più grandi o più piccoli rispetto al valorestessa variabilità ma differire per il peso dei valori più grandi o più piccoli rispetto al valore centrale, a causa del comportamento differenziato delle “code” della distribuzione, cioè delle parti più esterne dell’insieme ordinato dei dati

Tale studio può essere effettuato considerando la cosiddetta forma della distribuzione

Tale argomento meriterebbe una trattazione separata, ma per semplicità lo consideriamo ll’ bi d ll i bili à d d llnell’ambito della variabilità, essendo ad essa strettamente collegato

Page 2: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

2 – Gli intervalli di variabilità 

Data la distribuzione unitaria di un carattere X, ordinata in senso crescente

x x x≤ ≤ ≤

è possibile considerare 5 valori rappresentativi:

(1) (2) (N)x x x≤ ≤ ≤

è possibile considerare 5 valori rappresentativi:

x(1) = xmin è il valore più piccolo della distribuzione

Q1 = primo quartile (25° percentile) 

Me = mediana (50° percentile)

( )Q3 = terzo quartile (75° percentile)

x(N) = xmax è il valore più grande della distribuzione

Attraverso tali valori possiamo costruire i cosiddetti intervalli di variabilità della distribuzione

Page 3: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

3 – Centralità e Variabilità 

A partire da |xmin| Q1 | Me | Q3 |xmax| è possibile ottenere due misure di posizione e due misure di variabilità:

ix x+ Q Q+min maxx xMidRange

2+

=

C di i i

1 3Q QMedia Interquartile

2+

=

max minC. di variazione = x ‐ x 3 1Differenza Interquartile Q Q= −

Le misure forniscono delle indicazioni di massima sulla distribuzione dei dati ma sono influenzate d i l i li id l il 50% d i d ti di i i idai valori anomali o considerano solo il 50% dei dati a disposizione: possiamo comunque utilizzare tali quantità per analizzare la forma della distribuzione di X

Page 4: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

4 – La sintesi a cinque 

Utilizzando i cinque valori rappresentativi |xmin| Q1 | Me | Q3 |xmax| è possibile studiare il comportamento di un carattere in un collettivo, osservando:‐ la distanza tra il primo quartile e la mediana e tra la mediana e il terzo quartilela distanza tra x e il primo quartile e tra il terzo quartile e x‐ la distanza tra xmin e il primo quartile e tra il terzo quartile e xmax

‐ la relazione tra la mediana, la media interquartile e il midrange

L di t ib i i di i t iLa distribuzione si dice simmetrica se:‐ la distanza tra primo quartile e mediana e tra mediana e terzo quartile è uguale‐ la distanza tra xmin e primo quartile e tra terzo quartile e xmax è uguale‐ la mediana la media interquartile e il midrange coincidonola mediana, la media interquartile e il midrange coincidono

In questo caso anche la moda e la media aritmetica coincidono con la mediana

La distribuzione si dice asimmetrica se:‐ la distanza tra primo quartile e mediana e tra mediana e terzo quartile è diversa‐ la distanza tra xmin e primo quartile e tra terzo quartile e xmax è diversal di l di i t til il id i id‐ la mediana, la media interquartile e il midrange non coincidono

Page 5: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

5 – Asimmetria positiva e negativa 

In generale si distingue tra una asimmetria positiva e una asimmetria negativa

La distribuzione si dice asimmetrica negativa (o “obliqua a sinistra”) se:‐ la distanza tra xmin e primo quartile è maggiore di quella tra terzo quartile e xmax‐ la mediana è maggiore della media interquartile, la media interquartile è maggiore del midrange

In questo caso si ha che le modalità “grandi” della distribuzione sono più frequenti, quindi in generale (ma non sempre) risulta che moda>mediana>media

La distribuzione si dice asimmetrica positiva (o “obliqua a destra”) se:‐ la distanza tra xmin e primo quartile è minore di quella tra terzo quartile e xmax‐ la mediana è minore della media interquartile, la media interquartile è minore del midrange

In questo caso si ha che le modalità “piccole” della distribuzione sono più frequenti, quindi in l ( ) i lt h d < di < digenerale (ma non sempre) risulta che moda<mediana<media

Page 6: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

6 – Rappresentazione grafica 

Possiamo studiare la forma di una distribuzione di frequenze o in classi osservando il corrispondente diagramma a barre o istogramma

Distribuzione asimmetrica positiva Distribuzione asimmetrica negativa

i valori più piccoli sono più frequenti e la moda i valori più grandi sono più frequenti e la modap p p qè minore del centro della distribuzione

p g p qè maggiore del centro della distribuzione

Page 7: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

7 – Un diverso modo di studiare la forma della distribuzione 

Possiamo ricorrere ai soli intervalli di variabilità per descrivere graficamente la distribuzione

La rappresentazione ottenuta è detta box plot (diagramma a scatola e baffi)

Il box‐plot è un grafico caratterizzato da tre elementi:

pp p ( g )

• un rettangolo (box) la cui dimensione indica la variabilità dei valori “prossimi” al centro della distribuzione

• una linea o punto che indica la posizione del centro della distribuzioneuna linea o punto, che indica la posizione del centro della distribuzione• due segmenti che partono dal rettangolo e i cui estremi sono determinati in base 

ai valori estremi della distribuzione

Generalmente come valore centrale si considera la mediana, come altezza/larghezza della scatola la distanza interquartile e come estremi dei segmenti il valore minimo e massimod ll di t ib idella distribuzione

Page 8: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

8 – Box plot e forma della distribuzione 

Dal Box plot possiamo dedurre informazionianche sulla forma della distribuzione

Distribuzione simmetrica

Distribuzione Asimmetrica negativa

Distribuzione Asimmetrica positiva

Page 9: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

9 – Esempio

N°atti aggressivi 1 2 3 4 5 6 7 8 9 10

frequenza 3 8 30 45 22 12 10 5 2 1

Studio sull’aggressività infantile(138 bambini)

Max = 10Min  = 1

Q 510

12

Q3=5Q1=3

Valore mediano:Me=4

8

10

maggiore dispersione

Dall’analisi del box plot si evince come

Me=4

4

6

p

pci sia una maggior frequenza di valorimedio‐bassi, il che spiega lo spostamento verso il basso della scatola (o verso sinistra se consideriamo una rappresentazione posta 

2

4

minoredispersione pp p

in orizzontale)0

Page 10: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Att il b l t è ibil id i l di t li l i li Abbi ià

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

10 – Box plot e valori anomali 

Attraverso il box plot è possibile evidenziare la presenza di eventuali valori anomali. Abbiamo già detto che un valore anomalo è un valore molto più piccolo o molto più grande rispetto ai valori della distribuzione: per poter evidenziare tali modalità particolari è necessario calcolarei cosiddetti valori minimo e massimo “teorici” e confrontarli con quelli effettivamente osservatii cosiddetti valori minimo e massimo  teorici  e confrontarli con quelli effettivamente osservati

E’ possibile considerare come minimo e massimo della distribuzione i valori così ottenuti:

xmin => valore più grande tra xmin e [Q1‐1,5(Q3‐Q1)]

l iù i l t [Q 1 5(Q Q )]xmax => valore più piccolo tra xmax e [Q3+1,5(Q3‐Q1)]

Gli eventuali valori esterni a tali valori sono considerati anomaliGli eventuali valori esterni a tali valori sono considerati anomali

MeQ1 Q3

xmin xmax* *

l lxmin xmax valori anomali

Page 11: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

C id i l di t ib i d ll’ tà d li t d ti i itti d M t t l

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

11 – Esempio

Consideriamo la distribuzione dell’età degli studenti iscritti ad un Master post‐laurea:

BOX PLOT CON ILDATO ANOMALO

61

anni

BOX PLOT SENZA ILDATO ANOMALO

anni

anni

anni

Dal box plot si rileva che 61 è un valore anomalo!

Page 12: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

12 – Esercizio

Si consideri la distribuzione del peso di 10 maschi e 10 femmine (in Kg) di una particolare specie di pesce

M 1,2 3,0 5,2 4,0 3,5 4,3 3,3 4,8 3,8 3,2

F 1,3 2,2 1,5 2,3 1,8 1,7 2,1 2,0 1,9 2,1

1) Calcolare per ciascuna distribuzione il peso medio e la deviazione standard) p p

2) Confrontare la variabilità del peso di maschi e femmine con il coefficiente di variazione

3) Costruire e commentare le rappresentazioni box plot

Page 13: 1– Centralità, variabilità e forma - Unical

Corso di Laurea: Economia Aziendale

Insegnamento:  Statistica (Ia parte)

Docente: G.Latorre, D.Costanzo, M.Misuraca

Lezione n° 07

Docente:  G.Latorre, D.Costanzo, M.Misuraca

13 – Soluzione

La variabilità del peso è maggiorenei maschi rispetto alle femmine

CVf =  17%CVm =  31%

5 0

5,5

4,0

4,5

5,0In generale gli esemplari maschi pesano più delle femmine

3,0

3,5Osserviamo in generale come ci sia una maggiore dispersione nel peso degli esemplari maschi rispetto agli esemplari 

1,5

2,0

2,5p p g p

femmine. Rispetto alla forma delle diverse distribuzioni si vede come nel caso delle femmine ci sia una lieve asimmetria positiva, mentre nel caso dei maschi l’asimmetria è 

femmine maschi1,0

negativa