Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza...

63
Statistica descrittiva a.a. 2011/12 - Laboratorio

Transcript of Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza...

Page 1: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Statistica descrittiva

a.a. 2011/12 - Laboratorio

Page 2: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Problema: assegnato un insieme di valori numerici che restituisce il tempo di vita

di un prototipo, quale modello stocastico è possibile impiegare per descrivere il

tempo di vita del prototipo messo poi in produzione? Come è possibile validare

tale modello?

Popolazione: (insieme dei dispositivi che verranno messi in produzione) insieme

Dataset: collegarsi al sito http://www.unibas.it/utenti/dinardo/tempi.txt

Salvare il file in matlab/work

Popolazione: (insieme dei dispositivi che verranno messi in produzione) insieme

finito o infinito sul quale si desidera avere informazioni.

Campione casuale: (prototipi) sottoinsieme della popolazione scelta in modo casuale.

Unità statistica o campionaria: (un prototipo) un elemento del campione casuale

Taglia del campione: (numero di prototipi realizzati) numero di unità statistiche

Descrizione per via graficaDescrizione per via grafica Descrizione per via numericaDescrizione per via numerica

a.a. 2011/12 - Laboratorio

Statistica descrittiva

Page 3: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Primo obbiettivo: Costruire una tabella riassuntiva del tipo:

Età in mesi Frequenza dei guasti

0-26.9877 127

26.9877-54.9877 70

54.9877-82.9877 27

82.9877- 110.9877 15

110.9877-138.9877 11

138.9877-166.9877 7

166.9877-194.9877 3

194.9877-222.9877 1

222.9877-250.9877 1

TOTALE 262

Distribuzione di frequenza assoluta

TOTALE 262

a.a. 2011/12 - Laboratorio

Frequenza assoluta: numero di unità statistiche che presentano la modalità x o

la cui modalità appartiene alla classe individuata.

Modalità o classe di modalità: i diversi modi con cui il carattere si presenta

nelle unità statistiche della popolazione (e quindi del campione)

Carattere: ogni aspetto elementare oggetto di rilevazione nelle unità statistiche

della popolazione (e quindi del campione)

?

Page 4: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

PassoPasso 11:: Decidere il numero delle classi usando

la formula

22kk > n> ndove k=numero di classi

n=taglia del campione

In questo caso k=9, perché 2^9=512

dove H=massimo valore, L=minimo valore

PassoPasso 22: Determinare l’ampiezza della classe, o ilpeso, con la formula

Max Max –– MinMinkk

h >(249.84- 0.1263)/9=27.74

a.a. 2011/12 - Laboratorio

Page 5: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

PassoPasso 33: Determinare i limiti di ciascuna classe

Siccome 28*9=252>249.7227, la quantità 252-249.7227= 2.2773 va equamente ri-

partita a sinistra del minimo e a destra del massimo.

Ossia min(tempi)-1.1386 = -1.0123 e max(tempi)+1.1386= 250.9876

Prima classa è ( -1.0123, -1.0123+28 = 26.9877]

Seconda classe è (26.9877, 26.9877 +28 = ….]

In Matlab: >> x(1)= -1.0123;In Matlab: >> x(1)= -1.0123;

>> for i=2:10

x(i)=x(i-1)+ 28;

end

>> x

x =

-1.0123 26.9877 54.9877 82.9877 110.9877 138.9877 166.9877 194.9877 222.9877 250.9877

a.a. 2011/12 - Laboratorio

Page 6: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

PassoPasso 44: Contare il numero di dati contenuti in

ciascuna classe

Usare la function histc(tempi,x)

>>n= histc(tempi,x)

n =

1271277027151173110

Numero di dati del c.c. checoincidono con l’ultimo estremo

a.a. 2011/12 - Laboratorio

Page 7: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Pertanto la distribuzione di frequenza risulta essere

Età in mesi Frequenza dei guasti

0-26.9877 127

26.9877-54.9877 70

54.9877-82.9877 27

82.9877- 110.9877 15

110.9877-138.9877 11

138.9877-166.9877 7

Sia per la costruzione

dei grafici che per il

calcolo degli indici può

tornare utile…

166.9877-194.9877 3

194.9877-222.9877 1

222.9877-250.9877 1

PuntoPunto mediomedio delladella classeclasse: massimo + minimo

2

a.a. 2011/12 - Laboratorio

Page 8: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Costruire un vettore contenente i centri delle classi:

>> c(1)=(x(1)+x(2))/2;>> for i=2:9c(i)=c(i-1)+28;end

>> c

c =

12.9877 40.9877 68.9877 96.9877 124.9877 152.9877 180.9877 208.9877 236.9877

Con I centri va usata la function >> [n,xout]=hist(tempi,c)

>> [n,xout]=hist(tempi,c)

n =

127 70 27 15 11 7 3 1 1

xout =

12.9877 40.9877 68.9877 96.9877 124.9877 152.9877 180.9877 208.9877 236.9877

a.a. 2011/12 - Laboratorio

Page 9: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

La DistribuzioneDistribuzione didi FrequenzaFrequenza relativarelativa mostra la

percentuale di osservazioni in ciascuna classe.

Per costruirla, bisogna dvidere il parametro di output n di hist per la taglia del campione:

>> fr=n/262

fr =

0.4847 0.2672 0.1031 0.0573 0.0420 0.0267 0.0115 0.0038 0.0038

>> sum(fr)

ans =

1.0000

a.a. 2011/12 - Laboratorio

Quale proprietà caratterizza una distribuzione di

frequenza relativa?

Quando è opportuno usare la distribuzione di

frequenza relativa?

Page 10: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Un Istogramma è un grafico in cui i punti medi

delle classi sono riportati sull’asse orizzontale

(assieme agli estremi eventualmente) e le frequenze

I 3 grafici comunemente usati sono

IstogrammiIstogrammi, , PoligoniPoligoni didi frequenzafrequenza e

DistribuzioneDistribuzione didi FrequenzaFrequenza cumulativacumulativa.

(assieme agli estremi eventualmente) e le frequenze

associate a ciascuna classe sono riportate sull’asse

verticale. Le frequenze forniscono l’altezza delle

barre che insistono sui punti medi e vengono

disegnate una di fianco all’altro.

a.a. 2011/12 - Laboratorio

Page 11: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Si può utilizzare la function hist(tempi,c) oppure bar(c,n)

60

80

100

120

140

-50 0 50 100 150 200 250 3000

20

40

a.a. 2011/12 - Laboratorio

Page 12: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Per le frequenze relative bar(c,fr)

0.25

0.3

0.35

0.4

0.45

0.5

0 50 100 150 200 2500

0.05

0.1

0.15

0.2

0.25

Qualche didascalia…

a.a. 2011/12 - Laboratorio

Page 13: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

>> title('Frequenze relative')>> xlabel('Tempo di vita del prototipo')>> text(200,0.45,'Istogramma')

0.35

0.4

0.45

0.5Frequenze relative

Istogramma

0 50 100 150 200 2500

0.05

0.1

0.15

0.2

0.25

0.3

Tempo di vita del prototipo

a.a. 2011/12 - Laboratorio

Page 14: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Le barre si toccano

-50 0 50 100 150 200 250 3000

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

Barre orizzontali>> bar(c,fr,1)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5-50

0

50

100

150

200

250

300

>> barh(c,fr,1)

-50

0

50

100

150

200

250

300

0

0.1

0.2

0.3

0.4

0.5

>> bar3(c,fr,1,'r')

Grafici 3-D

a.a. 2011/12 - Laboratorio

Page 15: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Un PoligonoPoligono didi frequenzafrequenza consiste di pezzi di linea

retta che collegano i punti medi delle classi alle rispettive

frequenze.

0.3

0.35

0.4

0.45

0.5

>> plot(c,fr,'--rs')

0 50 100 150 200 2500

0.05

0.1

0.15

0.2

0.25

0.3

a.a. 2011/12 - Laboratorio

Page 16: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

IN MATLAB – La function plot

Vari tipi di grafici e vari colori possono caratterizzare I vostri grafici. PLOT(X,Y,S) dove S è una stringa di caratteri costruita con uno, due

o tre elementi, presi ciascuno dalla seguente colonna:

b blu . punto - linea continuag verde o cerchio : a puntir rosso x x -. a punti e linee c fosfor. + piu’ -- doppio tratteggio m magenta * stellay giallo s quadratok nero d rombo

v triangolo (su)^ triangolo (giu’)< triangolo (sinistra)> triangolo (destra)p pentagrammah esagramma

a.a. 2011/12 - Laboratorio

Page 17: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Una

DistribuzioneDistribuzione didiFrequenzaFrequenzacumulativacumulativa è

usata per determinare quantio quale percentuale

Sul piano cartesiano si

riportano i dati del c.c.

ordinati in senso cre-

scente. Le ordinate sono

o quale percentualedi valori del campione sono al di sotto (o uguali) ad un prefissatovalore.

n

xxF

(i)

i

≤=

dati di numero)( )(

a.a. 2011/12 - Laboratorio

Page 18: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Per effettuare un grafico della distribuzione di frequenza cumulativa, si può usare la function cdfplot:

0.7

0.8

0.9

1Empirical CDF

>> cdfplot(tempi)

0 50 100 150 200 2500

0.1

0.2

0.3

0.4

0.5

0.6

x

F(x

)

a.a. 2011/12 - Laboratorio

Page 19: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Problema: Supponiamo che i dati siano stati raccolti in forma tabellare. Come è possibile costruire allora le distribuzioni di frequenze assolute? Quelle delle distribuzioni di frequenze relative? E quelle cumulative?

Età in mesi Frequenza dei guasti

0-26.9877 127

26.9877-54.9877 70

54.9877-82.9877 27

82.9877- 110.9877 1582.9877- 110.9877 15

110.9877-138.9877 11

138.9877-166.9877 7

166.9877-194.9877 3

194.9877-222.9877 1

222.9877-250.9877 1

a.a. 2011/12 - Laboratorio

Page 20: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Per costruire un poligono di frequenza cumulativa

raggruppato, rappresentare il limite superiore di

ciascuna classe sull’asse delle X e la corrispondente

frequenza cumulata lungo l’asse delle Y.

DistribuzioneDistribuzione didi frequenzafrequenza cumulativacumulativa

raggruppataraggruppata per per classiclassi

n

sup dati di numero esima,-i classe sup

a.a. 2011/12 - Laboratorio

( )1

1 1

Se la classe -esima risulta essere ( , ) rappresentare le coppie

( , )

i i

i i

i x x

x F x

+

+ +

Page 21: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Intanto per le ordinate è possibile usare la function cumsum

>> y=cumsum(n)/262

y =

0.4847 0.7519 0.8550 0.9122 0.9542 0.9809 0.9924 0.9962 1.0000

…E poi la function stairs….

0.9

1

0 50 100 150 200 250 3000.4

0.5

0.6

0.7

0.8

0.9

>> stairs(x(2:10),y)

a.a. 2011/12 - Laboratorio

Page 22: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Con l’ausilio di questi grafici, è possibile “ipotizzare” un modello stocastico per descrivere il tempo di vita del dispositivo.

0.2

0.25

0.3

0.35

0.4

0.45

0.5 Ad esempio: prendiamo il poligono di frequenza.

Ricorda qualcuna delle

densità che avete

visto?

0 50 100 150 200 2500

0.05

0.1

0.15

0.2

disttool

Perché f(0) sono diverse?

a) Servono dei metodi per individuare i parametri….

b) Serve un metodo per confrontare PDF con poligoni di frequenza…

a.a. 2011/12 - Laboratorio

Page 23: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

La Media Media aritmeticaaritmetica è

l’indice di posizione

maggiormente impiegato e

mostra il valore centrale dei

dati.

Principali caratteristiche:

>>mean(tempi)

1

1 n

i

i

x xn =

= ∑

�Richiede dati di tipo numerico.

�Vengono usati tutti i valori.

�E’ unica.

�La somma delle distanze dalla media è 0.

Principali caratteristiche:

a.a. 2011/12 - Laboratorio

Page 24: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

[ ]( ) (3 5) (8 5) (4 5) 0i

x xΣ − = − + − + − =

Si consideri il seguente insieme di

dati: 3, 8, e 4. La mediamedia è 5.

Si consideri ora il seguente insieme di

dati: 3, 8, 1000. La mediamedia è 337.

a.a. 2011/12 - Laboratorio

La media campionaria non è un indicatore robusto…Ossia può falsare le informazioni.

Page 25: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Cosa succede se i dati sono già in forma tabellare? Come viene calcolata la media campionaria?

Età in mesi Frequenza dei guasti

0-26.9877 127

26.9877-54.9877 70

54.9877-82.9877 27

82.9877- 110.9877 15

110.9877-138.9877 11

138.9877-166.9877 7138.9877-166.9877 7

166.9877-194.9877 3

194.9877-222.9877 1

222.9877-250.9877 1

Si usa la formula

1

1 k

i i

i

x c nn =

= ∑ >> media=sum(c.*n)/262

media = 43.0182Confronta con

> mean(tempi) ans = 42.0714a.a. 2011/12 - Laboratorio

Page 26: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Al di sotto e al di sopra della mediana deve comparire lo stesso numero di dati.

La MedianaMediana è il punto

medio dei valori del

campione, una volta messi

in ordine crescente.

La mediana

numero di dati.

Per un insieme pari di valori, la mediana è la media aritmetica dei due valori di posto n/2 e (n+1)/2 nel

campione ordinato

A quale tipo di dati si applica?

a.a. 2011/12 - Laboratorio

Page 27: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

L’età di un campione di 5 studenti universitari è:

21, 25, 19, 20, 22.

Ordinando i dati in ordine crescente:

19, 20, 21, 22, 25.

La mediana è 21.

a.a. 2011/12 - Laboratorio

Page 28: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Ordinando i dati in

ordine crescente:

L’altezza di 4 giocatori di basket (in pollici) è:

76, 73, 80, 75.

73, 75, 76, 80

Allora la mediana è 75.5.

La mediana si trova

al posto (n+1)/2 =

(4+1)/2 =2.5th

a.a. 2011/12 - Laboratorio

Page 29: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

�La mediana è unica per ogni insieme di dati.

�La mediana è una statistica robusta.

�Può essere calcolata anche per dati raggruppati.

Proprietà della Mediana

>>>> median(tempi)0.45

0.5

ans =

28.9202

0 50 100 150 200 2500

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

a.a. 2011/12 - Laboratorio

Cosa ci dice il confrontocon la media, 43.01?

Page 30: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

2

nCF

Mediana L hf

= +

La MedianaMediana di un campione di dati organizzati in

distribuzione di frequenza è calcolata con la

seguente formula:

?

dove L è il minimo della classe cui la mediana

appartiene, CF è la frequenza cumulata nell’estremo

destro della classe, f è la frequenza della classe cui

la mediana appartiene e h è l’ampiezza della classecui la mediana appartiene .

a.a. 2011/12 - Laboratorio

Page 31: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Per calcolare la mediana di dati raggruppati

Costruire una distribuzione di frequenza cumulata.

Dividere la taglia del campione per 2.

Determinare quale classe contiene questo valore. Ad

esempio se n=262, 262/2 = 131, allora determinare

quale classe contiene il valore di posto 131.quale classe contiene il valore di posto 131.

Età in mesi Frequenza dei guasti

0-26.9877 127

26.9877-54.9877 197

54.9877-82.9877 224

82.9877- 110.9877 239

110.9877-138.9877 250

138.9877-166.9877 257

166.9877-194.9877 260

194.9877-222.9877 261

222.9877-250.9877 262

TOTALE 262a.a. 2011/12 - Laboratorio

Page 32: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Età in mesi Frequenza dei guasti

0-26.9877 127

26.9877-54.9877 197

54.9877-82.9877 224

82.9877- 110.9877 239

110.9877-138.9877 250

138.9877-166.9877 257

166.9877-194.9877 260

194.9877-222.9877 261

222.9877-250.9877 262

TOTALE 262

2

nCF

Mediana L hf

= +

L=26.9877, n=262, f=70,

i=28, CF=127

>> 26.9877+(262/2-127)/70*28

dove L è il minimo della classe cui la mediana

appartiene, CF è la frequenza cumulata che precede

quella della classe cui la mediana appartiene, f è la

frequenza della classe cui la mediana appartiene e i è

l’ampiezza della classe cui la mediana appartiene .

>> 26.9877+(262/2-127)/70*28

ans = 28.5877

a.a. 2011/12 - Laboratorio

Page 33: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Esempio 6Esempio 6:: I punteggi di un esame per 10 studenti

sono i seguenti (in centesimi) : 81, 93, 84, 75, 68, 87,

81, 75, 81, 87. Poichè il punteggio 81 appare più

La ModaModa è un altro indice di posizione e rappresenta

il valore del campione casuale che appare più frequentemente.

La moda

81, 75, 81, 87. Poichè il punteggio 81 appare più

frequentemente di tutti gli altri, è la moda.

Un campione può avere anche più di una moda: se ne

ha due si parla di campione bimodale, se ne ha tre si

parla di campione trimodale e così via.

La ModaModa per dati raggruppati è approssimativamente il

punto medio della classe con frequenza più grande

Page 34: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Asimmetria nulla Media

=Mediana

=Moda

Le posizioni relative di Media, Mediana, e Moda in una

Distribuzione simmetrica

Mode

Median

Mean

Page 35: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

• Con coda destra (asimmetria positiva): Media e mediana sono

a destra della moda.

Media>Mediana>Moda

Le posizioni relative di Media, Mediana, e Moda in una

distribuzione asimmetrica con coda destra

Mode

Median

Mean

Page 36: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Con coda sinistra (asimmetria negativa): Media e Mediana sono a

sinistra della Moda.

Media<Mediana<Moda

Le posizioni relative di Media, Mediana, e Moda in

una distribuzione asimmetrica con coda sinistra

ModeMean

Median

Page 37: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

IN MATLAB – Calcolo coefficiente di asimmetria

>> primo=[1;2*ones(2,1);3*ones(3,1);4*ones(4,1);5*ones(5,1);

6*ones(6,1);7*ones(7,1)];

>>hist(primo,[1,2,3,4,5,6,7])

Page 38: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

>>secondo=[ones(7,1);2*ones(6,1);3*ones(5,1);4*ones(4,1);

5*ones(3,1);6*ones(2,1);7]

>>hist(secondo,[1,2,3,4,5,6,7])

Page 39: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

>>[mean(primo),mean(secondo),median(primo),median(secondo)]

ans =

5 3 5 3

>> skewness(primo)

ans =ans =

-0.5774

>> skewness(secondo)

ans =

0.5774

Page 40: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

DispersioneDispersione= variabilità o

diffusione dei

dati

0

5

10

15

20

25

30

0 2 4 6 8 10 12

Misure di dispersione sono: range, range, varianzavarianza e e

deviazionedeviazione standardstandard.

Misure di dispersione

Page 41: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

>> range=max(tempi)-min(tempi)

range =

249.7227

VarianzaVarianza:: la

media aritmetica

dei quadrati delle

Range Range = Massimo – Minimo

>> var(tempi)

ans =dei quadrati delle

deviazioni dalla

media.

DeviazioneDeviazione

standardstandard:Radice quadrata

della varianza.

1.7873e+003

std(tempi)

ans =

42.2759

Page 42: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Varianza campionaria (sVarianza campionaria (s22))

2 2

1

1( )

( 1)

n

i

i

s x xn =

= −−∑

Deviazione standard campionaria (s)Deviazione standard campionaria (s)

2ss =

Varianza e Deviazione standard campionarie

Page 43: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Regola empirica Regola empirica : Per ogni distribuzione

simmetrica a forma di campana risulta

�Circa il 68% delle osservazioni distano dalla media

meno di 1 una volta la deviazione standard.

3- 43

�Circa il 95% delle osservazioni distano dalla media

meno di 2 volte la deviazione standard.

�Virtualmente tutte le osservazioni distano dalla

media meno di 3 volte la deviazione standard.

Interpretazione e uso della

deviazione standard

Page 44: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

. e trarelazione la mostra che campana di forma a Curva µσ

68%

3- 44

µµµµ−−−−3σ3σ3σ3σ µµµµ−−−−2σ2σ2σ2σ µµµµ−−−−1σ1σ1σ1σ µµµµ µ+1σµ+1σµ+1σµ+1σ µ+2σµ+2σµ+2σµ+2σ µ+ 3µ+ 3µ+ 3µ+ 3σσσσ

68%

95%

99.7%

In genere se s<< range/4 i dati sono concentrati attorno alla media campionaria

Page 45: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Curtosi di una distribuzione =

Maggiore o minore appuntimento della curva

CURTOSICURTOSI

Page 46: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Indice di Curtosi

32

2

42 −=

m

>> kurtosis(tempi)-3

ans =

3.5747

<

=

>

piatte onidistribuziper 0

gaussiana onedistribuzi laper 0

appuntite onidistribuziper 0

2

2

2

γ

γ

γ

Page 47: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Coefficiente di variazione

Una proprietà desiderabile per un indice di variabilità è che non dipenda dall’unità di misura in cui è espresso il carattere.

Es: altezza di 5 studenti: 172, 175, 176, 178, 180

La media risulta essere 176,2 cm e la dev standard risulta essere 2,71.

Se esprimiamo in metri, la media diviene 1,762 e la dev.standard 0,0271.

a.a. 2011/12 - Laboratorio

Esempio: Un processo industriale produce bustine di camomilla del peso mediodi 2 grammi. La dev. standard è 0,034. Un secondo processo industriale produ-ce confezioni di pasta alimentare del peso di 500 grammi. La dev. standard è 2.7. Quale tra i due processi è più “preciso”?

Questa comparazione può essere effettuata in modo appropriato esprimendo la

deviazione standard di ciascun processo come percentuale della rispettiva media.

0.034 2.7100 1.7 100 0.5

2 500× = × =

Page 48: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

96

92

91

88

86

85

12

11

1098

750esimo percentile: Mediana

Media tra la sesta e la settima

75esimo percentile

Media tra la nona e la decima

osservazione = (88 + 91)/2 = 89.5

Q3

Q4

85

84

83

82

79

78

69

765

432

1

25esimo percentile

Media tra la terza e la quarta osservazio-

ne = (79 + 82)/2 = 80.5

Media tra la sesta e la settima

osservazione = (84+85)/2 = 84.5

Q1

Q2

Page 49: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

IN MATLAB

>> prctile(tempi,25), prctile(tempi,50), prctile(tempi,75)

ans =

12.5160

ans =

a.a. 2011/12 - Laboratorio

ans =

28.9202

ans =

53.5340

Page 50: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Il campo interquartile

(o intervallo

interquartile) è la

differenza tra il III

quartile Q3 e il I

quartile Q1.

Questa distanza

ingloba il 50% delle

informazioni.

Campo interquartile = Q3 - Q1

>> prctile(tempi,75) - prctile(tempi,25)

ans =

41.0180

>> iqr(tempi)

ans =

41.0180

Page 51: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

5 dati sono necessari alla

Un box plot è un grafico che aiuta a descrivere le caratteristiche qualitative

di un insieme di dati.

necessari alla costruzione:

il minimo:

il I quartile;

la mediana;

il III quartile;

il massimo.

Page 52: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Basandosi su un campione di 20 consegne,

Buddy’s Pizza determina la seguente informazione. Il

minimo tempo impiegato per la consegna è 13 minuti ed il massimo tempo impiegato è massimo tempo impiegato è 30 minuti. Il I quartile vale 15 minuti, la mediana 18 ed il III

quartile vale 22 minuti. Costruire un box plot per il

tempo di consegna.

Page 53: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74
Page 54: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

Q1 Q3MaxMin Median

12 14 16 18 20 22 24 26 28 30 32

Page 55: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

100

150

200

250

Valu

es

IN MATLAB: >> boxplot(tempi)

a.a. 2011/12 - Laboratorio

1

0

50

Column Number

Page 56: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

a.a. 2011/12 - Laboratorio

Page 57: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

ESERCITAZIONE

Tempi di attesa ad un centralino telefonico. Tempi di attesa ad un centralino telefonico. Tempi di attesa ad un centralino telefonico. Tempi di attesa ad un centralino telefonico. >> load >> load >> load >> load ---- ascii esempio3 ascii esempio3 ascii esempio3 ascii esempio3

1. Costruire l’istogramma (n=?) >> 2^7

ans =

128

2. Costruire il vettore contenente gli estremi delle classi2. Costruire il vettore contenente gli estremi delle classi

>> campo=max(es3)>> campo=max(es3)>> campo=max(es3)>> campo=max(es3)----min(es3), amp=campo/7min(es3), amp=campo/7min(es3), amp=campo/7min(es3), amp=campo/7>> amp=0.7>> amp=0.7>> amp=0.7>> amp=0.7>> % minimo dei tempi=0 >> % minimo dei tempi=0 >> % minimo dei tempi=0 >> % minimo dei tempi=0 >>x(1)=0.0, >>x(1)=0.0, >>x(1)=0.0, >>x(1)=0.0, for i=2:8for i=2:8for i=2:8for i=2:8x(i)=x(ix(i)=x(ix(i)=x(ix(i)=x(i----1)+amp;1)+amp;1)+amp;1)+amp;endendendend

Page 58: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

3.3.3.3. Distribuzione di frequenzaDistribuzione di frequenzaDistribuzione di frequenzaDistribuzione di frequenza

>> histc(es3,x)>> histc(es3,x)>> histc(es3,x)>> histc(es3,x)

ans =ans =ans =ans =

525252522727272713131313111111113333222222220000

Page 59: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

4. Istogramma

>>c=(x(1:7)+x(2:8))/2>>c=(x(1:7)+x(2:8))/2>>c=(x(1:7)+x(2:8))/2>>c=(x(1:7)+x(2:8))/2>>hist(es3,c)>>hist(es3,c)>>hist(es3,c)>>hist(es3,c)

Page 60: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

5.5.5.5. Poligono di frequenzaPoligono di frequenzaPoligono di frequenzaPoligono di frequenza

>> n=hist(es3,c)/30;>> n=hist(es3,c)/30;>> n=hist(es3,c)/30;>> n=hist(es3,c)/30;>> plot(c,n,'r*>> plot(c,n,'r*>> plot(c,n,'r*>> plot(c,n,'r*--------')')')')>> title('Poligono di frequenza')>> title('Poligono di frequenza')>> title('Poligono di frequenza')>> title('Poligono di frequenza')

Page 61: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

>> loc=[median(es3), mode(es3), mean(es3)]

loc =

0.6558 1.0117 0.9621

6.6.6.6. Indici statisticiIndici statisticiIndici statisticiIndici statistici

>> disp=[iqr(es3), range(es3), var(es3), std(es3)]>> disp=[iqr(es3), range(es3), var(es3), std(es3)]

disp =

0.9001 4.6074 0.6691 0.9468

>> altri=[skewness(es3), kurtosis(es3), loc(3)/disp(5)]altri =

2.0133 7.3505 1.0161

Page 62: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

7. Box Plot

>> boxplot(es3)

OUTLIERS

>> [max(es3),min(es3)]ans =

4.6191 0.0117

Page 63: Statistica descrittiva - Università degli Studi della …oldPassoPasso 22: Determinare l’ampiezza della classe, o il peso, con la formula Max Max – Min Min k h > (249.84- 0.1263)/9=27.74

>> cdfplot(es3)

8. Cumulativa empirica