Dispense Statistica Descrittiva PRELIMINARY DRAFT

23
Dispense Statistica Descrittiva PRELIMINARY DRAFT Cristina Mollica & Jan Martin Rossi January 3, 2019 1 Esercizio 2 - Prova scritta del 01-02-2018 Esercizio 2. Nella tabella seguente sono riportati i dati relativi ad un campione di n matricole della Facolt a di Economia e Commercio dell’Univerit a di Perugia raccolti al termine del primo anno di corso di laurea Matricola Scuola superiore Voto alla maturit a Voto al test d’ingresso N. esami sostenuti 1 C 63 O 2 2 S 100 D 4 3 S 80 S 2 4 T 85 S 3 5 A 99 S 5 6 T 75 O 0 7 S 60 O 1 8 C 62 B 0 9 S 80 D 2 10 T 90 S 3 11 A 100 S 2 12 S 66 B 0 13 C 84 D 1 14 T 70 B 4 15 S 100 B 2 Le modalit a della variabile Scuola superioresono state codicate come segue: A = altra scuola, C = liceo classico, S = liceo scientico e T = istituto tecnico. Le modalit a della variabile Voto al test d’ingresso sono state codicate come segue: S = suciente, B = buono, D = distinto e O = ottimo. 1. Chi sono le unit a statistiche dello studio? Teoria: Si denisce unit a statistica l’unit a elementare su cui vengono osservati i caratteri oggetto di studio. Un insieme di unit a statistiche omogenee rispetto a una o pi u caratteristiche costituisce un collettivo statistico o una popolazione. Soluzione: Le unit a statistiche dello studio sono le matricole della facolt a di Economia e Commercio dell’ Universit a di Perugia. 2. Specicare la natura delle cinque variabili rilevate. Teoria: Le variabili sono le caratteristiche dell’ unit a statistica. Queste caratteristiche devono essere esaustive (le unit a devono rappresentare tutte le possibili modalit a del carattere) a non sovrapposte (ad ogni unit a associata un unica modalit a del carattere). 1

Transcript of Dispense Statistica Descrittiva PRELIMINARY DRAFT

Page 1: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Dispense Statistica Descrittiva

PRELIMINARY DRAFT

Cristina Mollica & Jan Martin Rossi

January 3, 2019

1 Esercizio 2 - Prova scritta del 01-02-2018

Esercizio 2. Nella tabella seguente sono riportati i dati relativi ad un campione di n matricole della Facoltadi Economia e Commercio dell’Univerita di Perugia raccolti al termine del primo anno di corso di laurea

Matricola Scuola superiore Voto alla maturita Voto al test d’ingresso N. esami sostenuti

1 C 63 O 2

2 S 100 D 4

3 S 80 S 2

4 T 85 S 3

5 A 99 S 5

6 T 75 O 0

7 S 60 O 1

8 C 62 B 0

9 S 80 D 2

10 T 90 S 3

11 A 100 S 2

12 S 66 B 0

13 C 84 D 1

14 T 70 B 4

15 S 100 B 2

Le modalita della variabile Scuola superiore sono state codificate come segue: A = altra scuola, C = liceoclassico, S = liceo scientifico e T = istituto tecnico. Le modalita della variabile Voto al test d’ingresso sonostate codificate come segue: S = sufficiente, B = buono, D = distinto e O = ottimo.

1. Chi sono le unita statistiche dello studio?Teoria: Si definisce unita statistica l’unita elementare su cui vengono osservati i caratteri oggetto distudio. Un insieme di unita statistiche omogenee rispetto a una o piu caratteristiche costituisce uncollettivo statistico o una popolazione.

Soluzione: Le unita statistiche dello studio sono le matricole della facolta di Economia e Commerciodell’ Universita di Perugia.

2. Specificare la natura delle cinque variabili rilevate.Teoria: Le variabili sono le caratteristiche dell’ unita statistica. Queste caratteristiche devono essereesaustive (le unita devono rappresentare tutte le possibili modalita del carattere) a non sovrapposte (adogni unita associata un unica modalita del carattere).

1

Page 2: Dispense Statistica Descrittiva PRELIMINARY DRAFT

La natura delle caratteristiche puo essere quantitativa (o variabile) o qualitativa (o mutabile).A loro volta i caratteri qualitativi possono essere suddivisi in sconnessi o ordinabili. Sconnessi quandodate due manifestazione del carattere si puo dire solo se sono uguali o diverse. Ordinabili quando datedue manifestazioni del carattere e possibile dargli un ordine, ossia quando e possibile dire quale precedel’altra. I caratteri ordinabili si suddividono in rettilinei, se esiste un modalita iniziale e una finale, ociclici, quando le modalita iniziali e finali sono scelte in maniera arbitrale o convenzionale.I caratteri quantitativi sono suddivisi in continui, quanto il carattere puo assumere valori infiniti o nonnumerabili, o discreti, quanto il carattere puo assumere valori finiti o numerabili. Infine i caratteriquantitativi posso presentarsi in classi, quando i possibili valori sono suddivisi in intervalli tra lorodisgiunti.

Variabile

Qualitativa

Sconnesso(G. a Fascie; G. a Torta)

Ordinabile(G. a Barre)

Quantitativa

Discreto(G. a Barre)

Continuo(Istogramma)

I valori che la variabile puo assumere vengono chiamati modalita

Soluzione: Il carattere matricola1 e un carattere quantitativo discreto, ordinabile nel tempo (in base alnumero e possibile capire chi si e inscritto prima e chi dopo).Il carattere scuola superiore e un carattere qualitativo sconnesso in quanto non si puo stabilire quale tipodi scuola venga prima dell’ altra.Il voto alla maturita e un carattere quantitativo discreto, non trasferibile in quanto nominale per legge.Il voto al test d’ingresso e un carattere qualitativo, ordinabile, rettilineo: sufficiente viene prima di buono,buono prima di distinto ed infine ottimo.Il numero di esami sostenuti e un carattere quantitativo discreto, non trasferibile.

3. Costruire la distribuzione di frequenze percentuali per la variabile Scuola superiore.Avrebbe senso cumulare tali frequenze? Argomentare la risposta e, in caso affermativo,calcolare le frequenze percentuali cumulate.Teoria: Si indica con il termine frequenza assoluta di una modalita di un carattere il numero di volte chequesta viene osservata nel collettivo; la frequenza assoluta e indicata con ni. Tramite le frequenze si puoottenere una rappresentazione molto piu sintetica denominata distribuzione di frequenza. La distribuzionedi frequenze semplice associa alle modalita le corrispondenti frequenze assolute.La frequenza relativa e il rapporto tra la frequenza assoluta e il numero totale di unita osservate, essae indicata con fi = ni

n . La frequenza percentuale e pari alla frequenza relativa moltiplicata per 100,pi = fi× 100. Il passaggio dalla frequenza assoluta a quella relativa o percentuale diventa particolarmentesignificativo quando si vogliono confrontare due o piu collettivi rispetto ad un carattere, in quanto questefrequenze non risentono della dimensione del collettivo.La distribuzione delle frequenze cumulate per una data classe e ottenuta ordinando le classi in sensocrescente e sommando la corrispondente frequenza della classe e di tutte quelle relative alle classiprecedenti. Si possono avere frequenze assolute cumulate, frequenze relative cumulate e frequenzepercentuali cumulate.

Soluzione:

1Le matricole sono si le unita statistiche quando intese come studenti, ma quando intese come il numero ad essi associato divieneuna caratteristica, pertanto anche la matricola e una variabile.

2

Page 3: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Table 1: Tabella di frequenze

Classe Frequenza Assoluta nj Frequenza Relativa fj Frequenza Percentuale pj

C 3 315 = 0.2 0.20× 100 =20%

S 6 615 = 0.4 0.40× 100 =40%

T 4 415 = 0.2666 0.2666× 100 = 26.66%

A 2 215 = 0.1334 0.1334× 100 = 13.34%

Tot. 15 1 100%

Essendo la variabile scuola superiore un carattere qualitativo sconnesso non avrebbe senso calcolare lafrequenza cumulata. Infatti per la frequenza cumulata e necessario ordinare le classi dalla modalita piupiccola a quella piu grande, cosa non possibile per un carattere sconnesso dove non si puo stabilire qualemodalita venga prima e quale dopo.

4. Proporre un grafico appropriato per la distribuzione secondo la variabile Scuola superioree disegnarlo. Qual e la moda della distribuzione per tale variabile?Teoria:

• Qualitativi non ordinati: Grafici a nastri, Grafici a torta2

• Qualitativi ordinati: Grafici a barre

• Quantitativi discreti: Grafici a barre

• Quantitativi continui suddivisi in classi: Istogramma

La moda e una media di posizione che puo essere calcolata per qualsiasi tipo di carattere, quantitativoe qualitativo. La moda e la modalita della distribuzione che si presenta con la massima frequenza(assoluta, relativa o percentuale). Nel caso di caratteri quantitativi continui usare la moda come indice diposizione puo risultare inefficace in quanto non sintetizza in maniera appropriata le caratteristiche delladistribuzione. In quest’ultimo caso, generalmente si utilizza la suddivisione in classi e si determina laclasse modale.

Soluzione: La moda per la variabile Scuola superiore e S, Liceo Scientifico.

2I grafici a torta non sono molto adatti per mostrare informazioni in quanto l’occhio umano riesce a giudicare meglio misurelineari piuttosto che aree.

3

Page 4: Dispense Statistica Descrittiva PRELIMINARY DRAFT

5. Calcolare il voto mediano e medio alla maturita.Teoria: La media aritmetica di un insieme di n valori osservati {x1, x2, . . . , xn} di un caratterequantitativo X e pari alla somma dei valori osservati divisi per il loro numero:

X =1

n(x1 + x2 + · · ·+ xn) =

1

n

n∑i=1

xi

Formule equivalenti sono3:

X =1

n

K∑j=1

xjnj

X =K∑j=1

xjfj

dove K e il numero di modalita assunte dal carattere, nj e la frequenza assoluta della j-esima modalita efj e la corrispondente frequenza relativa.La mediana puo essere calcolata sia per caratteri quantitativi che qualitativi a condizione che quest’ultimisiano ordinabili. La mediana (Me) di un insieme di unita ordinate (secondo un carattere ordinabile) e lamodalita presentata dall’unita centrale, dove per unita centrale si intende quell’unita che divide il collettivoin due parti di uguali numerosita: una parte formata dalle unita che presentano una modalita precedente ouguale a quella dell’unita centrale e una parte formata dalle unita che presentano una modalita successivao uguale a quella dell’unita centrale. Pertanto la mediana corrisponde alla modalita a cui e associato unvalore della frequenza cumulata pari a 0.5 o, in caso non ci sia, la prima modalita che supera il valore 0.5nella sua frequenza cumulata.Per calcolare la mediana e necessario procedere nel seguente modo:

(a) Ordinare le n unita in senso crescente rispetto alle modalita del carattere.

(b) Individuare la posizione in graduatoria dell’unita centrale: se n e dispari, la posizione e data da(n+ 1)/2; se n e pari si hanno due unita centrali con posizione n/2 e (n/2) + 1.

(c) Osservare la modalita presentata dall’unita centrale: se n e dispari la mediana Me = x(n+1)/2; se n epari si hanno due modalita corrispondenti alle due unita centrali: xn/2 e x(n/2+1); quando le unita delcollettivo sono numerose, accade di frequente che le due modalita coincidano, cosicche anche in questocaso la mediana e identificata da una sola modalita. Se il carattere e qualitativo e le due modalitanon coincidono si tengono entrambe; mentre, se il carattere e quantitativo, si puo considerare comemediana la semisomma dei valori delle due unita centrali: Me = 1

2(xn/2 + x(n/2+1))

Soluzione:

(a) Ordinare le modalita in senso crescente60 62 63 66 70 75 80 80 84 85 90 99 100 100 100

(b) Individuare la posizione dell’unita centrale. Essendo n = 15 dispari, la posizione e (n + 1)/2 =(15 + 1)/2 = 8

(c) Osservare la modalita presentata dall’unita centrale.

Me = x8 = 80

La media e data da:

X =1

15

15∑i=1

xi =60 + 62 + 63 + 66 + 70 + 75 + 80 + 80 + 84 + 85 + 90 + 99 + 100 + 100 + 100

15= 80.933

3Le formule sono tutte equivalenti, si consiglia di scegliere in base ai dati disponibili nell’esercizio.

4

Page 5: Dispense Statistica Descrittiva PRELIMINARY DRAFT

6. Calcolare la varianza del Voto alla maturita.Teoria: La varianza di un insieme di n valori osservati {x1, x2, . . . , xn} di una variabile X con mediaaritmetica x e data da:

σ2 =1

n

n∑i=1

(xi − x)2

Pertanto la varianza e lo scarto quadratico medio dalla media aritmetica ed e una misura di quando leosservazioni, in media, si discostino dalla media aritmetica.Se si hanno a disposizione le frequenze delle modalita, la varianza si puo calcolare anche tramite le seguentiespressioni4:

σ2 =1

n

K∑j=1

(xj − x)2nj

σ2 =K∑j=1

(xj − x)2fj

dove nj e fj sono rispettivamente le frequenze assolute e relative corrispondenti alla j-esima modalita.Formule equivalenti a quelle precedenti sono5:

σ2 =1

n

n∑i=1

x2i − x2

σ2 =1

n

K∑j=1

x2jnj − x2

σ2 =K∑j=1

x2jfj − x2

Soluzione:

4Anche in questo caso si consiglia di scegliere la formula in base ai dati disponibili nell’esercizio.5Si consigliano questo tipo di formule in quanto richiedono meno passaggi computazionali e quindi riducono la probabilita di

commettere errori.

5

Page 6: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Table 2: Tabella per la varianza

xi x2i

60 3600

62 3800

63 3969

66 4356

70 4900

75 5625

80 6400

80 6400

84 7056

85 7225

90 8100

99 9801

100 10000

100 10000

100 10000

Tot.∑15

i=1 x2i = 101276

σ2 =1

n

n∑i=1

x2i − x2 =

1

15

15∑i=1

x2i − 80.9332 =

101276

15− 6550.204 = 201.5289

7. Si supponga che il Voto alla maturita espresso in centesimi venga convertito in decimiattraverso la relazione:

Voto in decimi =Voto in centesimi

10

Quanto vale la varianza del Voto alla maturita espresso in decimi? Specificare la proprietadella varianza che e possibile utilizzare per rispondere alla domanda.Teoria: La varianza e un indice di variabilita assoluto che risente dell’unita di misura e dell’ordine digrandezza dei dati. Inoltre la varianza non e un operatore lineare, pertanto non possiede la stessa unita dimisura dei valori della distribuzione ed una trasformazione lineare dei dati non comporta un equivalentetrasformazione nella varianza.Difatti, data una trasformazione del tipo Y = a + bX, dove a e b sono due costanti e X ha media x evarianza V ar(X) = σ2

X , la varianza di Y e

σ2Y = V ar(Y ) = V ar(a+ bX) = V ar(a) + V ar(bX) = 0 + b2V ar(X) = b2σ2

X

Si noti come la varianza di una costante sia pari a zero ed il coefficente b esce dalla varianza al quadrato,in quanto la varianza non e un operatore lineare.

Soluzione: Y=Voto in decimi, X=Voto in centesimi, a = 0, b = 110 =⇒ Y = 1

10X

σ2Y = V ar(Y ) = V ar

(X10

)=V ar(X)

102=σ2X

102=

198.65

100= 1.9865

6

Page 7: Dispense Statistica Descrittiva PRELIMINARY DRAFT

2 Esercizio 1 - Prova scritta del 12-01-2018 fila A

Esercizio 1. Si consideri la distribuzione di 92 maschi adulti classificati secondo la circonferenza toracica(cm)

Circ. toracica (cm) N. adulti

79 ` 85 4

85 ` 90 8

90 ` 95 24

95 ` 100 15

100 ` 105 17

105 ` 110 13

110 ` 116 11

Totale 92

1. Descrivere il tipo di distribuzione riportata nella tabella.Teoria: Si definisce distribuzione unitaria semplice di un carattere l’elencazione delle modalita osservate,unita per unita, nel collettivo preso in esame. Invece, la distribuzione di frequenza semplice associa allemodalita che puo assumere un carattere X, qualitativo o quantitativo, le corrispondenti frequenze assolute.La distribuzione di frequenze si dice semplice se e riferita a un unico carattere; si dice doppia se invece eriferita a due caratteri congiuntamente e, infine, si dice multipla se si riferisce a piu di un carattere.Dalle distribuzioni di frequenze assolute si puo passare alle distribuzioni di frequenze relative e percentuali,associando alle modalita che puo assumere un carattere, rispettivamente, le frequenze relative e percentuali.

Soluzione: La tabella riporta un tipo di distribuzione di frequenza semplice, associando alle modalita,di un carattere quantitativo continuo diviso per classi, le rispettive frequenze assolute.

2. Calcolare la media (approssimata) della circonferenza toracica.Teoria: La formula della media aritmetica non puo essere utilizzata nel caso di una distribuzione difrequenze se il carattere quantitativo X e suddiviso in classi, in quanto non si conoscono con esattezzai valori osservati ma solo la classe di appartenenza. Un’ approssimazione della media aritmetica puocomunque essere ottenuta considerando al posto della classe il suo valore centrale, ossia il valore che siottiene come semisomma degli estremi della classe.Data la distribuzione di frequenze di un carattere quantitativo X suddiviso in K classi, possiamoapprossimare la media aritmetica del carattere con la seguente espressione:

Xa ∝1

n

K∑j=1

cjnj

dove K e il numero di classi della distribuzione, cj e il valore centrale della classe j-esima e nj e lacorrispondente frequenza assoluta. Tale operazione porta ad un calcolo esatto della media se ogni valorecentrale coincide con la media dei valori interni alla medesima classe. Questa situazione si verifica soloquando il carattere e equidistribuito all’interno delle classi.

Soluzione:

7

Page 8: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Table 3: Tabella per la media approssimata

xj nj cj cjnj

79`85 4 82 328

85`90 8 87.5 700

90`95 24 92.5 2220

95`100 15 97.5 1462.5

100`105 17 102.5 1742.5

105`110 13 107.5 1397.5

110`116 11 113 1243

Totale∑K

j=1 nj = n = 92∑K

j=1 cjnj = 9093.5

Xa ≈9093.5

92= 98.8423

3. Calcolare la circonferenza toracica media in pollici tenuto conto che

1pollice = 2.54cm

Teoria: La media aritmetica di un carattere Y , ottenuto attraverso una trasformazione lineare Y = a+bXdi un carattere X di media Xa e uguale a:

Ya = a+ bXa

Questa proprita deriva dal fatto che la media e un operatore lineare.

Soluzione: Y= circonferenza in pollici, X= circonferenza in cm, a = 0, b = 12.54 =⇒ Y = 1

2.54X

Ya =1

n

n∑i=1

yi =1

n

n∑i=1

( 1

2.54xi

)=

1

2.54

1

n

n∑i=1

xi =1

2.54Xa =

98.8423

2.54= 38.914

4. Costruire l’istogramma di frequenze assolute.Teoria: L’istogramma e un grafico costituito da barre non distanziate, con basi uguali o diverse, doveogni barra possiede un’area proporzionale alla corrispondente frequenza o quantita.Si chiama istogramma a basi regolari, un istogramma con basi di medesima ampiezza.Nell’istogramma e l’area delle barre ad essere proporzionale alla frequenza e non l’altezza della barra comenel grafico a barre. Cio implica che l’altezza delle barre dell’istogramma, chiamata densita, e uguale alrapporto della frequenza sull’ampiezza della base, h1 = fi

∆i, dove fi e la frequenza della classe i e ∆i la

sua ampiezza.

Soluzione:

8

Page 9: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Table 4: Tabella per l’istogramma

xj nj Ampiezza ∆j Densita hj

79 ` 85 4 6 46 = 0.666

85 ` 90 8 5 85 = 1.6

90 ` 95 24 5 245 = 4.8

95 ` 100 15 5 155 = 3

100 ` 105 17 5 175 = 3.4

105 ` 110 13 5 135 = 2.6

110 ` 116 11 6 116 = 1.833

79 85 90 95 100 105 110 1160

1

2

3

4

5

5. Determinare la classe modale.Teoria: Nel caso di caratteri quantitativi continui usare la moda come indice di posizione puo risultareinefficace in quanto non sintetizza in maniera appropriata le caratteristiche della distribuzione. Per ovviarea tale problema, generalmente si utilizza la suddivisione in classi e si determina la classe modale.La classe modale e determinata trovando la classe con la frequenza (assoluta, relativa o percentuale) piugrande.

Soluzione: La classe modale e 90 ` 95; la modalita piu frequente nel collettivo.

6. Determinare l’approssimazione della mediana.Teoria: Se il carattere e suddiviso in classi, non e possibile trovare la mediana con esattezza. Si ricorrepertanto ad una approssimazione tramite la seguente formula:

Me ≈ Im +0.5− Fm−1

Fm − Fm−1∆m

dove Im e l’estremo inferiore della classe mediana (la classe che contiene l’unita centrale); Fm−1 ela frequenza relativa cumulata fino alla classe precedente a quella mediana; Fm e la frequenza relativacumulata fino alla classe mediana; ∆m e l’ampiezza della classe mediana.

Soluzione:

9

Page 10: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Table 5: Tabella per la mediana

xj nj fj Fj

79 ` 85 4 492

492 = 0.043

85 ` 90 8 892

1292 = 0.13

90 ` 95 24 2492

3692 = 0.391

95 ` 100 15 1592

5192 = 0.554

100 ` 105 17 1792

6892 = 0.739

105 ` 110 13 1392

8192 = 0.88

110 ` 116 11 1192

9292 = 1

Totale 92 1

La classe centrale si individua trovando la prima modalita la cui frequenza relativa cumulata supera 0.5.Pertanto la classe centrale e 95 ` 100. Il suo estremo inferiore e 95 e l’ampiezza della sua classe e 5. Lafrequenza relativa cumulata della classe precedente quella centrale e Fm−1 = 0.391.

Me ≈ 95 +0.5− 0.391

0.554− 0.391× 5 = 98.333

10

Page 11: Dispense Statistica Descrittiva PRELIMINARY DRAFT

3 Esercizio 1 - Prova scritta del 09-05-2018

Esercizio 1. Nella tabella seguente e riportato il numero di abitanti delle province della Toscana (il puntoindica il divisore delle migliaia).

Provincia Numero abitanti

Arezzo 323.288

Firenze 933.860

Grosseto 211.086

Livorno 326.444

Lucca 372.244

Massa-Carrara 197.652

Pisa 384.555

Pistoia 268.503

Prato 227.886

1. Quali sono le unita statistiche?Teoria: L’unita statistica e l’unita elementare su cui vengono osservati i caratteri oggetto di studio.

Soluzione: Le unita statistiche sono le provincie della Toscana.

2. Specificare la natura della variabile {Numero abitanti}.Soluzione: La variabile rilevata e il numero di abitanti ed e un carattere quantitativo discreto trasferibile.

3. La distribuzione e unitaria o di frequenze?

Soluzione: La distribuzione e unitaria.

4. Se possibile, calcolare la mediana per il carattere considerato.Teoria: La mediana (Me) si puo calcolare per qualunque carattere a condizione che sia ordinabile. Lamediana di un insieme di unita ordinate e la modalita presentata dall’unita centrale, dove per unita centralesi intende quell’unita che divide il collettivo in due parti di uguali numerosita.

Soluzione: E’ possibile calcolare la mediana in quanto la variabile e ordinabile. Ordinando le modalitain senso crescente si ottiene:

197.652, 211.086, 227.886, 268.503, 323.288, 326.444, 372.244, 384.555, 933.860

Essendo il collettivo di numerosita dispari la posizione dell’unita centrale e (n+1)2 = (9+1)

2 = 5, pertantoMe = x5 = 323.288.

5. Se possibile, calcolare la media per il carattere considerato.Teoria: La media si puo calcolare solo per caratteri quantitativi.

Soluzione: Essendo il carattere quantitativo si puo calcolare la media.

X =323.288 + 933.860 + 211.086 + 326.444 + 372.244 + 197.652 + 384.555 + 268.503 + 227.886

9= 360.613, 1

6. Nella precedente tabella e stata erroneamente omessa la provincia di Siena con 252.288abitanti. Quale proprieta della media aritmetica occorre considerare per ricalcolare ilnumero medio di abitanti delle dieci province?Teoria: La media aritmetica possiede le seguenti proprieta:

11

Page 12: Dispense Statistica Descrittiva PRELIMINARY DRAFT

• La somma dei valori {x1, x2, . . . , xn} assunti da un insieme di n unita statistiche e uguale al valoremedio moltiplicato per il numero di unita:

n∑i=1

xi = nxa

Quindi la media aritmetica e il valore che equi-distribuisce il totale dell’ammontare tra le unita.

• La somma delle differenze tra i valori delle xi e la loro media aritmetica xa e pari a zero

n∑i=1

(xi − xa) = 0

• La somma degli scarti al quadrato dei valori xi da una costante c e minima quando c e uguale allamedia aritmetica:

n∑i=1

(xi − c)2 e un minimo per c = xa

• Se un collettivo di n unita statistiche viene suddiviso in L sottoinsiemi disgiunti di numerositan1, n2, . . . , nL, tali che

∑Lh=1 nh = n con media rispettivamente xa(1),...,xa(L) allora la media aritmetica

generale xa si puo ottenere come media ponderata delle medie dei sottoinsiemi con pesi uguali alleloro numerosita relativa

xa =1

n

L∑h=1

xa(h)nh

• La media aritmetica di un carattere Y , ottenuto attraverso una trasformazione lineare Y = a + bXdi un carattere X con media aritmetica xa e uguale a:

ya = a+ bxa

Soluzione: La media aritmetica generale si puo ottenere come media ponderata delle medie di Lsottoinsiemi con pesi uguali alla loro numerosita relativa. x =

∑Lh=1 xhnh. In questo caso Siena sarebbe

un sottoinsieme di numerosita 1/10 e le restanti provincie il secondo sottoinsieme di numerosita 9/10.

X =1

10252.288 +

9

10360.613, 1 = 349.780, 6

7. Si considerino le seguenti tre classi per il numero di abitanti: [0, 250.000), [250.000, 350.000)e [350.000, 1.000.000]. Costruire la distribuzione di frequenze relative per il caratteresuddiviso in classi (si includa anche la provincia di Siena).

Soluzione:

Table 6: Distribuzione di frequenze

Abitanti xj Frequenze assolute nj Frequenze relative fj

[0, 250.000) 3 310 = 0.3

[250.000, 350.000) 4 410 = 0.4

[350.000, 1.000.000] 3 310 = 0.3

8. Le classi specificate al punto precedente sono impiegate per definire le modalita della nuovavariabile {Dimensione della provincia} e vengono cosı interpretate: [0, 250.000)=piccola,

12

Page 13: Dispense Statistica Descrittiva PRELIMINARY DRAFT

[250.000, 350.000)=media e [350.000, 1.000.000]=grande. Specificare la natura della nuovavariabile {Dimensione della provincia} ottenuta attraverso la suddivisione in classi.

Soluzione: La nuova variabile e un carattere qualitativo ordinato rettilineo.Se si volesse interpretare la variabile in base alle classi per numero di abitanti allora la variabile sarebbequantitativa discreta suddivisa in classi.

9. Proporre e disegnare un grafico appropriato per rappresentare la distribuzione di frequenzerelative del carattere {Dimensione della provincia}. Qual e la moda della distribuzione?

Soluzione: Il grafico piu appropriato per un carattere qualitativo ordinabile e il grafico a barre, chepermette di osservare l’ordine e le frequenza di ogni modalita. Altrimenti si puo rappresentare la variabilecon un grafico a torta, anche se quest’ultimo non permette di osservare l’ordine nelle modalita.

Se si volesse rappresentare la variabile dimensione in base alle classi per numero di abitanti, si dovrebbeusare l’istogramma.

Table 7: Tabella per la costruzione dell’istogramma

Abitanti Frequenze assolute nj Frequenze relative fj Ampiezza classe ∆j Densita hj

[0, 250.000) 3 310 = 0.3 250.000 0.0012

[250.000, 350.000) 4 410 = 0.4 100.000 0.04

[350.000, 1.000.000] 3 310 = 0.3 650.000 0.004

13

Page 14: Dispense Statistica Descrittiva PRELIMINARY DRAFT

0 250 350 1,0000

1

2

3

4

·10−2

La moda e la classe [250.000, 350.000), ossia la modalita {media}.

14

Page 15: Dispense Statistica Descrittiva PRELIMINARY DRAFT

4 Esercizio 2 - Prova scritta del 09-05-2018

Esercizio 2. Con riferimento alla tabella completa delle province della Toscana

Provincia Numero abitanti

Arezzo 323.288

Firenze 933.860

Grosseto 211.086

Livorno 326.444

Lucca 372.244

Massa-Carrara 197.652

Pisa 384.555

Pistoia 268.503

Prato 227.886

Siena 252.288

1. Calcolare il rapporto di concentrazione di Gini.Teoria: La concentrazione del carattere evidenzia in modo piu efficace e piu interpretabile la variabilita deicaratteri trasferibili. La corrispondenza con il concetto di variabilita si evince dal fatto che piu il caratteree concentrato, tanto piu elevata sara la variabilita del carattere, mentre se non sussiste variabilita allorala concentrazione e nulla. In quest’ultimo caso il carattere si dice equidistribuito. Nello specifico, uncarattere quantitativo trasferibile X, con n valori osservati {x1, . . . , xn}, si dice equidistribuito se ognunadelle n unita possiede 1

n dell’ammontare complessivo del carattere, A =∑n

i=1 xi. Ossia per ogni i si ha chexi = A

n = x. Se non si verifica l’equidistribuzione, sussiste un certo grado di concentrazione del carattere.La situazione di massima concentrazione si ha quando l’intero ammontare del carattere, A, e possedutoda una sola unita del collettivo e cioe x1 = x2 = · · · = xn−1 = 0 e xn = A.Consideriamo un carattere quantitativo trasferibile X, osservato su un collettivo di n unita ordinate insenso non decrescente secondo l’ammontare di carattere posseduto, ossia x1 ≤ x2 ≤ · · · ≤ xn. Indichiamocon:

• Ai = x1 + x2 + · · ·+ xi l’ammontare di carattere posseduto dalle i unita piu povere;

• Qi = AiAn

la corrispondente frazione di ammontare;

• Fi = in la frequenza relativa cumulata delle prime i unita.

Qi e Fi hanno una stretta relazione e, tramite il loro confronto, si puo misurare il grado di concentrazionedel carattere.Fi = Qi e sempre verificata per i=n, ossia per l’ultima unita; mentre l’equivalenza e valida per ogni ise e solo se x1 = x2 = · · · = xn, ossia se il carattere e equidistribuito, poiche ogni unita e un n-esimodell’intero collettivo e anche il suo ammontare e un n-esimo dell’ammontare totale.Altrimenti, se Fi ≥ Qi vuol dire che alcune unita, pur rappresentando sempre un n-esimo del collettivohanno un ammontare minore di un n-esimo, quindi sussiste un grado di concentrazione. Quando tutte lefrazioni di ammontare sono uguali a zero Qi = 0, tranne l’ultima che e uguale a 1, Qn = 1, ci si trovanel caso di massima concentrazione.Considerando le differenze (Fi − Qi) queste sono tutte uguali a 0 nel caso di equidistribuzione, e tutteuguali a Fi (tranne per i = n per il quale la differenza e sempre 0) nel caso di massima concentrazione.Sommando tali differenze e dividendo per il suo valore massimo si trova un indice sintetico diconcentrazione relativo, che prende il nome di rapporto di concentrazione di Gini:

R =

∑n−1i=1 (Fi −Qi)∑n−1

i=1 Fi

15

Page 16: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Si noti che la sommatoria arriva fino a n − 1, poiche l’n-esima differenza e sempre uguale a 0 essendoQn = Fn = 1.L’indice di Gini puo assumere valori compresi tra zero e uno, dove zero indica equidistribuzione e unomassima concentrazione.Formule alternative sono:

R =1−∑n−1

i=1 Qi∑n−1i=1 Fi

=1− 2

n− 1

n−1∑i=1

Qi

=1− 2

(n− 1)An

n−1∑i=1

Ai

Soluzione Si riordina la tabella in senso non decrescente.

Provincia Numero abitanti Ai Qi = AiAn

Fi = in Fi −Qi

Massa-Carrara 197.652 197.652 0.0565 0.1 0.0435

Grosseto 211.086 408.738 0.1168 0.2 0.0831

Prato 227.886 636.624 0.1820 0.3 0.1180

Siena 252.288 888.912 0.2541 0.4 0.1459

Pistoia 268.503 1157.415 0.3308 0.5 0.1691

Arezzo 323.288 1480.703 0.4233 0.6 0.1767

Livorno 326.444 1807.147 0.5166 0.7 0.1833

Lucca 372.244 2179.391 0.6230 0.8 0.1769

Pisa 384.555 2563.946 0.7330 0.9 0.1670

Firenze 933.860 3497.806 - - -

Totale 3497.806 An = 3497.806 - 4.5 1.2635

R =

∑n−1i=1 (Fi −Qi)∑n−1

i=1 Fi

=1.2635

4.5= 0.2807

L’ammontare degli abitanti e abbastanza ben equidistribuito tra le diverse provincie, a eccezioni dellaprovincia di Firenze che possiede un numero maggiore di abitanti.

2. Rappresentare graficamente la curva di Lorenz.Teoria: Le coppie di valori Qi, Fi possono essere rappresentate in un piano cartesiano, in cui l’asse delleascisse rappresenta i valori Fi e l’asse delle ordinate i valori Qi. Congiungendo i punti limitrofi con deisegmenti si forma una curva chiamata spezzata di concentrazione o curva di Lorenz.

Soluzione: La curva di Lorenz e data dalla coppie di valori {(Q[i], F [i])}i=1,...,n

16

Page 17: Dispense Statistica Descrittiva PRELIMINARY DRAFT

0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

Fi

Qi

3. Attraverso il grafico, determinare la percentuale di abitanti nelle 7 province meno abitatesul totale degli abitanti delle 10 province.

Soluzione: Alla settima provincia meno abitata corrisponde una frequenza relativa cumulata di F7 = 0.7a cui corrispondente la frazione di ammontare Q7 = 0.5166. Pertanto si puo concludere che poco piu dellameta degli abitanti, 51.66%, abita nelle sette provincie meno abitate della Toscana.

4. Aggiungere al grafico la spezzata di equidistribuzione e di concentrazione massima per ilnumero osservato di abitanti.Teoria: La linea di equidistribuzione e il segmento che congiunge il punto (0, 0) al punto (1, 1). Ognipunto situato su tale segmento ha la proprieta di avere le coordinate uguali, Qi = Fi, come nel caso diequidistribuzione del carattere. La curva di Lorenz giace sempre sotto la linea di equidistribuzione poicheFi e sempre maggiore o uguale a Qi.Nel caso di massima concentrazione tutto il carattere e posseduto da una sola unita e le restanti n − 1non detengono nulla, quindi Qi = 0 per i = 1, . . . , n − 1 e Qn = 1. Graficamente accade che la spezzatadi concentrazione coincide con l’asse delle ascisse fino all’(n− 1)-esima unita per poi raggiungere il punto(1, 1).Dunque la spezzata di concentrazione cambia la sua forma a seconda che il carattere osservato sul collettivosia piu o meno concentrato: piu e vicina alla linea di equidistribuzione e piu l’ammontare totale delcarattere e equidistribuito fra le unita; piu e vicina all’asse delle ascisse e maggiore e la concentrazionedel carattere nel collettivo.

Soluzione:

0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

Fi

Qi

17

Page 18: Dispense Statistica Descrittiva PRELIMINARY DRAFT

5 Esercizio 2 - Prova scritta del 07-06-2018

Esercizio 2. Nella tabella seguente e riportato il numero di sale cinematografiche assegnato ai film attualmentein programmazione (dati fittizi)

Film Numero sale

Avengers: Infinity War 87

Deadpool 2 56

Dogman 23

La truffa dei Logan 45

Loro 2 60

Jurassic War: il regno distrutto 51

Solo: A Star War Story 48

Lazzaro Felice 25

Tuo, Simon 15

The Strangers 2 29

1. Quali sono le unita statistiche?

Soluzione: Le unita statistiche sono i film attualmente in programmazione.

2. Specificare la natura della variabile {Numero sale}.Soluzione: La variabile rilevata e un carattere quantitativo discreto e trasferibile.

3. La distribuzione e unitaria o di frequenze?

Soluzione: La distribuzione e unitaria, in quanto si dispone dell’elencazione delle modalita osservate,unita per unita, del collettivo preso in esame.

4. Se possibile, calcolare la mediana per il carattere considerato.

Soluzione: E’ possibile calcolare la mediana della variabile {Numero sale} in quanto e un carattereordinabile. Essa si ottiene ordinando le modalita in senso crescente e si individua l’unita centrale.

15, 23, 25, 29, 45, 48, 51, 56, 60, 87

Essendo il campione formato da un numero pari di unita, 10, si hanno due unita centrali, la quintae la sesta. La mediana si puo ottenere facendo la semi-somma tra i valori delle due osservazioni:Me = x5+x6

2 = 45+482 = 46.5. Essendo il carattere discreto non ha senso un valore decimale e pertanto si

prende il primo valore intero piu grande. Quindi la mediana e Me = 47.

5. Se possibile, calcolare la media per il carattere considerato.

Soluzione: E’ possibile calcolare la media della variabile {Numero sale} in quanto e un caratterequantitativo.

X =15 + 23 + 25 + 29 + 45 + 48 + 51 + 56 + 60 + 87

10= 43.9 ≈ 44

6. Avrebbe senso sintetizzare la distribuzione con la moda? Argomentare la risposta.

Soluzione: La moda e un indice di posizione applicabile a qualunque tipo di carattere. In questo caso,per la variabile {Numero sale}6, non avrebbe senso perche le modalita sono tutte distinte, ossia si ripetonotutte una sola volta.

6Attenzione i film non sono una variabile ma l’unta statistica; la moda fa riferimento ad una modalita di una variabile, non alleunita.

18

Page 19: Dispense Statistica Descrittiva PRELIMINARY DRAFT

7. Si considerino le seguenti tre classi per il numero di sale cinematografiche: [0, 25), [25, 50)e [50, 100]. Costruire la distribuzione di frequenze percentuali per il carattere suddiviso inclassi.

Soluzione:

Table 8: Tabella di frequenze

Numero sale xj Frequenze assolute nj Frequenze relative fj Frequenze percentuali pj

[0, 25) 2 210 = 0.2 20%

[25, 50) 4 410 = 0.4 40%

[50, 100] 4 410 = 0.4 40%

8. Le classi specificate al punto precedente sono impiegate per definire le modalita della nuovavariabile {Livello di diffusione del film} e vengono cosı interpretate: [0, 25)=basso, [25,50)=medio e [50, 100]=elevato. Specificare la natura della nuova variabile{Livello di diffusione del film}.Soluzione: La nuova variabile e un carattere qualitativo ordinato rettilineo.Usando le classi come modalita la nuova variabile e un carattere quantitativo discreto suddiviso in classi.

9. Proporre e disegnare un grafico appropriato per rappresentare la distribuzione di frequenzepercentuali del carattere {Livello di diffusione del film}.Soluzione: I grafici per una variabile qualitativa sono il grafico a barre e il grafico a torta, anche sequest’ultimo non permette di osservare l’ordine nelle modalita.

Mentre usando le classi si puo rappresentare la variabile tramite un istogramma.

19

Page 20: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Numero sale xj Frequenze assolute nj Frequenze relative fj Ampiezza classe ∆j Densita hj

[0, 25) 2 210 = 0.2 25 0.008

[25, 50) 4 410 = 0.4 25 0.016

[50, 100] 4 410 = 0.4 50 0.008

0 25 50 1000

0.5

1

1.5

·10−2

10. E’ possibile costruire la distribuzione di frequenze assolute cumulate per il livello di diffusionedel film? In caso affermativo, costruire tale distribuzione e fornire l’interpretazione dellaseconda frequenza cumulata.

Soluzione: Essendo il carattere ordinabile e possibile calcolarne la frequenza comulata

Table 9: Tabella di frequenze

Livello di diffusione xj Frequenze assolute nj Frequenze comulate Nj

Basso 2 2

Medio 4 6

Elevato 4 10

La seconda frequenza indica che ci sono 6 unita nelle prime due modalita del carattere, ossia ci sono 6film con diffusione medio-basso.

20

Page 21: Dispense Statistica Descrittiva PRELIMINARY DRAFT

6 Esercizio 3 - Prova scritta del 07-06-2018

Esercizio 3. Con riferimento alla tabella del numero di sale cinematografiche assegnato ai film attualmentein programmazione dell’Esercizio 2

Film Numero sale

Avengers: Infinity War 87

Deadpool 2 56

Dogman 23

La truffa dei Logan 45

Loro 2 60

Jurassic War: il regno distrutto 51

Solo: A Star War Story 48

Lazzaro Felice 25

Tuo, Simon 15

The Strangers 2 29

1. Calcolare il rapporto di concentrazione di Gini e commentare il risultato.

Soluzione: Si riordina la tabella in senso non decrescente.

Film Numero sale Ai Qi = AiAn

Fi = in Fi −Qi

Tuo, Simon 15 15 0.0341 0.1 0.0658

Dogman 23 38 0.0865 0.2 0.1134

Lazzaro Felice 25 63 0.1435 0.3 0.1564

The Strangers 2 29 92 0.2095 0.4 0.1904

La truffa dei Logan 45 137 0.312 0.5 0.1879

Solo: A Star War Story 48 185 0.4214 0.6 0.1785

Jurassic War: il regno distrutto 51 236 0.5375 0.7 0.1624

Deadpool 2 56 292 0.6651 0.8 0.1348

Loro 2 60 352 0.8018 0.9 0.0981

Avengers: Infinity War 87 439 - - -

Totale 439 An = 439 - 4.5 1.2881

R =

∑n−1i=1 (Fi −Qi)∑n−1

i=1 Fi

=1.2881

4.5= 0.2862

L’ammontare del numero delle sale e ben equidistribuito tra i diversi film, ad eccezione del film Avengers:Infinity War che e proiettato in una quota maggiore di sale.

2. Rappresentare graficamente la curva di Lorenz.

Soluzione: La curva di Lorenz e data dalla coppie di valori {(F [i], Q[i])}i=1,...,n

21

Page 22: Dispense Statistica Descrittiva PRELIMINARY DRAFT

0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

Fi

Qi

3. Attraverso il grafico, determinare la percentuale di sale attribuite ai 5 film meno “diffusi”sul totale delle sale assegnate ai 10 film.

Soluzione: Ai 5 film meno “diffusi” corrisponde una frequenza relativa comulata di F5 = 0.5 a cuicorrisponde una frazione di ammontare paria a Q5 = 0.312. Pertanto si puo concludere che le salededicate ai 5 film meno “diffusi” e circa un terzo, 0.312, del totale delle sale.

4. Aggiungere al grafico la spezzata di equidistribuzione e di concentrazione massima.

Soluzione:

0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

Fi

Qi

7 Schema riassuntivo

22

Page 23: Dispense Statistica Descrittiva PRELIMINARY DRAFT

Indic

iP

ara

met

roF

orm

ula

Indic

iP

ara

met

roF

orm

ula

Indic

iP

ara

met

roF

orm

ula

Posizione

µ=

Med

ia

1 n

∑ n i=1xi

Dispersione

σ2

=V

ari

anza

1 n

∑ n ix2 i−µ

2

Associazione

χ2

=C

hi-

quadra

toP

ears

on

( ∑H i=

1

∑ K j=1

n2 ij

ni·n

·j−

1) n

1 n

∑ K j=1xjnj

1 n

∑ K jx

2 jnj−µ

2=

Conti

ngen

zaquadra

tica

med

ia

χ2 n

∑ K j=1xjf j

∑ K jx

2 jf j−µ

2V

=V

di

Cra

mer

√Φ

2

min{(H−

1),

(K−

1)}

Me

=xi

Med

iana

i

=n

+1

2sen

edis

pari

σ=

Dev

iazi

one

standard

√σ

2

σXY

=C

ovari

anza

1 n

∑ n i=1(yi−y)(xi−x

)

i=

n 2∨i

=n 2−

1sen

epari

Concentrazione

R=

Gin

i

∑ n

−1

i=

1(F

i−Q

i)

∑ n−

1i=

1Fi

1 n

∑ n i=1xiyi−yx

Mo

=xi

Moda

i|ni

=max{n

1,...,nn}

1−

2(n−

1)A

n

∑ n−1

i=1Ai

ρXY

=C

orr

elazi

one

σX

Yσxσy

23