Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di...

53
Progetto di diffusione della cultura Statistica Dipartimento di Statistica Regione Toscana Comune di Firenze Introduzione alla statistica descrittiva: grafici, indici di posizione e dispersione Carla Rampichini Dipartimento di Statistica “G. Parenti” Università di Firenze Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/

Transcript of Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di...

Page 1: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Progetto di diffusione della cultura StatisticaDipartimento di Statistica Regione Toscana Comune di Firenze

Introduzione alla statisticadescrittiva: grafici, indici diposizione e dispersione

Carla RampichiniDipartimento di Statistica “G. Parenti”Università di Firenze

Materiale: http://www.ds.unifi.it/didattica/percorsi/concorsoscuole/

Page 2: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Diagrammi statisticiMigliore percezione Dalla tabella alla

rappresentazione grafica dell’informazioneTab. 1- Popolazione per sesso econdizione anno 1999 (%)

Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino

Fig. 1- Popolazione per sessoe condizione anno 1999 (%)

Condizione Maschi FemmineOccupati 47.4 25.7In cerca di occup. 4.6 4.8Non FF.LL. età lav. 18.7 36.1Non FF.LL. età non lav. 29.3 33.4TOTALE 100 100

0 5 10 15 20 25 30 35 40 45 50

Occupati

In cerca di occup.

Non FF.LL. età lav.

Non FF.LL. età non lav.

condizione

Femmine

Maschi

Page 3: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Diagrammi a barre per variabili qualitative

Categorie lungo l’asse orizzontaleAltezze proporzionali alle frequenze (o alle %)Barre possono essere anche tracciate orizzontalmente

NB. Le barre sono separate: la variabile non può assumere valori tra una categoria e l’altra

Page 4: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Cosa succede se cambiamo l’ordine delle barre?

VARIABILI SCONNESSE: nel diagramma per il mezzo di trasporto o in quello dell’arrivo a scuola in orario l’ordine delle barre è completamente arbitrario

VARIABILI ORDINALI: nel diagramma dell’ora in cui ci si alza le categorie sono ORDINATE e quindi devono essere rappresentate nell’ordine giusto per vedere l’andamento delle frequenze

Page 5: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Diagramma a barre per gruppi di osservazioni

Le barre del diagramma rappresentano le frequenze congiunte: ci sono 14 ragazze non fumatrici Confrontando le barre a coppie (barra verde e blu) possiamo vedere che sia trai maschi che tra le femmine di questa classe è più probabile essere non fumatori che fumatoriMentre confrontando le due barre verdi, possiamo vedere che tra i fumatori ci sono più maschi che femmine

Fumo genereFreq ‚0 femm ‚1 masc ‚Totaleƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆ0 ‚ 14 ‚ 27 ‚ 41ƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆ1 ‚ 5 ‚ 9 ‚ 14ƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒˆTotale 19 36 55

Page 6: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Proporzioni

Per capire qual è la proporzione di fumatori tra i maschi e le femmine, conviene fare un altro tipo di diagramma a barre

fuma‚0 femm ‚1 masc‚ Totalƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒˆ0 no‚ 73.68 ‚ 75.00‚ 74.55ƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒˆ1 sì‚ 26.32 ‚ 25.00‚ 25.45ƒƒƒƒˆƒƒƒƒƒƒƒˆƒƒƒƒƒƒˆTot 100.00 100.00 100.00

Page 7: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Diagrammi per seriesconnesse o ordinate

Condizione TOTALEOccupati 20435disoccupati 996in cerca di 1a occup. 1152altri 596TOTALE 23179

Tab. 2- Forze lavoro percondizione anno 1999 (migliaia)

Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino

Diagramma con rettangoli distanziati: altezza proporzionale

alla frequenza

Fig. 2- Forze lavoro per condizioneanno 1999 (migliaia)

Diagramma circolare (torta): angolo al centro proporzionale alla

frequenzaOccupati

disoccupati

in cerca di 1a occup. altri

Nnj×°= 360α

0

5000

10000

15000

20000

25000

Occupati disoccupati in cerca di 1a occup. altri

Page 8: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Diagrammi per seriesconnesse o ordinate

Fig. 2- Forze lavoro per sesso econdizione anno 1999 (migliaia)Tab. 2- Forze lavoro per sesso e

condizione anno 1999 (migliaia)

0

2000

4000

6000

8000

10000

12000

14000

Occupati disoccupati in cerca di 1a occup. altri

MaschiFemmine

Condizione Maschi FemmineOccupati 13090 7345disoccupati 588 408in cerca di 1a occup. 607 545altri 118 478TOTALE 14403 8776Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino

0

2000

4000

6000

8000

10000

12000

14000

16000

Maschi Femmine

altri

in cerca di 1a occup.

disoccupati

Occupati

Diagramma a rettangoli distanziati: altezza proporzionale alla frequenza di ciascuna modalità

Page 9: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

CartogrammiRappresentazione di serie territoriali

Aree geografiche: comuniCarattere: densità della popolazione

Fonte: regione Toscana, Toscana in cifre anno 2002http://www.regione.toscana.it/statistiche/index.htm

Page 10: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Grafici per variabili quantitative discrete

Tab. 3 – Famiglie per numero di componenti. Italia 1998 (v.a e %)Componenti v.a. %1 4594130 21.652 5527810 26.053 4954870 23.354 4466810 21.055 1294420 6.16 e più 381960 1.8Totale 21220000 100

0

5

10

15

20

25

30

0 1 2 3 4 5 6 7

n. componenti

%

Fig. 3 – Famiglie per numero di componenti. Italia 1998

(freq. rel. %)

Diagramma a bastoncini: altezza proporzionale alla frequenza

Fonte: Istat, Rapporto sull'Italiaedizione 2001, il Mulino

Page 11: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Grafici per variabili quantitative Istogramma

L’istogramma rappresenta un insieme di casi (raggrupati in classi) come rettangoliL’altezza dell’istogramma è proporzionale alla frequenza di ciascuna classe

frequenza n.casi

Esempio: istogramma velocità dei mammiferiL’istogramma mostra la forma, il centro e la dispersione dei dati

Page 12: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Istogramma (2)Cambiando l’ampiezza delle barre dell’istogramma (classi) a volte si ha un’impressione diversa della forma della distribuzionePer esempio, l’istogramma (1) per la velocità dei mammiferi ha meno barre più ampie rispetto all’ istogramma (2) e mostra una forma a campana più simmetrica, con un solo picco invece di 2 Se ci sono pochi valori è difficile identificare i picchi, in questi casi èmeglio utilizzare grafici che mostrano i singoli dati, come il dotplot o lo steamplot

Page 13: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Istogramma (3)Non c’è una regola per trovare qual è l’ampiezza di classe migliore per disegnare l’istogramma, proprio come per un fotografo non c’è una regola che gli dica quando usare lo zoom! Versioni diverse del grafico mettono in luce caratteristiche differenti della distribuzione: il lavoro dello statistico è trovare quella versione che mostra le caratteristiche più importanti!Un istogramma è una buona rappresentazione dei dati quando:

Ci sono molti valori da rappresentareNon interessa conoscere la posizione di ciascun valoreSi è interessati a mostrare la forma generale della distribuzione

Page 14: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Istogramma (4)

L’istogramma può essere costruito utilizzando sia le frequenze assolute che relative, o percentualiAttenzione: se le classi non hanno ampiezza costante, come negli esempi fatti, la costruzione dell’istogramma è più complicata!

Page 15: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

EsempioQuale proporzione degli studenti ha un’altezza di 180 cm o più?

SoluzioneIndividuate l’intervallo di valori >180 sulla’asse XQuale proporzione dell’area totale corrisponde alle barre su questo intervallo?

•A occhio questa proporzione è circa 1/3 circa 1/3 degli studenti di questa classe hanno un’altezza>180

•In maniera più precisa: possiamo sommare le altezze delle 3 barre dell’istogramma alla destra di 180, cioè 22+6+2 = 30

•Se le classi non hanno uguale ampiezza: sommare le aree!

Page 16: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Provate voi a fare un esercizio

Costruite l’istogramma per la durata di vita media e massima per alcuni mammiferiConviene usare classi di 10 anni per la durata massima e di 5 anni per la duratamediaVediamo insieme cosa possiamo leggereda questi grafici

Page 17: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Istogramma durata vitala vita media varia tra 1 e 41, mentre la vita massima varia da 4 a 70 anni

Meglio utilizzare classi di 5 anni per la vita media e di 10 per la vita massima

La forma dell’istogramma della vita media è molto diversa da quella della vita massima

La distribuzione della vita mediaè centrata sul valore 13 (media)la maggior parte dei valori sono compresi tra 5 e 20ci sono valori anomali (outliers) a destra, nelle classi [35,40) e [40,45)

La distribuzione della vita massima èpiù regolarec’è un picco nella classe [20,30) annie un valore anomalo nella classe [70,80) anni. il valore centrale è molto più alto!

13

31

Page 18: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Media e medianaSono entrambi indici di posizione

indicano il centro della distribuzione

La mediana divide la distribuzione in due parti ugualiLa media è il punto di equilibrio dell’istogramma, come una bilancia, si ottiene sommando i valori e dividendo per il numero di valori

Negli istogrammi visti è più grande la media o la mediana?

Page 19: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

La media è il punto di equilibrio di una distribuzione

•Per trovare la media osservando un istogramma, trovate il punto in cui dovreste mettere un dito sotto l’asse orizzontale per tenere in equilibrio la distribuzione immaginando che i rettangoli abbiano un peso proporzionale alla loro area.

•Se una distribuzione è approssimativamente normale, il suo punto di equilibrio corrisponde all’asse di simmetria, quindi la media si trova sull’asse orizzontale direttamente sotto il punto di massimo.

Page 20: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

MedianaLa mediana è il

valore che divide i dati in due metà

La mediana divide l’area dell’istogramma in due parti uguali

Per trovare la mediana:• ordinare i valori dal più piccolo al più grande• e prendere quello che sta nel mezzo (N dispari) o la media dei due che stanno nel mezzo (N pari)

Page 21: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Media e mediana: speranza di vita dei mammiferi

Il valore in cui l’istogramma sta in equilibrio (media) è più grande del valore che divide l’area in due parti uguali (la mediana) perché la distribuzione non è simmetrica

Se la distribuzione fosse simmetrica media e mediana sarebbero uguali

I valori anomali a destra tendono a far crescere il valore medio ma non hanno effetto sulla medianaPer esempio, se i valori della classe [35, 40) fossero spostati nella classe [45, 50) la mediana resterebbe uguale mentre la media sarebbe più grande!

Page 22: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Quale indice?

Quale indice di posizione e dispersione utilizzaredipende anche dall’obiettivo con cui si calcolanoquesti indici.Se l’obiettivo è meramente descrittivo, e la variabile è quantitativa, gli indici più informativisono:

la media aritmetica e la deviazione standard se la distribuzione è approssimativamente normalela mediana e lo scarto interquartile se la distribuzioneè asimmetrica

Page 23: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Gli indici di posizione: medie

Sintesi della distribuzioneattraverso un valore rappresentativo

Distribuzioni sconnesse: modaDistribuzioni ordinate: medianaSeriazioni: media aritmetica

Page 24: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

La modamodalità cui corrisponde la frequenza più alta.

05

10152025303540

freq

1 stella 2 stelle 3 stelle 4 stelle

categoria

Alberghi di Assisi per categoria

moda

Freq. modale

Page 25: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Moda utile per distribuzioni unimodali

0 1 2 3 4 5 6 7 8

Distribuzione unimodaleunico massimo locale

0 2 4 6 8 10 12

Distribuzione bimodalepiù di un massimo locale

Page 26: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Il centro e la dispersione

0 25 50 75 100 0 25 50 75 100

centro centro

dispersione dispersionestesso centro, dispersione diversa

Il centro non sintetizza la distribuzione!0 25 50 75 100

Page 27: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Media aritmetica

∑=

==N

iix

NM

1

1µX v.s. quantitativa{x1,x2,…,xN} successione

esempio X: 2 3 2 1 M=(2+3+2+1)/4=2

MEDIA: CENTRO DELL’INSIEME DEGLI N PUNTI

x1 x2 XN-1 XNMDistanza tra xi e xj in R: dij =|xi - xj|

Page 28: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Un esempioTroviamo la media e la mediana per questi 4 gruppi di dati e confrontiamo il loro valore

a. 1 2 3 b. 1 2 6c. 1 2 9d. 1 2 297

Concludendo:La mediana non cambia: 2 è sempre il valore centrale

La media diventa sempre più grande via via che l’ultimo valore cresce

La media cresce …2 è sempre il valore centrale

a. media= 2 mediana=2

b. media=3 mediana=2c. media=4 mediana=2

d. media=100; mediana=2

Page 29: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Indici di dispersioneSe utilizziamo la mediana come indice del centro della distribuzione, dividendo la distribuzione in due parti, possiamo usare la stessa idea per misurare la dispersione

Troviamo i valori che dividono queste due metà ancora in due metà!Q1 è il primo quartile e Q3 è il terzo quartileAdesso la distribuzione è divisa in 4 parti uguali!

x(1) x(n)Q1 Q3

Campo di variazione

SI

25%

La distanza tra Q1 e Q3è una misura di

dispersione detta scarto interquartile

SI= Q3 – Q1

Me

25%

25% 25%La distanza tra il valore più piccolo e il valore piùgrande è il campo di variazione (range)

Page 30: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Come si trovano i quartili?Ordinate i valori dal più piccolo al più grandeDividete i valori in due parti ugualiQuindi dividete ciascuna metà ancora in due parti uguali

Esempio1: n. di film visti in un anno da 8 studenti

2 4 5 7 8 9 10 11

Me=7.5Q1=4.5 Q3=9.5

Esempio2: n. di film visti in un anno da 9 studenti2 4 5 7 8 9 9 10 11

Me=8Q1=4.5 Q3=9.5

Page 31: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Campo di variazione (range): R= x(n)-x(1)

Scarto interquartile: DI=Q3-Q1

x(1) x(n)Q1 Q3

Campo di variazione

scarto interquartile

50%

Page 32: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Box-plotÈ possibile sintetizzare la distribuzione attraverso 5 numeri:

minimo: il più piccolo valore osservatoQ1: la mediana della prima metà dei valoriMediana: il valore che divide i dati in due partiQ3: la mediana della metà superiore dei valorimassimo: il valore più grande osservato

Page 33: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Valori anomali (outliers)Gli outliers sono valori ‘distantidistanti’ dagli altri

Per trovare gli outliers: si cercano i valori che sono più grandi o piùpiccoli di 1.5 volte SI rispetto a Q3 o Q1, cioè:

> Q3 + 1.5 · SI o < Q1 – 1.5 · SI

Esempio velocità dei mammiferiQ1 = 30 e Q3 = 42 SI = 42 – 30 = 12, 1.5 · SI = 18

All’estremo inferiore Q1 – 1.5 · SI = 30 – 18 = 12Il maiale con una velocità di 11 mph è un outlier.Lo scoiattolo è il non-outlier con la velocità più piccola: 12 mph

All’estremo superiore 42 + 1.5 · SI = 42 + 18 = 60Il ghepardo con una velocità di 70 mph, è un outlier.il leone con 50 mph è il non-outlier con la velocità più alta.

Page 34: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Speranza di vita media (anni) per 38 mammiferi

Ordiniamo i datiTroviamo i 5 numeri che sintetizzano la distribuzioneTroviamo SI=Q3-Q1

SI=15-8=7Calcoliamo Q1 – 1.5 · SI

Q1-1.5 · SI = 8- 1.5*7=-2.5<min=1no outliers nella metà inferiore

Calcoliamo Q3 + 1.5 · SIQ3 +1.5 *Si=15+1.5*7= 25.5<max=41outliers: elefante 35 anni e ippopotamo 41 anniIl valore più grande che non è un outlier è 25 anni (grizzly)

Disegnamo il boxplot.è possibile che un boxplot non abbia baffi?

Page 35: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Quando sono utili i box-plotper rappresentare una variabile quantitativa se si vogliono confrontare la forma, il centro e la dispersione di due o più gruppi di osservazioniQuando si hanno molti valori e non è possibile fare un dotplot o uno stemplotQuando non si è interessati a rappresentare i valori individualiQuando si vogliano individuare chiaramente gli outlier

Qualche ESEMPIO sui dati rilevati insiemeAltezza n. di CD possedutiCosto ultimo taglio capelli

Page 36: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Distribuzioni congiunteOsserviamo i grafici del battito cardiaco e del genere: possiamo dall’esame di questi grafici dire che le ragazze hanno in generale il battito più rallentato deiragazzi?No, perchè non abbiamo associato i dati sul battito al genere e quindi non siamo in grado di distinguerequali battiti sono dei maschi e quali delle femmine.

Studenti per genere

0

5

10

15

20

25

30

35

40

femmina maschio

freq

uenz

e

Page 37: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Grafici del battitocardiaco per genere

Page 38: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Grafici per distribuzioni congiunteLa tabella contienela distribuzionecongiunta del battitoper genere: chegrafico fareste per vedere se ci sonodifferenze tramaschi e femmine?

Tabella di battiti per genere

battiti(battiti) genere(genere)

Frequenza‚0 femmin‚1 maschi‚ Totaleƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ54-59 ‚ 0 ‚ 2 ‚ 260-64 ‚ 2 ‚ 3 ‚ 565-69 ‚ 0 ‚ 9 ‚ 970-74 ‚ 4 ‚ 4 ‚ 875-79 ‚ 4 ‚ 5 ‚ 980-84 ‚ 0 ‚ 8 ‚ 885-89 ‚ 1 ‚ 2 ‚ 390-94 ‚ 3 ‚ 2 ‚ 595-99 ‚ 5 ‚ 0 ‚ 5ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotale 19 35 54Frequenza dei valori mancanti = 2

Page 39: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

BibliografiaBartolomei G. (2007). Introduzione al modulo di statistica: Percorsointerattivo in una classe prima con l’ausilio della LIM, IPSIA “E. Medi” A.S. 2006/2007, progetto “La scuola siamo noi”, promossodall’INDIRE (Agenzia Nazionale per lo Sviluppo dell’AutonomiaScolastica), http://www.indire.it/lascuolasiamonoi/progetti/index.php.

Freedman D., Pisani R. e R. Purves (1998). Statistica, McGRaw-Hill.

Rossman A.J. e Chance B.L. (2008). Workshop Statistics: Discovery with Data, 2nd Edition, Key Curriculum Press

Scheaffer R.L., Watkins A., Witmer J., Gnanadesikan M. (2004). Activity based statistics, CA: Key College Publishing.

Watkins A.E., Scheaffer R.L. e Cobb G. W. (2001). Statistics in Action Understanding a World of Data, Key Curriculum Press.

Zenga M., 2007 - Lezioni di Statistica descrittiva, GiappichelliEditore, Torino.

Page 40: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

approfondimenti

Page 41: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

R1La spiegazione più plausibile è che le velocità sono stime per gli animali selvaggiChi andrebbe a misurare la velocità di un grizzly in natura?

Le velocità che non finiscono per 0 o 5 sono quelle relative ad animali domestici: cane, volpe, giraffa, cavallo, maiale e scoiattolo.Per questi mammiferi, ad eccezione della giraffa, la velocità può essere misurata in maniera accurata: sicuramente nel caso di gare di corsa per cavalli e cani!

Page 42: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

R2La distribuzione è centrata verso i valori più bassi, senza gruppi o buchi particolariC’è una sorta di ‘muro’ a 0 giorni, perché nessun mammifero può avere un periodo di gestazione piùpiccolo!

0 100 200 300 400 500 600 700durata gestazione (giorni)

elefante

L’elefante è l’unico mammifero fuori norma (outlier)Circa la metà dei mammiferi hanno un periodo di gestazione superiore a 160 giorni e la metà hanno un periodo più breveLa metà centrale ha un periodo di gestazione che varia tra i 63 e i 284 giorni.

160160

Page 43: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Tipo variabili mammiferi

MammiferoPeriodo di gestazioneDurata vita mediaDurata vita maxVelocitàSelvaggioPredatore

È un’etichettaQuantitativa ggQuantitativa anniQuantitativa anniQuantitativa mphQualitativa sì/noQualitativa sì/no

Page 44: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Istogramma altezza

Page 45: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Tab. 4 – Consumatori di farmaci per classe di età, 1998 (migliaia).

Istat, Rapporto sull'Italia 2001 Un esempio di istogramma per classi di ampiezza

diversa

età nj aj dj0-14 1396 14 99.7115-34 2626 19 138.2135-64 7687 29 265.0765 e oltre 6933 30 231.10TOTALE 18642

Istogramma con poligono di frequenza

0

50

100

150

200

250

300

0 20 40 60 80 100 120

età

dj

Page 46: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

xj-1 xj

Altezza = dj = fj / aj =densità classe

X

Area rettangolo= aj * dj = fj =frequenza classe

Base rettangolo= xj – xj-1 = aj =ampiezza classe

Come si costruisce l’ISTOGRAMMA quando le classi hanno ampiezza diversa?

Page 47: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Come si calcola la proporzione di u.s. con X≤x* dall’istogramma?

*( )pr X x≤

A2

xj-1 xjx*A1

dj=fj/(xj-xj-1)

pr(X≤x*)=A1+A2+area tratteggiata=f1+f2 +(x*-xj-1)dj

];(*1 jj

xxx−

∈Area tratteggiata= (x*-xj-1)dj

Page 48: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

FREQ min q1 Me media q3 maxfemmine 19 160 165 169 168.7 172 178maschi 36 163 173 179 177.1 181 193Totale 55 160 168 175 174.2 180 193

Altezza (cm) per genere

Page 49: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

FREQ n min q1 Me media q3 maxfemmine 19 10 0 10.0 29.5 65.5 100 310

maschi 36 36 0 31.5 57.0 208.8 195 1000

TOTALE 55 46 0 25.0 52.0 177.7 190 1000

n. CD posseduti

Page 50: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Costo ultimo tagliocapelli (euro)

genere FREQ n min q1 Me media q3 max

femmina 19 18 10 20 35.0 36.5 50 90maschio 36 32 10 13 15.0 17.0 20 50Totale 55 50 10 15 19.9 24.0 28 90

Page 51: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Speranza di vita media mammiferi

minimo: 1Quartile inferiore (Q1): 8 posizione 38*(1/4)=9.5 10

mediana: 12 posizione 38*(1/2)=19 19 e 20

Quartile superiore (Q3): 15 posizione 38*(3/4)=28.5 29

Massimo: 41

N=38

Page 52: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

Box-plot speranza di vita media mammiferi

outliers

Q1 Q3MeminQ3+1.5×SI

Page 53: Introduzione alla statistica descrittiva: grafici, indici …...Quale indice? Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano

box-plot senza baffi!

Sì. Possono esserci box-plot senza baffi!Per esempio, in questo insieme di 12 dati

{1, 1, 1, 1, 2, 3, 5, 6, 7, 12, 14, 16}

il minimo e il primo quartile sono uguali