Statistica e informatica - moodle2.units.it · Qual e il tuo genere letterario preferito?` I...

63
Statistica e informatica Statistica descrittiva Francesco Pauli & Nicola Torelli a.a. 2017/2018 Francesco Pauli & Nicola Torelli Descrittiva 1/1

Transcript of Statistica e informatica - moodle2.units.it · Qual e il tuo genere letterario preferito?` I...

Statistica e informatica

Statistica descrittiva

Francesco Pauli & Nicola Torelli

a.a. 2017/2018

Francesco Pauli & Nicola Torelli Descrittiva 1 / 1

Indice

Francesco Pauli & Nicola Torelli Descrittiva 2 / 1

Terminologia elementare

Un dato statistico e il risultato della rilevazione(misurazione/osservazione) di un qualche carattere su un’unitastatistica appartenente a una popolazione.I unita statistica: il caso individuale componente del collettivo

statistico;I carattere (o variabile): ogni aspetto elementare oggetto di

rilevazione nelle unita statistiche del collettivo;I modalita di un carattere: i diversi modi con cui questo si presenta

nelle unita statistiche del collettivoI supporto: insieme (teorico) delle modalita di un carattere.

Nel seguito, i termini carattere e variabile verranno usati in modointerscambiabile.

Francesco Pauli & Nicola Torelli Descrittiva 3 / 1

Tipi di carattere

QUALITATIVI

modalità costituite da espressioni verbali

modalità costituite da numeri

QUANTITATIVI

RETTILINEI

SCONNESSI

D I S C R E T I

CONTINUIModalità ordinabili

Modalità non ordinabili

Modalità: quantità distinte

Possono assumere tutti i valori di un

intervallo di numeri reali

Francesco Pauli & Nicola Torelli Descrittiva 4 / 1

Variabili qualitative

I Una variabile e qualitativa se le modalita che si presentano sonoespresse in forma verbale;

I una variabile qualitativa e sconnessa se le sue modalita nonimplicano una graduazione (mutabile sconnessa);

I una variabile qualitativa e ordinale se le sue modalita implicanouna graduazione;

I le modalita possono essere predefinite a priori;I a volte, nelle indagini, le modalita vengono desunte a posteriori

dalla descrizione dettagliata che il rilevatore fa dello stato dellasingola unita relativamente al carattere in questione.

Francesco Pauli & Nicola Torelli Descrittiva 5 / 1

Esempio: qualitativa sconnessa

Ti e piaciuta l’ultima edizione del Festival di Sanremo?I L’ho visto e mi e piaciutoI L’ho visto e non mi e piaciutoI Non l’ho visto

Francesco Pauli & Nicola Torelli Descrittiva 6 / 1

Esempio: qualitativa sconnessa 2

Qual e il tuo genere letterario preferito?I Comico/umoristicoI FantascienzaI FantasyI Giallo/noir/thrillerI PsicologicoI RomanticoI StoricoI Altro

Francesco Pauli & Nicola Torelli Descrittiva 7 / 1

Esempio: qualitativa ordinale

Quanto frequentemente bevi birra?I MaiI RaramenteI Qualche voltaI SpessoI Ogni giornoI Piu volte al giorno

Francesco Pauli & Nicola Torelli Descrittiva 8 / 1

Variabili quantitative

I Una variabile e quantitativa se le modalita che si presentanosono espresse in forma numerica;

I distinguiamo rispetto ai valori che possono assumereI una variabile quantitativa e discreta se l’insieme delle sue

modalita e finito oppure numerabile (detto in altri termini, se laquantita che rappresenta varia “a salti”);

I una variabile quantitativa e continua se l’insieme delle suemodalita e un intervallo, limitato o illimitato.

NB. Per la limitata precisione utilizzabile nel rilevare le misure, ladistinzione tra variabile discreta e continua e convenzionale.

I e rispetto alle operazioni che e ragionevole fareI una variabile e intervallare se ha senso fare differenze tra valori

ma non c’e uno zero naturale e non ha senso fare rapportiI una variabile e rapportabile se ha senso fare rapporti tra valori (c’e

uno zero naturale)

Francesco Pauli & Nicola Torelli Descrittiva 9 / 1

Indice

Francesco Pauli & Nicola Torelli Descrittiva 10 / 1

Matrice dei dati

Dati del questionario:

variabile↓

Stu. sesso Sanremo · · · sonno studio

1 maschio Non l’ho visto · · · 8 22 femmina L’ho visto e mi e piaciuto · · · 6 303 maschio Non l’ho visto · · · 9 5 ←4 femmina Non l’ho visto · · · 8 25 unita statistica...

......

......

...52 femmina Non l’ho visto · · · 8 20

Francesco Pauli & Nicola Torelli Descrittiva 11 / 1

Esempio: effetto del fumo sul peso dei neonati(babies)

Per 32 neonati si sono rilevatiI il peso alla nascita (in grammi),I la durata della gravidanza (in settimane),I la condizione rispetto al fumo della madre (S/N).

Interessa valutare se esista una relazione tra il peso alla nascita deineonati e la durata della gravidanza e se questa relazione cambirispetto alla condizione madre fumatrice/non fumatrice.

Francesco Pauli & Nicola Torelli Descrittiva 12 / 1

Peso Durata gravidanza Fumo2940 38 S2420 36 S2760 39 S2440 35 S3301 42 S2715 36 S3130 39 S2928 39 S3446 42 S2957 39 S2580 38 S3500 42 S3200 41 S3346 42 S3175 41 S2740 38 S3130 38 N2450 34 N3226 40 N2729 37 N3410 40 N3095 39 N3244 39 N2520 35 N3523 41 N2920 38 N3530 42 N3040 37 N3322 39 N3459 40 N2619 35 N2841 36 N

Francesco Pauli & Nicola Torelli Descrittiva 13 / 1

Gli stessi dati...

E molto spesso comodo codificare la condizione di fumatrice dellamadre con un numero (tipo: 1 fumatrice, 0 non fumatrice), anzichecon una lettera (S/N).

Ovviamente, i codici 0 ed 1 usati per le due condizioni sono ancora daconsiderarsi come etichette dei due gruppi.

Francesco Pauli & Nicola Torelli Descrittiva 14 / 1

Peso Durata gravidanza Fumo2940 38 S2420 36 S2760 39 S2440 35 S3301 42 S2715 36 S3130 39 S2928 39 S3446 42 S2957 39 S2580 38 S3500 42 S3200 41 S3346 42 S3175 41 S2740 38 S3130 38 N2450 34 N3226 40 N2729 37 N3410 40 N3095 39 N3244 39 N2520 35 N3523 41 N2920 38 N3530 42 N3040 37 N3322 39 N3459 40 N2619 35 N2841 36 N

Peso Durata gravidanza Fumo2940 38 12420 36 12760 39 12440 35 13301 42 12715 36 13130 39 12928 39 13446 42 12957 39 12580 38 13500 42 13200 41 13346 42 13175 41 12740 38 13130 38 02450 34 03226 40 02729 37 03410 40 03095 39 03244 39 02520 35 03523 41 02920 38 03530 42 03040 37 03322 39 03459 40 02619 35 02841 36 0

Francesco Pauli & Nicola Torelli Descrittiva 15 / 1

Indice

Francesco Pauli & Nicola Torelli Descrittiva 16 / 1

Distribuzione statistica disaggregata

Si consideri un collettivo statistico di N unita, dove si sia osservato ilcarattere Y . Si chiama distribuzione statistica disaggregata secondoil carattere Y l’insieme delle osservazioni (rappresentate da numeri oda espressioni verbali) relative alle N unita del collettivo. In simboli, ladistribuzione disaggregata sara indicata come

y1,y2, . . . ,yN

dove y1 e l’osservazione relativa all’unita identificata dal numero 1, y2l’osservazione relativa all’unita identificata dal numero 2 e cos via.

Non consente una facile visione d’insieme.

Francesco Pauli & Nicola Torelli Descrittiva 17 / 1

Distribuzione statistica disaggregata (2)

Ad esempio per il carattere Genere la distribuzione statisticadisaggregata e

Maschio Femmina Maschio Femmina Femmina MaschioMaschio Femmina Maschio Maschio Maschio MaschioMaschio Maschio Maschio Maschio Femmina MaschioFemmina Maschio Maschio Maschio Femmina MaschioFemmina Maschio Maschio Femmina Maschio MaschioFemmina Femmina Femmina Maschio Maschio MaschioMaschio Maschio Femmina Maschio Maschio FemminaFemmina Femmina Maschio Femmina Maschio MaschioMaschio Maschio Maschio Femmina NA Femmina

Francesco Pauli & Nicola Torelli Descrittiva 18 / 1

Distribuzione statistica disaggregata (3)

Per il carattere Altezza la distribuzione statistica disaggregata e

180 173 170 168 172 185 175 170 176 183 176 181 185188 180 173 170 187 165 190 187 182 175 183 166 186190 181 185 170 178 180 160 174 180 184 183 180 175182 175 160 180 176 178 164 177 170 184 173 173 164 NA176

Francesco Pauli & Nicola Torelli Descrittiva 19 / 1

Distribuzione di frequenza assoluta

Si consideri ancora Y . Si chiama distribuzione di frequenza assolutala lista delle modalita osservate accompagnata dal numero di volte incui queste vengono osservate, ossia accompagnata dalle rispettivefrequenze assolute.

E molto facile ottenere distribuzioni di frequenza assoluta percaratteri qualitativi e quantitativi discreti. In presenza di caratteriquantitativi continui (o anche discreti, se assumono tantissimemodalita), abbiamo bisogno di qualche operazione preliminare.

Francesco Pauli & Nicola Torelli Descrittiva 20 / 1

Esempio: distribuzione di frequenza del genere

Modalita Frequenza assolutaFemmina 19Maschio 34

Francesco Pauli & Nicola Torelli Descrittiva 21 / 1

Esempio: distribuzione di frequenza del genereletterario preferito

Modalita Frequenza assolutaAvventura 1Biografico 2Comico/umoristico 1Fantascienza 5Fantasy 13Giallo/noir/thriller 5Psicologico 9Romantico 5Saggistica 2Storico 6

Francesco Pauli & Nicola Torelli Descrittiva 22 / 1

Esempio: distribuzione di frequenza delle ore di sonno

Modalita Frequenza assoluta4 15.5 16 57 217.5 18 169 8

Francesco Pauli & Nicola Torelli Descrittiva 23 / 1

Esempio: distribuzione di frequenza dell’ Altezza

Per l’altezza conviene definire delle classi.

Modalita Frequenza assoluta160 2164 2165 1166 1168 1170 5172 1173 4174 1175 4176 4177 1178 2180 6181 2182 2183 3184 2185 3186 1187 2188 1190 2

Modalita Frequenza assoluta[160,165] 5(165,170] 7(170,175] 10(175,180] 13(180,185] 12(185,190] 6

Modalita Frequenza assoluta[160,185] 47(185,190] 6

La scelta delle classi e arbitraria, va fatta in maniera ragionevole.

Francesco Pauli & Nicola Torelli Descrittiva 24 / 1

Esempio: distribuzione di frequenza dell’ Altezza

Per l’altezza conviene definire delle classi.

Modalita Frequenza assoluta160 2164 2165 1166 1168 1170 5172 1173 4174 1175 4176 4177 1178 2180 6181 2182 2183 3184 2185 3186 1187 2188 1190 2

Modalita Frequenza assoluta[160,165] 5(165,170] 7(170,175] 10(175,180] 13(180,185] 12(185,190] 6

Modalita Frequenza assoluta[160,185] 47(185,190] 6

La scelta delle classi e arbitraria, va fatta in maniera ragionevole.

Francesco Pauli & Nicola Torelli Descrittiva 24 / 1

Esempio: distribuzione di frequenza dell’ Altezza

Per l’altezza conviene definire delle classi.

Modalita Frequenza assoluta160 2164 2165 1166 1168 1170 5172 1173 4174 1175 4176 4177 1178 2180 6181 2182 2183 3184 2185 3186 1187 2188 1190 2

Modalita Frequenza assoluta[160,165] 5(165,170] 7(170,175] 10(175,180] 13(180,185] 12(185,190] 6

Modalita Frequenza assoluta[160,185] 47(185,190] 6

La scelta delle classi e arbitraria, va fatta in maniera ragionevole.

Francesco Pauli & Nicola Torelli Descrittiva 24 / 1

Classi di differenti lunghezze

Puo capitare, o per scelta (si vuole fornire informazioni piu dettagliatesu parte della distribuzione), o per necessita (i dati sono gia statiraggruppati in classi da qualcuno), di costruire delle classi utilizzandointervalli di lunghezza differente.

In questo caso e conveniente definire anche la densita di frequenza.

La densita e definita come:(densita

di una classe

)=

frequenza assoluta di Y sull’intervallolunghezza dell’intervallo

.

Francesco Pauli & Nicola Torelli Descrittiva 25 / 1

Esempio: amici di FacebookModalita Freq. ass.0 111 179 1100 1112 1119 1130 2140 1150 1162 1169 1176 1200 2231 1254 1257 1277 1300 1349 1350 1356 2370 1400 1438 1439 1450 1463 1469 1470 1500 2520 1543 2563 1589 1600 1674 1720 1768 1900 11000 11100 11236 11500 21800 13025 13089 1

Francesco Pauli & Nicola Torelli Descrittiva 26 / 1

Esempio: amici di FacebookModalita Freq. ass.0 111 179 1100 1112 1119 1130 2140 1150 1162 1169 1176 1200 2231 1254 1257 1277 1300 1349 1350 1356 2370 1400 1438 1439 1450 1463 1469 1470 1500 2520 1543 2563 1589 1600 1674 1720 1768 1900 11000 11100 11236 11500 21800 13025 13089 1

Modalita Freq. ass.[0,500] 34(500,1000] 11(1000,1500] 4(1500,2000] 1(2000,2500] 0(2500,3000] 0(3000,3500] 2

Francesco Pauli & Nicola Torelli Descrittiva 26 / 1

Densita di frequenza

Modalita Freq. ass. Ampiezza classe Densita[0,100] 4 100 4/100=0.04(100,200] 11 100 11/100=0.11(200,300] 5 100 5/100=0.05(300,400] 6 100 6/100=0.06(400,500] 8 100 8/100=0.08(500,1000] 11 500 11/500=0.022(1000,5000] 7 4000 7/4000=0.00175

La densita ci dice il numero atteso di unita statistiche per ogni unita dimisura della variabile. Nella prima classe, per esempio, ci aspettiamodi osservare 4 persone in un intervallo di 100 unita, nella penultimaclasse ci aspettiamo di vedere 2.2 unita ogni 100 (cioe2.2 unita tra500 e 600, altrettante tra 600 e 700.

Francesco Pauli & Nicola Torelli Descrittiva 27 / 1

Esempio: ore di sonno, maschi e femmine

FemmineModalita Freq. ass.5.5 16 17 88 79 2

MaschiModalita Freq. ass.4 16 47 137.5 18 99 6

Francesco Pauli & Nicola Torelli Descrittiva 28 / 1

Esempio: altezza, maschi e femmine

FemmineModalita Freq. ass.[160,165] 5(165,170] 4(170,175] 4(175,180] 5(180,185] 1(185,190] 0

MaschiModalita Freq. ass.[160,165] 0(165,170] 3(170,175] 6(175,180] 8(180,185] 11(185,190] 6

Francesco Pauli & Nicola Torelli Descrittiva 29 / 1

Distribuzione condizionata

Le distribuzioni delle ore di sonno o dell’altezza per una fissatamodalita del genere (maschio/femmina) sono distribuzionicondizionate.

Se indichiamo in modo generico con Y il carattere che stiamostudiando (le ore di sonno, per esempio) e con X il carattere tramitecui estraiamo le unita statistiche da considerare nell’analisi (il genere,nel nostro caso), si dice variabile Y condizionata a X = x e si indicaY |X = x la restrizione di Y al sottoinsieme X = x .

Francesco Pauli & Nicola Torelli Descrittiva 30 / 1

Distribuzione condizionata (cont)

La distribuzione della variabile Y |X = x viene normalmente detta ladistribuzione di Y condizionata a X = x o, equivalentemente, ladistribuzione di Y dato X = x .

Si osservi che esiste una distribuzione condizionata (di Y dato X ) perogni modalita di X .

La distribuzione della variabile Y senza distinzione per condizionerispetto a X e detta distribuzione marginale.

Francesco Pauli & Nicola Torelli Descrittiva 31 / 1

Esempio: ore di sonno

FemmineModalita Freq. ass.5.5 16 17 88 79 2

MaschiModalita Freq. ass.4 16 47 137.5 18 99 6

TotaleModalita Freq. ass.4 15.5 16 57 217.5 18 169 8

Francesco Pauli & Nicola Torelli Descrittiva 32 / 1

Esempio: ore di sonno

ModalitaFreq. ass.

Femmine Maschi Totale

4 0 1 15.5 1 0 16 1 4 57 8 13 217.5 0 1 18 7 9 169 2 6 8

Francesco Pauli & Nicola Torelli Descrittiva 33 / 1

Frequenze relative

Dividendo una frequenza assoluta per il numero totale di unitastatistiche (N nel nostro caso) otteniamo le cosiddette frequenzerelative, ovvero

(frequenze

relative

)=

(frequenzeassolute

)(

numero totale diosservazioni

)

Hanno il vantaggio, rispetto alle frequenze assolute, di permettere diconfrontare distribuzioni di frequenza basate su numeri differenti diunita statistiche.

Francesco Pauli & Nicola Torelli Descrittiva 34 / 1

Esempio: amici su Facebook

Modalita Freq. ass. Freq. rel.[0,100] 4 4/52=0.077(100,200] 11 11/52=0.212(200,300] 5 5/52=0.096(300,400] 6 6/52=0.115(400,500] 8 8/52=0.154(500,1000] 11 11/52=0.212(1000,5000] 7 7/52=0.135

Francesco Pauli & Nicola Torelli Descrittiva 35 / 1

Distribuzioni di frequenza: notazione

I yi modalita i/ classe (ci−1,ci ] del carattere y , i = 1,2, . . . ,k (kmodalita/classi);

I ni frequenza assoluta numero di unita statistiche che possiedonola modalita/classe yi ;

I N numero totale di osservazioni (N = n1 +n2 + · · ·+nk );I fi frequenza relativa (fi = ni /N ).

modalita/classe frequenze assolute frequenze relativey1 n1 f1 = n1/Ny2 n2 f2 = n2/N...

......

yk nk fk = nk /NTotale N 1

Francesco Pauli & Nicola Torelli Descrittiva 36 / 1

Avviso generale

Ogni libro usa una propria notazione, magari diversa da quellaappena introdotta.

Una altra notazione comune e, per esempio, la seguenteI yi modalita/classe i del carattere y , i = 1,2, . . . ,k (k

modalita/classi)I fi frequenza assoluta numero di unita statistiche che possiedono

la modalita/classe yi

I n numero totale di osservazioni (n = f1 + f2 + · · ·+ fk )I pi frequenza relativa (pi = fi /n)

Qualunque scelta va bene: basta definire cosa si intende con ciascunsimbolo ed essere coerenti.

Francesco Pauli & Nicola Torelli Descrittiva 37 / 1

Il simbolo´

(sommatoria)

Cosa intendiamo per

N =k¼

i=1

ni

ovvero per ’Somma per i che va da 1 a k ’ ?

N = n1 +n2 + · · ·+nk

Alcune proprieta

1.´k

i=1(yi + xi ) =´k

i=1 yi +´k

i=1 xi

2.´k

i=1 ayi = a´k

i=1 yi

3. Fate attenzione:´k

i=1 a = ak

Esercizio:´k

i=1 fi =?

Francesco Pauli & Nicola Torelli Descrittiva 38 / 1

Indice

Francesco Pauli & Nicola Torelli Descrittiva 39 / 1

Finalmente un grafico!

Possiamo cercare di visualizzare le distribuzioni di frequenza,rappresentando in qualche modo ciascuna modalita del carattere conla relativa frequenza.

Esempio: il vostro rapporto con Sanremo.

Modalita freq. freq.ass. rel.

Visto e piaciuto 6 0.11Visto e non piaciuto 2 0.04

Non l’ho visto 45 0.85

Visto e piaciuto

Visto e non piaciuto

Non l'ho visto

Francesco Pauli & Nicola Torelli Descrittiva 40 / 1

Diagramma a torta

Il grafico e costruito ponendo rappresentando ogni modalita con unafetta di torta proporzionale di superficie pari alla sua frequenza:

rangolo = 360 · frequenza assoluta/N

oangolo = 360 · frequenza relativa

Francesco Pauli & Nicola Torelli Descrittiva 41 / 1

Finalmente un grafico!

Esempio: generi letterari preferiti

Avventura

Biografico

Comico/umoristico

Fantascienza

Fantasy

Giallo/noir/thriller

Psicologico

Romantico

Saggistica

Storico

Notiamo che, se la variabile non e ordinale, l’ordine delle modalita nelgrafico e arbitrario.

Francesco Pauli & Nicola Torelli Descrittiva 42 / 1

Finalmente un grafico!

Esempio: generi letterari preferiti

Avventura

Biografico

Comico/umoristico

Fantascienza

Fantasy

Giallo/noir/thriller

Psicologico

Romantico

Saggistica

Storico

2 4 6 8 10 12

Frequenza asoluta

Notiamo che, se la variabile non e ordinale, l’ordine delle modalita nelgrafico e arbitrario.

Francesco Pauli & Nicola Torelli Descrittiva 42 / 1

Esempio: numero di libri letti

0

5

10

15

Numerodi libri letti

Fre

quen

za (

asso

luta

)

0 1 2 3 4 5 6 7 8 9 10

Il grafico e stato costruito ponendo

assex =

modalita

riportate nelladistribuzione di

frequenza

(altezza barre) = (frequenze assolute)

Francesco Pauli & Nicola Torelli Descrittiva 43 / 1

Esempio: altezze

[160,165] 5(165,170] 7(170,175] 10(175,180] 13(180,185] 12(185,190] 6

Il grafico e stato costruito ponendo

(base rettangoli) =

intervallini

riportati nella 1◦

colonna delladistribuzione di

frequenza

(area rettangoli) ∝ (frequenze assolute)

Il simbolo ∝ significa “proporzionale a”.

Essendo l’area dei rettangoli uguale abase×altezza, se le gli intervalli hannouguale ampiezza, di fatto l’altezzacoincide con (o e proporzionale a) lafrequenza assoluta:

(altezza rettangoli) = (frequenze assolute)

Francesco Pauli & Nicola Torelli Descrittiva 44 / 1

Esempio: altezze

Altezza

Den

sity

160 165 170 175 180 185 190

0.00

0.01

0.02

0.03

0.04

0.05

Il grafico e stato costruito ponendo

(base rettangoli) =

intervallini

riportati nella 1◦

colonna delladistribuzione di

frequenza

(area rettangoli) ∝ (frequenze assolute)

Il simbolo ∝ significa “proporzionale a”.

Essendo l’area dei rettangoli uguale abase×altezza, se le gli intervalli hannouguale ampiezza, di fatto l’altezzacoincide con (o e proporzionale a) lafrequenza assoluta:

(altezza rettangoli) = (frequenze assolute)

Francesco Pauli & Nicola Torelli Descrittiva 44 / 1

Modalita Freq. rel. Ampiezza classe Densita[0,100] 0.0769 100 0.000770(100,200] 0.2115 100 0.002120(200,300] 0.0961 100 0.000960(300,400] 0.1154 100 0.001150(400,500] 0.1538 100 0.001540(500,1000] 0.2115 500 0.000420(1000,5000] 0.1346 4000 0.000030

Amici in Facebook

0 1000 2000 3000 4000 5000

0.0000

0.0005

0.0010

0.0015

0.0020

Francesco Pauli & Nicola Torelli Descrittiva 45 / 1

Vale anche per le distribuzioni condizionate

Esempio: altezze di maschi e femmine

Altezza

Den

sity

0.00

0.02

0.04

0.06

160 170 180 190

Femmina0.00

0.02

0.04

0.06

Maschio

Francesco Pauli & Nicola Torelli Descrittiva 46 / 1

Vale anche per le distribuzioni condizionate

Esempio: ore di studio di maschi e femmine

ques$OreStudioSett

Den

sity

0.00

0.01

0.02

0.03

0.04

0 20 40 60

Femmina0.00

0.01

0.02

0.03

0.04

Maschio

Francesco Pauli & Nicola Torelli Descrittiva 47 / 1

Vale anche per le distribuzioni condizionate

Esempio: voto di matura di maschi e femmine

ques$VotoMatura

Den

sity

0.00

0.02

0.04

0.06

60 70 80 90 100

Femmina0.00

0.02

0.04

0.06

Maschio

Francesco Pauli & Nicola Torelli Descrittiva 48 / 1

Vale anche per le distribuzioni condizionate

Esempio: ore di sonno di maschi e femmine

ques$OreStudioSett

Den

sity

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0 20 40 60

No0.00

0.01

0.02

0.03

0.04

0.05

0.06

S.

Francesco Pauli & Nicola Torelli Descrittiva 49 / 1

Terminologia

I Per variabili categoriali, la rappresentazione prende il nome didiagramma a torta o diagramma a barre.

I Per variabili discrete, la rappresentazione prende il nome didiagramma a barre.

I Per variabili continue, la rappresentazione prende il nome diistogramma.

Francesco Pauli & Nicola Torelli Descrittiva 50 / 1

Osservazioni

Le rappresentazioni grafiche di distribuzioni di frequenzaI forniscono una immagine della distribuzione dei dati: barre o

scatole piu alte rappresentano modalita piu frequenti;

I aiutano a descrivere la forma della distribuzione dei dati;I sono fortemente comunicative;I ma devono essere ben costruite!

Francesco Pauli & Nicola Torelli Descrittiva 51 / 1

Osservazioni

Le rappresentazioni grafiche di distribuzioni di frequenzaI forniscono una immagine della distribuzione dei dati: barre o

scatole piu alte rappresentano modalita piu frequenti;I aiutano a descrivere la forma della distribuzione dei dati;

I sono fortemente comunicative;I ma devono essere ben costruite!

Francesco Pauli & Nicola Torelli Descrittiva 51 / 1

Osservazioni

Le rappresentazioni grafiche di distribuzioni di frequenzaI forniscono una immagine della distribuzione dei dati: barre o

scatole piu alte rappresentano modalita piu frequenti;I aiutano a descrivere la forma della distribuzione dei dati;I sono fortemente comunicative;

I ma devono essere ben costruite!

Francesco Pauli & Nicola Torelli Descrittiva 51 / 1

Osservazioni

Le rappresentazioni grafiche di distribuzioni di frequenzaI forniscono una immagine della distribuzione dei dati: barre o

scatole piu alte rappresentano modalita piu frequenti;I aiutano a descrivere la forma della distribuzione dei dati;I sono fortemente comunicative;I ma devono essere ben costruite!

Francesco Pauli & Nicola Torelli Descrittiva 51 / 1

Esempio: amici di Facebook

Quale di questi istogrammi e utile? Quale fornisce troppi dettagli?Quale nasconde troppo?

Amici in Facebook

0 500 1500 2500 3500

0.0000

0.0005

0.0010

0.0015

0.0020

Amici in Facebook

0 500 1500 2500 3500

0e+00

2e−04

4e−04

6e−04

8e−04

Amici in Facebook

0 500 1500 2500 3500

0.0000

0.0002

0.0004

0.0006

0.0008

0.0010

0.0012

0.0014

Amici in Facebook

0 500 1500 2500 3500

0.0000

0.0005

0.0010

0.0015

0.0020

Francesco Pauli & Nicola Torelli Descrittiva 52 / 1

Esempio: Voto di maturita?

Voto di maturita?

70 80 90 100

0.00

0.01

0.02

0.03

0.04

0.05

Voto di maturita?

70 80 90 100

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Voto di maturita?

70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

Voto di maturita?

70 80 90 100

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Francesco Pauli & Nicola Torelli Descrittiva 53 / 1

Osservazioni: ampiezza delle classi degli istogrammi(cont)

I Pochi intervalli, pochi dettagli.I Troppi intervalli, troppi dettagli, probabilmente peculiari del

campione a disposizione.I E conveniente fare piu di un grafico: provare differenti lunghezze

per gli intervalli e poi scegliere.I Il numero degli intervalli deve dipendere dal numero dei dati!

Francesco Pauli & Nicola Torelli Descrittiva 54 / 1

Un numero ragionevole di intervalli

Sono state suggerite varie regole. Due tra le piu usate sono:

1. Sturges: (num. intervalli) = 1+ log2(num. dati)

2. Freedman & Diaconis:(lunghezza intervalli) = 2(scarto interquartile)(num. dati)−1/3

Non vanno pero usate in maniera automatica. Sono solo un punto dipartenza...

Francesco Pauli & Nicola Torelli Descrittiva 55 / 1