STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità...

15
STATISTICA STATISTICA DESCRITTIVA: DESCRITTIVA: come sintetizzare i dati come sintetizzare i dati Marcella Montico Marcella Montico Servizio di epidemiologia e biostatistica Servizio di epidemiologia e biostatistica TIPO DI VARIABILE TIPO DI VARIABILE QUALITATIVA (O NOMINALE) QUALITATIVA (O NOMINALE) ORDINALE (O CATEGORICA) ORDINALE (O CATEGORICA) QUANTITATIVA QUANTITATIVA

Transcript of STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità...

Page 1: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

1

STATISTICA STATISTICA DESCRITTIVA: DESCRITTIVA:

come sintetizzare i daticome sintetizzare i dati

Marcella Montico Marcella Montico Servizio di epidemiologia e biostatisticaServizio di epidemiologia e biostatistica

TIPO DI VARIABILETIPO DI VARIABILE

QUALITATIVA (O NOMINALE)QUALITATIVA (O NOMINALE)

ORDINALE (O CATEGORICA)ORDINALE (O CATEGORICA)

QUANTITATIVAQUANTITATIVA

Page 2: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

2

Variabili qualitative e ordinaliVariabili qualitative e ordinali

FrequenzaFrequenzaAssolutaAssoluta: numero di volte in cui si presenta : numero di volte in cui si presenta una modalituna modalitàà

MM

FF 44FF

nnFF

33FFFF

MMMMMM

SESSOSESSO

Variabili qualitative e ordinaliVariabili qualitative e ordinaliFrequenzaFrequenza

RelativaRelativa:: freqfreq assoluta assoluta / / totale unittotale unitàà osservate osservate Relativa percentualeRelativa percentuale: frequenza relativa x 100: frequenza relativa x 100

43%43%

57%57%%%

77

33

44nn

3/7=3/7=

4/7=4/7=

TotaleTotale

MM

FF 0.570.57relativarelativa

0.430.43

Page 3: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

3

Variabili qualitative e ordinaliVariabili qualitative e ordinali

MODA:MODA: modalitmodalitàà che si presenta con che si presenta con maggior frequenzamaggior frequenza

43%43%

57%57%%%

77

33

44nn

3/7=3/7=

4/7=4/7=

TotaleTotale

MMFF 0.570.57

relativarelativa

0.430.43modamoda

Variabili ordinaliVariabili ordinaliFrequenza cumulataFrequenza cumulata:: somma delle somma delle frequenze relative fino alla modalitfrequenze relative fino alla modalitààconsiderataconsiderata

Page 4: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

4

Esempio: Esempio: titolo di studio conseguito da 200 donnetitolo di studio conseguito da 200 donne

100100

7878

2626

11

FrequenzeFrequenze

100%100%11200200TOTALETOTALE

(78+22)=(78+22)=22220.220.224444LaureaLaurea

(26+52)=(26+52)=52520.520.52104104Dipl.Dipl. media sup.media sup.

(25+1)=(25+1)=25250.250.255050Dipl.Dipl. media media inferinfer..

110.010.0122LicLic. elementare. elementare

Cumulata %Cumulata %Relativa %Relativa %RelativaRelativann

MODA

VARIABILI VARIABILI QUANTITATIVEQUANTITATIVE

Page 5: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

5

valore centralevalore centrale di una distribuzione di una distribuzione ordinata (in ordine crescente) di datiordinata (in ordine crescente) di dati

èè quella modalitquella modalitàà che lascia alla sua sinistra che lascia alla sua sinistra e alla sua destra una quantite alla sua destra una quantitàà minore o minore o uguale al uguale al 50%50% delle osservazioni.delle osservazioni.

VantaggiVantaggi: poco sensibile agli estremi: poco sensibile agli estremi

MEDIANAMEDIANA

Esempio 1Esempio 1

1511121221112Freqassoluta

100

6.7

189

6.76.713.36.713.313.36.76.76.713.3Freqrelativa %

93.486.780.066.760.046.733.426.720.013.3Freq % cumulata

Altezza (cm) TOT188187186185183181180177176175

Valore mediano: 183 cm

Page 6: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

6

Esempio 2Esempio 2

EtEtàà di un gruppo di 344 donne che hanno di un gruppo di 344 donne che hanno partorito al Burlopartorito al Burlo

ModalitModalitàà e frequenzee frequenze

frequenza relativa %

0,6 0,6 0,3 0,3 0,61,5 1,7

4,1 4,1

6,15,2

8,4 9 8,4 7,8 7,3 7,3

5,5 5,24,1

1,2 0,9 0,3 0,3

9,3

02468

10

18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44

frequenza % cumulata

0

25

50

75

100

18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44

0.6+0.6+0.3+0.3+0.6+1.5-1.7+4.1+4.1+6.1+5.2+8.4+9.3=51.7%

Page 7: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

7

4 parti: 4 parti: quartiliquartili, la mediana , la mediana èè il 2il 2°° quartilequartile10 parti: i 10 parti: i decilidecili (la mediana (la mediana èè il 5il 5°° deciledecile))100 parti: i 100 parti: i centilicentili (la mediana (la mediana èè il 50il 50°°centilecentile))

EsEs: : centilicentili di peso (basso peso sotto il 3di peso (basso peso sotto il 3°°), ), centilicentili, body mass , body mass indexindex ( >95( >95°°,> 99,> 99°°))

Ricordare che si può dividere la Ricordare che si può dividere la distribuzione ordinata in n distribuzione ordinata in n quantiliquantili di di uguale frequenza:uguale frequenza:

frequenza % cumulata

0

25

50

75

100

18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44

25° centile (I quartile)

mediana (50° centile, II quartile)

75° centile, (III quartile)

Page 8: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

8

Box plot: Box plot: come rappresentare i come rappresentare i quartiliquartili

2025

3035

4045

età

al p

arto

excludes outside values

Media aritmetica:Media aritmetica:somma dei valori dei dati somma dei valori dei dati / / numero delle numero delle osservazioniosservazioni

svantaggi: sensibile agli estremisvantaggi: sensibile agli estremi

1

189

Freq

Altezza (cm)

151121221112

TOT188187186185183181180177176175

(175x2)+176+177+180+(181x2)+(183x2)+185+(186x2)+187+188+189

15=182=182.1.1

Page 9: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

9

RiepilogoRiepilogo

MISURE DI TENDENZA CENTRALE:MISURE DI TENDENZA CENTRALE:valore attorno a cui sono raggruppati i dativalore attorno a cui sono raggruppati i dati

ModaModaMediaMediaMedianaMediana

Misure di variabilitMisure di variabilitàà

Misure di Misure di dispersionedispersione dei datidei dati

Page 10: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

10

Il Il rangerange

RangeRange: valori minimo e massimo della : valori minimo e massimo della variabilevariabileRisente degli estremi (Risente degli estremi (outliersoutliers))

0 1 2 3 4 5 6 7 8 9

Min Max

Differenza Differenza interquartileinterquartile

Differenza tra il terzo e il primo Differenza tra il terzo e il primo quartilequartile(75(75°°--2525°° centilecentile))EE’’ una misura di distanza dalla medianauna misura di distanza dalla mediana

0 1 2 3 4 5 6 7 8 9

Page 11: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

11

EsempioEsempio

EtEtàà al parto di 344 donne:al parto di 344 donne:mediana = 32 annimediana = 32 anniI I quartilequartile =29 anni=29 anniIII III quartilequartile =35 anni=35 anni

Differenza Differenza interquartileinterquartile =6 anni=6 anni

VarianzaVarianzaLa La varianzavarianza èè la somma del quadrato degli la somma del quadrato degli scarti dalla media diviso per il totale delle scarti dalla media diviso per il totale delle osservazioniosservazioni

((xxii –– x)x)22∑∑

nnσσ22==

Page 12: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

12

0 1 2 3 4 5 6 7 8 9

1.1. Si calcola per ogni punto la sua distanza Si calcola per ogni punto la sua distanza dalla media e si eleva al quadratodalla media e si eleva al quadrato

2.2. Si sommano i quadrati delle distanze e si Si sommano i quadrati delle distanze e si divide per il numero di osservazionidivide per il numero di osservazioni

Si ottiene cosSi ottiene cosìì un indicatore di distanza un indicatore di distanza dalla mediadalla media

Deviazione standard (DS)Deviazione standard (DS)

ÈÈ la radice quadrata della la radice quadrata della varianzavarianzaÈÈ espressa nella stessa unitespressa nella stessa unitàà di misura di misura della mediadella media

Page 13: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

13

4949

36362525161699111144252536364949

4949+7+711189189

318318001515∑∑

3636+6+6111881882525+5+5111871873232+4+42218618699+3+31118518522+1+12218318322--112218118144--22111801802525--55111771773636--66111761769898--7722175175

nncmcm x x -- xx ( x ( x -- x ) x ) 22

Esempio: Esempio: statura dei statura dei

maschimaschi

Media=182

n*n*( x ( x -- x )x ) 22

DevianzaDevianza

VARIANZAVARIANZA⇒⇒ 318/15=21.2318/15=21.2

DEVIAZIONE STANDARDDEVIAZIONE STANDARD⇒⇒ √√2121.2=4.6.2=4.6

Page 14: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

14

Importanza delle misure di variabilitImportanza delle misure di variabilitàà: : etetàà al parto di 344 donneal parto di 344 donne

Media = 32.2Media = 32.2DS = 4.4DS = 4.4RangeRange = 18 = 18 –– 4444

Media = 32.2Media = 32.2DS = 3.0DS = 3.0RangeRange = 26 = 26 -- 4040

02468

10

18 21 23 25 27 29 31 33 35 37 39 41 44

0

5

10

15

26 28 30 32 34 36 38 40

RIASSUNTORIASSUNTOFREQUENZE: FREQUENZE:

Assoluta Assoluta Relativa o relativa percentuale Relativa o relativa percentuale CumulataCumulata

MISURE DI TENDENZA CENTRALE:MISURE DI TENDENZA CENTRALE: valore attorno a cui sono valore attorno a cui sono raggruppati i datiraggruppati i dati

ModaModaMediaMediaMedianaMediana

QUANTILI: QUANTILI: quartiliquartili, , centilicentili ecc..ecc..

MISURE DI VARIABILITAMISURE DI VARIABILITA’’: : RangeRangeVarianzaVarianza e deviazione standarde deviazione standardDistanza Distanza interquartileinterquartile

Page 15: STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità osservate ... zRelativa o relativa percentuale ... INDICI DI VARIABILITA' X MEDIA X

15

Riassunto Riassunto –– operazioni con le variabilioperazioni con le variabili

XXINDICI DI VARIABILITA'INDICI DI VARIABILITA'

XXMEDIAMEDIA

XXMEDIANA e QUANTILIMEDIANA e QUANTILI

XXXXMIN e MAXMIN e MAX

XXXXXXMODAMODA

XXXXXXFREQUENZAFREQUENZA

VARIABILI VARIABILI QUANTITATIVEQUANTITATIVE

VARIABILI VARIABILI ORDINALIORDINALI

VARIABILI VARIABILI QUALITATIVEQUALITATIVE

TABELLA RIASSUNTIVATABELLA RIASSUNTIVA