STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità...
Transcript of STATISTICA DESCRITTIVA: come sintetizzare i dati · zRelativa: freq assoluta / totale unità...
1
STATISTICA STATISTICA DESCRITTIVA: DESCRITTIVA:
come sintetizzare i daticome sintetizzare i dati
Marcella Montico Marcella Montico Servizio di epidemiologia e biostatisticaServizio di epidemiologia e biostatistica
TIPO DI VARIABILETIPO DI VARIABILE
QUALITATIVA (O NOMINALE)QUALITATIVA (O NOMINALE)
ORDINALE (O CATEGORICA)ORDINALE (O CATEGORICA)
QUANTITATIVAQUANTITATIVA
2
Variabili qualitative e ordinaliVariabili qualitative e ordinali
FrequenzaFrequenzaAssolutaAssoluta: numero di volte in cui si presenta : numero di volte in cui si presenta una modalituna modalitàà
MM
FF 44FF
nnFF
33FFFF
MMMMMM
SESSOSESSO
Variabili qualitative e ordinaliVariabili qualitative e ordinaliFrequenzaFrequenza
RelativaRelativa:: freqfreq assoluta assoluta / / totale unittotale unitàà osservate osservate Relativa percentualeRelativa percentuale: frequenza relativa x 100: frequenza relativa x 100
43%43%
57%57%%%
77
33
44nn
3/7=3/7=
4/7=4/7=
TotaleTotale
MM
FF 0.570.57relativarelativa
0.430.43
3
Variabili qualitative e ordinaliVariabili qualitative e ordinali
MODA:MODA: modalitmodalitàà che si presenta con che si presenta con maggior frequenzamaggior frequenza
43%43%
57%57%%%
77
33
44nn
3/7=3/7=
4/7=4/7=
TotaleTotale
MMFF 0.570.57
relativarelativa
0.430.43modamoda
Variabili ordinaliVariabili ordinaliFrequenza cumulataFrequenza cumulata:: somma delle somma delle frequenze relative fino alla modalitfrequenze relative fino alla modalitààconsiderataconsiderata
4
Esempio: Esempio: titolo di studio conseguito da 200 donnetitolo di studio conseguito da 200 donne
100100
7878
2626
11
FrequenzeFrequenze
100%100%11200200TOTALETOTALE
(78+22)=(78+22)=22220.220.224444LaureaLaurea
(26+52)=(26+52)=52520.520.52104104Dipl.Dipl. media sup.media sup.
(25+1)=(25+1)=25250.250.255050Dipl.Dipl. media media inferinfer..
110.010.0122LicLic. elementare. elementare
Cumulata %Cumulata %Relativa %Relativa %RelativaRelativann
MODA
VARIABILI VARIABILI QUANTITATIVEQUANTITATIVE
5
valore centralevalore centrale di una distribuzione di una distribuzione ordinata (in ordine crescente) di datiordinata (in ordine crescente) di dati
èè quella modalitquella modalitàà che lascia alla sua sinistra che lascia alla sua sinistra e alla sua destra una quantite alla sua destra una quantitàà minore o minore o uguale al uguale al 50%50% delle osservazioni.delle osservazioni.
VantaggiVantaggi: poco sensibile agli estremi: poco sensibile agli estremi
MEDIANAMEDIANA
Esempio 1Esempio 1
1511121221112Freqassoluta
100
6.7
189
6.76.713.36.713.313.36.76.76.713.3Freqrelativa %
93.486.780.066.760.046.733.426.720.013.3Freq % cumulata
Altezza (cm) TOT188187186185183181180177176175
Valore mediano: 183 cm
6
Esempio 2Esempio 2
EtEtàà di un gruppo di 344 donne che hanno di un gruppo di 344 donne che hanno partorito al Burlopartorito al Burlo
ModalitModalitàà e frequenzee frequenze
frequenza relativa %
0,6 0,6 0,3 0,3 0,61,5 1,7
4,1 4,1
6,15,2
8,4 9 8,4 7,8 7,3 7,3
5,5 5,24,1
1,2 0,9 0,3 0,3
9,3
02468
10
18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44
frequenza % cumulata
0
25
50
75
100
18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44
0.6+0.6+0.3+0.3+0.6+1.5-1.7+4.1+4.1+6.1+5.2+8.4+9.3=51.7%
7
4 parti: 4 parti: quartiliquartili, la mediana , la mediana èè il 2il 2°° quartilequartile10 parti: i 10 parti: i decilidecili (la mediana (la mediana èè il 5il 5°° deciledecile))100 parti: i 100 parti: i centilicentili (la mediana (la mediana èè il 50il 50°°centilecentile))
EsEs: : centilicentili di peso (basso peso sotto il 3di peso (basso peso sotto il 3°°), ), centilicentili, body mass , body mass indexindex ( >95( >95°°,> 99,> 99°°))
Ricordare che si può dividere la Ricordare che si può dividere la distribuzione ordinata in n distribuzione ordinata in n quantiliquantili di di uguale frequenza:uguale frequenza:
frequenza % cumulata
0
25
50
75
100
18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44
25° centile (I quartile)
mediana (50° centile, II quartile)
75° centile, (III quartile)
8
Box plot: Box plot: come rappresentare i come rappresentare i quartiliquartili
2025
3035
4045
età
al p
arto
excludes outside values
Media aritmetica:Media aritmetica:somma dei valori dei dati somma dei valori dei dati / / numero delle numero delle osservazioniosservazioni
svantaggi: sensibile agli estremisvantaggi: sensibile agli estremi
1
189
Freq
Altezza (cm)
151121221112
TOT188187186185183181180177176175
(175x2)+176+177+180+(181x2)+(183x2)+185+(186x2)+187+188+189
15=182=182.1.1
9
RiepilogoRiepilogo
MISURE DI TENDENZA CENTRALE:MISURE DI TENDENZA CENTRALE:valore attorno a cui sono raggruppati i dativalore attorno a cui sono raggruppati i dati
ModaModaMediaMediaMedianaMediana
Misure di variabilitMisure di variabilitàà
Misure di Misure di dispersionedispersione dei datidei dati
10
Il Il rangerange
RangeRange: valori minimo e massimo della : valori minimo e massimo della variabilevariabileRisente degli estremi (Risente degli estremi (outliersoutliers))
0 1 2 3 4 5 6 7 8 9
Min Max
Differenza Differenza interquartileinterquartile
Differenza tra il terzo e il primo Differenza tra il terzo e il primo quartilequartile(75(75°°--2525°° centilecentile))EE’’ una misura di distanza dalla medianauna misura di distanza dalla mediana
0 1 2 3 4 5 6 7 8 9
11
EsempioEsempio
EtEtàà al parto di 344 donne:al parto di 344 donne:mediana = 32 annimediana = 32 anniI I quartilequartile =29 anni=29 anniIII III quartilequartile =35 anni=35 anni
Differenza Differenza interquartileinterquartile =6 anni=6 anni
VarianzaVarianzaLa La varianzavarianza èè la somma del quadrato degli la somma del quadrato degli scarti dalla media diviso per il totale delle scarti dalla media diviso per il totale delle osservazioniosservazioni
((xxii –– x)x)22∑∑
nnσσ22==
12
0 1 2 3 4 5 6 7 8 9
1.1. Si calcola per ogni punto la sua distanza Si calcola per ogni punto la sua distanza dalla media e si eleva al quadratodalla media e si eleva al quadrato
2.2. Si sommano i quadrati delle distanze e si Si sommano i quadrati delle distanze e si divide per il numero di osservazionidivide per il numero di osservazioni
Si ottiene cosSi ottiene cosìì un indicatore di distanza un indicatore di distanza dalla mediadalla media
Deviazione standard (DS)Deviazione standard (DS)
ÈÈ la radice quadrata della la radice quadrata della varianzavarianzaÈÈ espressa nella stessa unitespressa nella stessa unitàà di misura di misura della mediadella media
13
4949
36362525161699111144252536364949
4949+7+711189189
318318001515∑∑
3636+6+6111881882525+5+5111871873232+4+42218618699+3+31118518522+1+12218318322--112218118144--22111801802525--55111771773636--66111761769898--7722175175
nncmcm x x -- xx ( x ( x -- x ) x ) 22
Esempio: Esempio: statura dei statura dei
maschimaschi
Media=182
n*n*( x ( x -- x )x ) 22
DevianzaDevianza
VARIANZAVARIANZA⇒⇒ 318/15=21.2318/15=21.2
DEVIAZIONE STANDARDDEVIAZIONE STANDARD⇒⇒ √√2121.2=4.6.2=4.6
14
Importanza delle misure di variabilitImportanza delle misure di variabilitàà: : etetàà al parto di 344 donneal parto di 344 donne
Media = 32.2Media = 32.2DS = 4.4DS = 4.4RangeRange = 18 = 18 –– 4444
Media = 32.2Media = 32.2DS = 3.0DS = 3.0RangeRange = 26 = 26 -- 4040
02468
10
18 21 23 25 27 29 31 33 35 37 39 41 44
0
5
10
15
26 28 30 32 34 36 38 40
RIASSUNTORIASSUNTOFREQUENZE: FREQUENZE:
Assoluta Assoluta Relativa o relativa percentuale Relativa o relativa percentuale CumulataCumulata
MISURE DI TENDENZA CENTRALE:MISURE DI TENDENZA CENTRALE: valore attorno a cui sono valore attorno a cui sono raggruppati i datiraggruppati i dati
ModaModaMediaMediaMedianaMediana
QUANTILI: QUANTILI: quartiliquartili, , centilicentili ecc..ecc..
MISURE DI VARIABILITAMISURE DI VARIABILITA’’: : RangeRangeVarianzaVarianza e deviazione standarde deviazione standardDistanza Distanza interquartileinterquartile
15
Riassunto Riassunto –– operazioni con le variabilioperazioni con le variabili
XXINDICI DI VARIABILITA'INDICI DI VARIABILITA'
XXMEDIAMEDIA
XXMEDIANA e QUANTILIMEDIANA e QUANTILI
XXXXMIN e MAXMIN e MAX
XXXXXXMODAMODA
XXXXXXFREQUENZAFREQUENZA
VARIABILI VARIABILI QUANTITATIVEQUANTITATIVE
VARIABILI VARIABILI ORDINALIORDINALI
VARIABILI VARIABILI QUALITATIVEQUALITATIVE
TABELLA RIASSUNTIVATABELLA RIASSUNTIVA