VARIABILI E DISTRIBUZIONI DI FREQUENZA - ddsp.univr.it · (modalità o intervalli di classe) (cioè...

39
1 VARIABILI E DISTRIBUZIONI DI VARIABILI E DISTRIBUZIONI DI FREQUENZA FREQUENZA A.A. 2010/2011

Transcript of VARIABILI E DISTRIBUZIONI DI FREQUENZA - ddsp.univr.it · (modalità o intervalli di classe) (cioè...

1

VARIABILI E DISTRIBUZIONI DI VARIABILI E DISTRIBUZIONI DI FREQUENZAFREQUENZA

A.A. 2010/2011

2

RAPPRESENTARE I DATI: TABELLE E GRAFICI

Un insieme di misure è detto serie statistica o seri e dei dati

1) Una sua prima elementare elaborazione può essere una distribuzione

ordinata di tutti i valori, in modo crescente o decrescente.

2) Il valore minimo e il valore massimo insieme permettono di individuare

immediatamente il campo (od intervallo) di variazione .

3) Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria.

DISTRIBUZIONE DI FREQUENZA

3

Consideriamo una variabile ottenuta dal conteggio del numero di giorni di

incubazione del virus influenzale trascorsi dal momenti dell’inoculazione

del virus in una cavia (variabile discreta).

n=45 X = (x1, x2, … , x45) = (5, 6, 3, 4, … , 5, 0, 4, 5)

RAPPRESENTARE I DATI: TABELLE E GRAFICI

4

Il primo passaggio, in una distribuzione discreta, consiste nel definire le classi:

1) identificare il valore minimo (0, nei dati della tabella) e quello massimo (9),

2) contare quante volte compare ogni valore(modalità o intervalli di classe) (cioèquante sono le cavie con uguale numero di giorni di incubazione del virus).

3) Si ottiene la seguente tabella:

RAPPRESENTARE I DATI: TABELLE E GRAFICI

5

RAPPRESENTARE I DATI: TABELLE E GRAFICI

6

PERCHÉ USARE LE FREQUENZE RELATIVE?

Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco viene somministrato a 150 pazienti nel gruppo A, mentre un placebo viene somministrato a 100 soggetti in B.

Per il confronto della distribuzione di una variabile in campioni di

dimensioni diverse

7

PERCHÉ USARE LE FREQUENZE RELATIVE?

FREQUENZE ASSOLUTEFREQUENZE ASSOLUTE

EFFETTO ni (A) ni(B)

migliorato 50 33invariato 80 53peggiorato 20 14

150 1000

10

20

30

40

50

60

70

80

90

migliorato invariato peggiorato

GRUPPO A GRUPPO B

8

PERCHÉ USARE LE FREQUENZE RELATIVE?

FREQUENZE FREQUENZE RELATIVERELATIVE

pi (A) pi(B)

0,33 0,330,53 0,530,14 0,14

1,00 1,00

EFFETTO ni (A) ni(B)

migliorato 50 33invariato 80 53peggiorato 20 14

150 100

0,00

0,10

0,20

0,30

0,40

0,50

0,60

migliorato invariato peggiorato

GRUPPO AGRUPPO B

9

La frequenza cumulata offre informazioni importanti quando si intende

stimare il numero totale di osservazioni inferiore (o superiore) ad un valore

prefissato (ad es.: il 71% delle cavie sviluppa il virus in meno di 5 giorni; il

56% al massimo 3 in giorni).

RAPPRESENTARE I DATI: TABELLE E GRAFICI

10

Consideriamo l’altezza di un gruppo di pazienti visitati in un ambulatorio

ortopedico (variabile continua ).

RAPPRESENTARE I DATI: TABELLE E GRAFICI

11

Non conviene fare una classe per ogni cm.

raggruppamento in classi (arbitrario) , che comprendano più modalità di espressione.

RAPPRESENTARE I DATI: TABELLE E GRAFICI

100.05.02[180-200)

95.012.55[160-180)

82.517.57[140-160)

65.030.012[120-140)

35.025.510[100-120)

10.07.53[80-100)

2.52.51[60-80)

Fif in iXi

F. CumulF. relatF. Ass.Classe

12

Costruiamo gli intervalli di frequenza:

Trovo il valore minimo e il valore massimo min = 60 cm max = 200 cm

Calcolo il campo di variazione (range):Xmax−−−− Xmin r = 140

Stabilire il numero degli intervalli k = 7

Calcolare l’ampiezza degli intervalli:

δi= Range / k δi = 140/7 =20

Costruisco gli intervalli di classe (esclusivi ed esaustivi)

Conto il numero di individui per ogni classe

13

Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso:

X= grado del trauma

xi: 0=assente 1=trauma lieve 2=trauma grave 3=lesioni permanenti 4=decesso

0 2 1 1 1 2 0 0 1 0 1 1 0 0 0 3 1 2 0 1

1 0 0 1 0 1 1 0 2 0 0 0 1 0 1 0 2 1 2 0

0 2 0 1 0 1 0 1 0 3 1 2 0 0 0 0 1 0 0 0

1 0 1 0 1 0 2 0 1 2 1 2 0 1 0 2 2 1 0 1

0 0 0 0 4 0 1 1 2 0 0 2 1 0 2 0 0 2 1 0

RAPPRESENTARE I DATI: TABELLE E GRAFICI

14

MODALITA'

frequenza

assoluta

frequenza

relativan i n i /n

assente 48 48/100 = 0,48

lieve 32 0,32

grave 17 0,17

lesioni permanenti 2 0,02

decesso 1 0,01

TOTALE 100

k=5

Costruzione della tabella e calcolo di frequenze relative:

VARIABILE QUALITATIVA

15

COSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZACOSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZA

IL CRITERIO DI CLASSIFICAZIONE DEVE ESSERE

1. ESAUSTIVO: devono essere riportate tutte le modalità o i valori assunti dalla variabile

2. NON AMBIGUO: le modalità/gli intervalli di classe devono essere mutuamente esclusivi

ogni unità statistica deve essere assegnata ad una unica modalitào intervallo di classe

1. definire un criterio di classificazione delle osservazioni

⇒ definizione delle modalità (variabile qualitativa)

⇒ definizione degli intervalli di classe (variabile quantitativa)

13

25

4

7

6Ω1ΩΩΩΩ RRΩ3

Ω2

Ω4Ωj

16

Esempio

70-80

…..

10-20

0-10

SCORRETTA

≥ ≥ ≥ ≥ 80

70-79

…..

10-19

0-9

CORRETTA

Rosso

Biondo

Chiaro

Nero

SCORRETTA

Rosso

Biondo

Castano

Nero

CORRETTA

Variabile quantativa:

classificazione dell’età in anni compiuti

Variabile qualitativa:

classificazione del colore dei capelli

17

2. Assegnare ad ogni valore (modalità/intervallo di classe) la frequenza (assoluta e/o relativa) corrispondente

FREQUENZA ASSOLUTA (ni)numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile

⇒ 0 ≤ ni ≤ n

⇒ ΣΣΣΣKi=1 n i = n1 + n2 + .. + nK = n

nn== numero totale delle osservazioni numero totale delle osservazioni

KK== numero dei valori/modalitnumero dei valori/modalitàà/classi /classi della variabiledella variabile

ottenuta tramiteun CONTEGGIO

18

FREQUENZA RELATIVA: (pi = ni / n)rapporto tra il numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile e la dimensione campionaria

⇒ 0 ≤ pi ≤ 1

⇒ ΣΣΣΣKi=1 p i = p1 + p2 + .. + pK = 1

FREQUENZA RELATIVA PERCENTUALE: (pi% = ni / n * 100)

indica quanto volte un fenomeno si manifesta su una casistica di 100 osservazioni

⇒ 0% ≤ pi% ≤ 100%

⇒ ΣΣΣΣKi=1 p i

% = p1 % + p2

% + .. + pK% = 100%

19

FREQUENZA RELATIVA CUMULATA (Pi = Fi / n; Pi

% = Fi /n * 100%)

PPi ((--∞∞ )=0)=0 PPi (+ (+ ∞∞ )=1)=1

FREQUENZA CUMULATAFREQUENZA CUMULATA

FREQUENZA ASSOLUTA CUMULATA (Fi)numero di osservazioni il cui valore è inferiore o ugualead una data modalità o a un dato valore xi

FFi ((--∞∞ )=0)=0 FFi (+ (+ ∞∞ ))=n=n

20

MISURE MISURE DD’’ORDINEORDINE IN UNA DISTRIBUZIONEIN UNA DISTRIBUZIONE

RANGO: posizione di un’osservazione xi in una serie di dati ordinati in modo crescente

SCOPO: descrivere la posizione di un dato individuale nell’ambito di una distribuzione

RANGO PERCENTILICO: sia xi la i-esima osservazione di un campione di n unità ordinate in modo crescente. Il rango percentilico corrispondente è dato da:

rango (xi)n+1

*100%Rp =

21

Rango = 3Rp = 3 / (6+1)*100 = 43%

Esempio:nelle seguenti tabelle si riportano le osservazioni del peso per n soggetti

n = 6

n = 60

656361605553PESO (kg)

92…..656361605553PESO (kg)

Rango = 3Rp = 3 / (60+1)*100 = 5%

22

RAPPRESENTAZIONI GRAFICHE DEI DATIRAPPRESENTAZIONI GRAFICHE DEI DATI

Le rappresentazioni grafiche servono per evidenziare in modo semplice le

caratteristiche fondamentali di una distribuzione di frequenza.

Le rappresentazioni grafiche sono numerose e debbono essere scelte in rapporto al

tipo di dati e quindi alla scala utilizzata.

23

Variabili continue misurate su scale ad intervallo o di rapporto(altezza, peso, emoglobina, pressione arteriosa, colesterolo ematico….)

GRAFICI PER DATI QUANTITATIVI

ISTOGRAMMI O POLIGONI

24

Gli istogrammi sono grafici a barre verticali accostate, nei quali :

- le misure della variabile sono riportate lungo l'asse orizzontale,

- l'asse verticale rappresenta il numero assoluto , oppure la frequenza relativa o

quella percentuale, con cui compaiono i valori di ogni classe.

25

• Rappresentazione di valori relativi o di percentuali, in quanto è implicito che l’area

totale sottesa sia uguale a 1 o 100%.

• L'asse orizzontale rappresenta il fenomeno (valore variabile), mentre l'asse verticale

rappresenta la frequenza o percentuale di ogni classe (relativa o cumulata).

• Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una

linea spezzata :

A) i punti centrali superiori di ogni classe se frequenza relativa ,

B) i punti estremi superiori destri dei rettangoli se frequenza cumulata .

I poligoni

26

0

5

10

15

20

25

30

35

[60-80) [80-100) [100-120) [120-140) [140-160) [160-180) [180-200)

POLIGONO FREQUENZE RELATIVE

27

0

20

40

60

80

100

120

80 100 120 140 160 180 200

POLIGONO FREQUENZE CUMULATE

28

• Un istogramma deve essere inteso come una rappresentazione di un area: le

superfici dei vari rettangoli devono essere proporzionali alle frequenze

corrispondenti.

• Se le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali ; di

conseguenza, le loro altezze risultano proporzionali alle frequenze che

rappresentano.

• Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di

aree di ogni rettangolo.

• se le ampiezze delle classi sono diverse le frequenze sono rappresentate dalle

superfici e quindi è necessario rendere l'altezza proporzionale

Sempre sugli istogrammi…

29

Variabili nominali o ordinali(sesso, città di provenienza, intensità del dolore, numero colonie batteriche,

numero linfonodi metastatici ….)

GRAFICI PER DATI QUALITATIVI

DIAGRAMMI A BARRE O GRAFICI A TORTA

30

Rettangoli con basi uguali ed altezze proporzionali alle frequenze dei vari gruppi

considerati.

• I Rettangoli non sono tra loro contigui, ma distaccati;

• Sull’asse delle ascisse vengono riportati nomi, numeri interi, etichette o simboli;

• Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche

avendo solo un significato simbolico.

DIAGRAMMI A BARRE

0

0,1

0,2

0,3

0,4

0,5

0,6

assente lieve grave lesionipermanenti

decesso

31

0

0,1

0,2

0,3

0,4

0,5

0,6

assente lieve grave lesionipermanenti

decesso

Ospedale A

Ospedale B

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Ospedale A Ospedale B

decesso

lesioni permanenti

grave

lieve

assente

MA ANCHE….

32

Ospedale A

48; 48%

32; 32%

17; 17%2; 2% 1; 1%

assente

lieve

grave

lesioni permanenti

decesso

• si divide un cerchio in parti proporzionali alle classi di frequenza;

• la somma di tutte le classi è uguale all’unità (1 o 100%).

GRAFICI A TORTA (AEREOGRAMMI)

33

DIAGRAMMI IN SINTESIDIAGRAMMI IN SINTESI

variabilecontinua

variabilediscreta

variabilequalitativa

1. rettangoli adiacenti

2. le basi dei rettangoli possonoessere diverse

3. frequenza sempre proporzionaleall’AREA dei rettangoli (ancheall’altezza se basi uguali)

1. barre separate (per evidenziare la non continuità dei valori / la distinzione tra le modalità)

2. le basi delle barre sono tutte di uguale ampiezza

3. frequenza proporzionale allaALTEZZA delle barre

DIAGRAMMA A BARRE

ISTOGRAMMA A CANNE

D’ORGANO

34

ESERCIZIO

I dati seguenti si riferiscono al tipo di parto di 50 neonati in Italia:

Determinare la distribuzione di frequenza

0 2 0 0 0 2 0 2 0 02 0 0 0 2 0 0 0 1 00 0 2 0 0 0 2 0 0 20 2 0 0 0 2 0 2 0 00 0 0 2 0 2 0 0 2 0

X = tipo di parto

xi = normale → 0forcipe → 1cesareo → 2

modalitàx i

frequenzaassoluta

ni

frequenzarelativa

p i

frequenza relativapercentuale

pi (%)

normale 35 35/50 = 0.70 (35/50)*100 = 70%

forcipe 1 1/50 = 0.02 (1/50)*100 = 2%

cesareo 14 14/50 = 0.28 (14/50)*100 = 28%

TOTALE 50 1.00 100%

35

ESERCIZIO

Nella tabella seguente sono riportati i dati relativi ad uno studio sulla crescita condotto su 40 soggetti:

1. Costruire 4 intervalli di frequenza

2. Costruire la tabella di frequenza riportando frequenze assolute,frequenze relative e frequenze cumulate relative.

16 19 19 20 20 20 20 21 21 2121 21 21 22 22 22 22 22 22 2323 23 23 23 23 23 23 24 24 2424 24 24 25 25 25 25 26 26 27

Distanza in mm fra il centro della ghiandola pituitaria e la fossa pterigo-mascellare:

36

SOLUZIONE ESERCIZIOSOLUZIONE ESERCIZIO

Valore minimo=16 mm valore massimo =27 mm

Campo di variazione (range): 27-16=11

Numero degli intervalli: k=4

Ampiezza degli intervalli: δi= 11/4 = 2.75 ~3

classe ni pi Fi Pi

16-18 1 2,5% 1 2,5%19-21 12 30,0% 13 32,5%22-24 20 50,0% 33 82,5%25-27 7 17,5% 40 100,0%

40 100,0%

TABELLA DI FREQUENZA:TABELLA DI FREQUENZA:

37

ni PiFipi

statura in

classi

Freq. Assoluta

[150-155) 1 1/125= 0.8% 1 0.8%[155-160) 8 8/125= 6.4% 1+8 9 0,8+6,4 7.2%[160-165) 24 24/125= 19.2% 1+8+24 33 0,8+6,4+19,2 26.4%[165-170) 34 27.2% 1+8+24+34 67 0,8+6,4+19,2+27,2 53.6%[170-175) 27 21.6% 94 75.2%[175-180) 19 15.2% 113 90.4%[180-185) 9 7.2% 122 97.6%[185-190) 1 0.8% 123 98.4%[190-195) 2 1.6% 125 100.0%TOTALE 125 100.0% 125

Freq. Relativa(%)

Freq. AssolutaCumulata

Freq. Relativa Cumulata(%)

TABELLA DI FREQUENZATABELLA DI FREQUENZA

38

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

150 155 160 165 170 175 180 185 190 195statura (cm)

ISTOGRAMMA e POLIGONO DELLE FREQUENZE CUMULATE (CURVA AD OGIVA)

L’OGIVA si ottiene unendo i punti corrispondenti ai LIMITI

SUPERIORI di ciascuna classedella distribuzione cumulata

L’OGIVA si ottiene unendo i punti corrispondenti ai LIMITI

SUPERIORI di ciascuna classedella distribuzione cumulata

39

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

150 155 160 165 170 175 180 185 190 195statura (cm)

curva ad ogiva(poligono delle frequenze

relative cumulate )

poligono delle frequenze relative

RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE DI FREQUENZA DI UNA VARIABILE QUANTITATIVA:

POLIGONO DELLE FREQUENZE SEMPLICI E CUMULATE