LEZIONE A.6 Le distribuzioni cumulate

19
LEZIONE A.6 Le distribuzioni cumulate TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

description

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. LEZIONE A.6 Le distribuzioni cumulate. In questa lezione. In questa lezione impareremo a costruire e a interpretare una fun-zione derivata dalla funzione di frequenza f(x). - PowerPoint PPT Presentation

Transcript of LEZIONE A.6 Le distribuzioni cumulate

LEZIONE A.6

Le distribuzioni cumulate

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

In questa lezione..

In questa lezione impareremo a costruire e a interpretare una fun-zione derivata dalla funzione di frequenza f(x).

Dapprima definiremo e costruiremo funzioni cumulate di frequenza (dette anche funzioni di ripartizione),

Di seguito estenderemo definizioni e procedure di co-struzione alla funzione speculare, detta funzione retro-cumulata.

Funzioni cumulate e retrocumulate ci consentiranno, nella prossima lezione, di introdurre l’ultimo pacchetto di ‘misure centrali’ di una variabile statistica.

Dalla frequenza alla frequenza cumulata

xi

x1

x2

x3

x4

x5

ni

n1

n2

n3

n4

n5

N

Ni =k=1..ink

N1=n1

N2=n1+n2

N3=n1+n2+n3

N4=n1+n2+n3+n4

T=N5=n1+n2+n3+n4+n5

fi

f1

f2

f3

f4

f5

1

Fi =k=1..ifk

F1=f1

F2=f1+f2

F3=f1+f2+f3

F4=f1+f2+f3+f4

1=F5=f1+f2+f3+f4+f5

Si dice frequenza cumulata associata alla modalità xi la frequenza di osservare modalità di X inferiori o al più ugualiinferiori o al più uguali ad xi :

i

kkiiii fffffxXFreqF

1121)(

Una tipologia di scale di misurazione

L’operazione di cumulazione implica il concetto di ordinamento gerar-chico delle modalità, quindi ha senso per le v.s. quantitative e per le v.s. qualitative (o mutabili) che siano ordinali.

Per brevità faremo solo esempi di variabili quantitative, discrete e per intervalli. Soprattutto per la rappresentazione grafica che introdurremo, è buon senso applicarla solo a variabili quantitative.

Scala/proprietà Classificazione Ordinamento Misurazione

Nominale SI’SI’ NONO NONO

Ordinale SI’SI’ SI’SI’ NONO

Quantit.discreta SI’SI’ SI’SI’ SI’SI’

Quantit.per classi SI’SI’ SI’SI’ SI’SI’

Rappresentare le frequenze cumulate

Azionisti per azioni xi ni Ni

10 35 35

50 9 44

100 2 46

Riprendiamo l’esempio di 46 azionisti, distribuiti secondo la dimensione del loro pacchetto azionario.

Per rappresentare graficamente la cu-Per rappresentare graficamente la cu-mulata di una variabile discreta seguia-mulata di una variabile discreta seguia-mo queste mo queste regole di costruzioneregole di costruzione::

xxii

NNii

05

101520253035404550

-20 0 20 40 60 80 100 120La funzione esiste da -La funzione esiste da -, ma fino al pri-, ma fino al pri-mo valore osservato ha valore 0:mo valore osservato ha valore 0:

F(X<10)=0 F(X<10)=0

Quindi la curva viaggia terra terra Quindi la curva viaggia terra terra come come un brucoun bruco fino alle soglie di x=10. Solo a fino alle soglie di x=10. Solo a quel punto la curva si impenna e sale a quel punto la curva si impenna e sale a frequenza 35. Infatti F(Xfrequenza 35. Infatti F(X10)=f(10)=35.10)=f(10)=35.

Questo è il bruco che

striscia e si arrampica..

Variabili discrete, diagrammi a scalini

Azionisti per azioni xi ni Ni

10 35 35

50 9 44

100 2 46

xxii

NNii

0

50

-20 120

0

50

-20 120

05

101520253035404550

-20 0 20 40 60 80 100 120

Continuiamo a seguire il nostro bruco, Continuiamo a seguire il nostro bruco, che striscia lungo la funzione cumulata.che striscia lungo la funzione cumulata.

Tra X=10 e X=50 di nuovo la curva pro-Tra X=10 e X=50 di nuovo la curva pro-seuguea lungo una retta parallela alla seuguea lungo una retta parallela alla ascissa: nessuna modalità è infatti os-ascissa: nessuna modalità è infatti os-servata dopo X=10 e prima di X=50. servata dopo X=10 e prima di X=50.

Di nuovo a X=50 esatto (punto di di-Di nuovo a X=50 esatto (punto di di-scontinuità della funzione) la curva si scontinuità della funzione) la curva si impenna in verticale e raggiunge impenna in verticale e raggiunge F(XF(X50)= f(10)+f(50)= 44. 50)= f(10)+f(50)= 44.

(10,35)

(50,44) (100,46)

E così via… E così via… Risultato di questo per-corso è una funzione spezzata con la caratteristica forma di una scala. Per costruire il grafico è sufficiente individuare i tre punti incorniciati, a partire dalle loro coordinate (xi, Ni), e poi congiungere i diversi tratti della spezzata.

Ancora sui diagrammi a scalini

Nel diagramma ad aste:

La lunghezza delle barre è proporziona-le a ni oppure a fi.

La v.s. discreta assume solo valori di-screti: non esiste per es. f(x) per X=40

La distribuzione di frequenza assume va-lori solo entro il campo di variazione di X

Diagramma a ‘scalini’Diagramma a ‘scalini’

xxii

NNii

0

50

-20 0 20 40 60 80 100 120

010203040

Diagramma ad ‘aste’Diagramma ad ‘aste’

Nel diagramma a scalini:

La lunghezza delle tratte verticali è pro-porzionale ancora a ni o a fi, dato che è pari alla differenza tra due cumulate successive: ffii=F=Fii-F-Fi-1i-1

La funzione assume valore anche per modalità non osservate. Es. F(40)=F(10)

La funzione cumulata assume valore an-che al di fuori del campo di variazione della v.s.: F(-)=0 e F()=1.

(10,35)

(100,46)(50,44)

Confrontiamo allora il diagramma (ad aste) delle frequenze con quello (a scalini) delle cumulate:

Una definizione e un esempioLa distribuzione cumu-lativa di frequenze (funzione di ripar-funzione di ripar-tizionetizione) di una v.s. di-screta è una funzione continuacontinua compresa tra 0 e + (tra – e + se il carattere può assumere valori <0), con m punti di di-con m punti di di-scontinuitàscontinuità.

xi ni fi Fi

0 20 0,10 0,10

1 30 0,15 0,25

2 70 0,35 0,60

3 50 0,25 0,85

4 20 0,10 0,95

5 10 0,05 1

200 1

0

0,2

0,4

0,6

0,8

1

-1 0 1 2 3 4 5 6

F2=F(X2)=0,60 cioè: “Il 60% degli studenti ha dato non più dinon più di due esami” o anche “ha dato due esami o menoo meno”

F1=F(X1)=0,25 cioè: “un quarto degli studenti ha dato al massimo al massimo 1 esame” o anche “ha dato un numero di esami inferiore a 2inferiore a 2”

La differenza tra le due cumulate è pari alla frequenza dell’ultima modalità sommata: F2-F1 = F(X2)- F(X1) = f(X2) = f2

Studenti del II anno secondo il numero di esami già sostenuti

(2,0.60)

(1,0.25)

0.35

Se una variabile è per classixi-xi+1 ni fi Fi

0-400 34 0,34 0,34

400-1000 40 0,40 0.74

1000-2000 26 0,26 1

100 1

Province per num. abitanti/kmq

Leggiamo la tabella a fianco: il 74% delle province italiane ha una densità inferiore ai 1000 abitanti per kmq.

Ma entro quel 74% una parte (quanti?) ha densità molto minore, per es. compresa tra 0 e 550 Ab/kmq. Posso calcolarla?

0

0,02

0,04

0,06

0,08

0,1

0 500 1000 1500 2000 2500

hi

fi=

0,40

Costruendo l’istogramma avevamo sottin-teso un’ipotesi importante: entro un inter-vallo il carattere si presume distribuirsi u-niformemente (distribuzione rettangolare)

Quindi se tra x=400 e x=1000 stanno 40 province, noi ipotizziamo che tra x=400 e x=700 (cioè metà dell’intervallo) stiano 20 province, e tra x=400 e x=550 (cioè un quarto della classe) stiano 10 province e così via, segmentando all’infinito…

Partendo dall’ipotesi di distribuzione uniforme

xi-xi+1 ni fi Fi

0-400 34 0,34 0,34

400-1000 40 0,40 0.74

1000-2000 26 0,26 1

100 1

Province per num. abitanti/kmq

Se entro ciascuna classe le osservazioni si distribuiscono in modo uniforme al crescere continuo di X (cioè a intervalli i piccoli quanto si vuole di X corrisponde una fre-quenza fi=hi·i sempre uguale) allora la cu-mulazione di incrementi infinitesimi co-stanti di frequenza produce una funzione cumulata rettilinea.

0

0,2

0,4

0,6

0,8

1

0 200 400 600 800 1000 1200

Fi

0

0,02

0,04

0,06

0,08

0,1

0 200 400 600 800 1000 1200

Area:

fi= ihihi

ii

fi=

Fi-Fi-1i

ii

i

ii

ii

hf

xx

FF

g

1

1

tan

Variabili per classi e spezzata delle cumulate

xi-xi+1 ni fi Fi

0-400 34 0,34 0,34

400-1000 40 0,40 0.74

1000-2000 26 0,26 1

100 1

Province per num. abitanti/kmq

Per costruire il grafico della cumulata di fre-quenza di una v.s. per classi occorre quindi

Segnare i punti di coordinate (xi, Fi) (il punto corrispondente all’estremo su-periore di una classe coincide con il punto corrispondente all’estremo supe-riore della classe successiva)

Congiungere i punti successivi della spezzata, prolungando a volontà a .

0

0,2

0,4

0,6

0,8

1

-500 500 1500 2500

La funzione di ripartizione di una v. per classi è una spezzata che congiunge i punti di coor-dinate (xi+1,Fi) partendo dal punto (x1,F0=0). L'ipotesi di distribuzione uniforme diventa ipotesi di crescita uniforme. La densità di frequenza corrisponde al coefficiente ango-lare (tang) della spezzata in ogni segmento.

Fi

xi

Un primo esempioxi |-xi+1 fi hi Fi

15 |-25 0,157 1,57 0,157

25 |-35 0,497 4,97 0,654

35 |-45 0,273 2,73 0,927

45 |-65 0,073 0,37 1,000

Struttura per età Immigrati

05

1015202530354045505560

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

0

0,2

0,4

0,6

0,8

1

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

Esempi di lettura dei dati e del grafico:

Il 65,4% degli immigrati ha meno di 35 anni.

I ‘giovani’ immigrati (che non rag-giungono i 25 anni) sono il 15,7%.

Fi 10xhi

xi xi

Un secondo esempioxi |- xi+1

0 |- 20

20 |- 40

40 |- 60

60 |- 80

80 |- 100

100|-160

160|-300

fi

11,5

39,9

31,5

11,2

3,4

2,0

0,5

100

Fi

11,5

51,4

82,9

94,1

97,5

99,5

1,00

0

20

40

60

80

100

0 4 8 12 16 20 24 28 32 36 40

xi

Fi

Famiglie lombarde per reddito annuo

0

4

8

12

16

20

24

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

hi

Leggere dati e grafici:

L’11,5% delle famiglie lombarde ha un reddito inferiore ai 20 milioni (di lire) annue.

Il 99,5% ha entrate in-feriori ai 100 milioni.

NB: la classe a max densità di frequenza (20-40) nell’i-stogramma è quella a max pendenza della spezzata

Un terzo esempio[xi ; xi+1) ni i hi Ni

0|—15 25 15 1,67 25

15|—30 30 15 2 55

30|—60 75 30 2,5 130

60|—120 90 60 2 220

120|—180 30 60 0,5 250

250

Indagine sui tempi casa-lavoro (N=250)

0

0,5

1

1,5

2

2,5

3

0 15 30 45 60 75 90 105 120 135 150 165 180

0

50

100

150

200

250

-30 0 30 60 90 120 150 180 210

Attenzione:

Il 10% degli intervistati (25 su 250) im-piega meno di un quarto d’ora.

Ma il 12% (30 su 250) impiega più di 2 ore.

Questa frase corrisponde a una funzione ‘cumulata a rovescio’. Approfondiamo questo aspetto.

Retrocumulare[xi ; xi+1) ni Ni Fi NRi FRi

0|—15 25 25 0,10 250 1,00

15|—30 30 55 0,22 225 0,90

30|—60 75 130 0,52 195 0,78

60|—120 90 220 0,88 120 0,48

120|—180 30 250 1,00 30 0,12

250

0

50

100

150

200

250

0 15 30 45 60 75 90 105 120 135 150 165 180 195 210

Il 10% (30 su 250) impiega più dipiù di due ore. Ma anche: quasi la metà (il 48%) impiega non menonon meno di un’ora.

I dati sono gli stessi, ma cumulati a rovescio aprono a giudizi differenti:

Quasi ¼ (22%) impiega meno di ½ ora

Ma quasi la metà impiega più di 1 ora

Si dice frequenza retrocumulata as-sociata alla modalità xi la fre-quenza di osservare modalità di X siperiori o almeno ugualisiperiori o almeno uguali a xi

m

ikkii fxXFreqF )(

0

250

0 210

NB: NB: FFr(i+1)r(i+1)=1-=1-FFii

cumulata

retrocumulata

Un secondo esempio (un classico)

Di 100 bambini nati a Londra nel 1662:64 sopravvivevano a 6 anni40 sopravvivevano a 16 anni25 sopravvivevano a 26 anni16 sopravvivevano a 36 anni 10 sopravvivevano a 46 anni 6 sopravvivevano a 56 anni 3 sopravvivevano a 66 anni1 sopravviverà a 76 anni

Graunt per primo nel 1662 stima una ‘ta-vola di mortalità’ della città di Londra.

Essa consiste in una funzione retrocumu-lata. Da essa si può risalire alla distri-buzione di frequenza dell’età di morte (se 100 nascono e 64 vivono almenoalmeno 6 anni, 100-64=36 sono i decessi tra 0 e 6).

Dalla distribuzione di frequenza si può ovviamente costruire la curva cumulata.

xi-xi+1 NRi

Da 0 a 6 100

Da 6 a 16 64

Da 16 a 26 40

Da 26 a 36 25

Da 36 a 46 16

Da 46 a 56 10

Da 56 a 66 6

Da 66 a 76 3

Da 76 a 86 1

ni Ni

36 36

24 60

15 75

9 84

6 90

4 94

3 97

2 99

1 100

Di 100 nati, ben 36 muoiono prima diprima di 6 anni. In altre parole: di 100 nati solo 64 hanno età di morte maggiore o parimaggiore o pari a 6

Curve (retrocumulate) di “eliminazione”

0

25

50

75

100

0 20 40 60 80 100

xi-xi+1 NRi

Da 0 a 6 64

Da 6 a 16 40

Da 16 a 26 25

Da 26 a 36 16

Da 36 a 46 10

Da 46 a 56 6

Da 56 a 66 3

Da 66 a 76 1

Da 76 a 86 0

NRi(85)

98,5

98,2

97,4

96,4

88,3

75,0

46,6

15,3

1,0

0

0

In rosso a tratto continuo la curva retro-cumulata di sopravvivenza (o di ‘elimina-zione’) della città di Londra nel 1662.

In blu tratteggiata la stessa curva per la po-polazione italiana maschile nel 1985.

Un confronto eloquente..

Questi sono tutti anni ‘guadagnati’!

Un terzo esempio: industrial demography

La funzione retrocumulata non è esclusiva di demografia e epidemiologia. Interessa anche la ricerca operativa (curve di affidabilità di uno stock di pneumatici), l’economia del lavoro (funzione di anzianità di forza lavoro prima della pensione), l’economia industriale (cicli di vita delle imprese). xi-xi+1 Fi

0-1 15,4

1-2 28,7

2-3 39,6

3-4 47,4

4-5 53,6

5-6 58,0

6-7 62,1

7-8 65,2

8-9 67,2

9-10 69,6

Es.:‘mortalità’ di imprese nate nel 1983.ni FRi

15,4 100

13,3 84,6

10,9 71,3

7,8 60,4

6,2 52,6

4,4 46,4

4,1 42,0

3,1 37,9

2,0 34,8

2,4 32,8

69,6 30,4(Fonte: Biggiero, Caroli, 1995)

0

25

50

75

100

0 3 6 9 12

Domanda: la curva non va a zero ma tende a un asintoto intorno a

25. Che vuol dire?

Altra domanda: tracciate l’istogramma della densità di

frequenza di X. Che significato ha?

Ultimo esempio: slittamento dei passaggi

In Friuli, nella coorte di donne nate nel 1946, le % di quelle che non avevano ancora un figlio rispettivamente a 20, 25, 30 e 35 anni era-no del 93%, 49%, 14% e 9%. Questa espressione equivale a leggere una funzione retrocumulata (in rosso). Il confronto con la retrocumu-lata della coorte del 1960 (in blu) è davvero significativo.

xi|-xi+1 FRi(46)

15-20 1,00

20-25 0,93

25-30 0,49

30-35 0,14

35 e + 0,09

xi|-xi+1 FRi(60)

15-20 1,00

20-25 0,89

25-30 0,62

30-35 0,34

35 e + 0,21

0

20

40

60

80

100

15 20 25 30 35

0

15

La % di donne che non hanno esperito la mater-nità cresce (quasi) a ogni età. La % di ‘childles-sness’ (non maternità definitiva) si alza.

Se prendiamo le don-ne che stanno al cen-tro della distribuzione ordinata secondo l’età di maternità (50% della cumulata), la lo-ro età si sposta da 25 a 27 anni.