Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché...
-
Upload
eula-albanese -
Category
Documents
-
view
215 -
download
0
Transcript of Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché...
Cap. 4 Distribuzioni di frequenza,
tabelle e graficiCioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi
statistica
1
I dati grezzi• Il risultato della rilevazione del fenomeno X sulla popolazione U di
numerosità N è un insieme di N osservazioni• Ciascuna osservazione coincide con una (e una sola) delle k modalità xi
previste dalla scala utilizzata.
Esempio: il numero di partner degli studenti universitari: fenomeno X quantitativo e discreto, che si rileva contando; le sue modalità xi sono i numeri interi 0,1,...; la scala delle modalità è quantitativa rapporto.
2
Distribuzioni di frequenza• L'analisi statistica procede per sintesi successive: l'obiettivo è di fare emergere dai dati, ad
ogni livello di sintesi, informazioni utili a descrivere e spiegare il comportamento di X su U.
• Il numero di volte in cui una modalità xi è stata rilevata in U si chiama frequenza (assoluta). La somma delle frequenze assolute riproduce la numerosità N di U
• La colonna di destra costituisce la distribuzione di frequenza. La distribuzione delle frequenze assolute si costruisce per conteggio e consente di organizzare i dati in tabella
3
1x
9x
4x
9f
4f
Variabili statistiche
• Le modalità xi , a seconda della natura del fenomeno X e della tipologia di scala utilizzata, possono essere attributi, categorie, numeri, intervalli
• Le frequenze fi sono sempre numeri interi non negativi
• Una variabile statistica (v.s.) è un insieme di k coppie {xi, fi},
• X indica sia il fenomeno di interesse (prima di essere rilevato), sia la corrispondente variabile statistica (dopo la rilevazione e la strutturazione dei dati grezzi)
• Il passaggio dai dati grezzi alla v.s. ha “fatto ordine”, nel senso di rendere i dati più organizzati e leggibili, ma ha “perso l'ordine”, nel senso che non abbiamo più l'informazione sull'ordine con il quale i dati sono stati rilevati
5
k
iiii Nfkifxsv
1
,1,,..
Frequenze relative e percentuali
• Se l'obiettivo è il confronto delle distribuzioni di frequenza di X su più popolazioni con numerosità diversa, occorre depurare le frequenze assolute dall'influenza di N costruendo le frequenze relative
• Le percentuali sono le frequenze relative moltiplicate per 100
6
N
fp i
i 1:: ii pNf
100100
ii
i pN
fperc100:: ii percNf
k
iiii Nfkifxsv
1
,1,,..
No partners Studenti/esse Freq. Perc.
0 11 11/60 = 0,183 18,31 10 10/60 = 0,167 16,72 10 10/60 = 0,167 16,73 6 6/60 = 0,100 10,04 5 5/60 = 0,083 8,35 4 4/60 = 0,067 6,76 7 7/60 = 0,117 11,77 4 4/60 = 0,067 6,78 3 3/60 = 0,050 5,0
Totale 60 60/60 = 1,000 100,0
Freq. Relative
1,1,,..1
k
iiii pkipxsv
100,1,100,..1
k
iiii pkipxsv
N
fp i
i
100100
ii
i pN
fperc
Frequenze cumulate
8
Quando X è ordinale o cardinale è buona pratica costruire la v.s. ordinando in senso crescente le modalità osservate
Le frequenze cumulate ci dicono quante sono le unità statistiche che manifestano una modalità non superiore di una certa
ix …..ovvero minore o uguale a tale ix
i
jjii ffffF
121
N
Fpppp i
i
jjii
121
No partners
Studenti/esse % Cumul. Ass. Cumul %
0 11 18,3 11 18,31 10 16,7 21 35,02 10 16,7 31 51,73 6 10,0 37 61,74 5 8,3 42 70,05 4 6,7 46 76,76 7 11,7 53 88,37 4 6,7 57 95,08 3 5,0 60 100,0
Totale 60 100,0 xxxx xxx
46 studenti hanno non più di 5 partners (ovvero un num. di partners minore o uguale a 5)
Il 50% degli studenti ha non più di 2 partners
(il 50% degli studenti ha più di 2 partners)
Distribuzioni di frequenza per variabili statistiche con modalità raggruppate in classi
Carattere continuo o con un numero di modalità molto elevato
Scala delle modalità
10X 2010 X 20X
Fenomeni quantitativi continui: classi di modalità
Nu
1u
ju
Fenomeno(o carattere, o variabile)
X : statura
juX
Rilevazione del fenomeno sull’unità
statistica (misurare l’altezza)
jxjx Nu
1u
ju
Fenomeno(o carattere, o variabile)
X : statura
juX
Rilevazione del fenomeno sull’unità
statistica (misurare l’altezza)
jxjx Nu
1u
ju
Fenomeno(o carattere, o variabile)
X : statura
juX
Rilevazione del fenomeno sull’unità
statistica (misurare l’altezza)
jxjx
classi di modalità 2010 10 20
Scala delle modalità
10X 2010 X 20X
Fenomeni quantitativi continui: classi di modalità
Nu
1u
ju
Fenomeno(o carattere, o variabile)
X : statura
juX
Rilevazione del fenomeno sull’unità
statistica (misurare l’altezza)
jxjx Nu
1u
ju
Fenomeno(o carattere, o variabile)
X : statura
juX
Rilevazione del fenomeno sull’unità
statistica (misurare l’altezza)
jxjx Nu
1u
ju
Fenomeno(o carattere, o variabile)
X : statura
juX
Rilevazione del fenomeno sull’unità
statistica (misurare l’altezza)
jxjx
classi di modalità2010 10 20
LxlxEstremo superioreEstremo inferiore
Classe aperta
Fenomeni quantitativi continui: classi di modalità
Scala o insieme delle modalità di X
Estremi delle classi di modalità
1x 2x lx Lx 1kx kx
Classi di modalità
lx Lx Estremi esclusi
E.inferiore E.superiore
lx Lx Estremi inclusi
lx Lx Estremo sup.
incluso
lx Lx Estremo inferiore
incluso
lL xx Ampiezza della classe
2* Lli
xxx
lx Lx Estremo inferiore
incluso
kx1x
32
2x45
lx55
Lx60
1kx70 82
16 25 8 39 89if
fi pi perc Ficumul
%100-
cumul32 45 16 0,090 9,0 16 9,0 91,045 55 25 0,141 14,1 41 23,2 76,855 60 8 0,045 4,5 49 27,7 72,360 70 39 0,220 22,0 88 49,7 50,370 82 89 0,503 50,3 177 100,0 0,0
177 1,000 100,0Totale
Anni
lx Lx Estremo inferiore
incluso
kx1x
32
2x45
lx55
Lx60
1kx70 82
16 25 8 39 89iflL xx 13 10 5 10 12
2* Lli
xxx
fi piampiez
zaval.
centrale32 45 16 0,090 13 38,545 55 25 0,141 10 5055 60 8 0,045 5 57,560 70 39 0,220 10 6570 82 89 0,503 12 76
177 1,000Totale
Anni
38.5 50 57.5 65 76
Ipotesi del valore
centrale
kx1x
32
2x45
lx55
Lx60
1kx70 82
fi ampiezza val. centrale densità32 45 16 13 38,5 1,245 55 25 10 50 2,555 60 8 5 57,5 1,660 70 39 10 65 3,970 82 89 12 76 7,4
177Totale
Anni
Le densità di frequenza
lL
ii xx
f
Quante u.s. si osservano nell’intervallo per ogni unità di misura della v.s. (in questo caso l’anno)
nell’ipotesi di equi-ripartizione
Indicano l’addensamento delle osservazioni nelle diverse classi, al netto della diversa ampiezza
kx1x
32
2x45
lx55
Lx60
1kx70 82
fi ampiezza val. centrale densità32 45 16 13 38,5 1,245 55 25 10 50 2,555 60 8 5 57,5 1,660 70 39 10 65 3,970 82 89 12 76 7,4
177Totale
Anni
Le densità di frequenza
lL
ii xx
f
lLii xxf
8
55
1.61625
39
89Istogrammi
(rappresentazione graficadelle frequenze)
Rappresentazioni grafiche
• Dalle distribuzioni di frequenza (assolute, relative, % e cumulate) si possono costruire grafici
• I grafici sono alternativi alle tabelle: non si tratta di una ulteriore forma di sintesi, ma solo di una diversa presentazione
• I grafici sono preferibili alle tabelle soprattutto se k è grande
• Per i fenomeni qualitativi il grafico è un semplice disegno (barre, torte...), in cui l'altezza/lunghezza delle barre o la dimensione dello spicchio della torta danno un'idea della frequenza associata a ciascuna categoria xi osservata
17
Esempio
18
Rappresentazioni grafiche di fenomeni quantitativi
• Per i fenomeni quantitativi, dove anche le xi, oltre alle fi , sono dei numeri, si costruiscono dei diagrammi cartesiani: sull'asse delle ascisse si mettono le xi, su quello delle ordinate le fi o le pi
– Fenomeni discreti: il diagramma più efficace è quello a bastoncini : in corrispondenza di ogni modalità xi, identificata con un singolo punto sulle ascisse, si innalza un bastoncini alto quanto la corrispondente frequenza posta sulle ordinate
– Fenomeni continui: se si fa l'ipotesi del valore centrale questo equivale ad una discretizzazione (vedi sopra); se si fa invece l'ipotesi della distribuzione uniforme, la frequenza viene rappresentata da un'area, con un istogramma.
– L'istogramma è l'unica rappresentazione sensata quando le classi hanno un'ampiezza diversa.
19
Esempio
20
Sintesi del capitolo• La prima forma di sintesi dei dati è data dalla distribuzione di frequenza
assoluta che, per ogni modalità del carattere, ci dice quante u.s. presentano quella modalità: la loro somma da la numerosità totale della popolazione
• Per favorire il confronto si ricorre alle frequenze relative e percentuali che ci dicono quale quota di u.s. su 1 (o su 100) presentano una certa modalità: la loro somma da 1 (o 100)
• Un’ informazione ulteriore è costituita dalle frequenze cumulate che, per ogni modalità, ci dice quante u.s. presentano un valore minore o uguale a quella data modalità: hanno senso solo se il carattere è almeno ordinabile
• Quando il carattere è continuo o misurato con una scala che prevede un elevato numero di modalità (generalmente quantitativa), si ricorre a distribuzioni di frequenza per modalità raggruppate in classi, caratterizzate da una certa ampiezza e da un certo valore centrale
• La densità rappresenta l’addensamento della frequenza in ogni classe e consente di svincolar e il giudizio sulla frequenza dall’ampiezza della classe