Statistica Descrittiva - Lezione 1unica2.unica.it/bande/LEZIONE1.pdfStatistica Descrittiva - Lezione...
Transcript of Statistica Descrittiva - Lezione 1unica2.unica.it/bande/LEZIONE1.pdfStatistica Descrittiva - Lezione...
Statistica Descrittiva - Lezione 1
Gianluca Bande
Università degli Studi di Cagliari
December 13, 2007
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 1 / 23
Statistica descrittiva
La statistica descrittiva è un insieme di tecniche per descrivere eriassumere dati ricorrendo a tecniche matematiche.
Gli strumenti di sintesi sono essenzialmente di tre tipi:
tabelle
rappresentazioni grafiche
indici sintetici
AttenzioneQuando sintetizziamo l’informazione contenuta nei dati, ne perdiamouna parte. Gli strumenti di sintesi devono essere scelti in modo taleda:
preservare, per quanto possibile, l’informazione rilevante per ilproblema analizzato
eliminare l’informazione non necessaria
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 2 / 23
Statistica descrittiva
La statistica descrittiva è un insieme di tecniche per descrivere eriassumere dati ricorrendo a tecniche matematiche.Gli strumenti di sintesi sono essenzialmente di tre tipi:
tabelle
rappresentazioni grafiche
indici sintetici
AttenzioneQuando sintetizziamo l’informazione contenuta nei dati, ne perdiamouna parte. Gli strumenti di sintesi devono essere scelti in modo taleda:
preservare, per quanto possibile, l’informazione rilevante per ilproblema analizzato
eliminare l’informazione non necessaria
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 2 / 23
Statistica descrittiva
La statistica descrittiva è un insieme di tecniche per descrivere eriassumere dati ricorrendo a tecniche matematiche.Gli strumenti di sintesi sono essenzialmente di tre tipi:
tabelle
rappresentazioni grafiche
indici sintetici
AttenzioneQuando sintetizziamo l’informazione contenuta nei dati, ne perdiamouna parte. Gli strumenti di sintesi devono essere scelti in modo taleda:
preservare, per quanto possibile, l’informazione rilevante per ilproblema analizzato
eliminare l’informazione non necessaria
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 2 / 23
Unità statistiche
Uno studio statistico riguarda un gruppo di individui. Gli individuipossono essere persone, cellule, molecole, foglie, pietre...
DefinizioneGli individui costituiscono le nostre unità statistiche diosservazione
L’insieme delle unità statistiche forma la popolazione
Indicheremo con N il numero di unità statistiche che costituiscono unapopolazione e denoteremo le unità statistiche con:
U1,U2, . . . ,UN
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 3 / 23
Unità statistiche
Uno studio statistico riguarda un gruppo di individui. Gli individuipossono essere persone, cellule, molecole, foglie, pietre...
DefinizioneGli individui costituiscono le nostre unità statistiche diosservazione
L’insieme delle unità statistiche forma la popolazione
Indicheremo con N il numero di unità statistiche che costituiscono unapopolazione e denoteremo le unità statistiche con:
U1,U2, . . . ,UN
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 3 / 23
Unità statistiche
Uno studio statistico riguarda un gruppo di individui. Gli individuipossono essere persone, cellule, molecole, foglie, pietre...
DefinizioneGli individui costituiscono le nostre unità statistiche diosservazione
L’insieme delle unità statistiche forma la popolazione
Indicheremo con N il numero di unità statistiche che costituiscono unapopolazione e denoteremo le unità statistiche con:
U1,U2, . . . ,UN
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 3 / 23
Variabile
Sulle unità statistiche vengono effettuate delle osservazioni omisurazioni.
DefinizioneChiamiamo variabile o carattere ciò che si misura o osserva sulle unitàstatistiche di una popolazione
Generalmente, su una popolazione possiamo fare diverse misurazioni.Se le variabili misurate sono 2 o 3 le indicheremo con le lettere
X,Y,Z
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 4 / 23
Variabile
Sulle unità statistiche vengono effettuate delle osservazioni omisurazioni.
DefinizioneChiamiamo variabile o carattere ciò che si misura o osserva sulle unitàstatistiche di una popolazione
Generalmente, su una popolazione possiamo fare diverse misurazioni.Se le variabili misurate sono 2 o 3 le indicheremo con le lettere
X,Y,Z
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 4 / 23
Variabile
Sulle unità statistiche vengono effettuate delle osservazioni omisurazioni.
DefinizioneChiamiamo variabile o carattere ciò che si misura o osserva sulle unitàstatistiche di una popolazione
Generalmente, su una popolazione possiamo fare diverse misurazioni.Se le variabili misurate sono 2 o 3 le indicheremo con le lettere
X,Y,Z
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 4 / 23
Esempio
Gli studenti di Scienze Naturali costituiscono una popolazione. Semisuriamo a ciascun studente il peso e l’altezza si ha:
studenti = unità statistiche
popolazione = studenti di Scienze Naturali
peso = X
altezza = Y
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 5 / 23
La tabella cronologica
VariabiliUnità X Y Z
U1 X1 Y1 Z1
U2 X2 Y2 Z3
U3 X3 Y3 Z3
· · · ·· · · ·· · · ·
UN XN YN ZN
VariabiliUnità peso altezza sesso
U1 48 156 0U2 45 151 0U3 65 160 1· · · ·· · · ·· · · ·
UN 68 162 1
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 6 / 23
La tabella cronologica
VariabiliUnità X Y Z
U1 X1 Y1 Z1
U2 X2 Y2 Z3
U3 X3 Y3 Z3
· · · ·· · · ·· · · ·
UN XN YN ZN
VariabiliUnità peso altezza sesso
U1 48 156 0U2 45 151 0U3 65 160 1· · · ·· · · ·· · · ·
UN 68 162 1
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 6 / 23
Rappresentazione di una variabile
Di solito i valori di una variabile misurati su una popolazione sirappresentano come un vettore
X = {X1,X2, . . . ,XN}
dove si è indicato con Xk il valore della variabile X relativo all’unitàstatistica Uk. Questa rappresentazione non fornisce alcunainformazione sui dati.
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 7 / 23
Rappresentazione non strutturata
EsempioSimulazione del lancio di due dadi a sei facce
dadi = (6,6,5,6,3,4,8,7,7,6,9,5,10,6,6,7,10,10,3,3,8,5,7,6,10,7,6,7,9,4,7,2,5,11,6,6,8,6,4,7,7,9,7,7,8,10,9,5,8,6,6,7,5,5,11,4,10,7,9,9,7,4,9,5,10,8,5,6,9,7,6,4,7,7,6,3,2,8,9,4,8,11,2,8,9,7,11,6,9,4,8,7,6,3,6,7,4,2,6,3,4,6,3,5,4,10,6,9,9,9,3,7,6,9,9,4,6,7,7,5,11,8,10,3,10,8,8,4,4,5,9,7,5,11,8,9,11,3,9,6,7,8,5,2,8,4,6,7,9,5,6,6,5,5,8,10,12,7,8,6,6,8,6,3,8,5,7,3,2,8,8,9,9,8,4,5,8,7,8,5,7,10,7,8,5,7,2,10,7,3,5,5,6,8,11,7,8,7,6,11,12,8,7,5,9,4,10,4,10,4,5,7,6,12,6,9,4,6,7,3,11,12,6,5,7,6,2,4,11,5,4,9,7,10,8,7,8,2,7,11,3,7,12,11,6,8,5,8,10,8)
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 8 / 23
Rappresentazione non strutturata
EsempioIl vettore riporta il peso di 300 trote.
peso trote = (217,250,297,212,380,344,259,269,303,327,285,341,326,233,217,379,284,307,377,369,382,253,256,295,311,342,309,409,287,341,259,392,250,296,336,239,301,235,368,264,288,269,255,254,391,311,363,251,294,287,287,328,227,158,303,371,312,306,341,347,314,342,283,345,347,250,328,213,284,269,240,193,260,282,344,316,405,269,355,356,253,299,395,293,283,394,291,296,277,353,287,314,322,274,340,394,236,448,258,269,358,323,268,327,338,332,334,344,292,337,373,244,334,276,296,297,227,259,244,193,301,274,286,378,288,267,369,215,232,350,333,240,349,320,277,311,296,360,316,265,249,270,222,380,249,291,320,249,273,251,239,254,325,345,244,334,315,245,345,323,241,307,314,363,256,339,304,320,409,265,301,271,333,287,367,220,268,239,276,282,288,285,317,304,313,251,363,330,271,247,279,351,340,278,332,316,291,276,225,330,317,254,244,179,263,334,285,359,343,275,269,256,244,302,364,290,303,320,247,348,290,318,257,221,418,218,395,325,332,348,283,339,243,351,305,234,300,399,320,310,309,320,322,331,258,384,329,277,339,271,308,270,255,303,269,315,304,337,334,267,355,356,242,239,319,323,305,323,346,357,316,250,293,228,270,374,278,375,299,364,258,357,238,300,298,321,202,368,371,422,212,349,306,344,303,328,339,363,264,305)
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 9 / 23
Rappresentazione cartesiana
La prima rappresentazione strutturata è quella data dallavisualizzazione cartesiana dei dati.
Si riporta
in ascissa il numero progressivo delle unità statistiche
in ordinata il valori della variabile X
Si posiziona poi un pallino in corrispondenza dei punti di coordinate(k,Xk),k = 1, . . . ,N.
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 10 / 23
Rappresentazione cartesiana
La prima rappresentazione strutturata è quella data dallavisualizzazione cartesiana dei dati.Si riporta
in ascissa il numero progressivo delle unità statistiche
in ordinata il valori della variabile X
Si posiziona poi un pallino in corrispondenza dei punti di coordinate(k,Xk),k = 1, . . . ,N.
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 10 / 23
Rappresentazione cartesiana
La prima rappresentazione strutturata è quella data dallavisualizzazione cartesiana dei dati.Si riporta
in ascissa il numero progressivo delle unità statistiche
in ordinata il valori della variabile X
Si posiziona poi un pallino in corrispondenza dei punti di coordinate(k,Xk),k = 1, . . . ,N.
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 10 / 23
Lancio dei due dadi
50 100 150 200 250
2
4
6
8
10
12
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 11 / 23
Peso delle trote
50 100 150 200 250 300
200
250
300
350
400
450
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 12 / 23
Frequenze assolute
Si consideri un vettore
X = (8,15,18,2,19,5,1,10,5,17,15,5,3,6,13,19,13,14,10,13,13, 15,13,17,11,0,7,6,0,6)
La rappresentazione di tutti i dati non è sempre molto chiara. Di fattomolte volte interessa sapere se un certo valore è all’interno di un datointervallo, più che il singolo valore.Procediamo nel modo seguente:Per primo riordiniamo i dati del vettore X:
X∗ = (0,0,1,2,3,5,5,5,6,6,6,7,8,10,10,11,13,13,13,13,13,14, 15,15,15,17,17,18,19,19)
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 13 / 23
Frequenze assolute
Si consideri un vettore
X = (8,15,18,2,19,5,1,10,5,17,15,5,3,6,13,19,13,14,10,13,13, 15,13,17,11,0,7,6,0,6)
La rappresentazione di tutti i dati non è sempre molto chiara. Di fattomolte volte interessa sapere se un certo valore è all’interno di un datointervallo, più che il singolo valore.
Procediamo nel modo seguente:Per primo riordiniamo i dati del vettore X:
X∗ = (0,0,1,2,3,5,5,5,6,6,6,7,8,10,10,11,13,13,13,13,13,14, 15,15,15,17,17,18,19,19)
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 13 / 23
Frequenze assolute
Si consideri un vettore
X = (8,15,18,2,19,5,1,10,5,17,15,5,3,6,13,19,13,14,10,13,13, 15,13,17,11,0,7,6,0,6)
La rappresentazione di tutti i dati non è sempre molto chiara. Di fattomolte volte interessa sapere se un certo valore è all’interno di un datointervallo, più che il singolo valore.Procediamo nel modo seguente:Per primo riordiniamo i dati del vettore X:
X∗ = (0,0,1,2,3,5,5,5,6,6,6,7,8,10,10,11,13,13,13,13,13,14, 15,15,15,17,17,18,19,19)
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 13 / 23
Ampiezza e sotto intervalli
DefinizioneL’ampiezza di un vettore X è il numero M−m= X∗
N −X∗1 dove M e m
sono il massimo ed il minimo valore di X rispettivamente.
Nell’esempio l’ampiezza vale 19. Adesso suddividiamo l’intervalloI = [0,19] in sotto intervalli. Scegliendo, per esempio, sotto intervalliomogenei di ampiezza 5,si ottiene:
I1 = [0,5), I2 = [5,10), I3 = [10,15), I4 = [15,20)
OsservazioneSi osservi che per convenzione il primo estremo dei sotto intervalli èincluso mentre il secondo no, cioè appartiene al sotto intervallosuccessivo.
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 14 / 23
Ampiezza e sotto intervalli
DefinizioneL’ampiezza di un vettore X è il numero M−m= X∗
N −X∗1 dove M e m
sono il massimo ed il minimo valore di X rispettivamente.
Nell’esempio l’ampiezza vale 19. Adesso suddividiamo l’intervalloI = [0,19] in sotto intervalli. Scegliendo, per esempio, sotto intervalliomogenei di ampiezza 5,si ottiene:
I1 = [0,5), I2 = [5,10), I3 = [10,15), I4 = [15,20)
OsservazioneSi osservi che per convenzione il primo estremo dei sotto intervalli èincluso mentre il secondo no, cioè appartiene al sotto intervallosuccessivo.
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 14 / 23
Frequenze assolute e relative
Per ciascun sotto intervallo calcoliamo le frequenze assolute e quellerelative definite da
DefinizioneLe frequenze assolute, indicate con nk misurano il numero di unitàstatistiche con un valore della variabile X all’interno dell’intervallo Ik.
Le frequenze relative definite da fk = nk/N, indicano la frequenzaassoluta rapportata al numero totale di unità statistiche. Di solito siesprimono in percentuale.
Intervalli nk fkI1 = [0,5) 5 5/30= 16.6%I2 = [5,10) 8 8/30= 26.6%I3 = [10,15) 9 9/30= 30.0%I4 = [15,20) 8 8/30= 26.6%
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 15 / 23
Frequenze assolute e relative
Per ciascun sotto intervallo calcoliamo le frequenze assolute e quellerelative definite da
DefinizioneLe frequenze assolute, indicate con nk misurano il numero di unitàstatistiche con un valore della variabile X all’interno dell’intervallo Ik.Le frequenze relative definite da fk = nk/N, indicano la frequenzaassoluta rapportata al numero totale di unità statistiche. Di solito siesprimono in percentuale.
Intervalli nk fkI1 = [0,5) 5 5/30= 16.6%I2 = [5,10) 8 8/30= 26.6%I3 = [10,15) 9 9/30= 30.0%I4 = [15,20) 8 8/30= 26.6%
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 15 / 23
Frequenze assolute e relative
Per ciascun sotto intervallo calcoliamo le frequenze assolute e quellerelative definite da
DefinizioneLe frequenze assolute, indicate con nk misurano il numero di unitàstatistiche con un valore della variabile X all’interno dell’intervallo Ik.Le frequenze relative definite da fk = nk/N, indicano la frequenzaassoluta rapportata al numero totale di unità statistiche. Di solito siesprimono in percentuale.
Intervalli nk fkI1 = [0,5) 5 5/30= 16.6%I2 = [5,10) 8 8/30= 26.6%I3 = [10,15) 9 9/30= 30.0%I4 = [15,20) 8 8/30= 26.6%
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 15 / 23
Istogramma
Se la suddivisione dell’ampiezza è omogenea l’istogramma si ottienecostruendo dei rettangoli affiancati di base l’estensione dei sottointervalli scelti per il calcolo delle frequenze assolute e di altezza lecorrispondenti frequenze relative.
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 16 / 23
Istogramma
1 2 3 4
5
10
15
20
25
30
Esempio guida
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 17 / 23
Istogramma del lancio dei dadi
2 3 4 5 6 7 8 9 10 11 12
10
20
30
40
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 18 / 23
Istogramma del peso delle trote
175 225 275 325 375 425
20
40
60
80
100
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 19 / 23
Istogramma a torta del lancio dei due dadi
2
3
4
5
6
7
8 9
10
11
12
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 20 / 23
Istogramma non omogeneo
In certi casi la suddivisione dell’ampiezza di una variabile X non èomogenea. In questo caso l’istogramma a barre va costruito nel modoseguente.Si costruiscono dei rettangoli la cui base è data dai sotto intervallimentre l’altezza si ottiene imponendo che l’area dei rettangoli sia parialla frequenza relativa.Dalla formula dell’area di un rettangolo segue che le altezza deirettangoli sono date dalla formula:
hk =fk
lunghezza di Ik
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 21 / 23
EsempioDato il vettore
X = (31,14,22,30,5,18,18,2,31,1,10,20,0,10,31,0,19,6,16,22,3,16,19,15,23,0,28,19,4,18,8,35,29,28,6,28,23,2,11,0)
dividiamo l’ampiezza, pari a 35, nei seguenti sotto intervalli
[0,10), [10,30) [30,35)
Le frequenze assolute, relative e le altezze dei rettangoli sono
Intervalli nk fk hk
I1 = [0,10) 13 13/40= 32.5% 3.25I2 = [10,30) 22 22/40= 50% 2.75I3 = [30,35) 5 5/40= 12.5% 2.5
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 22 / 23
EsempioDato il vettore
X = (31,14,22,30,5,18,18,2,31,1,10,20,0,10,31,0,19,6,16,22,3,16,19,15,23,0,28,19,4,18,8,35,29,28,6,28,23,2,11,0)
dividiamo l’ampiezza, pari a 35, nei seguenti sotto intervalli
[0,10), [10,30) [30,35)
Le frequenze assolute, relative e le altezze dei rettangoli sono
Intervalli nk fk hk
I1 = [0,10) 13 13/40= 32.5% 3.25I2 = [10,30) 22 22/40= 50% 2.75I3 = [30,35) 5 5/40= 12.5% 2.5
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 22 / 23
Istogramma non omogeneocon altezza dei rettangoli parialle frequenze relative
Istogramma non omogeneocon area dei rettangoli parialle frequenze relative
G. Bande (Univ. Cagliari) Statistica Descrittiva December 13, 2007 23 / 23