Appunti statistica descrittiva 2
-
Upload
esmargiassi -
Category
Education
-
view
743 -
download
3
Transcript of Appunti statistica descrittiva 2
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 1
DATI e PREVISIONI
Note di base sulla Statistica e Calcolo della probabilità
2° Incontro: Indici statistici. Correlazione tra dati
Enrico Smargiassi
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 2
Indici Statistici
Percentili
I percentili sono indici statistici di posizione non centrale che si definiscono similmente alla
mediana che ne è un caso particolare.
In generale si definirà (con ) il più piccolo valore dei
dati ordinati, , tale che la percentuale 100 di dati sia minore o uguale a
Più in particolare si fa uso spesso di:
primo quartile che è il valore del campione di dati per cui il numero di dati
con valore inferiore o uguale a è almeno il 25%
terzo quartile che è il valore del campione di dati per cui il numero di dati
con valore inferiore o uguale a è almeno il 75%
secondo quartile che è il valore mediano del campione,
Anche in questo calcolo, come per la mediana, se non è un numero intero si prende
come valore del percentile il valore successivo, ovvero
Se se è invece un numero intero si può prendere come valore del percentile
qualunque valore compreso tra (compreso) e ; solitamente si fa uso del valore
più piccolo o del valore medio (aritmetico)
ESEMPIO 6
Carattere osservato peso in g di bambini nati in un dato ospedale in un mese
Campione di dati
Cardinalità n = 30
Tipo di dato quantitativo continuo
Ordiniamo i dati:
Calcoliamo alcuni percentili:
1° quartile 0.25-percentile
2° quartile (mediana) 0.5-percentile
3° quartile 0.75-percentile
0.10-percentile
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 3
Aggreghiamo e rappresentiamo graficamente i dati.
Il campo di variazione dei dati è l’intervallo [1800; 5000] di ampiezza 3200 g
La regola di Sturges:
ci suggerisce il numero di classi che
fissiamo a 6. Ogni classe potrebbe avere un’ampiezza di
Considerando i dati a disposizione scegliamo 500 come ampiezza di una classe.
Classe
Ik
Frequenza
assoluta
Nk
Frequenza
relativa
fk
Frequenza
percentuale
f% k
Frequenza
relativa
cumulativa
1800 x < 2300 3
10 % 0.10
2300 x < 2800 6
200 % 0.30
2800 x < 3300 7
23 % 0.53
3300 x < 3800 6
20 % 0.73
3800 x < 4300 5
17 % 0.90
x 4300 3
10 % 1.00
Totale 30 1 100 %
0
0,05
0,1
0,15
0,2
0,25
2050 2550 3050 3550 4050 4850
Peso (g)
Frequenza relativa fi
0.10-percentile
2230
1° quartile
2760
mediana
3220
3° quartile
3860
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 4
Indici di dispersione o di variabilità
Consideriamo di prendere la media campionaria come indice di centralità del campione
dei dati. E’ ovvio che tale indice non è sufficiente per caratterizzare completamente il
campione, poiché ci sono campioni che hanno lo stesso valor medio, ma con dati
distribuiti in modo molto diverso rispetto al valore “centrale”.
E’ necessario, quindi, fornire una misura di questa dispersione del campione.
Vi sono molti modi per valutare la dispersione, ma generalmente si parte dagli
scostamenti che i dati hanno rispetto al valore centrale scelto, ovvero
Considerandoli senza segno per evitare compensazioni, cioè
Sembra ragionevole considerare allora la media di tutti gli scostamenti come misura di
dispersione:
Questo valore è un primo indice di dispersione noto come Scarto medio assoluto.
Si può matematicamente evitare di maneggiare il modulo dei dati (il modulo non è
additivo, non è derivabile,…), considerando il quadrato degli scarti.
Si ottiene così la definizione di varianza.
Varianza campionaria
(4)
si usa talvolta il simbolo per riferirsi al campione in oggetto.
Se i dati hanno una dimensione allora anche la varianza ha una dimensione, la stessa di x
al quadrato (es. x m m2)
Pertanto si utilizza invece della varianza la sua radice quadrata che ha la stessa
dimensione dei dati.
Scarto quadratico medio (o deviazione standard)
(5)
Il termine deviazione standard è più usato in ambito della statistica inferenziale.
Tanto maggiore è la distanza media dei dati dal “suo centro”, maggiore è il valore della
varianza, che appunto fornisce una misura della dispersione o variabilità del campione.
Nel caso di dati aggregati, secondo le modalità o le classi, valgono le seguenti relazioni
per il calcolo della varianza e lo scarto quadratico medio, dove k indica il numero delle
modalità o di classi:
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 5
(6)
Molto spesso, nel calcolo della varianza si usa una espressione che prevede
dove l’uso di n-1 piuttosto che n è giustificato e più idoneo
nell’ambito della statistica inferenziale, dove si affronta il problema della stima dei
parametri delle distribuzioni.
Nel caso di un’analisi dati di tipo solo descrittivo continuiamo ad utilizzare l’espressione (4)
Alcune proprietà della varianza
1. Formula pratica per il calcolo della varianza
-
Pertanto
(7)
Cioè la varianza è calcolabile come la media dei quadrati dei dati diminuita del
quadrato della media.
2. Trasformazione della varianza al cambiamento lineare della base dati
Se x è una variabile con un campione di dati e i dati sono traslati di un
offset con conseguente modifica del campione di dati
allora la varianza rimane inalterata, cioè
(la dispersione non cambia per
un offset!)
Infatti:
Se invece la trasformazione dei dati riguarda una trasformazione di scala,
allora la relazione delle varianze è data da
Infatti:
dove in entrambe le relazioni si è sfruttata la proprietà della media per una
trasformazione lineare dei dati.
= n = n
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 6
3. La varainza come minimo di un funzionale
Se consideriamo la funzione reale a valore reale:
definita per un dato campione di dati.
Allora V(x) assume valore minimo per
cioè quando lo
scostamento è calcolato rispetto al valore medio.
Infatti:
4. Variabile standardizzata
Se invece della variabile osservata x, relativa al campione
si considera la variabile:
con campione di dati
allora quest’ultima è una variabile centrata e ridotta, cioè con media nulla e
varainza unitaria.
Infatti:
dove si sono sfruttate le proprietà della media e della varianza.
5. Coefficiente di variazione
Come indice di dispersione di un campione si può utilizzare anche il rapporto dello
scarto quadratico medio con la media campionaria, ovvero:
Il coefficiente di variazione esprime la deviazione standard come percentuale
della media. Essendo misurate con la stessa unità di misura, cv è un indice
adimensionale e quindi si presta ad essere utilizzato per confrontare la dispersione
di campioni diversi e non omogenei.
OSSERVAZIONE
Se consideriamo la funzione somma degli scostamenti in modulo
allora essa è minima quando si prende x uguale alla mediana dei dati
disposizione.
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 7
ESEMPIO 7
Carattere osservato tempi in minuti per l’esecuzione di un determinato processo di
lavorazione
Campione di dati
Cardinalità n = 10
Tipo di dato quantitativo discreto
Indici di posizione e di dispersione disponiamo i dati in una tabella (numero di dati
limitato)
(min)
2.6 6.76
1.8 3.24
2.1 4.41
1.5 2.25
2.8 7.84
3.0 9.00
1.2 1.44
1.9 3.61
2.3 5.29
2.8 7.84 Somma 22.0 51.68
E’ ragionevole dedurre che il campione è poco disperso intorno al suo valore centrale
Media
Varianza
Scarto quadratico medio
Coefficiente di variazione
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 8
PROBLEMA 9
Per la partecipazione a una gara di chimica una scuola deve proporre una squadra di 6
alunni di una stessa classe. La scuola organizza un test preliminare per scegliere la
squadra. Il test che ha un punteggio massimo di 100 punti, ha permesso di individuare 3
classi sulla media dei migliori 6 punteggi conseguiti dagli alunni di una stessa classe.
Questo valore medio è però uguale per le tre squadre che quindi risultano a pari merito.
Con quale criterio può essere scelta la squadra da mandare alla gara?
I dati (punteggi nel test)
Classe A Classe B Classe C
Pu
nte
gg
io a
lun
ni
(/100)
(/100)
(/100)
72 5184 74 5476 73 5329
75 5625 75 5625 76 5776
78 6084 80 6400 79 6241
83 6889 81 6561 82 6724
84 7056 83 6889 84 7056
86 7396 85 7225 84 7056 Somma 478 38234 478 38176 478 38182
Per ciascuna classe il punteggio medio del test è stato
Mentre la varianza risulta essere:
Sebbene di poco è ragionevole scegliere la classe B perché ha una dispersione inferiore
e quindi il team offre maggiori garanzie di successo.
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 9
PROBLEMA 10
Una azienda produce pistoncini e deve fornire, come specifiche, le caratteristiche
dimensionali del prodotto. Per questo si effettua un test a campione prendendo la
misura della lunghezza di 40 pistoncini scelti casualmente.
I dati (lunghezze in cm)
Calcoliamo la media e lo scarto quadratico medio.
La numerosità del campione ci permetterebbe anche di dividere in classi il nostro
carattere osservato, ma la precisione del problema impone un calcolo puntuale, dato
per dato:
(cm)
(cm)
(cm)
(cm)
2.08 4.3264 2.11 4.4521 2.03 4.1209 2.08 4.3264
2.07 4.2849 2.10 4.41 2.10 4.41 2.14 4.5796
2.11 4.4521 2.12 4.4944 2.07 4.2849 2.07 4.2849
2.09 4.3681 2.15 4.6225 2.13 4.5369 2.11 4.4521
2.10 4.41 2.07 4.2849 2.09 4.3681 2.13 4.5369
2.05 4.2025 2.06 4.2436 2.05 4.2025 2.08 4.3264
2.12 4.4944 2.10 4.41 2.11 4.4521 2.09 4.3681
2.06 4.2436 2.08 4.3264 2.10 4.41 2.10 4.41
2.05 4.2025 2.09 4.3681 2.09 4.3681 2.15 4.6225
2.09 4.3681 2.13 4.5369 2.02 4.0804 2.03 4.1209
somma 20.82 43.3526 21.01 44.1489 20.79 43.2339 20.98 44.0278
Valore medio
Varianza
Da questa semplice analisi si può supporre che la lunghezza “tipica” prodotta sia 2.09
cm, ma sicuramente non è molto corretto affermare che l’errore associato sia 0.03 cm,
ovvero descrivere le dimensioni del pistoncino come (2.09 0.03) cm.
Per approfondire la situazione domandiamoci quanti dati del nostro campione rientrano
nell’intervallo , e quanti rientrano
nell’intervallo ?
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 10
Visualizziamo graficamente
Il numero di dati campione che rientrano nell’intervallo sono 28 mentre
quelli che rientrano nell’intervallo sono 39.
Pertanto il prodotto può essere commercializzato indicando come specifica
dimensionale il valore di cioè (2.090.06) cm.
[NOTA Qui non si parla di tolleranza meccanica ma di un errore da associare
statisticamente, dovuto a componenti casuali]
2,01
2,02
2,03
2,04
2,05
2,06
2,07
2,08
2,09
2,10
2,11
2,12
2,13
2,14
2,15
2,16
0 5 10 15 20 25 30 35 40
lun
ghe
zza
(cm
)
N. dato
PROBLEMA 11
Una ditta che si occupa di trasporti e logistica deve decidere se far pagare il trasporto
di alcuni pacchi prodotti da una Azienda in termini di peso o di volume.
Pertanto deve analizzare se la maggiore variabilità si ha relativamente al peso o al
volume dei pacchi da trasportare in un determinato tempo (es. settimana).
I dati (peso e volume)
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 11
Poiché le grandezze d’interesse sono diverse (anche se correlate)ed utilizzano unità di
misura diverse, non è possibile confrontare direttamente l’indice di dispersione fornito
dallo scarto quadratico medio.
Ricorriamo quindi al coefficiente di variazione che è un indice senza dimensione:
Si deduce che si ha una maggiore variabilità nel volume dei pacchi rispetto al loro
peso.
Converrebbe (dal punto di vista di chi fornisce il servizio del trasporto) differenziare le
tariffe in funzione del volume dei pacchi.
PROBLEMA 12
Caratterizzare la quantità di grassi nel latte di un allevamento bovino di mucche di 3
anni.
I dati (percentuale di grassi % raccolti in un giorno per ogni bovino)
4.32 3.96 3.74 4.10 4.33 4.23 4.28 4.15 4.49 4.67 4.24 4.48 4.12 4.10 4.09
4.42 4.00 4.16 4.67 4.03 4.29 4.05 4.11 4.29 3.89 4.20 4.33 3.86 3.99 3.91
3.88 3.74 4.42 4.27 3.97 4.24 4.00 4.02 3.87 3.81 4.81 4.25 4.10 4.40 4.70
4.09 4.38 4.32 5.00 4.60 4.00 4.71 4.38 4.06 3.97 4.31 4.30 4.41 4.24 4.20
4.51 4.24 3.94 4.17 4.06 3.93 4.38 4.22 3.95 4.35 4.09 4.28 4.18 3.56 3.99
4.38 4.46 3.96 4.16 4.08 3.97 3.70 4.17 3.86 4.05 3.89 3.82 4.33 3.58 4.60
3.89 4.20 4.14 3.57 4.38 3.91 4.34 3.98 3.72 4.82 3.66 3.77 3.97 4.91 4.52
3.66 4.20 3.83 3.97 4.36 4.05 4.58 3.70 4.07 3.89 4.66 3.92 4.09 4.88 4.58
Cardinalità 120
Poiché i dati sono numerosi e la quantità sotto osservazione è considerabile continua,
aggreghiamo i dati raccolti tramite classi della grandezza osservata.
Determiniamo inizialmente il range di variabilità del nostro campione e il numero
adeguato di classi.
Range di variabilità [3.56; 5.00]
Numero di classi regola di Sturges
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 12
La media e lo scarto quadratico medio sono i due indici di posizione e di dispersione più
usati.
Uno dei motivi principali è che la distribuzione normale, che viene largamente utilizzata in
molti campi diversi, è definita in termini di questi due parametri.
Nell’elaborazione pura dei dati di un campione si possono usare altri indici, sia di posizione
come abbiamo già visto, e sia di variabilità.
In particolare vediamo come si possa usare la mediana e i percentili per sintetizzare i dati
di un campione.
Ogni classe avrà una ampiezza di
Costruiamo ora la tabella della frequenza, aggiungendo anche i dati necessari per
determinare gli indici statistici che interessano
Classe
Ik
Frequenza
assoluta
Nk
Frequenza
relativa
fk
Valore
centrale
xk (%)
Valore
centrale
(xk)2
Prodotto
ponderato
fkxk
Prodotto
ponderato
fk(xk)2
3.56 x < 3.74 8 0.067 3.65 13.3225 0.24455 0.892608
3.74 x < 3.92 16 0.133 3.83 14.6689 0.50939 1.950964
3.92 x < 4.10 30 0.250 4.01 16.0801 1.00250 4.020025
4.10 x < 4.28 24 0.200 4.19 17.5561 0.83800 3.511220
4.28 x < 4.46 22 0.183 4.37 19.0969 0.79971 3.494733
4.46 x < 4.64 8 0.067 4.55 20.7025 0.30485 1.387068
4.64 x < 4.82 5 0.042 4.73 22.3729 0.19866 0.939662
x 4.82 7 0.058 4.91 24.1081 0.28478 1.398270
Totale 120 1 4.18240 17.5945
Calcoliamo la media campionaria della percentuale di grassi
Calcoliamo la varianza e lo scarto quadratico medio della percentuale di grassi
Le nostre mucche hanno quindi un contenuto percentuale medio di grassi pari a 4.18 %
Con una dispersione di circa 0.32 %
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 13
ESEMPIO 8
Carattere osservato esito di un esame universitario scritto giudicato sufficiente per
sostenere il dialogo orale
Campione di dati
Cardinalità n = 35
Tipo di dato quantitativo discreto
Ordiniamo i dati:
Calcoliamo i quartili:
1° quartile 0.25-percentile
2° quartile (mediana) 0.5-percentile
3° quartile 0.75-percentile
Allora è possibile considerare la mediana come indice di centralità e la nuova grandezza
, nota come l’ampiezza dell’intervallo interquartile [ ; ] rappresenta un indice di
variabilità indicando che in tale intervallo vi è il 50 % dei valori centrali del campione.
Nel caso specifico
L’utilizzo dei suddetti indici ha una efficace rappresentazione grafica, nota come box-plot,
che consente anche un rapido confronto tra campioni diversi ma omogenei.
Mo
da
lità
de
l ca
ratt
ere
Voto
(/30)
15
20
25
30
q1
q3
x1=min{xi}
Xn=max{xi}
mediana
Permette un rapido
confronto con i dati di
un altro campione
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 14
Indici di forma e di simmetria
Un'altra caratteristica interessante per descrivere i dati di un campione è la forma della
distribuzione delle frequenze (forma dell’istogramma).
Il riferimento usato per confrontare queste forme è la nota “forma a campana” in cui i
dati si distribuiscono in modo simmetrico rispetto ad un valore centrale e con un
andamento “tipico”.
L’andamento tipico è quella della
distribuzione normale di Gauss che
accenneremo nella sezione di
approfondimento, e la cui forma
funzionale è, per una variabile continua:
(8)
Quando i dati sono così o
approssimativamente così distribuiti si
dicono appunto normali o approssimativamente normali. Per una distribuzione normale
mediana e media coincidono e inoltre essa è caratterizzata solo da due parametri: valor
medio e deviazione standard (come si può vedere dalla forma funzionale).
Se una distribuzione di dati è approssimativamente normale, con media campionaria e
deviazione standard , allora vale la seguente regola empirica :
▪ Circa il 68% dei dati hanno valori compresi tra , cioè appartenenti
all’intervallo
▪ Circa il 95% dei dati hanno valori compresi tra , cioè appartenenti
all’intervallo
▪ Circa il 99.7% dei dati hanno valori compresi tra , cioè appartenenti
all’intervallo
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 15
Se una distribuzione si allontana dalla forma normale presenterà una asimmetria che la
porterà ad avere una coda a sinistra o a destra
Una asimmetria a sinistra è detta anche negativa, mentre una a destra anche positiva.
In questo caso la mediana e la media hanno valori distinti.
Se la media è inferiore alla mediana la distribuzione è asimmetrica negativa e viceversa.
Come possiamo costruire un indice di asimmetria ?
Vi sono diverse possibilità
Partiamo generalizzando il concetto di media e di varianza, considerandoli casi particolari
di una famiglia di valori calcolabili a partire da un campione di dati, ovvero i momenti
centrali di ordine k, cioè:
Dove
k=1 e ci permette di definire la media
k=2 è la definizione di varianza
Il momento centrale di ordine 3 può essere utilizzato per caratterizzare l’asimmetria della
distribuzione, in quanto l’elevamento alla terza potenza amplifica le distanze maggiori tra
il dato campionato e la media, così come riduce le distanze minori.
In generale risulterà positivo quando la distribuzione avrà una coda verso destra
distribuendo i dati più lontano dalla media, mentre risulterà negativo quando la coda
della distribuzione sarà verso sinistra.
Se, invece sarà vicino a zero, ciò indicherà che i dati sono distribuiti simmetricamente
intorno al valore centrale.
Nel caso particolare della distribuzione normale (8), si ha
mediana mediana
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 16
Poiché il momento si porta con se solitamente una dimensione, per consentire un
immediato confronto fra distribuzioni diverse, si definisce indice di asimmetria o skewness
la quantità adimensionale
Osserviamo che questo indice è invariante per una trasformazione lineare dei dati del
campione
ESEMPIO 9
I clienti di un supermercato sono stati classificati sulla base dell’entità delle loro spese
fatte in un giorno. I dati sono raccolti nella seguente tabella, dove sono state già
aggregati per classi e dove si è fissato un limite massimo di 160 euro
I dati Classe
Ik
(spesa in euro)
Frequenza
assoluta
Nk
Frequenza
relativa
fk
Valore
centrale
xk (euro)
Valore
centrale
(xk)2
Prodotto
ponderato
fkxk
Prodotto
ponderato
fk(xk)2
0 x < 20 165 0.233 10 100 2.33 23.3
20 x < 40 212 0.299 30 900 8.97 269.1
40 x < 60 129 0.182 50 2500 9.10 455.0
60 x < 80 78 0.110 70 4900 7.7 539.0
80 x < 100 56 0.079 90 8100 7.11 639.9
100 x < 120 32 0.045 110 12100 4.95 544.5
120 x < 140 25 0.035 130 16900 4.55 591.5
140 x < 160 12 0.017 150 22500 2.55 382.5
Totale 709 1 47.26 3444.8
Pertanto il valore medio vale
La varianza e la deviazione standard risultano:
Calcoliamo anche la mediana, per confronto:
classe modale 2a poiché
quindi
la differenza tra media e mediana ci suggerisce che la distribuzione dei dati sia
asimmetrica. Pertanto calcoliamo l’indice di asimmetria Classe
Ik
(spesa in euro)
Frequenza
assoluta
Nk
Frequenza
relativa
fk
Valore
centrale
xk (euro)
Scarto dalla
media
xk - x
Cubo dello
scarto
(xk – x)3
Prodotto
ponderato
fk(xk – x)3
0 x < 20 165 0.233 10 -37 -50653 -11802,15
20 x < 40 212 0.299 30 -17 -4913 -1468,987
40 x < 60 129 0.182 50 3 27 4,914
60 x < 80 78 0.110 70 23 12167 1338,37
80 x < 100 56 0.079 90 43 79507 6281,053
100 x < 120 32 0.045 110 63 250047 11252,12
120 x < 140 25 0.035 130 83 571787 20012,55
140 x < 160 12 0.017 150 103 1092727 18576,36
Totale 709 1 43194,256
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 17
E’ possibile ottenere anche una stima dell’indice di asimmetria tramite la seguente regola
(empirica) suggerita da Pearson
dove è la mediana
Ovviamente possono esistere modi diversi di esprimere l’asimmetria di una distribuzione di
frequenze.
Un'altra caratteristica della forma della distribuzione che può essere catturata è la Kurtosi.
La Kurtosi è un indice di forma che misura il peso relativo che ha le code della
distribuzione rispetto alla parte centrale, cioè quanto la distribuzione è a "punta" verso
l’alto.
In modo più analitico, la Kurtosi esprime l’ordine d’infinitesimo della densità di probabilità
di una variabile aleatoria, rispetto alla distribuzione normale, cioè se la densità in oggetto
tende a 0 “più o meno velocemente” di quella normale.
Calcoliamo l’indice di skewness
L’indice è positivo e maggiore di 1. Ciò ci dice che la distribuzione è (abbastanza)
asimmetrica positiva (coda a destra).
0,000
0,050
0,100
0,150
0,200
0,250
0,300
0,350
10 30 50 70 90 110 130 150
media = 47
mediana = 37
Applichiamo la stima proposta all’esempio precedente:
La stima sottostima il valore calcolato, ma in ogni caso esprime comunque l’asimmetria
positiva.
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 18
La Kurtosi si esprime come
Anche la Kurtosi è un invariante rispetto ad una trasformazione lineare dei dati.
La costante 3 nella formula indicata entra in gioco perché nel caso della distribuzione
normale vale 0.
In particolare si ha:
▪ KURT > 0 code leggere – appuntite
▪ KURT = 0 rapporto code/parte centrale come la normale
▪ KURT < 0 code pesanti
Anche per la Kurtosi si può proporre una stima empirica data dalla seguente relazione
KURT > 0
KURT = 0
KURT < 0
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 19
Correlazione tra più caratteri
Talvolta per lo stesso campione si osservano più caratteri (peso, altezza,…) e se i caratteri
sono quantitativi è naturale porsi il problema del’esistenza di una correlazione tra i
caratteri.
Nel caso in cui si suppone l’esistenza di un legame tra le grandezze, che può nascere
dall’osservazione dei dati od anche da informazioni esterne (es. informazioni provenienti
da ambiti scientifici che trattano lo studio delle grandezze in oggetto), deve essere
individuato il tipo “funzionale” della relazione.
Risolvere, quindi, il problema della correlazione tra caratteri significa individuare il legame
funzionale tra le grandezze coinvolte e fornire una misura della bontà del risultato
ottenuto.
Analizziamo inizialmente il caso più semplice, dove per ogni individuo di un campione
vengono osservate due grandezze:
carattere x campione
carattere y campione
Aggreghiamo i dati in un unico campione
Dove l’ordine tra le grandezze è del tutto arbitrario.
In primo luogo ci affidiamo ad una rappresentazione grafica per valutare la possibilità
che ci sia un qualche tipo di correlazione, riportando i dati su un grafico “cartesiano”
dove gli assi rappresentano i valori delle modalità di ogni carattere e ogni osservazione
congiunta (cioè che si riferisce allo stesso individuo del campione) costituisce un
punto del grafico stesso.
Questo tipo di grafico si chiama diagramma di dispersione o scatter plot.
x
y No apparente correlazione
x
y Si apparente correlazione
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 20
Il secondo diagramma evidenzia una certa regolarità: punti con ascissa piccola hanno
ordinata piccola e punti con ascissa grande hanno ordinata grande; in questo caso si
parla di correlazione diretta o positiva fra le due variabili.
Analogamente si potrà parlare di correlazione inversa o negativa fra le due grandezze.
Dallo stesso grafico si può ipotizzare una correlazione tra le due variabili di tipo lineare.
Correlazione lineare
Se i dati sono correlati in modo lineare allora sarà possibile determinare il valore di due
parametri, a e b, in modo tale che
Cioè i valori rilevati del carattere y possono essere approssimativamente dedotti da quelli
osservati per il carattere x, tramite la suddetta relazione.
La relazione funzionale rappresenta una retta del piano Oxy e sarà la retta
“che meglio si avvicina” ai dati a disposizione.
Tale retta è detta retta di regressione
Per trovare la retta di regressione è necessario dapprima definire un criterio di scelta,
ovvero definire cosa si intende per “avvicinamento migliore” ai dati.
E’ naturale considerare la differenza tra i dati sperimentali osservati di una grandezza e
quelli dedotti applicando la relazione prevista ai dati dell’altro carattere, cioè
dove il simbolo e sta a indicare l’errore che si commette applicando la dipendenza
lineare.
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 21
Un criterio adeguato potrebbe essere di minimizzare la somma di tutte le suddette
differenze
Questo criterio non consente di avere una unica soluzione al problema di determinare i
coefficienti a e b. Infatti se consideriamo solo due punti, è ovvio che la retta migliore è
quella che passa per i punti stessi, ma qualunque altra retta che passa per il punto medio
dei due punti fornisce ugualmente un valore nullo allo suddetta somma che quindi la
minimizza.
Allo stesso modo se si considera la somma dei moduli degli errori come funzione obiettivo
da minimizzare, e cioè
, si ha ancora una infinità di soluzioni al
problema. Basta pensare al caso di 4 punti, dove qualunque retta compresa tra le due
che uniscono i punti a due a due soddisfa il suddetto criterio.
Il criterio migliore e coerente da utilizzare è quello noto come CRITERIO DEI MINIMI
QUADRATI, cioè quello di minimizzare la funzione obiettivo
Quindi, sintetizzando, si può dire che la retta di regressione o la retta dei minimi quadrati è
la retta di equazione per la quale è minima la quantità
Matematicamente il problema si risolve considerando la funzione obiettivo come funzione
delle due variabili a e b:
E quindi ricercando il minimo della stessa funzione.
Condizione necessaria affinché un punto (a,b) sia un minimo per F(a,b) è che le derivate
parziali rispetto alle variabili indipendenti si annullino (matrice Jacobiana nulla):
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 22
Osserviamo che
Inoltre si definisce la nuova quantità, rilevante nei problemi di correlazione, nota come
covarianza di x e y
La cui definizione di base è:
Infatti
–
Riformuliamo quindi le espressioni per i coefficienti della retta di regressione:
(9)
Le condizioni espresse nella (9) garantiscono anche che la matrice hessiana sia definita
positiva, cioè che il punto critico individuato sia un punto di minimo,
La retta passa per il
punto
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 23
Lo studio autonomo della covarianza fornisce alcune informazioni che vanno oltre la
caratterizzazione della retta d’interpolazione, ovvero consente di classificare il tipo di
correlazione. Infatti:
Se la retta di regressione è orizzontale (il coefficiente angolare della retta
è nullo) e in un certo senso i valori di y non dipendono da quelli di x, cioè le
grandezze non sono correlate.
Questo accadrebbe, come esempio, se x e y fossero l’esito del lancio di due dadi.
Questa situazione può nascondere però una altra situazione, ovvero che la
dipendenza tra le due grandezze non sia considerabile lineare. La figura di seguito
indica una chiara correlazione quadratica, ma la covarianza risulta ugualmente
nulla.
Se allora anche il coefficiente angolare della retta è positivo e quindi la
funzione è crescente. In questo caso la correlazione si dice diretta o positiva (es.
peso vs altezza)
x
y xy 0
x
y xy 0
x
y xy > 0
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 24
Se allora anche il coefficiente angolare della retta è negativo e quindi la
funzione è decrescente. In questo caso la correlazione si dice inversa o negativa
(es. vs altezza)
Un altro parametro significativo nei problemi d’interpolazione di grandezze è il
coefficiente di correlazione dei caratteri x e y
Poiché in generale
Quindi
Se allora si ha scarsa correlazione tra i caratteri
Se allora si ha una ottima correlazione (antagonista) tra i caratteri
Se allora si ha una ottima correlazione (all’unisono) dei caratteri
L’uso del coefficiente di correlazione è diffuso proprio perché fornisce un indice
immediato della bontà della correlazione (lineare). Se il suo valore senza segno è molto
vicino a 1 indica una alta probabilità dell’effettivo legame lineare tra le grandezze.
Inoltre il coefficiente di correlazione è insensibile ad eventuali cambiamenti della scale di
misura della x e/o della y, a differenza della covarianza.
x
y xy < 0
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 25
ESEMPIO 10
Ad una persona mentre cammina vengono misurate la velocità del movimento e la
quantità di ossigeno consumata. C’è una correlazione tra le due grandezze ?
I dati (velocità in km/h e quantità di ossigeno in litri/h)
Velocità
(km/h) Ossigeno
(litri/h)
0 19
1 20
2 20.5
3 21.5
4 22
5 23
6 23
7 23.5
8 24
x y
Proviamo a correlare le grandezze in modo lineare, costruendo la seguente tabella
che racchiude tutti i valori necessari
xi yi xi yi xi2 yi
2 0 19 0 0 361
1 20 20 1 400
2 20.5 41 4 420.25
3 21.5 64.5 9 462.25
4 22 88 16 484
5 23 115 25 529
6 23 138 36 529
7 23.5 164.5 49 552.25
8 24 192 64 576
Somma 36 196.5 823 204 4313.75
Da cui;
media campionaria della grandezza x
media campionaria della grandezza y
= 91.444
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 26
Varianza campionaria della grandezza x
Deviazione standard della grandezza x
Varianza campionaria della grandezza y
Deviazione standard della grandezza y
Covarianza
I coefficienti della retta di regressione sono ora calcolabili come
Pertanto la retta di regressione è
Il coefficiente di correlazione relativo è:
La correlazione è buona!
y = 0,6167x + 19,367 R² = 0,9709
15
16
17
18
19
20
21
22
23
24
25
0 1 2 3 4 5 6 7 8 9
Co
nsu
mo
oss
ige
no
(lit
ri/h
)
Velocità (km/h)
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 27
Regressione polinomiale e metodi di linearizzazione
Lo stesso principio dei minimi quadrati si può applicare per stimare i coefficienti di una
interpolazione tramite un polinomio di grado n.
Consideriamo, come esempio, il caso di una dipendenza quadratica:
Legame funzionale
Funzione obiettivo da minimizzare
Sistema lineare da risolvere (matrice Jacobiana nulla)
Se la legge funzionale ipotizzata non è polinomiale ma ti tipo potenza si può
procedere alla linearizzazione e quindi applicare i suddetti metodi di interpolazione.
In particolare, la linearizzazione è effettuata utilizzando il logaritmo naturale:
Legame funzionale
Trasformazione della legge d’interpolazione
Rinominando le variabili
e i parametri
si ottiene la relazione lineare .
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 28
Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione
iniziale
Se la legge funzionale è di tipo esponenziale si procede analogamente:
Legame funzionale
Trasformazione della legge d’interpolazione
Rinominando le variabili
e i parametri
si ottiene la relazione lineare .
Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione
iniziale
Altri casi d’interesse:
▪
▪
▪
▪
▪
▪
Note di Statistica e Calcolo della probabilità
Bologna, 18 Febbraio 2013 29
Obiettivi dell’incontro
Ulteriori indici di posizione
Indici di dispersione o di variabilità
Varianza e deviazione standard
Intervallo interquartile
Indici di forma e simmetria
Correlazione lineare tra grandezze
Covarianza e coefficiente di correlazione
Interpolazione polinomiale e linearizzazione
APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassi