Appunti statistica descrittiva 2

Note di Statistica e Calcolo della probabilità

Bologna, 18 Febbraio 2013 1

DATI e PREVISIONI

Note di base sulla Statistica e Calcolo della probabilità

2° Incontro: Indici statistici. Correlazione tra dati

Enrico Smargiassi



Indici Statistici

Percentili

I percentili sono indici statistici di posizione non centrale che si definiscono similmente alla

mediana che ne è un caso particolare.

In generale si definirà (con ) il più piccolo valore dei

dati ordinati, , tale che la percentuale 100 di dati sia minore o uguale a

Più in particolare si fa uso spesso di:

primo quartile che è il valore del campione di dati per cui il numero di dati

con valore inferiore o uguale a è almeno il 25%

terzo quartile che è il valore del campione di dati per cui il numero di dati

con valore inferiore o uguale a è almeno il 75%

secondo quartile che è il valore mediano del campione,

Anche in questo calcolo, come per la mediana, se non è un numero intero si prende

come valore del percentile il valore successivo, ovvero

Se se è invece un numero intero si può prendere come valore del percentile

qualunque valore compreso tra (compreso) e ; solitamente si fa uso del valore

più piccolo o del valore medio (aritmetico)

ESEMPIO 6

Carattere osservato peso in g di bambini nati in un dato ospedale in un mese

Campione di dati

Cardinalità n = 30

Tipo di dato quantitativo continuo

Ordiniamo i dati:

Calcoliamo alcuni percentili:

1° quartile 0.25-percentile

2° quartile (mediana) 0.5-percentile


0.10-percentile



Aggreghiamo e rappresentiamo graficamente i dati.

Il campo di variazione dei dati è l’intervallo [1800; 5000] di ampiezza 3200 g

La regola di Sturges:

ci suggerisce il numero di classi che

fissiamo a 6. Ogni classe potrebbe avere un’ampiezza di

Considerando i dati a disposizione scegliamo 500 come ampiezza di una classe.

Classe

Ik

Frequenza

assoluta

Nk

Frequenza

relativa

fk

Frequenza

percentuale

f% k

Frequenza

relativa

cumulativa

1800 x < 2300 3

10 % 0.10

2300 x < 2800 6

200 % 0.30

2800 x < 3300 7

23 % 0.53

3300 x < 3800 6

20 % 0.73

3800 x < 4300 5

17 % 0.90

x 4300 3

10 % 1.00

Totale 30 1 100 %

0

0,05

0,1

0,15

0,2

0,25

2050 2550 3050 3550 4050 4850

Peso (g)

Frequenza relativa fi

0.10-percentile

2230

1° quartile

2760

mediana

3220

3° quartile

3860



Indici di dispersione o di variabilità

Consideriamo di prendere la media campionaria come indice di centralità del campione

dei dati. E’ ovvio che tale indice non è sufficiente per caratterizzare completamente il

campione, poiché ci sono campioni che hanno lo stesso valor medio, ma con dati

distribuiti in modo molto diverso rispetto al valore “centrale”.

E’ necessario, quindi, fornire una misura di questa dispersione del campione.

Vi sono molti modi per valutare la dispersione, ma generalmente si parte dagli

scostamenti che i dati hanno rispetto al valore centrale scelto, ovvero

Considerandoli senza segno per evitare compensazioni, cioè

Sembra ragionevole considerare allora la media di tutti gli scostamenti come misura di

dispersione:

Questo valore è un primo indice di dispersione noto come Scarto medio assoluto.

Si può matematicamente evitare di maneggiare il modulo dei dati (il modulo non è

additivo, non è derivabile,…), considerando il quadrato degli scarti.

Si ottiene così la definizione di varianza.

Varianza campionaria

(4)

si usa talvolta il simbolo per riferirsi al campione in oggetto.

Se i dati hanno una dimensione allora anche la varianza ha una dimensione, la stessa di x

al quadrato (es. x m m2)

Pertanto si utilizza invece della varianza la sua radice quadrata che ha la stessa

dimensione dei dati.

Scarto quadratico medio (o deviazione standard)

(5)

Il termine deviazione standard è più usato in ambito della statistica inferenziale.

Tanto maggiore è la distanza media dei dati dal “suo centro”, maggiore è il valore della

varianza, che appunto fornisce una misura della dispersione o variabilità del campione.

Nel caso di dati aggregati, secondo le modalità o le classi, valgono le seguenti relazioni

per il calcolo della varianza e lo scarto quadratico medio, dove k indica il numero delle

modalità o di classi:



(6)

Molto spesso, nel calcolo della varianza si usa una espressione che prevede

dove l’uso di n-1 piuttosto che n è giustificato e più idoneo

nell’ambito della statistica inferenziale, dove si affronta il problema della stima dei

parametri delle distribuzioni.

Nel caso di un’analisi dati di tipo solo descrittivo continuiamo ad utilizzare l’espressione (4)

Alcune proprietà della varianza

1. Formula pratica per il calcolo della varianza

-

Pertanto

(7)

Cioè la varianza è calcolabile come la media dei quadrati dei dati diminuita del

quadrato della media.

2. Trasformazione della varianza al cambiamento lineare della base dati

Se x è una variabile con un campione di dati e i dati sono traslati di un

offset con conseguente modifica del campione di dati

allora la varianza rimane inalterata, cioè

(la dispersione non cambia per

un offset!)

Infatti:

Se invece la trasformazione dei dati riguarda una trasformazione di scala,

allora la relazione delle varianze è data da

Infatti:

dove in entrambe le relazioni si è sfruttata la proprietà della media per una

trasformazione lineare dei dati.

= n = n



3. La varainza come minimo di un funzionale

Se consideriamo la funzione reale a valore reale:

definita per un dato campione di dati.

Allora V(x) assume valore minimo per

cioè quando lo

scostamento è calcolato rispetto al valore medio.

Infatti:

4. Variabile standardizzata

Se invece della variabile osservata x, relativa al campione

si considera la variabile:

con campione di dati

allora quest’ultima è una variabile centrata e ridotta, cioè con media nulla e

varainza unitaria.

Infatti:

dove si sono sfruttate le proprietà della media e della varianza.

5. Coefficiente di variazione

Come indice di dispersione di un campione si può utilizzare anche il rapporto dello

scarto quadratico medio con la media campionaria, ovvero:

Il coefficiente di variazione esprime la deviazione standard come percentuale

della media. Essendo misurate con la stessa unità di misura, cv è un indice

adimensionale e quindi si presta ad essere utilizzato per confrontare la dispersione

di campioni diversi e non omogenei.

OSSERVAZIONE

Se consideriamo la funzione somma degli scostamenti in modulo

allora essa è minima quando si prende x uguale alla mediana dei dati

disposizione.



ESEMPIO 7

Carattere osservato tempi in minuti per l’esecuzione di un determinato processo di

lavorazione

Campione di dati

Cardinalità n = 10

Tipo di dato quantitativo discreto

Indici di posizione e di dispersione disponiamo i dati in una tabella (numero di dati

limitato)

(min)

2.6 6.76

1.8 3.24

2.1 4.41

1.5 2.25

2.8 7.84

3.0 9.00

1.2 1.44

1.9 3.61

2.3 5.29

2.8 7.84 Somma 22.0 51.68

E’ ragionevole dedurre che il campione è poco disperso intorno al suo valore centrale

Media

Varianza

Scarto quadratico medio

Coefficiente di variazione



PROBLEMA 9

Per la partecipazione a una gara di chimica una scuola deve proporre una squadra di 6

alunni di una stessa classe. La scuola organizza un test preliminare per scegliere la

squadra. Il test che ha un punteggio massimo di 100 punti, ha permesso di individuare 3

classi sulla media dei migliori 6 punteggi conseguiti dagli alunni di una stessa classe.

Questo valore medio è però uguale per le tre squadre che quindi risultano a pari merito.

Con quale criterio può essere scelta la squadra da mandare alla gara?

I dati (punteggi nel test)

Classe A Classe B Classe C

Pu

nte

gg

io a

lun

ni

(/100)

(/100)

(/100)

72 5184 74 5476 73 5329

75 5625 75 5625 76 5776

78 6084 80 6400 79 6241

83 6889 81 6561 82 6724

84 7056 83 6889 84 7056

86 7396 85 7225 84 7056 Somma 478 38234 478 38176 478 38182

Per ciascuna classe il punteggio medio del test è stato

Mentre la varianza risulta essere:

Sebbene di poco è ragionevole scegliere la classe B perché ha una dispersione inferiore

e quindi il team offre maggiori garanzie di successo.



PROBLEMA 10

Una azienda produce pistoncini e deve fornire, come specifiche, le caratteristiche

dimensionali del prodotto. Per questo si effettua un test a campione prendendo la

misura della lunghezza di 40 pistoncini scelti casualmente.

I dati (lunghezze in cm)

Calcoliamo la media e lo scarto quadratico medio.

La numerosità del campione ci permetterebbe anche di dividere in classi il nostro

carattere osservato, ma la precisione del problema impone un calcolo puntuale, dato

per dato:

(cm)

(cm)

(cm)

(cm)

2.08 4.3264 2.11 4.4521 2.03 4.1209 2.08 4.3264

2.07 4.2849 2.10 4.41 2.10 4.41 2.14 4.5796

2.11 4.4521 2.12 4.4944 2.07 4.2849 2.07 4.2849

2.09 4.3681 2.15 4.6225 2.13 4.5369 2.11 4.4521

2.10 4.41 2.07 4.2849 2.09 4.3681 2.13 4.5369

2.05 4.2025 2.06 4.2436 2.05 4.2025 2.08 4.3264

2.12 4.4944 2.10 4.41 2.11 4.4521 2.09 4.3681

2.06 4.2436 2.08 4.3264 2.10 4.41 2.10 4.41

2.05 4.2025 2.09 4.3681 2.09 4.3681 2.15 4.6225

2.09 4.3681 2.13 4.5369 2.02 4.0804 2.03 4.1209

somma 20.82 43.3526 21.01 44.1489 20.79 43.2339 20.98 44.0278

Valore medio

Varianza

Da questa semplice analisi si può supporre che la lunghezza “tipica” prodotta sia 2.09

cm, ma sicuramente non è molto corretto affermare che l’errore associato sia 0.03 cm,

ovvero descrivere le dimensioni del pistoncino come (2.09 0.03) cm.

Per approfondire la situazione domandiamoci quanti dati del nostro campione rientrano

nell’intervallo , e quanti rientrano

nell’intervallo ?



Visualizziamo graficamente

Il numero di dati campione che rientrano nell’intervallo sono 28 mentre

quelli che rientrano nell’intervallo sono 39.

Pertanto il prodotto può essere commercializzato indicando come specifica

dimensionale il valore di cioè (2.090.06) cm.

[NOTA Qui non si parla di tolleranza meccanica ma di un errore da associare

statisticamente, dovuto a componenti casuali]

2,01

2,02

2,03

2,04

2,05

2,06

2,07

2,08

2,09

2,10

2,11

2,12

2,13

2,14

2,15

2,16

0 5 10 15 20 25 30 35 40

lun

ghe

zza

(cm

)

N. dato

PROBLEMA 11

Una ditta che si occupa di trasporti e logistica deve decidere se far pagare il trasporto

di alcuni pacchi prodotti da una Azienda in termini di peso o di volume.

Pertanto deve analizzare se la maggiore variabilità si ha relativamente al peso o al

volume dei pacchi da trasportare in un determinato tempo (es. settimana).

I dati (peso e volume)



Poiché le grandezze d’interesse sono diverse (anche se correlate)ed utilizzano unità di

misura diverse, non è possibile confrontare direttamente l’indice di dispersione fornito

dallo scarto quadratico medio.

Ricorriamo quindi al coefficiente di variazione che è un indice senza dimensione:

Si deduce che si ha una maggiore variabilità nel volume dei pacchi rispetto al loro

peso.

Converrebbe (dal punto di vista di chi fornisce il servizio del trasporto) differenziare le

tariffe in funzione del volume dei pacchi.

PROBLEMA 12

Caratterizzare la quantità di grassi nel latte di un allevamento bovino di mucche di 3

anni.

I dati (percentuale di grassi % raccolti in un giorno per ogni bovino)

4.32 3.96 3.74 4.10 4.33 4.23 4.28 4.15 4.49 4.67 4.24 4.48 4.12 4.10 4.09

4.42 4.00 4.16 4.67 4.03 4.29 4.05 4.11 4.29 3.89 4.20 4.33 3.86 3.99 3.91

3.88 3.74 4.42 4.27 3.97 4.24 4.00 4.02 3.87 3.81 4.81 4.25 4.10 4.40 4.70

4.09 4.38 4.32 5.00 4.60 4.00 4.71 4.38 4.06 3.97 4.31 4.30 4.41 4.24 4.20

4.51 4.24 3.94 4.17 4.06 3.93 4.38 4.22 3.95 4.35 4.09 4.28 4.18 3.56 3.99

4.38 4.46 3.96 4.16 4.08 3.97 3.70 4.17 3.86 4.05 3.89 3.82 4.33 3.58 4.60

3.89 4.20 4.14 3.57 4.38 3.91 4.34 3.98 3.72 4.82 3.66 3.77 3.97 4.91 4.52

3.66 4.20 3.83 3.97 4.36 4.05 4.58 3.70 4.07 3.89 4.66 3.92 4.09 4.88 4.58

Cardinalità 120

Poiché i dati sono numerosi e la quantità sotto osservazione è considerabile continua,

aggreghiamo i dati raccolti tramite classi della grandezza osservata.

Determiniamo inizialmente il range di variabilità del nostro campione e il numero

adeguato di classi.

Range di variabilità [3.56; 5.00]

Numero di classi regola di Sturges



La media e lo scarto quadratico medio sono i due indici di posizione e di dispersione più

usati.

Uno dei motivi principali è che la distribuzione normale, che viene largamente utilizzata in

molti campi diversi, è definita in termini di questi due parametri.

Nell’elaborazione pura dei dati di un campione si possono usare altri indici, sia di posizione

come abbiamo già visto, e sia di variabilità.

In particolare vediamo come si possa usare la mediana e i percentili per sintetizzare i dati

di un campione.

Ogni classe avrà una ampiezza di

Costruiamo ora la tabella della frequenza, aggiungendo anche i dati necessari per

determinare gli indici statistici che interessano

Classe

Ik

Frequenza

assoluta

Nk

Frequenza

relativa

fk

Valore

centrale

xk (%)

Valore

centrale

(xk)2

Prodotto

ponderato

fkxk

Prodotto

ponderato

fk(xk)2

3.56 x < 3.74 8 0.067 3.65 13.3225 0.24455 0.892608

3.74 x < 3.92 16 0.133 3.83 14.6689 0.50939 1.950964

3.92 x < 4.10 30 0.250 4.01 16.0801 1.00250 4.020025

4.10 x < 4.28 24 0.200 4.19 17.5561 0.83800 3.511220

4.28 x < 4.46 22 0.183 4.37 19.0969 0.79971 3.494733

4.46 x < 4.64 8 0.067 4.55 20.7025 0.30485 1.387068

4.64 x < 4.82 5 0.042 4.73 22.3729 0.19866 0.939662

x 4.82 7 0.058 4.91 24.1081 0.28478 1.398270

Totale 120 1 4.18240 17.5945

Calcoliamo la media campionaria della percentuale di grassi

Calcoliamo la varianza e lo scarto quadratico medio della percentuale di grassi

Le nostre mucche hanno quindi un contenuto percentuale medio di grassi pari a 4.18 %

Con una dispersione di circa 0.32 %



ESEMPIO 8

Carattere osservato esito di un esame universitario scritto giudicato sufficiente per

sostenere il dialogo orale

Campione di dati

Cardinalità n = 35

Tipo di dato quantitativo discreto

Ordiniamo i dati:

Calcoliamo i quartili:


2° quartile (mediana) 0.5-percentile


Allora è possibile considerare la mediana come indice di centralità e la nuova grandezza

, nota come l’ampiezza dell’intervallo interquartile [ ; ] rappresenta un indice di

variabilità indicando che in tale intervallo vi è il 50 % dei valori centrali del campione.

Nel caso specifico

L’utilizzo dei suddetti indici ha una efficace rappresentazione grafica, nota come box-plot,

che consente anche un rapido confronto tra campioni diversi ma omogenei.

Mo

da

lità

de

l ca

ratt

ere

Voto

(/30)

15

20

25

30

q1

q3

x1=min{xi}

Xn=max{xi}

mediana

Permette un rapido

confronto con i dati di

un altro campione



Indici di forma e di simmetria

Un'altra caratteristica interessante per descrivere i dati di un campione è la forma della

distribuzione delle frequenze (forma dell’istogramma).

Il riferimento usato per confrontare queste forme è la nota “forma a campana” in cui i

dati si distribuiscono in modo simmetrico rispetto ad un valore centrale e con un

andamento “tipico”.

L’andamento tipico è quella della

distribuzione normale di Gauss che

accenneremo nella sezione di

approfondimento, e la cui forma

funzionale è, per una variabile continua:

(8)

Quando i dati sono così o

approssimativamente così distribuiti si

dicono appunto normali o approssimativamente normali. Per una distribuzione normale

mediana e media coincidono e inoltre essa è caratterizzata solo da due parametri: valor

medio e deviazione standard (come si può vedere dalla forma funzionale).

Se una distribuzione di dati è approssimativamente normale, con media campionaria e

deviazione standard , allora vale la seguente regola empirica :

▪ Circa il 68% dei dati hanno valori compresi tra , cioè appartenenti

all’intervallo

▪ Circa il 95% dei dati hanno valori compresi tra , cioè appartenenti

all’intervallo

▪ Circa il 99.7% dei dati hanno valori compresi tra , cioè appartenenti

all’intervallo



Se una distribuzione si allontana dalla forma normale presenterà una asimmetria che la

porterà ad avere una coda a sinistra o a destra

Una asimmetria a sinistra è detta anche negativa, mentre una a destra anche positiva.

In questo caso la mediana e la media hanno valori distinti.

Se la media è inferiore alla mediana la distribuzione è asimmetrica negativa e viceversa.

Come possiamo costruire un indice di asimmetria ?

Vi sono diverse possibilità

Partiamo generalizzando il concetto di media e di varianza, considerandoli casi particolari

di una famiglia di valori calcolabili a partire da un campione di dati, ovvero i momenti

centrali di ordine k, cioè:

Dove

k=1 e ci permette di definire la media

k=2 è la definizione di varianza

Il momento centrale di ordine 3 può essere utilizzato per caratterizzare l’asimmetria della

distribuzione, in quanto l’elevamento alla terza potenza amplifica le distanze maggiori tra

il dato campionato e la media, così come riduce le distanze minori.

In generale risulterà positivo quando la distribuzione avrà una coda verso destra

distribuendo i dati più lontano dalla media, mentre risulterà negativo quando la coda

della distribuzione sarà verso sinistra.

Se, invece sarà vicino a zero, ciò indicherà che i dati sono distribuiti simmetricamente

intorno al valore centrale.

Nel caso particolare della distribuzione normale (8), si ha

mediana mediana



Poiché il momento si porta con se solitamente una dimensione, per consentire un

immediato confronto fra distribuzioni diverse, si definisce indice di asimmetria o skewness

la quantità adimensionale

Osserviamo che questo indice è invariante per una trasformazione lineare dei dati del

campione

ESEMPIO 9

I clienti di un supermercato sono stati classificati sulla base dell’entità delle loro spese

fatte in un giorno. I dati sono raccolti nella seguente tabella, dove sono state già

aggregati per classi e dove si è fissato un limite massimo di 160 euro

I dati Classe

Ik

(spesa in euro)

Frequenza

assoluta

Nk

Frequenza

relativa

fk

Valore

centrale

xk (euro)

Valore

centrale

(xk)2

Prodotto

ponderato

fkxk

Prodotto

ponderato

fk(xk)2

0 x < 20 165 0.233 10 100 2.33 23.3

20 x < 40 212 0.299 30 900 8.97 269.1

40 x < 60 129 0.182 50 2500 9.10 455.0

60 x < 80 78 0.110 70 4900 7.7 539.0

80 x < 100 56 0.079 90 8100 7.11 639.9

100 x < 120 32 0.045 110 12100 4.95 544.5

120 x < 140 25 0.035 130 16900 4.55 591.5

140 x < 160 12 0.017 150 22500 2.55 382.5

Totale 709 1 47.26 3444.8

Pertanto il valore medio vale

La varianza e la deviazione standard risultano:

Calcoliamo anche la mediana, per confronto:

classe modale 2a poiché

quindi

la differenza tra media e mediana ci suggerisce che la distribuzione dei dati sia

asimmetrica. Pertanto calcoliamo l’indice di asimmetria Classe

Ik

(spesa in euro)

Frequenza

assoluta

Nk

Frequenza

relativa

fk

Valore

centrale

xk (euro)

Scarto dalla

media

xk - x

Cubo dello

scarto

(xk – x)3

Prodotto

ponderato

fk(xk – x)3

0 x < 20 165 0.233 10 -37 -50653 -11802,15

20 x < 40 212 0.299 30 -17 -4913 -1468,987

40 x < 60 129 0.182 50 3 27 4,914

60 x < 80 78 0.110 70 23 12167 1338,37

80 x < 100 56 0.079 90 43 79507 6281,053

100 x < 120 32 0.045 110 63 250047 11252,12

120 x < 140 25 0.035 130 83 571787 20012,55

140 x < 160 12 0.017 150 103 1092727 18576,36

Totale 709 1 43194,256



E’ possibile ottenere anche una stima dell’indice di asimmetria tramite la seguente regola

(empirica) suggerita da Pearson

dove è la mediana

Ovviamente possono esistere modi diversi di esprimere l’asimmetria di una distribuzione di

frequenze.

Un'altra caratteristica della forma della distribuzione che può essere catturata è la Kurtosi.

La Kurtosi è un indice di forma che misura il peso relativo che ha le code della

distribuzione rispetto alla parte centrale, cioè quanto la distribuzione è a "punta" verso

l’alto.

In modo più analitico, la Kurtosi esprime l’ordine d’infinitesimo della densità di probabilità

di una variabile aleatoria, rispetto alla distribuzione normale, cioè se la densità in oggetto

tende a 0 “più o meno velocemente” di quella normale.

Calcoliamo l’indice di skewness

L’indice è positivo e maggiore di 1. Ciò ci dice che la distribuzione è (abbastanza)

asimmetrica positiva (coda a destra).

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

10 30 50 70 90 110 130 150

media = 47

mediana = 37

Applichiamo la stima proposta all’esempio precedente:

La stima sottostima il valore calcolato, ma in ogni caso esprime comunque l’asimmetria

positiva.



La Kurtosi si esprime come

Anche la Kurtosi è un invariante rispetto ad una trasformazione lineare dei dati.

La costante 3 nella formula indicata entra in gioco perché nel caso della distribuzione

normale vale 0.

In particolare si ha:

▪ KURT > 0 code leggere – appuntite

▪ KURT = 0 rapporto code/parte centrale come la normale

▪ KURT < 0 code pesanti

Anche per la Kurtosi si può proporre una stima empirica data dalla seguente relazione

KURT > 0

KURT = 0

KURT < 0



Correlazione tra più caratteri

Talvolta per lo stesso campione si osservano più caratteri (peso, altezza,…) e se i caratteri

sono quantitativi è naturale porsi il problema del’esistenza di una correlazione tra i

caratteri.

Nel caso in cui si suppone l’esistenza di un legame tra le grandezze, che può nascere

dall’osservazione dei dati od anche da informazioni esterne (es. informazioni provenienti

da ambiti scientifici che trattano lo studio delle grandezze in oggetto), deve essere

individuato il tipo “funzionale” della relazione.

Risolvere, quindi, il problema della correlazione tra caratteri significa individuare il legame

funzionale tra le grandezze coinvolte e fornire una misura della bontà del risultato

ottenuto.

Analizziamo inizialmente il caso più semplice, dove per ogni individuo di un campione

vengono osservate due grandezze:

carattere x campione

carattere y campione

Aggreghiamo i dati in un unico campione

Dove l’ordine tra le grandezze è del tutto arbitrario.

In primo luogo ci affidiamo ad una rappresentazione grafica per valutare la possibilità

che ci sia un qualche tipo di correlazione, riportando i dati su un grafico “cartesiano”

dove gli assi rappresentano i valori delle modalità di ogni carattere e ogni osservazione

congiunta (cioè che si riferisce allo stesso individuo del campione) costituisce un

punto del grafico stesso.

Questo tipo di grafico si chiama diagramma di dispersione o scatter plot.

x

y No apparente correlazione

x

y Si apparente correlazione



Il secondo diagramma evidenzia una certa regolarità: punti con ascissa piccola hanno

ordinata piccola e punti con ascissa grande hanno ordinata grande; in questo caso si

parla di correlazione diretta o positiva fra le due variabili.

Analogamente si potrà parlare di correlazione inversa o negativa fra le due grandezze.

Dallo stesso grafico si può ipotizzare una correlazione tra le due variabili di tipo lineare.

Correlazione lineare

Se i dati sono correlati in modo lineare allora sarà possibile determinare il valore di due

parametri, a e b, in modo tale che

Cioè i valori rilevati del carattere y possono essere approssimativamente dedotti da quelli

osservati per il carattere x, tramite la suddetta relazione.

La relazione funzionale rappresenta una retta del piano Oxy e sarà la retta

“che meglio si avvicina” ai dati a disposizione.

Tale retta è detta retta di regressione

Per trovare la retta di regressione è necessario dapprima definire un criterio di scelta,

ovvero definire cosa si intende per “avvicinamento migliore” ai dati.

E’ naturale considerare la differenza tra i dati sperimentali osservati di una grandezza e

quelli dedotti applicando la relazione prevista ai dati dell’altro carattere, cioè

dove il simbolo e sta a indicare l’errore che si commette applicando la dipendenza

lineare.



Un criterio adeguato potrebbe essere di minimizzare la somma di tutte le suddette

differenze

Questo criterio non consente di avere una unica soluzione al problema di determinare i

coefficienti a e b. Infatti se consideriamo solo due punti, è ovvio che la retta migliore è

quella che passa per i punti stessi, ma qualunque altra retta che passa per il punto medio

dei due punti fornisce ugualmente un valore nullo allo suddetta somma che quindi la

minimizza.

Allo stesso modo se si considera la somma dei moduli degli errori come funzione obiettivo

da minimizzare, e cioè

, si ha ancora una infinità di soluzioni al

problema. Basta pensare al caso di 4 punti, dove qualunque retta compresa tra le due

che uniscono i punti a due a due soddisfa il suddetto criterio.

Il criterio migliore e coerente da utilizzare è quello noto come CRITERIO DEI MINIMI

QUADRATI, cioè quello di minimizzare la funzione obiettivo

Quindi, sintetizzando, si può dire che la retta di regressione o la retta dei minimi quadrati è

la retta di equazione per la quale è minima la quantità

Matematicamente il problema si risolve considerando la funzione obiettivo come funzione

delle due variabili a e b:

E quindi ricercando il minimo della stessa funzione.

Condizione necessaria affinché un punto (a,b) sia un minimo per F(a,b) è che le derivate

parziali rispetto alle variabili indipendenti si annullino (matrice Jacobiana nulla):



Osserviamo che

Inoltre si definisce la nuova quantità, rilevante nei problemi di correlazione, nota come

covarianza di x e y

La cui definizione di base è:

Infatti

–

Riformuliamo quindi le espressioni per i coefficienti della retta di regressione:

(9)

Le condizioni espresse nella (9) garantiscono anche che la matrice hessiana sia definita

positiva, cioè che il punto critico individuato sia un punto di minimo,

La retta passa per il

punto



Lo studio autonomo della covarianza fornisce alcune informazioni che vanno oltre la

caratterizzazione della retta d’interpolazione, ovvero consente di classificare il tipo di

correlazione. Infatti:

Se la retta di regressione è orizzontale (il coefficiente angolare della retta

è nullo) e in un certo senso i valori di y non dipendono da quelli di x, cioè le

grandezze non sono correlate.

Questo accadrebbe, come esempio, se x e y fossero l’esito del lancio di due dadi.

Questa situazione può nascondere però una altra situazione, ovvero che la

dipendenza tra le due grandezze non sia considerabile lineare. La figura di seguito

indica una chiara correlazione quadratica, ma la covarianza risulta ugualmente

nulla.

Se allora anche il coefficiente angolare della retta è positivo e quindi la

funzione è crescente. In questo caso la correlazione si dice diretta o positiva (es.

peso vs altezza)

x

y xy 0

x

y xy 0

x

y xy > 0



Se allora anche il coefficiente angolare della retta è negativo e quindi la

funzione è decrescente. In questo caso la correlazione si dice inversa o negativa

(es. vs altezza)

Un altro parametro significativo nei problemi d’interpolazione di grandezze è il

coefficiente di correlazione dei caratteri x e y

Poiché in generale

Quindi

Se allora si ha scarsa correlazione tra i caratteri

Se allora si ha una ottima correlazione (antagonista) tra i caratteri

Se allora si ha una ottima correlazione (all’unisono) dei caratteri

L’uso del coefficiente di correlazione è diffuso proprio perché fornisce un indice

immediato della bontà della correlazione (lineare). Se il suo valore senza segno è molto

vicino a 1 indica una alta probabilità dell’effettivo legame lineare tra le grandezze.

Inoltre il coefficiente di correlazione è insensibile ad eventuali cambiamenti della scale di

misura della x e/o della y, a differenza della covarianza.

x

y xy < 0



ESEMPIO 10

Ad una persona mentre cammina vengono misurate la velocità del movimento e la

quantità di ossigeno consumata. C’è una correlazione tra le due grandezze ?

I dati (velocità in km/h e quantità di ossigeno in litri/h)

Velocità

(km/h) Ossigeno

(litri/h)

0 19

1 20

2 20.5

3 21.5

4 22

5 23

6 23

7 23.5

8 24

x y

Proviamo a correlare le grandezze in modo lineare, costruendo la seguente tabella

che racchiude tutti i valori necessari

xi yi xi yi xi2 yi

2 0 19 0 0 361

1 20 20 1 400

2 20.5 41 4 420.25

3 21.5 64.5 9 462.25

4 22 88 16 484

5 23 115 25 529

6 23 138 36 529

7 23.5 164.5 49 552.25

8 24 192 64 576

Somma 36 196.5 823 204 4313.75

Da cui;

media campionaria della grandezza x

media campionaria della grandezza y

= 91.444



Varianza campionaria della grandezza x

Deviazione standard della grandezza x

Varianza campionaria della grandezza y

Deviazione standard della grandezza y

Covarianza

I coefficienti della retta di regressione sono ora calcolabili come

Pertanto la retta di regressione è

Il coefficiente di correlazione relativo è:

La correlazione è buona!

y = 0,6167x + 19,367 R² = 0,9709

15

16

17

18

19

20

21

22

23

24

25

0 1 2 3 4 5 6 7 8 9

Co

nsu

mo

oss

ige

no

(lit

ri/h

)

Velocità (km/h)



Regressione polinomiale e metodi di linearizzazione

Lo stesso principio dei minimi quadrati si può applicare per stimare i coefficienti di una

interpolazione tramite un polinomio di grado n.

Consideriamo, come esempio, il caso di una dipendenza quadratica:

Legame funzionale

Funzione obiettivo da minimizzare

Sistema lineare da risolvere (matrice Jacobiana nulla)

Se la legge funzionale ipotizzata non è polinomiale ma ti tipo potenza si può

procedere alla linearizzazione e quindi applicare i suddetti metodi di interpolazione.

In particolare, la linearizzazione è effettuata utilizzando il logaritmo naturale:

Legame funzionale

Trasformazione della legge d’interpolazione

Rinominando le variabili

e i parametri

si ottiene la relazione lineare .



Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione

iniziale

Se la legge funzionale è di tipo esponenziale si procede analogamente:

Legame funzionale

Trasformazione della legge d’interpolazione

Rinominando le variabili

e i parametri

si ottiene la relazione lineare .

Una volta determinati i parametri incogniti si possono ottenere i parametri della relazione

iniziale

Altri casi d’interesse:

▪

▪

▪

▪

▪

▪



Obiettivi dell’incontro

Ulteriori indici di posizione

Indici di dispersione o di variabilità

Varianza e deviazione standard

Intervallo interquartile

Indici di forma e simmetria

Correlazione lineare tra grandezze

Covarianza e coefficiente di correlazione

Interpolazione polinomiale e linearizzazione

APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassi

Appunti statistica descrittiva 2

Education

Transcript of Appunti statistica descrittiva 2