Interpolazione, regressione, correlazione

17
1 INTERPOLAZIONE, REGRESSIONE E CORRELAZIONE 1. Interpolazione di dati ed approssimazione In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano “relazioni” fra grandezze. Per esempio si può pensare allo studio della relazione fra reddito e risparmio di una popolazione oppure alla relazione tra altezza e peso dei militari, ecc. Gli esempi citati di indagini statistiche rappresentano analisi di tipo comparativo consistenti nell’osservazione di più variabili su un medesimo gruppo di individui. Il primo passo utile per indagare qualitativamente l’eventuale dipendenza fra due variabili x e y consiste nel disegnare un grafico, detto “diagramma a dispersione” o “scatterplot”. Si pongono in ascissa i dati relativi a una delle due variabili, in ordinata quelli relativi all’altra variabile e si rappresentano con punti o cerchietti le singole osservazioni. Se esiste una relazione semplice fra le due variabili, il diagramma dovrebbe evidenziarla. Partendo da queste coppie di dati (x, y), si vuole determinare la funzione: y = f(x) che descrive il fenomeno. Nelle indagini statistiche si ricorre all’uso di elaboratori mediante i quali si esegue un “fitting di dati”. La prima fase del processo di risoluzione di un problema mediante elaboratore consiste nella descrizione del problema mediante modello matematico. Spesso le uniche informazioni sul problema in esame consistono in un insieme finito di dati: - misure sperimentali; - valori assunti da una funzione in certi punti; - dati provenienti da indagini statistiche. Dall’insieme di dati a disposizione si vuole costruire una funzione che rappresenti il fenomeno in modo attendibile. Esempio 1 Si vuole stimare la percentuale di crescita della popolazione italiana dal 1921 al 1981. Dati registrati nei censimenti in migliaia: x 1921 1931 1951 1961 1971 1981 P 37404 40582 47159 49904 53745 65336 f(x): funzione interpolante

Transcript of Interpolazione, regressione, correlazione

Page 1: Interpolazione, regressione, correlazione

1

INTERPOLAZIONE, REGRESSIONE E CORRELAZIONE

1. Interpolazione di dati ed approssimazione In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano “relazioni” fra grandezze. Per esempio si può pensare allo studio della relazione fra reddito e risparmio di una popolazione oppure alla relazione tra altezza e peso dei militari, ecc. Gli esempi citati di indagini statistiche rappresentano analisi di tipo comparativo consistenti nell’osservazione di più variabili su un medesimo gruppo di individui. Il primo passo utile per indagare qualitativamente l’eventuale dipendenza fra due variabili x e y consiste nel disegnare un grafico, detto “diagramma a dispersione” o “scatterplot”. Si pongono in ascissa i dati relativi a una delle due variabili, in ordinata quelli relativi all’altra variabile e si rappresentano con punti o cerchietti le singole osservazioni. Se esiste una relazione semplice fra le due variabili, il diagramma dovrebbe evidenziarla. Partendo da queste coppie di dati (x, y), si vuole determinare la funzione:

y = f(x) che descrive il fenomeno. Nelle indagini statistiche si ricorre all’uso di elaboratori mediante i quali si esegue un “fitting di dati”. La prima fase del processo di risoluzione di un problema mediante elaboratore consiste nella descrizione del problema mediante modello matematico. Spesso le uniche informazioni sul problema in esame consistono in un insieme finito di dati: - misure sperimentali; - valori assunti da una funzione in certi punti; - dati provenienti da indagini statistiche. Dall’insieme di dati a disposizione si vuole costruire una funzione che rappresenti il fenomeno in modo attendibile. Esempio 1 Si vuole stimare la percentuale di crescita della popolazione italiana dal 1921 al 1981. Dati registrati nei censimenti in migliaia:

x 1921 1931 1951 1961 1971 1981 P 37404 40582 47159 49904 53745 65336

f(x): funzione interpolante

Page 2: Interpolazione, regressione, correlazione

2

Esempio 2 Le misure della forza F necessaria per estendere una molla, con costante di elasticità K, per piccoli spostamenti x dalla posizione di equilibrio sono riportate nella tabella:

x 1 2 4 7 9 12 F 1,5 3,9 6,6 11,7 15,6 18,8

f(x): funzione approssimante

I due esempi mostrano che per trovare la funzione f(x) si può procedere in due modi: 1) determinare la funzione che assuma esattamente i punti (x, y) osservati (interpolazione per punti

noti, o interpolazione matematica); 2) determinare la funzione che si accosti il più possibile ai punti (x, y) osservati (interpolazione fra

punti noti, o interpolazione statistica). La scelta di interpolare per via matematica o statistica dipende dalla qualità e quantità dei dati del problema. L’interpolazione matematica ci consente di costruire una funzione passante per punti assegnati e descrive il problema mediante un modello che assume esatti i dati. Nell’esempio 1 la funzione f(x) è la linea che passa per tutti i punti osservati di coordinate (x,P). L’interpolazione statistica o approssimazione ci consente di costruire una funzione che si scosti poco dai dati e descrive il problema mediante un modello che assume affetti da errore i dati. Nell’esempio 2 la funzione f(x) è la retta di equazione F = 1,6x + 0,39 che passa fra l’insieme di punti dei punti di coordinate (x,F).

Page 3: Interpolazione, regressione, correlazione

3

Definizioni: per interpolazione si intende la ricerca di una funzione matematica che approssima l’andamento di un insieme di punti.

TIPI DI INTERPOLAZIONE

2. Costruzione di un polinomio di interpolazione Assegnati n punti (xi,yi) si vuole costruire un polinomio p(x) che nei nodi xi soddisfi le condizioni:

p(xi) = yi, i = 1,……,n

Di che grado deve essere il polinomio interpolante affinché esista e sia unico? Il polinomio deve essere di grado n-1 se i punti sono n:

y = a0 + a1x + a2x2 +...+ an-1x

n-1 Le “a” sono i parametri e sono in numero uguale ai punti attraverso i quali bisognerà interpolare. Esempio Cercare l’equazione di una funzione passante per i punti: A(0;4), B(0,5;10), C(1;15). Si tratta di determinare un’equazione di secondo grado y = a0 + a1x + a2x

2 in quanto i punti da interpolare sono 3. Si costruisce un sistema imponendo le condizioni di passaggio della funzione per i 3 punti: passaggio per A: a0 = 4 passaggio per B: a0 + 0,5a1 + 0,52a2 = 10 passaggio per C: a0 + 1a1 + 12a2 = 15 Risolvendo il sistema si determinano le incognite: a0 = 4, a1 = 13, a2 = -2. L’equazione cercata è:

y = -2x² + 13x + 4

Interpolazione MATEMATICA Calcola una funzione che passa PER tutti i punti

Interpolazione STATISTICA Calcola una funzione che passa FRA i punti

Page 4: Interpolazione, regressione, correlazione

4

Esempio Si cerchi una funzione p(x) che passi per le coppie date nella seguente tabella:

x p(x) 0 1 1 2 2 17 3 82

cioè tale che

p(0) = 1, p(1) = 2, p(2) = 17, p(3) = 82.

Se la funzione y = p(x) è cercata nell’insieme dei polinomi di grado 3, allora dovrà risultare

p(x) = a0 + a1x + a2x2 + a3x

3

ed imponendo il passaggio per i punti dati si ottiene il sistema a0 = 1 a0 + a11 + a21

+ a31 = 2

a0 + a12 + a24 + a38 = 17

a0 + a13 + a29 + a327 = 82

la cui soluzione è

a0 = 1, a1 = 6, a2 = -11, a3 = 6

Il polinomio di interpolazione è allora il seguente:

p(x) = 1 + 6x - 11x2 + 6x3

METODO DEI COEFFICIENTI INDETERMINATI Dati n punti (xi,yi), i = 1,2,……n si vuole costruire il polinomio interpolante di grado n-1 passante per i punti assegnati:

p(xi) = yi, i = 1,……,n Bisogna calcolare n coefficienti (a0, a1,…… ,an-1), imponendo n condizioni di interpolazione:

=+………+++

=+………+++

=+………+++

n1-n

n1-n2n2n10

21-n

21-n22221 0

11-n

11-n212110

y xa . xa xa a

.................................................................

yxa .. xa xa a

y xa .. xa xa a

In generale il metodo dei coefficienti indeterminati è equivalente alla risoluzione di un sistema lineare: assegnati n punti si costruisce il sistema imponendo le condizioni di interpolazione.

Page 5: Interpolazione, regressione, correlazione

5

La ricerca del polinomio interpolatore può essere effettuata anche con un altro metodo. Secondo approccio: costruire il polinomio interpolante di grado n-1 come combinazione di particolari polinomi li(x) (polinomi fondamentali di Lagrange) con coefficienti uguali alle yi

pn-1(x) = y1l1(x) + y2l2(x) + …+ ynln(x) (Formula di Lagrange)

Esempio Si vuole determinare il polinomio p(x) di grado 2 tale che

x y 0 -1 1 2 2 7

allora i polinomi fondamentali di Lagrange sono

(x – 1)(x – 2) l1(x) =

(0 – 1)(0 – 2)

(x – 0)(x – 2) l2(x) =

(1 – 0)(1- 2)

(x – 0)(x – 1) l3(x) =

(2 – 0)(2- 1) Per cui il polinomio interpolante è dato da:

p(x) = -0,5(x – 1)(x – 2) – 2x(x – 2) + 3,5x(x – 1) = x2 + 2x -1 Esempio Scrivere il polinomio di Lagrange interpolante i punti: A(0;-5), B(1;-6), C(2;-1), D(3;16). I polinomi fondamentali di Lagrange sono

(x – 1)(x – 2)(x – 3) l1(x) =

(0 – 1)(0 – 2)(0 – 3)

(x – 0)(x – 2)(x – 3) l2(x) =

(1 – 0)(1 – 2)(1 – 3)

(x – 0)(x – 1)(x – 3) l3(x) =

(2 – 0)(2 – 1)(2 – 3)

(x – 0)(x – 1)(x – 2) l4(x) =

(3 – 0)(3 – 1)(3 – 2)

(x-1)(x-2)(x-3) x(x-2)(x-3) x(x-1)(x-3) x(x-1)(x-2) p(x) =

(-6) (-5) +

(2) (-6) +

(-2) (-1) +

(6) (16)

Page 6: Interpolazione, regressione, correlazione

6

3. Interpolazione statistica Quando l’insieme di punti a disposizione è numeroso (come accade generalmente in statistica) è poco probabile (o molto difficile) che essi siano disposti lungo una certa curva; in generale sono dispersi dando luogo a quella che si chiama una nube di punti.(Fig.a) In questo caso l’interpolazione matematica perde il suo significato logico in quanto essa darebbe origine ad una funzione il cui grafico è estremamente contorto e che non trova riscontro nella realtà.(Fig.b) Quando si considera un insieme numeroso di punti si sostituisce alla “interpolante matematica” la cosiddetta “interpolante statistica”, la quale invece che passare per i punti dati, passa fra i punti dati.(Fig.c) Si cerca, cioè, una curva che passi il più vicino possibile ai punti osservati.

FORMULA DI LAGRANGE

Supponiamo di avere n punti sul piano cartesiano: (x1;y1), (x2;y2), …, (xn;yn). Si vuole scrivere l’equazione della curva polinomiale di grado (n-1) che passi per tutti i punti dati. La formula generale di Lagrange, scritta per esteso, è la seguente

(x – x2)(x – x3)…(x – xn) (x – x1)(x – x3)…(x – xn) p(x) = (x1 – x2)(x1 – x3)…(x1 – xn)

y1 + (x2 – x1)(x2 – x3)…(x2 – xn) y2 + …+

(x – x1)(x – x2)…(x – xn-1) +

(xn – x1)(xn – x2)…(xn – xn-1) yn

Page 7: Interpolazione, regressione, correlazione

7

In generale esiste più di una curva di un certo tipo che interpola l’insieme dei dati. Al fine di evitare l’intervento della valutazione personale nella costruzione di rette, parabole o altre curve interpolatrici è necessario mettersi d’accordo su una definizione della “migliore retta interpolatrice”, “migliore parabola interpolatrice”, e così via. Quando si è scelto un certo tipo di interpolante, per es. una parabola (vedi il grafico riportato sotto), è evidente che ne esistono infinite che passano fra i punti dati, per cui bisogna scegliere un certo criterio per l’individuazione di quella più adatta (criterio di accostamento).

INTERPOLAZIONE STATISTICA

L’interpolazione statistica viene utilizzata quando il numero di punti sperimentali è elevato. Nell’interpolazione statistica occorre: a) scegliere il tipo di funzione interpolante; b) fissare un certo “criterio di accostamento”. 4. Il metodo dei minimi quadrati La condizione di accostamento più usata è quella detta “metodo dei minimi quadrati”. Questo metodo consiste nel determinare i parametri della funzione interpolante prescelta in modo che sia minima la somma dei quadrati degli scostamenti dei punti dalla funzione. Si consideri la fig.1 in cui i punti sono (x1,y1), (x2,y2), …, (xn,yn). Per un dato valore di x, diciamo x1, ci sarà una differenza fra il valore di y1 e il corrispondente valore determinato dalla curva C. Denotiamo questa differenza con d1, e la chiameremo “errore”; essa potrà ovviamente essere sia positiva sia negativa o anche zero. In modo simile in corrispondenza dei valori x2,…, xn otterremo gli errori d2,…, dn. Una misura della “bontà dell’adattamento” della curva C all’insieme dei dati ci è fornita dalla quantità (d1)

2 + (d2)2 + …+ (dn)

2. Se questa è piccola l’adattamento è buono, in caso contrario l’adattamento è cattivo.

Page 8: Interpolazione, regressione, correlazione

8

E’ usuale servirsi della definizione vista quando x è la variabile indipendente ed y la variabile dipendente. Se x è la variabile dipendente, la definizione viene modificata introducendo errori orizzontali anziché verticali, che corrisponde ad uno scambio degli assi del diagramma. In generale queste due definizioni conducono a due diverse curve dei minimi quadrati. 4.1 La retta dei minimi quadrati Si vuole stabilire la relazione tra due variabili x e y. Sono state effettuate n misure e raccolte nella tabella seguente:

x x1 x2 … xn y y1 y2 … yn

Consideriamo i valori di x e y come coordinate cartesiane ortogonali di n punti del piano. Supponiamo che i punti aventi le coordinate corrispondenti alle coppie di valori della nostra tabella siano pressoché allineati, cioè situati presso a poco lungo una certa retta. (Fig. 2) E’ naturale considerare in questo caso le grandezze x e y legate da una relazione lineare (circa) espressa, cioè, dalla formula:

y = ax + b, (1)

dove a e b sono coefficienti costanti da determinare.

Definizione: La miglior curva interpolatrice è quella che ha la proprietà di rendere minima la quantità

(d1)

2 + (d2)2 + …+ (dn)

2

Una curva avente questa proprietà è detta interpolare i dati nel senso dei minimi quadrati ed è detta “curva di regressione dei minimi quadrati”, o semplicemente “curva dei minimi quadrati”. Una retta con questa proprietà sarà quindi detta “retta dei minimi quadrati”, una parabola, “parabola dei minimi quadrati”, e così via.

Page 9: Interpolazione, regressione, correlazione

9

La formula (1) può essere messa anche sotto la forma:

ax + b – y = 0. (2)

Poiché i punti (xi,yi) non stanno esattamente sulla nostra retta, le formule (1) e (2) sono formule approssimate. Pertanto, introducendo nella (2) al posto di x e y i loro valori x1,y1; x2,y2;…; xn,yn,

riportati nella tabella, otteniamo un sistema di uguaglianze:

=+…………………

=+=+

nnn

222

111

dy- b ax

dy- b ax

dy- b ax

dove d1, d2,…, dn sono gli errori. Si tratta di scegliere i coefficienti a e b in modo tale che questi errori siano, in valore assoluto, il più piccoli possibile. Bisogna imporre alla somma (d1)

2 + (d2)2 + …+ (dn)

2 di essere minima. Occorre, cioè trovare il minimo della funzione a due variabili:

( ) ( ) minimaybaxba,fn

1i

2ii ⇒−+=∑

=

Le costanti a e b si determinano risolvendo simultaneamente le equazioni:

=+

=+

∑ ∑∑∑ ∑

iii2

i

ii

yxxbxa

ybnxa (3)

che sono dette “equazioni normali” della retta dei minimi quadrati. Le equazioni normali si possono facilmente ricordare osservando che si può ottenere la prima equazione sommando da entrambi i membri della (1) mentre la seconda equazione si ottiene moltiplicando entrambi i membri della (1) per x e poi sommando.

Page 10: Interpolazione, regressione, correlazione

10

La soluzione del sistema di equazioni normali è data da: (4)

Esempio Dai dati la seguente tabella determinare la retta dei minimi quadrati:

x 1 3 4 6 8 9 11 14 y 1 2 4 4 5 7 8 9

L’equazione delle retta è y = ax + b. Le equazioni normali sono

=+

=+

∑ ∑∑∑ ∑

xyxbxa

ybnxa2

x y x2 xy y2 1 1 1 1 1 3 2 9 6 4 4 4 16 16 16 6 4 36 24 16 8 5 64 40 25 9 7 81 63 49 11 8 121 88 64 14 9 196 126 81

∑x = 56 ∑ y = 40 ∑ 2x = 524 ∑xy= 364 ∑ 2y = 256

Poiché ci sono 8 coppie di valori di x e y, n = 8 e le equazioni normali diventano

( )∑ ∑∑ ∑ ∑

⋅−=

2

i2i

iiii

xxn

yxyxna

( )∑ ∑∑ ∑ ∑∑

⋅−⋅=

2

i2i

iiii2i

xxn

xyxyxb

Page 11: Interpolazione, regressione, correlazione

11

=+=+

364 56b 524a

40 8b 56a

Risolvendo il sistema si ottengono i valori:

a = 0,636 b = 0,545

e la retta dei minimi quadrati richiesta è:

y = 0,636x + 0,545

I valori di a e b possono anche essere ottenute dalle (4).

Si può semplificare la determinazione della retta dei minimi quadrati riscrivendo le (4) in un’altra forma, ottenuta a partire da alcune considerazioni geometriche.

( )( )( ) ( )( )

( )( ) ( ) 0,636565248

40563648

xxn

yxxyna

222=

−−=

⋅−=

∑ ∑∑ ∑ ∑

( )( )( ) ( )( )

( )( ) ( ) 0,545565248

5636440524

xxn

xxyyxb

222

2

=−

−=−

⋅−⋅=

∑ ∑∑ ∑ ∑∑

Page 12: Interpolazione, regressione, correlazione

12

Esempio Utilizzando i dati dell’esempio precedente costruiamo la seguente tabella.

x y x - x y - y (x - x )( y - y ) (x - x )2 1 3 4 6 8 9 11 14

1 2 4 4 5 7 8 9

-6 -4 -3 -1 1 2 4 7

-4 -3 -1 -1 0 2 3 4

24 12 3 1 0 4 12 28

36 16 9 1 1 4 16 49

∑x = 56 ∑ y = 40 ( )( )yyx-x −∑ = 84 ( )2x-x∑ = 132

x = 7 y = 5

OSSERVAZIONE Consideriamo l’equazione della retta interpolante: y = ax + b. Una equazione normale per la retta dei minimi quadrati è: nbxay

ii += ∑∑ .

Dividendo ambo i membri per n, si ha: bxay +=

essendo n

xx i∑= e

n

yy i∑= le medie aritmetiche, rispettivamente, dei valori x e y.

Sottraendo membro a membro dall’equazione della retta, si ha: )xa(xy -y −=

Il punto ( y,x ) si dice anche “baricentro della distribuzione”. Questa proprietà è suscettibile di una semplice interpretazione geometrica. Operando la traslazione rappresentata nella figura:

=

=

y-yy'

x-xx'

prendendo come nuova origine il punto (y,x ), la retta interpolante ha equazione:

'ay' x= Con opportuni calcoli si giunge alla forma più nota e comoda per il calcolo di a e b: (5)

xayb

)x(x

)y(y)x(x

)'(x

'y'xa

2i

ii2

i

ii

−=

∑ −∑ −⋅−

==∑∑

0,636132

84

)x(x

)y(y)x(xa

2==

∑ −∑ −⋅−= 0,545xayb =−=

Page 13: Interpolazione, regressione, correlazione

13

4.2 La parabola dei minimi quadrati La parabola dei minimi quadrati interpolante l’insieme dei punti (x1,y1), (x2,y2), …, (xn,yn) può essere espressa dall’equazione: y = ax2 + bx + c, dove i coefficienti a, b, c vengono determinati trovando il minimo della funzione a tre variabili:

Le costanti a, b, c si determinano risolvendo il sistema: (6)

Esempio Adattare una parabola dei minimi quadrati ai dati della seguente tabella:

x 1 2 4 6 8 12 y 9 5 4 5 6 10

x y x2 x3 x4 xy x2y 1 2 4 6 8 12

9 5 4 5 6 10

1 4 16 36 64 144

1 8 64 216 512 1728

1 16 256 1296 4096 20736

9 10 16 30 48 120

9 20 64 180 384 1440

∑x = 33 ∑ y = 39 2x∑ = 265

3x∑ = 2529

4x∑ = 26401 yx∑ = 233 yx 2∑ = 2097

Poiché n = 6, le equazioni normali sono: Risolvendo si ottiene: a = 0,145 b = -1,636 c = 9,105 La parabola dei minimi quadrati cercata è:

y = 0,145x2 - 1,636x + 9,105

( ) ( ) minimaycbxaxcb,a,fn

1i

2

ii2

i ⇒−++=∑=

=++

=++

=++

∑ ∑∑∑ ∑∑ ∑∑ ∑∑ ∑

ii2

i

iii2

i3

i

i2

i2

i3

i4

i

yncxbxa

yxxcxbxa

yxxcxbxa

=++=++

=++

396c33b265a

23333c265b2529a

2097265c2529b26401a

Page 14: Interpolazione, regressione, correlazione

14

5. Rette e coefficienti di regressione Applicando il metodo dei minimi quadrati si ottiene la retta:

y = a1x + b1

dove, come sappiamo: che è detta “ retta di regressione di y rispetto a x”. Il coefficiente angolare a1 è detto “coefficiente di regressione di y rispetto a x”. In modo analogo, si può calcolare l’equazione della “retta di regressione di x rispetto a y”, che ha equazione:

x = a2y + b2, dove:

Il numero a2 è detto “coefficiente di regressione di x rispetto a y”. Il coefficiente a2 non è il coefficiente angolare di tale retta, ma ne è il reciproco. OSSERVAZIONI 1. I due coefficienti di regressione hanno sempre lo stesso segno, perché hanno lo stesso

numeratore e al denominatore un numero sempre positivo. 2. Il coefficiente di regressione a1 indica come varia y al variare di x e, analogamente, a2 indica

come varia x al variare di y. Se tali coefficienti sono positivi, al crescere di una variabile, cresce anche l’altra; se sono negativi al crescere di una variabile, l’altra decresce.

3. Se sovrapponiamo in uno stesso diagramma le due rette di regressione, esse passano per il

“centro di distribuzione”, cioè per il punto di coordinate y,x . Esempio Data la tabella

x 1 3 4 6 8 9 11 14 y 1 2 4 4 5 7 8 9

determinare le rette di regressione. Si tratta di determinare le rette di regressione y = a1x + b1 e x = a2y + b2. Costruiamo una tabella come abbiamo fatto per la determinazione della retta dei minimi quadrati

(vedi pagina 12), aggiungendo la colonna per il calcolo di ∑ − 2i )y(y .

xayb , )x(x

)y(y)x(xa 112

i

ii1 −=

∑ −∑ −⋅−

=

yaxb , )y(y

)y(y)x(xa 222

i

ii2 −=

∑ −∑ −⋅−=

Page 15: Interpolazione, regressione, correlazione

15

Pertanto le rette cercate hanno equazione: y = 0,64x + 0,55 retta di regressione di y rispetto a x x = 1,50y – 0,50 retta di regressione di x rispetto a y

x y x -x y - y (x - x )(y - y ) (x - x )2 (y - y )2 1 1 -6 -4 24 36 16 3 2 -4 -3 12 16 9 4 4 -3 -1 3 9 1 6 4 -1 -1 1 1 1 8 5 1 0 0 1 0 9 7 2 2 4 4 4 11 8 4 3 12 16 9 14 9 7 4 28 49 16

∑x = 56 ∑ y = 40 ( )( )yyx-x −∑ = 84 ( )2x-x∑ = 132 ( )2

y-y∑ = 56

x = 7 y = 5

0,55xayb

0,64 132

84

)x(x

)y(y)x(xa

11

21

=−=

==∑ −

∑ −⋅−=

-0,50yaxb

1,50 )y(y

)y(y)x(xa

22

22

=−=

=∑ −

∑ −⋅−=

Page 16: Interpolazione, regressione, correlazione

16

6. La correlazione Finora abbiamo considerato il problema della regressione di una variabile rispetto ad un’altra. Passiamo ora a studiare il problema della “correlazione” che ha lo scopo di misurare il grado di interdipendenza tra variabili. Definizioni Si dice che due variabili sono perfettamente correlate, ossia che tra esse esiste una “correlazione perfetta”, se tutti i valori delle variabili soddisfano esattamente un’equazione. Esempio: l’area A e il raggio r di un cerchio sono perfettamente correlate, dal fatto che A = πr2. Si dice che due varibili sono incorrelate (o indipendenti) se non esiste alcuna relazione tra i loro valori. Esempio: se due monete regolari sono lanciate simultaneamente 200 volte, non c’è alcuna relazione tra gli esiti (testa o croce) delle due monete. Negli altri casi, le variabili sono in qualche modo correlate. Esempio: le variabili altezza e peso delle persone dovrebbero essere in qualche modo correlate. In questi casi, si cerca appunto di determinare il grado di “interdipendenza”, nel senso che si vuole vedere se si è più prossimi alla indipendenza, oppure alla correlazione perfetta (o dipendenza funzionale). Come nel caso della regressione, ci limiteremo allo studio della correlazione tra due variabili. In tal caso si parla di “correlazione semplice”. Come nel caso della regressione, si può parlare di “correlazione lineare”, oppure “non lineare”. La più importante è certamente la prima, alla quale si limita il nostro studio.

IL COEFFICIENTE DI CORRELAZIONE LINEARE

La misura della correlazione lineare tra due variabili viene dal “coefficiente di correlazione lineare” di BRAVAIS-PEARSON, così definito:

yx

xy

2i

2i

ii21

σσ

σ

)y(y)x(x

)y(y)x(xaar

⋅=

∑ ∑ −⋅−

∑ −⋅−=±=

Dove

n

)y(y)x(xσ

iixy

∑ −⋅−= è la covarianza di x e y

n

)x(xσ

2i

x

∑ −= e

n

)y(yσ

2i

y

∑ −= sono gli scarti quadratici medi di x e y.

Page 17: Interpolazione, regressione, correlazione

17

OSSERVAZIONI Si osservi che il coefficiente di correlazione r è una grandezza adimensionale ed il suo valore è compreso tra -1 e +1:

-1 ≤ r ≤ +1, cioè: | r | ≤ 1.

a. Se r è positivo (0 < r < 1), la correlazione è positiva, o “diretta”. b. Se r è negativo (-1 < r < 0), la correlazione è negativa, o “inversa”. c. Se r = +1, la correlazione è “perfetta diretta”. d. Se r = -1, la correlazione è “perfetta inversa”. e. Se r = 0, la correlazione è “nulla”. Esempio Il coefficiente di correlazione lineare relativo ai dati riportati nell’esempio a pagina 15 è:

0)(0,64)(1,5aar 21 == = 0,98

Dalle osservazioni fatte, essendo 0 < r < 1, possiamo affermare che tra le variabili x e y esiste una correlazione diretta, come era stato evidenziato dalla rappresentazione delle due rette di regressione.

0 < r < 1

r = + 1 r = - 1 r = 0

- 1 < r < 0