La correlazione lineare fra due variabili statistiche

Post on 19-Jun-2015

5.238 views 0 download

description

lavoro a cura di un gruppo di alunne della mia 4AT 2011/2012

Transcript of La correlazione lineare fra due variabili statistiche

Il metodo dei minimi quadrati è una tecnica che permette di trovare una funzione, detta

funzione di regressionefunzione di regressione, che si avvicini il più possibile alle rilevazioni grezze

tratte da due variabili statistiche e riportate in un grafico, chiamato Diagramma a dispersione. In particolare la funzione trovata deve minimizzare la somma

dei quadrati delle differenze tra i valori osservati e i corrispondenti valori teorici

individuati sulla funzione stessa.

Diagramma a dispersione

X Y

20 2

40 6

50 5

60 8

Lo scopo è quindi quello di interpolare i dati rilevati con una funzione che sintetizzi in modo opportuno l’andamento del fenomeno studiato. Quando si parla di interpolare si intende determinare, a partire dai dati rilevati, una funzione che rappresenti il fenomeno, mediante una legge matematica o mediante una tabella di valori più regolari.

Con questa formula si minimizza la somma dei quadrati e non la somma delle semplici differenze fra valori rilevati e valori teorici, poichè le differenze negative potrebbero compensare quelle positive fornendo un

risultato non significativo.

Si possono calcolare i coefficienti “a” e “b” della retta di regressione di “y” su “x”

(y = a + bxy = a + bx) senza fare uso delle derivate nel modo seguente:

a = E(y) – b E(x)22 ))(()(

)()()(

)var(

)cov(

XExE

yExExyE

x

xyb

Esempio: Sono stati rilevati i seguenti risultati in

Economia in una classe con rispettive assenze fino al 12/11/11.

Alunno

1 2 3 4 5 6

Risultati (x)

6,5 7,5 11 5,5 6,5 6,5

Assenze (y)

1 0 2 0 2 3

Per determinare la retta di regressione di “y” su “x” si usa la tabella a doppia entratatabella a doppia entrata, in cui 6 è il numero degli alunni presi in considerazione:

y/x 0 1 2 3 Totale

5,5 1/6 1/6

6,5 1/6 1/6 1/6 3/6

7,5 1/6 1/6

11 1/6 1/6

Totale 2/6 1/6 2/6 1/6 1

A questo punto si applicano le formule precedentemente descritte.

E(xy) = 5,5·2·1/6 + 6,5· 1·1/6 + 6,5·2·1/6 + 6,5·3·1/6 + 7,5·0·1/6 + 11·0·1/6 = 8,3331

E(x) = 5,5·1/6 + 6,5·3/6 + 7,5·1/6 + 11·1/6 = 7,2499

E(y) = 0·2/6 + 1·1/6 + 2·2/6 + 3·1/6 = 1,3332

E(x²) = (5,5)²1/6 + (6,5)²·3/6 + (7,5)²·1/6 + (11)²·1/6 = 55,7082

b = -0,4233

a = 4,4020

y = 4,4020 – 0,4233x

Lo studio della regressione consiste nella determinazione di un coefficiente che esprime la relazione, più o meno intensa, fra le due variabili considerate. Applicando il metodo dei minimi quadrati si ottiene la retta y = a1 + b1x che è detta retta di regressione di Y rispetto ad X. Per misurare l’intensità, o forza del legame, fra le due variabili, nel caso sempre di regressione lineare, si introduce una misura della loro correlazione data dal coefficiente di correlazione lineare di Bravais – Pearson, che può variare da -1 a 1.

Prendiamo ora in considerazione la retta di regressione di X su Y che possiamo scrivere come x = a2 + b2ySoffermiamo ora l’attenzione sui coefficienti b1 e b2.Notiamo come b1 rappresenti il coefficiente angolare della prima retta di regressione, mentre b2 non rappresenti il coefficiente angolare della seconda retta di regressione ma il suo reciproco. I due coefficienti b1 e b2 possono essere facilmente calcolati con le seguenti formule: )var(

)cov(2 y

xyb

)var(

)cov(1 x

xyb

Grazie a questi ultimi due coefficienti, possiamo facilmente calcolare r con la formula seguente:

21 bbr

• r = -1r = -1

La correlazione è detta perfetta perfetta inversa inversa e le due rette sono coincidenti e decrescenti.

• -1 < r -1 < r < 0 < 0

La correlazione è detta negativa negativa inversa inversa e le due rette sono decrescenti ed incidenti.

• r = 0r = 0Non c’è correlazione Non c’è correlazione e le due rette sono perpendicolari tra loro e sono parallele agli assi cartesiani.

• 0 < r < 0 < r < 1 1

La correlazione è positiva o positiva o diretta diretta e le due rette sono incidenti e crescenti.

• r = r = 11

La correlazione è perfetta diretta perfetta diretta e le due rette sono coincidenti e crescenti.

Molto interessante risulta essere anche il quadrato del

coefficiente r, detto coefficiente di coefficiente di determinazionedeterminazione, il quale indica la percentuale di variabilità totale dovuta alla dipendenza lineare della y dalla x. Se r2 si avvicina a 1, il modello di regressione lineare è efficace.