La correlazione lineare fra due variabili statistiche

16

description

lavoro a cura di un gruppo di alunne della mia 4AT 2011/2012

Transcript of La correlazione lineare fra due variabili statistiche

Page 1: La correlazione lineare fra due variabili statistiche
Page 2: La correlazione lineare fra due variabili statistiche

Il metodo dei minimi quadrati è una tecnica che permette di trovare una funzione, detta

funzione di regressionefunzione di regressione, che si avvicini il più possibile alle rilevazioni grezze

tratte da due variabili statistiche e riportate in un grafico, chiamato Diagramma a dispersione. In particolare la funzione trovata deve minimizzare la somma

dei quadrati delle differenze tra i valori osservati e i corrispondenti valori teorici

individuati sulla funzione stessa.

Page 3: La correlazione lineare fra due variabili statistiche

Diagramma a dispersione

X Y

20 2

40 6

50 5

60 8

Lo scopo è quindi quello di interpolare i dati rilevati con una funzione che sintetizzi in modo opportuno l’andamento del fenomeno studiato. Quando si parla di interpolare si intende determinare, a partire dai dati rilevati, una funzione che rappresenti il fenomeno, mediante una legge matematica o mediante una tabella di valori più regolari.

Page 4: La correlazione lineare fra due variabili statistiche

Con questa formula si minimizza la somma dei quadrati e non la somma delle semplici differenze fra valori rilevati e valori teorici, poichè le differenze negative potrebbero compensare quelle positive fornendo un

risultato non significativo.

Page 5: La correlazione lineare fra due variabili statistiche
Page 6: La correlazione lineare fra due variabili statistiche

Si possono calcolare i coefficienti “a” e “b” della retta di regressione di “y” su “x”

(y = a + bxy = a + bx) senza fare uso delle derivate nel modo seguente:

a = E(y) – b E(x)22 ))(()(

)()()(

)var(

)cov(

XExE

yExExyE

x

xyb

Page 7: La correlazione lineare fra due variabili statistiche

Esempio: Sono stati rilevati i seguenti risultati in

Economia in una classe con rispettive assenze fino al 12/11/11.

Alunno

1 2 3 4 5 6

Risultati (x)

6,5 7,5 11 5,5 6,5 6,5

Assenze (y)

1 0 2 0 2 3

Page 8: La correlazione lineare fra due variabili statistiche

Per determinare la retta di regressione di “y” su “x” si usa la tabella a doppia entratatabella a doppia entrata, in cui 6 è il numero degli alunni presi in considerazione:

y/x 0 1 2 3 Totale

5,5 1/6 1/6

6,5 1/6 1/6 1/6 3/6

7,5 1/6 1/6

11 1/6 1/6

Totale 2/6 1/6 2/6 1/6 1

A questo punto si applicano le formule precedentemente descritte.

Page 9: La correlazione lineare fra due variabili statistiche

E(xy) = 5,5·2·1/6 + 6,5· 1·1/6 + 6,5·2·1/6 + 6,5·3·1/6 + 7,5·0·1/6 + 11·0·1/6 = 8,3331

E(x) = 5,5·1/6 + 6,5·3/6 + 7,5·1/6 + 11·1/6 = 7,2499

E(y) = 0·2/6 + 1·1/6 + 2·2/6 + 3·1/6 = 1,3332

E(x²) = (5,5)²1/6 + (6,5)²·3/6 + (7,5)²·1/6 + (11)²·1/6 = 55,7082

b = -0,4233

a = 4,4020

y = 4,4020 – 0,4233x

Page 10: La correlazione lineare fra due variabili statistiche
Page 11: La correlazione lineare fra due variabili statistiche

Lo studio della regressione consiste nella determinazione di un coefficiente che esprime la relazione, più o meno intensa, fra le due variabili considerate. Applicando il metodo dei minimi quadrati si ottiene la retta y = a1 + b1x che è detta retta di regressione di Y rispetto ad X. Per misurare l’intensità, o forza del legame, fra le due variabili, nel caso sempre di regressione lineare, si introduce una misura della loro correlazione data dal coefficiente di correlazione lineare di Bravais – Pearson, che può variare da -1 a 1.

Page 12: La correlazione lineare fra due variabili statistiche

Prendiamo ora in considerazione la retta di regressione di X su Y che possiamo scrivere come x = a2 + b2ySoffermiamo ora l’attenzione sui coefficienti b1 e b2.Notiamo come b1 rappresenti il coefficiente angolare della prima retta di regressione, mentre b2 non rappresenti il coefficiente angolare della seconda retta di regressione ma il suo reciproco. I due coefficienti b1 e b2 possono essere facilmente calcolati con le seguenti formule: )var(

)cov(2 y

xyb

)var(

)cov(1 x

xyb

Grazie a questi ultimi due coefficienti, possiamo facilmente calcolare r con la formula seguente:

21 bbr

Page 13: La correlazione lineare fra due variabili statistiche

• r = -1r = -1

La correlazione è detta perfetta perfetta inversa inversa e le due rette sono coincidenti e decrescenti.

• -1 < r -1 < r < 0 < 0

La correlazione è detta negativa negativa inversa inversa e le due rette sono decrescenti ed incidenti.

• r = 0r = 0Non c’è correlazione Non c’è correlazione e le due rette sono perpendicolari tra loro e sono parallele agli assi cartesiani.

Page 14: La correlazione lineare fra due variabili statistiche

• 0 < r < 0 < r < 1 1

La correlazione è positiva o positiva o diretta diretta e le due rette sono incidenti e crescenti.

• r = r = 11

La correlazione è perfetta diretta perfetta diretta e le due rette sono coincidenti e crescenti.

Page 15: La correlazione lineare fra due variabili statistiche

Molto interessante risulta essere anche il quadrato del

coefficiente r, detto coefficiente di coefficiente di determinazionedeterminazione, il quale indica la percentuale di variabilità totale dovuta alla dipendenza lineare della y dalla x. Se r2 si avvicina a 1, il modello di regressione lineare è efficace.

Page 16: La correlazione lineare fra due variabili statistiche