RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più...

63
RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui per ogni individuo si rilevino congiuntamente due variabili quantitative, è possibile verificare se esse variano simultaneamente e quale relazione “matematica” sussista tra queste variabili.

Transcript of RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più...

Page 1: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro.

Nel caso in cui per ogni individuo si rilevino congiuntamente due variabili quantitative, èpossibile verificare se esse variano simultaneamente e quale relazione “matematica”sussista tra queste variabili.

Page 2: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Si ricorre all'analisi della regressione e a quella della correlazione:analisi della regressione : per sviluppare un modello statistico che possa essere usato per prevedere i valori di una variabile, detta dipendente o piùraramente predetta ed individuata come l'effetto, sulla base dei valori dell'altra variabile, detta indipendente o esplicativa, individuata come la causa.analisi della correlazione : per misurare l'intensitàdell'associazione tra due variabili quantitative, di norma non legate direttamente da causa-effetto, facilmente mediate da almeno una terza variabile, ma che comunque variano congiuntamente.

Page 3: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Quando per ciascuna unità di un campione o di una popolazione si rilevano due caratteristiche, si ha una distribuzione doppia e i dati possono essere riportati in forma tabellare.

ynxnn

………

y3x33

y2x22

y1x11

carattere Ycarattere Xunità

Page 4: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

• Se il numero di dati è ridotto, la distribuzione doppia può riguardare una tabella che riporta tutte le variabili relative ad ogni unità o individuo misurato.

• Se il numero di dati è grande, si ricorre ad una sintesi tabellare chiamata distribuzione doppia di frequenze in cui si suddividono, eventualmente, le unità del collettivo in classi Xi e Yj per i due caratteri e si contano le unità che hanno contestualmente entrambe le modalità (nij):

Page 5: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

nn*k…n*j…n*2N*1Tot.

nh*nhk…nhj…nh2nh1Xh

……………………

ni*nik…nij…ni2ni1X i

……………………

n2*n2k…n2j…n22n21X2

n1*n1k…n1j…n12n11X1

Tot.Yk…Y j…Y2Y1

Page 6: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

I totali delle righe e delle colonne rappresentano due distribuzioni semplici e sono dette distribuzioni marginali della distribuzione doppia.Le frequenze riportate in una colonna o in una riga sono dette distribuzioni parziali della distribuzione doppia. Una distribuzione doppia può essere rappresentata graficamente con :diagrammi di dispersione : si riportano le singole coppie di misure osservate considerando ogni coppia della distribuzione come coordinate cartesiane di un punto del piano; si ottiene in tal modo una nuvola di punti , che descrive in modo visivo la relazione tra le due variabili

Page 7: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

ESEMPIO 1In Tab. sono riportati i valori assunti dai due caratteri quantitativi età (ETA’) e pressione sistolica (PAS) misurati in un campione di 8 soggetti:

soggetto ETA’ (anni) PAS (mm Hg) 1 22 131 2 28 114 3 35 121 4 47 111 5 51 130 6 56 145 7 67 176 8 81 217

Page 8: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Diagramma di Dispersione (a Scatter)

ETÀ

908070605040302010

Pre

ssio

ne S

isto

lica

240

220

200

180

160

140

120

100

80

8

7

6

5

4

32

1

Page 9: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Domande:

•Di quanto varia la pressione sistolica all’aumentare dell’età ?

•La relazione tra le due variabili è tendenzialmente lineare?

Page 10: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

REGRESSIONE LINEARE SEMPLICE

La “forma” di relazione matematica più semplice tra due variabili è la regressione lineare semplice, rappresentata dalla retta di regressione:

∧Y= a + b ⋅X

dove :• valore stimato di Y attraverso il modello regressivo •X valore empirico di X •a intercetta della retta di regressione•b coefficiente di regressione (= coeff. angolare della retta)

∧Y

∧Y

Page 11: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 12: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

εi

Per stimare la retta che meglio approssima la distribuzione dei punti, si può partire considerando che ogni punto osservato Yi si discosta dalla retta di una certa quantità detta errore o residuo

Ogni valore può essere positivo o negativo:- positivo quando il punto Y sperimentale èsopra la retta- negativo quando il punto Y sperimentale èsotto la retta

εi

Y i = a + b ⋅X i + εi

Page 13: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 14: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Metodo dei minimi quadrati:la retta migliore per rappresentare la distribuzione dei punti è quella che minimizza la somma:

∑=

n

1i εεεεi

2 = ∑=

n

1i (yi - iy

∧)2

Secondo il principio dei minimi quadrati si stimano matematicamente a e b:

b = e a=

DEV(X)Y)CODEV(X, xby ⋅−

Page 15: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

CODEV(X,Y) = Codevianza di X e Y = ∑ −=

n

1i)y

i)(yx-

i(x

Dove:

DEV(X) = Devianza di X = ∑ −=

n 21i

)xi

(x

DEV(Y) = Devianza di Y = ∑ −=

n 21i

)yi

(y

Page 16: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Esempio 1

4255.629230.882767.88

CODEV(X,Y)DEV(Y)DEV(X)00=143.1=48.4

+2409.145461.211062.76+73.9+32.6217818

+611.941082.41345.96+32.9+18.6176677

+14.443.6157.76+1.9+7.6145566

-43.06172.616.76-13.1+2.6130515

+44.941030.411.96-32.1-1.4111474

+296.14488.41179.56-22.1-13.4121353

+593.64846.81416.16-29.1-20.4114282

+319.44146.41696.96-12.1-26.4131221

Y−X−PAS (Y)

ETA’(X)

n° x y (X−x )2 (Y− y)2

(X− x ) (Y− y )

x y

Page 17: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Si ottiene

coeff. di regressione b = = 1.5488.276762.4255

Intercetta a = 143.1 – 1.54*48.4 = 68.56

Page 18: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 19: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Supposto “accettabile” il modello regressivo lineare, affrontiamo le seguenti domande:

1. di quanto aumenta mediamente la pressione sistolica all’aumentare di un anno di eta ?

2. che valore ha la pressione alla nascita ?

Interpretando i valori dei coefficienti della retta di regressione si può dire:

1. l’aumento medio della pressione è di circa b=1.5mmHg per l’aumento di un anno di età.

Page 20: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Il coeff. di regressione esprime di quanti varia mediamente la variabile dipendente al variare di una unità della variabile indipendente.

2. alla nascita il valore della pressione sarebbe (!) di a=68.56 mmHg , ma questa è una indicazione teorica perché non è possibile stimare il valore della pressione arteriosa per età fuori del rangeconsiderato (22 81 aa).

÷L’intercetta è quel valore che assume la variabile dipendente quando quella indipendente è uguale a 0.

Page 21: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Esempio 2

X = Consumo pro-capite di tabacco per sigarette (kg/anno),

Y = Quoziente di mortalità per tumore maligno della laringe, trachea, bronchi e polmoni (x 100.000 abitanti)

Page 22: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

9.000.7901994

8.560.7611993

8.050.7191992

8.140.6601991

8.380.6571990

7.160.6481989

6.500.6041988

5.810.4851987

5.070.4171986

5.050.2811985

YXAnni

b = 8.63 a = 1.98

Y = 1.98 + 8.63 X

Page 23: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Qualora il consumo annuo di tabacco pro-capite aumenti di 1 kg si avrà, mediamente, un aumento di circa 9/100.000 della mortalità nella popolazione analizzata.

Consumo tabacco (kg/anno)

,8,7,6,5,4,3,2,1

Dece

ssi p

er 1

00.0

00 a

b.

10

9

8

7

6

5

4

3

2

1

0

Y = 1.98 + 8.63 X

R = 0.94

Rsq = 0.88

Page 24: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Bontà del modello: ANALISI DEI RESIDUI

Decessi stimati dal modello

987654

Res

idui

rel

ativ

i (re

sidu

i/dec

ess

i oss

erva

ti),2

,1

0,0

-,1

-,2

Page 25: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Esempio 3Età e Statura di 10 ragazzi

1511210

145119

140108

136107

13496

12885

13084

12273

12062

11561

Y = Statura (cm)X = Età (anni)Ragazzo

b = 5.47 : un aumento di 1 anno di età comporta in media un aumento di circa 5.5 cm di altezza.

Page 26: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

OSSERVAZIONE GENERALE

Si può studiare anche la dipendenza (sempre in media) della variabile X dalla Y; in tal caso si ottiene la retta di regressione di Y su X con coefficienti:

b’ =

DEV(Y)Y)CODEV(X, e a =

y'bx ⋅−

Page 27: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Esempio 4

Studio della relazione tra Capacità Vitale CV (=volume massimo di aria che è possibile contenere nei polmoni dopo un’inspirazione profonda) di un campione di fumatori rispetto al numero di sigarette fumate giornalmente dagli stessi.

Page 28: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Sogg.

N° Sigarette

(X)

CV (l aria)

(Y)

(X−x)2

(Y− y)2

(X− x ) (Y− y )

1 2 6.5 78.77 3.80 -17.31 2 4 6.5 47.27 3.80 -13.41 3 5 6.0 34.52 2.10 -8.52 4 6 5.9 23.77 1.82 -6.58 5 7 5.5 15.02 0.90 -3.68 6 8 5.5 8.27 0.90 -2.73 7 9 5.0 3.52 0.20 -0.84 8 10 4.0 0.77 0.30 0.48 9 11 4.0 0.02 0.30 -0.07 10 12 4.4 1.27 0.02 -0.17 11 13 4.1 4.52 0.20 -0.96 12 14 3.5 9.77 1.10 -3.28 13 15 3.4 17.02 1.32 -4.74 14 16 3.2 26.27 1.82 -6.92 15 20 2.8 83.27 3.06 -15.97 16 22 2.5 123.77 4.20 -22.81 x=10.87 y=4.55 DEV(X) DEV(Y) CODEV(X.Y)

477.75 25.88 - 107.51 b = - 0.225 : ogni sigaretta in più fumata comporta in media una

diminuzione di capacità vitale pari a 0.225 l.a = 6.99 : valore medio di CV per non fumatori.

Page 29: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Valore predittivo dell'analisi della regressione

La semplice rappresentazione grafica dei valori osservati e della retta di regressione fornisce alcune indicazioni importanti per l'interpretazione delle relazioni esistenti tra le due variabili.Il valore del coefficiente angolare indica quanto aumenta in media la variabile dipendente Y all'aumento di una unità della variabile indipendente X. Se si cambia la scala della variabile indipendente o predittiva X (per esempio l'altezza misurata in mm o in m e non più in cm) lasciando invariata quella della variabile dipendente o predetta Y, muta proporzionalmente anche il valore del coefficiente angolare b.

Page 30: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Nell'analisi della regressione:

• è frequente, specialmente negli utilizzi predittivi, il ricorso al tempo come variabile indipendente;• viene spesso dimenticato che qualsiasi previsione o stima di Y derivata dalla retta è valida solo entro il campo di variazione della variabile indipendente X;• non è dimostrato che la relazione esistente tra le due variabili sia dello stesso tipo anche per valori minori o maggiori di quelli sperimentali rilevati.

Page 31: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Significatività della retta di regressioneCon il metodo dei minimi quadrati è sempre possibile ottenere la retta che meglio si adatta ai dati rilevati, indipendentemente dalla dispersione dei punti intorno alla retta.Tuttavia il semplice calcolo della retta non èsufficiente ai fini dell’analisi statistica.La retta potrebbe indicare:una relazione reale tra le due variabili, se il valore di b è alto e la dispersione dei punti intorno alla retta èridotta;relazione casuale o non significativa , quando la dispersione dei punti intorno alla retta èapprossimativamente uguale a quella intorno alla media.

Page 32: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 33: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 34: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Il coefficiente angolare b della retta di regressione, che determina la quantità di variazione di Y per ogni unità aggiuntiva di X, è calcolato da osservazioni sperimentali.

Ciò che tuttavia interessa al ricercatore è la relazione esistente nella popolazione, e sebbene il valore di b sia differente da zero, non è detto che nella popolazione al variare di X si abbia una variazione di Y.

La significatività del coefficiente di regressione nella popolazione può essere saggiata mediante la verifica dell’ipotesi nulla:

(β)

H0 : β β β β = 0.

Page 35: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Accettando si assume che il valore reale del coefficiente angolare sia = 0, dunque al variare di X, Y resta costante e uguale al valore dell'intercetta a, pertanto non esiste alcun legame tra X e Y.

Rifiutando si accetta l’ipotesi alternativadunque al variare di X si ha una

corrispondente variazione sistematica di Y.

β

H0

H0

H1: β β β β ≠ 0

Un metodo per la verifica della significativitàdella retta calcolata è il test F di Fisher-Snedecor , che si basa sulla scomposizione delle devianze.

Page 36: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

La somma dei quadrati delle distanze tra i tre punti definiscono le tre devianze: devianza totale, devianza della regressione o devianza dovuta alla regressione, devianza d'errore o devianza residua:

yi. iy∧

e y

Page 37: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Devianza Totale = ∑ −=

n

1i

2)yi

(y

Devianza di Regressione =

∑ −∧

=

n

1i

2)yi

y(

Devianza Residua =

∑∧

−=

n

1i

2)i

yi

(y

Devianza Totale = Devianza di Regress. + Devianza Res.

Page 38: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Dal rapporto della devianza dovuta alla regressione e quella residua con i rispettivi gradi di libertà (1 ed n-1 gdl rispettivamente) si stimano la varianza dovuta alla regressione e la varianzaresidua.

Il rapporto: siduaVarianzaRe

eRegression di Varianza

determina il valore del test F con 1 e n-2 gdl (F(1.n-2)).

Page 39: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

• Se l’F calcolato è inferiore a quello tabulato per la probabilità prefissata e i gdl corrispondenti si accetta l’ipotesi nulla (non esiste regressione lineare statisticamente significativa)

• Se l’F calcolato supera quello tabulato si rifiuta l' e si accetta (la regressione lineare tra le due variabili è significativa)

H0

H0 H1

Se , la varianza dovuta alla regressione e quella residua sono stime indipendenti e non viziate della variabilità dei dati

β = 0

Page 40: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Se , la varianza residua è una stima non viziata della variabilità dei dati, mentre la varianzadovuta alla regressione è stima di una grandezza maggiore della varianza residua.

β ≠ 0

Di conseguenza. il rapporto tra le due varianze èda ritenersi utile alla verifica dell'ipotesi β = 0

Rifiutare :- non significa che non esiste relazione tra le due variabili ma solamente che non esiste una relazione di tipo lineare

H0

Page 41: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

-significa che potrebbe esistere una relazione di tipo differente, come quella curvilinea di secondo grado o di grado superiore.

La trasformazione di uno o di entrambi gli assi è spesso sufficiente per ricondurre una relazione di tipo curvilineo a quella lineare:

•la crescita esponenziale di una popolazione nel tempo. generata da tassi costanti. diviene lineare con la trasformazione logaritmica del tempo, di norma riportato sull'asse delle ascisse

Page 42: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

la relazione curvilinea tra lunghezza e peso di individui della stessa specie diviene lineare con la trasformazione mediante radice cubica del peso correlato linearmente al volume

• l'analisi statistica permette qualsiasi tipo di trasformazione che determini una relazione lineare tra due variabili

Esempio 1

Con le misure delle caratteristiche ETA’ e PAS rilevate sugli 8 individui è stata determinata le retta di regressione .

Page 43: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Supposto il campione estratto dalla popolazione oggetto di studio significativo, con le tecniche dell’inferenza statistica occorre verificare:

• se la retta può essere assunta come rappresentativa di un rapporto lineare tre le due variabili;

•se è corretto affermare che, nella popolazione di riferimento, ad una variazione di età corrisponde un cambiamento lineare della pressione sistolica;

se, mediante il test F, (ip. H0) oppure (ip. H1).

β ≠ 0 β = 0

Page 44: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Si calcola la seguente tabella:

Devianza gdl Varianza Regressione 6543.1 1 6543.1 Residua 2687.8 6 447.9 Totale 9230.9 7

F(1.6) = =14.61

9.4471.6543

• il valore critico riportato nelle tavole di F per 1 e 6 gdl e per un livello di significatività =0.01 è pari a 13.75;• il valore calcolato di F è superiore a quello critico;

α

Page 45: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

• per p<0.01 si rifiuta H0 : si può supporre un rapporto lineare tra le variazioni di età e pressione sistolica.

La stima della significatività della retta o verifica dell'esistenza di una relazione lineare tra le variabili può essere condotta anche con il test t di Student , con risultati equivalenti al test F.

Il test t è :• fondato su calcoli didatticamente meno evidenti di quelli del test F ma offre il vantaggio di poter essere applicato sia in test unilaterali ( >0 ? oppure >0 ?) che in test bilaterali ( ?);

β

β ≠ 0 β

Page 46: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

• basato sul rapporto tra il valore del coefficiente di regressione b (che rappresenta la risposta media di Y ai diversi valori di X entro il suo intervallo di variazione) ed il suo errore standard SE(b):

SE(b) = DEV(X)

Residua Varianza

t(n-2) = SE(b)βb−

dove è il valore atteso e i gdl sono n-2.β

Page 47: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

t(n-2) = 2)n(1,F − .

.0093.822.4021.538

ETÀ

.0163.29720.85068.748

Constante

Significatività

tErroreStandard

Coefficiente

Page 48: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

COEFFICIENTE DI DETERMINAZIONE

Per una regressione lineare semplice, ma più in generale per qualsiasi regressione da quella curvilinea a quella lineare multipla, il coefficiente di determinazione r2 è la proporzione di variazione totale della variabile dipendente spiegata da quella indipendente:

r2 =

Totale DevianzaeRegression di Devianza

Page 49: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Espresso a volte in percentuale ed indicato in alcuni testi con R2 o Rsq , serve per misurare “quanto”della variabile dipendente Y sia predetto dalla variabile indipendente X e, quindi, per valutare la bontà dell’equazione di regressione ai fini della previsione sui valori della Y.

E' una misura che ha scopi descrittivi dei dati raccolti. Non è legata ad inferenze statistiche, ma a scopi pratici, specifici dell'uso della regressione come metodo per prevedere Y conoscendo X.

Page 50: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Il suo valore, compreso tra 0 e 1, è tanto piùelevato quanto più la retta passa vicino ai punti, fino a raggiungere 1 (o 100%) quando tutti i punti sperimentali sono collocati esattamente sulla retta e quindi ogni Yi può essere predetto con precisione totale dal corrispondente valore di Xi

Nell'esempio con le 8 osservazioni di etàe pressione il valore del coefficiente di determinazione è:

r2 =

9230.96543.1 = 0.71

Page 51: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Ciò significa che, noto il valore dell'età, quello della pressione è stimato mediante la retta di regressione con una approssimazione di circa il 71%. Il restante 1−r2=29% è determinato dalla variabilitàindividuale di scostamento dalla retta ed indica la parte di variabilità della variabile risposta imputabile eventualmente ad altri fattori diversi dall’età.La valutazione del valore di r2 è in stretto rapporto con la disciplina oggetto di studio. Si può ritenere in alcuni ambiti che il modello lineare abbia un buon fitting con i valori sperimentali se r2 > 0.6, ma va detto anche che nelle scienze sociali spesso si reputa alto un valore uguale a 0.30 mentre i fisici stimano basso un valore pari a 0.98.

Page 52: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

CORRELAZIONE LINEARE SEMPLICE

Una misura della bontà del modello lineare può essere ottenuta studiando l’interdipendenza tra due caratteri statistiche quantitativi X e Y.

Uno degli indici molto noto per una tale misura è il Coefficiente di Correlazione Lineare r:

r =

DEV(Y)DEV(X)Y)CODEV(X,

Page 53: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Tale quantità, indicata anche con R, varia tra −1 e 1. Un valore di r vicino a 1 indica una associazione stretta o molto stretta tra le due variabili; si parla in tal caso di correlazione lineare positiva tra X e Y: all’aumentare di una variabile aumenta anche l’altra.

•Un valore di r vicino a −1 denota un’alta o molto alta correlazione lineare negativa (discordanza) tra X e Y: all’aumentare di una di esse l’altra diminuisce.

•Un valore di r = 0 o prossimo a 0 indica indifferenza(indipendenza) tra le variabili.

Page 54: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

L’analisi della correlazione misura solo il grado di associazione spazio-temporale di due fenomeni; il coefficiente r è semplicemente una misura dell’intensità dell’associazione tra due variabili.

Page 55: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 56: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 57: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni
Page 58: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Nell’es. 1, utilizzando i calcoli della Tabella costruita a pag. 7, si ha:

r =

9230.882767.884255.62

⋅+

= + 0.842

e si registra, quindi, un apprezzabile grado di correlazione lineare positiva tra l’età e la pressione sistolica per i dati presi in esame.

Valori di r intorno all’80% o superiori possono, in teoria, far ritenere buona l’associazione lineare: ma va tenuto conto dell’ambito disciplinare e della numerosità dei dati.

Page 59: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Il coefficiente di correlazione può essere calcolato come media geometrica dei coefficienti di regressione lineare di Y su X (b) e di X su Y (b’):

r = 'bb⋅±

Inoltre il valore r2 è proprio il coefficiente di determinazione.

Per quanto attiene l’esempio n.4 relativo al n° di sigarette fumate (X) e la capacità vitale (Y), il valore di r è

r =

88.25477.75107.51

⋅−

= - 0.967,

Page 60: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

dunque c’è correlazione lineare negativa tra i due caratteri presi in esame.

Inoltre: r2 = 93%

che è la parte di variazione totale della CV spiegata dal modello regressivo.

Un valore basso o nullo di r non deve essere interpretato come assenza di una qualsiasi forma di relazione tra le due variabili:

• è assente solo una relazione di tipo lineare,• tra le due variabili possono esistere relazioni di tipo non lineare.

Page 61: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

CENNI SULLA REGRESSIONE MULTIPLA

Esempio 5Dati rilevati su 8 soggetti:

Soggetto Sesso Età PAS PAD Fumo 1 1 22 131 70 5 2 0 28 114 75 8 3 1 35 121 80 30 4 0 47 111 75 20 5 0 51 130 70 15 6 1 56 145 80 0 7 1 67 176 85 25 8 1 81 217 90 10

Page 62: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni

Modelli regressivi lineari:

PAD = 65 + 0.28 Età r = 0.78 r2= 0.61; t = 3.067 p = 0.022

PAS = 69 + 1.53 Età

PAS = 75 + 1.55 Età – 0.54 Fumo

tEtà = 3.67 p = 0.014

tFumo =- 0.66 p = 0.536

PAD = 54 + 0.13 PAS + 0.16 Fumo + 0.07 Etàla t non è significativa per nessuna delle variabili.

r = 0.84 r2= 0.71; t = 3.82 p = 0.009

Page 63: RELAZIONE TRA DUE VARIABILI QUANTITATIVE · VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni