Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale...

39
L’analisi della varianza: la variabile dipendente è cardinale, l’indipendente è categoriale Metodologia della ricerca sociale 1 L’analisi della varianza serve a studiare la relazione tra una variabile categoriale (X) e una variabile cardinale (Y): X è in ipotesi indipendente, le sue singole categorie (modalità) si definiscono “gruppi”; Y è in ipotesi dipendente da X. Le modalità di una variabile cardinale sono troppo numerose perché una tavola di contingenza risulti leggibile, d’altro canto è possibile utilizzare misure di sintesi (medie e varianze) non utilizzabili per le variabili categoriali. Dunque se la X è categoriale e la Y è cardinale possiamo confrontare queste misure di sintesi calcolate per la Y entro i gruppi definiti dalla X. Lo scopo dell’analisi della varianza è testare l’ipotesi che la varianza di Y dipenda da X, o in altre parole che le medie dei gruppi costituiti dalle modalità di X sulla variabile Y siano significativamente differenti. Esempio: formuliamo l’ipotesi che la soddisfazione lavorativa (rilevata con una scala di atteggiamento) dipenda dal tipo di contratto dei soggetti.

Transcript of Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale...

Page 1: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

L’analisi della varianza:la variabile dipendente è cardinale, l’indipendente è categoriale

Metodologia della ricerca sociale 1

L’analisi della varianza serve a studiare la relazione tra una variabile categoriale (X) e una variabile cardinale (Y):

• X è in ipotesi indipendente, le sue singole categorie (modalità) si definiscono “gruppi”;

• Y è in ipotesi dipendente da X.

Le modalità di una variabile cardinale sono troppo numerose perché una tavola di contingenza risulti leggibile, d’altro canto è possibile utilizzare misure di sintesi (medie e varianze) non utilizzabili per le variabili categoriali.

Dunque se la X è categoriale e la Y è cardinale possiamo confrontare queste misure di sintesi calcolate per la Y entro i gruppi definiti dalla X.

Lo scopo dell’analisi della varianza è testare l’ipotesi che la varianza di Y dipenda da X, o in altre parole che le medie dei gruppi costituiti dalle modalità di X sulla variabile Y siano significativamente differenti.

Esempio: formuliamo l’ipotesi che la soddisfazione lavorativa (rilevata con una scala di atteggiamento) dipenda dal tipo di contratto dei soggetti.

Page 2: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

L’analisi della varianza:la variabile dipendente è cardinale, l’indipendente è categoriale

Metodologia della ricerca sociale 2

L’analisi della varianza verifica l’ipotesi nulla:

H0: tutte le medie sono uguali tra di loroCioè:

H0: la soddisfazione lavorativa non dipende dal tipo di contratto

L’ipotesi alternativa è:

H1: almeno una media è diversa dalle altre Cioè:

H1: esiste almeno un gruppo identificato dal tipo di contratto per cui la soddisfazione lavorativa ha una media diversa da quella di un altro

L’ipotesi nulla viene rifiutata se c’è almeno un gruppo con una media significativamente diversa da quella di un altro.

Page 3: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

L’analisi della varianza:la variabile dipendente è cardinale, l’indipendente è categoriale

Metodologia della ricerca sociale 3

L’analisi della varianza rientra tra le analisi statistiche inferenziali, cioè mirate a valutare se le evidenze emerse su dati campionari sono estendibili all’intera popolazione da cui è estratto il campione.

Perché abbia senso applicare questa analisi devono darsi le seguenti condizioni:

•Le osservazioni devono essere tra loro indipendenti

•La variabile dipendente deve avere distribuzione normale

•Le varianze all’interno degli strati devono essere omogenee (cioè

simili tra loro).

Page 4: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La scomposizione della varianza

Metodologia della ricerca sociale 4

Possiamo scomporre lo scarto dalla media di un singolo valore della distribuzione di Y (ad esempio della soddisfazione lavorativa) in due componenti: a.Lo scarto del valore dalla media del suo gruppo (ad esempio lo scarto del soggetto A dalla media dei soggetti con contratto a tempo determinato);b.Lo scarto della media del gruppo dalla media generale (ad esempio lo scarto della media dei soggetti con contratti a tempo determinato dalla media generale).

Allo stesso modo è possibile scomporre la somma del quadrato degli scarti di tutti i valori dalla media generale, cioè la devianza totale:

Dove p è il numero dei gruppi, n è il numero dei casi, yij il singolo valore della distribuzione, ŷ la media generale, ŷi la media dei gruppi.

Page 5: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La scomposizione della varianza

Metodologia della ricerca sociale 5

La variabilità totale della variabile dipendente Y è descritta dalla devianza totale (cioè dalla somma dei quadrati degli scarti dalla media).

La variabilità fra i gruppi (definiti dalle modalità di X) è descritta dalla devianza tra i gruppi (cioè dalla somma dei quadrati degli scarti tra le medie dei gruppi e la media generale, detta anche somma esterna dei quadrati o devianza spiegata):

La somma dei quadrati di quanto la soddisfazione lavorativa di ciascun soggetto si discosta dalla media generale della soddisfazione lavorativa.

La somma dei quadrati di quanto la soddisfazione lavorativa di ciascun gruppo individuato dal tipo di contratto si discosta dalla media generale della soddisfazione lavorativa.

Page 6: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La scomposizione della varianza

Metodologia della ricerca sociale 6

La variabilità nei gruppi (entro i gruppi) è descritta dalla devianza entro i gruppi (cioè dalla somma dei quadrati degli scarti dalla media del gruppo, detta anche somma interna dei quadrati o devianza non spiegata):

Devianza spiegata o non spiegata da cosa?… dalla variabile categoriale: •la devianza spiegata è la parte di variabilità della variabile dipendente attribuibile alla variabile indipendente (nell’esempio è la parte della variabilità della soddisfazione lavorativa attribuibile al tipo di contratto dei soggetti);•la devianza non spiegata è la parte di variabilità di Y non attribuibile a X (cioè la parte di variabilità della soddisfazione lavorativa non attribuibile al tipo di contratto).

La somma dei quadrati di quanto la soddisfazione lavorativa di ciascun soggetto si discosta dalla media della soddisfazione lavorativa del gruppo individuato dal tipo di contratto a cui il soggetto stesso appartiene.

Page 7: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La scomposizione della varianza

Metodologia della ricerca sociale 7

SQesterna=0 in caso di assenza di relazione

SQinterna=0 in caso di

relazione perfetta

Il diverso peso relativo della somma dei quadrati esterna e della somma dei quadrati interna (cioè della devianza spiegata e di quella non spiegata) può essere utilizzato per valutare la significatività e la forza della relazione tra X e Y.

Page 8: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Un esempio di scomposizione della varianza

Metodologia della ricerca sociale 8

Caso Genere (X) Stress lavoro correlato (Y)

a M 3

b M 6

b F 6

d F 5

n M 4

Media N

M 4,59 53

F 5,63 47

Totale 5,14 100

Sono gli scarti dei singoli valori dalla media complessiva:(3-5,14)2+(6-5,14)2+(6-5,14)2+(5-5,14)2+…+(4-5,14)2= 862,162

Page 9: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Un esempio di scomposizione della varianza

Metodologia della ricerca sociale 9

Caso Genere (X) Stress lavoro correlato (Y)

a M 3

b M 6

b F 6

d F 5

n M 4

Sono gli scarti delle medie dei gruppi dalla media complessiva:(4,59-5,14)2+(4,59-5,14)2+(5,63-5,14)2+(5,63-5,14)2+…+(4,59-5,14)2

= 53(4,59-5,14)2+47(5,63-5,14)2=27,185

Media N

M 4,59 53

F 5,63 47

Totale 5,14 100

Page 10: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Un esempio di scomposizione della varianza

Metodologia della ricerca sociale 10

Caso Genere (X) Stress lavoro correlato (Y)

a M 3

b M 6

b F 6

d F 5

n M 4

Sono gli scarti dei singoli valori dalla media dei gruppi:(3-4,59)2+(6-4,59)2+(6-5,63)2+(5-5,63)2+…+(4-4,59)2= 834,977

Media N

M 4,59 53

F 5,63 47

Totale 5,14 100

Page 11: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La scomposizione della varianza

Metodologia della ricerca sociale 11

Ad ognuna delle devianze sono associati i gradi di libertà:• la devianza totale ha n − 1 gradi di libertà (dove n è la numerosità dei casi);• la devianza tra gruppi ha p − 1 gradi di libertà (dove p è il numero dei gruppi);• la devianza entro i gruppi ha n - p gradi di libertà:

Dividendo la devianza per i gradi di libertà si ottiene la stima della varianza della popolazione.

Varianza tra i gruppi:

Varianza entro i gruppi:

Page 12: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Tornando all’esempio:

Metodologia della ricerca sociale 12

Varianza tra i gruppi:

Varianza entro i gruppi:

Caso Genere (X) Stress lavoro correlato (Y)

a M 3

b M 6

b F 6

d F 5

n M 4

Media N

M 4,59 53

F 5,63 47

Totale 5,14 100

(100-1)=(2-1)+(100-2) 99 = 1 + 98

=27,185/1=27,185

=834,977/98=8,520

862,162 = 834,977 + 27,185

Page 13: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La significatività della relazione: il test F

Metodologia della ricerca sociale 13

Il test F serve a verificare l’ipotesi di uguaglianza delle medie confrontando varianza spiegata e varianza non spiegata:

Se l’ipotesi nulla è vera le due stime della varianza sono uguali; se è falsa la stima esterna è maggiore di quella interna.

La statistica F ha una distribuzione campionaria conosciuta, segue una distribuzione F di Fisher, cioè si conosce il suo valore critico in base al quale respingere o accettare H0 a seconda dei gradi di libertà delle due stime.

Esistono tabelle dei valori critici a seconda della significatività e la regola decisionale è: Rifiuto H0 se F (calcolato) > Fα (tabulato).

Page 14: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La significatività della relazione: il test F

Metodologia della ricerca sociale 14

Per il test F esiste una tavola per ogni livello di significatività, riportiamo quella per α=0,05 (che è il valore generalmente utilizzato come soglia):

p-1n-p

Page 15: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La forza della relazione: l’eta-quadrato

Metodologia della ricerca sociale 15

Il confronto tra le medie dei gruppo può rendere conto della forza della relazione: tanto più le medie differiscono tra loro maggiore sarà la forza della relazione. Esistono però diversi coefficienti per quantificare questa forza, il più semplice è l’eta-quadrato, dato dal rapporto tra la somma dei quadrati esterna (cioè la devianza spiegata) e la somma dei quadrati totale (la devianza totale).

Varia tra 0 (assenza di relazione) e 1 (relazione perfetta, tutta la devianza di Y è attribuibile a X) ed è chiamato anche rapporto di correlazione di Pearson.

L’eta-quadrato risente del numero delle categorie della variabile categoriale, quindi si deve fare attenzione nel confrontare eta-quadrati di una stessa Y con X aventi un numero di modalità differenti, inoltre presenta dei problemi se il numero dei casi in ogni gruppo è troppo ridotto.

Page 16: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Tornando all’esempio:

Metodologia della ricerca sociale 16

Varianza tra i gruppi: 27,185Varianza entro i gruppi: 8,520

Caso Genere (X) Stress lavoro correlato (Y)

a M 3

b M 6

b F 6

d F 5

n M 4

Media N

M 4,59 53

F 5,63 47

Totale 5,14 100

862,162 = 834,977 + 27,185

27,185 / 8,520 = 3,191

27,185/ 862,162 = 0,32

Sig. = 0,077

η = √0,32 = 0,178

Page 17: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La significatività della F:

Metodologia della ricerca sociale 17

Le tavole prestampate dei valori soglia del test F non riportano tutti i gradi di libertà, spesso quindi è necessario osservare l’F tabulato per un numero maggiore di g.d.l. rispetto a quelli effettivi. Infatti se la F calcolata ha un valore più elevato anche del valore tabulato per un g.d.l. più alto possiamo rifiutare l’ipotesi nulla. Ad esempio nella tabella riportata dei valori di F per α=0,05 possiamo confrontare la F calcolata con quella teorica per 1*120 g.d.l. (risulta inferiore, dunque la probabilità di errore nell’accettare H1 è superiore allo 0,5%).Calcolando con excel, o software simili, la significatività sappiamo che una F pari a 3,191, con 1 g.d.l. al numeratore e 98 g.d.l. al denominatore, ha α=0,077, dunque che accettando H1 abbiamo una probabilità di errore del 7,7%.

Page 18: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

L’analisi della varianza: esempi e calcoliAlcune note

Metodologia della ricerca sociale 18

Il calcolo degli indici legati all’analisi della varianza sembra complesso, in realtà non si tratta che di rapporti (divisioni) tra somme di scarti (sottrazioni) elevati al quadrato.

Il calcolo non viene svolto a mano perché l’ANOVA ha senso se applicata a campioni, con scopi inferenziali, dunque su molti casi.

I principali programmi di analisi dei dati forniscono non solo tutti gli indici necessari (cioè non solo la F e l’eta-quadro), ma anche gli elementi che li compongono:-Somma dei quadrati (cioè la devianza) tra i gruppi, entro i gruppi e totale;-Media dei quadrati (cioè la varianza) tra i gruppi, entro i gruppi e totale;-Gradi di libertà.

Page 19: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Esempi: Analisi della varianza.

Metodologia della ricerca sociale 19

1. Assenza di relazione Tipo di contratto a tempo determinato

Soddisfazione lavorativa

A termine Media 4,92

N 60

Dev. std. 2,48

Di breve durata Media 4,58

N 67

Dev. std. 2,41

Occasionale Media 4,51

N 73

Dev. std. 2,03

Totale Media 4,66

N 200

Dev. std. 2,30

Somma dei quadrati

gdlMedia dei quadrati

F Sig.

Soddisfazione lavorativa

Fra gruppi 6,265 2 3,133 ,591 ,555Entro gruppi 1043,819 197 5,299   Totale 1050,084 199     

Eta Eta quadrato0,077 0,006

Page 20: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Esempi: Analisi della varianza.

Metodologia della ricerca sociale 20

2. Presenza di una relazione Tipo di contratto a tempo determinato

Soddisfazione per il reddito da

lavoroA termine Media 3,15

N 60

Dev. std. 1,94

Di breve durata Media 6,06

N 67

Dev. std. 1,55

Occasionale Media 4,36

N 73

Dev. std. 2,01

Totale Media 4,57

N 200

Dev. std. 2,18

Somma dei quadrati

gdlMedia dei quadrati

F Sig.

Soddisfazione per il

reddito da lavoro

Fra gruppi 273,799 2 136,899 40,180 ,000Entro gruppi 671,211 197 3,407   

Totale945,010 199     

Eta Eta quadrato0,538 0,29

Page 21: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Regressione e correlazione

Metodologia della ricerca sociale 21

Nel caso entrambe le variabili siano cardinali è possibile analizzare sia la forza che la forma della relazione, ma è necessario utilizzare due differenti strumenti:•la correlazione serve ad analizzare la forza di una relazione;•la regressione (la più semplice e utilizzata è quella lineare) permette di analizzarne la forma.

Questi due strumenti si differenziano anche per quanto riguarda la direzione della relazione:•la correlazione serve a quantificare la forza della relazione, dunque non dipende dalla sua direzione (il valore del coefficiente è lo stesso sia che Y dipenda da X sia che X dipenda da Y);•la regressione identificando la forma della relazione cambia a seconda della sua direzione: se ipotizziamo che Y dipenda da X avremo una funzione diversa di quella che otterremmo ipotizzando che X dipenda da Y.

Page 22: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La correlazione: il coefficiente r

Metodologia della ricerca sociale 22

Il coefficiente di correlazione r, detto anche coefficiente di correlazione di Bravais-Pearson, misura la forza di una relazione tra due variabili cardinali:

E’ il rapporto tra la covarianza fra X e Y e il prodotto delle deviazioni standard di X e di Y (se infatti dividiamo tutto per N, cioè per la numerosità campionaria otteniamo la covarianza al numeratore e il prodotto tra le varianze al denominatore).

Questo coefficiente non dipende dalla direzione della relazione, e assume valore +1 in caso di perfetta relazione positiva; -1 in caso di perfetta relazione negativa e 0 in assenza di relazione (in caso di relazione perfetta i punti sono tutti allineati su una retta di regressione). Si tratta inoltre di un numero puro, quindi non risente dell’unità di misura delle due variabili in analisi.

Page 23: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Il coefficiente r: un esempio

Metodologia della ricerca sociale 23

CasoSoddisfazione lavorativa

Autorealizzazione

A 4,8 5,6

B 5,6 4,3

C 5,7 6,2

D 6,3 6,6

E 7,5 6,9

Medie 5,98 5,92

r=[(4,8-5,98)(5,6-5,92)+(5,6-5,98)(4.3-5,92)+(5,7-5,98)(6,2-5,92)+(6,3-5,98)(6,6-5,92)+(7,5-5,98)(6,9-5,92)]/√{[(4,8-5,98)2+(5,6-5,98)2+(5,7-5,98)2+(6,3-5,98)2+(7,5-5,98)2]*[(5,6-5,92)2+(4.3-5,92)2+(6,2-5,92)2+(6,6-5,92)2+(6,9-5,92)2] }

=2,622/ √(4,028*4,228)=0,635

Page 24: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Il coefficiente di correlazione r

Metodologia della ricerca sociale 24

Il coefficiente r, presenta alcune caratteristiche che è bene tenere presenti quando lo si utilizza:

• è un coefficiente di correlazione lineare, dunque non rileva relazione che abbiano una forma diversa dalla linearità;

• è molto sensibile ai valori estremi;errori legati a queste caratteristiche si possono evitare

semplicemente osservando con attenzione i diagrammi di dispersione.

Per il coefficiente di correlazione r esistono dei test di significatività che permettono di stabilire se i valori trovati sono sufficientemente elevati da permettere di falsificare l’ipotesi nulla H0.

Il quadrato del coefficiente r è l’R-quadrato, dunque se r è pari a 0,5 da un lato possiamo dire che il 25% della variazione della variabile dipendente è spiegata da quella della variabile indipendente, dall’altro non possiamo interpretare un r=0,5 come pari alla metà della correlazione perfetta.

Page 25: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Esempi:una matrice di correlazione

Metodologia della ricerca sociale 25

Soddisfazione lavorativa

AutorealizzazioneMotivazione al

raggiungimento degli obiettivi

Soddisfazione lavorativa

1

Autorealizzazione 0,51 1

Motivazione al raggiungimento degli obiettivi

-0,62 -0,37 1

Una matrice di correlazioni è una tabella che presenta nelle celle i coefficienti di correlazione tra le corrispondenti variabili in riga e colonna. La diagonale principale è costituita da valori 1 (la correlazione di una distribuzione con se stessa è perfetta) e n(n-1)/2 valori corrispondenti alle correlazioni fra tutte le coppie di variabili (infatti la metà della tabella al di sopra della diagonale principale sarebbe simmetrica e identica: l’r fra X e Y è uguale all’r fra Y e X.

Page 26: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La regressione lineare

Metodologia della ricerca sociale 26

Nello studio delle relazioni tra variabili, oltre a misurare l’entità (o forza) del legame esistente, spesso si è anche interessati ad accertare come varia una di esse al variare dell’altra, cioè ad individuare un’opportuna funzione che metta in relazione la variabile indipendente e quella dipendente.

Il modello di regressione che scegliamo di applicare dipende dalla nostra ipotesi circa la relazione tra X e Y:a. se ipotizziamo, ad esempio, che la soddisfazione lavorativa dipenda dal reddito in modo tale che all’aumentare di una unità di reddito la soddisfazione aumenti di una certa quota stiamo ipotizzando una relazione lineare dunque possiamo applicare un modello di regressione lineare;b. se invece la nostra ipotesi è che la soddisfazione lavorativa cresca con il reddito, ma solo fino a una certa soglia, per poi restare stabile oppure decrescere, stiamo ipotizzando relazioni non lineari, dunque non possiamo utilizzare un modello di regressione lineare, ma a seconda dei casi sceglieremo una funzione più opportuna.

Bisogna dunque tenere presente che se si effettua l’analisi della regressione lineare tra due variabili e non si riscontra una relazione lineare non vuol dire che non ci sia relazione: potrebbe infatti sussistere una relazione curvilinea.

Page 27: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La nuvola dei punti

Metodologia della ricerca sociale 27

Poiché la regressione lineare semplice è applicabile esclusivamente a variabili cardinali, la rappresentazione grafica più adatta è la rappresentazione cartesiana: facendo corrispondere ad una delle due variabili (quella indipendente) l’asse delle X, e all’altra l’asse delle Y, si collocano sul piano i casi in base ai loro valori su ciascuna variabile. Ogni individuo sarà rappresentato da un punto le cui coordinate saranno i valori ottenuti sulla variabile indipendente (X) e dipendente (Y).

Se non dovessimo avere un ipotesi forte circa la forma della relazione tra le variabili che stiamo analizzando prima di usare un modello di regressione possiamo utilizzare una rappresentazione grafica come strumento esplorativo.

Già per la rappresentazione grafica la distinzione tra variabile indipendente e dipendente è particolarmente importante, come vedremo infatti i valori del coefficiente di regressione differiscono a seconda della scelta.La rappresentazione grafica sul piano cartesiano produrrà una nuvola di punti detta diagramma di dispersione (scattergram o scatterplot).

Page 28: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Alcuni esempi di nuvole dei punti:

Metodologia della ricerca sociale 28

Assenza di relazione Relazione lineare positiva

Relazione lineare negativa Relazione non lineare

Page 29: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La regressione lineare: la funzione

Metodologia della ricerca sociale 29

Data una nuvola di punti in cui si ravvisa un andamento lineiforme, ipotizziamo di tracciare una retta, che chiamiamo retta interpolante, la quale meglio di tutte le altre si avvicina ai tutti i punti e che, dunque, sintetizzi la nuvola.

Sarebbe irrealistico pensare, almeno nell’ambito delle scienze sociali che vi sia relazione perfetta fra due variabili, ovvero che per tutti i punti siano collegabili fra di loro con una retta.

Y

X

In una regressione lineare si analizza la variabile dipendente (Y) come funzione della variabile indipendente (X):

Y= f(X)

Y

X

Più realistico invece è pensare ad un andamento lineiforme per cui sia possibile immaginare una retta che sintetizzi, meglio di altre rette possibili, l’informazione data dai punti.

Page 30: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La regressione lineare: i parametri

Metodologia della ricerca sociale 30

Y = a + bXData una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che, meglio di tutte le altre è in grado di sintetizzarla, dove:a è l’intercetta, ovvero in punto in cui la retta intercetta l’asse delle y, ovvero l’ordinata della retta quando l’ascissa è 0;b è il coefficiente angolare, cioè la pendenza della retta.

Y= f(X)

Il metodo dei minimi quadrati ci permette di determinare a e b a partire dai valori delle due variabili X e Y sui casi individuando la retta che riduce al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) ed i valori di Y osservati (nei dati):

Coefficiente di regressione Intercetta

Page 31: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Il coefficiente di regressione

Metodologia della ricerca sociale 31

Dividendo il numeratore ed il denominatore del coefficiente di regressione per la numerosità campionaria (N) otteniamo:•al numeratore la covarianza tra X e Y;•al denominatore la varianza di X.

Dunque covarianza fra X e Y

varianza di Xb =

Questo spiega perché il coefficiente di correlazione r è il prodotto dei due b che otterremmo analizzando la regressione di Y su X e quella di X su Y.

Page 32: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

L’errore

Metodologia della ricerca sociale 32

Dato che la retta di regressione non da una rappresentazione perfetta della nuvola di punti, ma solo una sua sintesi, poiché i punti non sono mai allineati perfettamente sulla retta stessa, bisogna introdurre un ulteriore coefficiente e detto errore o residuo:

Y= a + bX + e

Il valore di e è dato dallo scarto fra il valore predetto dall’equazione di regressione e il valore effettivamente osservato nei dati:

Y – Ŷ = e

L’errore è dunque il residuo non spiegato, relativo a ciascuna osservazione.

Page 33: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

L’errore

Metodologia della ricerca sociale 33

Il residuo è definito come la differenza tra i valori osservati (Y) ed i corrispondenti valori teorici (Ŷ), che si collocano sulla retta di regressione:

Ciascun residuo è dunque il valore numerico, riferito a ciascuna unità, rispetto al corrispondente valore osservato, che non è spiegato dalla relazione lineare con la variabile indipendente.

Y

X

Y= a + bX + e

X1 X2 X3 X4 X5

Q1

Q2

Q3

Q4

Q5

P1

P2

P3

P4

P5

e5

e= Y-Ŷ

e5= Y(P5)-Ŷ(Q5)

Page 34: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La bontà dell’adattamento ai dati

Metodologia della ricerca sociale 34

Il metodo dei minimi quadrati garantisce l’individuazione della retta che sintetizza in maniera ottimale la nuvola dei punti, ma bisogna controllare che questa retta sia realmente in grado di spiegare l’andamento delle osservazioni, cioè controllarne la bontà dell’adattamento ai dati.

Per farlo si segue un procedimento simile alla scomposizione della varianza nell’Anova, la scomposizione della devianza:

Dove:

Devianza totale dei valori della variabile dipendente; misura la variazione dei valori di y intorno alla loro media.

Devianza dei valori stimati (o devianza di regressione); variazione spiegata attribuibile alla relazione fra X e Y.

Devianza dei residui (o residua); attribuibile a fattori estranei alla relazione fra X e Y.

Page 35: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La bontà dell’adattamento ai dati

Metodologia della ricerca sociale 35

Dunque la devianza totale è composta da:

SST = SSR + SSESomma totale dei quadrati = Somma dei quadrati della regressione + Somma dei quadrati degli errori

La devianza è una misura di variabilità: pertanto la devianza delle osservazioni è il risultato del contributo di due componenti:

•La variabilità dei valori stimati; espressa dalla devianza di regressione. la parte “spiegata” dalla relazione lineare;

•La variabilità dei punti attorno alla retta; espressa dalla devianza residua.

Anche se la sua prossimità (Dev (E)) allo 0 indica che la rappresentazione (sintesi) fornita dalla retta di regressione è soddisfacente, il valore della devianza residua non è direttamente utilizzabile per misurare la bontà dell’adattamento perché il suo valore numerico è influenzato dall’ordine di grandezza delle variabili utilizzate

Page 36: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

La bontà dell’adattamento ai dati:l’indice di determinazione lineare

Metodologia della ricerca sociale 36

Dato che la devianza residua non basta a rendere conto della bontà dell’adattamento si utilizza l’indice di determinazione lineare R-quadrato.L’R-quandrato è dato dal rapporto tra devianza di regressione (SSE) e devianza totale (SST):

Essendo un rapporto al tutto, ha un campo di variazione compreso tra 0 e 1, dove 0 indica un pessimo adattamento della retta ai dati e 1 indica un adattamento perfetto.

Page 37: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Esempi:Assenza di relazione

Metodologia della ricerca sociale 37

Page 38: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Esempi:Relazione lineare diretta.

Metodologia della ricerca sociale 38

Page 39: Lanalisi della varianza: la variabile dipendente è cardinale, lindipendente è categoriale Metodologia della ricerca sociale1 Lanalisi della varianza serve.

Esempi:Relazione lineare inversa.

Metodologia della ricerca sociale 39