Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue...

44
L’analisi bivariata L’analisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x e y) esiste tra loro una relazione di indipendenza o di associazione; 2.In caso di associazione, quantificare (ove possibile) il grado di associazione tra coppie di variabili mediante coefficienti. Cosa bisogna tenere a mente quando si effettua un analisi bivariata: 1.L’analisi bivariata studia relazione statistiche e quindi probabilistiche; 2.Distinzione tra variabili indipendenti e variabili dipendenti; 3.Le tecniche di analisi bivariata variano in base al tipo di variabili considerate. 1 Metodologia della ricerca sociale

Transcript of Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue...

Page 1: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

L’analisi bivariataL’analisi bivariata serve a studiare la relazione fra coppie di variabili.

Le sue funzioni sono:

1.Stabilire se date due variabili (x e y) esiste tra loro una relazione di indipendenza o di associazione;

2.In caso di associazione, quantificare (ove possibile) il grado di associazione tra coppie di variabili mediante coefficienti.

Cosa bisogna tenere a mente quando si effettua un analisi bivariata:1.L’analisi bivariata studia relazione statistiche e quindi probabilistiche;2.Distinzione tra variabili indipendenti e variabili dipendenti;3.Le tecniche di analisi bivariata variano in base al tipo di variabili considerate.

1Metodologia della ricerca sociale

Page 2: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

L’analisi bivariata: tipi di variabili e di relazioni

Variabile dipendente

Nominale Ordinale Cardinale

Variabile indipendent

e

Nominale

Associazione

Analisi della varianza

Ordinale

Cograduazione

CardinaleCorrelazione

/Regressione

2Metodologia della ricerca sociale

Page 3: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

L’analisi bivariata

L’analisi bivariata ha dunque, nella maggior parte dei casi, come prodotto principale una tavola di contingenza (o tabella a doppia entrata, o incrocio).

Rispetto alla distribuzione di frequenza la tavola di contingenza tiene contemporaneamente conto di due variabili: una posta in colonna, l’altra in riga.

Oltre alle frequenze assolute, possiamo riportare nella tabella anche (oppure soltanto) le frequenze relative (le percentuali).

Variabile BTotale

Modalità A Modalità B

Variabile AModalità A

Modalità B

Totale

3Metodologia della ricerca sociale

Page 4: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

L’analisi bivariata

Le frequenze possono essere relativizzate al totale di riga o di colonna, o al totale complessivo. Bisogna essere consapevoli che percentualizzazioni differenti danno informazioni differenti.

Il tipo di percentualizzazione:• Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga;• Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna.

I totali, di riga e di colonna, costituiscono le frequenze marginali e corrispondono alle frequenze delle variabili prese singolarmente (cioè alle loro distribuzioni monovariate).

4Metodologia della ricerca sociale

Page 5: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: quali informazioni si ottengono cambiando la percentualizzazione?

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 75 47 122

Privato 32 56 88

Totale 107 103 210

Quale quota di occupati nel privato è donna?Percentuale di riga

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 61,5 38,5 100,0

Privato 36,4 63,6 100,0

Totale 51,0 49,0 100,0

5Metodologia della ricerca sociale

Page 6: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: quali informazioni si ottengono cambiando la percentualizzazione?

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 75 47 122

Privato 32 56 88

Totale 107 103 210

Quale quota donne è occupata nel settore privato?Percentuale di colonna

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 70,1 45,6 58,1

Privato 29,9 54,4 41,9

Totale 100,0 100,0 100,0

6Metodologia della ricerca sociale

Page 7: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: quali informazioni si ottengono cambiando la percentualizzazione?

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 75 47 122

Privato 32 56 88

Totale 107 103 210

Quale quota del campione è donna e occupata nel settore privato?Percentuale sul totale

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 35,7 22,4 58,1

Privato 15,2 26,7 41,9

Totale 51,0 49,0 100,0

7Metodologia della ricerca sociale

Page 8: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Misurare l’associazione tra due variabiliLe statistiche bivariate: quali indici possono essere utilizzati in base al tipo delle due variabili?

I programmi di analisi dei dati offrono la possibilità di calcolare diversi indici in grado di informarci sulla significatività della relazione, la misura dell’associazione, il livello di cograduazione o correlazione tra due variabili, ma è il ricercatore a scegliere l’indice più adatto:

- al tipo di variabili;- alle sue esigenze conoscitive.

8Metodologia della ricerca sociale

Page 9: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Misurare l’associazione tra due variabiliLe statistiche bivariate: il test del Chi-quadrato

Il test del chi-quadrato (Х2) è un test di “verifica” delle ipotesi che dà conto della significatività della relazione fra due variabili categoriali (non ci dice nulla sulla forza della relazione).

Il test rientra nella famiglia dei test delle ipotesi, cioè permette di confrontare un set di dati osservati con il corrispettivo set di dati attesi in base ad un’ipotesi teorica e di stimare la validità di questa ipotesi.

Si tratta di falsificare l’ipotesi nulla (H0), ovvero di assenza di relazione statistica fra due variabili. Se l’ipotesi di assenza di relazione viene respinta, automaticamente viene accettata l’ipotesi di ricerca (H1) che sostiene l’esistenza della relazione.

Il suo calcolo si basa sul confronto tra: •Frequenze osservate: il numero dei casi effettivamente osservati;•Frequenze attese: la frequenza teorica che si dovrebbe attendere sulla base dei totali marginali, se tra le due variabili considerate non esistesse alcuna relazione.

9Metodologia della ricerca sociale

Page 10: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le statistiche bivariate: il test del Chi-quadrato

Il test del chi-quadrato Х2 si basa sulla differenza tra frequenze osservate e frequenze attese: è dato dalla somma dei quadrati di queste differenze rapportati alle frequenze attese.

Se la frequenza osservata è “molto” diversa rispetto alla frequenza che avremmo in caso di mancanza di relazione, allora c’è un associazione tra le due variabili.

Il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza fra la tabella delle frequenze osservate e la tabella delle frequenze attese. È zero nel caso di indipendenza perfetta.

Logica e test del Chi-quadrato

10Metodologia della ricerca sociale

Page 11: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le statistiche bivariate: il test del Chi-quadratoLogica e test del Chi-quadrato

Come si stabilisce se il chi quadrato Х2 indica una relazione significativa?

Si confronta il valore calcolato sulla tabella con quello di una distribuzione teorica.

La tavola di distribuzione del chi-quadrato ci dice se un certo valore del chi quadrato è sufficientemente piccolo da poter essere attribuito ad errori casuali (ovvero ad una distribuzione casuale delle unità nelle celle della tabella) o se esiste una qualche relazione fra le due variabili e a che livello di probabilità tale relazione è significativa.

Il controllo sulle tavole di distribuzione è necessario in quanto, a determinati livelli di probabilità, anche valori del chi-quadrato lontani dallo zero potrebbero rendere compatibile il risultato con l’ipotesi nulla H0 di indipendenza fra le variabili.

11Metodologia della ricerca sociale

Page 12: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le statistiche bivariate: il test del Chi-quadrato

Come si effettua il controllo del valore ottenuto con quello della tavola di distribuzione?

1.Bisogna innanzitutto calcolare i gradi di libertà di una tabella:g.d.l. = (n. di righe – 1) * (n. di colonne -1)

2. Va individuato il livello di probabilità cui riferirsi;

3. Si confrontano valori calcolati con quelli della tavola di distribuzione del chi-quadrato.

Convenzionalmente si respinge l’ipotesi nulla di indipendenza (H0) se p ≤ 0,05, cioè se il valore del chi-quadrato Х2 è così grande da avere solo il 5% di probabilità di essere dovuto al caso (cioè ad errori casuali) ed il 95% di essere invece addebitabile ad una relazione fra le variabili.

12Metodologia della ricerca sociale

In una tabella composta da due variabili ciascuna con quattro modalità: g.d.l. = (4 - 1) * (4 - 1) = 9

In una tabella composta da due variabili ciascuna con due modalità:g.d.l.=(2-1)*(2-1)=1

Page 13: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

I gradi di libertà

I gradi di libertà sono il numero di valori “liberi di variare”:• in una distribuzione di frequenza con k modalità i gradi di libertà

sono sempre K-1 (ad esempio per la variabile genere, una volta definito che i maschi sono il 40% e che il totale è 100% le femmine non possono che essere il 60%, per cui c’è un solo grado di libertà dato da 2-1=1; per la variabile età (codificata da 1 a 100 anni e oltre) dobbiamo definire le quote per tutte le altre età perché un valore sia vincolato: i gradi di libertà sono 100-1=99);

• in una tavola di contingenza il numero di valori liberi di variare è dato da (n. di righe – 1) * (n. di colonne -1) cioè dal prodotto dei g.d.l. delle due distribuzioni:

13Metodologia della ricerca sociale

1 gdlY

Tota b

Xa 10 60 70

b 10 20 30

Tot 20 80 100

2 gdlY

Tota b

X

a 25 ? 40

b ? ? 30

c ? ? 30

Tot 60 40100Una volta definito il

contenuto di una sola cella tutte le altre sono vincolate.

Serve definire il contenuto di due celle perché tutte le altre siano vincolate.

YTot

a b

25 15 40

10 20 30

25 5 30

60 40100

Page 14: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

I gradi di libertà: esempi

14Metodologia della ricerca sociale

4 gdlY

Tota b c

X

a 15 ? ? 40

b ? ? ? 30

c ? ? ? 30

Tot 35 25 40 100g.d.l.= (3-1)*(3-1)= 4

Serve definire il contenuto di quattro celle perché tutte le altre siano vincolate.

YTota b c

15 10 15 40

9 ? ? 30

11 ? ? 30

35 25 40 100

YTota b c

15 10 15 409 8 13 3011 7 12 3035 25 40 100

[…]

6 gdlY

Tota b c d

X

a 5 ? ? ? 21

b ? ? ? ? 47

c ? ? ? ? 32

Tot 21 20 30 29100

g.d.l.= (3-1)*(4-1)= 2*3=6 Serve definire il contenuto di sei celle perché tutte le altre siano vincolate.

YTot

a b c d

5 3 11 2 2113 9 ? ? 473 8 ? ? 32

21 20 30 29100

YTota b c d

5 3 11 2 2113 9 17 8 473 8 2 19 32

21 20 30 29100

[…]

Page 15: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le statistiche bivariate: il test del Chi-quadrato

1. tanto più alti sono i gradi di libertà della tabella (cioè tanto più numerose sono le modalità delle variabili considerate) tanto più alto dovrà risultare il Х2 per avere un livello di probabilità accettabile;

2. tanto più alto è il livello di probabilità desiderato (e dunque tanto più piccolo è il rischio di errore che si è disposti ad assumere) tanto più elevato dovrà risultare il Х2 per permettere il rifiuto di H0.

15Metodologia della ricerca sociale

Page 16: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Come si calcola il Chi-quadrato

16Metodologia della ricerca sociale

Genere

TotaleMaschile

Femminile

Tipo di contratto

Part time 56 21 77Full time 19 44 63

Totale 75 65 140

Genere

Femminile Maschile

Settore di occupazione

Pubblico 75*77/140 65*77/140

Privato 75*63/140 65*63/140

Genere

Femminile Maschile

Settore di occupazione

Pubblico 41,25 35,75

Privato 33,75 29,25

1. Il calcolo delle frequenze attese (fe) sulla base dei marginali e del totale:

Χ2= [(56-41,25)2/41,25]+[(21-35,75)2/35,75]+[(19-33,75)2/33,75]+[(44-29,25)2/29,25]

Χ2=5,27 + 6,08 + 6,45 + 7,44

2. Applicazione della formula:

Χ2=25,24

Page 17: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

17Metodologia della ricerca sociale

Come si controlla la significatività del Chi-quadrato

3. Confronto del valore di X2 ottenuto dal calcolo con quello tabulato:

Χ2=25,24

g.d.l.= (2-1)*(2-1)=1*1=1

Il valore del Х2 ottenuto è maggiore a tutti quelli riportati in tabella per un solo grado di libertà (25,24>7,88), quindi possiamo affermare che la relazione è significativa con un livello di probabilità superiore allo 0,005.

Page 18: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Relazione tra due variabili categoriali: il Chi-quadrato.

18Metodologia della ricerca sociale

1. Assenza di relazione significativa

Chi quadrato 0,131 Sig. 0,717

Tabella 2x2

GenereTotale

Maschile Femminile

Tipo di contratto

Part time 29 36 65Full time 32 35 67

Totale 61 71 132

GenereTotale

Maschile Femminile

Tipo di contratto

Part time 47,5 50,7 49,2Full time 52,5 49,3 50,8

Totale 100,0 100,0 100,0

Page 19: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Relazione tra due variabili categoriali: il Chi-quadrato.

GenereTotale

Maschile Femminile

Tipo di contratto

Part time 56 21 77Full time 19 44 63

Totale 75 65 140

19Metodologia della ricerca sociale

2. Presenza di una relazione significativa

Chi quadrato 25.244 Sig. 0,000

Tabella 2x2

GenereTotale

Maschile Femminile

Tipo di contratto

Part time 74,7 32,3 55,0Full time 25,3 67,7 45,0

Totale 100,0 100,0 100,0

Page 20: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Relazione tra due variabili categoriali: il Chi-quadrato.

20Metodologia della ricerca sociale

1. Assenza di relazione significativa

Chi quadrato 0,299 Sig. 0,861

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 45 49 94Secondario 32 32 64

Terziario 55 65 120Totale 132 146 278

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 34,1 33,6 33,8Secondario 24,2 21,9 23,0

Terziario 41,7 44,5 43,2Totale 100,0 100,0 100,0

Tabella 2x3

Page 21: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Relazione tra due variabili categoriali: il Chi-quadrato.

21Metodologia della ricerca sociale

2. Presenza di una relazione significativa

Chi quadrato 41.699 Sig. 0,000

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 65 25 90Secondario 25 30 55

Terziario 20 65 85Totale 110 120 230

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 59,1 20,8 39,1Secondario 22,7 25,0 23,9

Terziario 18,2 54,2 37,0Totale 100,0 100,0 100,0

Tabella 2x3

Page 22: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le misure di associazione

22Metodologia della ricerca sociale

Il chi-quadrato ci informa circa la significatività della relazione tra due variabili, ma non ci dice nulla circa la sua intensità (o forza).

Perché non è possibile utilizzare il Х2 come misura della forza di una relazione?

Semplicemente perché i valori del Х2 sono direttamente proporzionali alla numerosità campionaria: tanto più numerosi sono i casi (più alte le frequenze osservate e attese) tanto più alto sarà il valore dell’indice.

Per avere informazioni circa l’intensità della relazione tra due variabili è dunque necessario utilizzare misure di associazione.

Le principali misure di associazione si basano però sul Х2, che appare sempre al numeratore o al denominatore.

Page 23: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le misure di associazione: il Phi

23Metodologia della ricerca sociale

Tale indice però non è normalizzato, ossia non ha un campo di variazione compreso tra 0 e 1: il suo minimo teorico (che indica l’assoluta indipendenza) è 0, ma il suo massimo varia a seconda delle dimensioni della tabella.

Questo rende difficile sia la sua interpretazione che il raffronto con indici diversi (provenienti da altre popolazioni).

Dato che il Х2 non può essere utilizzato come misura di associazione perché dipende dalla numerosità del campione la soluzione più semplice è quella di rapportarlo al numero di casi: la radice quadrata di questo rapporto è detta Phi: Ф.

Page 24: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le misure di associazione: la V di Cramer e il C di Pearson

24Metodologia della ricerca sociale

La misura V proposta da Cramèr rapporta il valore del Х2 al suo massimo teorico, (k - 1)*N, dove k è il minore fra il numero di righe e di colonne:

L’indice assume valori compresi fra 0 (indipendenza) e 1 (relazione perfetta).

La misura C di Pearson, detta anche coefficiente di contingenza, rapporta il valore del Х2 alla somma tra se stesso e il numero di casi:

Questo indice non permette una piena confrontabilità fra valori ottenuti con variabili diverse in quanto il limite superiore varia a seconda delle dimensioni della tabella.

Page 25: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le misure di associazione asimmetriche

25Metodologia della ricerca sociale

Goodman e Kruskal hanno proposto diverse misure di associazione tra variabili nominali basate sul criterio della riduzione proporzionale dell’errore. I calcoli sono complessi, dunque non guarderemo le formule, ma in breve: l’associazione è calcolata come la proporzione di riduzione degli errori di previsione nel prevedere il valore di Y (la variabile dipendente) conoscendo X (la variabile indipendente).

L’idea è che se in molti casi conoscere X mi permette di prevedere Y le due variabili sono associate; se invece la conoscenza di X non fa diminuire i miei errori nel prevedere Y le due variabili non sono associate.

Naturalmente queste misure assumono un valore diverso a seconda di quale variabile viene scelta come dipendente, per questo sono dette misure di associazione asimmetriche.

Le misure più note sono la λ (lambda) e la τ (tau) di Goodman e Kruskal, e si leggono come la quota di errore che la conoscenza della variabile indipendente ci evita di commettere nella previsione della variabile dipendente.

Page 26: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Relazione tra due variabili categoriali: il Chi-quadrato, il Phi e la V.

26Metodologia della ricerca sociale

1. Assenza di relazione significativa

Chi quadrato 0,299 Sig. 0,861

Phi 0,033

V di Cramer 0,033

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 45 49 94Secondario 32 32 64

Terziario 55 65 120Totale 132 146 278

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 34,1 33,6 33,8Secondario 24,2 21,9 23,0

Terziario 41,7 44,5 43,2Totale 100,0 100,0 100,0

Tabella 2x3

Page 27: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Relazione tra due variabili categoriali: il Chi-quadrato, il Phi e la V.

27Metodologia della ricerca sociale

2. Presenza di una relazione significativa

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 65 25 90Secondario 25 30 55

Terziario 20 65 85Totale 110 120 230

Genere Totale

Femminile Maschile

Settore economico di occupazione

Primario 59,1 20,8 39,1Secondario 22,7 25,0 23,9

Terziario 18,2 54,2 37,0Totale 100,0 100,0 100,0

Tabella 2x3

Chi quadrato 41.699 Sig. 0,000

Phi 0.426

V di Cramer 0.426

Page 28: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

La scarsa fortuna delle misure di associazione

28Metodologia della ricerca sociale

Perché nonostante l’ampio utilizzo di variabili nominali nella ricerca sociale nei rapporti di ricerca si incontrano raramente misure di associazione?

a)Perché quasi tutte le misure di associazione, come si è visto, sono insoddisfacenti dal punto di vista della confrontabilità.b)Perché tutte le misure di associazione presentano dei problemi nella loro interpretazione (mentre la lettura della tabella è semplice e diretta).c)Perché quando si ha a che fare con variabili nominali può avere poco senso calcolare un’unica misura di associazione, dato che le modalità delle variabili godono di una piena autonomia semantica.

Spesso una buona lettura della tavola di contingenza e delle differenze tra percentuali dice molto di più di uno o più indici di associazione.

Come vedremo a breve in alcuni casi è inoltre possibile avvalersi di un’altra serie di strumenti legati all’interpretazione della relazione tra variabili in termini di rapporti di probabilità (odds).

Page 29: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Un caso particolare: la tabella 2x2

29Metodologia della ricerca sociale

Il caso in cui si abbia a che fare con due variabili dicotomiche è del tutto particolare:•Le misure Φ e V coincidono;•Queste due misure coincidono anche con il coefficiente di correlazione r di Pearson (vedi oltre) calcolato assegnando i valori 0 e 1 alle due modalità di ciascuna variabile;sostanzialmente questa particolarità è dovuta al fatto che le tavole 2x2 hanno un solo grado di libertà.

Y

0 1

X0 a b

1 c d

Le misure di associazione nella tabella 2x2 si basano sul prodotto incrociato:

Cross product = (ad - cb)

Perché? Perché se la relazione è forte i casi si addensano su una delle due diagonali, e se questo accade la differenza tra il prodotto di a per d e quello di b per c sarà elevata.

Page 30: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

La tabella 2x2: il Q di Yule

30Metodologia della ricerca sociale

Y

0 1

X0 a b

1 c d

Il Q di Yule è una misura di associazione per tavole 2x2, rapporta il prodotto incrociato alla somma dei prodotti ad e cb:

Q= (ad - cb)/(ad + cb)può variare fra -1 e +1; assume il valore 0 in assenza di relazione.Associazione

Mancanza di associazione

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 75 23 122Privato 32 56 88

Totale 107 103 210

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 34 42 76Privato 28 36 64

Totale 62 78 140

Q=[(75*56)-(32*23)]/[(75*56)+(32*23)]

Q=0.65

Q=[(34*36)-(42*28)]/[(34*36)+(24*28)]

Q=0.02

Page 31: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

La tabella 2x2: dalle proporzioni agli odds

31Metodologia della ricerca sociale

YTotal

e0 1

X0 a b Tx0

1 c d Tx1

Totale Ty0 Ty1 T

p= Tx0/T

w= Tx0/Tx1

Una proporzione p è un rapporto fra la parte e il tutto.

Un odd w(rapporto di probabilità) è il rapporto fra la frequenza di una categoria e quella della categoria alternativa (nel caso di variabili dicotomiche).E’ pari a 1 quando le due modalità della variabile hanno lo stesso peso.

Il passaggio dall’odd alla proporzione e quello contrario sono molto semplici, infatti: w= p /(1-p) e p= w/(1+w).

Page 32: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

La tabella 2x2: dalle proporzioni agli odds

32Metodologia della ricerca sociale

YTotale

0 1

X0 a b Tx0

1 c d Tx1

Totale Ty0 Ty1 T

Le percentuali di riga e di colonna non sono che proporzioni condizionate:

a/(a+c)= a/Ty0

b/(b+a)= b/Tx0 ecc…

Le proporzioni condizionate e i rapporti di probabilità condizionati non sono che proporzioni e odds calcolati per la variabile X entro una sola delle modalità della variabile Y o viceversa.

Uomini occupati nel pubblico:a/(a+c) 75/(32+75)=0,701

=70.1%

Uomini occupati nel privato:c/(a+c) 75/(32+75)=0,299=29.9%

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 75 47 122

Privato 32 56 88

Totale 107 103 210

Page 33: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

I rapporti di probabilità (odds) condizionati.

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 75 47 122Privato 32 56 88

Totale 107 103 210

33Metodologia della ricerca sociale

Rapporto tra uomini e donne occupati nel pubblico:a/c 75/47=1.59 (per ogni donna occupata nel pubblico ci sono 1,59 uomini)

Rapporto tra uomini e donne occupati nel privato:b/d 32/56=0,57 (per ogni donna occupata nel privato ci sono 0,57 uomini)

I rapporti di probabilità condizionati (odds condizionati) permettono di analizzare quanto le due variabili sono in relazione.

Per poter calcolare gli odds basta che una sola delle due variabili sia dicotomica, ma potranno essere calcolati solo per la variabile dicotomica entro le modalità dell’altra.

Ad esempio se il rapporto tra uomini e donne occupati nel pubblico fosse uguale a quello nel privato non avremmo ragione di ritenere che ci sia relazione tra il genere e il settore di occupazione, nella tabella invece:

Page 34: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Il confronto tra rapporti di probabilità condizionati:l’odds ratio

34Metodologia della ricerca sociale

Rapporto tra uomini e donne nel pubblico:a/c 75/47=1,59

Rapporto tra uomini e donne nel privato:b/d 32/56=0,57

I rapporto tra i rapporti di probabilità condizionati (odds ratio) permette di formalizzare il confronto tra odds:

odds ratio= (a/b)/(c/d)=ad/bc =1,59/0,57=2,78

Come si legge questo valore?Posto pari a uno il rapporto tra uomini e donne occupati nel privato, lo stesso rapporto nel settore pubblico è quasi triplo (2,78 volte superiore).

Il rapporto tra gli odds o rapporto di associazione può assumere valori compresi tra 0 e più infinito, e il valore 1 indica l’assenza di relazione (i due rapporti sono uguali).Per poter calcolare l’odds ratio entrambe le variabili devono essere dicotomiche.

GenereTotale

Maschile Femminile

Settore di occupazione

Pubblico 75 47 122

Privato 32 56 88

Totale 107 103 210

Page 35: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le misure di cograduazione

35Metodologia della ricerca sociale

Nel caso in cui entrambe le variabili incluse nell’analisi siano variabili ordinali, è possibile utilizzare non solo misure di associazione, ma anche misure di cograduazione.Non solo cioè è possibile analizzare la significatività statistica e la forza della relazione, ma anche la sua forma.

Anzianità di servizioTotale

Bassa Media Alta

Reddito da

lavoro

Bassa

Media

Alta

Totale

Cioè è possibile chiedersi:1.Esiste una relazione tra anzianità di servizio e reddito da lavoro?2.Quanto è forte la relazione tra anzianità di sevizio e reddito da lavoro?

ma anche:3.Il reddito da lavoro cresce o decresce al crescere dell’anzianità di servizio?

Anzianità di servizioTotale

Bassa Media Alta

Reddito da

lavoro

Bassa

Media

Alta

Totale

Relazione diretta Relazione inversa

Page 36: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le misure di cograduazione: il Gamma

36Metodologia della ricerca sociale

Le misure di cograduazione si basano sul confronto fra i valori assunti dalle variabili X ed Y su tutte le possibili coppie di casi, gli esiti possibili di questo confronto sono tre:1.i casi sono concordanti (P): i valori di X e Y sul caso A sono entrambi maggiori (o entrambi minori) di quelli delle stesse variabili sul caso B;2.i casi sono discordanti (Q): un caso A ha un valore maggiore di X e uno minore di Y rispetto ad un caso B;3.i casi sono appaiati: presentano lo stesso valore su X e/o su Y.

Il coefficiente più noto è il gamma di Goodman e Kruskal (1954)

Se la maggior parte delle coppie è concordante o discordante si è in presenza di una cograduazione.

Se γ è uguale a +1 c’è una perfetta relazione positiva, se è uguale a -1 la relazione è negativa. Quando γ è uguale a 0 c’è assenza di relazione (lo stesso numero di coppie discordanti e concordanti).

Page 37: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Le misure di cograduazione: i Tau

37Metodologia della ricerca sociale

Kendall per ovviare a questi limiti ha proposto altre due misure:a) il Tau-b (o tau q), per le tabelle quadrate;b) il Tau-c (o tau r), per le tabelle rettangolari.

Dove: P sono le coppie concordanti, Q le coppie discordanti, N il numero dei casi e K in numero minore tra quello delle modalità in riga e quello delle modalità in colonna.

I coefficienti di Kendal, come il gamma, sono ambedue bidirezionali.

Il coefficiente gamma presenta però delle criticità:tende a sovrastimare la forza di un’associazione (perché non considera le coppie appaiate);risente del numero delle modalità delle due variabili (aumenta all’aumentare della sensibilità di una delle classificazione delle variabili categoriali ordinate).

Page 38: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Cograduazione tra due variabili ordinali: il Tau-b e il gamma.

38Metodologia della ricerca sociale

1. Assenza di cograduazione Tabella 3x3

 Anzianità di servizio

TotaleBassa Media Alta

Tenore di vita

Basso10 12 8 30

28,6% 30,8% 28,6% 29,4%

Medio12 13 11 36

34,3% 33,3% 39,3% 35,3%

Alto13 14 9 36

37,1% 35,9% 32,1% 35,3%

Totale35 39 28 102

100,0% 100,0% 100,0% 100,0%

Page 39: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Cograduazione tra due variabili ordinali: il Tau-b e il gamma.

39Metodologia della ricerca sociale

2. Cograduazione Tabella 3x3

 Anzianità di servizio

TotaleBassa Media Alta

Reddito da lavoro

Basso24 6 0 30

68,6% 15,4% 0,0% 29,4%

Medio10 26 4 40

28,6% 66,7% 14,3% 39,2%

Alto1 7 24 32

2,9% 17,9% 85,7% 31,4%

Totale35 39 28 102

100,0% 100,0% 100,0% 100,0%

Page 40: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Cograduazione tra due variabili ordinali: il Tau-b e il gamma.

40Metodologia della ricerca sociale

3. Contrograduazione Tabella 3x3

 Anzianità di servizio

TotaleBassa Media Alta

Soddisfazione lavorativa

Bassa4 13 15 32

11,4% 33,3% 53,6% 31,4%

Media10 26 7 43

28,6% 66,7% 25,0% 42,2%

Alta21 0 6 27

60,0% 0,0% 21,4% 26,5%

Totale35 39 28 102

100,0% 100,0% 100,0% 100,0%

Page 41: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Cograduazione tra due variabili ordinali: il Tau-c e il gamma.

41Metodologia della ricerca sociale

1. Assenza di cograduazione Tabella 4x3

 Titolo di studio

TotaleNessuno / L. Elementare

L. Media DiplomaLaurea o superiore

Tenore di vita

Basso7 6 10 7 30

29,2% 31,6% 31,3% 25,9% 29,4%

Medio10 5 11 10 36

41,7% 26,3% 34,4% 37,0% 35,3%

Alto7 8 11 10 36

29,2% 42,1% 34,4% 37,0% 35,3%

Totale24 19 32 27 102

100,0% 100,0% 100,0% 100,0% 100,0%

Page 42: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Cograduazione tra due variabili ordinali: il Tau-c e il gamma.

42Metodologia della ricerca sociale

2. Cograduazione Tabella 4x3

 Titolo di studio

TotaleNessuno / L. Elementare

L. Media DiplomaLaurea o superiore

Reddito da lavoro

Basso18 5 3 4 30

75,0% 26,3% 9,4% 14,8% 29,4%

Medio4 11 22 3 40

16,7% 57,9% 68,8% 11,1% 39,2%

Alto2 3 7 20 32

8,3% 15,8% 21,9% 74,1% 31,4%

Totale24 19 32 27 102

100,0% 100,0% 100,0% 100,0% 100,0%

Page 43: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Esempi: Cograduazione tra due variabili ordinali: il Tau-c e il gamma.

43Metodologia della ricerca sociale

3. Contrograduazione Tabella 4x3

 Titolo di studio

TotaleNessuno / L. Elementare

L. Media DiplomaLaurea o superiore

Soddisfazione lavorativa

Bassa1 1 5 25 32

4,2% 5,3% 15,6% 92,6% 31,4%

Media4 16 23 0 43

16,7% 84,2% 71,9% 0,0% 42,2%

Alta19 2 4 2 27

79,2% 10,5% 12,5% 7,4% 26,5%

Totale24 19 32 27 102

100,0% 100,0% 100,0% 100,0% 100,0%

Page 44: Lanalisi bivariata Lanalisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: 1.Stabilire se date due variabili (x.

Altre misure di cograduazione

44Metodologia della ricerca sociale

• D di Sommer, un coefficiente uni-direzionale. Rispetto al gamma, al denominatore troviamo le coppie appaiate, ovvero le coppie formate da casi che hanno lo stesso valore sulla variabile in colonna, considerata dipendente. Il coefficiente D indica la prevalenza di coppie concordanti (cograduate) e discordanti (contrograduate) nell’insieme delle coppie non legate sulla variabile indipendente.

• Nel caso di variabili ordinali con un elevato numero di modalità (es. graduatorie o valori derivanti da un termometro dei sentimenti) la misura di cograduazione più utilizzata è il ρ (rho) di Spearman:

Dove d è la differenza tra i punteggi di un caso sulle due variabili messe in relazione (ad esempio tra le sue posizioni in due diverse graduatorie), e N è la numerosità della popolazione.