Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità...

28
Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per per poterli poterli comparare comparare con altre distribuzioni con altre distribuzioni (gruppi differenti della popolazione o del campione esaminato). Tali comparazioni sono alla base delle ipotesi circa l’esistenza di una relazione fra due variabili (RELAZIONI BIVARIATE) (RELAZIONI BIVARIATE). Le tabelle che organizzano queste comparazioni sono chiamate “TABELLE A “TABELLE A

Transcript of Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità...

Page 1: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli per poterli compararecomparare con altre distribuzioni con altre distribuzioni (gruppi differenti della popolazione o del campione esaminato).

Tali comparazioni sono alla base delle ipotesi circa l’esistenza di una relazione fra due variabili

(RELAZIONI BIVARIATE)(RELAZIONI BIVARIATE).Le tabelle che organizzano queste comparazioni sono chiamate “TABELLE A DOPPIA ENTRATA”“TABELLE A DOPPIA ENTRATA” (o (o

cross-tabulationcross-tabulation)).

Page 2: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Nella lettura di una tabella 2X2 si parte sempre dall’esterno per andare verso l’interno (cd. “principio del carciofo”)• vengono indicate le variabili che sono incrociate:

- la variabile indipendente X è scritta in alto, in colonna- la variabile dipendente Y è riportata in riga

• per ciascuna variabile sono specificate le modalità• ciascuna cella della tabella contiene le frequenze, cioè il numero dei

casi che possiedono le diverse modalità considerate (le frequenze possono essere espresse in termini assoluti o relativi percentuali)

Quando le percentuali sono calcolate nella direzione della variabile indipendente X - per colonna - si compara per riga; viceversa, quando le percentuali sono calcolate nella direzione della variabile dipendente Y - per riga - si compara per colonna

Alcune regole per le tabelle 2X2

Page 3: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Peculiarità delle tavole di contingenza

• Parsimoniosità. La tabella riporta solo le percentuali che servono all’analisi

• Totali. Ogni riga o colonna percentuale finisce col totale 100 consentendo così al lettore di capire in che direzione sono state calcolate le percentuali

• Base delle percentuali. Sotto al totale va riportata, in genere tra parentesi, la base della percentuale (N). Infatti un conto è dire che i giovani sono praticanti per il 25% su un campione di 100 individui ed un altro dirlo relativamente ad un campione di 1.000 individui. Si ritiene imprudente calcolare e commentare percentuali su basi inferiori a 50 casi

Page 4: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Peculiarità delle tavole di contingenza

• Cifre decimali, decimale zero, arrotondamenti, quadratura. Si veda l’analisi monovariata

• Intestazione. Le tabelle debbono essere sempre intestate (titolo) ed autoesplicative. Per esempio la frase “Intensità della partecipazione politica secondo il partito votato” è più chiara chiara rispetto a “Relazione fra partecipazione politica e preferenza partitica”

• Somma di percentuali. La somma delle percentuali è legittima se appartengono alla medesima distribuzione, ma non lo è qualora si considerino due o più distribuzioni.

Page 5: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Leggere una tabella …

• selezionare le modalità più significative e centrare su di queste l’analisi

• una percentuale affinché sia degna di nota deve essere superiore ai 5 punti percentuali.

Page 6: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Leggere una tabella …

• Un altro modo di lettura consiste nel calcolare la differenza di fra le due modalità di risposta oppure fra le risposte positive e negative.

• Un’osservazione va fatta sulla forma della relazione: se al crescere di una variabile cresce anche l’altra si può dire che la relazione che si presenta agli occhi del ricercatore è monotonica o lineare.

• La compattazione della tabella è importante in special modo quando la tabella presenta l’incrocio di più di due variabili

Page 7: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Come accertare l’esistenza di una effettiva relazione causale tra la variabile indipendente X e la variabile dipendente X ?

IPOTESI NULLA e TEST DEL CHI IPOTESI NULLA e TEST DEL CHI QUADROQUADRO

introduzione di una VARIABILE DI introduzione di una VARIABILE DI CONTROLLOCONTROLLO

Page 8: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Esempio: Esempio: relazione fra grado di interesse per la relazione fra grado di interesse per la campagna presidenziale e votocampagna presidenziale e voto

Grado di interesse per la campagna presidenziale

Molto interessato

Votato

Non votato

58% 87%

Totale

(313)

Non interessato

Totale

72%(452) (765)

42% 13%(227)

28%(68) (295)

51% 49%(540)

100%(520) (1060)

Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che dichiarano di essere “abbastanza interessati”.

frequenze osservate

Page 9: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Formulazione dell’ipotesi nulla, che assume l’assenza di relazione fra le le due variabili considerate.

Individuazione delle frequenze che si dovrebbero ottenere se l’ipotesi nulla fosse vera (frequenze “attese”).

Comparazione delle frequenze attese con quelle “osservate” empiricamente nel campione analizzato.

Valutazione della probabilità con cui la differenza tra frequenze “attese” e quelle “osservate” possa essere dovuta al caso.

LOGICA DEL TEST DEL CHI QUADRO

Page 10: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Esempio: Esempio: relazione fra grado di interesse per la relazione fra grado di interesse per la campagna presidenziale e votocampagna presidenziale e voto

Grado di interesse per la campagna presidenziale

Molto interessato

Votato

Non votato

765x5401060

TotaleNon interessato

Totale

72%(765)

28%(295)

51% 49%(540)

100%(520) (1060)

Fonte: Campbell, et al. (1964, tab. 4-3, p. 56), sono stati esclusi coloro che dichiarano di essere “abbastanza interessati”.

frequenze attese

= 390 765x5201060

= 375

295x5401060

= 150 295x5201060

= 145

Page 11: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

R e l a z i o n e t r a g r a d o d i i n t e r e s s e p e r l a c a m p a g n a p r e s i d e n z i a l e e v o t o : u n e s e m p i o d i c a l c o l o d e l C H I Q U A D R O

G r a d o d i i n t e r e s s e p e r l a c a m p a g n a

p r e s i d e n z i a l e

N o n i n t e r e s s a t o M o l t o i n t e r e s s a t o T o t a l e V o t a t o 3 1 3

3 9 0 - 7 7

1 5 , 2 0

4 5 2 3 7 5

7 7 1 5 , 8 1

7 6 5

N o n v o t a t o 2 2 7 1 5 0

7 7 3 9 , 5 3

6 8 1 4 5

- 7 7 4 0 , 8 9

2 9 5

T o t a l e 5 4 0 5 2 0 1 0 6 0 F o n t e : C a m p b e l l , e t a l . ( 1 9 6 4 , t a b . 4 - 3 , p . 5 6 ) , s o n o s t a t i e s c l u s i c o l o r o c h e d i c h i a r a n o d i e s s e r e a b b a s t a n z a i n t e r e s s a t i . I n t e r p r e t a z i o n e : i n c i a s c u n a c e l l a , l a p r i m a r i g a è l a f r e q u e n z a o s s e r v a t a , l a s e c o n d a l a f r e q u e n z a a t t e s a , l a t e r z a è l a d i f f e r e n z a t r a f r e q u e n z e o s s e r v a t e e d a t t e s e e l a q u a r t a l i n e a è i l q u a d r a t o d i q u e s t a d i f f e r e n z a , d i v i s o p e r l e f r e q u e n z e a t t e s e , c h e i n d i c a i l c o n t r i b u t o d i c i a s c u n a c e l l a a l c h i q u a d r o t o t a l e . A d e s e m p i o , n e l l a p r i m a c e l l a i n a l t o a s i n i s t r a : f r e q . O s s e r v a t e = 3 1 3 f r e q . A t t e s e = 3 9 0 D i f f e r e n z a ( O - A ) = ( 3 1 3 - 3 9 0 ) = - 7 7

2 0,1 53 9 0

5 9 2 9

3 9 0

)7 7(

3 9 0

)3 9 03 1 3()( 222

A

AO

Page 12: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

che il campione sia estratto casualmente, cioè che ogni individuo abbia la stessa probabilità di essere estratto di ogni altro;

che le categorie o modalità di ciascuna delle due variabili siano mutuamente esclusive ed esaustive, per cui ciascun individuo o caso non può essere collocato che in una ed una sola cella;

che la maggioranza (più dell’80%) delle frequenze attese abbiano una frequenza superiore a 5 casi.

CONDIZIONI DEL TEST

Page 13: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Per esaminare in modo sistematico la relazione fra due variabili bisogna introdurre una terza variabile di terza variabile di controllocontrollo (detta ‘test factor’):

TOLLERANZAETA’

ISTRUZIONEISTRUZIONE

RELAZIONI TRIVARIATE

Page 14: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

• Scopo dell’elaborazione è determinare se la relazione fra la variabile indipendente X e la variabile dipendente Y sia dovuta o meno ad un terzo fattore Z (test factor).

• Dire che la relazione fra X ed Y dipende da Z significa che se Z non si manifestasse, allora la relazione fra X e Y non esisterebbe.

““tenere costante” la relazionetenere costante” la relazione

ES: “I giovani sono più tolleranti degli anziani perché hanno un maggiore livello di istruzione” significa che “Se i giovani non avessero un maggiore livello di istruzione degli anziani, non sarebbero più tolleranti”.

Per accertare se il livello di istruzione esercita un tale effetto sulla relazione bivariata fra età e tolleranza, bisogna tenere sotto controllo, ovvero mantenere costante, la terza variabile addizionale così da specificarne l’eventuale influenza sulla relazione stessa.

• Un modo per tenere costante il test factor è la classificazione in sottogruppi: si creano tanti sottogruppi quante sono le modalità della variabile di controllo e si esamina la relazione bivariata iniziale per ciascuno di tali sottogruppi.

ES: compariamo il livello di tolleranza dei giovani con quello degli anziani, a parità di livello di istruzione.

Page 15: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Relazione spuriaRelazione spuria

Consumo regolare di

dolci(variabile

dipendente Y)

Stato civile (variabile

indipendente X)

ETA’(variabile di controllo Z)

Page 16: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Consumo di dolci per stato civileConsumo di dolci per stato civile

STATO CIVILE

Sposati Non sposati

CONSUMO DI DOLCI

Regolare 63% 75%

Non regolare

37% 25%

TOTALE100%

(2010)

100%

(999)

Page 17: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Consumo di dolci per etàConsumo di dolci per età

ETA’

Fino a 25 anni 25 anni e oltre

CONSUMO DI DOLCI

Regolare 80% 58%

Non regolare

20% 42%

TOTALE100%

(1302)

100%

(1707)

Page 18: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

ETA’

Fino a 25 anni 25 anni e oltre

STATO CIVILE

SposatoNon

sposatoSposato

Non sposato

CONSUMO DI DOLCI

Regolare 81% 79% 58% 60%

Non regolare

19% 21% 42% 40%

Totale100%

(503)

100%

(799)

100%

(1507)

100%

(200)

Consumo di dolci per stato civile, Consumo di dolci per stato civile, controllando per l’etàcontrollando per l’età

Page 19: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Perché dunque le persone sposate mangiano meno dolci delle persone non sposate ?

Perché gli sposati sono, in percentuale, più anziani dei non sposati e le persone più anziane di solito mangiano meno dolci.

La relazione iniziale fra stato civile e consumo di dolci è quindi annullata, poiché dovuta alla variabile età e non allo stato civile: i non sposati consumano dolci più regolarmente degli sposati perché più giovani e non per non aver contratto matrimonio.

Page 20: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

VARIABILE DIPENDENTE

VARIABILE INDIPENDENTE

VARIABILE DI VARIABILE DI CONTROLLOCONTROLLO

VARIABILE VARIABILE INTERVENIENTEINTERVENIENTE

Relazione spuria o Relazione spuria o variabile interveniente ?variabile interveniente ?

VARIABILE INDIPENDENTE

VARIABILE DIPENDENTE

Page 21: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

ASSENTEISMOSTATO CIVILE

Relazione fra Relazione fra assenteismo dal lavoro e stato civileassenteismo dal lavoro e stato civile

ONERI CASALINGHI

Page 22: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

STATO CIVILE

(DONNE)

Sposate Non sposate

ASSEN-TEISMO

Sì 2.3% 6.4%

No 97.7% 93.6%

TOTALE100%

(10560)

100%

(6496)

Assenteismo dal lavoro per stato civileAssenteismo dal lavoro per stato civile

Page 23: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

ONERI CASALINGHI

Elevata Scarsa o nulla

STATO CIVILE

SposatoNon

sposatoSposato

Non sposato

ASSEN-TEISMO

Sì 7.0% 5.7% 2.2% 1.9%

No 93.0% 94.3% 97.8% 98.1%

TOTALE100%

(5680)

100%

(1104)

100%

(816)

100%

(9126)

Assenteismo dal lavoro per stato civile, Assenteismo dal lavoro per stato civile, controllando per quantità di lavoro domesticocontrollando per quantità di lavoro domestico

Page 24: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

STATO CIVILE

(DONNE)

Sposate Non sposate

ONERI CASA-

LINGHI

Elevata 88% 10%

Scarsa o nulla 12% 90%

TOTALE100%

(6496)

100%

(10230)

Quantità di lavoro domestico per stato civileQuantità di lavoro domestico per stato civile

Page 25: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Perché sul lavoro le donne sposate sono più assenteiste delle donne non sposate ?

Perché le donne sposate hanno maggiori oneri casalinghi delle nubili e questa variabile influenza l’assenteismo.

NB: non si può nemmeno dire, però, che il matrimonio di per sé non causi assenteismo: comparando infatti il rapporto tra numero di sposate e nubili con molti oneri casalinghi (5680/1104), con il rapporto tra sposate e nubili con ridotti oneri casalinghi (816/9126), si trova che la relazione si inverte: di fatto la maggioranza delle donne sposate ha elevati oneri casalinghi (88%), mentre fra le donne nubili solo il 10% ha elevati oneri domestici.

La relazione iniziale fra stato civile e assenteismo è quindi mediata e non annullata dalla variabile oneri casalinghi, che perciò diventa una variabile interveniente.

Page 26: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Più elevato livello di assenteismo

Matrimonio

Maggiori oneri casalinghi

Relazione spuria o Relazione spuria o variabile interveniente ?variabile interveniente ?

MatrimonioPiù elevato livello di assenteismo

Maggiori oneri casalinghi

Page 27: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Compariamo le due relazioni esaminate:Compariamo le due relazioni esaminate:

Esempio del consumo di dolci:

Esempio dell’assenteismo:

STATO CIVILESTATO CIVILE ETA’ETA’ CONSUMO DI DOLCICONSUMO DI DOLCI

(relazione spuria)

MATRIMONIOMATRIMONIO ONERI ONERI CASALINGHICASALINGHI

ASSENTEISMOASSENTEISMO

(relazione condizionale indiretta, con variabile interveniente )

Page 28: Per poterli comparare con altre distribuzioni Distribuzioni di frequenza e misure di tipicità servono a descrivere e sintetizzare i dati, per poterli comparare.

Regole per distinguere relazioni spurie Regole per distinguere relazioni spurie da relazioni condizionate da relazioni condizionate

da una variabile intervenienteda una variabile interveniente

Esaminare il numero di casi a fondo di ciascuna colonna:• quando il rapporto fra i totali di ciascun gruppo o modalità

della variabile di controllo è uguale, ciò significa probabilmente che la relazione è spuria

• quando il rapporto non è uguale, allora la variabile di controllo probabilmente interviene fra variabile indipendente e dipendente

Se la relazione tra variabile di controllo e variabile indipendente è reversibile - se cioè la direzione di causalità può essere invertita indifferentemente fra le due variabili - allora siamo in presenza di una relazione spuria. Altrimenti, se la freccia di causalità può solo andare dalla variabile indipendente a quella di controllo e non viceversa, è più difficile sostenere che la variabile di controllo possa influenzare quella indipendente (si tratterebbe in questo caso di variabile interveniente).