TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

24
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.1 Leggere due fenomeni congiuntamente: vincoli e indipendenza

description

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.1 Leggere due fenomeni congiuntamente: vincoli e indipendenza. In questa lezione. In questa lezione ci occuperemo di: - PowerPoint PPT Presentation

Transcript of TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Page 1: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

Lezione B.1

Leggere due fenomeni congiuntamente: vincoli e

indipendenza

Page 2: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

In questa lezione..

In questa lezione ci occuperemo di:

introdurre i concetti di tabelle a doppia entrata, frequenze congiunte e frequenze marginali

leggere una tabella a partire dal confronto delle distribuzioni vincolate

costruzione variabili somma o media a partire dalla distribuzione congiunta

Familiarizzare con le forme di rappresentazione grafica corrispondenti alla tabella a doppia entrata

Page 3: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Ripartiamo da una matrice dati

G S U E

M D 3 4,5

M L 0 2,2

M P 2 3,7

M D 0 6,8

F L 4 4,7

F L 1 4,2

F P 3 1,5

F P 3 5,0

F L 2 5,2

F L 2 7,2

Ripartiamo allora dalle informazioni raccolte a una ce-na di classe (la classe A delle prime lezioni..) e riclas-sifichiamo i presenti in base non a un solo carattere, ma due insieme: il genere e il titolo di studio S.

Costruiamo la corrispondente tabella a doppia entrata conteggiando non le singole osservazioni ma le coppie di osservazioni riferite a un individuocoppie di osservazioni riferite a un individuo:

G\S D L P

M //=2 /=1 /=1

F 0////=4

//=2

N(G)

4

6

N(S) 2 5 3 10

Anche qui la somma delle numerosità dei caratteri congiunti di una riga/co-lonna dà la

numerosità di un carattere

singolo

Page 4: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

La tabella a doppia entrata

Yj Xi

y1 y2 .. yj .. ys

x1 n11 n12 .. n1j .. n1s

x2 n21 n22 .. n2j .. n2s

.. .. .. .. .. .. ..

xi ni1 ni2 .. nij .. nis

.. .. .. .. .. .. ..

xr nr1 nr2 .. nrj .. nrs

ni

n1*

n2*

..

ni*

..

nr*

nj n*1 n*2 .. n*j .. n*s N

Esprimiamo in linguaggio formale la tabella a doppia entrata:

nij = numerosità congiunte di osservazioni {X=xi Y=yj}

ni* = numerosità marginali di osservazioni {X=xi} qualunque sia il valore di y

n*j = numerosità marginali di osservazioni {Y=yj} qualunque sia il valore di x

ni* = J=1..s nij CONDIZIONI

n*J = i=1..r nij DI QUADRO

N = i=1..r ni* = J=1..s n*j

Page 5: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Le numerosità marginali

Xi

x1

x2

..

xi

..

xr

ni

n1*

n2*

..

ni*

..

nr*

Yj y1 y2 .. yj .. ys

nj n*1 n*2 .. n*j .. n*s

N

N

Isoliamo righe e colonne ‘ai margini’ della tabella:

Le due colonne ai margini sinistro e destro della tabella, ri-compattate insieme, riproducono la distribuzione ‘univariata’ di X, per la quale vale i=1..r ni* = N

Le due righe ai margini alto e basso della tabella, ricompattate insieme, riproducono la distribuzione ‘univariata’ di Y, per la quale vale J=1..s n*J = N

La tabella a doppia entrata contiene dunque almeno tre di-stribuzioni distinte:

La distribuzione congiunta

Le due distribuzioni semplici (marginali) di X e Y

Page 6: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Dalle numerosità alle frequenze relative

Yj Xi

y1 y2 .. yj .. ys

x1 f11 f12 .. f1j .. f1s

x2 f21 f22 .. f2j .. f2s

.. .. .. .. .. .. ..

xi fi1 fi2 .. fij .. fis

.. .. .. .. .. .. ..

xr fr1 fr2 .. frj .. frs

fi

f1*

f2*

..

fi*

..

fir*

fj f*1 f*2 .. f*j .. f*s 1

Come per le distribuzioni univariate, le numerosità possono essere relativizzate, dividendole per la numerosità totale: fij = nij /N

fij = frequenze congiunte di os-servazioni {X=xi Y=yj}

fi* = frequenze marginali di os-servazioni {X=xi} qualunque sia il valore di y

f*j = frequenze marginali di os-servazioni {Y=yj} qualunque sia il valore di x

fi* = J=1..s fij CONDIZIONI

f*J = i=1..r fij DI QUADRO

1 = i=1..r fi* = J=1..s f*j

Page 7: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Variabili doppie quantitative e per classi

G S U E

M D 3 4,5

M L 0 2,2

M P 2 3,7

M D 0 6,8

F L 4 4,7

F L 1 4,2

F P 3 1,5

F P 3 5,0

F L 2 5,2

F L 2 7,2

Quando poco fa abbiamo ricuperato la matrice dati del gruppo di compagni di classe, abbiamo costruito la distribuzione congiunta tra due caratteri qualitativi, uno nominale-dicotomico (G), l’altro ordinale (S titolo di studio).

Ma possiamo produrre con identica procedura distribuzioni congiunte di variabili quantitative o di qualitative e quantitative abbinate insieme.

Per esempio costruiamo la variabile doppia (S,E): siamo curiosi di capire se c’è qualche legame tra studio e performance economica.

A suo tempo (vol. I, lezione 1) aveva-mo riaggregato per classi E in due mo-di diversi. Qui usiamo un terzo criterio (è lecito!): da 0 a 4, da 4 a 6, oltre 6.

Page 8: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Chi studia guadagna di più (o no?)

S E

D 4,5

L 2,2

P 3,7

D 6,8

L 4,7

L 4,2

P 1,5

P 5,0

L 5,2

L 7,2

S\E 0-|4 4-|6 6-|8

D 0 /=1 /=1

L /=1 ///=3 /=1

P //=2 /=1 0

N(E) 3 5 2

N(S)

2

5

3

10

Costruiamo la tabella col solito noioso lavoro di conteggio.

E’ vero: “lo fa il calcolatore”; ma dobbiamo sapere come lavora!.

Il risultato è nella tabella qua sotto. Cosa ci dice? Proseguendo faremo qualche passo in più per ‘leggere’ una tabella.

Ma già qui possiamo imparare una cosa: una ‘spia’ della rela-zione che studiamo è data dal-la diagonale (se esiste) in cui si concentra la maggior parte delle osservazioni.

Se l’ellisse (blu) si colloca sul-la diagonale principale, c’è u-na relazione diretta tra S e E.Qui l’ellisse si colloca sulla controdiagonale: c’è quindi una relazione inversa tra S e E (chi studia non piglia pesci?)

Page 9: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Leggere una tabella con le frequenze vincolate

C’è una qualche relazione tra livello di scolarità (S) e livello delle entrate (E)? Il modo migliore per capirlo è confrontare le distribuzioni di frequenze vincolate.

S E Basse Medie Alte

Diploma 0 1 1 2

Laurea 1 3 1 5

PostLaurea 2 1 0 3

3 5 2 10

La nostra testa ha un modo automati-co per valutare l’eventuale relazione tra S e E. Consiste nell’analizzare la ‘distribuzione dei redditi’ separata-mente per diplomati laureati e post: cioè separatamente riga per riga.

Tra i diplomati (prima riga) nessuno ha bassi redditi, uno su due (50%) ha medi redditi, uno su due (50%) alti redditi. Tra i laureati uno su cinque (20%) ha bassi redditi, tre su cinque (60%) medi redditi, uno su cinque (20%) alti redditi. Tra i postlaurea solo uno su tre (33%) ha medi redditi, nessuno su tre alti redditi.Sintetizziamo: la % con alti redditi è del 50% tra i diplomati, del 20% tra i laureati e dello 0% tra i post…

S E Bas Med Alt

Dipl 0/2 1/2 1/2 2

Lau 1/5 3/5 1/5 5

Post 2/3 1/3 0/3 3

3/10 5/10 2/10 10

Il rapporto tra le numerosità marginali e il loro totale ci dà le frequenze relative marginali. Lo stesso rapporto per una Lo stesso rapporto per una singola riga (o colonna) ci singola riga (o colonna) ci dà la frequenze vincolate.dà la frequenze vincolate.

Page 10: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Cosa sono le frequenze vincolate

Yj Xi

y1 .. yj .. ys

x1 f11 /f1* .. f1j /f1* .. f1s /f1*

.. .. .. .. .. ..

xi fi1 /fi* .. fij /fi* .. fis /fi*

.. .. .. .. .. ..

xr fr1 /fr* .. frj /fr* .. frs /fr*

fi

1

..

1

..

1

Definiamo quindi frequenza vincolata fj/i il rapporto tra la numerosità congiunta nij e la marginale di riga corrispondente ni*, o – indifferentemente - il rapporto tra la

frequenza congiunta fij e la marginale di riga corrispondente fi.

ffj|ij|i = n = nijij / n / ni* i* = f= fijij / f / fi* i*

Per ogni riga vale la condi-zione di quadro 1= j=1..sfj|i

Le frequenze vincolate pos-sono essere calcolate per co-lonna, rapportando una nume-rosità (o frequenza) congiunta alla corrispondente marginale di colonna: ffi|ji|j = n = nijij/n/n*j *j = f= fijij/f/f*j *j

Ovviamente anche per ogni colonna vale la condizione di quadro 1= i=1..rfi|j

Page 11: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Un altro esempio: tabelle tetracoriche

Piemonte S 88

Val d’Aosta

S* 88

Lombardia

D 88

Trentino S 91

Veneto D 89

Friuli D 85

Liguria D 80

Emilia S 88

Toscana S 84

Umbria S 83

Marche S 84

Lazio D 70

Abruzzi D 76

Molise D 71

Campania S 58

Puglie D 70

Basilicata S 64

Calabria D 55

Sicilia D 63

Sardegna D 65

Facciamo un altro esempio, riclassificando le venti re-gioni italiane secondo il colore della giunta regionale e il tasso % di occupazione maschile tra i 25 e i 34 anni.

In questo caso una variabile (G) è già dicotomica (sini-stra–destra), l’altra (T) è quantitativa discreta, ma nulla ci impedisce di dicotomizzarla, fissando per esempio una soglia a T=80.

G T 80 < 80

Sinistra ///////=7 // = 2 9

Destra //// = 4 /////// = 7 11

11 9 20Una tabella due per due (si dice tabella tetracorica) è la forma più semplice di distribuzione congiunta.

G T alto bas

Sin 7 ? 9

De ? ? ?

11 ? 20

Tanto semplice che basta una frequenza congiunta e 2 margi-nali per ricostruirla

(provate!!)

Page 12: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Per riga o per colonna è lo stesso

G T alto bas

Sin 8 2 10

De 4 6 10

12 8 20

L’esempio ridotto all’osso consente di rifare esercizio di lettura di una distribuzione congiunta. Ci chiediamo:c’è relazione tra colore della giunta e tasso di occupazione?

G T alto bas

Sin 0,8 0,2 1

De 0,4 0,6 1

0,6 0,4 1

Nelle giunte di sinistra la % di regioni con alto livello di occupazione è diver-sa e maggiore di quella riscontrata nelle regioni con giunte di destra. I due caratteri regionali dunque non ri-sultano indipendenti tra loro (ma non pensate subito a un nesso tra occu-pazione e tendenze politiche!!)

Alla domanda rispondiamo calcolando le fre-quenze vincolate f(tj|gi)=n(tj,gi)/n(gi)

G T alto bas

Sin 0,67 0,25 0,5

De 0,33 0,75 0,5

1 1 1

Va detto invece che, costruendo le frequenze vincolate per colonna, la lettura della tabella ci deve portare alle stesse considerazioni. Vediamo che nelle regioni a più alta occu-pazione la % di giunte di sinistra è maggiore che nelle regioni a bassa occupazione: ma questo è solo un modo diverso per dire la stessa cosa detta sopra.

Dunque: sia che si legga (tramite frequenze vincolate) una tabella a doppia entrata per colonna oppure per riga,

se c’è una qualche connessione la si coglierà comunque!

Page 13: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Distribuzioni congiunte e variabili somma

Nel 1974 Peter Townsend (non il cantante!) studiando la carta della povertà nel Regno Unito ha costruito un Indice di Deprivazione Relativa Multipla, sommando senza alcuna ponderazione (unweighted) 12 indicatori Sì/No di disagio:

Sei indicatori di risorse materiali: * Regime dietetico * Mezzi/attrezzature* Vestiario * Lavoro* Riscaldamento * Abitazione

Sei indicatori di capabilities:* Salute * Istruzione* Attività familiari * Ambiente* Relazioni sociali * Tempo libero

Poniamo che ogni indicatore sia dico-tomico. Ad esso corrisponderà una di-stribuzione (di Bernoulli) così fatta:

X=0 (sufficiente) X=1 (insuff)

Frequenza 1-f Frequenza fRisorsa X=

Sommando due indicatori per 100 persone (per esempio C=cibo e V=vesti, a parità di distribuzioni ‘marginali’ (cioè dei singoli indicatori semplici) otterrò tante possibili distribuzioni della variabile Somma quante le forme della distribuzione congiunta:

C V 0 1

0 70 0 70

1 10 20 30

80 20 100

0 1 2

70 10 20X=

C V 0 1

0 50 20 70

1 30 0 30

80 20 100

0 1 2

50 50 -X=

Page 14: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Marginali identiche, combinazioni variabili

Per capire il meccanismo della somma di variabili, replichiamo l’esempio. Supponia-mo di aver testato le 100 persone per tutti e sei gli indicatori dicotomici di carenze materiali, e di avere costruito un indice M, che va da 0 a un massimo (potenziale) di 6 con questa distribuzione: 50 persone presentano M=0, 20 persone M=1, 20 M=2, le ultime 10 M=3 (nessuno assomma punteggi superiori).

Applicata alle stesse 100 persone la batteria delle capabilities si trova per l’indicato-re composto C (tra 0 e 6) la stessa distribuzione di M, ci si domanda: qual è la di-stribuzione dell’indice complessivo P di povertà, ottenuto sommando C e V?

La risposta è: dipende. Dipende infatti dalla distribuzione congiunta (C,V) (e quindi dalla relazione che intercorre tra C e V). Vediamo due scenari possibili.

0 1 2 3

0 50 50

1 20 20

2 20 20

3 10 10

50 20 20 10 100

0 2 4 6

50 20 20 10XI = I° scenario

In questo caso bisogni materiali (M) e ca-renze di capabilities (C ) vanno di pari pas-so: dove c’è l’uno c’è l’altra.

Page 15: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

e quel che ne consegue

0 1 2 3

0 25 10 10 5 50

1 10 4 4 2 20

2 10 4 4 2 20

3 5 2 2 1 10

50 20 20 10 100

0 1 2 3 4 5 6

25 20 24 18 8 4 1 XII=

II°

scenario

In questo caso bisogni materiali (M) e caren-ze di capabilities (C ) vanno ognuno per la sua strada: sono totalmente indipendenti.

Tiriamo allora alcune conclusioni relative alla somma di variabili:

Combinando le modalità delle due variabili di una distribuzione congiunta si torna ad una variabile a una sola dimensione.

Si possono combinare due variabili facendone la differenza, o il rapporto, o altro ancora: ma la forma più frequente è la somma.

La forma della variabile ottenuta per combinazione (come la somma) dipende strettamente dalla forma della distribuzione congiunta.

Qualunque sia – comunque – la distribuzione congiunta, la media della variabile somma non cambia (qui è m=1,8, verificate), mentre la varianza è diversa (2,18 nel II scenario, di ‘indipendenza’, 4,36 – il doppio – nell’altro).

Page 16: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Somma di distribuzioni uniformi 11 2 3 4 5 6

1 6 6 6 6 6 6 36

2 6 6 6 6 6 6 36

3 6 6 6 6 6 6 36

4 6 6 6 6 6 6 36

5 6 6 6 6 6 6 36

6 6 6 6 6 6 6 36

36 36 36 36 36 36 216

1 2 3 4 5 6

1 2 (6) 3 (6) 4 (6) 5 (6) 6 (6) 7 (6) 36

2 3 (6) 4 (6) 5 (6) 6 (6) 7 (6) 8 (6) 36

3 4 (6) 5 (6) 6 (6) 7 (6) 8 (6) 9 (6) 36

4 5 (6) 6 (6) 7 (6) 8 (6) 9 (6) 10 (6) 36

5 6 (6) 7 (6) 8 (6) 9 (6) 10 (6) 11 (6) 36

6 7 (6) 8 (6) 9 (6) 10 (6) 11 (6) 12 (6) 36

36 36 36 36 36 36 216

Come calcolare la distribuzione di tutte le possibili somme di 216 lanci di due dadi corretti (quindi con distribuzione uniforme)

2 3 4 5 6 7 8 9 10 11 12

6 12 18 24 30 36 30 24 18 12 6XII=

Page 17: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Somma di distribuzioni uniformi 21 2 3 4 5 6

2 3 (1) 4 (1) 5 (1) 6 (1) 7 (1) 8 (1) 6

3 4 (2) 5 (2) 6 (2) 7 (2) 8 (2) 9 (2) 12

4 5 (3) 6 (3) 7 (3) 8 (3) 9 (3) 10 (3) 18

5 6 (4) 7 (4) 8 (4) 9 (4) 10 (4) 11 (4) 24

6 7 (5) 8 (5) 9 (5) 10 (5) 11 (5) 12 (5) 30

7 8 (6) 9 (6) 10 (6) 11 (6) 12 (6) 13 (6) 36

8 9 (5) 10 (5) 11 (5) 12 (5) 13 (5) 14 (5) 30

9 10 (4) 11 (4) 12 (4) 13 (4) 14 (4) 15 (4) 24

10 11 (3) 12 (3) 13 (3) 14 (3) 15 (3) 16 (3) 18

11 12 (2) 13 (2) 14 (2) 15 (2) 16 (2) 17 (2) 12

12 13 (1) 14 (1) 15 (1) 16 (1) 17 (1) 18 (1) 6

36 36 36 36 36 36 216

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1XIiI=

Somme di 216 lanci di tre dadi corretti

Page 18: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Il diagramma di dispersione

0

1

2

3

4

0 2 4 6 8

U E

3 4,5

0 2,2

2 3,7

0 6,8

4 4,7

1 4,2

3 1,5

3 5,0

2 5,2

2 7,2

Ancora più che nell’analisi statistica di una sola variabile, quando leghiamo insieme due caratteri copresenti in una popolazione l’ispezione visiva della distribuzione congiunta diventa fondamentale. La rappresentazione più consueta è detta “diagramma di dispersione” (o scatter diagram).

In esso ogni coppia di valori (xi,yi) osservati è riportata su un diagramma cartesiano in cui (per convenzione) si utilizzano come coordinate in ascissa i valori osservati per il carattere X, e come coordinate ‘verticali’ i valori osservati per Y.

Ogni caso è identifi-cato da un punto corrispondente sul piano. Il collettivo è colto sintetica-

mente in forma dinuvola di punti.

In ver ticalevaloridi U

U

In orizzontale valori di E

E

Page 19: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Diagrammi e leggi inesorabili

0 1 2 3 4 5

x = peso del mercurio

y =

esp

ansi

on

e d

ell'a

ria

x = intensità dello stimolo

y =

in

ten

sità

del

la r

isp

ost

a

L’idea di Cartesio di porre una cor-rispondenza tra coppie di osservazioni e punti sul piano ha più di tre secoli, e si associa all’idea di stabilire una relazione precisa tra una linea tracciata sul piano e una funzione (una legge) matematica.

Cartesio stesso nel 1686 formula la legge iperbolica che lega espansione dell’aria e peso del mercurio.

Gli esempi possono moltiplicarsi. Nel 1860 lo psicofisico Fechner formula la legge logaritmica che lega stimolo e ri-sposta.

Ma l’uso che faremo noi del diagramma di dispersione ha invece meno di un secolo di vita. Come mai? Che cosa ha di ‘eccezionale’?

Page 20: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Un mondo variabile è più complesso

Il fatto è che nelle scienze esatte (fi-siche e biofisiche) nessun punto potrà cadere fuori della funzione esatta che lega due caratteri, salvo errori di rile-vazione o altre distorsioni accidentali.

Se invece riportiamo sul piano cartesiano copie di dati economici o sociali (ma anche psicologici, alla faccia di Fechner!) se ne ricava una confusa nuvola di punti. x = intensità dello stimolo

y =

in

ten

sità

del

la r

isp

ost

a

John è più reattivo

Jack è catatonico

Al è sempre teso

In un mondo intrinsecamente esatto una coppia di coordinate esiste se sta sul sentiero che definisce la ‘legge’, altri-menti non esiste.

In un mondo intrinsecamente caratteriz-zato da variabilità una coppia di coordi-nate esiste invece con mille gradazioni, misurate dalla frequenza con cui essa accade.

Tra persone in carne e ossa, John ri-sponde più reattivamente a uno sti-molo forte, invece Jack è depresso (o sordo) e reagisce meno, e Al è nevro-tico e scatta già per stimoli a bassa intensità…

La curva disegnata definisce una rego-la tendenziale (capiremo che vuol dire) ma intorno ad essa c’è variabilità.

Page 21: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Grafici a tre dimensioni (stereogrammi)

Una regolarità andrà dunque cercata non su due bensì su tre dimensioni: quelle dei due caratteri che colleghiamo, e quella della corrispondente distribuzione di frequenza congiunta. Sarà solo la nostra fiducia nell’esistenza di regolarità collettive che ci spingerà a leggere dentro la forma sfocata di una nuvola di punti.

La rappresentazione grafica di una coppia di caratteri congiunti si distacca gradatamente da modelli ‘fisici’ di rappresentazione per assumere modelli geometrici a tre dimensioni, per variabili discrete, per classi, continue.

Page 22: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Un altro esempio (fonte diretta di survey)

n. Età al I f Mesi interc

1 16 56

2 16 72

3 17 66

4 19 75

5 20 48

6 22 54

7 23 66

8 25 36

9 25 42

10 26 48

11 26 36

12 27 39

13 29 36

14 30 33

15 32 36

16 33 27

Facciamo un altro esempio. Supponiamo di essere interes-sati alle strategie di costruzione del ‘calendario familiare’ e di avere interpellato 16 coppie con 3 figli, rilevando l’età della madre al primo figlio e il numero di mesi intercorsi tra il 2° e il 3° figlio. Il diagramma che si ricava è questo:

25

35

45

55

65

75

15 20 25 30 35

Lo scatter diagram è come una persona che non sa tenere segreti: se qualche tendenza esiste nei dati, il diagramma ce la fa subito intuire (le misure di sintesi verranno dopo).

La linea chiusa blu (una ellisse?) ci guida a vedere che nel diagramma i punti si distribuiscono con una preferenza.A basse età di maternità al primo figlio corrisponde una crescente divaricazione dell’intervallo tra secondo e terzo (strategia di decelerazione nelle coppie precoci)

Page 23: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

Un ultimo esempio (analisi secondaria)

Piemonte 169 31

Val d’Aosta 149 250

Lombardia 132 18

Trentino 104 173

Veneto 132 198

Friuli 190 18

Liguria 236 22

Emilia 197 101

Toscana 186 22

Umbria 179 9

Marche 163 56

Lazio 118 30

Abruzzi 134 89

Molise 135 0

Campania 68 33

Puglie 84 65

Basilicata 104 71

Calabria 90 70

Sicilia 87 33

Sardegna 101 55

0

50

100

150

200

250

60 120 180 240

Il primo esempio era tratto da dati di survey (ma at-tenti: in questa prima parte utilizzeremo dati di sur-vey in senso descrittivo, ‘come se’ costituissero essi stessi la popolazione di riferimento). Possiamo anche partire da dati già elaborati da altre fonti e procedere a una ‘analisi secondaria’. Per esempio, da fonte Istat possiamo studiare le 20 regioni per indice di vecchiaia (Pop>65/Pop<15, seconda colonna) e numero di posti letto geriatrici per centomila abitanti (terza colonna).

Il grafico dice poco sul nesso tra invecchia-mento e offer-

ta sanitaria (ma è già in-

teressante che non ci sia nesso..)

Page 24: TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale

C’è corrispondenza tra diagrammi e tabelle

0

50

100

150

200

250

60 120 180 240

20

40

60

80

15 20 25 30 35

13

22 1

4 21

1

3

4

12

4 3

2 0

Età Interv

precoce

bassa alta tardiva

Ampio 3 1 0 0 4Medio 2 2 1 0 5Stretto

0 1 4 2 7

5 4 5 2 16

I.Vec P.Letto

Basso

Medio

Alto

Molti 1 2 1 4Medi 4 2 0 6Pochi 3 4 3 10

8 8 4 20

Diagrammi e tabelle non sono modali-tà di rappre-sentazione prive di co-municazione tra loro!!

I due diagrammi a destra (età al I° figlio vs intervallo intergenesico, indice vecchia-ia vs posti geriatrie) possono essere riformulati come tabelle. Basta riclassificare le variabili discrete in intervalli, inserendo i diagrammi in una ‘griglia’ adeguata.

Le tabelle ridu-cono la preci-sione della di-stribuzione ma comunicano valutazioni tra loro coerenti.