Cap. 10 Indipendenza, connessione e associazione Cioè lanalisi statistica congiunta di una coppia...

Post on 02-May-2015

217 views 2 download

Transcript of Cap. 10 Indipendenza, connessione e associazione Cioè lanalisi statistica congiunta di una coppia...

Cap. 10 Indipendenza, connessione e associazione

Cioè l’analisi statistica congiunta di una coppia di fenomeni qualitativi

1

Quando osserviamo due variabili X,Y sorgenaturale chiedersi se queste siano tra loro

“in relazione”

X è causa di Y (o viceversa): quando X varia fa variare anche Y

X e Y variano contemporaneamente

perché un terzo fenomeno li fa variare

X

X

Y

YZ

Le ragioni possono essere molteplici, tra queste:

NO SI INCIDENTINO SI INCIDENTI

0.830.83

0.170.17

0.500.50 0.500.50

Distribuzioni di frequenza CONDIZIONATE relative

Cosa significa che due fenomeni “sono in relazione”?

Significa che quando varia uno anche l’altro varia in conseguenza

CausalitàAristoteleUna prima trattazione estesa del concetto di causa è stata quella di Aristotele il quale considera che il sapere sia legato alla conoscenza delle cause (verum scire est scire per causas).

Secondo Aristotele, le cause sono di quattro tipi:

causa materiale, indica la materia di cui è fatta una cosa (ad esempio il marmo nel caso si tratti di una statua);

causa formale, la forma, il modello o l'essenza di una cosa (nel caso citato la forma che rappresenta la statua);

causa efficiente, ciò che ha prodotto la cosa (lo scultore);

causa finale, il fine che quella cosa deve realizzare con la sua esistenza (la statua cioè deve essere utilizzata come statua, ad esempio per ornare un ambiente).

La scuola aristotelica ampliò la trattazione concentrandosi sulla definizione di causa prima che  veniva identificata con Dio.

La filosofia dell'età moderna approfondì il concetto di causa efficiente facendolo coincidere con quello di legge o connessione causale dove il rapporto causa-effetto è rappresentato da grandezze misurabili matematicamente (Keplero, Galilei, Cartesio).

Da questo punto nasce la fisica classica che da Isaac Newton a Pierre Simon Laplace assume il determinismo e il meccanicismo come ineliminabili dalla trattazione dei fenomeni naturali.

La validità della concezione moderna della fisica venne messa in dubbio da David Hume il quale, riprendendo le teorie di Sesto Empirico e degli scettici, contestò che il rapporto causa-effetto fosse caratterizzato dalla necessità ma solamente da una connessione di fatto.

Non vi è nessuna necessità che ad una precisa causa debba necessariamente corrispondere un preciso effetto.

In realtà … constatando che ad una causa solitamente corrisponde un effetto, ci si aspetta che ad una causa simile corrisponda l'effetto simile previsto, ma ciò non è detto che accada.

Quindi il rapporto causa-effetto si traduce in uno stato d'animo soggettivo di attesa per cui al ripetersi di un determinato effetto si ritiene, senza alcuna assoluta certezza, che se ne debba verificare un altro simile.

La tesi di Hume, individuando la relazione causale in un' abitudine associativa di carattere psicologico, comportava l'impossibilità di arrivare a leggi universali naturali

Il concetto di relazione tra variabili in Statistica è (in parte) una formalizzazione del concetto Hume-iano di

abitudine associativa 

La formalizzazione parte dalla definizione del concetto di:Assenza di relazione tra variabili

Assenza di relazione

“statistica” tra due variabili

1y jy hy

Se due fenomeni “sono in relazione, quando, al variare dell’uno varia anche l’altro” allora:

due fenomeni non sono in relazione se al variare dell’uno l’altro non varia

ma in che senso “non varia”? (le variabili statistiche …variano per definizione)

jxY ypi

1xY 2xY 3xY

Quando le distribuzioni condizionate sono tutte

uguali tra loro

NO SI INCIDENTI

0.83

0.17

0.50 0.50

Tra i Maschi ben l’83% ha incidenti

Tra le Femmine solo il 50%

Distribuzioni di frequenza CONDIZIONATE relative

NO SI INCIDENTI

0.83

0.17

0.83

0.17

0.50 0.500.50 0.50GENERE e

INCIDENTI non sono in relazione

Assenza di relazione “statistica” tra due variabili

1y jy hy

jxY ypi

1xY 2xY 3xY

le distribuzioni di Y condizionate ad X non variano al variare di X

Y e’ statisticamente indipendente da X quando

1c jc

hc

ijjxY x cypi

Indipendenza statistica

8

jYjxY ypypi

Se le distribuzioni relative di Y condizionate ad X

1y jy hy

jxY ypi

1xY 2xY 3xY

1y jy hy1y jy hy

jxY ypi

1xY 1xY 2xY 2xY 3xY 3xY

jY yp

ijjxY xcypi

allora sono uguali alla distribuzione marginale

jiYX

k

i

yxp ,,1

k

i 1

jiYX yxp ,,

iX xp iX xp

iX

jiYXjxY xp

yxpyp

i

,,

k

i 1jc iX xp

k

i 1jc iX xp jc 1

sono tutte uguali

Se le distribuzioni relative di Y condizionate ad X sono tutte uguali

1 ijYjxY xypypi

Allora anche le distribuzioni relative di X condizionate ad Y sono tutte uguali

2 jiXiyXyxpxp

j

iyXxp

j

jiYX yxp ,,

iX xp jxY yp

i 3 jiYX yxp ,, iX xp jxY yp

i

jiYX yxp ,3,1 , iX xp jY yp 4

jiYX yxp ,,

jY yp

iX xp jY yp

jY yp iX xp

Indipendenza statistica tra due variabili X e Y

ijYjxY xypypi

jiXiyXyxpxp

j

i,jypxpyxp jYiXjiYX ,,

Una qualunque di queste tre condizioni implica le altre

Queste condizioni implicano che le distribuzioni condizionate sono uguali alle marginali, e viceversa

Indipendenza statistica e frequenze assolute

i,jypxpyxp jYiXjiYX ,,

N

fyxp ij

jiYX ,,

N

fxp i

iX

N

f yp j

jY

i,jN

fff ji

ij

Freq. Teoriche I.S.

i,jN

fff ji

ij

Freq. osservate

if

jf N

Se tra X e Y ci fosse I.S. le frequenze che si dovrebbero osservare sono *

ijf *ijf

hk differenze

Necessaria una sintesi

2

Freq. Teoriche I.S.

i,jN

fff ji

ij

Freq. osservate

if jf

N

Se tra X e Y ci fosse I.S. le frequenze che si dovrebbero osservare sono *

ijf *ijf

*ijf

k

i 1

h

j 1

2Indice di connessione

Se e solo se

Tutte le freq. osservate

coincidono con quelle teoriche

0

Frequenze teoriche di indipendenza

• NB: Per stabilire l’indipendenza statistica si utilizzano solo frequenze (condizionate, marginali relative, congiunte osservate e teoriche): ecco perché questo tipo di analisi è possibile per fenomeni di qualunque natura, sia qualitativi che quantitativi.

• NB: Se si conclude che sono statisticamente indipendenti, l’analisi statistica bivariata è terminata: che senso avrebbe analizzare una relazione che non esiste?

15

Connessione

• Se X e Y non sono indipendenti, allora esiste una qualche relazione che li lega. Si indica con il termine connessione una generica relazione statisticamente rilevabile in una coppia di fenomeni osservati

• La connessione è tanto più debole (forte) quanto più la tabella osservata si avvicina (allontana) a quella teorica di independenza.

• Per misurare l’intensità della connessione possiamo allora guardare alle differenze tra frequenze osservate e frequenze teoriche di indipendenza:

16

2 ijf *ijf

k

i 1

h

j 1

2 *ijf

Indice di connessione: formula alternativa

k

i 1

h

j 1

(N2

ijf

if jf)1

5 1

2 2

6

4

37 10

5 1

2 2

6

4

37 10

5 1

2 2

6

4

37 10

5 1

2 2

6

4

37 10

7652

3612

4722

4322

27.12

Non vi è I.S. tra GENERE e INCIDENTI

Tanto o poco?

Indice di connessione normalizzato

1y jy hy

jxY ypi

1xY 2xY 3xY

1y jy hy1y jy hy

jxY ypi

1xY 1xY 2xY 2xY 3xY 3xY

Indipendenza Statistica (I.S.)

1y jy hy

jxY ypi

1

0

1

20Quanto può essere grande?

2max 11;1min khN

Perfetta connessione

La dimostrazione nel libro non è corretta

11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot.

11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot.

a

b

N

1y 2y

1x

2x

X \ Y Tot.

Tot.

a

b

a b

0

0aa

a

2

bb

b

2

ba

20

ba

20

11;1min2 2

khNNORM

Casi di perfetta connessione tra X e Y(biunivoca o bilaterale)

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

Tutti i fumatori sono anche bevitori

Tutti i non fumatori sono anche astemi

X YTabagismo “genera” Alcolismo

X YAlcolismo porta al Tabagismo

X

YZANSIA?

11;1min2 2

khNNORM

Questo indice ci dice che esiste una connessione

Ma non fornisce una spiegazione delle ragioni della relazione

(ad esempio CAUSA-EFFETTO)

(esula dalla statistica)

Segnala la presenza di una relazione da spiegare

Casi di perfetta connessione tra X e Y(biunivoca o bilaterale)

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

Tutti i fumatori sono anche bevitori

Tutti i non fumatori sono anche astemi

11;1min2 2

khNNORM

Questo indice ci dice che esiste una connessione

Ma non fornisce una spiegazione delle ragioni della relazione

(ad esempio CAUSA-EFFETTO)

(esula dalla statistica)

Segnala la presenza di una relazione da spiegare

YX

Consuma alcool

Astemio Totale

Fumatore 0 160 160NonFumatore

80 0 80

Totale 80 160 240

YX

Consuma alcool

Astemio Totale

Fumatore 0 160 160NonFumatore

80 0 80

Totale 80 160 240

Tutti i fumatori sono astemi

Tutti i non fumatori sono bevitori

Anche in questo caso

12 NORM

Casi di perfetta connessione tra X e Y(unilaterale)

1x

2x

1y 2y 3y

100

60

40

60

30 10

Ad ogni modalità di Y corrisponde una sola modalità di X

0 0

0

60 30 10

xpjyX jy 1

per una sola x

X YX Y

1y 2y

1x

2x

3x

10060 40

Ad ogni modalità di X corrisponde una sola modalità di Y

40

25

35

0

0

0

25

40

35

ypixY ix 1per una sola y

X YX Y12 NORM

24

1,1min

2

khN

3661.0

1124

4.45

1,1min

2

khN

0

Indice di connessione normalizzato

1y jy hy

jxY ypi

1xY 2xY 3xY

1y jy hy1y jy hy

jxY ypi

1xY 1xY 2xY 2xY 3xY 3xY

Indipendenza Statistica (I.S.)Perfetta connessione

1y jy hy

jxY ypi

1

0

1y jy hy1y jy hy1y jy hy

jxY ypi

1

0

11

00

1

0 10.1 0.9

Moltodebole

Molto forte

Non vi è necessità di studiare

ulteriormente la relazione tra X e Y

Vi è necessità di studiare ulteriormente la relazione tra

X e Y

Associazione tra coppie di modalità

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

Si parla di associazione tra coppie di modalità, quando in una tabella 2 x 2,fissate le frequenze marginali, le frequenze congiunte tendono a concentrarsi

su una delle due diagonali

Associazione positiva

Associazione negativa

“Repulsione”11 e tra yx

11 e tra yx

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

Associazione positiva

Associazione positiva

Associazione negativa

Associazione negativa

Associazione tra coppie di modalità

YX

Consuma alcool

Astemio Totale

Fumatore 98 62 160NonFumatore

0 80 80

Totale 98 142 240

YX

Consuma alcool

Astemio Totale

Fumatore 18 142 160NonFumatore

80 0 80

Totale 98 142 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

Tutti i fumatori sono anche bevitori

Tutti i non fumatori sono anche astemi

YX

Consuma alcool

Astemio Totale

Fumatore 0 160 160NonFumatore

80 0 80

Totale 80 160 240

YX

Consuma alcool

Astemio Totale

Fumatore 0 160 160NonFumatore

80 0 80

Totale 80 160 240

Tutti i fumatori sono astemi

Tutti i non fumatori sono bevitori

Tutti i bevitori sono fumatori Tutti i non fumatori sono bevitori

Yule

11f

22f12f

21f

21122211 ffff 11

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

Associazione positiva

Associazione positiva

Associazione negativa

Associazione negativa

Associazione tra coppie di modalità

YX

Consuma alcool

Astemio Totale

Fumatore 98 62 160NonFumatore

0 80 80

Totale 98 142 240

YX

Consuma alcool

Astemio Totale

Fumatore 18 142 160NonFumatore

80 0 80

Totale 98 142 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

Tutti i fumatori sono anche bevitori

Tutti i non fumatori sono anche astemi

YX

Consuma alcool

Astemio Totale

Fumatore 0 160 160NonFumatore

80 0 80

Totale 80 160 240

YX

Consuma alcool

Astemio Totale

Fumatore 0 160 160NonFumatore

80 0 80

Totale 80 160 240

Tutti i fumatori sono astemi

Tutti i non fumatori sono bevitori

Tutti i bevitori sono fumatori Tutti i non fumatori sono bevitori

Yule

11f

22f12f

21f

21122211 ffff 11

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

Associazione positiva

Associazione positiva

Associazione negativa

Associazione negativa

Associazione tra coppie di modalità

YX

Consuma alcool

Astemio Totale

Fumatore 88 67 160NonFumatore

10 70 80

Totale 98 142 240

YX

Consuma alcool

Astemio Totale

Fumatore 88 67 160NonFumatore

10 70 80

Totale 98 142 240

Y figliX soddisfazione

1 figlio Più di 1 figlio

Totale

Bassa 5 30 35

Alta 20 50 70

Totale 25 80 105

Y figliX soddisfazione

1 figlio Più di 1 figlio

Totale

Bassa 5 30 35

Alta 20 50 70

Totale 25 80 105

1121122211

21122211

ffff

ffffYule

Yule = 0.79 Yule = -0.41

0-1 +1

Massima associazione

Massima repulsione

Forte repulsione

-0.75

Forte associazione

+0.75+0.25-0.25

Scarsa o nessuna associazione

Discreta associazione

Discreta repulsione

Forte associazione

Discreta repulsione

72

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

1f

2f

N

1y 2y

1x

2x

X \ Y Tot.

Tot. 1f 2f

Associazione positiva

Associazione positiva

Associazione negativa

Associazione negativa

Connessione ed associazione

21122211

21122211

ffff

ffffYule

1y jy hy

jxY ypi

1xY 2xY 3xY

1y jy hy1y jy hy

jxY ypi

1xY 1xY 2xY 2xY 3xY 3xY

Indipendenza Statistica (I.S.)

1y jy hy

jxY ypi

1xY 2xY 3xY

1y jy hy1y jy hy

jxY ypi

1xY 1xY 2xY 2xY 3xY 3xY

Indipendenza Statistica (I.S.)Perfetta connessione

1y jy hy

jxY ypi

1

0

1y jy hy1y jy hy1y jy hy

jxY ypi

1

0

11

00

Perfetta connessione

1y jy hy

jxY ypi

1

0

1y jy hy1y jy hy1y jy hy

jxY ypi

1

0

11

00

0 10.1 0.90 10.1 0.9

Moltodebole

Molto forte

Non vi è necessitàdi studiare

ulteriormente la relazione tra X e Y

Vi è necessità di studiare ulteriormente la relazione tra

X e Y

0-1 +1

Massima associazione

Massima repulsione

Forte repulsione

-0.75

Forte associazione

+0.75+0.25-0.25

Scarsa o nessuna associazione

Discreta associazione

Discreta repulsione

0-1 +100-1-1 +1+1

Massima associazione

Massima repulsione

Forte repulsione

-0.75

Forte repulsione

Forte repulsione

-0.75

Forte associazione

+0.75

Forte associazione

Forte associazione

+0.75+0.25-0.25

Scarsa o nessuna associazione

+0.25-0.25 +0.25-0.25

Scarsa o nessuna associazione

Discreta associazione

Discreta repulsione

2NORM

NO!!!!

Connessione ed associazione

11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot.

11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot.

0Yule02 0Yule 02

Mecatti: pag. 190

0Yule 21122211 ffff

21122211 ffff 2212 ff

2212 ff

222112121122 ffffff

212122 ffff

1

12

2

22

f

f

f

f Quindi le distribuzioni di Y

condizionate ad X sono uguali

Connessione ed associazione

YX

Consuma alcool

Astemio Totale

Fumatore 98 62 160NonFumatore

0 80 80

Totale 98 142 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

YX

Consuma alcool

Astemio Totale

Fumatore 160 0 160NonFumatore

0 80 80

Totale 160 80 240

Tutti i fumatori sono anche bevitori

Tutti i non fumatori sono anche astemi

Tutti i bevitori sono fumatori

1Yule

Perfetta connessione

1y jy hy

jxY ypi

1

0

1y jy hy1y jy hy1y jy hy

jxY ypi

1

0

11

00

Perfetta connessione

1y jy hy

jxY ypi

1

0

1y jy hy1y jy hy1y jy hy

jxY ypi

1

0

11

00

12 NORM

1Yule Non implica

12 NORM

Odds

11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot.

11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot.

SUCCESSO INSUCCESSO

Coronaropatia No Coronaropatia

Grecia Default Grecia No Default

MASCHIO

FEMMINA

Fumatore

Non Fumatore

Broker USA

Broker EU

Fenomeno di interesse

Fenomeno condizionante

Odds marginale

Odds condizionati

Quanto è probabile (frequente) Y = y1 rispetto a Y = y2

Odds e OR11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot.

11f 12f 1f

21f 22f 2f

1f 2f N

1y 2y

1x

2x

X \ Y Tot.

Tot. Oddsmarginale

Oddscondizionati

Quanto è probabile (frequente) Y = y1 rispetto a Y = y2

69.014298 COdds

22.17288 FumoCOdds

YX

Consuma alcool

Astemio Totale

Fumatore 88 67 160NonFumatore

10 70 80

Totale 98 142 240

YX

Consuma alcool

Astemio Totale

Fumatore 88 67 160NonFumatore

10 70 80

Totale 98 142 240

Yule = 0.79 Forte associazione

72

14.07010 FumoNonCOdds

2

1

xYOdds

xYOddsOR 6.8

14.0

22.1

Odds e odds ratio

odds:

• Richiedono l’identificazione di un evento di interesse (outcome dicotomico)

• Sono sempre positivi• Nell’esempio fumo/alcool:

• Informano sul rischio di successo (che l’evento si verifichi) relativamente al rischio di insuccesso, nella sotto-popolazione considerata (rischio relativo)

• Nell’esempio fumo/alcool:

Il rischio relativo di essere consumatore di alcool per un fumatore è 8.6 volte quello di un non fumatore

36

evento)dell' si verificar(al contrari casi

evento)un di si verificar(al favorevoli casi

Odds e odds ratio

odds:

• Attenzione: l’odds ratio non è un rapporto tra probabilità (che l’evento si verifichi) nelle due sotto-popolazioni

• E’ un rapporto tra rischi, che sono a loro volta il rapporto tra la probabilità che l’evento si verifichi e la probabilità che l’evento non si verifichi in ciascuna sotto-popolazione

• L’odds ratio è anche interpretabile come misura di associazione:

(dimostrare per esercizio)37

evento)dell' si verificar(al contrari casi

evento)un di si verificar(al favorevoli casi

Sintesi

Due variabili X e Y sono tra loro statisticamente indipendenti se le distribuzioni di Y condizionate ad X non variano al variare di X. Vale il viceversa e vale anche che le

frequenze relative congiunte sono il prodotto delle frequenze relative marginali.

Si possono definire allora delle frequenze teoriche in caso di indipendenza: tanto più le frequenze effettive si discostano da quelle teoriche, maggiore è il grado di

connessione tra X e Y che si misura attraverso l’indice di connessione assoluto e normalizzato al suo massimo

L’indice di connessione assume il valore massimo nel caso di perfetta connessione bilaterale o unilaterale: le distribuzioni condizionate tendono a concentrarsi su una

modalità. Ad ogni x (y) corrisponde una e una sola y (x) (e viceversa nel caso bilaterale): in questo caso l’indice normalizzato vale 1. Se vale 0 significa che siamo

in situazione di I.S.

Se non vi è I.S. vale la pena approfondire lo studio della relazione tra X e Y: attraverso l’indice di Yule si misura quanto la modalità x1 di una variabile dicotomica tenda ad associarsi o respingersi rispetto alla modalità y1 di una variabile Y pure dicotomica.

Data una variabile dicotomica Y, l’Odds misura quanto è probabile osservare y1 rispetto ad y2: il confronto di Odds condizionati mostra quanto gli Odds sono

differenti nelle diverse modalità di condizionamento (X)