Lezione B.10 Regressione e inferenza: il modello lineare

20
Lezione B.10 Regressione e inferenza: il modello lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

description

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.10 Regressione e inferenza: il modello lineare. In questa lezione. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale. - PowerPoint PPT Presentation

Transcript of Lezione B.10 Regressione e inferenza: il modello lineare

Page 1: Lezione B.10 Regressione e inferenza: il modello lineare

Lezione B10

Regressione e inferenza il modello lineare

TQuArs ndash aa 201011Tecniche quantitative per lrsquoanalisi nella ricerca sociale

Giuseppe A Micheli

In questa lezione

In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale

Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significativitagrave delle relazioni stimate

Il modello lineare e sue ipotesi

Piugrave sinteticamente il modello puograve anche essere scritto nel seguente piugrave familiare modo

Yi = + βXi + εi

ove si egrave posto f(Xi) = + β Xi ovvero si egrave assunto che la dipendenza di Y da X sia di tipo lineare

Facendo scendere in campo X possiamo arricchire il modello nel seguente modo

Yi = microi + εi

microi = f(Xi) componente sistematica

εi ~ N(0 σ2) errore casuale

La componente sistematicacomponente sistematica coglie la dipendenza di Y da X mentre la componente componente casualecasuale rappresenta la variabilitagrave di Y che rimane ldquonon spiegatardquo da X

Riassumiamo le ipotesi alla base del modello1 E(εi) = 0 (gli errori casuali oscillano attorno allo 0)2 Var(εi) = σ2 per ogni i (ipotesi di omoscedasticitagrave)3 Cov(εi εj) = 0 (gli errori sono incorrelati tra di loro)4 εi hanno distribuzione normale

Inoltre i valori xi sono considerati fissi e misurati con precisione

Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)

Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime

n

i

n

ii

XYX

xx

yyxxb

xbya

11

2

11

)(

))((varcov

Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(

Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii

2i

Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Con le formule appena viste otteniamo

b=304 a=16035 s2 = 795

I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β

Dal punto di vista tecnico finora dunque nulla di nuovo

Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip

Incertezza sui parametri

Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente

2

i

2

)x-(xbVar

)(

2i

2i

2

)x-(x

s

)x-(x

sbes )(

Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere

2

i

2

)x-(x

sb)var(

Stimatore dellrsquoerrore standard di conseguenza saragrave

Nel nostro esempioes(b) = radic(795184) = 0657

Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)

Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza

Intervalli di confidenza

)(bes

b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave

Pertanto un intervallo di confidenza al 95 per β saragrave dato da

IDC(β) = b plusmn tn-2005 es(b)

Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β

btn-2005 es(b) tn-2005 es(b)

Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto

IDC(β) = 304 plusmn 151

Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)

304151

0151

15

3

45

5

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 2: Lezione B.10 Regressione e inferenza: il modello lineare

In questa lezione

In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale

Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significativitagrave delle relazioni stimate

Il modello lineare e sue ipotesi

Piugrave sinteticamente il modello puograve anche essere scritto nel seguente piugrave familiare modo

Yi = + βXi + εi

ove si egrave posto f(Xi) = + β Xi ovvero si egrave assunto che la dipendenza di Y da X sia di tipo lineare

Facendo scendere in campo X possiamo arricchire il modello nel seguente modo

Yi = microi + εi

microi = f(Xi) componente sistematica

εi ~ N(0 σ2) errore casuale

La componente sistematicacomponente sistematica coglie la dipendenza di Y da X mentre la componente componente casualecasuale rappresenta la variabilitagrave di Y che rimane ldquonon spiegatardquo da X

Riassumiamo le ipotesi alla base del modello1 E(εi) = 0 (gli errori casuali oscillano attorno allo 0)2 Var(εi) = σ2 per ogni i (ipotesi di omoscedasticitagrave)3 Cov(εi εj) = 0 (gli errori sono incorrelati tra di loro)4 εi hanno distribuzione normale

Inoltre i valori xi sono considerati fissi e misurati con precisione

Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)

Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime

n

i

n

ii

XYX

xx

yyxxb

xbya

11

2

11

)(

))((varcov

Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(

Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii

2i

Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Con le formule appena viste otteniamo

b=304 a=16035 s2 = 795

I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β

Dal punto di vista tecnico finora dunque nulla di nuovo

Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip

Incertezza sui parametri

Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente

2

i

2

)x-(xbVar

)(

2i

2i

2

)x-(x

s

)x-(x

sbes )(

Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere

2

i

2

)x-(x

sb)var(

Stimatore dellrsquoerrore standard di conseguenza saragrave

Nel nostro esempioes(b) = radic(795184) = 0657

Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)

Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza

Intervalli di confidenza

)(bes

b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave

Pertanto un intervallo di confidenza al 95 per β saragrave dato da

IDC(β) = b plusmn tn-2005 es(b)

Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β

btn-2005 es(b) tn-2005 es(b)

Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto

IDC(β) = 304 plusmn 151

Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)

304151

0151

15

3

45

5

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 3: Lezione B.10 Regressione e inferenza: il modello lineare

Il modello lineare e sue ipotesi

Piugrave sinteticamente il modello puograve anche essere scritto nel seguente piugrave familiare modo

Yi = + βXi + εi

ove si egrave posto f(Xi) = + β Xi ovvero si egrave assunto che la dipendenza di Y da X sia di tipo lineare

Facendo scendere in campo X possiamo arricchire il modello nel seguente modo

Yi = microi + εi

microi = f(Xi) componente sistematica

εi ~ N(0 σ2) errore casuale

La componente sistematicacomponente sistematica coglie la dipendenza di Y da X mentre la componente componente casualecasuale rappresenta la variabilitagrave di Y che rimane ldquonon spiegatardquo da X

Riassumiamo le ipotesi alla base del modello1 E(εi) = 0 (gli errori casuali oscillano attorno allo 0)2 Var(εi) = σ2 per ogni i (ipotesi di omoscedasticitagrave)3 Cov(εi εj) = 0 (gli errori sono incorrelati tra di loro)4 εi hanno distribuzione normale

Inoltre i valori xi sono considerati fissi e misurati con precisione

Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)

Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime

n

i

n

ii

XYX

xx

yyxxb

xbya

11

2

11

)(

))((varcov

Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(

Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii

2i

Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Con le formule appena viste otteniamo

b=304 a=16035 s2 = 795

I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β

Dal punto di vista tecnico finora dunque nulla di nuovo

Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip

Incertezza sui parametri

Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente

2

i

2

)x-(xbVar

)(

2i

2i

2

)x-(x

s

)x-(x

sbes )(

Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere

2

i

2

)x-(x

sb)var(

Stimatore dellrsquoerrore standard di conseguenza saragrave

Nel nostro esempioes(b) = radic(795184) = 0657

Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)

Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza

Intervalli di confidenza

)(bes

b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave

Pertanto un intervallo di confidenza al 95 per β saragrave dato da

IDC(β) = b plusmn tn-2005 es(b)

Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β

btn-2005 es(b) tn-2005 es(b)

Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto

IDC(β) = 304 plusmn 151

Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)

304151

0151

15

3

45

5

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 4: Lezione B.10 Regressione e inferenza: il modello lineare

Stima dei parametriI parametri e β si riferiscono alla popolazione Con i dati campionari ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3) possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti)

Queste formule coincidono nella sostanza con quelle giagrave viste nella regressione descrittiva (lezione 6) La differenza egrave che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime

n

i

n

ii

XYX

xx

yyxxb

xbya

11

2

11

)(

))((varcov

Stimati i parametri i valori previsti dal modello saranno bxay ˆScostamenti (residui) tra osservazioni e modello iiiii yybxaye ˆ)(

Inoltre stimatore di σ2 )2(ˆ)2(2 n)y-(ynes 2ii

2i

Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Con le formule appena viste otteniamo

b=304 a=16035 s2 = 795

I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β

Dal punto di vista tecnico finora dunque nulla di nuovo

Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip

Incertezza sui parametri

Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente

2

i

2

)x-(xbVar

)(

2i

2i

2

)x-(x

s

)x-(x

sbes )(

Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere

2

i

2

)x-(x

sb)var(

Stimatore dellrsquoerrore standard di conseguenza saragrave

Nel nostro esempioes(b) = radic(795184) = 0657

Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)

Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza

Intervalli di confidenza

)(bes

b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave

Pertanto un intervallo di confidenza al 95 per β saragrave dato da

IDC(β) = b plusmn tn-2005 es(b)

Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β

btn-2005 es(b) tn-2005 es(b)

Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto

IDC(β) = 304 plusmn 151

Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)

304151

0151

15

3

45

5

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 5: Lezione B.10 Regressione e inferenza: il modello lineare

Un esempio giagrave esploratoRiprendiamo lrsquoesempio visto nella lezione in cui egrave stata introdotta la regressione in ambito descrittivo I dati si riferivano a 10 atleti e lrsquointeresse era quello di valutare la relazione tra etagrave e performance nel salto in altoSupponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse ma ne costituiscano solamente un suo campione casuale semplice

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Con le formule appena viste otteniamo

b=304 a=16035 s2 = 795

I valori sono gli stessi giagrave calcolati nella lezione 6 Ora perograve tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β

Dal punto di vista tecnico finora dunque nulla di nuovo

Dobbiamo perograve ancora trattare la parte relativa allrsquoinferenza sui parametrihellip

Incertezza sui parametri

Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente

2

i

2

)x-(xbVar

)(

2i

2i

2

)x-(x

s

)x-(x

sbes )(

Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere

2

i

2

)x-(x

sb)var(

Stimatore dellrsquoerrore standard di conseguenza saragrave

Nel nostro esempioes(b) = radic(795184) = 0657

Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)

Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza

Intervalli di confidenza

)(bes

b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave

Pertanto un intervallo di confidenza al 95 per β saragrave dato da

IDC(β) = b plusmn tn-2005 es(b)

Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β

btn-2005 es(b) tn-2005 es(b)

Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto

IDC(β) = 304 plusmn 151

Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)

304151

0151

15

3

45

5

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 6: Lezione B.10 Regressione e inferenza: il modello lineare

Incertezza sui parametri

Lo stimatore b essendo non distorto ha valore atteso proprio pari a β La sua varianza risulta inoltre la seguente

2

i

2

)x-(xbVar

)(

2i

2i

2

)x-(x

s

)x-(x

sbes )(

Tale varianza egrave ignota dato che egrave ignoto σ2 Un suo stimatore corretto si dimostra essere

2

i

2

)x-(x

sb)var(

Stimatore dellrsquoerrore standard di conseguenza saragrave

Nel nostro esempioes(b) = radic(795184) = 0657

Concentriamo la nostra attenzione su β (misura dellrsquoeffetto di X su Y)

Se oltre alle condizioni 1-3 alla base del modello si aggiunge anche la quarta (normalitagrave della distribuzione degli errori) si dimostra che gli stimatori a e b hanno anchrsquoessi distribuzione normale Ersquo possibile quindi agevolmente ottenere intervalli di confidenza

Intervalli di confidenza

)(bes

b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave

Pertanto un intervallo di confidenza al 95 per β saragrave dato da

IDC(β) = b plusmn tn-2005 es(b)

Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β

btn-2005 es(b) tn-2005 es(b)

Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto

IDC(β) = 304 plusmn 151

Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)

304151

0151

15

3

45

5

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 7: Lezione B.10 Regressione e inferenza: il modello lineare

Intervalli di confidenza

)(bes

b In particolare la seguente quantitagrave si distribuisce come una t di student con n-2 gradi di libertagrave

Pertanto un intervallo di confidenza al 95 per β saragrave dato da

IDC(β) = b plusmn tn-2005 es(b)

Con probabilitagrave 095 lrsquointervallo contiene lrsquoignoto parametro β

btn-2005 es(b) tn-2005 es(b)

Nel nostro esempioIDC(β) = bplusmnt8 005es(b) = 304plusmn23060657Si ottiene pertanto

IDC(β) = 304 plusmn 151

Lrsquointervallo [153 455] non contiene lo 0 lrsquoeffetto di X su Y puograve quindi essere considerato significativo (al livello del 5)

304151

0151

15

3

45

5

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 8: Lezione B.10 Regressione e inferenza: il modello lineare

Significativitagrave dei parametriPer saggiare lrsquoipotesi nulla = 0 (che corrisponde allrsquoipotesi che X non abbia alcun effetto su Y) contro lrsquoipotesi alternativa ne 0 si puograve usare la seguente statistica test

Esatto Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta Yi = α + εi con α = micro

Nel nostro esempio t = 304 0675 =463A cui corrisponde (tavole della t di student con 8 gl) un p-value = 00017 (lt005)Effetto significativo (a conferma di quanto giagrave ottenuto con IDC)

t = b es(b)

che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertagrave (gl)

Come criterio generale se il p-value (Pr gt |t|) egrave molto basso (ades inferiore a 005) allora possiamo affermare che lrsquoeffetto di X su Yegrave significativamente diverso da 0

Se vale invece lrsquoipotesi nulla ovvero = 0 la migliore previsione torna ad essere la media di Y

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 9: Lezione B.10 Regressione e inferenza: il modello lineare

Prova di ipotesi su modelli lineariChe significa per una regressione lineare semplice saggiare lrsquoipotesi nulla =0 Essa corrisponde allrsquoipotesi che X non abbia alcun effetto su Y

Se =0 la statistica t=bes(b) sotto lrsquoipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertagrave Se la statistica cosigrave ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significativitagrave prefissato (per es 5 o 1 permille) possiamo rifiutare lrsquoipotesi nulla cioegrave la variabile explanans X influisce significativamente su Y

X (Etagrave) Salto (Y)

18 212

18 218

18 215

19 218

19 220

20 218

20 224

21 220

21 226

22 229

Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra etagrave e performance Possiamo calcolare Non ci interessano i calcoli intermedi (medie varianze etc) I tabulati di un modello di regressione mi dicono che a=16035 b=304 e es(b)=0657 LrsquoIDC al livello di significativitagrave del 95 egrave

IDC(β) = 304 plusmn 151 LrsquoIDC al livello di significativitagrave del 95 non contiene quindi lo 0 dunque lrsquoipotesi nulla egrave da rigettare In termini di test di ipotesi

t=3040675=463cui corrisponde (tavole di t di Student con 8 gl) un p-value=00017lt0005 lrsquoeffetto dellrsquoetagrave X sulla performance Y egrave quindi significativo al 5 permille

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 10: Lezione B.10 Regressione e inferenza: il modello lineare

Es 1 la disuguaglianza cresce dove egrave bassa lrsquooccupazione femminile

04

05

06

07

08

09

03 04 05 06 07 08

Statistica totale

N 12

R2XY

033

A +092

B -0555

Es(B) 0249

t student -2231

Sign 050

Idc 95 inf -1110

Idc 95 sup -0001

regione X Y

Italia 042 082

Portogallo 059 076

Gran Bret 065 074

Grecia 044 068

Spagna 032 067

Irlanda 039 067

Olanda 060 061

Austria 056 051

Belgio 060 050

Germania 053 050

Finlandia 072 045

Danimarca 078 042

X= donne lavoro Y=disuguaglianza

0

-4 -3 -2 -1 0 1 2 3 4

Mah

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 11: Lezione B.10 Regressione e inferenza: il modello lineare

Es 2 contesti di disoccupazione spingono al suicidio

regione X Y

Piemonte 088 114

Lombardia 088 075

Trentino 091 100

Veneto 089 085

Friuli 085 123

Liguria 080 096

Emilia 088 129

Toscana 084 086

Umbria 083 101

X= tasso occupazione 25-34 anni Y=suicidi milione ab (lsquo92)

03

05

07

09

11

13

05 06 07 08 09 1

Statistica Italia Nord Sud

N 19 9 10

R2XY

058 001 026

A -051 087 -000

B +172 0157 0911

Es(B) 0354 1978 0540

t student 4862 0079 1687

Sign 000 939 130

Idc 95 inf 973 -452 -334

Idc 95 sup 2465 +483 +216

0

-4 -3 -2 -1 0 1 2 3 4

regione X Y

Marche 084 082

Lazio 070 060

Abruzzi 076 061

Molise 071 058

Campania 058 038

Puglie 070 048

Basilicata 064 067

Calabria 055 046

Sicilia 063 067

Sardegna 065 086

Solo nord-sud

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 12: Lezione B.10 Regressione e inferenza: il modello lineare

Es 3 la diffusione di divorzi precorre il diffondersi delle convivenze

regione X Y

Piemonte 90 56

Lombardia 86 50

Trentino 71 50

Veneto 37 38

Friuli 53 54

Liguria 118 55

Emilia 97 60

Toscana 65 42

X=Divorzi al 1988 Y=convivenze al 2001

0

10

20

30

40

50

60

0 20 40 60 80 100 120

regione X Y

Umbria 48 26

Marche 36 27

Lazio 44 40

AbruzziMol 17 16

Campania 31 16

Puglie 26 17

Basilicata 25 9

Calabria 21 14

Sicilia 36 20

Sardegna 33 24

0

-4 -3 -2 -1 0 1 2 3 4

Statistica Italia NC Sud Nord CS

N 18 11 7 8 10

R2XY

77 61 33 52 59

A 747 227 583 348 -95

B 051 033 398 205 689

Es(B) 007 089 254 081 201

t student 745 373 156 253 342

Sign 000 005 178 044 009

Idc 95 inf 367 131 -25 007 225

Idc 95 sup 600 535 105 403 115

Ancora nord-sud

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 13: Lezione B.10 Regressione e inferenza: il modello lineare

Es 4 la diffusione dei compu-ter spiega quella dei cellulari

Country X Y

Austria 25 18

Belgio 25 12

Francia 23 12

Germania 23 13

Olanda 29 13

Svizzera 30 17

Grecia 7 9

Italia 16 24

Portogallo 10 18

Spagna 12 14

Danimarca 35 31

Finlandia 35 46

Svezia 35 41

UK 29 16

Norvegia 36 41

05101520253035404550

0 5 10 15 20 25 30 35 40

X= computer Y=cellulariStatistica Europa Nord Sud Centro

N 15 5 4 6

R2XY

423 789 787 167

A 128 -92 -53 485

B 826 375 149 0361

Es(B) 267 112 548 0402

t student 309 335 272 0897

Sign 009 044 113 421

Idc 95 inf 248 192 -87 -76

Idc 95 sup 140 731 385 148

0

-4 -3 -2 -1 0 1 2 3 4

Tre europe differenti

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 14: Lezione B.10 Regressione e inferenza: il modello lineare

Dalla regressione semplice a quella multipla

due distinte regressioni semplici di Y su X e di Y su Z microi(X) = + YX Xi

microi(Z) = + YZ Zi

o invece una regressione multipla di Y su X e Zmicroi(XZ)= + YX Xi + YZ Zi

Facciamo allora un passo avanti e domandiamoci qual egrave il valore aggiunto della regressione multipla

Ripartiamo dallrsquoesempio sulla performance nel salto in alto Finora abbiamo visto due distinte regressioni semplici col primo abbiamo studiato la dipendenza di Y dallrsquoetagrave dellrsquoatleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z)Ma quale differenza passa tra condurre

Rispetto alle ipotesi alla base del modello di regressione semplice nella regressione multipla si aggiunge lrsquoassunzione di non collinearitagrave tra le variabili esplicative (vedi lezione 7) Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta Grossi problemi di stabilitagrave della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearitagrave)

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 15: Lezione B.10 Regressione e inferenza: il modello lineare

Coefficienti parziali

Supponiamo di essere interessati alla dipendenza di Y da XCon la regressione semplice misuriamo lrsquoeffetto ldquototalerdquodi X su Y Se inseriamo nel modello anche la variabile Z lrsquoeffetto di X su Y viene ora calcolato ldquoal netto dellrsquoazione di Zrdquo (ovvero ldquoa paritagrave di Zrdquo ldquocontrollando rispetto a Zrdquo) Ersquo formalmente piugrave corretto scrivere il modello di regressione multipla nel seguente modo

microi(XZ) = + YXz Xi + YZx Zi

dove YXz egrave il ldquocoefficiente parzialerdquo di X (ovvero lrsquoeffetto di X su Y

al netto di Z) mentre YZx egrave il ldquocoefficiente parzialerdquo di Z (ovvero lrsquoeffetto di Z su Y al netto di X)

In generale lrsquoeffetto di X su Y calcolato nella regressione semplice (YX) non coin-

cide con lrsquoeffetto di X su Y calcolato nella regressione multipla (YXz) Inoltre nella regressione multipla lrsquoeffetto di X su Y dipende dalle altre variabili inserite nel modello (YXz egrave in generale diverso da YXw ed entrambi sono diversi da YXzw)

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 16: Lezione B.10 Regressione e inferenza: il modello lineare

Leggere tabulati interpretare dati 1 da che dipende esser ricchi

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) +008 004 +1928 054 000 015

Dim Famiglia -149 064 -2319 021 -274 -023

N Figli in famiglia -088 073 -1205 228 -232 +-055

Dim Urbana +039 045 +0869 385 -049 +126

Tit Studio madre +313 061 +5089 000 +192 +433

Tit Studio interv +508 059 +8671 000 +393 +623

N = 966 R2 =211 F = 4287 Sign 000

Explanandum reddito equivalente familiare mensileGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 17: Lezione B.10 Regressione e inferenza: il modello lineare

Leggere tabulati interpretare dati 2 da che dipende essere istruiti

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -026 002 -14379 000 -030 -023

N Figli in famiglia +013 024 +0538 591 -034 +060

Dim Urbana +101 023 +4322 000 +055 +146

Tit Studio madre +378 031 +12324 000 +318 +438

Reddito eq Famigl +142 016 +8608 000 +109 +174

N = 966 R2 =477 F =17553 Sign 000

Explanandum livello di scolaritagrave dellrsquointervistataGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 18: Lezione B.10 Regressione e inferenza: il modello lineare

Leggere tabulati interpretare dati 3 cosa causa disagio relazionale

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) -016 009 -1769 077

Reddito eq Famigl -251 075 -3360 001

Dim Famiglia -390 149 -2627 009

Ormai avete capito come funzionano gli Idc

N Figli in famiglia +241 167 +1440 150

Tit Studio interv -279 143 -1955 051

N Legami forti -188 077 -2448 015

Peso neighb in rete -007 003 -2162 031

Dim Urbana -018 101 -0178 859

Grado postfamilism -086 042 -2055 040

Tit Studio madre -113 144 -0787 431

N = 811 R2 =068 F =4145 Sign 000

Explanandum Scala 0-10 di disagio relazionale (fiducia rapporti futuro)General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 19: Lezione B.10 Regressione e inferenza: il modello lineare

Leggere tabulati interpretare dati 4 quando usiamo psicofarmaci

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 010 002 +5023 000

Reddito eq Famigl -008 016 -0468 640

Dim Famiglia -038 032 -1185 236

Ormai avete capito come funzionano gli Idc

N Figli in famiglia -010 037 -0273 785

Tit Studio interv 000 031 -0012 990

N Legami forti 044 016 +2669 008

Dim Urbana 045 022 +2003 045

Densitagrave della rete 013 023 +0570 569

Tit Studio madre -033 031 -1060 289

Disagio relazionale 013 008 +1625 105

N = 902 R2 =075 F =6578 Sign 000

Explanandum scala 0-3 uso di psicofarmaciGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
Page 20: Lezione B.10 Regressione e inferenza: il modello lineare

Leggere tabulati interpretare dati 5 cosa spinge a chiacchierare

Vv Xi (esplicative) B Es(B) t student Signific Idc 95inf Idc 95sup

Etagrave (classi 10 anni) 109 039 +2786 005

Ormai avete capito come funzionano gli Idc

N Figli in famiglia 557 464 +1201 230

Dim Urbana 1894 451 +4198 000

Reddito eq Famigl -008 332 -0025 980

Tit Studio interv 324 590 +0550 583

N = 1060 R2 = 028 F =5985 Sign 000

Explanandum durata dellrsquointervistaGeneral Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglieInterviste a sole donne

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20