I fenomeni bivariati

54
I fenomeni bivariati Esempio: Il mercato del lavoro può essere studiato considerando separatamente alcune sue caratterizzazioni, come la distribuzione degli occupati per età, per sesso o titolo di studio oppure si possono costruire delle distribuzioni doppie, per età e titolo di studio degli occupati. Finora ci siamo occupati dello studio dei fenomeni in riferimento a singole caratteristiche o aspetti (distribuzioni univariate). Su una stessa unità statistica si possono rilevare contemporaneamente anche due o più caratteri (quantitativi o qualitativi) ottenendo delle distribuzioni doppie, triple, multiple. Introduciamo ora i fenomeni bivariati cioè quei fenomeni che possono essere caratterizzati studiando congiuntamente due variabili (che si indicano solitamente con: X e Y ). Se le variabili sono entrambe quantitative si può procedere ad un’analisi di interdipendenza, altrimenti si ricorre all’utilizzo di misure di associazione (per caratteri qualitativi). Nella figura ogni unità statistica è rappresentata da un punto avente due coordinate corrispondenti alle modalità dei due caratteri considerati. 1 Cos'è la Statistica - G. Garau, L. Schirru

Transcript of I fenomeni bivariati

Page 1: I fenomeni bivariati

I fenomeni bivariati

Esempio:Il mercato del lavoro può essere studiato considerando separatamente alcune sue caratterizzazioni, come la distribuzione degli occupati per età, per sesso o titolo di studio oppure si possono costruire delle distribuzioni doppie, per età e titolo di studio degli occupati.

Finora ci siamo occupati dello studio dei fenomeni in riferimento a singole caratteristiche o aspetti (distribuzioni univariate). Su una stessa unità statistica si possono rilevare contemporaneamente anche due o più caratteri (quantitativi o qualitativi) ottenendo delle distribuzioni doppie, triple, multiple.

Introduciamo ora i fenomeni bivariati cioè quei fenomeni che possono essere caratterizzati studiando congiuntamente due variabili (che si indicano solitamente con: X e Y ). Se le variabili sono entrambe quantitative si può procedere ad un’analisi di interdipendenza, altrimenti si ricorre all’utilizzo di misure di associazione (per caratteri qualitativi).

Nella figura ogni unità statistica è rappresentata da un punto avente due coordinate corrispondenti alle modalità dei due caratteri considerati.

1Cos'è la Statistica - G. Garau, L. Schirru

Page 2: I fenomeni bivariati

Le tabelle a doppia entrataPer ogni unità statistica si rilevano due caratteri e poi si ordinano i dati (le modalità) in tabelle a doppia entrata di dimensioni p × q, dove nij ∈ N rappresentano le frequenze congiunte assolute.

Frequenze marginali

corrispondono alle frequenze assolute rispettivamente del carattere X e Y .

il totale delle frequenze

oppure

nnnj i

iji j

ij

nnnnnnnp

jj

q

ij

p

iiji

q

jij

1.

1.

1.

1

. ;

2Cos'è la Statistica - G. Garau, L. Schirru

Page 3: I fenomeni bivariati

L’indipendenzaLa variabile Y è indipendente (in senso matematico) da una variabile X quando non varia al variare dei valori assunti dalla X.

Vi è indipendenza statistica tra X e Y se, per tutte le frequenze della tabella a doppia entrata,sussiste la relazione:

Vi è cioè indipendenza se il rapporto tra una frequenza e il totale della colonna (o riga) a cui l’elemento appartiene è uguale al rapporto del totale della riga (o colonna) al numero complessivo delle unità considerate.

vi è indipendenza tra X e Y se, per ogni cella, la frequenza relativa alle modalità xi e yj è uguale al prodotto del totale della riga per quello della colonna a cui l’elemento appartiene, diviso per la numerosità, n del collettivo considerato.

n

n

n

n

nn

n

n j

i

iji

j

ij .

.

.

. ;

n

nnn jiij

..* cui da

Nella realtà si presentano raramente situazioni di perfetta indipendenza tra i caratteri di una tabella a doppia entrata, per cui, se non si verifica tale condizione, significa che le distribuzioni parziali di uno dei due caratteririsultano influenzate dai valori dell’altro carattere, nel senso che cambiano passando da una colonna, o riga, all’altra.

Per misurare la relazione tra le variabili considerate, si utilizza la correlazione, se entrambe le variabili sono quantitative.

Per studiare la relazione tra variabili, quando almeno una delle due è qualitativa, si utilizza la connessione.

3Cos'è la Statistica - G. Garau, L. Schirru

Page 4: I fenomeni bivariati

Le medie in una distribuzione doppia

La media aritmetica di una distribuzione marginale è uguale alla media aritmetica ponderata delle medie aritmetiche delle distribuzioni parziali in cui si scompone.

Le medie condizionate si calcolano utilizzando le formule:

La media di x condizionata ad una modalità assunta dalla y è uguale alla media aritmetica ponderata di tutte le x che assumono quella particolare modalità di y.

xfxnxn

XMi

iiii

i ..1

)(

yfynyn

YMj

jjjj

j ..1

)(

ij

ijjijj

ji

i yfynyn

xYM |.

1)|(j

ijiiij

ii

jj xfxnx

nyXM |

.

1)|(

La media di y condizionata ad una modalità assunta dalla x è uguale alla media aritmetica ponderata di tutte le y che assumono quella particolare modalità di x.

4Cos'è la Statistica - G. Garau, L. Schirru

Page 5: I fenomeni bivariati

EsempioSi osserva la tabella di frequenze doppie per le variabili X = peso (in kg) e Y = altezza (in cm).Si determini il peso medio e l’altezza media.

    Y      165 170 175  

X

60 2 0 0 2

70 0 1 0 1

80 1 0 1 2

    3 1 1 5

cm 168 è media altezzal'

1685

)1175()1170()3165(

y

kg 70 è medio peso il

705

)280()170()260(

x

    Y      165 170 175  

X

60 2 0 0 2

70 0 1 0 1

80 1 0 1 2

    3 1 1 5

5Cos'è la Statistica - G. Garau, L. Schirru

Page 6: I fenomeni bivariati

EsempioSi determini ora il peso medio delle persone alte 165 cm.

    Y      165 170 175  

X

60 2 0 0 2

70 0 1 0 1

80 1 0 1 2

    3 1 1 5

1702

)1175()0170()1165()80|(

xyM

67,662

)180()070()260()165|(

yxM

    Y      165 170 175  

X

60 2 0 0 2

70 0 1 0 1

80 1 0 1 2

    3 1 1 5

Si determini ora l’altezza media delle persone che pesano 80 kg.

In questo caso si considerano solo le frequenze della riga delle X corrispondente ad 80.

In questo caso si considerano solo le frequenze della colonna delle Y corrispondente a 165.

6Cos'è la Statistica - G. Garau, L. Schirru

Page 7: I fenomeni bivariati

Esempio 2Osserviamo due variabili: Y = ore di studio e X = ore di lezione, per le quali si ha la seguente tabella di distribuzione doppia.

Si determini il numero medio di ore di studio e di ore di lezione.

Si determini poi il numero medio di ore di lezione (x) se le ore di studio sono comprese tra100 e 150 (y).

    X      [0-50] (50-90]  

Y[0-100] 35 25 60(100-150] 30 20 50(150-250] 15 7 22

    80 52 132

    X      25 70  

Y50 35 25 60

125 30 20 50200 15 7 22

    80 52 132

Il primo passaggio consiste nel calcolare il valore centrale di ogni classe. Come già detto per le distribuzioni univariate, nel caso di variabili ripartite in classi, per costruire la media è necessario sostituire il valore della xi col valore della xc.

41,103132

)22200()50125()6050(

y

73,42132

)5270()8025(

x

4350

)2070()3025()125|(

yxM

Se le ore di studio sono comprese tra 100 e 150, in media le ore di lezione saranno pari a 43.

Media delle ore di lezione.

Media delle ore di studio

7Cos'è la Statistica - G. Garau, L. Schirru

Page 8: I fenomeni bivariati

Le varianze in una distribuzione doppia

2.

2.

2

2.

2.

2

)(][1)(

)(][1)(

yj

jjj

jj

xi

iii

ii

fyynyyn

YV

fxxnxxn

XV

Si osserva la tabella di frequenze doppie per le variabili X = peso (in kg) e Y = altezza (in cm).Si determini la varianza del peso e dell’altezza

Esempio    Y      165 170 175  

X60 2 0 0 270 0 1 0 180 1 0 1 2

    3 1 1 5

165

805

494275

1)168175(1)168170(3)168165( 2222

y

805

4005

20002005

2)7080(1)7070(2)7060( 2222

x 94,8802 xx

4162 yy

8Cos'è la Statistica - G. Garau, L. Schirru

Page 9: I fenomeni bivariati

Indipendenza tra variabili.Consideriamo la seguente distribuzione doppia:

X

Y

TotaleA B C

1 2 3 5 10

2 6 9 15 30

Totale 8 12 20 40Se dividiamo gli elementi di ciascuna colonna per il corrispondente totale otteniamo:

X

Y

TotaleA B C

1 0,25 0,25 0,25 0,25

2 0,75 0,75 0,75 0,75

Totale 1 1 1 1

75,04030

;75,02015

;75,0129

;75,086

25,04010

;25,0205

;25,0123

;25,082

La distribuzione di frequenze relative del carattere X condizionate al valore A del carattere Y è uguale alla distribuzione di frequenze relative del carattere X condizionate al valore B del carattere Y, ed è uguale alla distribuzione di frequenze relative del carattere X condizionate al valore C del carattere. Sono tutte uguali alla distribuzione marginale delle X.Qualunque valore assuma la Y, la distribuzione condizionata di X non si modifica, ciò significa che non esiste alcun tipo di legame tra X e Y.

Provate a ripetere l’esercizio dividendo ,stavolta, gli elementi di ciascuna riga per il corrispondente totale …Noterete che se Y è indipendente da X anche X è indipendente da Y

9Cos'è la Statistica - G. Garau, L. Schirru

Page 10: I fenomeni bivariati

La tabella delle frequenze teoricheSappiamo che da una distribuzione doppia è sempre possibile ricavare le corrispondenti distribuzioni marginali. Se due caratteri sono indipendenti è vero anche il contrario, ossia partendo dalle distribuzioni marginali è possibile risalire alla distribuzione doppia. La tabella così costruita prende il nome di distribuzione di frequenze teoriche.

X

Y

TotaleY1 Y2 Y3 Y4

XA 20

XB 50

XC 30

Totale 30 40 10 20 100

Se x e y sono indipendenti, per ogni coppia di modalità dei due caratteri deve valere: n

nnn jiij

..*

6100

30201..*1

nnn

n AA

6

10100

20504..*4

nnn

n BB

1012

12100

40302..*2

nnn

n CC

X

Y

TotaleY1 Y2 Y3 Y4

XA 6 8 2 4 20

XB 15 20 5 10 50

XC 9 12 3 6 30

Totale 30 40 10 20 100

Completando tutte le caselle si ottiene la tabella delle frequenze teoriche:

10Cos'è la Statistica - G. Garau, L. Schirru

Page 11: I fenomeni bivariati

Come misurare la relazione tra le variabili?Si dice che due fenomeni sono tra loro connessi quando l’avverarsi di una modalità del primo fenomeno si collega alla variazione delle modalità del secondo. La connessione è nulla nel caso di indipendenza. Se la connessione è massima ad ogni modalità di un carattere si associa una ed una sola modalità dell’altro carattere.

Una misura della connessione tra le variabili (qualitative e/o quantitative) può essere offerta dalla sintesi delle differenze tra le frequenze osservate nij e le corrispondenti frequenze teoriche n*

ij, contenute nella tabella di indipendenza. La differenza tra la frequenza osservata e la frequenza corrispondente all’indipendenza si chiama contingenza, Cij.

Un indice di connessione molto utilizzato è l’indice c2 di Pearson, che si calcola come di seguito:

* perché

così scrivere anche può si che *

22

*

2*2

)(

ijnijnijC

i j ij

ij

i j ij

ijij

n

C

n

nn

cc

L’indice c2 di Pearson ha significato se viene rapportato al valore massimo che può assumere. Per eliminare l’influenza del numero delle unità e quindi consentire il confronto tra situazioni con diverse numerosità, spesso si considera l’indice:

2

2

nc Il valore massimo che può assumere

l’indice 2 è il più piccolo tra p-1 e q-1. )1;1( 2 qpMinMax

11Cos'è la Statistica - G. Garau, L. Schirru

Page 12: I fenomeni bivariati

EsempioSi consideri la seguente distribuzione secondo il sesso e l’atteggiamento nei confronti del fumo dedotta da un indagine effettuata su 191 soggetti. Si misuri la connessione tra le due variabili.

SessoAtteggiamento

Favorevoli Contrari Indifferenti

M 9 55 19 83F 10 71 27 108

19 126 46 191

SessoAtteggiamento

Favorevoli Contrari Indifferenti

M 8,26 54,75 19,99 83F 10,74 71,25 26,01 108

19 126 46 191

Si costruisce innanzitutto la tabella delle frequenze teoriche, utilizzando le formule già viste:

26,8191

126831..1*11

nnn

n

12Cos'è la Statistica - G. Garau, L. Schirru

Page 13: I fenomeni bivariati

0,21 26,01

26,01)-(2771,2571,25)-(71

10,7410,74)-(10

19,9919,99)-(19

54,7554,75)-(55

8,268,26)-(9)(

222

222

*

2*2

i j ij

ijij

n

nnc

Calcoliamo ora l’indice c2 di Pearson:

Dividendo questo valore per 191 (totale delle frequenze) si ottiene l’indice 2, che risulta essere pari a 0,0011. Questo valore indica una connessione molto debole (praticamente inesistente), tra i due caratteri .

13Cos'è la Statistica - G. Garau, L. Schirru

Page 14: I fenomeni bivariati

Le relazioni tra variabili quantitative

Quando si vuole conoscere la relazione simmetrica tra due variabili statistiche, senza indicare quale delle due variabili influenza l’altra, si utilizzano degli indicatori sintetici di concordanza (o di discordanza) tra le variabili.

Nella precedente unità didattica abbiamo parlato delle relazioni tra variabili qualitative e/o variabili quantitative. In questa, invece ci occupiamo delle relazioni tra variabili entrambe quantitative.

L’indice più diffuso è il coefficiente di correlazione, r che misura la relazione lineare esistente tra i due caratteri rilevati sulle n unità statistiche.

yx

xyr

14Cos'è la Statistica - G. Garau, L. Schirru

Page 15: I fenomeni bivariati

Il coefficiente di correlazione

dove: −σx e σy sono rispettivamente

gli scarti quadratici medi di X e di Y;

−σxy è la covarianza tra X e Y.

n

yyxxn

i iixy

1))((

yx

xyr

n

xxn

ii

x

1

2)(

n

yyn

ii

y

1

2)(

15Cos'è la Statistica - G. Garau, L. Schirru

Page 16: I fenomeni bivariati

I passaggi per il calcolo del coefficiente di correlazione:La codevianza e la covarianza

))(( yyxx ii

La correlazione si ottiene normalizzando la codevianza (trasformandola, cioè in numero puro).

La codevianza è data dalla somma dei prodotti degli scarti semplici dalle medie.

ij

p

i

q

iii nyyxx

1 1

))((

Nel caso di media semplice Nel caso di media ponderata

n

yyxx ii ))((

n

nyyxx ij

p

i

q

iii

1 1

))((

La covarianza si calcola rapportando la codevianza al totale delle osservazioni

Nel caso di media semplice Nel caso di media ponderata

16Cos'è la Statistica - G. Garau, L. Schirru

Page 17: I fenomeni bivariati

Alcuni casi di riferimentoPer analizzare la variabilità congiunta di X e Y si sposta l’origine degli assi nel puntodi modo che nel nuovo sistema le coordinate dei punti siano

),( yxyyxx ii ,

Nel caso (1) la codevianza sarà > 0 perché i punti sono tutti nel primo quadrante (I), dove simoltiplicano scarti entrambi positivi o nel quarto quadrante (IV), dove si moltiplicano scarti entrambi negativi.

Nel caso (2) la codevianza sarà invece < 0 perché nel secondo (II) e nel terzo (III) quadrante si moltiplicano scarti positivi con scarti negativi.

Nel caso (3), la codevianza avrà, invece, un valore prossimo a 0.

17Cos'è la Statistica - G. Garau, L. Schirru

Page 18: I fenomeni bivariati

Per confrontare, infine, i casi (4 – pochi punti) e (5 – molti punti), è necessario dividere i valori di codevianza per le rispettive numerosità ottenendo i valori di covarianza.

18Cos'è la Statistica - G. Garau, L. Schirru

Page 19: I fenomeni bivariati

Soggetto Altezza (cm) Peso (kg)1 170 702 181 753 175 694 173 685 169 586 172 707 168 678 177 639 178 6610 175 70

Utilizzando i dati della tabella il primo passo per costruire un diagramma consiste nel decidere quali valori vanno nelle ordinate e quali nelle ascisse. Nel nostro esempio abbiamo deciso di utilizzare le altezze come ascisse e i pesi come ordinate.

Il primo valore indicato delle ordinate è 50, mentre nelle ascisse è 167. Avremo potuto iniziare anche da zero ma il grafico sarebbe stato spostato verso l’alto e verso destra.

Come si disegna un diagramma a dispersioneIn un campione di 10 soggetti maschi è stata determinata la statura e il peso corporeo ottenendo i seguenti risultati.

x

y

Page 20: I fenomeni bivariati

Soggetto Altezza (cm) Peso (kg)1 170 702 181 753 175 694 173 685 169 586 172 707 168 678 177 639 178 66

10 175 70

170 70

169 58

175 70

Una volta costruito il diagramma cartesiano dobbiamo inserire i punti, cioè i valori relativi ai singoli individui della tabella. Si mostrano alcuni esempi.

20Cos'è la Statistica - G. Garau, L. Schirru

Page 21: I fenomeni bivariati

Calcolo del coefficiente di correlazioneAbbiamo detto che il coefficiente di correlazione si calcola rapportando la covarianza al prodotto tra le varianze della x e della y. Perciò per calcolarlo è necessario calcolare prima i valori delle due varianze e il valore della covarianza.Ripartiamo dai dati della tabella.

Soggetto Altezza (x) Peso (y)

1 170 702 181 753 175 694 173 685 169 586 172 707 168 678 177 639 178 66

10 175 70

Come prima cosa dobbiamo calcolare i valori medi delle due distribuzioni:

8,17310

173810

)175178177168172169173175181170(

x

6,6710676

10)70666367705868697570(

y

97,3 76,1510

6,15710

)8.173175()8.173178()8.173177()8.173168()8.173172()8.173169()8.173173()8.173175()8.173181()8.173170(

)(

2x

2222222222

2

2

x

i

x n

xx

36,4 04,1910

4,19010

)6,6770()6,6766()6,6763()6,6767()6,6770()6,6758()6,6768()6,6769()6,6775()6,6770(

)(

2y

2222222222

2

2

y

i

y n

yy

Calcolati i valori medi possiamo adesso calcolare le varianze e gli scarti quadratici medi delle due variabili

21Cos'è la Statistica - G. Garau, L. Schirru

Page 22: I fenomeni bivariati

Calcolo della covarianza

22,710

2,7210

)]6,6770()8.173175[()]6,6766()8.173178[()]6,6767()8.173177[()]6,6770()8.173168[()]6,6758()8.173172[(10

)]6,6768()8.173169[()]6,6769()8.173173[()]6,6775()8.173175[()]6,6775()8.173181[()]6,6770()8.173170[(

))((2

n

yyxx ii

xy

Calcoliamo infine la covarianza

22Cos'è la Statistica - G. Garau, L. Schirru

Page 23: I fenomeni bivariati

Interpretazione del Coefficiente di correlazione

417,036,497,3

22,7

yx

xyr

Come si interpretano i risultati ottenuti? Mentre la covarianza può variare tra meno infinito e più infinito, la correlazione può variare tra meno uno e più uno. Chiaramente però se cov(x, y) = 0 allora rxy = 0 e in questo caso si dice che non vi è correlazione lineare tra X e Y. In sintesi:

per r = 1 si ha il massimo di correlazione diretta. La correlazione si dice diretta se a valori crescenti di una variabile corrispondono valori crescenti anche dell’altra variabile (ad esempio reddito e consumi, altezza e peso).

per r = −1 si ha il massimo di correlazione inversa. La correlazione si dice inversa se a valori crescenti di una variabile corrispondono valori decrescenti dell’altra variabile (ad esempio altitudine e pressione atmosferica).

per r = 0 non si ha correlazione.

Nell’esempio si ha una discreta correlazione positiva.23

Cos'è la Statistica - G. Garau, L. Schirru

Page 24: I fenomeni bivariati

La regressione

Nel precedente modulo abbiamo detto che per studiare la relazione simmetrica tra due variabili statistiche, senza indicare quale delle due variabili influenza l’altra, si utilizzano degli indicatori di concordanza tra variabili, es. la CORRELAZIONE.

In questo modulo, invece, tratteremo della REGRESSIONE, che studia la relazione asimmetrica tra le variabili. Infatti, regredire significa “variare in conseguenza di”.

Regredire y rispetto ad x significa studiare la relazione y=f(x).

24Cos'è la Statistica - G. Garau, L. Schirru

Page 25: I fenomeni bivariati

La regressione lineare semplice

Partiamo dal modello di regressione lineare semplice rappresentato dalla forma:

ebxay

Interpretazione dei coefficienti e delle variabili:

y è la variabile dipendente (varia in funzione della variazione della x)

x è la variabile indipendente (ogni sua variazione fa variare anche la y)

a è l’intercetta della retta (valore di y in corrispondenza di x=0)

b è il coefficiente angolare della retta (indica come varia y al variare di x)

e rappresenta l’errore (variabilità non attribuibile ai regressori, alla x)

25Cos'è la Statistica - G. Garau, L. Schirru

Page 26: I fenomeni bivariati

Alcuni esempi

a)I punti si disperdono nello spazio assumendo una forma di nuvola

b)Caso limite in cui i punti si allineano lungo la retta.

26Cos'è la Statistica - G. Garau, L. Schirru

Page 27: I fenomeni bivariati

Si può far passare una retta in una nuvola di punti in modo che questa li rappresenti tutti?

L’esempio grafico sottolinea che se non si utilizza un criterio, risulta impossibile scegliere tra le due rette.

27Cos'è la Statistica - G. Garau, L. Schirru

Page 28: I fenomeni bivariati

Consideriamo, come primo criterio possibile, la minimizzazione della distanza tra i punti osservati e i punti sulla retta o punti stimati, rappresentato in figura:

(residui) )ˆ( iii uMinyyMin

In questo caso il criterio adottato porterebbe ad una situazione di indifferenza, poiché la somma degli errori positivi compensa quella degli errori negativi (gli errori sono indicati nel grafico).

28Cos'è la Statistica - G. Garau, L. Schirru

Page 29: I fenomeni bivariati

Scegliamo allora un altro criterio che eviti la compensazione

|ˆ| ii yyMin

Utilizzando questo criterio si dovrebbe preferire il caso b) anche se è evidente che è preferibile a) perché la retta passa in mezzo alla nuvola di punti.

29Cos'è la Statistica - G. Garau, L. Schirru

Page 30: I fenomeni bivariati

Il criterio dei Minimi Quadrati Ordinari (M.Q.O.)

La soluzione del sistema permette di ottenere i seguenti valori di a e b.

2,

2)(

))((

x

yx

i

ii

xx

yyxxb

xbya

La caratteristica più importante di questo criterio è che consente di determinare un’unica retta di regressione per ogni insieme di dati.

SMinbxayMinyyMin iiii )()ˆ( 22

0)(2 ii bxaySa

Calcoliamo le derivate rispetto ad a e b ed eguagliamo a zero:

0)]([2 iii bxayxSb

30Cos'è la Statistica - G. Garau, L. Schirru

Page 31: I fenomeni bivariati

La retta scelta per rappresentare la nuvola di punti, quanto li rappresenta effettivamente?

Per rispondere a questa domanda è necessario calcolare il Coefficiente di Determinazione, che fornisce una misura della qualità dell’aggiustamento della retta ai dati.

2

2

2

2ˆ2 1

y

u

y

yR

10 2 R 12 R02 RIl modello non spiega la variabilità della y.

Il modello spiega tutta la variabilità della y

Varianza di y = varianza di y spiegata dalla retta di regressione + varianza dei residui

22ˆ

2uyy

Calcoliamolo:

dividiamo per 2y

2

2

2

1y

u

y

y

e otteniamo

% di varianza spiegata dal modello.

% d

i var

ianz

a re

sidua

.

Coefficiente di determinazione

INTERPRETAZIONE DEL COEFFICIENTE

31Cos'è la Statistica - G. Garau, L. Schirru

Page 32: I fenomeni bivariati

La regressione. Esercizio 1

Considerate questa tabella che riporta le informazioni relative a 10 studenti laureati nel 2003.

Costruite un modello di regressione per spiegare, con le variabili a disposizione, il voto di laurea e verificate l’affidabilità del modello.

32Cos'è la Statistica - G. Garau, L. Schirru

Page 33: I fenomeni bivariati

Svolgimento

La prima cosa da fare e riuscire a capire che tipo di informazioni abbiamo a disposizione.Il testo dell’esercizio ci agevola leggermente il lavoro definendo la variabile dipendente: il voto di laurea.Da cosa può dipendere il voto di laurea?

Variabile dipendente

Id = numero progressivo degli studenti

33Cos'è la Statistica - G. Garau, L. Schirru

Page 34: I fenomeni bivariati

Da cosa può dipendere il voto di laurea?

Può dipendere dal numero di matricola?

Ovviamente no!

Il numero di matricola è un semplice codice, non è l’espressione di nessun fenomeno rilevante.34Cos'è la Statistica - G. Garau, L. Schirru

Page 35: I fenomeni bivariati

Variabile qualitativa

Da cosa può dipendere il voto di laurea?Può dipendere dal genere (sesso) dello studente?

Potrebbe darsi, però il genere (sesso) è una variabile qualitative e una possibile relazione tra una variabile qualitativa e una variabile quantitativa si misura con un indice di connessione.

Nel modello di regressione una variabile qualitativa può essere utilizzata come variabile indipendente, però è necessario trasformarla in variabile categorica (o dicotomica, nel caso in esame), ma questo argomento non è oggetto del corso di statistica, bensì di un corso di econometria, perciò se qualcuno vuole saperne di più, può trovare dei riferimenti in qualsiasi testo di econometria.

Questo significa che il sesso non è la variabile che stiamo cercando per risolvere l’esercizio.

35Cos'è la Statistica - G. Garau, L. Schirru

Page 36: I fenomeni bivariati

Da cosa può dipendere il voto di laurea?

Rimangono due sole possibilità. Vediamo di analizzarle entrambe.

Può dipendere dal voto di diploma

Può dipendere dalla distanza del luogo di residenza dall’Università.

Dobbiamo stabilire quale delle due variabili ha una influenza significativa!

36Cos'è la Statistica - G. Garau, L. Schirru

Page 37: I fenomeni bivariati

Iniziamo analizzando la relazione tra voto di diploma e voto di laurea.Come prima cosa disegniamo il diagramma a dispersione, mettendo in ascissa le x (variabile indipendente) e in ordinata le y (variabile dipendente)

Voti di diploma

Voti

di la

urea

37Cos'è la Statistica - G. Garau, L. Schirru

Page 38: I fenomeni bivariati

Costruiamo quindi la tabella dove riportare i calcolivoto

Laurea(Y)

voto Diploma

(x)110 70105 74102 89102 78103 6795 100

108 60106 60107 6598 82

Calcoliamo innanzitutto i valori medi di x e y per poter poi calcolare gli scarti.

103.6y 74.5; n

y

n

xx

ii

Calcoliamo gli scarti, i quadrati degli scarti, la loro somma e la codevianza di x e y. Riportiamo tutti i risultati in tabella.

-4.5-0.514.5

3.5-7.525.5

-14.5-14.5

-9.57.5

6.41.4

-1.6-1.6-0.6-8.64.42.43.4

-5.6

20.250.25

210.2512.2556.25

650.25210.25210.2590.2520.25

1516.5

2)( xx

40.961.962.562.560.36

73.9619.365.76

11.5631.36190.4

2)( yy

-28.8-0.7

-23.2-5.64.5

-219.3-63.8-34.8-32.3

-42-446

))(( yyxx

Adesso siamo in grado di calcolare i coefficienti della retta di regressione: b e a

29.05.1516

446

)(

))((

2

xx

yyxxb

i

ii

S somma

51.125)5.7429.0(6.103 xbya

)( xx )( yy

38Cos'è la Statistica - G. Garau, L. Schirru

Page 39: I fenomeni bivariati

voto Laurea

(Y)

voto Diploma

(x)110 70105 74102 89102 78103 6795 100108 60106 60107 6598 82

-4.5-0.514.53.5

-7.525.5

-14.5-14.5-9.57.5

6.41.4

-1.6-1.6-0.6-8.64.42.43.4

-5.6

20.250.25

210.2512.2556.25

650.25210.25210.2590.2520.25

1516.5

2)( xx

40.961.962.562.560.36

73.9619.36

5.7611.5631.36190.4

2)( yy

-28.8-0.7

-23.2-5.64.5

-219.3-63.8-34.8-32.3

-42-446

))(( yyxx

S somma

Ottenuti i parametri della retta siamo in grado di costruire i valori di y stimati. Riportiamo i valori in tabella.

92.104)7029.0(51.125ˆ11 bxay

104.92103.75

99.34102.57105.81

96.10107.86107.86106.39101.39

y)( xx )( yy

Esempio

Disegniamo ora la retta di regressione nel diagramma a dispersione

39Cos'è la Statistica - G. Garau, L. Schirru

Page 40: I fenomeni bivariati

Voti di diploma

Voti

di la

urea

Notate che l’asse delle ascisse parte da 60 per comodità grafica, l’intercetta è 125.51 in corrispondenza di x=0.

40Cos'è la Statistica - G. Garau, L. Schirru

Page 41: I fenomeni bivariati

voto Laurea

(Y)

voto Diploma

(x)110 70105 74102 89102 78103 6795 100

108 60106 60107 6598 82

-4.5-0.514.53.5

-7.525.5

-14.5-14.5-9.57.5

6.41.4

-1.6-1.6-0.6-8.64.42.43.4

-5.6

20.250.25

210.2512.2556.25

650.25210.25210.2590.2520.25

1516.5

2)( xx

40.961.962.562.560.36

73.9619.36

5.7611.5631.36190.4

2)( yy

-28.8-0.7

-23.2-5.64.5

-219.3-63.8-34.8-32.3

-42-446

))(( yyxx

S somma

104.92103.7599.34

102.57105.8196.10

107.86107.86106.39101.39

y

5.081.252.66

-0.57-2.81-1.100.14

-1.860.61

-3.39

yy ˆ

25.771.577.100.337.871.210.023.480.37

11.5259.23

2)ˆ( yy )( xx )( yy

S somma

Dopo aver calcolato i valori stimati della y possiamo calcolare gli scarti dai valori della y per poi calcolare il quadrato degli scarti. Questi valori ci servono per calcolare il Coefficiente di determinazione.

689.0311.014.190

23.591

104.190

1023.59

11 2

22

y

uR Il voto di diploma

influenza significativamente il voto di laurea.

41Cos'è la Statistica - G. Garau, L. Schirru

Page 42: I fenomeni bivariati

ConsiderazioniAbbiamo dimostrato che il voto di diploma influenza il voto di laurea.

Ma che tipo di influenza ha sul voto di laurea?

Al crescere del voto di diploma il voto di laurea cresceIpotesi a)

Al crescere del voto di diploma il voto di laurea decresceIpotesi b)

Come facciamo a rispondere a questa domanda?

Un primo aiuto potrebbe darcelo la rappresentazione grafica … la retta infatti, ha una pendenza negativa!

Ma per avere la certezza, possiamo vedere il segno del coefficiente angolare della retta, “b”.

Al crescere del voto di diploma il voto di laurea decresce

In questo caso è valida l’ipotesi b, infatti il segno del coefficiente angolare è negativo.

42Cos'è la Statistica - G. Garau, L. Schirru

Page 43: I fenomeni bivariati

Verifichiamo ora se il voto di laurea è influenzato dalla distanza del luogo di residenza dall’Università. Ripetiamo gli stessi passaggi di prima.Disegniamo il diagramma a dispersione, mettendo in ascissa le x (variabile indipendente) e in ordinata le y (variabile dipendente)

Distanza dall’Università

Voti

di la

urea

43Cos'è la Statistica - G. Garau, L. Schirru

Page 44: I fenomeni bivariati

Costruiamo quindi la tabella dove riportare i calcolivoto

Laurea(Y)

Distanza (x)

110 38105 25102 70102 140103 1695 100108 36106 47107 21098 5

Calcoliamo innanzitutto i valori medi di x e y per poter poi calcolare gli scarti.

103.6y ;7.68 n

y

n

xx

ii

-30.7-43.7

1.371.3

-52.731.3

-32.7-21.7141.3-63.7

6.41.4

-1.6-1.6-0.6-8.64.42.43.4

-5.6

942.491909.69

1.695083.692777.29

979.691069.29

470.8919965.694057.69

37258.1

2)( xx

40.961.962.562.560.36

73.9619.365.76

11.5631.36190.4

2)( yy

-196.48-61.18

-2.08-114.08

31.62-269.18-143.88-52.08480.42356.72

29.8

))(( yyxx

Adesso siamo in grado di calcolare i coefficienti della retta di regressione: b e a

0008.01.37258

8.29

)(

))((

2

xx

yyxxb

i

ii

S somma

55.103)5.740008.0(6.103 xbya

)( xx )( yy

Calcoliamo gli scarti, i quadrati degli scarti, la loro somma e la codevianza di x e y. Riportiamo tutti i risultati in tabella.

44Cos'è la Statistica - G. Garau, L. Schirru

Page 45: I fenomeni bivariati

voto Laurea

(Y)

voto Diploma

(x)110 70105 74102 89102 78103 6795 100108 60106 60107 6598 82

-30.7-43.7

1.371.3

-52.731.3

-32.7-21.7141.3-63.7

6.41.4

-1.6-1.6-0.6-8.64.42.43.4

-5.6

942.491909.69

1.695083.692777.29979.69

1069.29470.89

19965.694057.69

37258.1

2)( xx

40.961.962.562.560.36

73.9619.36

5.7611.5631.36190.4

2)( yy

-196.48-61.18

-2.08-114.08

31.62-269.18-143.88-52.08480.42356.72

29.8

))(( yyxx

S somma

Ottenuti i parametri della retta siamo in grado di costruire i valori di y stimati. Riportiamo i valori in tabella.

58.103)70008.0(55.103ˆ11 bxay

103.58103.57103.60103.66103.56103.63103.57103.58103.71103.55

y)( xx )( yy

Esempio

Disegniamo ora la retta di regressione nel diagramma a dispersione

45Cos'è la Statistica - G. Garau, L. Schirru

Page 46: I fenomeni bivariati

Distanza dall’Università

Voti

di la

urea

46Cos'è la Statistica - G. Garau, L. Schirru

Page 47: I fenomeni bivariati

-6.42-1.431.601.660.568.63

-4.43-2.42-3.295.55

yy ˆ

41.2752.0592.5632.7460.311

74.39119.591

5.84410.80430.792

190.38

2)ˆ( yy

S somma

Dopo aver calcolato i valori stimati della y possiamo calcolare gli scarti dai valori della y per poi calcolare il quadrato degli scarti. Questi valori ci servono per calcolare il Coefficiente di determinazione.

000125.00.99987514.19038.190

1

104.190

1038.190

11 2

22

y

uR La distanza

dall’Università non influenza minimamente

il voto di laurea.

voto Laurea

(Y)

voto Diploma

(x)110 70105 74102 89102 78103 6795 100

108 60106 60107 6598 82

-30.7-43.7

1.371.3

-52.731.3

-32.7-21.7141.3-63.7

6.41.4

-1.6-1.6-0.6-8.64.42.43.4

-5.6

942.491909.69

1.695083.692777.29979.69

1069.29470.89

19965.694057.69

37258.1

2)( xx

40.961.962.562.560.36

73.9619.365.76

11.5631.36190.4

2)( yy

-196.48-61.18

-2.08-114.08

31.62-269.18-143.88

-52.08480.42356.72

29.8

))(( yyxx

S somma

103.58103.57103.60103.66103.56103.63103.57103.58103.71103.55

y)( xx )( yy

47Cos'è la Statistica - G. Garau, L. Schirru

Page 48: I fenomeni bivariati

La regressione. Esercizio 2In un’indagine effettuata presso una scuola materna pubblica sono stati rilevati l’età e il peso di 130 bambini, ottenendo la seguente tabella sintetica:

Peso kg

Età (anni)

[10-15) (15-20] (20-25] [25-30]

[3-4) 17 28 3 0

(4-5] 7 19 17 0

(5-6] 1 10 27 1

Costruite la retta di regressione del peso in funzione dell’età e determinate la bontà di adattamento dei dati al modello.

Anche in questo caso il testo dell’esercizio ci aiuta nella risoluzione, indicandoci quale è la variabile dipendente e quale, invece, è la variabile indipendente. Dobbiamo quindi solo effettuare i passaggi matematici per calcolare i parametri della retta e il coefficiente di determinazione.

48Cos'è la Statistica - G. Garau, L. Schirru

Page 49: I fenomeni bivariati

Sappiamo che se i dati sono raggruppati in classi, per poter calcolare le medie è necessario utilizzare i valori centrali delle classi e, nel caso di tabelle a doppia entrata, calcolare le frequenze marginali.

Peso kg

Età (anni)

[10-15) (15-20] (20-25] [25-30]

[3-4) 17 28 3 0

(4-5] 7 19 17 0

(5-6] 1 10 27 1

Peso kg

Età (anni)

12.5 17.5 22.5 27.5

3.5 17 28 3 0 48

4.5 7 19 17 0 43

5.5 1 10 27 1 39

25 57 47 1 130

43.4130

)395.5()435.4()485.3(

n

nxx

ii 42.18130

)15.27()475.22()475.17()255.12(

n

nyy

ii

49Cos'è la Statistica - G. Garau, L. Schirru

Page 50: I fenomeni bivariati

(Cov xy)

14.73 596.41 743.7524.26 23.86 1715

2.60 49.86 236.250.03 245.58 393.750.09 16.19 1496.250.08 282.56 1721.251.14 35.08 68.75

11.43 8.52 962.530.87 448.78 3341.25

1.14 82.39 151.2586.38 1789.23 10830

Riscriviamo come segue i valori della tabella per comodità di calcolo.

X Y n

3.5 12.5 173.5 17.5 283.5 22.5 34.5 12.5 74.5 17.5 194.5 22.5 175.5 12.5 15.5 17.5 105.5 22.5 275.5 27.5 1

130

inxx 2)( inyy 2)(

68.142.1843.4130

10830)(

)( xy xy

ii

iiiyx

n

nyxCov

75.743175.125.3

664.0130

38.86)( 2

x

n

nxx ii 763.13

13023.1789)( 2

y

n

nyy ii

50Cos'è la Statistica - G. Garau, L. Schirru

Page 51: I fenomeni bivariati

Rappresentiamo graficamente i valori della tabella con il diagramma a dispersione

Età dei bambini (anni)

Peso

dei

bam

bini

(Kg)

Perché i quadrati sono così grandi? Perché ognuno di essi è ripetuto più volte

Questo punto si ripete 17 volte

Questo punto si ripete 1 volta sola

Que

sto

punt

o si

rip

ete

27 v

olte

51Cos'è la Statistica - G. Garau, L. Schirru

Page 52: I fenomeni bivariati

Calcoliamo quindi i parametri della retta di regressione e i punti della retta.

(Cov xy)

14.73 596.41 743.7524.26 23.86 1715

2.60 49.86 236.250.03 245.58 393.750.09 16.19 1496.250.08 282.56 1721.251.14 35.08 68.75

11.43 8.52 962.530.87 448.78 3341.25

1.14 82.39 151.2586.38 1789.23 10830

X Y n

3.5 12.5 173.5 17.5 283.5 22.5 34.5 12.5 74.5 17.5 194.5 22.5 175.5 12.5 15.5 17.5 105.5 22.5 275.5 27.5 1

130

16.071 216.74416.071 57.20416.071 124.00918.598 260.30318.598 22.90918.598 258.82921.125 74.39821.125 131.43821.125 51.01521.125 40.635

1237.483

inyy 2)ˆ(y

53.2664.068.1

x

xyb

22.7)43.453.2(42.18 xbya

inxx 2)( inyy 2)(

52Cos'è la Statistica - G. Garau, L. Schirru

Page 53: I fenomeni bivariati

Rappresentiamo graficamente anche la retta di regressione

Età dei bambini (anni)

Peso

dei

bam

bini

(Kg)

53Cos'è la Statistica - G. Garau, L. Schirru

Page 54: I fenomeni bivariati

Calcoliamo, infine, il coefficiente di determinazione

308.0692.0177.1352.9

1

13023.1789

13048.1237

11 2

22

y

uR

L’età del bambino non influenza granché il suo

peso.

Concludiamo con un’osservazione. Perché ho scelto l’età come variabile indipendente?

Avrebbe senso una relazione inversa? Ossia, l’età del bambino potrebbe essere influenzata dal suo peso?

Ricordate sempre che la prima cosa da fare … ancor prima di fare i calcoli è accertarci di aver interpretato bene il problema.

54Cos'è la Statistica - G. Garau, L. Schirru