I fenomeni bivariati
Esempio:Il mercato del lavoro può essere studiato considerando separatamente alcune sue caratterizzazioni, come la distribuzione degli occupati per età, per sesso o titolo di studio oppure si possono costruire delle distribuzioni doppie, per età e titolo di studio degli occupati.
Finora ci siamo occupati dello studio dei fenomeni in riferimento a singole caratteristiche o aspetti (distribuzioni univariate). Su una stessa unità statistica si possono rilevare contemporaneamente anche due o più caratteri (quantitativi o qualitativi) ottenendo delle distribuzioni doppie, triple, multiple.
Introduciamo ora i fenomeni bivariati cioè quei fenomeni che possono essere caratterizzati studiando congiuntamente due variabili (che si indicano solitamente con: X e Y ). Se le variabili sono entrambe quantitative si può procedere ad un’analisi di interdipendenza, altrimenti si ricorre all’utilizzo di misure di associazione (per caratteri qualitativi).
Nella figura ogni unità statistica è rappresentata da un punto avente due coordinate corrispondenti alle modalità dei due caratteri considerati.
1Cos'è la Statistica - G. Garau, L. Schirru
Le tabelle a doppia entrataPer ogni unità statistica si rilevano due caratteri e poi si ordinano i dati (le modalità) in tabelle a doppia entrata di dimensioni p × q, dove nij ∈ N rappresentano le frequenze congiunte assolute.
Frequenze marginali
corrispondono alle frequenze assolute rispettivamente del carattere X e Y .
il totale delle frequenze
oppure
nnnj i
iji j
ij
nnnnnnnp
jj
q
ij
p
iiji
q
jij
1.
1.
1.
1
. ;
2Cos'è la Statistica - G. Garau, L. Schirru
L’indipendenzaLa variabile Y è indipendente (in senso matematico) da una variabile X quando non varia al variare dei valori assunti dalla X.
Vi è indipendenza statistica tra X e Y se, per tutte le frequenze della tabella a doppia entrata,sussiste la relazione:
Vi è cioè indipendenza se il rapporto tra una frequenza e il totale della colonna (o riga) a cui l’elemento appartiene è uguale al rapporto del totale della riga (o colonna) al numero complessivo delle unità considerate.
vi è indipendenza tra X e Y se, per ogni cella, la frequenza relativa alle modalità xi e yj è uguale al prodotto del totale della riga per quello della colonna a cui l’elemento appartiene, diviso per la numerosità, n del collettivo considerato.
n
n
n
n
nn
n
n j
i
iji
j
ij .
.
.
. ;
n
nnn jiij
..* cui da
Nella realtà si presentano raramente situazioni di perfetta indipendenza tra i caratteri di una tabella a doppia entrata, per cui, se non si verifica tale condizione, significa che le distribuzioni parziali di uno dei due caratteririsultano influenzate dai valori dell’altro carattere, nel senso che cambiano passando da una colonna, o riga, all’altra.
Per misurare la relazione tra le variabili considerate, si utilizza la correlazione, se entrambe le variabili sono quantitative.
Per studiare la relazione tra variabili, quando almeno una delle due è qualitativa, si utilizza la connessione.
3Cos'è la Statistica - G. Garau, L. Schirru
Le medie in una distribuzione doppia
La media aritmetica di una distribuzione marginale è uguale alla media aritmetica ponderata delle medie aritmetiche delle distribuzioni parziali in cui si scompone.
Le medie condizionate si calcolano utilizzando le formule:
La media di x condizionata ad una modalità assunta dalla y è uguale alla media aritmetica ponderata di tutte le x che assumono quella particolare modalità di y.
xfxnxn
XMi
iiii
i ..1
)(
yfynyn
YMj
jjjj
j ..1
)(
ij
ijjijj
ji
i yfynyn
xYM |.
1)|(j
ijiiij
ii
jj xfxnx
nyXM |
.
1)|(
La media di y condizionata ad una modalità assunta dalla x è uguale alla media aritmetica ponderata di tutte le y che assumono quella particolare modalità di x.
4Cos'è la Statistica - G. Garau, L. Schirru
EsempioSi osserva la tabella di frequenze doppie per le variabili X = peso (in kg) e Y = altezza (in cm).Si determini il peso medio e l’altezza media.
Y 165 170 175
X
60 2 0 0 2
70 0 1 0 1
80 1 0 1 2
3 1 1 5
cm 168 è media altezzal'
1685
)1175()1170()3165(
y
kg 70 è medio peso il
705
)280()170()260(
x
Y 165 170 175
X
60 2 0 0 2
70 0 1 0 1
80 1 0 1 2
3 1 1 5
5Cos'è la Statistica - G. Garau, L. Schirru
EsempioSi determini ora il peso medio delle persone alte 165 cm.
Y 165 170 175
X
60 2 0 0 2
70 0 1 0 1
80 1 0 1 2
3 1 1 5
1702
)1175()0170()1165()80|(
xyM
67,662
)180()070()260()165|(
yxM
Y 165 170 175
X
60 2 0 0 2
70 0 1 0 1
80 1 0 1 2
3 1 1 5
Si determini ora l’altezza media delle persone che pesano 80 kg.
In questo caso si considerano solo le frequenze della riga delle X corrispondente ad 80.
In questo caso si considerano solo le frequenze della colonna delle Y corrispondente a 165.
6Cos'è la Statistica - G. Garau, L. Schirru
Esempio 2Osserviamo due variabili: Y = ore di studio e X = ore di lezione, per le quali si ha la seguente tabella di distribuzione doppia.
Si determini il numero medio di ore di studio e di ore di lezione.
Si determini poi il numero medio di ore di lezione (x) se le ore di studio sono comprese tra100 e 150 (y).
X [0-50] (50-90]
Y[0-100] 35 25 60(100-150] 30 20 50(150-250] 15 7 22
80 52 132
X 25 70
Y50 35 25 60
125 30 20 50200 15 7 22
80 52 132
Il primo passaggio consiste nel calcolare il valore centrale di ogni classe. Come già detto per le distribuzioni univariate, nel caso di variabili ripartite in classi, per costruire la media è necessario sostituire il valore della xi col valore della xc.
41,103132
)22200()50125()6050(
y
73,42132
)5270()8025(
x
4350
)2070()3025()125|(
yxM
Se le ore di studio sono comprese tra 100 e 150, in media le ore di lezione saranno pari a 43.
Media delle ore di lezione.
Media delle ore di studio
7Cos'è la Statistica - G. Garau, L. Schirru
Le varianze in una distribuzione doppia
2.
2.
2
2.
2.
2
)(][1)(
)(][1)(
yj
jjj
jj
xi
iii
ii
fyynyyn
YV
fxxnxxn
XV
Si osserva la tabella di frequenze doppie per le variabili X = peso (in kg) e Y = altezza (in cm).Si determini la varianza del peso e dell’altezza
Esempio Y 165 170 175
X60 2 0 0 270 0 1 0 180 1 0 1 2
3 1 1 5
165
805
494275
1)168175(1)168170(3)168165( 2222
y
805
4005
20002005
2)7080(1)7070(2)7060( 2222
x 94,8802 xx
4162 yy
8Cos'è la Statistica - G. Garau, L. Schirru
Indipendenza tra variabili.Consideriamo la seguente distribuzione doppia:
X
Y
TotaleA B C
1 2 3 5 10
2 6 9 15 30
Totale 8 12 20 40Se dividiamo gli elementi di ciascuna colonna per il corrispondente totale otteniamo:
X
Y
TotaleA B C
1 0,25 0,25 0,25 0,25
2 0,75 0,75 0,75 0,75
Totale 1 1 1 1
75,04030
;75,02015
;75,0129
;75,086
25,04010
;25,0205
;25,0123
;25,082
La distribuzione di frequenze relative del carattere X condizionate al valore A del carattere Y è uguale alla distribuzione di frequenze relative del carattere X condizionate al valore B del carattere Y, ed è uguale alla distribuzione di frequenze relative del carattere X condizionate al valore C del carattere. Sono tutte uguali alla distribuzione marginale delle X.Qualunque valore assuma la Y, la distribuzione condizionata di X non si modifica, ciò significa che non esiste alcun tipo di legame tra X e Y.
Provate a ripetere l’esercizio dividendo ,stavolta, gli elementi di ciascuna riga per il corrispondente totale …Noterete che se Y è indipendente da X anche X è indipendente da Y
9Cos'è la Statistica - G. Garau, L. Schirru
La tabella delle frequenze teoricheSappiamo che da una distribuzione doppia è sempre possibile ricavare le corrispondenti distribuzioni marginali. Se due caratteri sono indipendenti è vero anche il contrario, ossia partendo dalle distribuzioni marginali è possibile risalire alla distribuzione doppia. La tabella così costruita prende il nome di distribuzione di frequenze teoriche.
X
Y
TotaleY1 Y2 Y3 Y4
XA 20
XB 50
XC 30
Totale 30 40 10 20 100
Se x e y sono indipendenti, per ogni coppia di modalità dei due caratteri deve valere: n
nnn jiij
..*
6100
30201..*1
nnn
n AA
6
10100
20504..*4
nnn
n BB
1012
12100
40302..*2
nnn
n CC
X
Y
TotaleY1 Y2 Y3 Y4
XA 6 8 2 4 20
XB 15 20 5 10 50
XC 9 12 3 6 30
Totale 30 40 10 20 100
Completando tutte le caselle si ottiene la tabella delle frequenze teoriche:
10Cos'è la Statistica - G. Garau, L. Schirru
Come misurare la relazione tra le variabili?Si dice che due fenomeni sono tra loro connessi quando l’avverarsi di una modalità del primo fenomeno si collega alla variazione delle modalità del secondo. La connessione è nulla nel caso di indipendenza. Se la connessione è massima ad ogni modalità di un carattere si associa una ed una sola modalità dell’altro carattere.
Una misura della connessione tra le variabili (qualitative e/o quantitative) può essere offerta dalla sintesi delle differenze tra le frequenze osservate nij e le corrispondenti frequenze teoriche n*
ij, contenute nella tabella di indipendenza. La differenza tra la frequenza osservata e la frequenza corrispondente all’indipendenza si chiama contingenza, Cij.
Un indice di connessione molto utilizzato è l’indice c2 di Pearson, che si calcola come di seguito:
* perché
così scrivere anche può si che *
22
*
2*2
)(
ijnijnijC
i j ij
ij
i j ij
ijij
n
C
n
nn
cc
L’indice c2 di Pearson ha significato se viene rapportato al valore massimo che può assumere. Per eliminare l’influenza del numero delle unità e quindi consentire il confronto tra situazioni con diverse numerosità, spesso si considera l’indice:
2
2
nc Il valore massimo che può assumere
l’indice 2 è il più piccolo tra p-1 e q-1. )1;1( 2 qpMinMax
11Cos'è la Statistica - G. Garau, L. Schirru
EsempioSi consideri la seguente distribuzione secondo il sesso e l’atteggiamento nei confronti del fumo dedotta da un indagine effettuata su 191 soggetti. Si misuri la connessione tra le due variabili.
SessoAtteggiamento
Favorevoli Contrari Indifferenti
M 9 55 19 83F 10 71 27 108
19 126 46 191
SessoAtteggiamento
Favorevoli Contrari Indifferenti
M 8,26 54,75 19,99 83F 10,74 71,25 26,01 108
19 126 46 191
Si costruisce innanzitutto la tabella delle frequenze teoriche, utilizzando le formule già viste:
26,8191
126831..1*11
nnn
n
12Cos'è la Statistica - G. Garau, L. Schirru
0,21 26,01
26,01)-(2771,2571,25)-(71
10,7410,74)-(10
19,9919,99)-(19
54,7554,75)-(55
8,268,26)-(9)(
222
222
*
2*2
i j ij
ijij
n
nnc
Calcoliamo ora l’indice c2 di Pearson:
Dividendo questo valore per 191 (totale delle frequenze) si ottiene l’indice 2, che risulta essere pari a 0,0011. Questo valore indica una connessione molto debole (praticamente inesistente), tra i due caratteri .
13Cos'è la Statistica - G. Garau, L. Schirru
Le relazioni tra variabili quantitative
Quando si vuole conoscere la relazione simmetrica tra due variabili statistiche, senza indicare quale delle due variabili influenza l’altra, si utilizzano degli indicatori sintetici di concordanza (o di discordanza) tra le variabili.
Nella precedente unità didattica abbiamo parlato delle relazioni tra variabili qualitative e/o variabili quantitative. In questa, invece ci occupiamo delle relazioni tra variabili entrambe quantitative.
L’indice più diffuso è il coefficiente di correlazione, r che misura la relazione lineare esistente tra i due caratteri rilevati sulle n unità statistiche.
yx
xyr
14Cos'è la Statistica - G. Garau, L. Schirru
Il coefficiente di correlazione
dove: −σx e σy sono rispettivamente
gli scarti quadratici medi di X e di Y;
−σxy è la covarianza tra X e Y.
n
yyxxn
i iixy
1))((
yx
xyr
n
xxn
ii
x
1
2)(
n
yyn
ii
y
1
2)(
15Cos'è la Statistica - G. Garau, L. Schirru
I passaggi per il calcolo del coefficiente di correlazione:La codevianza e la covarianza
))(( yyxx ii
La correlazione si ottiene normalizzando la codevianza (trasformandola, cioè in numero puro).
La codevianza è data dalla somma dei prodotti degli scarti semplici dalle medie.
ij
p
i
q
iii nyyxx
1 1
))((
Nel caso di media semplice Nel caso di media ponderata
n
yyxx ii ))((
n
nyyxx ij
p
i
q
iii
1 1
))((
La covarianza si calcola rapportando la codevianza al totale delle osservazioni
Nel caso di media semplice Nel caso di media ponderata
16Cos'è la Statistica - G. Garau, L. Schirru
Alcuni casi di riferimentoPer analizzare la variabilità congiunta di X e Y si sposta l’origine degli assi nel puntodi modo che nel nuovo sistema le coordinate dei punti siano
),( yxyyxx ii ,
Nel caso (1) la codevianza sarà > 0 perché i punti sono tutti nel primo quadrante (I), dove simoltiplicano scarti entrambi positivi o nel quarto quadrante (IV), dove si moltiplicano scarti entrambi negativi.
Nel caso (2) la codevianza sarà invece < 0 perché nel secondo (II) e nel terzo (III) quadrante si moltiplicano scarti positivi con scarti negativi.
Nel caso (3), la codevianza avrà, invece, un valore prossimo a 0.
17Cos'è la Statistica - G. Garau, L. Schirru
Per confrontare, infine, i casi (4 – pochi punti) e (5 – molti punti), è necessario dividere i valori di codevianza per le rispettive numerosità ottenendo i valori di covarianza.
18Cos'è la Statistica - G. Garau, L. Schirru
Soggetto Altezza (cm) Peso (kg)1 170 702 181 753 175 694 173 685 169 586 172 707 168 678 177 639 178 6610 175 70
Utilizzando i dati della tabella il primo passo per costruire un diagramma consiste nel decidere quali valori vanno nelle ordinate e quali nelle ascisse. Nel nostro esempio abbiamo deciso di utilizzare le altezze come ascisse e i pesi come ordinate.
Il primo valore indicato delle ordinate è 50, mentre nelle ascisse è 167. Avremo potuto iniziare anche da zero ma il grafico sarebbe stato spostato verso l’alto e verso destra.
Come si disegna un diagramma a dispersioneIn un campione di 10 soggetti maschi è stata determinata la statura e il peso corporeo ottenendo i seguenti risultati.
x
y
Soggetto Altezza (cm) Peso (kg)1 170 702 181 753 175 694 173 685 169 586 172 707 168 678 177 639 178 66
10 175 70
170 70
169 58
175 70
Una volta costruito il diagramma cartesiano dobbiamo inserire i punti, cioè i valori relativi ai singoli individui della tabella. Si mostrano alcuni esempi.
20Cos'è la Statistica - G. Garau, L. Schirru
Calcolo del coefficiente di correlazioneAbbiamo detto che il coefficiente di correlazione si calcola rapportando la covarianza al prodotto tra le varianze della x e della y. Perciò per calcolarlo è necessario calcolare prima i valori delle due varianze e il valore della covarianza.Ripartiamo dai dati della tabella.
Soggetto Altezza (x) Peso (y)
1 170 702 181 753 175 694 173 685 169 586 172 707 168 678 177 639 178 66
10 175 70
Come prima cosa dobbiamo calcolare i valori medi delle due distribuzioni:
8,17310
173810
)175178177168172169173175181170(
x
6,6710676
10)70666367705868697570(
y
97,3 76,1510
6,15710
)8.173175()8.173178()8.173177()8.173168()8.173172()8.173169()8.173173()8.173175()8.173181()8.173170(
)(
2x
2222222222
2
2
x
i
x n
xx
36,4 04,1910
4,19010
)6,6770()6,6766()6,6763()6,6767()6,6770()6,6758()6,6768()6,6769()6,6775()6,6770(
)(
2y
2222222222
2
2
y
i
y n
yy
Calcolati i valori medi possiamo adesso calcolare le varianze e gli scarti quadratici medi delle due variabili
21Cos'è la Statistica - G. Garau, L. Schirru
Calcolo della covarianza
22,710
2,7210
)]6,6770()8.173175[()]6,6766()8.173178[()]6,6767()8.173177[()]6,6770()8.173168[()]6,6758()8.173172[(10
)]6,6768()8.173169[()]6,6769()8.173173[()]6,6775()8.173175[()]6,6775()8.173181[()]6,6770()8.173170[(
))((2
n
yyxx ii
xy
Calcoliamo infine la covarianza
22Cos'è la Statistica - G. Garau, L. Schirru
Interpretazione del Coefficiente di correlazione
417,036,497,3
22,7
yx
xyr
Come si interpretano i risultati ottenuti? Mentre la covarianza può variare tra meno infinito e più infinito, la correlazione può variare tra meno uno e più uno. Chiaramente però se cov(x, y) = 0 allora rxy = 0 e in questo caso si dice che non vi è correlazione lineare tra X e Y. In sintesi:
per r = 1 si ha il massimo di correlazione diretta. La correlazione si dice diretta se a valori crescenti di una variabile corrispondono valori crescenti anche dell’altra variabile (ad esempio reddito e consumi, altezza e peso).
per r = −1 si ha il massimo di correlazione inversa. La correlazione si dice inversa se a valori crescenti di una variabile corrispondono valori decrescenti dell’altra variabile (ad esempio altitudine e pressione atmosferica).
per r = 0 non si ha correlazione.
Nell’esempio si ha una discreta correlazione positiva.23
Cos'è la Statistica - G. Garau, L. Schirru
La regressione
Nel precedente modulo abbiamo detto che per studiare la relazione simmetrica tra due variabili statistiche, senza indicare quale delle due variabili influenza l’altra, si utilizzano degli indicatori di concordanza tra variabili, es. la CORRELAZIONE.
In questo modulo, invece, tratteremo della REGRESSIONE, che studia la relazione asimmetrica tra le variabili. Infatti, regredire significa “variare in conseguenza di”.
Regredire y rispetto ad x significa studiare la relazione y=f(x).
24Cos'è la Statistica - G. Garau, L. Schirru
La regressione lineare semplice
Partiamo dal modello di regressione lineare semplice rappresentato dalla forma:
ebxay
Interpretazione dei coefficienti e delle variabili:
y è la variabile dipendente (varia in funzione della variazione della x)
x è la variabile indipendente (ogni sua variazione fa variare anche la y)
a è l’intercetta della retta (valore di y in corrispondenza di x=0)
b è il coefficiente angolare della retta (indica come varia y al variare di x)
e rappresenta l’errore (variabilità non attribuibile ai regressori, alla x)
25Cos'è la Statistica - G. Garau, L. Schirru
Alcuni esempi
a)I punti si disperdono nello spazio assumendo una forma di nuvola
b)Caso limite in cui i punti si allineano lungo la retta.
26Cos'è la Statistica - G. Garau, L. Schirru
Si può far passare una retta in una nuvola di punti in modo che questa li rappresenti tutti?
L’esempio grafico sottolinea che se non si utilizza un criterio, risulta impossibile scegliere tra le due rette.
27Cos'è la Statistica - G. Garau, L. Schirru
Consideriamo, come primo criterio possibile, la minimizzazione della distanza tra i punti osservati e i punti sulla retta o punti stimati, rappresentato in figura:
(residui) )ˆ( iii uMinyyMin
In questo caso il criterio adottato porterebbe ad una situazione di indifferenza, poiché la somma degli errori positivi compensa quella degli errori negativi (gli errori sono indicati nel grafico).
28Cos'è la Statistica - G. Garau, L. Schirru
Scegliamo allora un altro criterio che eviti la compensazione
|ˆ| ii yyMin
Utilizzando questo criterio si dovrebbe preferire il caso b) anche se è evidente che è preferibile a) perché la retta passa in mezzo alla nuvola di punti.
29Cos'è la Statistica - G. Garau, L. Schirru
Il criterio dei Minimi Quadrati Ordinari (M.Q.O.)
La soluzione del sistema permette di ottenere i seguenti valori di a e b.
2,
2)(
))((
x
yx
i
ii
xx
yyxxb
xbya
La caratteristica più importante di questo criterio è che consente di determinare un’unica retta di regressione per ogni insieme di dati.
SMinbxayMinyyMin iiii )()ˆ( 22
0)(2 ii bxaySa
Calcoliamo le derivate rispetto ad a e b ed eguagliamo a zero:
0)]([2 iii bxayxSb
30Cos'è la Statistica - G. Garau, L. Schirru
La retta scelta per rappresentare la nuvola di punti, quanto li rappresenta effettivamente?
Per rispondere a questa domanda è necessario calcolare il Coefficiente di Determinazione, che fornisce una misura della qualità dell’aggiustamento della retta ai dati.
2
2
2
2ˆ2 1
y
u
y
yR
10 2 R 12 R02 RIl modello non spiega la variabilità della y.
Il modello spiega tutta la variabilità della y
Varianza di y = varianza di y spiegata dalla retta di regressione + varianza dei residui
22ˆ
2uyy
Calcoliamolo:
dividiamo per 2y
2
2
2
2ˆ
1y
u
y
y
e otteniamo
% di varianza spiegata dal modello.
% d
i var
ianz
a re
sidua
.
Coefficiente di determinazione
INTERPRETAZIONE DEL COEFFICIENTE
31Cos'è la Statistica - G. Garau, L. Schirru
La regressione. Esercizio 1
Considerate questa tabella che riporta le informazioni relative a 10 studenti laureati nel 2003.
Costruite un modello di regressione per spiegare, con le variabili a disposizione, il voto di laurea e verificate l’affidabilità del modello.
32Cos'è la Statistica - G. Garau, L. Schirru
Svolgimento
La prima cosa da fare e riuscire a capire che tipo di informazioni abbiamo a disposizione.Il testo dell’esercizio ci agevola leggermente il lavoro definendo la variabile dipendente: il voto di laurea.Da cosa può dipendere il voto di laurea?
Variabile dipendente
Id = numero progressivo degli studenti
33Cos'è la Statistica - G. Garau, L. Schirru
Da cosa può dipendere il voto di laurea?
Può dipendere dal numero di matricola?
Ovviamente no!
Il numero di matricola è un semplice codice, non è l’espressione di nessun fenomeno rilevante.34Cos'è la Statistica - G. Garau, L. Schirru
Variabile qualitativa
Da cosa può dipendere il voto di laurea?Può dipendere dal genere (sesso) dello studente?
Potrebbe darsi, però il genere (sesso) è una variabile qualitative e una possibile relazione tra una variabile qualitativa e una variabile quantitativa si misura con un indice di connessione.
Nel modello di regressione una variabile qualitativa può essere utilizzata come variabile indipendente, però è necessario trasformarla in variabile categorica (o dicotomica, nel caso in esame), ma questo argomento non è oggetto del corso di statistica, bensì di un corso di econometria, perciò se qualcuno vuole saperne di più, può trovare dei riferimenti in qualsiasi testo di econometria.
Questo significa che il sesso non è la variabile che stiamo cercando per risolvere l’esercizio.
35Cos'è la Statistica - G. Garau, L. Schirru
Da cosa può dipendere il voto di laurea?
Rimangono due sole possibilità. Vediamo di analizzarle entrambe.
Può dipendere dal voto di diploma
Può dipendere dalla distanza del luogo di residenza dall’Università.
Dobbiamo stabilire quale delle due variabili ha una influenza significativa!
36Cos'è la Statistica - G. Garau, L. Schirru
Iniziamo analizzando la relazione tra voto di diploma e voto di laurea.Come prima cosa disegniamo il diagramma a dispersione, mettendo in ascissa le x (variabile indipendente) e in ordinata le y (variabile dipendente)
Voti di diploma
Voti
di la
urea
37Cos'è la Statistica - G. Garau, L. Schirru
Costruiamo quindi la tabella dove riportare i calcolivoto
Laurea(Y)
voto Diploma
(x)110 70105 74102 89102 78103 6795 100
108 60106 60107 6598 82
Calcoliamo innanzitutto i valori medi di x e y per poter poi calcolare gli scarti.
103.6y 74.5; n
y
n
xx
ii
Calcoliamo gli scarti, i quadrati degli scarti, la loro somma e la codevianza di x e y. Riportiamo tutti i risultati in tabella.
-4.5-0.514.5
3.5-7.525.5
-14.5-14.5
-9.57.5
6.41.4
-1.6-1.6-0.6-8.64.42.43.4
-5.6
20.250.25
210.2512.2556.25
650.25210.25210.2590.2520.25
1516.5
2)( xx
40.961.962.562.560.36
73.9619.365.76
11.5631.36190.4
2)( yy
-28.8-0.7
-23.2-5.64.5
-219.3-63.8-34.8-32.3
-42-446
))(( yyxx
Adesso siamo in grado di calcolare i coefficienti della retta di regressione: b e a
29.05.1516
446
)(
))((
2
xx
yyxxb
i
ii
S somma
51.125)5.7429.0(6.103 xbya
)( xx )( yy
38Cos'è la Statistica - G. Garau, L. Schirru
voto Laurea
(Y)
voto Diploma
(x)110 70105 74102 89102 78103 6795 100108 60106 60107 6598 82
-4.5-0.514.53.5
-7.525.5
-14.5-14.5-9.57.5
6.41.4
-1.6-1.6-0.6-8.64.42.43.4
-5.6
20.250.25
210.2512.2556.25
650.25210.25210.2590.2520.25
1516.5
2)( xx
40.961.962.562.560.36
73.9619.36
5.7611.5631.36190.4
2)( yy
-28.8-0.7
-23.2-5.64.5
-219.3-63.8-34.8-32.3
-42-446
))(( yyxx
S somma
Ottenuti i parametri della retta siamo in grado di costruire i valori di y stimati. Riportiamo i valori in tabella.
92.104)7029.0(51.125ˆ11 bxay
104.92103.75
99.34102.57105.81
96.10107.86107.86106.39101.39
y)( xx )( yy
Esempio
Disegniamo ora la retta di regressione nel diagramma a dispersione
39Cos'è la Statistica - G. Garau, L. Schirru
Voti di diploma
Voti
di la
urea
Notate che l’asse delle ascisse parte da 60 per comodità grafica, l’intercetta è 125.51 in corrispondenza di x=0.
40Cos'è la Statistica - G. Garau, L. Schirru
voto Laurea
(Y)
voto Diploma
(x)110 70105 74102 89102 78103 6795 100
108 60106 60107 6598 82
-4.5-0.514.53.5
-7.525.5
-14.5-14.5-9.57.5
6.41.4
-1.6-1.6-0.6-8.64.42.43.4
-5.6
20.250.25
210.2512.2556.25
650.25210.25210.2590.2520.25
1516.5
2)( xx
40.961.962.562.560.36
73.9619.36
5.7611.5631.36190.4
2)( yy
-28.8-0.7
-23.2-5.64.5
-219.3-63.8-34.8-32.3
-42-446
))(( yyxx
S somma
104.92103.7599.34
102.57105.8196.10
107.86107.86106.39101.39
y
5.081.252.66
-0.57-2.81-1.100.14
-1.860.61
-3.39
yy ˆ
25.771.577.100.337.871.210.023.480.37
11.5259.23
2)ˆ( yy )( xx )( yy
S somma
Dopo aver calcolato i valori stimati della y possiamo calcolare gli scarti dai valori della y per poi calcolare il quadrato degli scarti. Questi valori ci servono per calcolare il Coefficiente di determinazione.
689.0311.014.190
23.591
104.190
1023.59
11 2
22
y
uR Il voto di diploma
influenza significativamente il voto di laurea.
41Cos'è la Statistica - G. Garau, L. Schirru
ConsiderazioniAbbiamo dimostrato che il voto di diploma influenza il voto di laurea.
Ma che tipo di influenza ha sul voto di laurea?
Al crescere del voto di diploma il voto di laurea cresceIpotesi a)
Al crescere del voto di diploma il voto di laurea decresceIpotesi b)
Come facciamo a rispondere a questa domanda?
Un primo aiuto potrebbe darcelo la rappresentazione grafica … la retta infatti, ha una pendenza negativa!
Ma per avere la certezza, possiamo vedere il segno del coefficiente angolare della retta, “b”.
Al crescere del voto di diploma il voto di laurea decresce
In questo caso è valida l’ipotesi b, infatti il segno del coefficiente angolare è negativo.
42Cos'è la Statistica - G. Garau, L. Schirru
Verifichiamo ora se il voto di laurea è influenzato dalla distanza del luogo di residenza dall’Università. Ripetiamo gli stessi passaggi di prima.Disegniamo il diagramma a dispersione, mettendo in ascissa le x (variabile indipendente) e in ordinata le y (variabile dipendente)
Distanza dall’Università
Voti
di la
urea
43Cos'è la Statistica - G. Garau, L. Schirru
Costruiamo quindi la tabella dove riportare i calcolivoto
Laurea(Y)
Distanza (x)
110 38105 25102 70102 140103 1695 100108 36106 47107 21098 5
Calcoliamo innanzitutto i valori medi di x e y per poter poi calcolare gli scarti.
103.6y ;7.68 n
y
n
xx
ii
-30.7-43.7
1.371.3
-52.731.3
-32.7-21.7141.3-63.7
6.41.4
-1.6-1.6-0.6-8.64.42.43.4
-5.6
942.491909.69
1.695083.692777.29
979.691069.29
470.8919965.694057.69
37258.1
2)( xx
40.961.962.562.560.36
73.9619.365.76
11.5631.36190.4
2)( yy
-196.48-61.18
-2.08-114.08
31.62-269.18-143.88-52.08480.42356.72
29.8
))(( yyxx
Adesso siamo in grado di calcolare i coefficienti della retta di regressione: b e a
0008.01.37258
8.29
)(
))((
2
xx
yyxxb
i
ii
S somma
55.103)5.740008.0(6.103 xbya
)( xx )( yy
Calcoliamo gli scarti, i quadrati degli scarti, la loro somma e la codevianza di x e y. Riportiamo tutti i risultati in tabella.
44Cos'è la Statistica - G. Garau, L. Schirru
voto Laurea
(Y)
voto Diploma
(x)110 70105 74102 89102 78103 6795 100108 60106 60107 6598 82
-30.7-43.7
1.371.3
-52.731.3
-32.7-21.7141.3-63.7
6.41.4
-1.6-1.6-0.6-8.64.42.43.4
-5.6
942.491909.69
1.695083.692777.29979.69
1069.29470.89
19965.694057.69
37258.1
2)( xx
40.961.962.562.560.36
73.9619.36
5.7611.5631.36190.4
2)( yy
-196.48-61.18
-2.08-114.08
31.62-269.18-143.88-52.08480.42356.72
29.8
))(( yyxx
S somma
Ottenuti i parametri della retta siamo in grado di costruire i valori di y stimati. Riportiamo i valori in tabella.
58.103)70008.0(55.103ˆ11 bxay
103.58103.57103.60103.66103.56103.63103.57103.58103.71103.55
y)( xx )( yy
Esempio
Disegniamo ora la retta di regressione nel diagramma a dispersione
45Cos'è la Statistica - G. Garau, L. Schirru
Distanza dall’Università
Voti
di la
urea
46Cos'è la Statistica - G. Garau, L. Schirru
-6.42-1.431.601.660.568.63
-4.43-2.42-3.295.55
yy ˆ
41.2752.0592.5632.7460.311
74.39119.591
5.84410.80430.792
190.38
2)ˆ( yy
S somma
Dopo aver calcolato i valori stimati della y possiamo calcolare gli scarti dai valori della y per poi calcolare il quadrato degli scarti. Questi valori ci servono per calcolare il Coefficiente di determinazione.
000125.00.99987514.19038.190
1
104.190
1038.190
11 2
22
y
uR La distanza
dall’Università non influenza minimamente
il voto di laurea.
voto Laurea
(Y)
voto Diploma
(x)110 70105 74102 89102 78103 6795 100
108 60106 60107 6598 82
-30.7-43.7
1.371.3
-52.731.3
-32.7-21.7141.3-63.7
6.41.4
-1.6-1.6-0.6-8.64.42.43.4
-5.6
942.491909.69
1.695083.692777.29979.69
1069.29470.89
19965.694057.69
37258.1
2)( xx
40.961.962.562.560.36
73.9619.365.76
11.5631.36190.4
2)( yy
-196.48-61.18
-2.08-114.08
31.62-269.18-143.88
-52.08480.42356.72
29.8
))(( yyxx
S somma
103.58103.57103.60103.66103.56103.63103.57103.58103.71103.55
y)( xx )( yy
47Cos'è la Statistica - G. Garau, L. Schirru
La regressione. Esercizio 2In un’indagine effettuata presso una scuola materna pubblica sono stati rilevati l’età e il peso di 130 bambini, ottenendo la seguente tabella sintetica:
Peso kg
Età (anni)
[10-15) (15-20] (20-25] [25-30]
[3-4) 17 28 3 0
(4-5] 7 19 17 0
(5-6] 1 10 27 1
Costruite la retta di regressione del peso in funzione dell’età e determinate la bontà di adattamento dei dati al modello.
Anche in questo caso il testo dell’esercizio ci aiuta nella risoluzione, indicandoci quale è la variabile dipendente e quale, invece, è la variabile indipendente. Dobbiamo quindi solo effettuare i passaggi matematici per calcolare i parametri della retta e il coefficiente di determinazione.
48Cos'è la Statistica - G. Garau, L. Schirru
Sappiamo che se i dati sono raggruppati in classi, per poter calcolare le medie è necessario utilizzare i valori centrali delle classi e, nel caso di tabelle a doppia entrata, calcolare le frequenze marginali.
Peso kg
Età (anni)
[10-15) (15-20] (20-25] [25-30]
[3-4) 17 28 3 0
(4-5] 7 19 17 0
(5-6] 1 10 27 1
Peso kg
Età (anni)
12.5 17.5 22.5 27.5
3.5 17 28 3 0 48
4.5 7 19 17 0 43
5.5 1 10 27 1 39
25 57 47 1 130
43.4130
)395.5()435.4()485.3(
n
nxx
ii 42.18130
)15.27()475.22()475.17()255.12(
n
nyy
ii
49Cos'è la Statistica - G. Garau, L. Schirru
(Cov xy)
14.73 596.41 743.7524.26 23.86 1715
2.60 49.86 236.250.03 245.58 393.750.09 16.19 1496.250.08 282.56 1721.251.14 35.08 68.75
11.43 8.52 962.530.87 448.78 3341.25
1.14 82.39 151.2586.38 1789.23 10830
Riscriviamo come segue i valori della tabella per comodità di calcolo.
X Y n
3.5 12.5 173.5 17.5 283.5 22.5 34.5 12.5 74.5 17.5 194.5 22.5 175.5 12.5 15.5 17.5 105.5 22.5 275.5 27.5 1
130
inxx 2)( inyy 2)(
68.142.1843.4130
10830)(
)( xy xy
ii
iiiyx
n
nyxCov
75.743175.125.3
664.0130
38.86)( 2
x
n
nxx ii 763.13
13023.1789)( 2
y
n
nyy ii
50Cos'è la Statistica - G. Garau, L. Schirru
Rappresentiamo graficamente i valori della tabella con il diagramma a dispersione
Età dei bambini (anni)
Peso
dei
bam
bini
(Kg)
Perché i quadrati sono così grandi? Perché ognuno di essi è ripetuto più volte
Questo punto si ripete 17 volte
Questo punto si ripete 1 volta sola
Que
sto
punt
o si
rip
ete
27 v
olte
51Cos'è la Statistica - G. Garau, L. Schirru
Calcoliamo quindi i parametri della retta di regressione e i punti della retta.
(Cov xy)
14.73 596.41 743.7524.26 23.86 1715
2.60 49.86 236.250.03 245.58 393.750.09 16.19 1496.250.08 282.56 1721.251.14 35.08 68.75
11.43 8.52 962.530.87 448.78 3341.25
1.14 82.39 151.2586.38 1789.23 10830
X Y n
3.5 12.5 173.5 17.5 283.5 22.5 34.5 12.5 74.5 17.5 194.5 22.5 175.5 12.5 15.5 17.5 105.5 22.5 275.5 27.5 1
130
16.071 216.74416.071 57.20416.071 124.00918.598 260.30318.598 22.90918.598 258.82921.125 74.39821.125 131.43821.125 51.01521.125 40.635
1237.483
inyy 2)ˆ(y
53.2664.068.1
x
xyb
22.7)43.453.2(42.18 xbya
inxx 2)( inyy 2)(
52Cos'è la Statistica - G. Garau, L. Schirru
Rappresentiamo graficamente anche la retta di regressione
Età dei bambini (anni)
Peso
dei
bam
bini
(Kg)
53Cos'è la Statistica - G. Garau, L. Schirru
Calcoliamo, infine, il coefficiente di determinazione
308.0692.0177.1352.9
1
13023.1789
13048.1237
11 2
22
y
uR
L’età del bambino non influenza granché il suo
peso.
Concludiamo con un’osservazione. Perché ho scelto l’età come variabile indipendente?
Avrebbe senso una relazione inversa? Ossia, l’età del bambino potrebbe essere influenzata dal suo peso?
Ricordate sempre che la prima cosa da fare … ancor prima di fare i calcoli è accertarci di aver interpretato bene il problema.
54Cos'è la Statistica - G. Garau, L. Schirru
Top Related