Post on 20-Feb-2019
1
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Statistica
Domenico vistocco
Dipartimento di Economia e Giurisprudenza Università degli Studi di Cassino e del Lazio Meridionale
La Regressione
Modulo di
Corso di Studio inEconomia e Commercio (a.a. 2015-16)
Università degli studi di Cassino e del Lazio Meridionale
vistocco@unicas.it
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Dipendenza funzionale (o deterministica): ( );Y f X θ=
Da un punto di vista analitico, i valori della Y possono essere determinati senza errore a partire dai soli valori della X;
Dipendenza statistica: ( );Y f X eθ= +Il valore della variabile dipendente non è univocamente determinato a partire dal solo valore della variabile esplicativa, potendosi osservare, per ciascun di X, più valori di Y;
Da un punto di vista grafico, la dipendenza statistica implica una funzione che passi fra i punti osservati. Il numero di parametri da determinare dipende, in questo caso, dal tipo di funzione scelta e non dal numero di punti osservati.
X
YDa un punto di vista grafico, la dipendenza funzionale implica la definizione di una funzione che passi per tutti i punti, e che quindi richiede la determinazione di tanti parametri quanti sono i punti.
La RegressioneX: variabile indipendente (data)Y: variabile dipendente
2
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Y = b0+ b
1X + eLa Regressione
X: variabile indipendente (data)Y: variabile dipendente
X
Y
Decidiamo di rappresentare la nube di punti con una funzione che passi tra i punti stessi;Tra tutte le possibili funzioni, scegliamo la funzione lineare;
Y = b0 +b1XTra tutte le infinite possibili rette, scegliamo quella che ottimizza un criterio che definiamo arbitrariamente, per esempio quella cheminimizza la somma dei quadrati degli scarti tra valori osservati e valori teorici:
S b0,b1( ) = Yi −Yi( )2i=1
n
∑ = Yi −b0 −b1Xi( )2i=1
n
∑ =min
Il metodo dei minimi quadrati consente di ottenere le soluzioni di questo problema, soluzioni che rappresentano i parametri della retta:
b0 =Y −b1X b1 =Cov XY( )Var X( )
Sostituendo questi valori nell’equazione della retta, per ogni valore dato di X otterremo il corrispondente valore teorico di Y.
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneX: variabile indipendente (data)Y: variabile dipendente
b0 =Y −b1X
X
YE’ l’intercetta sull’asse delle ordinate. Può essere interpretato come il valore di Y quando è X=0 (se ha senso).
Y = b0+ b
1X + e
3
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneX: variabile indipendente (data)Y: variabile dipendente
b0 =Y −b1X
X
YE’ l’intercetta sull’asse delle ordinate. Può essere interpretato come il valore di Y quando è X=0 (se ha senso).Da questa espressione deriva, inoltre la seguente:
Y = b0 +b1Xche assicura che la retta di regressione passa sempre per il punto di coordinate Xmedio;Ymedio. (baricentro della nube).
X
Y
Y = b0+ b
1X + e
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneX: variabile indipendente (data)Y: variabile dipendente
b0 =Y −b1X
X
YE’ l’intercetta sull’asse delle ordinate. Può essere interpretato come il valore di Y quando è X=0 (se ha senso).Da questa espressione deriva, inoltre la seguente:
Y = b0 +b1Xche assicura che la retta di regressione passa sempre per il punto di coordinate Xmedio;Ymedio. (baricentro della nube).
X
Y
b1 =Cov XY( )Var X( )
E’ il coefficiente angolare della retta di regressione in quanto funzione dell’angolo che la retta forma con l’asse delle ascisse. Esprime dunque la pendenza (positiva, negativa o nulla) della retta, e anche quanto varia la variabile Y al variare unitario della variabile X (variazione marginale).
Y = b0+ b
1X + e
4
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
b0 =Y −b1X b1 =Cov XY( )Var X( )
La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..
App. mq(X)
Prezzo in €(Y)
1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333
10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667
1.965 6.215.000 0,0 0,0 115.270.000
X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )
Media 131,0 414.333,3Sqm 54,4 197.061,0Cov
b1ccccc b0ccccc
7.684.666,72.592,774.693,9
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
b0 =Y −b1X b1 =Cov XY( )Var X( )
La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..
App. mq(X)
Prezzo in €(Y)
1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333
10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667
1.965 6.215.000 0,0 0,0 115.270.000
X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )
Cov XY( ) =xi − µX( ) ⋅ yi − µY( )
i∑
n= 115.270.000
15= 7.684.666,7
Media 131,0 414.333,3Sqm 54,4 197.061,0Cov
b1ccccc b0ccccc
7.684.666,72.592,774.693,9
5
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
b0 =Y −b1X b1 =Cov XY( )Var X( )
La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..
App. mq(X)
Prezzo in €(Y)
1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333
10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667
1.965 6.215.000 0,0 0,0 115.270.000
X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )
Media 131,0 414.333,3Sqm 54,4 197.061,0Cov
b1ccccc b0ccccc
7.684.666,72.592,774.693,9
b1 =σ XY
σ X2 = 7.684.666,7
54,44( )2= 2.592,7
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
b0 =Y −b1X b1 =Cov XY( )Var X( )
La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..
App. mq(X)
Prezzo in €(Y)
1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333
10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667
1.965 6.215.000 0,0 0,0 115.270.000
X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )
Media 131,0 414.333,3Sqm 54,4 197.061,0Cov
b1ccccc b0ccccc
7.684.666,72.592,774.693,9
Qual è il significato di questo valore?
b1 =σ XY
σ X2 = 2.592,7
6
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
b0 =Y −b1X b1 =Cov XY( )Var X( )
La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..
App. mq(X)
Prezzo in €(Y)
1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333
10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667
1.965 6.215.000 0,0 0,0 115.270.000
X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )
Media 131,0 414.333,3Sqm 54,4 197.061,0Cov
b1ccccc b0ccccc
7.684.666,72.592,774.693,9
b0 =Y −b1X = 414.333,3− 2.592,668 ×131,0( ) = 74.693,8
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
b0 =Y −b1X b1 =Cov XY( )Var X( )
La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..
App. mq(X)
Prezzo in €(Y)
1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333
10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667
1.965 6.215.000 0,0 0,0 115.270.000
X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )
Media 131,0 414.333,3Sqm 54,4 197.061,0Cov
b1ccccc b0ccccc
7.684.666,72.592,774.693,9
b0 =Y −b1X = 74.693,8 Qual è il significato di questo valore?
7
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La RegressioneInterpretazione e valutazione dei risultati
b0 = 74.693,8 b1 = 2.592,7
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
Y = b0+ b
1X
= 74.693,8 + 2.592,7X
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpretazione e valutazione dei risultati
Y = b0 +b1X = 74.693,8 + 2.592,7X
282.000
593.227554.337
437.667
8
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpretazione e valutazione dei risultati
Y = b0 +b1X = 74.693,8 + 2.592,7X
Y = 74.693,8 + 2.592,7X
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpretazione e valutazione dei risultati
Y = b0 +b1X = 74.693,8 + 2.592,7X
Y = 74.693,8 + 2.592,7X
74.693
Baricentro (131mq;414.333€)
9
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpolazione ed estrapolazione
Y = b0 +b1X = 74.693,8 + 2.592,7X
Qual è il prezzo previsto di un appartamento di 160mq?
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpolazione ed estrapolazione
Y = b0 +b1X = 74.693,8 + 2.592,7 ×160
Qual è il prezzo previsto di un appartamento di 160mq?
10
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpolazione ed estrapolazione
Y = b0 +b1X→ 489.525,8€ Prezzo previsto di un appartamento di 160mq
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpolazione ed estrapolazione
Qual è il prezzo previsto di un appartamento di 260mq?
Y = b0 +b1X = 74.693,8 + 2.592,7X
11
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
La Regressione
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4
10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0
1.965 6.215.000 6.215.000,0 0,0
Y Y - Y
b0 = 74.693,8 b1 = 2.592,7
Interpolazione ed estrapolazione
Qual è il prezzo previsto di un appartamento di 260mq?
Se il valore della X è esterno all’intervallo dei valori considerati, il valore della Y non può essere previsto applicando la funzione di regressione. In questo caso si tratterebbe di “estrapolazione” e non di “interpolazione”.
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneValutazione dell’adattamento
YSe consideriamo la sola variabile Y, la previsione più attendibile è data dalla media;
L’errore complessivo di previsione sarà dato dalla somma delle distanze tra i valori della Y e i valori teorici (che coincidono, in questo caso, con il valore medio);
Tale errore è dunque pari alla devianza di Y.
Dev Y( ) = Yi −Y( )2i∑
12
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneValutazione dell’adattamento
YSe consideriamo la sola variabile Y, la previsione più attendibile è data dalla media;
L’errore complessivo di previsione sarà dato dalla somma delle distanze tra i valori della Y e i valori teorici (che coincidono, in questo caso, con il valore medio);
Tale errore è dunque pari alla devianza di Y.
Dev Y( ) = Yi −Y( )2i∑
Consideriamo ora il generico punto Yi. Yi −Y( )2Questo partecipa all’errore complessivo con la quantità:
Con l’obiettivo di ridurre l’errore di previsione, consideriamo ora la variabile X (la Superficie in mq). La retta interpolante si dispone nella direzione di “allungamento” della nube di punti, facendo “perno” sul baricentro della nube, il punto medio, per il quale le retta di regressione deve passare;
Y = b0 +b1X
Yi −Y( )2
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneValutazione dell’adattamento
YConsideriamo ancora il punto Yi:Una parte dell’errore precedente viene ora “rimossa” dalla retta di regressione, poiché il valore “teorico” della Y calcolato con la retta di regressione risulta ora più vicino al valore Yi osservato.
Y = b0 +b1X
Yi −Y( )2
Più precisamente, la parte di errore rimossa o “spiegata” dalla regressione è data dalla quantità:
Yi −Y( )2
Yi −Y( )2
D’altra parte, esiste una parte di errore “residua”, che rimane anche dopo la costruzione della retta di regressione, ossia quella parte di errore che non viene spiegata dall’osservazione della variabile X;
Questa parte di errore è data dalla quantità: Yi −Yi( )2
Yi −Yi( )2
13
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneL’indice R2
Estendendo questo ragionamento a tutti i punti, una misura della bontà dell’adattamento della retta ai dati può allora essere data dal rapporto tra la devianza spiegata e la devianza totale, valore compreso tra zero e uno (è un rapporto di una parte al suo totale) e che prende il nome di coefficiente di determinazione R2.
R 2 =Dev Y( )Dev Y( ) =
Yi −Y( )2i∑
Yi −Y( )2i∑
0 ≤R 2 ≤1( )Quando è R2=0, la devianza spiegata è pari a zero. Questo vuol dire che l’osservazione della variabile X non ha aggiunto nulla a quanto già si sapeva dalla sola osservazione della Y. Dal punto di vista geometrico, la retta di regressione coincide con la retta M(Y); dal punto di vista interpretativo, le variabili X e Y sono incorrelate;
Quando è R2=1, la devianza spiegata è uguale alla devianza totale. Questo vuol dire che l’osservazione della variabile X spiega perfettamente la variabile Y, e ne rende possibile la previsione senza possibilità di errore. Dal punto di vista geometrico, tutti i punti sono allineati e la retta di regressione passa per tutti i punti (siamo quindi nel caso di una dipendenza funzionale, deterministica, esatta); dal punto di vista interpretativo, le variabili X e Y sono massimamente correlate (in senso diretto o inverso).
Quando è 0≤R2 ≤1, la devianza spiegata è pari a una quota della devianza totale. L’osservazione della variabile X migliora quindi la previsione della variabile Y, con una quota di errore residua dovuta in parte alle variabili non osservate, in parte alla sempre presente quota di imponderabilità dei fenomeni osservati.
Y
Y = b0 +b1X
Yi −Y( )2Yi −Y( )2
Yi −Yi( )2
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneY
Y = b0 +b1X
Yi −Y( )2Yi −Y( )2
Yi −Yi( )2
App. mq(X)
Prezzo in €(Y)
1 80 212.000 282.107,3 -202.333,3 -132.226,0 -70.107,32 200 313.000 593.227,4 -101.333,3 178.894,1 -280.227,43 185 717.000 554.337,4 302.666,7 140.004,0 162.662,64 140 431.000 437.667,3 16.666,7 23.334,0 -6.667,35 95 270.000 320.997,3 -144.333,3 -93.336,0 -50.997,36 60 261.000 230.253,9 -153.333,3 -184.079,4 30.746,17 210 431.000 619.154,1 16.666,7 204.820,7 -188.154,18 65 140.000 243.217,3 -274.333,3 -171.116,1 -103.217,39 70 282.000 256.180,6 -132.333,3 -158.152,7 25.819,4
10 120 600.000 385.814,0 185.666,7 -28.519,3 214.186,011 100 303.000 333.960,6 -111.333,3 -80.372,7 -30.960,612 90 220.000 308.034,0 -194.333,3 -106.299,4 -88.034,013 180 749.000 541.374,0 334.666,7 127.040,7 207.626,014 220 663.000 645.080,7 248.666,7 230.747,4 17.919,315 150 623.000 463.594,0 208.666,7 49.260,7 159.406,0
1.965 6.215.000 6.215.000,0 0,0 0,0 0,0
Y Y -Y Y -Y Y − Y
14
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneApp. mq
(X)Prezzo in €
(Y)
1 80 212.000 282.107,3 -202.333,3 -132.226,0 -70.107,32 200 313.000 593.227,4 -101.333,3 178.894,1 -280.227,43 185 717.000 554.337,4 302.666,7 140.004,0 162.662,64 140 431.000 437.667,3 16.666,7 23.334,0 -6.667,35 95 270.000 320.997,3 -144.333,3 -93.336,0 -50.997,36 60 261.000 230.253,9 -153.333,3 -184.079,4 30.746,17 210 431.000 619.154,1 16.666,7 204.820,7 -188.154,18 65 140.000 243.217,3 -274.333,3 -171.116,1 -103.217,39 70 282.000 256.180,6 -132.333,3 -158.152,7 25.819,4
10 120 600.000 385.814,0 185.666,7 -28.519,3 214.186,011 100 303.000 333.960,6 -111.333,3 -80.372,7 -30.960,612 90 220.000 308.034,0 -194.333,3 -106.299,4 -88.034,013 180 749.000 541.374,0 334.666,7 127.040,7 207.626,014 220 663.000 645.080,7 248.666,7 230.747,4 17.919,315 150 623.000 463.594,0 208.666,7 49.260,7 159.406,0
1.965 6.215.000 6.215.000,0 0,0 0,0 0,0
Y Y -Y Y -Y Y − Y
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La RegressioneApp. mq
(X)Prezzo in €
(Y)
1 80 212.000 282.107,3 40.938.777.777,8 17.483.727.210,1 4.915.031.753,52 200 313.000 593.227,4 10.268.444.444,4 32.003.085.446,9 78.527.393.139,23 185 717.000 554.337,4 91.607.111.111,1 19.601.133.619,6 26.459.127.321,84 140 431.000 437.667,3 277.777.777,8 544.475.933,9 44.453.441,85 95 270.000 320.997,3 20.832.111.111,1 8.711.614.942,1 2.600.724.703,66 60 261.000 230.253,9 23.511.111.111,1 33.885.224.477,6 945.320.444,07 210 431.000 619.154,1 277.777.777,8 41.951.534.609,1 35.401.954.462,18 65 140.000 243.217,3 75.258.777.777,8 29.280.705.777,5 10.653.805.642,59 70 282.000 256.180,6 17.512.111.111,1 25.012.283.332,9 666.640.807,8
10 120 600.000 385.814,0 34.472.111.111,1 813.352.938,3 45.875.646.835,411 100 303.000 333.960,6 12.395.111.111,1 6.459.770.030,3 958.561.153,412 90 220.000 308.034,0 37.765.444.444,4 11.299.556.109,3 7.749.978.661,413 180 749.000 541.374,0 112.001.777.777,8 16.139.342.188,2 43.108.537.569,814 220 663.000 645.080,7 61.835.111.111,1 53.244.368.793,2 321.099.637,415 150 623.000 463.594,0 43.541.777.777,8 2.426.614.964,6 25.410.267.386,2
1.965 6.215.000 6.215.000,0 582.495.333.333,3 298.856.790.373,4 283.638.542.960,0
Y Y -Y( )2 Y -Y( )2 Y − Y( )2
Dev Y( ) = Yi −Y( )2i∑ = 582.495.333.333
Dev Y( ) = Yi −Y( )2
i∑ = 298.856.790.373
Dev e( ) = Yi −Y( )2
i∑ = 283.638.542.960
= 298.856.790.373
582.495.333.333
R2 =Dev Y( )Dev Y( )
= 0,513
15
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione: l’interpretazione dei risultati
Ancora una volta, questo risultato deve costituire un punto di partenza per l’interpretazione e per eventuali riflessioni. Ad esempio, il valore dell’indice sembra particolarmente basso, comunque inferiore a quanto sarebbe probabilmente legittimo aspettarsi dalla relazione tra queste due variabili.Ferma restando la correttezza dei dati (che va sempre verificata), occorre dunque fare qualche riflessione per migliorare il risultato.
App. mq(X)
Prezzo in €(Y)
1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333
10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667
1.965 6.215.000 0,0 0,0 115.270.000
X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )
300250200150100500
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
15
14
13
12
11
10
9
8
7
6 5
4
3
2
1
Y = 74.693,8 + 2.592,7X R2 = 0,513
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
App.mq(X)
Prezzo in €(Y)
1 80 212.000 282.107 40.938.777.778 17.483.727.210 4.915.031.754
2 200 313.000 593.227 10.268.444.444 32.003.085.447 78.527.393.139
3 185 717.000 554.337 91.607.111.111 19.601.133.620 26.459.127.322
4 140 431.000 437.667 277.777.778 544.475.934 44.453.442
5 95 270.000 320.997 20.832.111.111 8.711.614.942 2.600.724.704
6 60 261.000 230.254 23.511.111.111 33.885.224.478 945.320.444
7 210 431.000 619.154 277.777.778 41.951.534.609 35.401.954.462
8 65 140.000 243.217 75.258.777.778 29.280.705.777 10.653.805.643
9 70 282.000 256.181 17.512.111.111 25.012.283.333 666.640.808
10 120 600.000 385.814 34.472.111.111 813.352.938 45.875.646.835
11 100 303.000 333.961 12.395.111.111 6.459.770.030 958.561.153
12 90 220.000 308.034 37.765.444.444 11.299.556.109 7.749.978.661
13 180 749.000 541.374 112.001.777.778 16.139.342.188 43.108.537.570
14 220 663.000 645.081 61.835.111.111 53.244.368.793 321.099.637
15 150 623.000 463.594 43.541.777.778 2.426.614.965 25.410.267.386
1.965 6.215.000 6.215.000 582.495.333.333 298.856.790.373 283.638.542.960Proviamo allora a dividere le osservazioni in due gruppi, gli appartamenti fino a 150 mq, che costituiscono un gruppo con un comportamento più omogeneo rispetto alla variabile Prezzo, e gli appartamenti oltre i 150 mq che, invece, risultano molto più dispersi.
R2 = 0,513
La Regressione: l’interpretazione dei risultati
16
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Gru
ppo1
Fino
a 1
50 m
q
App. mq(X)
Prezzo(Y)
1 80 212.000
4 140 431.000
5 95 270.000
6 60 261.000
8 65 140.000
9 70 282.000
10 120 600.000
11 100 303.000
12 90 220.000
15 150 623.000
2 200 313.000
3 185 717.000
7 210 431.000
13 180 749.000
14 220 663.000
La Regressione: l’interpretazione dei risultati
Gru
ppo2
Oltr
e 15
0 m
q
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione: l’interpretazione dei risultati
Come ci aspettavamo, limitando l’analisi agli appartamenti più piccoli, la regressione fornisce risultati molto più soddisfacenti. E’ probabile che, per gli appartamenti più grandi, altre variabili, oltre alla Superficie, influiscano sul Prezzo (che addirittura sembra diminuire all’aumentare della superficie); mettere insieme i due gruppi aveva, in un certo senso, “inquinato” i dati, producendo risultati insoddisfacenti.
Gru
ppo1
Fino
a 1
50 mq!
App. mq(X)
Prezzo(Y)
1 80 212.000
4 140 431.000
5 95 270.000
6 60 261.000
8 65 140.000
9 70 282.000
10 120 600.000
11 100 303.000
12 90 220.000
15 150 623.000
2 200 313.000
3 185 717.000
7 210 431.000
13 180 749.000
14 220 663.000
Gru
ppo2
Oltr
e 15
0 mq!
Y Gruppo1( ) = −100.687,1+ 4.483,4X
=2 0,718R
17
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Il responsabile di un negozio operante nel settore dell’home entertainment ipotizza l’esistenza di una relazione tra gli incassi realizzati ai botteghini e quelli derivanti dalla vendita di DVD.Considerando i seguenti 10 film (stagione 2004-’05), si valuti l’ipotesi del responsabile determinando:• Il diagramma di dispersione• la retta di regressione e l’indice di determinazione lineare
Film Incasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
Closer 5.611,4 42.340,1Birth - Io sono Sean 3.933,8 25.420,2Saw 5.161,9 34.475,7The Aviator 5.874,6 40.150,1Neverland - Un sogno per la vita 5.856,7 45.063,8Il mercante di Venezia 3.845,5 20.419,9Million dollar baby 5.643,5 36.129,3Shark tale 7.655,2 57.472,3Constantine 5.044,2 25.334,4Cuore sacro 2.915,4 18.279,8
La RegressioneEsercizio 1:
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
Y = b0 +b1X ; b0 =Y −b1X ; b1 =Cov XY( )Var X( )
R 2 = Dev (Y )Dev Y( ) =
Yi −Y( )2
i∑
Yi −Y( )2
i∑
Il responsabile di un negozio operante nel settore dell’home entertainment ipotizza l’esistenza di una relazione tra gli incassi realizzati ai botteghini e quelli derivanti dalla vendita di DVD.Considerando i seguenti 10 film (stagione 2004-’05), si valuti l’ipotesi del responsabile determinando:• Il diagramma di dispersione• la retta di regressione e l’indice di determinazione lineare
La RegressioneEsercizio 1:
18
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
19
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
M X( ) = 110
Xii=1
10
∑ = 51.542,410
= 5.154,2
M Y( ) = 110
Yii=1
10
∑ = 345.085,610
= 34.508,6
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
M X( ) = 110
Xii=1
10
∑ = 51.542,410
= 5.154,2
M Y( ) = 110
Yii=1
10
∑ = 345.085,610
= 34.508,6
20
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
Var X( ) =M X 2( )− M X( )⎡⎣ ⎤⎦2
= 281.603.795,710
− 5.154,2( )2
= 1.594.189,6
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
Var Y( ) =M Y 2( )− M Y( )⎡⎣ ⎤⎦2
= 13.271.566.094,610
− 34.508,6( )2
= 136.315.896,2
21
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
22
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
Cov XY( ) =M XY( )− M Y( ) ⋅M Y( )⎡⎣ ⎤⎦
= 1.918.808.213,510
⋅ 5.154,2 × 34.508,6( )
= 14.015.421,1
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
Cov XY( ) =M XY( )− M Y( ) ⋅M Y( )⎡⎣ ⎤⎦
= 1.918.808.213,510
⋅ 5.154,2 × 34.508,6( )
= 14.015.421,1
23
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,11,08,8
-10.805,30,9
rXY =Cov XY( )σ X ⋅σY
= 14.015.421,1⋅1.262,6 ×11.675,4
= 0,951
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
rXY =Cov XY( )σ X ⋅σY
= 14.015.421,1⋅1.262,6 ×11.675,4
= 0,951
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,10,9518,792
-10.805,30,904
24
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
b1 =Cov XY( )
σ X2 = 14.015.421,1⋅
1.262,6( )2= 8,792
X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,10,9518,792
-10.805,30,904
b0 =Y −b1X
= 34.508,6 − 8,792 ⋅5.154,2 = -10.805,3
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
Y = -10.805,3+ 8,792XX Y
Media 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,10,9518,792
-10.805,30,904
25
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
R 2 = r( )2 = 0,951( )2 = 0,904X Y
Media 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,10,9518,792
-10.805,30,904
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
FilmIncasso al botteghino( € x 1000 )
Incasso vendite DVD( € )
X2 Y2 XY
Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4
51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5
La RegressioneEsercizio 1:
R 2 = r( )2 = 0,951( )2 = 0,904X Y
Media 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2
14.015.421,10,9518,792
-10.805,30,904
26
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
300 studentiX: Esame di matematica:
Y: Esame di statistica:
Qual è il voto previsto all’esame di statistica per uno studente che ha avuto 25 all’esame di matematica?
y = b0 +b1x b1 =Cov XY( )Var X( ) b0 = y −b1x
per X=25 y = 11,27 + 0,646 ⋅25 = 27,42
r = σ XY
σ X ⋅σY
⇒ σ XY = r ⋅σ X ⋅σY = 0,78×2,9×2,4 = 5,4288
μX=24,2 σX=2,9
μY=26,9 σY=2,4r(XY)=0,78
b0 = y −b1x b1 =
Cov XY( )Var X( ) = 5,4288
8,41= 0,646
y = b0 +b1x = 11,27 + 0,646x
= 26,9-0,646×24,2 = 11,27
La RegressioneEsercizio 2:
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione multipla
27
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
I dati
Unità
Variabile di risposta (dipendente)
Variabili esplicative (indipendenti)
X1 X2 … Xk Y
1 x11 x12 x1k y1
2 x21 x22 x2k y2
:i xi1 xi2 xik yi
:
n xn1 xn2 xnk yn
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Semestre• Vendite totali del mercato (MM di euro)
• Investimenti pubblicitari del Settore (M di euro)• Prezzo
• Spese di vendita (M di euro)
• Budget di ricerca (M di euro)
• Investimenti (M di euro)
• Spese pubblicitarie (M di euro)• Totale vendite (M di euro)
Dati relativi all’intero Settore
Dati relativi alla nostra azienda
I dati
La Regressione multipla
28
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
SEM.
Vendite totale
mercato(€×MM)
Investimenti pubblicitari del settore
(€×M)
PrezzoSconti ai rivendit.
(€×M)
Spese di vendita(€×M)
Budget Ricerca(€×M)
Investimenti(€×M)
Pubblicità(€×M)
Totale vendite(€×M)
1 398 98 56 138 229 12 50 77 5540
2 369 225 59 118 177 9 17 89 5439
3 268 263 57 129 166 29 89 51 4290
4 484 321 58 111 258 13 107 40 5502
5 394 407 59 146 209 13 143 52 4872
6 332 247 60 140 180 11 61 21 4708
7 336 328 60 136 213 25 -30 40 4627
8 383 298 60 104 201 21 -45 32 4110
9 285 218 63 105 176 8 -28 12 4123
10 277 410 62 135 175 11 76 68 4842
11 456 93 65 128 253 22 144 52 5741
12 355 307 65 131 208 24 113 77 5094
13 364 107 64 120 195 14 128 96 5383
14 320 305 66 147 154 15 10 48 4888
15 311 60 67 143 181 22 -25 27 4033
16 362 239 67 145 220 23 117 73 4942
17 408 141 66 131 235 13 120 62 5313
: : : : : : : : : :
PROX 500 200 83 100 300 30 50 90 ?
Dati relativiall’intero Mercato Dati relativi alla nostra aziendaI dati
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Le vendite
La Regressione multipla
29
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
1 variabile di risposta:
Qual è il valore previsto per le vendite?
Y = Totale venditeX1, …, X8
Supponiamo che per il prossimo semestre i vostri esperti prevedano il seguente scenario:
8 variabili esplicative:
• Vendite totali del mercato ………………………………..• Investimenti pubblicitari del Settore …………………….• Prezzo ……………………………………………………..• Sconti ai rivenditori ………………………………………..• Spese di vendita ………………………………………….• Budget di ricerca …………………………………………..• Investimenti ………………………………………………..• Spese pubblicitarie ………………………………………..
500 MM €200 M €83 €
300 M €30 M €50 M €90 M €?• Totale vendite ……………………………………………..
100 M €
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
SEM.
Vendite totale
mercato(€×MM)
Investimenti pubblicitari del settore
(€×M)
PrezzoSconti ai rivendit.
(€×M)
Spese di vendita(€×M)
Budget Ricerca(€×M)
Investimenti(€×M)
Pubblicità(€×M)
Totale vendite(€×M)
1 398 98 56 138 229 12 50 77 5540
2 369 225 59 118 177 9 17 89 5439
3 268 263 57 129 166 29 89 51 4290
4 484 321 58 111 258 13 107 40 5502
5 394 407 59 146 209 13 143 52 4872
6 332 247 60 140 180 11 61 21 4708
7 336 328 60 136 213 25 -30 40 4627
8 383 298 60 104 201 21 -45 32 4110
9 285 218 63 105 176 8 -28 12 4123
10 277 410 62 135 175 11 76 68 4842
11 456 93 65 128 253 22 144 52 5741
12 355 307 65 131 208 24 113 77 5094
13 364 107 64 120 195 14 128 96 5383
14 320 305 66 147 154 15 10 48 4888
15 311 60 67 143 181 22 -25 27 4033
16 362 239 67 145 220 23 117 73 4942
17 408 141 66 131 235 13 120 62 5313
: : : : : : : : : :
NEXT 500 200 83 100 300 30 50 90 ?
SEM.
Vendite totale
mercato(€×MM)
Investimenti pubblicitari del settore
(€×M)
PrezzoSconti ai rivendit.
(€×M)
Spese di vendita(€×M)
Budget Ricerca(€×M)
Investimenti(€×M)
Pubblicità(€×M)
Totale vendite(€×M)
1 398 98 56 138 229 12 50 77 5540
2 369 225 59 118 177 9 17 89 5439
3 268 263 57 129 166 29 89 51 4290
4 484 321 58 111 258 13 107 40 5502
5 394 407 59 146 209 13 143 52 4872
6 332 247 60 140 180 11 61 21 4708
7 336 328 60 136 213 25 -30 40 4627
8 383 298 60 104 201 21 -45 32 4110
9 285 218 63 105 176 8 -28 12 4123
10 277 410 62 135 175 11 76 68 4842
11 456 93 65 128 253 22 144 52 5741
12 355 307 65 131 208 24 113 77 5094
13 364 107 64 120 195 14 128 96 5383
14 320 305 66 147 154 15 10 48 4888
15 311 60 67 143 181 22 -25 27 4033
16 362 239 67 145 220 23 117 73 4942
17 408 141 66 131 235 13 120 62 5313
: : : : : : : : : :
NEXT 500 200 83 100 300 30 50 90 ?
I dati
La Regressione multipla
30
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La matrice di correlazione
Correlazioni
1-,031 1,575 -,189 1-,135 -,118 -,075 1,200 -,136 ,486 -,061 1,137 -,122 -,060 -,082 ,150 1,232 -,202 ,294 -,174 ,140 ,233 1,907 -,034 ,650 -,126 ,395 ,206 ,172 1,721 -,096 ,287 -,084 ,084 ,453 ,568 ,637 1
VESEINSEPREZRIVERICEINVEPUBBSPESVEND
VESE INSE PREZ RIVE RICE INVE PUBB SPES VEND
Sconti riv. R&S Tot. Inv. Vendite Settore
Invest. Settore Prezzo Pubbl. Spese Vendite
?
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La matrice di correlazione
Qual è il modello migliore con un solo predittore?
Correlazioni
1-,031 1,575 -,189 1-,135 -,118 -,075 1,200 -,136 ,486 -,061 1,137 -,122 -,060 -,082 ,150 1,232 -,202 ,294 -,174 ,140 ,233 1,907 -,034 ,650 -,126 ,395 ,206 ,172 1,721 -,096 ,287 -,084 ,084 ,453 ,568 ,637 1
VESEINSEPREZRIVERICEINVEPUBBSPESVEND
VESE INSE PREZ RIVE RICE INVE PUBB SPES VEND
Sconti riv. R&S Tot. Inv. Vendite Settore
Invest. Settore Prezzo Pubbl. Spese Vendite
La Regressione multipla
31
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Qual è il modello migliore con un solo predittore?
Y = β0 + β1Xi
Regressione semplice
300 400 500 600
Vendite totali (MM €)
4000
4500
5000
5500
6000
6500
Vend
ite (M
€)
Vendite nostre
Vendite Settore
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
= 2.956,89+ 5,268 ×TotVendi
Coefficientia
2956,9 347,907 8,499 ,000
5,268 ,844 ,721 6,240 ,000
(Costante)Vendite totali(MM €)
Modello1
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
Riepilogo del modello
,721a ,520 ,506 361,793Modello1
R R-quadratoR-quadrato
correttoErrore std.della stima
Stimatori: (Costante), Vendite totali (MM €)a.
Y = β0 + β1Xi
Regressione semplice
Qual è il modello migliore con un solo predittore?
La Regressione multipla
32
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi
Qual è il modello migliore con un solo predittore?
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
(R2=0,52)
Valori osservati
Valori previsti
Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi
Qual è il modello migliore con un solo predittore?
La Regressione multipla
33
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Analisi dei residui
300 400 500 600
Vendite totali (MM €)
-2,00
-1,00
0,00
1,00
2,00
Resi
dui s
tand
. (Re
g. s
empl
.)
• Ipotesi di omoschedasticità
Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi
Qual è il modello migliore con un solo predittore?
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37
Semestre
-2,00
-1,00
0,00
1,00
2,00
Resi
dui s
tand
. (Re
g. s
empl
.)
Analisi dei residui
• Ipotesi di indipendenza
Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi
Qual è il modello migliore con un solo predittore?
La Regressione multipla
34
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i
• Stima dei coefficienti b0, b1, … , bk :
• Stima della deviazione standard dei residui e
• Misura della relazione tra la variabile Y e le variabili X1, …, Xk
• Analisi dei residui
OLS
σ
R 2
yi − y i( )i=1
n
∑2
= ei2
i=1
n
∑ =min
I passi:
Qual è il modello migliore con più predittori?
La Regressione multipla
Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
I risultati Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε iCoefficientia
2962,2 633,755 4,674 ,0004,405 1,577 ,608 2,793 ,009
,014 ,397 ,003 ,036 ,972-15,078 8,223 -,230 -1,834 ,077
3,453 3,099 ,093 1,114 ,274-4,878 6,508 -,077 -,750 ,4602,017 ,769 ,242 2,622 ,0148,606 1,808 ,439 4,761 ,0001,725 2,749 ,152 ,627 ,535
(Costante)Vendite totali (MM €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)
Modello1
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a. Riepilogo del modellob
,902a ,813 ,762 251,200Modello1
R R-quadratoR-quadrato
correttoErrore std.della stima
Stimatori: (Costante), Spese per Vendite (M €), Investimentipubbl. Settore (M €), Sconti ai rivenditori (M e), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)
a.
Variabile dipendente: Vendite (M €)b.
ANOVAb
7978265 8 997283 15,804 ,000a
1829938 29 631019808203 37
RegressioneResiduoTotale
Modello1
Somma deiquadrati df
Media deiquadrati F Sig.
Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl. Settore (M €),Sconti ai rivenditori (M e), Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €),Prezzo (€), Vendite totali (MM €)
a.
Variabile dipendente: Vendite (M €)b.
Riepilogo del modello
Anova
Regressione multipla!
La Regressione multipla
35
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i
Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES
H0 : β1 = … = βk = 0H1 : Almeno un βj diverso da 0
Test
F k ,n−k−1( ) =R 2
k1−R 2( )
n − k +1( )⎡⎣ ⎤⎦
Statistica di rif.
= MSRegMSRes
ANOVAb
7978265 8 997283 15,804 ,000a
1829938 29 631019808203 37
RegressioneResiduoTotale
Modello1
Somma deiquadrati df
Media deiquadrati F Sig.
Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl. Settore (M €),Sconti ai rivenditori (M e), Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €),Prezzo (€), Vendite totali (MM €)
a.
Variabile dipendente: Vendite (M €)b.
L’Anova nella Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Riepilogo del modellob
,902a ,813 ,762 251,200Modello1
R R-quadratoR-quadrato
correttoErrore std.della stima
Stimatori: (Costante), Spese per Vendite (M €), Investimentipubbl. Settore (M €), Sconti ai rivenditori (M e), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)
a.
Variabile dipendente: Vendite (M €)b.
Riepilogo del modello
,721a ,520 ,506 361,793Modello1
R R-quadratoR-quadrato
correttoErrore std.della stima
Stimatori: (Costante), Vendite totali (MM €)a.
R2 nella Regressione multipla
R2 nella Regressione semplice
La valutazione del modello
Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i
Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES
36
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Ra2 = 1− 1−R 2( ) ⋅ n −1
n − k −1
F Il coefficiente R2 è una funzione non-decrescente del numero di variabili esplicative;
F Nel confrontare due modelli con la stessa variabile dipendente ma con un diverso numero di variabili esplicative, dobbiamo sempre considerare il numero di variabili esplicative Xj;
F E’ buona norma utilizzare l’R2 modificato piuttosto che l’R2 perché quest’ultimo tende a dare una misura eccessivamente ottimistica dell’adattamento, in particolare quando il numero di variabili esplicative non è piccolo rispetto al numero di osservazioni.
Riepilogo del modellob
,902a ,813 ,762 251,200Modello1
R R-quadratoR-quadrato
correttoErrore std.della stima
Stimatori: (Costante), Spese per Vendite (M €), Investimentipubbl. Settore (M €), Sconti ai rivenditori (M e), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)
a.
Variabile dipendente: Vendite (M €)b.
L’R2 corretto
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Semestre
4.000
4.500
5.000
5.500
6.000
Media
(R2=0,81)
Valori osservati
Valori previsti
Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i
Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES
La Regressione multipla
37
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
4000 4500 5000 5500 6000
Unstandardized Predicted Value
-2,0
-1,0
0,0
1,0
2,0
Stan
dard
ized
Resi
dual
Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i
Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES
La Regressione multipla
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Vendite totali del mercato ………………………………..• Investimenti pubblicitari del Settore …………………….• Prezzo ……………………………………………………..• Sconti ai rivenditori ………………………………………..• Spese di vendita ………………………………………….• Budget di ricerca …………………………………………..• Investimenti ………………………………………………..• Spese pubblicitarie ………………………………………..
500 MM €200 M €83 €
300 M €30 M €50 M €90 M €
?• Totale vendite ……………………………………………..
100 M €
3.444,0
4,4050,014
3,453-4,8782,0178,606
-15,078
1,725
biScenarioLa previsione:
Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i
Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES
La Regressione multipla
38
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Metodi Stepwise BackwardForward
a. Regressione Forward Stepwise1. Si parte dal modello di Regressione semplice, introducendo la variabile con il
più alto contributo marginale, |tj| max o r(y,xj)=max;
2. Si aggiunge la variabile che, con la prima, ha il più alto contributo marginale e si verifica la significatività complessiva del modello (ANOVA).
3. Ci si ferma quando, tra le varibili non ancora selezionate, nessuna ha un contributo marginale significativo.
Le procedure stepwise
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Coefficientia
2956,9 347,907 8,499 ,0005,268 ,844 ,721 6,240 ,000
2705,8 280,955 9,631 ,0004,624 ,683 ,633 6,766 ,0008,683 1,840 ,441 4,718 ,000
2730,0 248,808 10,972 ,0004,423 ,608 ,605 7,275 ,0007,492 1,669 ,381 4,487 ,0002,260 ,692 ,274 3,266 ,002
(Costante)Vendite totali (MM €)(Costante)Vendite totali (MM €)Pubblicità (M €)(Costante)Vendite totali (MM €)Pubblicità (M €)Investimenti (M €)
Modello1
2
3
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
yi = 2956.9+ 5.27VendTot
Variabili esclused
-,082a -,702 ,487 -,118 1,000-,156a -1,130 ,266 -,188 ,698-,034a -,288 ,775 -,049 ,995-,034a -,290 ,774 -,049 ,973,357a 3,499 ,001 ,509 ,979,441a 4,718 ,000 ,623 ,960
-,072a -,264 ,793 -,045 ,185,003b ,030 ,976 ,005 ,961
-,255b -2,452 ,019 -,388 ,676,013b ,141 ,888 ,024 ,984
-,067b -,719 ,477 -,122 ,968,274b 3,266 ,002 ,489 ,932,041b ,187 ,853 ,032 ,183,025c ,300 ,766 ,052 ,955
-,196c -2,027 ,051 -,333 ,646,030c ,363 ,719 ,063 ,980
-,102c -1,243 ,223 -,211 ,953-,110c -,558 ,581 -,097 ,173
Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Spese per Vendite (M €)
Modello1
2
3
Beta In t Sig.Correlazioni
parziali Tolleranza
Statistiche dicollinearità
Stimatori nel modello : (Costante), Vendite totali (MM €)a.
Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €)b.
Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.
Variabile dipendente: Vendite (M €)d.
Aggiungiamo Pubblicità
Le procedure forward stepwise
39
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Coefficientia
2956,9 347,907 8,499 ,0005,268 ,844 ,721 6,240 ,000
2705,8 280,955 9,631 ,0004,624 ,683 ,633 6,766 ,0008,683 1,840 ,441 4,718 ,000
2730,0 248,808 10,972 ,0004,423 ,608 ,605 7,275 ,0007,492 1,669 ,381 4,487 ,0002,260 ,692 ,274 3,266 ,002
(Costante)Vendite totali (MM €)(Costante)Vendite totali (MM €)Pubblicità (M €)(Costante)Vendite totali (MM €)Pubblicità (M €)Investimenti (M €)
Modello1
2
3
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
yi = 2705.80 + 4.62VendTot + 8.68PubblicANOVAd
6927737 2 3,E+06 42,089 ,000b
2880467 35 822999808203 377615692 3 3,E+06 39,366 ,000c
2192512 34 644869808203 37
RegressioneResiduoTotaleRegressioneResiduoTotale
Modello2
3
Somma deiquadrati df
Media deiquadrati F Sig.
Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €)b.
Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.
Variabile dipendente: Vendite (M €)d.
Variabili esclused
-,082a -,702 ,487 -,118 1,000-,156a -1,130 ,266 -,188 ,698-,034a -,288 ,775 -,049 ,995-,034a -,290 ,774 -,049 ,973,357a 3,499 ,001 ,509 ,979,441a 4,718 ,000 ,623 ,960
-,072a -,264 ,793 -,045 ,185,003b ,030 ,976 ,005 ,961
-,255b -2,452 ,019 -,388 ,676,013b ,141 ,888 ,024 ,984
-,067b -,719 ,477 -,122 ,968,274b 3,266 ,002 ,489 ,932,041b ,187 ,853 ,032 ,183,025c ,300 ,766 ,052 ,955
-,196c -2,027 ,051 -,333 ,646,030c ,363 ,719 ,063 ,980
-,102c -1,243 ,223 -,211 ,953-,110c -,558 ,581 -,097 ,173
Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Spese per Vendite (M €)
Modello1
2
3
Beta In t Sig.Correlazioni
parziali Tolleranza
Statistiche dicollinearità
Stimatori nel modello : (Costante), Vendite totali (MM €)a.
Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €)b.
Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.
Variabile dipendente: Vendite (M €)d.
Aggiungiamo Investimenti
Significatività del Modello
Le procedure forward stepwise
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Coefficientia
2956,9 347,907 8,499 ,0005,268 ,844 ,721 6,240 ,000
2705,8 280,955 9,631 ,0004,624 ,683 ,633 6,766 ,0008,683 1,840 ,441 4,718 ,000
2730,0 248,808 10,972 ,0004,423 ,608 ,605 7,275 ,0007,492 1,669 ,381 4,487 ,0002,260 ,692 ,274 3,266 ,002
(Costante)Vendite totali (MM €)(Costante)Vendite totali (MM €)Pubblicità (M €)(Costante)Vendite totali (MM €)Pubblicità (M €)Investimenti (M €)
Modello1
2
3
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
yi = 2730.0 + 4.42VendTot + 7.49Pubblic + 2.26Invest
Significatività del Modello
ANOVAd
6927737 2 3,E+06 42,089 ,000b
2880467 35 822999808203 377615692 3 3,E+06 39,366 ,000c
2192512 34 644869808203 37
RegressioneResiduoTotaleRegressioneResiduoTotale
Modello2
3
Somma deiquadrati df
Media deiquadrati F Sig.
Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €)b.
Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.
Variabile dipendente: Vendite (M €)d.
Le procedure forward stepwise
40
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Variabili esclused
-,082a -,702 ,487 -,118 1,000-,156a -1,130 ,266 -,188 ,698-,034a -,288 ,775 -,049 ,995-,034a -,290 ,774 -,049 ,973,357a 3,499 ,001 ,509 ,979,441a 4,718 ,000 ,623 ,960
-,072a -,264 ,793 -,045 ,185,003b ,030 ,976 ,005 ,961
-,255b -2,452 ,019 -,388 ,676,013b ,141 ,888 ,024 ,984
-,067b -,719 ,477 -,122 ,968,274b 3,266 ,002 ,489 ,932,041b ,187 ,853 ,032 ,183,025c ,300 ,766 ,052 ,955
-,196c -2,027 ,051 -,333 ,646,030c ,363 ,719 ,063 ,980
-,102c -1,243 ,223 -,211 ,953-,110c -,558 ,581 -,097 ,173
Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Spese per Vendite (M €)
Modello1
2
3
Beta In t Sig.Correlazioni
parziali Tolleranza
Statistiche dicollinearità
Stimatori nel modello : (Costante), Vendite totali (MM €)a.
Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €)b.
Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.
Variabile dipendente: Vendite (M €)d.
Nessuna variabile ha un livello di significatività <0,05
Ci fermiamo
Le procedure forward stepwise
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Il Modello finale:
yi = 2730.0 + 4.42VendTot + 7.49Pubblic + 2.26Invest
(criterio: Probability of F-to-enter >0.05)
Riepilogo del modellod
,721a ,520 ,506 361,793,840b ,706 ,690 286,878,881c ,776 ,757 253,940
Modello123
R R-quadratoR-quadrato
correttoErrore std.della stima
Stimatori: (Costante), Vendite totali (MM €)a.
Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €)b.
Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €),Investimenti (M €)
c.
Variabile dipendente: Vendite (M €)d.
Le procedure forward stepwise
41
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Metodi StepwiseBackward
Forward
b. Regressione Backward Stepwise
1. Si parte dal modello completo, con tutte le variabili;
Ad ogni passo rimuoviamo la variabile Xj con il più piccolo contributo marginale, |tj|=min, e sottoponiamo a test la significatività globale del modello (ANOVA).
2.
Ci fermiamo quando, tra le variabili nel modello, nessuna ha un contributo marginale non significativo (cioè, tutte hanno un contributo significativo).
3.
Le procedure stepwise
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Coefficientia
3129,2 641,355 4,879 ,0004,423 1,588 ,605 2,785 ,009-,022 ,401 -,005 -,054 ,958
-13,526 8,305 -,201 -1,629 ,1141,676 3,291 ,043 ,509 ,614
-3,410 6,569 -,054 -,519 ,6081,924 ,778 ,234 2,474 ,0198,547 1,826 ,434 4,679 ,0001,497 2,771 ,130 ,540 ,593
3115,6 579,517 5,376 ,0004,426 1,561 ,606 2,836 ,008
-13,445 8,029 -,200 -1,675 ,1041,706 3,191 ,044 ,535 ,597
-3,392 6,451 -,053 -,526 ,6031,931 ,756 ,234 2,554 ,0168,558 1,784 ,435 4,798 ,0001,482 2,710 ,129 ,547 ,588
3137,5 571,233 5,493 ,0004,756 1,412 ,651 3,368 ,002
-14,790 7,521 -,220 -1,966 ,0581,705 3,153 ,044 ,541 ,5931,885 ,742 ,229 2,539 ,0168,519 1,761 ,433 4,837 ,000
,950 2,484 ,082 ,382 ,7053084,0 546,374 5,645 ,000
5,222 ,704 ,714 7,415 ,000-13,467 6,589 -,200 -2,044 ,049
1,700 3,111 ,043 ,546 ,5891,984 ,686 ,241 2,893 ,0078,328 1,666 ,423 4,998 ,000
3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000
-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000
(Costante)Vendite totali (MM €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)
Modello1
2
3
4
5
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
Coefficientia
3115,6 579,517 5,376 ,0004,426 1,561 ,606 2,836 ,008
-13,445 8,029 -,200 -1,675 ,1041,706 3,191 ,044 ,535 ,597
-3,392 6,451 -,053 -,526 ,6031,931 ,756 ,234 2,554 ,0168,558 1,784 ,435 4,798 ,0001,482 2,710 ,129 ,547 ,588
(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)
Modello2
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
Modello 1
Modello 2
Le procedure backward stepwise
42
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Modello 3
Modello 4
Coefficientia
3137,5 571,233 5,493 ,0004,756 1,412 ,651 3,368 ,002
-14,790 7,521 -,220 -1,966 ,0581,705 3,153 ,044 ,541 ,5931,885 ,742 ,229 2,539 ,0168,519 1,761 ,433 4,837 ,000
,950 2,484 ,082 ,382 ,7053084,0 546,374 5,645 ,000
5,222 ,704 ,714 7,415 ,000-13,467 6,589 -,200 -2,044 ,049
1,700 3,111 ,043 ,546 ,5891,984 ,686 ,241 2,893 ,0078,328 1,666 ,423 4,998 ,000
3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000
-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000
(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)
Modello3
4
5
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
Coefficientia
3084,0 546,374 5,645 ,0005,222 ,704 ,714 7,415 ,000
-13,467 6,589 -,200 -2,044 ,0491,700 3,111 ,043 ,546 ,5891,984 ,686 ,241 2,893 ,0078,328 1,666 ,423 4,998 ,000
3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000
-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000
(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)
Modello4
5
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
Coefficientia
3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000
-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000
(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)
Modello5
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite (M €)a.
Modello 5Nessun coefficiente ha un liv. di significatività>0,10
Ci fermiamo
Le procedure backward stepwise
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Il modello finale
Yi = 3302.0 + 5.19VendTot −13.17Prez +1.97Inve + 8.23Pubb
(criterio: Probability of F-to-remove <0.10)
Riepilogo del modellof
,898a ,806 ,752 256,289,898b ,806 ,760 251,993,897c ,804 ,766 249,035,896d ,803 ,772 245,691,895e ,801 ,777 243,065
Modello12345
R R-quadratoR-quadrato
correttoErrore std. della
stima
Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl.Settore (M €), Sconti ai rivenditori (M e), Investimenti (M €), Pubblicità (M€), Budget Ricerca (M €), Prezzo (€), Vendite totali (MM €)
a.
Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M e),Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)
b.
Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M e),Investimenti (M €), Pubblicità (M €), Prezzo (€), Vendite totali (MM €)
c.
Stimatori: (Costante), Sconti ai rivenditori (M e), Investimenti (M €),Pubblicità (M €), Prezzo (€), Vendite totali (MM €)
d.
Stimatori: (Costante), Investimenti (M €), Pubblicità (M €), Prezzo (€),Vendite totali (MM €)
e.
Variabile dipendente: Vendite (M €)f.
ANOVAf
7903373 8 987922 15,041 ,000a
1904830 29 656849808203 377903184 7 1,E+06 17,780 ,000b
1905020 30 635019808203 377885628 6 1,E+06 21,192 ,000c
1922575 31 620199808203 377876558 5 2,E+06 26,097 ,000d
1931645 32 603649808203 377858540 4 2,E+06 33,253 ,000e
1949664 33 590819808203 37
RegressioneResiduoTotaleRegressioneResiduoTotaleRegressioneResiduoTotaleRegressioneResiduoTotaleRegressioneResiduoTotale
Modello1
2
3
4
5
Somma deiquadrati df
Media deiquadrati F Sig.
Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl. Settore (M €),Sconti ai rivenditori (M €), Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €),Prezzo (€), Vendite totali (MM €)
a.
Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M €), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€), Vendite totali (MM €)
b.
Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M €), Investimenti(M €), Pubblicità (M €), Prezzo (€), Vendite totali (MM €)
c.
Stimatori: (Costante), Sconti ai rivenditori (M €), Investimenti (M €), Pubblicità (M €),Prezzo (€), Vendite totali (MM €)
d.
Stimatori: (Costante), Investimenti (M €), Pubblicità (M €), Prezzo (€), Vendite totali (MM€)
e.
Variabile dipendente: Vendite (M €)f.
Le procedure backward stepwise
43
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
con ε i ~ N 0,σ 2( )
Un residuo è considerato “importante” se: ei >1.96 ×σ
Yi = β0 + β1X1i + β2X 2i +…+ βkXki + εi
e
95%
-1,96 σ 1,96 σ
2,5%2,5%
0
L’analisi dei residui
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
Standardized Residual
0
2
4
6
8
10
Freq
uenz
a
0 10 20 30 40
Semestre
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
Stan
dard
ized
Resi
dual
L’analisi dei residui
44
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Con il termine multicollinearità si intende una relazione lineare tra alcune o tutte le variabili esplicative;
• Il problema della multicollinearità riguarda la sua intensità e non la sua presenza; Non è tanto importante sapere se c’è o non c’è multicollinearità, ma quanto questa è forte;
• Quando la multicollinearità è molto alta, l’errore standard dei coefficienti di regressione aumenta in modo rilevante, con la conseguenza che le stime dei parametri incogniti risultano non più attendibili.
• Il principale effetto della multicollinearità è sull’errore standard degli stimatori dei parametri ; ( )jβ
La multicollinearità
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Y
X2X1 X2X1
Y
Y
X2X1
Assenza di collinearità
Bassa collinearità
Alta collinearità
La multicollinearità
45
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• R2 alto ma pochi valori t significativiQuando l’R2 è alto, es. R2 >0,8, il test F tenderà a rifiutare l’ipotesi che i coefficienti parziali sono tutti uguali a zero, anche se i t test sui singoli coefficienti mostrano che nessuno o pochissimi di questi sono significativamente diversi da zero.
• Forti correlazioni tra i regressoriUn’altra “rule of thumb” afferma che se il coeff. di correlazione tra due regressori è elevato, es. r>0,8, allora la multicollinearità può essere un serio problema. D’altra parte, non è detto che se i coeff. di correlazione sono bassi non ci possa essere comunque multicollinearità.
Calcoliamo, per ogni regressore Xj, l’R2 ottenuto ponendo quel regressore come variabile dipendente e tutti gli altri come variabili esplicative. Quanto più è alto l’R2 tanto più è alto il rischio di multicollinearità. Il livello di tolleranza è dato da 1-R2.Come regola generale, possiamo dire che un livello di tolleranza minore di 0,2 (cioè R2>0,8) indica un alto rischio di collinearità.
• Livello di tolleranza
• VIF (Variance Inflation Factor)Utilizzando la precedente regola, possiamo dire che un VIF>5 può essere considerato come un alto rischio di collinearità.
VIF = 1Tolerance
L’individuazione della multicollinearità
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Coefficientia
3129,2 641,355 4,879 ,0004,423 1,588 ,605 2,785 ,009 ,142 7,051-,022 ,401 -,005 -,054 ,958 ,882 1,133
-13,526 8,305 -,201 -1,629 ,114 ,439 2,2761,676 3,291 ,043 ,509 ,614 ,946 1,057
-3,410 6,569 -,054 -,519 ,608 ,630 1,5871,924 ,778 ,234 2,474 ,019 ,752 1,3308,547 1,826 ,434 4,679 ,000 ,778 1,2851,497 2,771 ,130 ,540 ,593 ,116 8,621
3115,6 579,517 5,376 ,0004,426 1,561 ,606 2,836 ,008 ,142 7,042
-13,445 8,029 -,200 -1,675 ,104 ,454 2,2011,706 3,191 ,044 ,535 ,597 ,973 1,028
-3,392 6,451 -,053 -,526 ,603 ,632 1,5831,931 ,756 ,234 2,554 ,016 ,769 1,3008,558 1,784 ,435 4,798 ,000 ,789 1,2681,482 2,710 ,129 ,547 ,588 ,117 8,529
3137,5 571,233 5,493 ,0004,756 1,412 ,651 3,368 ,002 ,169 5,905
-14,790 7,521 -,220 -1,966 ,058 ,506 1,9771,705 3,153 ,044 ,541 ,593 ,973 1,0281,885 ,742 ,229 2,539 ,016 ,779 1,2838,519 1,761 ,433 4,837 ,000 ,790 1,266
,950 2,484 ,082 ,382 ,705 ,136 7,3413084,0 546,374 5,645 ,000
5,222 ,704 ,714 7,415 ,000 ,663 1,508-13,467 6,589 -,200 -2,044 ,049 ,641 1,559
1,700 3,111 ,043 ,546 ,589 ,973 1,0281,984 ,686 ,241 2,893 ,007 ,889 1,1258,328 1,666 ,423 4,998 ,000 ,859 1,164
3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000 ,667 1,499
-13,172 6,497 -,196 -2,027 ,051 ,646 1,5491,968 ,678 ,239 2,903 ,007 ,890 1,1238,229 1,639 ,418 5,021 ,000 ,869 1,151
(Costante)Vendite totali (MM €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M €)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)
Modello1
2
3
4
5
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig. Tolleranza VIF
Statistiche dicollinearità
Variabile dipendente: Vendite (M €)a.
L’individuazione della multicollinearità
46
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione con variabili qualitative
Investimenti pubblicitari
Vendite
1 se Televisione 2 se Radio 3 se Giornali
Tipo di canale:
0 1 1Y X εβ β= + +
Vendite Investimenti pubblicitari
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione con variabili qualitative
Investimenti pubblicitari
Vendite
1 se Televisione 2 se Radio 3 se Giornali
Tipo di canale:
Vendite Investimenti pubblicitari
Per ogni variabile categorica con k modalità occorre definire k nuove variabili dummy (di cui ne occorreranno, in realtà k-1)
0 1 1Y X εβ β= + +
MeseVendite mensili(M di €)
Inv. Pubbl.(M di €) Canale
1 35 15 3
2 13 5 2
3 28 17 3
4 21 12 1
: : : :
Televisione Radio Giornali
0 0 1
0 1 0
0 0 1
1 0 0
: : :
47
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione con variabili qualitative
Investimenti pubblicitari
Vendite
0 1 1 2 2 3 3Y X X X εβ β β β= + + + +
Y = Vendite
X1 = Inv. pubblicitari
X2 = 1 se Televisione 0 altrimenti
X3 = 1 se Radio 0 altrimenti
X4 = 1 se Giornali 0 altrimenti
0 1 1Y X εβ β= + +
( )0 1 1 3 0 3 1 1Y X Xε εβ β β β β β= + + + = + + +
( )0 1 1 2 0 2 1 1Y X Xε εβ β β β β β= + + + = + + +
se Giornali
se Radio
se Televisione
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione con variabili qualitative
Investimenti pubblicitari
Vendite Y = Vendite
X1 = Inv. pubblicitari
X2 = 1 se Televisione 0 altrimenti
X3 = 1 se Radio 0 altrimenti
0 1 1 2 2 3 3Y X X X εβ β β β= + + + +
48
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
La Regressione con variabili qualitative
Investimenti pubblicitari
Vendite Y = Vendite
X1 = Inv. pubblicitari
X2 = 1 se Televisione 0 altrimenti
X3 = 1 se Radio 0 altrimenti
0 1 1Y X εβ β= + +
( ) ( )0 1 1 3 5 1 0 3 1 5 1Y X X Xε εβ β β β β β β β= + + + + = + + + +
( ) ( )0 1 1 2 4 1 0 2 1 4 1Y X X Xε εβ β β β β β β β= + + + + = + + + +
se Giornali
se Radio
se Televisione
0 1 1 2 2 3 3 4 1 2 5 1 3Y X X X X X X X εβ β β β β β= + + + + + +
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Il caso “la Fattoria” • Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.
• Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.
0,40 0,50 0,60 0,70 0,80 0,90 1,00 1,10
Prezzo Marca 1
0
1000
2000
3000
4000
5000
Vend
ite M
arca
1
Catena123
49
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.
Il Modello
0 1 1 2 2 3 3y X X X= β + β + β + β 4 1 2 5 1 3 X X X X+ β + β
Effetto principale, Prezzo Interazione Effetto principale,
Catena
Y= Vendite M1
X1= Prezzo M1
X2= Catena 1 1 se Catena 1
0 se No
X3= Catena 2 1 se Catena 2
0 se No
Il caso “la Fattoria” • Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.
Coefficientia
1801,1 1056,12 1,705 ,092-1695,9 1403,87 -,204 -1,208 ,2313351,4 1514,97 1,286 2,212 ,0303966,9 1340,40 1,650 2,960 ,004
-1338,1 1929,80 -,422 -,693 ,490-2062,7 1638,18 -,842 -1,259 ,212
(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1Prod X1 Dummy 1Prod X1 Dummy 2
Modello1
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite Marca 1a.
1 2 3 1 2 1 3ˆ 1801,1 1695,9 3351,4 3966,9 1338,1 2062,6y X X X X X X X= − + + − −
Riepilogo del modello
,881a ,775 ,761 550,900Modello1
R R-quadratoR-quadrato
correttoErrore std.della stima
Stimatori: (Costante), Prod X1 Dummy 2, Prod X1 Dummy1, Prezzo vero Marca 1, Dummy Catena 2 Marca 1, DummyCatena 1 Marca 1
a.
ANOVAb
8,0E+07 5 2,E+07 52,467 ,000a
2,3E+07 76 3034911,0E+08 81
RegressioneResiduoTotale
Modello1
Somma deiquadrati df
Media deiquadrati F Sig.
Stimatori: (Costante), Prod X1 Dummy 2, Prod X1 Dummy 1, Prezzo vero Marca 1,Dummy Catena 2 Marca 1, Dummy Catena 1 Marca 1
a.
Variabile dipendente: Vendite Marca 1b.
Il caso “la Fattoria” • Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.
50
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
3 5 14 16 20 25 29 31 33 49 56 62 64 70 74 78 80 82 84 90 99 101103105107109112114116126129131133135137139141147149151153
Settimana
0
2.000
4.000
6.000
8.000
10.000
Vend
ite M
1
Vendite M1Previsione
• Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.
1 2 3 1 2 1 3ˆ 1801,1 1695,9 3351,4 3966,9 1338,1 2062,6y X X X X X X X= − + + − −
R2=0,78
Il caso “la Fattoria” • Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.
La procedura stepwise
Coefficientia
1801,1 1056,12 1,705 ,092-1695,9 1403,87 -,204 -1,208 ,2313351,4 1514,97 1,286 2,212 ,0303966,9 1340,40 1,650 2,960 ,004
-1338,1 1929,80 -,422 -,693 ,490-2062,7 1638,18 -,842 -1,259 ,2122331,9 725,262 3,215 ,002
-2404,0 959,999 -,290 -2,504 ,0142307,3 165,548 ,885 13,937 ,0003436,2 1096,67 1,429 3,133 ,002
-1354,5 1276,55 -,553 -1,061 ,2922906,0 483,360 6,012 ,000
-3170,1 633,276 -,382 -5,006 ,0002357,5 158,767 ,905 14,849 ,0002291,7 198,424 ,953 11,550 ,000
(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1Prod X1 Dummy 1Prod X1 Dummy 2(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1Prod X1 Dummy 2(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1
Modello1
2
3
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite Marca 1a.
Il caso “la Fattoria” • Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.
51
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.
La procedura stepwise: Il modello finale
1 2 3ˆ 2906.0 3170.1 2357.5 2291.7y X X X= − + +
Coefficientia
2906,0 483,360 6,012 ,000-3170,1 633,276 -,382 -5,006 ,0002357,5 158,767 ,905 14,849 ,0002291,7 198,424 ,953 11,550 ,000
(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1
Modello3
B Errore std.
Coefficienti nonstandardizzati
Beta
Coefficientistandardizzati
t Sig.
Variabile dipendente: Vendite Marca 1a.
Quindi…
Quale sarà l’ammontare delle vendite per la nostra marca in una settimana senza promozione e con un prezzo di 0,80€?
Il caso “la Fattoria” • Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
• Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.
La procedura stepwise: Il modello finale
1 2 3ˆ 2906.0 3170.1 2357.5 2291.7y X X X= − + +
Quale sarà l’ammontare delle vendite per la nostra marca in una settimana senza promozione e con un prezzo di 0,80€?
Catena 1 ⇒ X2 = 1 ˆ 2906.0 3170.1 0,8 2357.5 2727,4y = − × + =
Catena 2 ⇒ X3 = 1 ⇒ ˆ 2906.0 3170.1 0,8 2291.7 2661,6y = − × + =
Catena 3 ⇒ ˆ 2906.0 3170.1 0,8 369,9y = − × =
⇒
Il caso “la Fattoria” • Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.
52
Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione
Riassumendo…
Per utilizzare una variabile qualitativa nelle Regressione, occorre:
• Costruire tante variabili dummy quante sono le modalità della variabile (k);
• Scegliere una modalità come “livello base” (o benchmark, o modalità di controllo);
• Costruire il modello con le atre k-1 dummies;
• Costruire una o più variabili di interazioni moltiplicando il regressore per la corrispondente variabile dummy;
• Aggiungere il/i termine/i di interazione al modello
Modelli di interazione