lezioni35 36 07 08mar2016 -...

52
1 Statistica Domenico vistocco Dipartimento di Economia e Giurisprudenza Università degli Studi di Cassino e del Lazio Meridionale La Regressione Modulo di Corso di Studio in Economia e Commercio (a.a. 2015-16) Università degli studi di Cassino e del Lazio Meridionale [email protected] Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16) domenico vistocco Modulo di Statistica – La Regressione Dipendenza funzionale (o deterministica): ( ) ; Y f X θ = Da un punto di vista analitico, i valori della Y possono essere determinati senza errore a partire dai soli valori della X; Dipendenza statistica: ( ) ; Y f X e θ = + Il valore della variabile dipendente non è univocamente determinato a partire dal solo valore della variabile esplicativa, potendosi osservare, per ciascun di X, più valori di Y; Da un punto di vista grafico, la dipendenza statistica implica una funzione che passi fra i punti osservati. Il numero di parametri da determinare dipende, in questo caso, dal tipo di funzione scelta e non dal numero di punti osservati. X Y Da un punto di vista grafico, la dipendenza funzionale implica la definizione di una funzione che passi per tutti i punti, e che quindi richiede la determinazione di tanti parametri quanti sono i punti. La Re gressione X: variabile indipendente (data) Y: variabile dipendente

Transcript of lezioni35 36 07 08mar2016 -...

1

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Statistica

Domenico vistocco

Dipartimento di Economia e Giurisprudenza Università degli Studi di Cassino e del Lazio Meridionale

La Regressione

Modulo di

Corso di Studio inEconomia e Commercio (a.a. 2015-16)

Università degli studi di Cassino e del Lazio Meridionale

[email protected]

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Dipendenza funzionale (o deterministica): ( );Y f X θ=

Da un punto di vista analitico, i valori della Y possono essere determinati senza errore a partire dai soli valori della X;

Dipendenza statistica: ( );Y f X eθ= +Il valore della variabile dipendente non è univocamente determinato a partire dal solo valore della variabile esplicativa, potendosi osservare, per ciascun di X, più valori di Y;

Da un punto di vista grafico, la dipendenza statistica implica una funzione che passi fra i punti osservati. Il numero di parametri da determinare dipende, in questo caso, dal tipo di funzione scelta e non dal numero di punti osservati.

X

YDa un punto di vista grafico, la dipendenza funzionale implica la definizione di una funzione che passi per tutti i punti, e che quindi richiede la determinazione di tanti parametri quanti sono i punti.

La RegressioneX: variabile indipendente (data)Y: variabile dipendente

2

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Y = b0+ b

1X + eLa Regressione

X: variabile indipendente (data)Y: variabile dipendente

X

Y

Decidiamo di rappresentare la nube di punti con una funzione che passi tra i punti stessi;Tra tutte le possibili funzioni, scegliamo la funzione lineare;

Y = b0 +b1XTra tutte le infinite possibili rette, scegliamo quella che ottimizza un criterio che definiamo arbitrariamente, per esempio quella cheminimizza la somma dei quadrati degli scarti tra valori osservati e valori teorici:

S b0,b1( ) = Yi −Yi( )2i=1

n

∑ = Yi −b0 −b1Xi( )2i=1

n

∑ =min

Il metodo dei minimi quadrati consente di ottenere le soluzioni di questo problema, soluzioni che rappresentano i parametri della retta:

b0 =Y −b1X b1 =Cov XY( )Var X( )

Sostituendo questi valori nell’equazione della retta, per ogni valore dato di X otterremo il corrispondente valore teorico di Y.

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneX: variabile indipendente (data)Y: variabile dipendente

b0 =Y −b1X

X

YE’ l’intercetta sull’asse delle ordinate. Può essere interpretato come il valore di Y quando è X=0 (se ha senso).

Y = b0+ b

1X + e

3

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneX: variabile indipendente (data)Y: variabile dipendente

b0 =Y −b1X

X

YE’ l’intercetta sull’asse delle ordinate. Può essere interpretato come il valore di Y quando è X=0 (se ha senso).Da questa espressione deriva, inoltre la seguente:

Y = b0 +b1Xche assicura che la retta di regressione passa sempre per il punto di coordinate Xmedio;Ymedio. (baricentro della nube).

X

Y

Y = b0+ b

1X + e

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneX: variabile indipendente (data)Y: variabile dipendente

b0 =Y −b1X

X

YE’ l’intercetta sull’asse delle ordinate. Può essere interpretato come il valore di Y quando è X=0 (se ha senso).Da questa espressione deriva, inoltre la seguente:

Y = b0 +b1Xche assicura che la retta di regressione passa sempre per il punto di coordinate Xmedio;Ymedio. (baricentro della nube).

X

Y

b1 =Cov XY( )Var X( )

E’ il coefficiente angolare della retta di regressione in quanto funzione dell’angolo che la retta forma con l’asse delle ascisse. Esprime dunque la pendenza (positiva, negativa o nulla) della retta, e anche quanto varia la variabile Y al variare unitario della variabile X (variazione marginale).

Y = b0+ b

1X + e

4

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

b0 =Y −b1X b1 =Cov XY( )Var X( )

La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..

App. mq(X)

Prezzo in €(Y)

1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333

10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )

Media 131,0 414.333,3Sqm 54,4 197.061,0Cov

b1ccccc b0ccccc

7.684.666,72.592,774.693,9

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

b0 =Y −b1X b1 =Cov XY( )Var X( )

La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..

App. mq(X)

Prezzo in €(Y)

1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333

10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )

Cov XY( ) =xi − µX( ) ⋅ yi − µY( )

i∑

n= 115.270.000

15= 7.684.666,7

Media 131,0 414.333,3Sqm 54,4 197.061,0Cov

b1ccccc b0ccccc

7.684.666,72.592,774.693,9

5

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

b0 =Y −b1X b1 =Cov XY( )Var X( )

La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..

App. mq(X)

Prezzo in €(Y)

1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333

10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )

Media 131,0 414.333,3Sqm 54,4 197.061,0Cov

b1ccccc b0ccccc

7.684.666,72.592,774.693,9

b1 =σ XY

σ X2 = 7.684.666,7

54,44( )2= 2.592,7

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

b0 =Y −b1X b1 =Cov XY( )Var X( )

La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..

App. mq(X)

Prezzo in €(Y)

1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333

10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )

Media 131,0 414.333,3Sqm 54,4 197.061,0Cov

b1ccccc b0ccccc

7.684.666,72.592,774.693,9

Qual è il significato di questo valore?

b1 =σ XY

σ X2 = 2.592,7

6

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

b0 =Y −b1X b1 =Cov XY( )Var X( )

La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..

App. mq(X)

Prezzo in €(Y)

1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333

10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )

Media 131,0 414.333,3Sqm 54,4 197.061,0Cov

b1ccccc b0ccccc

7.684.666,72.592,774.693,9

b0 =Y −b1X = 414.333,3− 2.592,668 ×131,0( ) = 74.693,8

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

b0 =Y −b1X b1 =Cov XY( )Var X( )

La RegressioneEsercizio:Si riportano i valori relativi alla Superficie (in mq) e al Prezzo (in €) di 15 appartamenti omogenei per ubicazione e altre caratteristiche. Si determinino i parametri della retta di regressione..

App. mq(X)

Prezzo in €(Y)

1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333

10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )

Media 131,0 414.333,3Sqm 54,4 197.061,0Cov

b1ccccc b0ccccc

7.684.666,72.592,774.693,9

b0 =Y −b1X = 74.693,8 Qual è il significato di questo valore?

7

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La RegressioneInterpretazione e valutazione dei risultati

b0 = 74.693,8 b1 = 2.592,7

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

Y = b0+ b

1X

= 74.693,8 + 2.592,7X

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpretazione e valutazione dei risultati

Y = b0 +b1X = 74.693,8 + 2.592,7X

282.000

593.227554.337

437.667

8

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpretazione e valutazione dei risultati

Y = b0 +b1X = 74.693,8 + 2.592,7X

Y = 74.693,8 + 2.592,7X

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpretazione e valutazione dei risultati

Y = b0 +b1X = 74.693,8 + 2.592,7X

Y = 74.693,8 + 2.592,7X

74.693

Baricentro (131mq;414.333€)

9

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpolazione ed estrapolazione

Y = b0 +b1X = 74.693,8 + 2.592,7X

Qual è il prezzo previsto di un appartamento di 160mq?

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpolazione ed estrapolazione

Y = b0 +b1X = 74.693,8 + 2.592,7 ×160

Qual è il prezzo previsto di un appartamento di 160mq?

10

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpolazione ed estrapolazione

Y = b0 +b1X→ 489.525,8€ Prezzo previsto di un appartamento di 160mq

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpolazione ed estrapolazione

Qual è il prezzo previsto di un appartamento di 260mq?

Y = b0 +b1X = 74.693,8 + 2.592,7X

11

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

La Regressione

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -70.107,32 200 313.000 593.227,4 -280.227,43 185 717.000 554.337,4 162.662,64 140 431.000 437.667,3 -6.667,35 95 270.000 320.997,3 -50.997,36 60 261.000 230.253,9 30.746,17 210 431.000 619.154,1 -188.154,18 65 140.000 243.217,3 -103.217,39 70 282.000 256.180,6 25.819,4

10 120 600.000 385.814,0 214.186,011 100 303.000 333.960,6 -30.960,612 90 220.000 308.034,0 -88.034,013 180 749.000 541.374,0 207.626,014 220 663.000 645.080,7 17.919,315 150 623.000 463.594,0 159.406,0

1.965 6.215.000 6.215.000,0 0,0

Y Y - Y

b0 = 74.693,8 b1 = 2.592,7

Interpolazione ed estrapolazione

Qual è il prezzo previsto di un appartamento di 260mq?

Se il valore della X è esterno all’intervallo dei valori considerati, il valore della Y non può essere previsto applicando la funzione di regressione. In questo caso si tratterebbe di “estrapolazione” e non di “interpolazione”.

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneValutazione dell’adattamento

YSe consideriamo la sola variabile Y, la previsione più attendibile è data dalla media;

L’errore complessivo di previsione sarà dato dalla somma delle distanze tra i valori della Y e i valori teorici (che coincidono, in questo caso, con il valore medio);

Tale errore è dunque pari alla devianza di Y.

Dev Y( ) = Yi −Y( )2i∑

12

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneValutazione dell’adattamento

YSe consideriamo la sola variabile Y, la previsione più attendibile è data dalla media;

L’errore complessivo di previsione sarà dato dalla somma delle distanze tra i valori della Y e i valori teorici (che coincidono, in questo caso, con il valore medio);

Tale errore è dunque pari alla devianza di Y.

Dev Y( ) = Yi −Y( )2i∑

Consideriamo ora il generico punto Yi. Yi −Y( )2Questo partecipa all’errore complessivo con la quantità:

Con l’obiettivo di ridurre l’errore di previsione, consideriamo ora la variabile X (la Superficie in mq). La retta interpolante si dispone nella direzione di “allungamento” della nube di punti, facendo “perno” sul baricentro della nube, il punto medio, per il quale le retta di regressione deve passare;

Y = b0 +b1X

Yi −Y( )2

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneValutazione dell’adattamento

YConsideriamo ancora il punto Yi:Una parte dell’errore precedente viene ora “rimossa” dalla retta di regressione, poiché il valore “teorico” della Y calcolato con la retta di regressione risulta ora più vicino al valore Yi osservato.

Y = b0 +b1X

Yi −Y( )2

Più precisamente, la parte di errore rimossa o “spiegata” dalla regressione è data dalla quantità:

Yi −Y( )2

Yi −Y( )2

D’altra parte, esiste una parte di errore “residua”, che rimane anche dopo la costruzione della retta di regressione, ossia quella parte di errore che non viene spiegata dall’osservazione della variabile X;

Questa parte di errore è data dalla quantità: Yi −Yi( )2

Yi −Yi( )2

13

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneL’indice R2

Estendendo questo ragionamento a tutti i punti, una misura della bontà dell’adattamento della retta ai dati può allora essere data dal rapporto tra la devianza spiegata e la devianza totale, valore compreso tra zero e uno (è un rapporto di una parte al suo totale) e che prende il nome di coefficiente di determinazione R2.

R 2 =Dev Y( )Dev Y( ) =

Yi −Y( )2i∑

Yi −Y( )2i∑

0 ≤R 2 ≤1( )Quando è R2=0, la devianza spiegata è pari a zero. Questo vuol dire che l’osservazione della variabile X non ha aggiunto nulla a quanto già si sapeva dalla sola osservazione della Y. Dal punto di vista geometrico, la retta di regressione coincide con la retta M(Y); dal punto di vista interpretativo, le variabili X e Y sono incorrelate;

Quando è R2=1, la devianza spiegata è uguale alla devianza totale. Questo vuol dire che l’osservazione della variabile X spiega perfettamente la variabile Y, e ne rende possibile la previsione senza possibilità di errore. Dal punto di vista geometrico, tutti i punti sono allineati e la retta di regressione passa per tutti i punti (siamo quindi nel caso di una dipendenza funzionale, deterministica, esatta); dal punto di vista interpretativo, le variabili X e Y sono massimamente correlate (in senso diretto o inverso).

Quando è 0≤R2 ≤1, la devianza spiegata è pari a una quota della devianza totale. L’osservazione della variabile X migliora quindi la previsione della variabile Y, con una quota di errore residua dovuta in parte alle variabili non osservate, in parte alla sempre presente quota di imponderabilità dei fenomeni osservati.

Y

Y = b0 +b1X

Yi −Y( )2Yi −Y( )2

Yi −Yi( )2

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneY

Y = b0 +b1X

Yi −Y( )2Yi −Y( )2

Yi −Yi( )2

App. mq(X)

Prezzo in €(Y)

1 80 212.000 282.107,3 -202.333,3 -132.226,0 -70.107,32 200 313.000 593.227,4 -101.333,3 178.894,1 -280.227,43 185 717.000 554.337,4 302.666,7 140.004,0 162.662,64 140 431.000 437.667,3 16.666,7 23.334,0 -6.667,35 95 270.000 320.997,3 -144.333,3 -93.336,0 -50.997,36 60 261.000 230.253,9 -153.333,3 -184.079,4 30.746,17 210 431.000 619.154,1 16.666,7 204.820,7 -188.154,18 65 140.000 243.217,3 -274.333,3 -171.116,1 -103.217,39 70 282.000 256.180,6 -132.333,3 -158.152,7 25.819,4

10 120 600.000 385.814,0 185.666,7 -28.519,3 214.186,011 100 303.000 333.960,6 -111.333,3 -80.372,7 -30.960,612 90 220.000 308.034,0 -194.333,3 -106.299,4 -88.034,013 180 749.000 541.374,0 334.666,7 127.040,7 207.626,014 220 663.000 645.080,7 248.666,7 230.747,4 17.919,315 150 623.000 463.594,0 208.666,7 49.260,7 159.406,0

1.965 6.215.000 6.215.000,0 0,0 0,0 0,0

Y Y -Y Y -Y Y − Y

14

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneApp. mq

(X)Prezzo in €

(Y)

1 80 212.000 282.107,3 -202.333,3 -132.226,0 -70.107,32 200 313.000 593.227,4 -101.333,3 178.894,1 -280.227,43 185 717.000 554.337,4 302.666,7 140.004,0 162.662,64 140 431.000 437.667,3 16.666,7 23.334,0 -6.667,35 95 270.000 320.997,3 -144.333,3 -93.336,0 -50.997,36 60 261.000 230.253,9 -153.333,3 -184.079,4 30.746,17 210 431.000 619.154,1 16.666,7 204.820,7 -188.154,18 65 140.000 243.217,3 -274.333,3 -171.116,1 -103.217,39 70 282.000 256.180,6 -132.333,3 -158.152,7 25.819,4

10 120 600.000 385.814,0 185.666,7 -28.519,3 214.186,011 100 303.000 333.960,6 -111.333,3 -80.372,7 -30.960,612 90 220.000 308.034,0 -194.333,3 -106.299,4 -88.034,013 180 749.000 541.374,0 334.666,7 127.040,7 207.626,014 220 663.000 645.080,7 248.666,7 230.747,4 17.919,315 150 623.000 463.594,0 208.666,7 49.260,7 159.406,0

1.965 6.215.000 6.215.000,0 0,0 0,0 0,0

Y Y -Y Y -Y Y − Y

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La RegressioneApp. mq

(X)Prezzo in €

(Y)

1 80 212.000 282.107,3 40.938.777.777,8 17.483.727.210,1 4.915.031.753,52 200 313.000 593.227,4 10.268.444.444,4 32.003.085.446,9 78.527.393.139,23 185 717.000 554.337,4 91.607.111.111,1 19.601.133.619,6 26.459.127.321,84 140 431.000 437.667,3 277.777.777,8 544.475.933,9 44.453.441,85 95 270.000 320.997,3 20.832.111.111,1 8.711.614.942,1 2.600.724.703,66 60 261.000 230.253,9 23.511.111.111,1 33.885.224.477,6 945.320.444,07 210 431.000 619.154,1 277.777.777,8 41.951.534.609,1 35.401.954.462,18 65 140.000 243.217,3 75.258.777.777,8 29.280.705.777,5 10.653.805.642,59 70 282.000 256.180,6 17.512.111.111,1 25.012.283.332,9 666.640.807,8

10 120 600.000 385.814,0 34.472.111.111,1 813.352.938,3 45.875.646.835,411 100 303.000 333.960,6 12.395.111.111,1 6.459.770.030,3 958.561.153,412 90 220.000 308.034,0 37.765.444.444,4 11.299.556.109,3 7.749.978.661,413 180 749.000 541.374,0 112.001.777.777,8 16.139.342.188,2 43.108.537.569,814 220 663.000 645.080,7 61.835.111.111,1 53.244.368.793,2 321.099.637,415 150 623.000 463.594,0 43.541.777.777,8 2.426.614.964,6 25.410.267.386,2

1.965 6.215.000 6.215.000,0 582.495.333.333,3 298.856.790.373,4 283.638.542.960,0

Y Y -Y( )2 Y -Y( )2 Y − Y( )2

Dev Y( ) = Yi −Y( )2i∑ = 582.495.333.333

Dev Y( ) = Yi −Y( )2

i∑ = 298.856.790.373

Dev e( ) = Yi −Y( )2

i∑ = 283.638.542.960

= 298.856.790.373

582.495.333.333

R2 =Dev Y( )Dev Y( )

= 0,513

15

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione: l’interpretazione dei risultati

Ancora una volta, questo risultato deve costituire un punto di partenza per l’interpretazione e per eventuali riflessioni. Ad esempio, il valore dell’indice sembra particolarmente basso, comunque inferiore a quanto sarebbe probabilmente legittimo aspettarsi dalla relazione tra queste due variabili.Ferma restando la correttezza dei dati (che va sempre verificata), occorre dunque fare qualche riflessione per migliorare il risultato.

App. mq(X)

Prezzo in €(Y)

1 80 212.000 -51,0 -202.333,3 10.319.0002 200 313.000 69,0 -101.333,3 -6.992.0003 185 717.000 54,0 302.666,7 16.344.0004 140 431.000 9,0 16.666,7 150.0005 95 270.000 -36,0 -144.333,3 5.196.0006 60 261.000 -71,0 -153.333,3 10.886.6677 210 431.000 79,0 16.666,7 1.316.6678 65 140.000 -66,0 -274.333,3 18.106.0009 70 282.000 -61,0 -132.333,3 8.072.333

10 120 600.000 -11,0 185.666,7 -2.042.33311 100 303.000 -31,0 -111.333,3 3.451.33312 90 220.000 -41,0 -194.333,3 7.967.66713 180 749.000 49,0 334.666,7 16.398.66714 220 663.000 89,0 248.666,7 22.131.33315 150 623.000 19,0 208.666,7 3.964.667

1.965 6.215.000 0,0 0,0 115.270.000

X − µX( ) Y − µY( ) X − µX( ) ⋅ Y − µY( )

300250200150100500

900000

800000

700000

600000

500000

400000

300000

200000

100000

0

15

14

13

12

11

10

9

8

7

6 5

4

3

2

1

Y = 74.693,8 + 2.592,7X R2 = 0,513

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

App.mq(X)

Prezzo in €(Y)

1 80 212.000 282.107 40.938.777.778 17.483.727.210 4.915.031.754

2 200 313.000 593.227 10.268.444.444 32.003.085.447 78.527.393.139

3 185 717.000 554.337 91.607.111.111 19.601.133.620 26.459.127.322

4 140 431.000 437.667 277.777.778 544.475.934 44.453.442

5 95 270.000 320.997 20.832.111.111 8.711.614.942 2.600.724.704

6 60 261.000 230.254 23.511.111.111 33.885.224.478 945.320.444

7 210 431.000 619.154 277.777.778 41.951.534.609 35.401.954.462

8 65 140.000 243.217 75.258.777.778 29.280.705.777 10.653.805.643

9 70 282.000 256.181 17.512.111.111 25.012.283.333 666.640.808

10 120 600.000 385.814 34.472.111.111 813.352.938 45.875.646.835

11 100 303.000 333.961 12.395.111.111 6.459.770.030 958.561.153

12 90 220.000 308.034 37.765.444.444 11.299.556.109 7.749.978.661

13 180 749.000 541.374 112.001.777.778 16.139.342.188 43.108.537.570

14 220 663.000 645.081 61.835.111.111 53.244.368.793 321.099.637

15 150 623.000 463.594 43.541.777.778 2.426.614.965 25.410.267.386

1.965 6.215.000 6.215.000 582.495.333.333 298.856.790.373 283.638.542.960Proviamo allora a dividere le osservazioni in due gruppi, gli appartamenti fino a 150 mq, che costituiscono un gruppo con un comportamento più omogeneo rispetto alla variabile Prezzo, e gli appartamenti oltre i 150 mq che, invece, risultano molto più dispersi.

R2 = 0,513

La Regressione: l’interpretazione dei risultati

16

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Gru

ppo1

Fino

a 1

50 m

q

App. mq(X)

Prezzo(Y)

1 80 212.000

4 140 431.000

5 95 270.000

6 60 261.000

8 65 140.000

9 70 282.000

10 120 600.000

11 100 303.000

12 90 220.000

15 150 623.000

2 200 313.000

3 185 717.000

7 210 431.000

13 180 749.000

14 220 663.000

La Regressione: l’interpretazione dei risultati

Gru

ppo2

Oltr

e 15

0 m

q

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione: l’interpretazione dei risultati

Come ci aspettavamo, limitando l’analisi agli appartamenti più piccoli, la regressione fornisce risultati molto più soddisfacenti. E’ probabile che, per gli appartamenti più grandi, altre variabili, oltre alla Superficie, influiscano sul Prezzo (che addirittura sembra diminuire all’aumentare della superficie); mettere insieme i due gruppi aveva, in un certo senso, “inquinato” i dati, producendo risultati insoddisfacenti.

Gru

ppo1

Fino

a 1

50 mq!

App. mq(X)

Prezzo(Y)

1 80 212.000

4 140 431.000

5 95 270.000

6 60 261.000

8 65 140.000

9 70 282.000

10 120 600.000

11 100 303.000

12 90 220.000

15 150 623.000

2 200 313.000

3 185 717.000

7 210 431.000

13 180 749.000

14 220 663.000

Gru

ppo2

Oltr

e 15

0 mq!

Y Gruppo1( ) = −100.687,1+ 4.483,4X

=2 0,718R

17

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Il responsabile di un negozio operante nel settore dell’home entertainment ipotizza l’esistenza di una relazione tra gli incassi realizzati ai botteghini e quelli derivanti dalla vendita di DVD.Considerando i seguenti 10 film (stagione 2004-’05), si valuti l’ipotesi del responsabile determinando:•  Il diagramma di dispersione•  la retta di regressione e l’indice di determinazione lineare

Film Incasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

Closer 5.611,4 42.340,1Birth - Io sono Sean 3.933,8 25.420,2Saw 5.161,9 34.475,7The Aviator 5.874,6 40.150,1Neverland - Un sogno per la vita 5.856,7 45.063,8Il mercante di Venezia 3.845,5 20.419,9Million dollar baby 5.643,5 36.129,3Shark tale 7.655,2 57.472,3Constantine 5.044,2 25.334,4Cuore sacro 2.915,4 18.279,8

La RegressioneEsercizio 1:

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

Y = b0 +b1X ; b0 =Y −b1X ; b1 =Cov XY( )Var X( )

R 2 = Dev (Y )Dev Y( ) =

Yi −Y( )2

i∑

Yi −Y( )2

i∑

Il responsabile di un negozio operante nel settore dell’home entertainment ipotizza l’esistenza di una relazione tra gli incassi realizzati ai botteghini e quelli derivanti dalla vendita di DVD.Considerando i seguenti 10 film (stagione 2004-’05), si valuti l’ipotesi del responsabile determinando:•  Il diagramma di dispersione•  la retta di regressione e l’indice di determinazione lineare

La RegressioneEsercizio 1:

18

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

19

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

M X( ) = 110

Xii=1

10

∑ = 51.542,410

= 5.154,2

M Y( ) = 110

Yii=1

10

∑ = 345.085,610

= 34.508,6

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

M X( ) = 110

Xii=1

10

∑ = 51.542,410

= 5.154,2

M Y( ) = 110

Yii=1

10

∑ = 345.085,610

= 34.508,6

20

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

Var X( ) =M X 2( )− M X( )⎡⎣ ⎤⎦2

= 281.603.795,710

− 5.154,2( )2

= 1.594.189,6

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

Var Y( ) =M Y 2( )− M Y( )⎡⎣ ⎤⎦2

= 13.271.566.094,610

− 34.508,6( )2

= 136.315.896,2

21

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

22

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

Cov XY( ) =M XY( )− M Y( ) ⋅M Y( )⎡⎣ ⎤⎦

= 1.918.808.213,510

⋅ 5.154,2 × 34.508,6( )

= 14.015.421,1

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

Cov XY( ) =M XY( )− M Y( ) ⋅M Y( )⎡⎣ ⎤⎦

= 1.918.808.213,510

⋅ 5.154,2 × 34.508,6( )

= 14.015.421,1

23

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,11,08,8

-10.805,30,9

rXY =Cov XY( )σ X ⋅σY

= 14.015.421,1⋅1.262,6 ×11.675,4

= 0,951

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

rXY =Cov XY( )σ X ⋅σY

= 14.015.421,1⋅1.262,6 ×11.675,4

= 0,951

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,10,9518,792

-10.805,30,904

24

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

b1 =Cov XY( )

σ X2 = 14.015.421,1⋅

1.262,6( )2= 8,792

X YMedia 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,10,9518,792

-10.805,30,904

b0 =Y −b1X

= 34.508,6 − 8,792 ⋅5.154,2 = -10.805,3

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

Y = -10.805,3+ 8,792XX Y

Media 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,10,9518,792

-10.805,30,904

25

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

R 2 = r( )2 = 0,951( )2 = 0,904X Y

Media 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,10,9518,792

-10.805,30,904

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

FilmIncasso al botteghino( € x 1000 )

Incasso vendite DVD( € )

X2 Y2 XY

Closer 5.611,4 42.340,1 31.488.072,5 1.792.685.568,3 237.588.327,1Birth - Io sono Sean 3.933,8 25.420,2 15.475.005,1 646.187.034,1 99.998.738,1Saw 5.161,9 34.475,7 26.645.676,3 1.188.574.428,1 177.961.707,9The Aviator 5.874,6 40.150,1 34.510.996,2 1.612.032.742,4 235.866.182,2Neverland - Un sogno per la vita 5.856,7 45.063,8 34.300.392,6 2.030.750.081,2 263.923.331,8Il mercante di Venezia 3.845,5 20.419,9 14.787.775,5 416.970.686,6 78.524.320,5Million dollar baby 5.643,5 36.129,3 31.849.411,4 1.305.323.576,6 203.896.511,8Shark tale 7.655,2 57.472,3 58.602.588,5 3.303.060.113,5 439.963.490,0Constantine 5.044,2 25.334,4 25.444.193,9 641.830.724,6 127.792.274,6Cuore sacro 2.915,4 18.279,8 8.499.683,6 334.151.139,3 53.293.329,4

51.542,4 345.085,6 281.603.795,7 13.271.566.094,6 1.918.808.213,5

La RegressioneEsercizio 1:

R 2 = r( )2 = 0,951( )2 = 0,904X Y

Media 5.154,2 34.508,6Varianza 1.594.189,6 136.315.896,2Sqm 1.262,6 11.675,4CovarianzaCorrelazioneb1b0R2

14.015.421,10,9518,792

-10.805,30,904

26

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

300 studentiX: Esame di matematica:

Y: Esame di statistica:

Qual è il voto previsto all’esame di statistica per uno studente che ha avuto 25 all’esame di matematica?

y = b0 +b1x b1 =Cov XY( )Var X( ) b0 = y −b1x

per X=25 y = 11,27 + 0,646 ⋅25 = 27,42

r = σ XY

σ X ⋅σY

⇒ σ XY = r ⋅σ X ⋅σY = 0,78×2,9×2,4 = 5,4288

μX=24,2 σX=2,9

μY=26,9 σY=2,4r(XY)=0,78

b0 = y −b1x b1 =

Cov XY( )Var X( ) = 5,4288

8,41= 0,646

y = b0 +b1x = 11,27 + 0,646x

= 26,9-0,646×24,2 = 11,27

La RegressioneEsercizio 2:

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione multipla

27

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

I dati

Unità

Variabile di risposta (dipendente)

Variabili esplicative (indipendenti)

X1 X2 … Xk Y

1 x11 x12 x1k y1

2 x21 x22 x2k y2

:i xi1 xi2 xik yi

:

n xn1 xn2 xnk yn

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Semestre•  Vendite totali del mercato (MM di euro)

•  Investimenti pubblicitari del Settore (M di euro)•  Prezzo

•  Spese di vendita (M di euro)

•  Budget di ricerca (M di euro)

•  Investimenti (M di euro)

•  Spese pubblicitarie (M di euro)•  Totale vendite (M di euro)

Dati relativi all’intero Settore

Dati relativi alla nostra azienda

I dati

La Regressione multipla

28

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

SEM.

Vendite totale

mercato(€×MM)

Investimenti pubblicitari del settore

(€×M)

PrezzoSconti ai rivendit.

(€×M)

Spese di vendita(€×M)

Budget Ricerca(€×M)

Investimenti(€×M)

Pubblicità(€×M)

Totale vendite(€×M)

1 398 98 56 138 229 12 50 77 5540

2 369 225 59 118 177 9 17 89 5439

3 268 263 57 129 166 29 89 51 4290

4 484 321 58 111 258 13 107 40 5502

5 394 407 59 146 209 13 143 52 4872

6 332 247 60 140 180 11 61 21 4708

7 336 328 60 136 213 25 -30 40 4627

8 383 298 60 104 201 21 -45 32 4110

9 285 218 63 105 176 8 -28 12 4123

10 277 410 62 135 175 11 76 68 4842

11 456 93 65 128 253 22 144 52 5741

12 355 307 65 131 208 24 113 77 5094

13 364 107 64 120 195 14 128 96 5383

14 320 305 66 147 154 15 10 48 4888

15 311 60 67 143 181 22 -25 27 4033

16 362 239 67 145 220 23 117 73 4942

17 408 141 66 131 235 13 120 62 5313

: : : : : : : : : :

PROX 500 200 83 100 300 30 50 90 ?

Dati relativiall’intero Mercato Dati relativi alla nostra aziendaI dati

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Le vendite

La Regressione multipla

29

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

1 variabile di risposta:

Qual è il valore previsto per le vendite?

Y = Totale venditeX1, …, X8

Supponiamo che per il prossimo semestre i vostri esperti prevedano il seguente scenario:

8 variabili esplicative:

•  Vendite totali del mercato ………………………………..•  Investimenti pubblicitari del Settore …………………….•  Prezzo ……………………………………………………..•  Sconti ai rivenditori ………………………………………..•  Spese di vendita ………………………………………….•  Budget di ricerca …………………………………………..•  Investimenti ………………………………………………..•  Spese pubblicitarie ………………………………………..

500 MM €200 M €83 €

300 M €30 M €50 M €90 M €?•  Totale vendite ……………………………………………..

100 M €

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

SEM.

Vendite totale

mercato(€×MM)

Investimenti pubblicitari del settore

(€×M)

PrezzoSconti ai rivendit.

(€×M)

Spese di vendita(€×M)

Budget Ricerca(€×M)

Investimenti(€×M)

Pubblicità(€×M)

Totale vendite(€×M)

1 398 98 56 138 229 12 50 77 5540

2 369 225 59 118 177 9 17 89 5439

3 268 263 57 129 166 29 89 51 4290

4 484 321 58 111 258 13 107 40 5502

5 394 407 59 146 209 13 143 52 4872

6 332 247 60 140 180 11 61 21 4708

7 336 328 60 136 213 25 -30 40 4627

8 383 298 60 104 201 21 -45 32 4110

9 285 218 63 105 176 8 -28 12 4123

10 277 410 62 135 175 11 76 68 4842

11 456 93 65 128 253 22 144 52 5741

12 355 307 65 131 208 24 113 77 5094

13 364 107 64 120 195 14 128 96 5383

14 320 305 66 147 154 15 10 48 4888

15 311 60 67 143 181 22 -25 27 4033

16 362 239 67 145 220 23 117 73 4942

17 408 141 66 131 235 13 120 62 5313

: : : : : : : : : :

NEXT 500 200 83 100 300 30 50 90 ?

SEM.

Vendite totale

mercato(€×MM)

Investimenti pubblicitari del settore

(€×M)

PrezzoSconti ai rivendit.

(€×M)

Spese di vendita(€×M)

Budget Ricerca(€×M)

Investimenti(€×M)

Pubblicità(€×M)

Totale vendite(€×M)

1 398 98 56 138 229 12 50 77 5540

2 369 225 59 118 177 9 17 89 5439

3 268 263 57 129 166 29 89 51 4290

4 484 321 58 111 258 13 107 40 5502

5 394 407 59 146 209 13 143 52 4872

6 332 247 60 140 180 11 61 21 4708

7 336 328 60 136 213 25 -30 40 4627

8 383 298 60 104 201 21 -45 32 4110

9 285 218 63 105 176 8 -28 12 4123

10 277 410 62 135 175 11 76 68 4842

11 456 93 65 128 253 22 144 52 5741

12 355 307 65 131 208 24 113 77 5094

13 364 107 64 120 195 14 128 96 5383

14 320 305 66 147 154 15 10 48 4888

15 311 60 67 143 181 22 -25 27 4033

16 362 239 67 145 220 23 117 73 4942

17 408 141 66 131 235 13 120 62 5313

: : : : : : : : : :

NEXT 500 200 83 100 300 30 50 90 ?

I dati

La Regressione multipla

30

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La matrice di correlazione

Correlazioni

1-,031 1,575 -,189 1-,135 -,118 -,075 1,200 -,136 ,486 -,061 1,137 -,122 -,060 -,082 ,150 1,232 -,202 ,294 -,174 ,140 ,233 1,907 -,034 ,650 -,126 ,395 ,206 ,172 1,721 -,096 ,287 -,084 ,084 ,453 ,568 ,637 1

VESEINSEPREZRIVERICEINVEPUBBSPESVEND

VESE INSE PREZ RIVE RICE INVE PUBB SPES VEND

Sconti riv. R&S Tot. Inv. Vendite Settore

Invest. Settore Prezzo Pubbl. Spese Vendite

?

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La matrice di correlazione

Qual è il modello migliore con un solo predittore?

Correlazioni

1-,031 1,575 -,189 1-,135 -,118 -,075 1,200 -,136 ,486 -,061 1,137 -,122 -,060 -,082 ,150 1,232 -,202 ,294 -,174 ,140 ,233 1,907 -,034 ,650 -,126 ,395 ,206 ,172 1,721 -,096 ,287 -,084 ,084 ,453 ,568 ,637 1

VESEINSEPREZRIVERICEINVEPUBBSPESVEND

VESE INSE PREZ RIVE RICE INVE PUBB SPES VEND

Sconti riv. R&S Tot. Inv. Vendite Settore

Invest. Settore Prezzo Pubbl. Spese Vendite

La Regressione multipla

31

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Qual è il modello migliore con un solo predittore?

Y = β0 + β1Xi

Regressione semplice

300 400 500 600

Vendite totali (MM €)

4000

4500

5000

5500

6000

6500

Vend

ite (M

€)

Vendite nostre

Vendite Settore

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

= 2.956,89+ 5,268 ×TotVendi

Coefficientia

2956,9 347,907 8,499 ,000

5,268 ,844 ,721 6,240 ,000

(Costante)Vendite totali(MM €)

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

Riepilogo del modello

,721a ,520 ,506 361,793Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), Vendite totali (MM €)a.

Y = β0 + β1Xi

Regressione semplice

Qual è il modello migliore con un solo predittore?

La Regressione multipla

32

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi

Qual è il modello migliore con un solo predittore?

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

(R2=0,52)

Valori osservati

Valori previsti

Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi

Qual è il modello migliore con un solo predittore?

La Regressione multipla

33

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Analisi dei residui

300 400 500 600

Vendite totali (MM €)

-2,00

-1,00

0,00

1,00

2,00

Resi

dui s

tand

. (Re

g. s

empl

.)

•  Ipotesi di omoschedasticità

Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi

Qual è il modello migliore con un solo predittore?

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37

Semestre

-2,00

-1,00

0,00

1,00

2,00

Resi

dui s

tand

. (Re

g. s

empl

.)

Analisi dei residui

•  Ipotesi di indipendenza

Y = β0 + β1Xi = 2.956,89+ 5,268 ×TotVendi

Qual è il modello migliore con un solo predittore?

La Regressione multipla

34

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i

•  Stima dei coefficienti b0, b1, … , bk :

•  Stima della deviazione standard dei residui e

•  Misura della relazione tra la variabile Y e le variabili X1, …, Xk

•  Analisi dei residui

OLS

σ

R 2

yi − y i( )i=1

n

∑2

= ei2

i=1

n

∑ =min

I passi:

Qual è il modello migliore con più predittori?

La Regressione multipla

Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

I risultati Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε iCoefficientia

2962,2 633,755 4,674 ,0004,405 1,577 ,608 2,793 ,009

,014 ,397 ,003 ,036 ,972-15,078 8,223 -,230 -1,834 ,077

3,453 3,099 ,093 1,114 ,274-4,878 6,508 -,077 -,750 ,4602,017 ,769 ,242 2,622 ,0148,606 1,808 ,439 4,761 ,0001,725 2,749 ,152 ,627 ,535

(Costante)Vendite totali (MM €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a. Riepilogo del modellob

,902a ,813 ,762 251,200Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), Spese per Vendite (M €), Investimentipubbl. Settore (M €), Sconti ai rivenditori (M e), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)

a.

Variabile dipendente: Vendite (M €)b.

ANOVAb

7978265 8 997283 15,804 ,000a

1829938 29 631019808203 37

RegressioneResiduoTotale

Modello1

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl. Settore (M €),Sconti ai rivenditori (M e), Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €),Prezzo (€), Vendite totali (MM €)

a.

Variabile dipendente: Vendite (M €)b.

Riepilogo del modello

Anova

Regressione multipla!

La Regressione multipla

35

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i

Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES

H0 : β1 = … = βk = 0H1 : Almeno un βj diverso da 0

Test

F k ,n−k−1( ) =R 2

k1−R 2( )

n − k +1( )⎡⎣ ⎤⎦

Statistica di rif.

= MSRegMSRes

ANOVAb

7978265 8 997283 15,804 ,000a

1829938 29 631019808203 37

RegressioneResiduoTotale

Modello1

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl. Settore (M €),Sconti ai rivenditori (M e), Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €),Prezzo (€), Vendite totali (MM €)

a.

Variabile dipendente: Vendite (M €)b.

L’Anova nella Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Riepilogo del modellob

,902a ,813 ,762 251,200Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), Spese per Vendite (M €), Investimentipubbl. Settore (M €), Sconti ai rivenditori (M e), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)

a.

Variabile dipendente: Vendite (M €)b.

Riepilogo del modello

,721a ,520 ,506 361,793Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), Vendite totali (MM €)a.

R2 nella Regressione multipla

R2 nella Regressione semplice

La valutazione del modello

Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i

Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES

36

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Ra2 = 1− 1−R 2( ) ⋅ n −1

n − k −1

F Il coefficiente R2 è una funzione non-decrescente del numero di variabili esplicative;

F Nel confrontare due modelli con la stessa variabile dipendente ma con un diverso numero di variabili esplicative, dobbiamo sempre considerare il numero di variabili esplicative Xj;

F E’ buona norma utilizzare l’R2 modificato piuttosto che l’R2 perché quest’ultimo tende a dare una misura eccessivamente ottimistica dell’adattamento, in particolare quando il numero di variabili esplicative non è piccolo rispetto al numero di osservazioni.

Riepilogo del modellob

,902a ,813 ,762 251,200Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), Spese per Vendite (M €), Investimentipubbl. Settore (M €), Sconti ai rivenditori (M e), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)

a.

Variabile dipendente: Vendite (M €)b.

L’R2 corretto

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

Semestre

4.000

4.500

5.000

5.500

6.000

Media

(R2=0,81)

Valori osservati

Valori previsti

Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i

Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES

La Regressione multipla

37

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

4000 4500 5000 5500 6000

Unstandardized Predicted Value

-2,0

-1,0

0,0

1,0

2,0

Stan

dard

ized

Resi

dual

Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i

Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES

La Regressione multipla

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Vendite totali del mercato ………………………………..•  Investimenti pubblicitari del Settore …………………….•  Prezzo ……………………………………………………..•  Sconti ai rivenditori ………………………………………..•  Spese di vendita ………………………………………….•  Budget di ricerca …………………………………………..•  Investimenti ………………………………………………..•  Spese pubblicitarie ………………………………………..

500 MM €200 M €83 €

300 M €30 M €50 M €90 M €

?•  Totale vendite ……………………………………………..

100 M €

3.444,0

4,4050,014

3,453-4,8782,0178,606

-15,078

1,725

biScenarioLa previsione:

Yi = β0 + β1X1i + β2X 2i +…+ βkXki + ε i

Vendi = 2962,2 + 4,405 ⋅VESEi + 0,014 ⋅INSE +…+1,725 ⋅SPES

La Regressione multipla

38

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Metodi Stepwise BackwardForward

a. Regressione Forward Stepwise1. Si parte dal modello di Regressione semplice, introducendo la variabile con il

più alto contributo marginale, |tj| max o r(y,xj)=max;

2. Si aggiunge la variabile che, con la prima, ha il più alto contributo marginale e si verifica la significatività complessiva del modello (ANOVA).

3. Ci si ferma quando, tra le varibili non ancora selezionate, nessuna ha un contributo marginale significativo.

Le procedure stepwise

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Coefficientia

2956,9 347,907 8,499 ,0005,268 ,844 ,721 6,240 ,000

2705,8 280,955 9,631 ,0004,624 ,683 ,633 6,766 ,0008,683 1,840 ,441 4,718 ,000

2730,0 248,808 10,972 ,0004,423 ,608 ,605 7,275 ,0007,492 1,669 ,381 4,487 ,0002,260 ,692 ,274 3,266 ,002

(Costante)Vendite totali (MM €)(Costante)Vendite totali (MM €)Pubblicità (M €)(Costante)Vendite totali (MM €)Pubblicità (M €)Investimenti (M €)

Modello1

2

3

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

yi = 2956.9+ 5.27VendTot

Variabili esclused

-,082a -,702 ,487 -,118 1,000-,156a -1,130 ,266 -,188 ,698-,034a -,288 ,775 -,049 ,995-,034a -,290 ,774 -,049 ,973,357a 3,499 ,001 ,509 ,979,441a 4,718 ,000 ,623 ,960

-,072a -,264 ,793 -,045 ,185,003b ,030 ,976 ,005 ,961

-,255b -2,452 ,019 -,388 ,676,013b ,141 ,888 ,024 ,984

-,067b -,719 ,477 -,122 ,968,274b 3,266 ,002 ,489 ,932,041b ,187 ,853 ,032 ,183,025c ,300 ,766 ,052 ,955

-,196c -2,027 ,051 -,333 ,646,030c ,363 ,719 ,063 ,980

-,102c -1,243 ,223 -,211 ,953-,110c -,558 ,581 -,097 ,173

Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Spese per Vendite (M €)

Modello1

2

3

Beta In t Sig.Correlazioni

parziali Tolleranza

Statistiche dicollinearità

Stimatori nel modello : (Costante), Vendite totali (MM €)a.

Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €)b.

Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.

Variabile dipendente: Vendite (M €)d.

Aggiungiamo Pubblicità

Le procedure forward stepwise

39

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Coefficientia

2956,9 347,907 8,499 ,0005,268 ,844 ,721 6,240 ,000

2705,8 280,955 9,631 ,0004,624 ,683 ,633 6,766 ,0008,683 1,840 ,441 4,718 ,000

2730,0 248,808 10,972 ,0004,423 ,608 ,605 7,275 ,0007,492 1,669 ,381 4,487 ,0002,260 ,692 ,274 3,266 ,002

(Costante)Vendite totali (MM €)(Costante)Vendite totali (MM €)Pubblicità (M €)(Costante)Vendite totali (MM €)Pubblicità (M €)Investimenti (M €)

Modello1

2

3

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

yi = 2705.80 + 4.62VendTot + 8.68PubblicANOVAd

6927737 2 3,E+06 42,089 ,000b

2880467 35 822999808203 377615692 3 3,E+06 39,366 ,000c

2192512 34 644869808203 37

RegressioneResiduoTotaleRegressioneResiduoTotale

Modello2

3

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €)b.

Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.

Variabile dipendente: Vendite (M €)d.

Variabili esclused

-,082a -,702 ,487 -,118 1,000-,156a -1,130 ,266 -,188 ,698-,034a -,288 ,775 -,049 ,995-,034a -,290 ,774 -,049 ,973,357a 3,499 ,001 ,509 ,979,441a 4,718 ,000 ,623 ,960

-,072a -,264 ,793 -,045 ,185,003b ,030 ,976 ,005 ,961

-,255b -2,452 ,019 -,388 ,676,013b ,141 ,888 ,024 ,984

-,067b -,719 ,477 -,122 ,968,274b 3,266 ,002 ,489 ,932,041b ,187 ,853 ,032 ,183,025c ,300 ,766 ,052 ,955

-,196c -2,027 ,051 -,333 ,646,030c ,363 ,719 ,063 ,980

-,102c -1,243 ,223 -,211 ,953-,110c -,558 ,581 -,097 ,173

Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Spese per Vendite (M €)

Modello1

2

3

Beta In t Sig.Correlazioni

parziali Tolleranza

Statistiche dicollinearità

Stimatori nel modello : (Costante), Vendite totali (MM €)a.

Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €)b.

Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.

Variabile dipendente: Vendite (M €)d.

Aggiungiamo Investimenti

Significatività del Modello

Le procedure forward stepwise

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Coefficientia

2956,9 347,907 8,499 ,0005,268 ,844 ,721 6,240 ,000

2705,8 280,955 9,631 ,0004,624 ,683 ,633 6,766 ,0008,683 1,840 ,441 4,718 ,000

2730,0 248,808 10,972 ,0004,423 ,608 ,605 7,275 ,0007,492 1,669 ,381 4,487 ,0002,260 ,692 ,274 3,266 ,002

(Costante)Vendite totali (MM €)(Costante)Vendite totali (MM €)Pubblicità (M €)(Costante)Vendite totali (MM €)Pubblicità (M €)Investimenti (M €)

Modello1

2

3

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

yi = 2730.0 + 4.42VendTot + 7.49Pubblic + 2.26Invest

Significatività del Modello

ANOVAd

6927737 2 3,E+06 42,089 ,000b

2880467 35 822999808203 377615692 3 3,E+06 39,366 ,000c

2192512 34 644869808203 37

RegressioneResiduoTotaleRegressioneResiduoTotale

Modello2

3

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €)b.

Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.

Variabile dipendente: Vendite (M €)d.

Le procedure forward stepwise

40

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Variabili esclused

-,082a -,702 ,487 -,118 1,000-,156a -1,130 ,266 -,188 ,698-,034a -,288 ,775 -,049 ,995-,034a -,290 ,774 -,049 ,973,357a 3,499 ,001 ,509 ,979,441a 4,718 ,000 ,623 ,960

-,072a -,264 ,793 -,045 ,185,003b ,030 ,976 ,005 ,961

-,255b -2,452 ,019 -,388 ,676,013b ,141 ,888 ,024 ,984

-,067b -,719 ,477 -,122 ,968,274b 3,266 ,002 ,489 ,932,041b ,187 ,853 ,032 ,183,025c ,300 ,766 ,052 ,955

-,196c -2,027 ,051 -,333 ,646,030c ,363 ,719 ,063 ,980

-,102c -1,243 ,223 -,211 ,953-,110c -,558 ,581 -,097 ,173

Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Spese per Vendite (M €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Spese per Vendite (M €)

Modello1

2

3

Beta In t Sig.Correlazioni

parziali Tolleranza

Statistiche dicollinearità

Stimatori nel modello : (Costante), Vendite totali (MM €)a.

Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €)b.

Stimatori nel modello : (Costante), Vendite totali (MM €), Pubblicità (M €), Investimenti (M €)c.

Variabile dipendente: Vendite (M €)d.

Nessuna variabile ha un livello di significatività <0,05

Ci fermiamo

Le procedure forward stepwise

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Il Modello finale:

yi = 2730.0 + 4.42VendTot + 7.49Pubblic + 2.26Invest

(criterio: Probability of F-to-enter >0.05)

Riepilogo del modellod

,721a ,520 ,506 361,793,840b ,706 ,690 286,878,881c ,776 ,757 253,940

Modello123

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), Vendite totali (MM €)a.

Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €)b.

Stimatori: (Costante), Vendite totali (MM €), Pubblicità (M €),Investimenti (M €)

c.

Variabile dipendente: Vendite (M €)d.

Le procedure forward stepwise

41

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Metodi StepwiseBackward

Forward

b. Regressione Backward Stepwise

1. Si parte dal modello completo, con tutte le variabili;

Ad ogni passo rimuoviamo la variabile Xj con il più piccolo contributo marginale, |tj|=min, e sottoponiamo a test la significatività globale del modello (ANOVA).

2.

Ci fermiamo quando, tra le variabili nel modello, nessuna ha un contributo marginale non significativo (cioè, tutte hanno un contributo significativo).

3.

Le procedure stepwise

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Coefficientia

3129,2 641,355 4,879 ,0004,423 1,588 ,605 2,785 ,009-,022 ,401 -,005 -,054 ,958

-13,526 8,305 -,201 -1,629 ,1141,676 3,291 ,043 ,509 ,614

-3,410 6,569 -,054 -,519 ,6081,924 ,778 ,234 2,474 ,0198,547 1,826 ,434 4,679 ,0001,497 2,771 ,130 ,540 ,593

3115,6 579,517 5,376 ,0004,426 1,561 ,606 2,836 ,008

-13,445 8,029 -,200 -1,675 ,1041,706 3,191 ,044 ,535 ,597

-3,392 6,451 -,053 -,526 ,6031,931 ,756 ,234 2,554 ,0168,558 1,784 ,435 4,798 ,0001,482 2,710 ,129 ,547 ,588

3137,5 571,233 5,493 ,0004,756 1,412 ,651 3,368 ,002

-14,790 7,521 -,220 -1,966 ,0581,705 3,153 ,044 ,541 ,5931,885 ,742 ,229 2,539 ,0168,519 1,761 ,433 4,837 ,000

,950 2,484 ,082 ,382 ,7053084,0 546,374 5,645 ,000

5,222 ,704 ,714 7,415 ,000-13,467 6,589 -,200 -2,044 ,049

1,700 3,111 ,043 ,546 ,5891,984 ,686 ,241 2,893 ,0078,328 1,666 ,423 4,998 ,000

3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000

-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000

(Costante)Vendite totali (MM €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)

Modello1

2

3

4

5

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

Coefficientia

3115,6 579,517 5,376 ,0004,426 1,561 ,606 2,836 ,008

-13,445 8,029 -,200 -1,675 ,1041,706 3,191 ,044 ,535 ,597

-3,392 6,451 -,053 -,526 ,6031,931 ,756 ,234 2,554 ,0168,558 1,784 ,435 4,798 ,0001,482 2,710 ,129 ,547 ,588

(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)

Modello2

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

Modello 1

Modello 2

Le procedure backward stepwise

42

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Modello 3

Modello 4

Coefficientia

3137,5 571,233 5,493 ,0004,756 1,412 ,651 3,368 ,002

-14,790 7,521 -,220 -1,966 ,0581,705 3,153 ,044 ,541 ,5931,885 ,742 ,229 2,539 ,0168,519 1,761 ,433 4,837 ,000

,950 2,484 ,082 ,382 ,7053084,0 546,374 5,645 ,000

5,222 ,704 ,714 7,415 ,000-13,467 6,589 -,200 -2,044 ,049

1,700 3,111 ,043 ,546 ,5891,984 ,686 ,241 2,893 ,0078,328 1,666 ,423 4,998 ,000

3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000

-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000

(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)

Modello3

4

5

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

Coefficientia

3084,0 546,374 5,645 ,0005,222 ,704 ,714 7,415 ,000

-13,467 6,589 -,200 -2,044 ,0491,700 3,111 ,043 ,546 ,5891,984 ,686 ,241 2,893 ,0078,328 1,666 ,423 4,998 ,000

3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000

-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000

(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M e)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)

Modello4

5

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

Coefficientia

3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000

-13,172 6,497 -,196 -2,027 ,0511,968 ,678 ,239 2,903 ,0078,229 1,639 ,418 5,021 ,000

(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)

Modello5

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite (M €)a.

Modello 5Nessun coefficiente ha un liv. di significatività>0,10

Ci fermiamo

Le procedure backward stepwise

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Il modello finale

Yi = 3302.0 + 5.19VendTot −13.17Prez +1.97Inve + 8.23Pubb

(criterio: Probability of F-to-remove <0.10)

Riepilogo del modellof

,898a ,806 ,752 256,289,898b ,806 ,760 251,993,897c ,804 ,766 249,035,896d ,803 ,772 245,691,895e ,801 ,777 243,065

Modello12345

R R-quadratoR-quadrato

correttoErrore std. della

stima

Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl.Settore (M €), Sconti ai rivenditori (M e), Investimenti (M €), Pubblicità (M€), Budget Ricerca (M €), Prezzo (€), Vendite totali (MM €)

a.

Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M e),Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€),Vendite totali (MM €)

b.

Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M e),Investimenti (M €), Pubblicità (M €), Prezzo (€), Vendite totali (MM €)

c.

Stimatori: (Costante), Sconti ai rivenditori (M e), Investimenti (M €),Pubblicità (M €), Prezzo (€), Vendite totali (MM €)

d.

Stimatori: (Costante), Investimenti (M €), Pubblicità (M €), Prezzo (€),Vendite totali (MM €)

e.

Variabile dipendente: Vendite (M €)f.

ANOVAf

7903373 8 987922 15,041 ,000a

1904830 29 656849808203 377903184 7 1,E+06 17,780 ,000b

1905020 30 635019808203 377885628 6 1,E+06 21,192 ,000c

1922575 31 620199808203 377876558 5 2,E+06 26,097 ,000d

1931645 32 603649808203 377858540 4 2,E+06 33,253 ,000e

1949664 33 590819808203 37

RegressioneResiduoTotaleRegressioneResiduoTotaleRegressioneResiduoTotaleRegressioneResiduoTotaleRegressioneResiduoTotale

Modello1

2

3

4

5

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), Spese per Vendite (M €), Investimenti pubbl. Settore (M €),Sconti ai rivenditori (M €), Investimenti (M €), Pubblicità (M €), Budget Ricerca (M €),Prezzo (€), Vendite totali (MM €)

a.

Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M €), Investimenti(M €), Pubblicità (M €), Budget Ricerca (M €), Prezzo (€), Vendite totali (MM €)

b.

Stimatori: (Costante), Spese per Vendite (M €), Sconti ai rivenditori (M €), Investimenti(M €), Pubblicità (M €), Prezzo (€), Vendite totali (MM €)

c.

Stimatori: (Costante), Sconti ai rivenditori (M €), Investimenti (M €), Pubblicità (M €),Prezzo (€), Vendite totali (MM €)

d.

Stimatori: (Costante), Investimenti (M €), Pubblicità (M €), Prezzo (€), Vendite totali (MM€)

e.

Variabile dipendente: Vendite (M €)f.

Le procedure backward stepwise

43

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

con ε i ~ N 0,σ 2( )

Un residuo è considerato “importante” se: ei >1.96 ×σ

Yi = β0 + β1X1i + β2X 2i +…+ βkXki + εi

e

95%

-1,96 σ 1,96 σ

2,5%2,5%

0

L’analisi dei residui

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

Standardized Residual

0

2

4

6

8

10

Freq

uenz

a

0 10 20 30 40

Semestre

-3,00

-2,00

-1,00

0,00

1,00

2,00

3,00

Stan

dard

ized

Resi

dual

L’analisi dei residui

44

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Con il termine multicollinearità si intende una relazione lineare tra alcune o tutte le variabili esplicative;

•  Il problema della multicollinearità riguarda la sua intensità e non la sua presenza; Non è tanto importante sapere se c’è o non c’è multicollinearità, ma quanto questa è forte;

•  Quando la multicollinearità è molto alta, l’errore standard dei coefficienti di regressione aumenta in modo rilevante, con la conseguenza che le stime dei parametri incogniti risultano non più attendibili.

•  Il principale effetto della multicollinearità è sull’errore standard degli stimatori dei parametri ; ( )jβ

La multicollinearità

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Y

X2X1 X2X1

Y

Y

X2X1

Assenza di collinearità

Bassa collinearità

Alta collinearità

La multicollinearità

45

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  R2 alto ma pochi valori t significativiQuando l’R2 è alto, es. R2 >0,8, il test F tenderà a rifiutare l’ipotesi che i coefficienti parziali sono tutti uguali a zero, anche se i t test sui singoli coefficienti mostrano che nessuno o pochissimi di questi sono significativamente diversi da zero.

•  Forti correlazioni tra i regressoriUn’altra “rule of thumb” afferma che se il coeff. di correlazione tra due regressori è elevato, es. r>0,8, allora la multicollinearità può essere un serio problema. D’altra parte, non è detto che se i coeff. di correlazione sono bassi non ci possa essere comunque multicollinearità.

Calcoliamo, per ogni regressore Xj, l’R2 ottenuto ponendo quel regressore come variabile dipendente e tutti gli altri come variabili esplicative. Quanto più è alto l’R2 tanto più è alto il rischio di multicollinearità. Il livello di tolleranza è dato da 1-R2.Come regola generale, possiamo dire che un livello di tolleranza minore di 0,2 (cioè R2>0,8) indica un alto rischio di collinearità.

•  Livello di tolleranza

•  VIF (Variance Inflation Factor)Utilizzando la precedente regola, possiamo dire che un VIF>5 può essere considerato come un alto rischio di collinearità.

VIF = 1Tolerance

L’individuazione della multicollinearità

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Coefficientia

3129,2 641,355 4,879 ,0004,423 1,588 ,605 2,785 ,009 ,142 7,051-,022 ,401 -,005 -,054 ,958 ,882 1,133

-13,526 8,305 -,201 -1,629 ,114 ,439 2,2761,676 3,291 ,043 ,509 ,614 ,946 1,057

-3,410 6,569 -,054 -,519 ,608 ,630 1,5871,924 ,778 ,234 2,474 ,019 ,752 1,3308,547 1,826 ,434 4,679 ,000 ,778 1,2851,497 2,771 ,130 ,540 ,593 ,116 8,621

3115,6 579,517 5,376 ,0004,426 1,561 ,606 2,836 ,008 ,142 7,042

-13,445 8,029 -,200 -1,675 ,104 ,454 2,2011,706 3,191 ,044 ,535 ,597 ,973 1,028

-3,392 6,451 -,053 -,526 ,603 ,632 1,5831,931 ,756 ,234 2,554 ,016 ,769 1,3008,558 1,784 ,435 4,798 ,000 ,789 1,2681,482 2,710 ,129 ,547 ,588 ,117 8,529

3137,5 571,233 5,493 ,0004,756 1,412 ,651 3,368 ,002 ,169 5,905

-14,790 7,521 -,220 -1,966 ,058 ,506 1,9771,705 3,153 ,044 ,541 ,593 ,973 1,0281,885 ,742 ,229 2,539 ,016 ,779 1,2838,519 1,761 ,433 4,837 ,000 ,790 1,266

,950 2,484 ,082 ,382 ,705 ,136 7,3413084,0 546,374 5,645 ,000

5,222 ,704 ,714 7,415 ,000 ,663 1,508-13,467 6,589 -,200 -2,044 ,049 ,641 1,559

1,700 3,111 ,043 ,546 ,589 ,973 1,0281,984 ,686 ,241 2,893 ,007 ,889 1,1258,328 1,666 ,423 4,998 ,000 ,859 1,164

3302,0 369,212 8,943 ,0005,192 ,695 ,710 7,475 ,000 ,667 1,499

-13,172 6,497 -,196 -2,027 ,051 ,646 1,5491,968 ,678 ,239 2,903 ,007 ,890 1,1238,229 1,639 ,418 5,021 ,000 ,869 1,151

(Costante)Vendite totali (MM €)Investimenti pubbl. Settore (M €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M €)Budget Ricerca (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M €)Investimenti (M €)Pubblicità (M €)Spese per Vendite (M €)(Costante)Vendite totali (MM €)Prezzo (€)Sconti ai rivenditori (M €)Investimenti (M €)Pubblicità (M €)(Costante)Vendite totali (MM €)Prezzo (€)Investimenti (M €)Pubblicità (M €)

Modello1

2

3

4

5

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig. Tolleranza VIF

Statistiche dicollinearità

Variabile dipendente: Vendite (M €)a.

L’individuazione della multicollinearità

46

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione con variabili qualitative

Investimenti pubblicitari

Vendite

1 se Televisione 2 se Radio 3 se Giornali

Tipo di canale:

0 1 1Y X εβ β= + +

Vendite Investimenti pubblicitari

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione con variabili qualitative

Investimenti pubblicitari

Vendite

1 se Televisione 2 se Radio 3 se Giornali

Tipo di canale:

Vendite Investimenti pubblicitari

Per ogni variabile categorica con k modalità occorre definire k nuove variabili dummy (di cui ne occorreranno, in realtà k-1)

0 1 1Y X εβ β= + +

MeseVendite mensili(M di €)

Inv. Pubbl.(M di €) Canale

1 35 15 3

2 13 5 2

3 28 17 3

4 21 12 1

: : : :

Televisione Radio Giornali

0 0 1

0 1 0

0 0 1

1 0 0

: : :

47

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione con variabili qualitative

Investimenti pubblicitari

Vendite

0 1 1 2 2 3 3Y X X X εβ β β β= + + + +

Y = Vendite

X1 = Inv. pubblicitari

X2 = 1 se Televisione 0 altrimenti

X3 = 1 se Radio 0 altrimenti

X4 = 1 se Giornali 0 altrimenti

0 1 1Y X εβ β= + +

( )0 1 1 3 0 3 1 1Y X Xε εβ β β β β β= + + + = + + +

( )0 1 1 2 0 2 1 1Y X Xε εβ β β β β β= + + + = + + +

se Giornali

se Radio

se Televisione

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione con variabili qualitative

Investimenti pubblicitari

Vendite Y = Vendite

X1 = Inv. pubblicitari

X2 = 1 se Televisione 0 altrimenti

X3 = 1 se Radio 0 altrimenti

0 1 1 2 2 3 3Y X X X εβ β β β= + + + +

48

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

La Regressione con variabili qualitative

Investimenti pubblicitari

Vendite Y = Vendite

X1 = Inv. pubblicitari

X2 = 1 se Televisione 0 altrimenti

X3 = 1 se Radio 0 altrimenti

0 1 1Y X εβ β= + +

( ) ( )0 1 1 3 5 1 0 3 1 5 1Y X X Xε εβ β β β β β β β= + + + + = + + + +

( ) ( )0 1 1 2 4 1 0 2 1 4 1Y X X Xε εβ β β β β β β β= + + + + = + + + +

se Giornali

se Radio

se Televisione

0 1 1 2 2 3 3 4 1 2 5 1 3Y X X X X X X X εβ β β β β β= + + + + + +

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Il caso “la Fattoria” •  Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.

•  Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.

0,40 0,50 0,60 0,70 0,80 0,90 1,00 1,10

Prezzo Marca 1

0

1000

2000

3000

4000

5000

Vend

ite M

arca

1

Catena123

49

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.

Il Modello

0 1 1 2 2 3 3y X X X= β + β + β + β 4 1 2 5 1 3 X X X X+ β + β

Effetto principale, Prezzo Interazione Effetto principale,

Catena

Y= Vendite M1

X1= Prezzo M1

X2= Catena 1 1 se Catena 1

0 se No

X3= Catena 2 1 se Catena 2

0 se No

Il caso “la Fattoria” •  Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.

Coefficientia

1801,1 1056,12 1,705 ,092-1695,9 1403,87 -,204 -1,208 ,2313351,4 1514,97 1,286 2,212 ,0303966,9 1340,40 1,650 2,960 ,004

-1338,1 1929,80 -,422 -,693 ,490-2062,7 1638,18 -,842 -1,259 ,212

(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1Prod X1 Dummy 1Prod X1 Dummy 2

Modello1

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite Marca 1a.

1 2 3 1 2 1 3ˆ 1801,1 1695,9 3351,4 3966,9 1338,1 2062,6y X X X X X X X= − + + − −

Riepilogo del modello

,881a ,775 ,761 550,900Modello1

R R-quadratoR-quadrato

correttoErrore std.della stima

Stimatori: (Costante), Prod X1 Dummy 2, Prod X1 Dummy1, Prezzo vero Marca 1, Dummy Catena 2 Marca 1, DummyCatena 1 Marca 1

a.

ANOVAb

8,0E+07 5 2,E+07 52,467 ,000a

2,3E+07 76 3034911,0E+08 81

RegressioneResiduoTotale

Modello1

Somma deiquadrati df

Media deiquadrati F Sig.

Stimatori: (Costante), Prod X1 Dummy 2, Prod X1 Dummy 1, Prezzo vero Marca 1,Dummy Catena 2 Marca 1, Dummy Catena 1 Marca 1

a.

Variabile dipendente: Vendite Marca 1b.

Il caso “la Fattoria” •  Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.

50

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

3 5 14 16 20 25 29 31 33 49 56 62 64 70 74 78 80 82 84 90 99 101103105107109112114116126129131133135137139141147149151153

Settimana

0

2.000

4.000

6.000

8.000

10.000

Vend

ite M

1

Vendite M1Previsione

•  Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.

1 2 3 1 2 1 3ˆ 1801,1 1695,9 3351,4 3966,9 1338,1 2062,6y X X X X X X X= − + + − −

R2=0,78

Il caso “la Fattoria” •  Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.

La procedura stepwise

Coefficientia

1801,1 1056,12 1,705 ,092-1695,9 1403,87 -,204 -1,208 ,2313351,4 1514,97 1,286 2,212 ,0303966,9 1340,40 1,650 2,960 ,004

-1338,1 1929,80 -,422 -,693 ,490-2062,7 1638,18 -,842 -1,259 ,2122331,9 725,262 3,215 ,002

-2404,0 959,999 -,290 -2,504 ,0142307,3 165,548 ,885 13,937 ,0003436,2 1096,67 1,429 3,133 ,002

-1354,5 1276,55 -,553 -1,061 ,2922906,0 483,360 6,012 ,000

-3170,1 633,276 -,382 -5,006 ,0002357,5 158,767 ,905 14,849 ,0002291,7 198,424 ,953 11,550 ,000

(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1Prod X1 Dummy 1Prod X1 Dummy 2(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1Prod X1 Dummy 2(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1

Modello1

2

3

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite Marca 1a.

Il caso “la Fattoria” •  Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.

51

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.

La procedura stepwise: Il modello finale

1 2 3ˆ 2906.0 3170.1 2357.5 2291.7y X X X= − + +

Coefficientia

2906,0 483,360 6,012 ,000-3170,1 633,276 -,382 -5,006 ,0002357,5 158,767 ,905 14,849 ,0002291,7 198,424 ,953 11,550 ,000

(Costante)Prezzo vero Marca 1Dummy Catena 1 Marca 1Dummy Catena 2 Marca 1

Modello3

B Errore std.

Coefficienti nonstandardizzati

Beta

Coefficientistandardizzati

t Sig.

Variabile dipendente: Vendite Marca 1a.

Quindi…

Quale sarà l’ammontare delle vendite per la nostra marca in una settimana senza promozione e con un prezzo di 0,80€?

Il caso “la Fattoria” •  Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

•  Selezioniamo quindi le settimane in cui non abbiamo fatto promozioni.

La procedura stepwise: Il modello finale

1 2 3ˆ 2906.0 3170.1 2357.5 2291.7y X X X= − + +

Quale sarà l’ammontare delle vendite per la nostra marca in una settimana senza promozione e con un prezzo di 0,80€?

Catena 1 ⇒ X2 = 1 ˆ 2906.0 3170.1 0,8 2357.5 2727,4y = − × + =

Catena 2 ⇒ X3 = 1 ⇒ ˆ 2906.0 3170.1 0,8 2291.7 2661,6y = − × + =

Catena 3 ⇒ ˆ 2906.0 3170.1 0,8 369,9y = − × =

Il caso “la Fattoria” •  Vogliamo studiare la dipendenza delle Vendite dal Prezzo applicato nelle diverse Catene, senza considerare l’effetto di eventuali campagne promozionali.

52

Università degli Studi di Cassino e del Lazio Meridionale, CdS in Economia e Commercio (a.a. 2015-16)domenico vistoccoModulo di Statistica – La Regressione

Riassumendo…

Per utilizzare una variabile qualitativa nelle Regressione, occorre:

•  Costruire tante variabili dummy quante sono le modalità della variabile (k);

•  Scegliere una modalità come “livello base” (o benchmark, o modalità di controllo);

•  Costruire il modello con le atre k-1 dummies;

•  Costruire una o più variabili di interazioni moltiplicando il regressore per la corrispondente variabile dummy;

•  Aggiungere il/i termine/i di interazione al modello

Modelli di interazione