La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di...

54
La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella ([email protected])

Transcript of La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di...

Page 1: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La regressione come strumento di sintesi delle relazioni tra variabili

Università degli Studi di Genova

Dipartimento di Economia

Enrico di Bella([email protected])

Page 2: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataL’analisi congiunta dei fenomeni è un procedura molto comune, che consente di esprimere il legame esistente tra due fenomeni.

Ad esempio, si supponga di rilevare Statura (Y in cm) e Peso corporeo di 30 studenti di una classe.

Page 3: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataI dati, una volta raccolti, si presentano di non agevole lettura:

SOGGETTI P S SOGGETTI P S

1 65 168 16 65 182 2 72 182 17 72 190 3 80 190 18 65 174 4 68 174 19 68 174 5 72 174 20 80 190 6 80 182 21 68 174 7 65 168 22 72 174 8 68 174 23 65 168 9 72 182 24 65 174

10 68 168 25 80 174 11 65 168 26 68 168 12 68 168 27 72 182 13 72 182 28 80 190 14 68 174 29 65 168 15 68 174 30 80 182

Page 4: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataSpesso quindi si preferisce utilizzare una sintesi dei dati attraverso una tabella a doppia entrata:

P S

168 174 182 190 Totale

65 5 2 1 0 8 68 3 6 0 0 9 72 0 2 4 1 7 80 0 1 2 3 6

Totale 8 11 7 4 30

Page 5: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

P S

168 174 182 190 Totale

65 5 2 1 0 8 68 3 6 0 0 9 72 0 2 4 1 7 80 0 1 2 3 6

Totale 8 11 7 4 30

La tabella a doppia entrata consente di studiare sia le distribuzioni marginali di statura e peso:

che la distribuzione congiunta dei due fenomeni:

P S

168 174 182 190 Totale

65 5 2 1 0 8 68 3 6 0 0 9 72 0 2 4 1 7 80 0 1 2 3 6

Totale 8 11 7 4 30

L’analisi bivariata

Page 6: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataSovente, tuttavia, la rappresentazione dei dati in tabelle di frequenza non è agevole in quanto il numero di modalità in cui si possono presentare i fenomeni sono estremamente numerosi e ci si può trovare di fronte a tabelle sparse, cioè popolate prevalentemente da zero.

Page 7: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataAd esempio:

SOGGETTI P S SOGGETTI P S

1 64 160 16 71 163 2 64 153 17 71 165 3 80 170 18 73 164 4 65 152 19 73 162 5 66 150 20 73 164 6 66 154 21 73 169 7 66 156 22 74 166 8 67 154 23 74 170 9 67 156 24 75 169

10 68 157 25 75 171 11 69 161 26 76 173 12 69 161 27 77 174 13 70 158 28 78 174 14 71 158 29 80 182 15 71 158 30 82 177

Page 8: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataAd esempio, la tabella a doppia entrata corrispondente è la seguente:

150 152 153 154 156 157 158 160 161 162 163 164 165 166 169 170 171 173 174 177 18264 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 065 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 066 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 067 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 068 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 069 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 070 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 071 0 0 0 0 0 0 2 0 0 0 1 0 1 0 0 0 0 0 0 0 073 0 0 0 0 0 0 0 0 0 1 0 2 0 0 1 0 0 0 0 0 074 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 075 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 076 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 077 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 078 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 080 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 182 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

Stature

Pesi

Page 9: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataLa quale, se andiamo a ricercare le celle in cui le frequenze sono non nulle, rivela la seguente struttura:

150 152 153 154 156 157 158 160 161 162 163 164 165 166 169 170 171 173 174 177 18264 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 065 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 066 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 067 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 068 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 069 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 070 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 071 0 0 0 0 0 0 2 0 0 0 1 0 1 0 0 0 0 0 0 0 073 0 0 0 0 0 0 0 0 0 1 0 2 0 0 1 0 0 0 0 0 074 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 075 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 076 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 077 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 078 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 080 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 182 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

Stature

Pesi

Page 10: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataPotremmo andare a utilizzare tabelle per classi di intervallo, ma in generale si preferisce studiare i dati nella loro forma originaria ricorrendo ai diagrammi di dispersione (scatter plot):

150 155 160 165 170 175 180

65

70

75

80

Diagramma di dispersione dei dati

stature

pe

si

Page 11: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataPer riprodurlo in R è sufficiente scrivere:

NB: In R quando si va a capo con un invio automaticamente il simbolo > viene sostituito con un + ad indicare che il comando non è ancora stato concluso.

Page 12: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

L’analisi bivariataAltri comandi di R

Page 13: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaIl primo indice che può essere calcolato per valutare il legame tra due fenomeni

quantitativi X e Y è la COVARIANZA (indicata con COV(X,Y) oppure XY) cioè la

media aritmetica del prodotto degli scarti delle intensità dalla propria media (momento misto centrale di secondo ordine):

essendo:

N il numero totale delle osservazioni

Xi il valore assunto dal carattere X sulla i-ma unità

Yi il valore assunto dal carattere Y sulla i-ma unità

X la media aritmetica del carattere X

P la media aritmetica del carattere Y

Page 14: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaRiprendiamo l’esempio di Peso (P) e Statura (S) e aggiungiamo al grafico una linea verticale e una orizzontale in corrispondenza delle due medie P e S

150 155 160 165 170 175 180

65

70

75

80

Diagramma di dispersione dei dati

stature

pe

si

Page 15: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaIn R per ottenere quanto visualizzato è sufficiente digitare:

Page 16: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaCome si può vedere, rispetto a questi nuovo riferimento si identificano 4 quadranti:

150 155 160 165 170 175 180

65

70

75

80

Diagramma di dispersione dei dati

stature

pe

si

I quadranteII quadrante

III quadranteIV quadrante

Page 17: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaCome si può vedere, rispetto a questi nuovo riferimento si identificano 4 quadranti:

150 155 160 165 170 175 180

65

70

75

80

Diagramma di dispersione dei dati

stature

pe

si

Page 18: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaPertanto:

Quando vi è un eccesso di punti nel primo e terzo quadrante rispetto a quelli nel secondo e quarto la covarianza è positiva.

Viceversa, quando vi è un eccesso di punti nel secondo e quarto quadrante rispetto a quelli nel primo e terzo la covarianza è negativa.

Page 19: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianza

5 10 15 20

10

20

30

40

COVARIANZA POSITIVA

x

y

5 10 15 201

02

03

04

0

COVARIANZA NEGATIVA

x

y

Page 20: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaLa covarianza può essere anche nulla, quando gli scarti positivi e negativi si compensano. Tale situazione può essere legata a caratteristiche di non co-variazione dei fenomeni, ma anche si presenta anche in casi in cui la co-variazione è presente ma non lineare. Esempi:

-2 -1 0 1 2 3

-2-1

01

2

COVARIANZA NULLA

x

y

-4 -2 0 2 4

05

10

15

20

25

COVARIANZA NULLA

x

y

Page 21: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

21

Alcune noteOvviamente:

Inoltre:

Page 22: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

22

Alcune noteDa cui si ricava anche che:

Page 23: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaRicorrendo alla diseguaglianza di Cauchy-Schwartz:

si ricava che:

2

1

N

i ii

a b

2

1

N

ii

a

2

1

N

ii

b

2

1

2

( )( )N

i X i Yi

x y

N

2

1

N

i Xi

x

N

2

1( )

N

i Yi

y

N

2

1

2

( )( )N

i X i Yi

x y

N

= XY X

Y

Page 24: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La covarianzaDa cui:

| XY| X Y

X Y XY + X Y

X Y XY X Y

X Y X Y X Y

1 XY

X Y

+ 1

1 XY

X Y

+ 1

Page 25: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Il coefficiente di correlazioneLa quantità:

Detta coefficiente di correlazione, rappresenta l’intensità del legame esistente tra due fenomeni.

= XY

X Y

5 10 15 20

1020

3040

= -1

x

y

5 10 15 20

1020

3040

50

-1 << 0

x

y

5 10 15 20

1015

2025

30 = 0

x

y

5 10 15 2050

6070

8090

0 << 1

x

y5 10 15 20

6070

8090

= 1

x

y

Page 26: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

I modelli di regressioneValutata la sussistenza di un legame di dipendenza tra i fenomeni può essere utile trovare una sua sintesi matematica. Ad esempio:

Peso = a + b Statura (retta di regressione)

Peso = a + b Statura + c Statura2 (parabola di regressione)

Peso = a + b Statura + c Ore_di_attività_sportiva (piano di regressione)

Page 27: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

I modelli di regressione

Il principio di fondo che sottosta a concetto di regressione è che nello studio dei fenomeni è possibile riscontrare della dispersione, della variabilità che misuriamo attraverso la varianza.

Perché un certo fenomeno assume valori differenti?

L’analisi di regressione ricerca le cause di questa variabilità imputando a queste una quota parte della variabilità del fenomeno dipendente.

Page 28: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

I modelli di regressioneSiano Y una variabile detta dipendente ed X un’altra variabile detta indipendente, o esplicativa.

Se si osserva che i due fenomeni Y ed X sono tra loro collegati è possibile immaginare che esista tra loro un legame di questa natura:

Ovvero: i valori assunti dal fenomeno dipendente, sono legati ai valori che assume il fenomeno indipendente, con una componente residuale dovuta ad altre cause.

𝑌= 𝑓ሺ𝑋ሻ+𝑒= 𝑌 +𝑒

Page 29: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

I modelli di regressionePer esempio:

Variabile dipendente

Variabile/variabili indipendenti

Altre ragioni

Peso Statura Tipologia di alimentazione, problemi di salute, ore di sport praticato settimanalmente, problemi psicologici, …

Numero di viaggiatori negli aeroporti

Giorno della settimana, essere in un periodo di festività o di ferie, ciclo economico

Viaggi per ritrovare parenti, promozioni in atto sui prezzi dei biglietti, …

Vendite di un prodotto Investimenti in marketing Posizionamento del prodotto a scaffale, prezzo del prodotto rispetto ai concorrenti, …

Page 30: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

I modelli di regressioneQuali che siano le ragioni ritenute più utili per spiegare la variabilità di Y, una volta che sono state specificate sotto forma di variabili indipendenti, tutto ciò che viene escluso dal modello è ERRORE, residuo dovuto a ragioni che non siamo riusciti per vari motivi ad includere nel modello:

Se ho ben individuato le cause della variazione di Y allora il residuo della regressione sarà piccolo. Viceversa, se la o le variabili che ho individuato per spiegare (ecco perché si chiamano anche esplicative) la variabilità di Y sono inefficaci a tal fine, la componente d’errore sarà grande.

Page 31: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressioneLa retta di regressione è il modello più semplice per spiegare la dipendenza di un fenomeno (Y) da un altro (X).

Consideriamo il solito scatter plot di Statura e Peso.

150 155 160 165 170 175 180

65

70

75

80

Diagramma di dispersione dei dati

stature

pe

si

Page 32: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressioneLe rette su un piano che esprimano il legame di dipendenza di Y da X sono infinite, a meno che non venga definito un criterio di ottimalità:

150 155 160 165 170 175 180

65

70

75

80

Diagramma di dispersione dei dati

stature

pe

si

Page 33: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressioneQuesto criterio è la celebre condizione di accostamento dei minimi quadrati ordinari (MQO - OLS):

Qualunque sia il modello rappresentato da questa condizione consente di trovare il valore dei parametri che soddisfa il precedente vincolo.

Page 34: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressioneLa condizione OLS specifica di trovare la retta di regressione tale da rendere minima la somma dei quadrati delle distanze qui rappresentate:

150 155 160 165 170 175 180

65

70

75

80

Diagramma di dispersione dei dati

stature

pe

si

Page 35: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressioneQuindi si ha che:

Che è una quantità nota a meno dei due parametri a e b. E possibile dimostrare che questa quantità è convessa e quindi il suo minimo viene raggiunto ponendo uguali a zero le due derivate parziali, rispetto ad a e a b:

Page 36: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressione

Page 37: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressione

Ricordando che:

Page 38: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressione

Page 39: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressionei s i p i s i - S p i - P (s i - S )(p i - P ) (s i - S )2 (p i - P )2

1 160 64 -3,37 -7,60 25,59 11,33 57,762 153 64 -10,37 -7,60 78,79 107,47 57,763 170 80 6,63 8,40 55,72 44,00 70,564 152 65 -11,37 -6,60 75,02 129,20 43,56 S = 163,3667

5 150 66 -13,37 -5,60 74,85 178,67 31,36 P = 71,66 154 66 -9,37 -5,60 52,45 87,73 31,367 156 66 -7,37 -5,60 41,25 54,27 31,368 154 67 -9,37 -4,60 43,09 87,73 21,169 156 67 -7,37 -4,60 33,89 54,27 21,16

10 157 68 -6,37 -3,60 22,92 40,53 12,9611 161 69 -2,37 -2,60 6,15 5,60 6,76 a= -19,421412 161 69 -2,37 -2,60 6,15 5,60 6,76 b= 0,5571613 158 70 -5,37 -1,60 8,59 28,80 2,5614 158 71 -5,37 -0,60 3,22 28,80 0,3615 158 71 -5,37 -0,60 3,22 28,80 0,3616 163 71 -0,37 -0,60 0,22 0,13 0,3617 165 71 1,63 -0,60 -0,98 2,67 0,3618 164 73 0,63 1,40 0,89 0,40 1,9619 162 73 -1,37 1,40 -1,91 1,87 1,9620 164 73 0,63 1,40 0,89 0,40 1,9621 169 73 5,63 1,40 7,89 31,73 1,9622 166 74 2,63 2,40 6,32 6,93 5,7623 170 74 6,63 2,40 15,92 44,00 5,7624 169 75 5,63 3,40 19,15 31,73 11,5625 171 75 7,63 3,40 25,95 58,27 11,5626 173 76 9,63 4,40 42,39 92,80 19,3627 174 77 10,63 5,40 57,42 113,07 29,1628 174 78 10,63 6,40 68,05 113,07 40,9629 182 80 18,63 8,40 156,52 347,20 70,5630 177 82 13,63 10,40 141,79 185,87 108,16

TOTALI 0,00 0,00 1071,40 1922,97 707,20Medie 35,71 64,10 23,57

COV(S,P) VAR(S) VAR(P)

Page 40: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La retta di regressione

150 155 160 165 170 175 180

65

70

75

80

stature

pe

si

Page 41: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

è quella parte di variabilità di Y che è spiegabile attraverso il legame di dipendenza da X specificato dal modello.

è quella parte di variabilità di Y che non è interpretabile attraverso il legame di dipendenza ma è dovuto ad altre cause residuali.

La bontà della retta di regressione

Page 42: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La bontà della retta di regressione

150 155 160 165 170 175 180

65

70

75

80

Scatterplot dei valori osservati

stature

pe

si

150 155 160 165 170 175 180

-6-4

-20

24

Scatterplot dei residui di regressione

stature

P

P^

Page 43: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Un modello sarà tanto migliore quanto più i valori teorici si avvicinano a quelli reali.

La bontà della retta di regressione

0 5 10 15 20 25 30

50

10

01

50

modello buono

X

Y

0 5 10 15 20 25 30-5

00

50

10

02

00

modello meno buono

X

Y

Page 44: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La bontà di un modello può essere valutata tramite il rapporto tra la varianza spiegata dal modello stesso e la varianza totate, quantità detta coefficiente di determinazione:

R2 = 0 indica che il modello non spiega nulla della variabilità di Y le cui ragioni vanno ricercate nella componente residuale (errore)

R2 = 1 indica che il modello spiega perfettamente la variabilità di Y e che quindi, conoscendo X siamo perfettamente in grado di conoscere Y.

Un buon modello è tale per cui R2 > 0.8

La bontà della retta di regressione

Page 45: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Si osservi che:

La bontà della retta di regressione

Page 46: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

La classe dei modelli lineari può essere abbondantemente estesa:

I parametri di questi modelli possono essere stimati ricorrendo alla condizione di accostamento dei minimi quadrati ordinari.

Altri modelli lineari

Page 47: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Altri modelli lineariLe formule per il calcolo dei coefficienti non sono più agevolmente risolvibili per sostituzione e quindi il sistema di equazioni normali viene risolto ricorrendo al calcolo matriciale.

Page 48: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Altri modelli lineariAd esempio, nel caso del piano di regressione la condizione di accostamento dei minimi quadrati ordinari porta a:

1

1

1

2 0

2 0

2 0

N

i i iiN

i i i iiN

i i i ii

fy a bx cz

af

y a bx cz xbf

y a bx cz zc

1 1 1

2

1 1 1 1

2

1 1 1 1

N N N

i i ii i iN N N N

i i i i iii i i iN N N N

i i i i i ii i i i

y Na b x c z

x y a x b x c x z

y z a z b x z c z

2 2

2 2 2 2 2 2

2

2 2 2

2

2 2 2

XY XZ YZ YZ XY XZZ XY X Z

X Z XZ X Z XZ

XY XZ YZZ

X Z XZ

YZ XY XZX

X Z XZ

a

b

c

Page 49: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

In R, comunque, la sintassi rimane estremamente semplice. Ad esempio avendo 5 variabili esplicative (X1, X2, X3, X4, X5), scriviamo e una dipendente (Y), scriviamo:

lm(Y ~ X1 + X2 + X3 + X4 + X5)

ricavando intercetta e i 5 coefficienti del modello:

Altri modelli lineari

Page 50: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Intuitivamente si può ben comprendere che anche i parametri dei modelli di regressione e tutta l’analisi di correlazione collegata siano oggetto di analisi inferenziali. Ad ogni campione proveniente dalla popolazione corrispondono valori diversi e quindi anche diversi valori dei parametri.

Cenni di inferenza

Page 51: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Intuitivamente si può ben comprendere che anche i parametri dei modelli di regressione e tutta l’analisi di correlazione collegata siano oggetto di analisi inferenziali. Ad ogni campione proveniente dalla popolazione corrispondono valori diversi e quindi anche diversi valori dei parametri.

Ad esempio: generiamo 6 campioni di ampiezza 10 dalla popolazione di 30 unità.

Sulla base dei dati raccolti calcoliamo i coefficienti della retta e confrontiamo graficamente i risultati.

In rosso sono rappresentati i valori campionati mentre in grigio quelli non campionati.

Cenni di inferenza

Page 52: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Cenni di inferenza

150 155 160 165 170 175 180

6570

7580

Campione 1

stature

pesi

150 155 160 165 170 175 18065

7075

80

Campione 2

stature

pesi

150 155 160 165 170 175 180

6570

7580

Campione 3

stature

pesi

150 155 160 165 170 175 180

6570

7580

Campione 4

stature

pesi

150 155 160 165 170 175 180

6570

7580

Campione 5

stature

pesi

150 155 160 165 170 175 180

6570

7580

Campione 6

stature

pesi

Page 53: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Cenni di inferenza

150 155 160 165 170 175 180

6570

7580

Dati Originali

stature

pesi

150 155 160 165 170 175 180

6570

7580

10 campioni di ampiezza 5

stature

pesi

150 155 160 165 170 175 180

6570

7580

10 campioni di ampiezza 10

stature

pesi

150 155 160 165 170 175 180

6570

7580

10 campioni di ampiezza 15

stature

pesi

Page 54: La regressione come strumento di sintesi delle relazioni tra variabili Università degli Studi di Genova Dipartimento di Economia Enrico di Bella (edibella@economia.unige.it)

Cenni di inferenza

150 155 160 165 170 175 180

6570

7580

1000 campioni di ampiezza 5

stature

pesi

150 155 160 165 170 175 180

6570

7580

1000 campioni di ampiezza 10

stature

pesi

150 155 160 165 170 175 180

6570

7580

1000 campioni di ampiezza 15

stature

pesi

150 155 160 165 170 175 180

6570

7580

1000 campioni di ampiezza 20

stature

pesi