Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due...

13
03/11/2015 1 Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2015-2016 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Valutare la bontà di adattamento della retta di regressione I. Mingo 2015-2016

Transcript of Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due...

Page 1: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

1

Metodi statistici per le ricerche di mercato

Prof.ssa Isabella MingoA.A. 2015-2016

Facoltà di Scienze Politiche, Sociologia, Comunicazione

Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»

Valutare la bontà di adattamento della retta di regressione

I. Mingo 2015-2016

Page 2: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

2

Criterio per valutare la bontà di adattamento: il coefficiente di determinazione R2

I. Mingo 2015-2016

Come si interpreta R2

I. Mingo 2015-2016

Page 3: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

3

Uso del software: regressione

I. Mingo 2015-2016

Uso del software:output

I. Mingo 2015-2016

Ŷi=-2,474 +1,192Xi

R2= 3436.96/3908=0,879

R2 corretto tiene conto dei gradi di libertà del modello, cioè del numero di unità statistiche e del numero di variabili indipendenti (k) e si utilizza nella regressione multipla.

beta=B * DSx/DSy):È un coefficiente indipendente dalle unità di x e y , poiché le variabili indipendenti sono espresse in forma standardizzata (Z-score) - Nella regressione lineare bivariatacorrisponde alla r di Pearson

gl

kn-k+1

N-1

Page 4: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

4

Esercizio

I. Mingo 2015-2016

A partire dall’output seguente :• Disegnare la retta di regressione tra Reddito del nucleo familiare e Costo

di richiesta di indennizzo• Qual è la correlazione tra le due variabili?• Come si può valutare l’adattamento della retta di regressione ai punti

empirici?• Utilizzando il modello lineare, quale sarà il costo di indennizzo medio a

fronte di un reddito familiare pari a 91(in migliaia)?

Numero di variabili e tipi di regressione

I. Mingo 2015-2016

Page 5: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

5

La regressione multipla

I. Mingo 2015-2016

I modelli di regressione multipla rappresentano unaestensione della regressione bivariata, si utilizzano neicasi in cui la variabile quantitativa dipendente Y èespressa in funzione di più variabili quantitative, definiteregressori, che si suppongono indipendenti e di cui sivuole controllare l’effetto su quella dipendente.

Le variabili devono essere del seguente tipo:• variabile dipendente (Y): quantitativa• variabili indipendenti (X1, X2… Xk): quantitative o dicotomiche.

In presenza di due variabili indipendenti si ottiene un piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano.

La relazione lineare nel caso di più di due variabili

• la variabile osservata Y, nell’individuo i-esimo, viene espressa in funzione di p regressori;

• il parametro a , detto intercetta o costante, è il valore assunto da Y quando tutti i p regressori considerati sono pari a zero,

• i parametri bp esprimono la variazione media di Y dovuta da ogni variazione unitaria di ciascuno regressore tenendo costanti tutti gli altri.

• Ogni coefficiente bp esprime l’effetto lineare di ogni variabile Xp al netto degli effetti delle altre variabili incluse nel modello.

• Il parametro ε rappresenta l’errore che si commette nel predire il valore effettivo di Y mediante il modello lineare adottato.

I. Mingo 2015-2016

Yi= a + b1Xi1+ b2Xi2+…… bpXip + εi =

ip

k

ppba

1

Page 6: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

6

La regressione multipla

• Si tratta di individuare il migliore iperpiano possibile cioè quello che più si approssima ai valori osservati e dunque che rende minime le differenze tra i valori che il modello ci consente di predire e i valori empirici.

I. Mingo 2015-2016

min)][ˆ 2

1

22

ip

k

ppiii

ba

Ŷi= a + b1Xi1+ b2Xi2+…… bkXik

I coefficienti di regressione parziali

• ogni coefficiente di regressione bk tra la variabile dipendente eciascuna variabile indipendente esprime la variazione media delvalore della variabile dipendente prodotta da ogni variazione unitariadi ogni regressore, tenendo costanti i valori assunti da tutti gli altri.

• mediante questo controllo possiamo separare gli effetti netti esercitatida ogni variabile indipendente Xk da quelli esercitati dagli altriregressori;

• Questi coefficienti vengono definiti parziali, perché tengono ancheconto dell’interdipendenza tra i regressori e della dipendenza dellavariabile dipendente anche da tutti gli altri regressori inclusi nelmodello .

• Per due regressori:

I. Mingo 2015-2016

Page 7: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

7

Regressione multipla : usa del software

I. Mingo 2015-2016

I. Mingo 2015-2016

Ŷi= 25,630 +0,093Xi1 – 1,418Xi2

F= (3834,363/2)/(73,637/141)=3671)

Test F verifica se il valore campionario di R2 èsignificativamente diverso da 0F è uguale al rapporto tra la devianza media spiegata dalla regressione (media dei quadrati)e la devianza media residua

Deviazione standard = radice quadrata della media dei quadrati residuaServirà per definire gli «intervalli di confidenza» dei valori predetti con l’’equazione di regressione) che vedremo in seguito)

R è la correlazione tra i valori osservati e previsti dal modello

Page 8: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

8

Regressione multipla: la multicollinearità

I. Mingo 2015-2016

• La multicollinearità rappresenta un problema per la correttainterpretazione dei coefficienti di regressione

• Consiste nella eventuale presenza di correlazione tra le variabiliindipendenti.

• Si parla di collinearità perfetta quando tale correlazione è pari a 1,in tal caso l’iperpiano di regressione non è univocamenteidentificabile, poiché è possibile individuare infinite superfici che siadattano ai dati empirici.

• Nella pratica di ricerca il caso più comune è quello della quasi-collinearità) tanto da incidere sull’accuratezza dei risultati dellaregressione:

• Tanto più elevata è la correlazione tra le variabili indipendenti tantopiù instabili saranno i risultati e dunque più difficile stabilirne lasignificatività statistica.

Come individuare la multicollinearità1. Analizzare il coefficiente correlazione bivariato tra le variabili

indipendenti a due a due accertando che non sia molto elevato e che non sia maggiore di quello calcolato tra ciascuna delle variabili indipendenti e quella dipendente.

2. Utilizzare gli indici di Tolleranza (tolerance) e VIF (Varianceinflaction factor o fattore di accrescimento della varianza).

• Il primo indice Ti= (1-Ri²), in cui Ri² è il coefficiente di determinazione nella regressione della variabile indipendente i-esima sugli altri regressori – misura la quantità di varianza di questa variabile che non è spiegata dalle altre variabili indipendenti. Se Ti= 1 la collinearietànon esiste; viceversa se Ti= 0 allora si è in presenza del problema della collinearità perfetta.

• Il secondo indice VIFi= 1/ Ti costituisce il reciproco di Ti , pertanto in caso di multicollinearità il suo valore aumenta perché il denominatore si approssima allo zero.

I. Mingo 2015-2016

Page 9: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

9

Uso del software

I. Mingo 2015-2016

I. Mingo 2015-2016

La Tolleranza *100 è la percentuale della varianza di un dato regressore che non può essere spiegato dall’altro regressore.I valori della Tolleranza mostrano che solo il 12% della varianza di ciascun regressorenon può essere spiegata dall’altro, mentre l’88%può essere spiegata dall’altro.

Un fattore di inflazione della varianza (VIF) maggiore di 2 è di solito considerato problematico. In tabella VIF=8,36 !Pertanto tra i due regressori esiste collinearità.E’ opportuno eliminare il regressore meno significativo per il modello.

L’

Page 10: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

10

Analisi della dipendenza tra un carattere quantitativo e uno qualitativo

I. Mingo 2015-2016

L’analisi della dipendenza tra due caratteri X e Y , di cui il primo qualitativo e l’altro quantitativo, può essere compiuta confrontando i valori medi del carattere quantitativo calcolati nell’ambito di ciascuna delle modalità assunte dal carattere qualitativo . Tali valori si definiscono medie condizionate.

Si segue un approccio asimmetrico:Si ipotizza che siano le diverse modalità del carattere qualitativo ad influire sui valori che in media il carattere quantitativo assume sulle unità statistiche: si parlerà allora di dipendenza o indipendenza in media di Y da X.

Diremo che:• Y è indipendente in media da X se i valori medi di Y condizionatamente alle

K modalità di X, non variano, cioè:• Y è dipendente in media da X se le medie condizionate di Y rispetto a X

non sono tutte uguali. Tanto maggiore è la variabilità di tali medie tanto più forte è la dipendenza tra i due caratteri.

Esempio

I. Mingo 2015-2016

La spesa media mensile per un determinato prodotto è dieuro 42,93. Si evidenziano spese medie differenti a secondadella posizione nella professione degli acquirenti.

Spesa media per il prodotto BB per categoria occupazionale degli intervistati.

Occupazione

Spesa media mensile

Freq. Assoluta

Varianza di Dirigente 59,11 339 78,51 Impiegato 41,58 456 87,48 Commerciante 33,24 204 94,04 Agricoltore 36,56 36 91,8 Artigiano 41,53 163 51,41 Operaio 31,90 220 34,90 Totale 42,93 1418 170,76

Si può concludere che sulla spesa per il prodotto BB influisca la categoria occupazionale?

Page 11: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

11

Indice per misurare la forza di associazione: Eta quadrato

• L’indice eta quadrato rapporta la variabilità spiegata ossia la parte dellavariabilità totale di Y riprodotta dalle medie condizionate, la varianzatotale di Y.

con

• Variabilità

I. Mingo 2015-2016

L’indice è ottenuto rapportando la variabilità spiegata

.

Può assumere valori compresi tra 0 e 1.Tra questi due estremi, i valori di eta quadrato possono essere interpretaticome la proporzione della variabilità di un carattere imputabile alledifferenti categorie di un altro.

Variabilità totale di Y riprodotta dalle medie condizionate

Varianza totale di Y

I. Mingo 2015-2016

La varianza delle medie della spesa media (M(Y|X)) spiegata dalle categorie occupazionali (X) può essere calcolata nel modo seguente:

Page 12: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

12

Eta sarà:

I. Mingo 2015-2016

In questo caso possiamo dunque concludere che il 57% circa della variabilità della spesa media per il prodotto BB dipende dalla categoria occupazionale dei clienti.

Uso del software:Valori medi per sottogruppi di popolazione.Confronta medie

I. Mingo 2015-2016

Page 13: Metodi statistici per le ricerche di mercato · piano di regressione In presenza di più di due variabili indipendenti si ottiene un iperpiano. La relazione lineare nel caso di più

03/11/2015

13

Uso del software :output

I. Mingo 2015-2016

La variabilità riprodotta dalle mediecondizionate è prossima allo 0%I livelli di soddisfazione riguardanti idue items considerati non sidiversificano significativamente tramaschi e femmine.

Esercizio

Il premio ramo vita medio erogato da un’assicurazione è di 827 mila euro. Si evidenziano premi differenti a seconda delle ripartizioni delle agenzie. Sapendo che la varianza del premio è di 166394, si può concludere che ci sia una relazione tra ammontare medio del premio e ripartizione geografica?

I. Mingo 2015-2016

Media Nnord-ovest 1141 25

nord-est 1109 20centro 861 22sud 442 23isole 412 13Totale 827 103

Premi ramo vitaRipartizioni