ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli,...

Post on 16-Feb-2019

221 views 0 download

Transcript of ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli,...

ANALISI DEI DATIPER IL MARKETING

2018

Marco Rianimriani@unipr.it

http://www.riani.it

INDAGINI CON QUESTIONARIOZani – Cerioli, 2007, pp.11-20

• Formulazione del questionario• http://www.istat.it/strumenti/metodi/lineeguida/

• Prima parte (o ultima) riguardante le caratteristiche del rispondente

• Domande sull’oggetto dell’indagine

Suggerimenti pratici

• Nel questionario utilizzare domande formulate con diversi criteri

• Eventualmente, sul problema di maggiore interesse formulare due domande con criteri diversi (in posizioni non consecutive)

• Utilizzare questionari non troppo lunghi

COME TRATTARE LE DOMANDE CHE CONSENTONO RISPOSTE MULTIPLE?

Domande con risposte multiple:codificazione disgiuntiva

• Negli ultimi tre mesi hai letto qualche volta i seguenti giornali (quotidiani o settimanali)?

• Corriere della sera sì □ 1 no □ 0• Repubblica sì □ 1 no □ 0 • L’Espresso sì □ 1 no □ 0• Panorama sì □ 1 no □ 0• Gioia sì □ 1 no □ 0• Grazia sì □ 1 no □ 0• ….

VALUTAZIONE DEGLI ATTEGGIAMENTI ED OPINIONI (p. 16)

• Scale di Likert:• Assolutamente in disaccordo, in disaccordo, indifferente,

d’accordo, assolutamente d’accordo• Molto insoddisfatto, insoddisfatto, né soddisfatto né

insoddisfatto, soddisfatto, molto soddisfatto• VANTAGGI:• Chiarezza, • Maggiore articolazione, • Categorie ordinabili (traducono un continuum

sottostante)

VALUTAZIONE DEGLI ATTEGGIAMENTI ED OPINIONI (p. 16)

• Scale di Likert:• SVANTAGGI:• L’intervistato è indotto a scegliere una modalità di

risposta anche quando non sa cosa rispondere• Categoria centrale non so?

Il differenziale semanticoVALUTAZIONE DI UN OGGETTO TRAMITE UNA SERIE DI

AGGETTIVI BIPOLARI

• Bella - - - - - - - Brutta• Innovatrice - - - - - - - Conservatrice

• Attiva - - - - - - - Passiva• Ricca - - - - - - - Povera

• Unica - - - - - - - Comune • Divertente - - - - - - - Noiosa

• 3 DIMENSIONI SEMANTICHE SOTTOSTANTI:• EPA: Evaluation (buono-cattivo)• Potency (forte-debole)• Activity (veloce-lento)

Il differenziale semantico

Quanti aggettivi bipolari occorrono per individuare una determinata dimensione?

4 o 5 coppie di aggettivi bipolari

UFFICIO DEL TURISMO

• Come giudichi la città di Sabbioneta?• NOIOSA ---------------/--DIVERTENTE• CARENTE ------------/-----FUNZIONALE• PERICOLOSA----------------/-SICURA• ECONOMICA --------/---------COSTOSA

Utilizzi del differenziale semantico

• Immagine della marca (Brand image)• Efficacia delle strategie promozionali• Lancio di nuovi prodotti

• METTE IN EVIDENZA I PUNTI DI FORZA E DEBOLEZZA DELL’OGGETTO DELL’INDAGINE

Effetto di trascinamento e di omologazione

• Alcune domande, in virtù dei termini impiegati o dei concetti evocati, riescono ad influenzare anche le risposte ad alcune delle domande successive nel questionario

Cosa bisogna evitare nella predisposizione del questionario?

Suggerimenti pratici• Evitare l’effetto di trascinamento• Es. indagine con obiettivo atteggiamento

nei confronti della televisione• DOM 1) Molti programmi televisivi stimolano

l’intelligenza dei bambini (scala Likert)• DOM 2) In TV c’è troppa volgarità

Molti hanno risposto alla DOM 2) sotto l’effetto della DOM 1) ossia pensando ad un pubblico di bambini e

non ad un pubblico complessivo

Suggerimenti pratici• Evitare l’effetto di omologazione

• Es. domande su alcune realtà di natura soprannaturale

• Domanda sulla reincarnazione

• Output: 22% crede nella reincarnazione• Indagine alternativa: 3.7% crede nella

reincarnazione

Suggerimenti pratici• Evitare l’effetto di omologazione

ANALISI DEI DATI RACCOLTI CON QUESTIONARIO

• Per ogni variabile qualitativa: distribuzione di frequenze

• Per ogni variabile quantitativa: media (mediana) e deviazione standard (MAD)

• Per tutte le coppie di variabili qualitative: tavole di contingenza

• Per tutte le coppie di variabili quantitative: correlazione e matrice di correlazione

MISURE DI RELAZIONI LINEARI(vedi: Milioli, Riani, Zani, 2016, pp. 205-220)

• Diagramma di dispersione: prezzo-potenza home t., p.38

• Covarianza: COV (X, Y)• Coefficiente di correlazione lineare:r = -1 perfetta relazione inversa

r = 0 assenza di relazione linearer = +1 perfetta relazione diretta

)()(),(YVARXVAR

YXCOVrxy =

Es. implementazione in Excel della formula (file corr0.xlsx)

2/1

1 1

22

1

)()(1

))((1

)()(),(

−−

−−=

==

∑ ∑

= =

=

n

i

n

iyixi

n

iyixi

xy

MyMxn

MyMxn

YVARXVARYXCOVr

DIAGRAMMA DI DISPERSIONE(508 CLIENTI file CONADR.xls r = 0.885)

0 10 20 30 40

n. visite

0

1000

2000

3000

spes

a to

tale

(ulti

mi 6

mes

i)

A A

AAA

AA

A

A

A

A AAAA

AA A

A

AA

A

A

A

AAA A

A AAA

A

A

A

A

A

A

A

AA

A

AA A

A

A

A

A

AA AAA

AA A

A

A

AAA

A

A

A

AAA A

A A

AA

AA

A

A

A

AA AAA

A

AA

A

A

A

A

A

A

AA

A

A

AA

A

A

A

A

A

A A

A

A

A

A

A

A

A

AA

AA

A

AA

AA

AA

A

A

A

AAA A

A

A

AA

A

A

A

A AAA

A

AA A

A

AA

AA A

A

A

AA

A

A

AAA

AA

A

AA

AA

A

AAA

AA

A

AA

A

A

A

A

A

A

A

A

A

AA

A

A

A A

AA

A

AAA

A

A

A

A AA

A

A

A

A

AAAA

A

A

A

A

AA AA

A A

A

AA

A

A

AAA

A

A

AA

AAAAA AA

AA

AAA

A

AA A

A

AAA

A

A

AA

A AAA AA

A

A

AA

A

A

AA

AAA

AA

AA

A

A

AAA

A

A A

A

AAA

A

AAA

A AAA

AA

A

AAA

A

AAA

A

A

A

A

A

AA

A

AA

A

A

A

A

A

AA

AA

A

A

A

A

A

A

A

AA

A

AAA

A

A

A

AA

A

A

AA

A

A

A

A AA

A

A

A

A

AA

AA

A

A

A

A

AAA

A

A A AAA

AA

AAA

A

AA

A

A

A

A

A

A

AA

A

A

A

AA

A

A

A

A

A A

A

A

AA

A

A AA

AA

A

A

A

A

AAA

A

A

AA

AAAA

AA

A

AA

AAA

A

AA

AAAA

AA

AAAA

A

AAA

A

A

A

AA

A

AA

AA A

A

A

AAA

AAA

A

A

AA

A

A

AAAA

A

A

A

A

A

A AA

A

A

A

A

AA

A

A

A

AA A

A

A

A AA A

ANALISI BIVARIATE (cap. II)(variabili quantitative)

• Matrice di correlazione e verifica significatività

• Diagramma di dispersione e scatterplot matrix

Esercizio

• Aprire il file home_theatre.sav• Costruire la scatterplot matrix delle

variabili PREZZO, POTENZA e CASSE, inserendo sulla diagonale principale i grafici ad istogrammi

Soluzione

• Creare la scatter plot matrix o con il generatore di grafici

Soluzione

• Oppure tramite il menu finestre di legacy

Inserimento degli istogrammi nella diagonale principale

• Dopo aver fatto doppio click sul grafico

Output

Esercizio

• Aprire il file ConadR.sav. • Creare la scatter plot matrix inserendo i

grafici ad istogrammi sulla diagonale principale

• Commentare il grafico ottenuto• Calcolare la matrice di covarianze,

codevianze (somma dei quadrati e dei prodotti incrociati) e correlazione

Scatter plot matrix (solo SPSS)

Commenti alla scatter plot matrix

• Asimmetria positiva per tutte le 4 variabili• Forte relazione diretta tra spesa totale e

numero di visite • Assenza di relazione lineare tra visite ed

età

Diagramma di dispersione dinamico

• File benessereSPM.xlsx

La zona A3:H106 del foglio X (database originale) contiene i dati di 7 indicatori rilevati dal Sole 24 Ore sulle province italiane.Inserire un grafico a dispersione tra la variabile i e la variabile j (con i=1, 2, ..., 7 e j=1, 2, ..., 7). Fare in modo che l'utente (tramite caselle a discesa) possa scegliere quale combinazione di variabili utilizzare.Aggiungere ai punti del diagramma di dispersione l'etichetta della provincia corrispondente.Calcolare il valore del coefficiente di correlazione delle due variabili scelte. Fare in modo che il grafico, il valore del coefficiente di correlazione, il titolo del grafico e le legende degli assici cartesioni si aggiornino automaticamente in base alle scelte effettuate nelle caselle a discesa

MATRICE DI COVARIANZA E MATRICE DI CORRELAZIONE

• Matrice di covarianza: di dimensioni pxpsimmetricacon le varianze sulla diagonale principale

• Matrice di correlazione:di dimensioni pxpsimmetricacon valori = 1 sulla diagonale principale

MATRICE DI COVARIANZA

• p variabili: X1, X2, X3,…, Xs, …, Xp

)(),(),(

),()(),(),(),()(

21

2212

1211

PPP

P

P

pp

XVARXXCOVXXCOV

XXCOVXVARXXCOVXXCOVXXCOVXVAR

S

MATRICE DI CORRELAZIONE

)()(),(

YVARXVARYXCOVrxy =

1

11

21

221

112

pp

p

p

pp

rr

rrrr

R

Costruzione matrici di covarianze e correlazione

in Excel e SPSSFiles CONADR.xlsx e

CONADR.sav

Correlazioni clienti Conad

Correlazioni

1 ,885 ,090 ,093,885 1 ,103 ,201,090 ,103 1 ,297,093 ,201 ,297 1

n. v isitespesa totale (ultimi età cliente

n. compon.

n. v isitespesa totale

(ultimi 6 mesi) età clienten. compon.

f amiglia

Correlazioni, covarianze, codevianze e significativit’

SIGNIFICATIVITA’ DEL COEFF. DI CORRELAZIONE

• Problema di verifica d’ipotesi: • Introduzione all’inferenza statistica• Come si interpreta un coefficiente di

correlazione con valori “intermedi” ?• Risposta: verifica della significatività• IPOTESI DI PARTENZA:n osservazioni campionarie (xi , yi)distribuzione normale bivariata dell’universo

con coeff.corr. ρ ignoto

Normale univariata

Ripasso

Caratteristiche

−=2

2 µ21exp

21),;(

σπσσµ xxf

µ-σ µ µ+ σ

Funz

ione

di d

ensi

1. Ha una forma a campana2. Dipende dai parametri µ e σ

3. E’ massima quando x = µ4. Ha due punti di flesso in

corrispondenza di µ-σ e µ+σ

5. È simmetrica rispetto alla media

6. È asintotica rispetto all’asse delle ascisse

X∼N(µ, σ2)

Esercizio

• File norm.xls

Cenni sulla distribuzione normale bivariata

Cenni sulla distribuzione normale bivariata

Funzione di densità

Ogni distribuzione marginale o condizionata è normale univariata

Esercizio

• Creare il grafico a superficie della densità della normale bivariata nell’area di base

• x ε [-4 4] y ε [-4 4]

• File: normbiv.xlsm

TEST SUL COEFF. CORR.• Ipotesi nulla ed

ipotesi alternativa

• Test T di Student

• Si rifiuta H0 se:ove tα è il valore tabulato al livello αcon (n -2) gradi di libertà

α

ρρ

tt

nTnr

rt

HH

r

r

−→−−

=

≠=

)2(21

0:0:

2

1

0

P - value• H1 unilaterale destra H1: θ > θ0

P-value = P{T ≥ tobs, dato che θ = θ0}.

tobs

P-value Pr(T>tobs)

f(t)

P - value• H1 unilaterale sinistra H1: θ < θ0

P-value = P{T ≤ tobs, dato che θ = θ0}.

tobs

Pr(T<tobs)

f(t)

P - value• H1 bilaterale: H1: θ ≠ θ0• P-value = P{T ≥ |tobs|, dato che θ = θ0}

+ P{T ≤ −|tobs|, dato che θ = θ0}

Pr(T>|tobs|) Pr(T<-|tobs|)

-|tobs| +|tobs|

Significato P-value:evidenza campionaria contro H0 ⇒ se il P-valueè piccolo rifiuto H0

P-value Conclusioni> 0,10 Nessuna evidenza contro H0

Compreso tra0,10 e 0,05

Debole evidenza contro H0

Compreso tra0,05 e 0,01

Discreta evidenza contro H0

Compreso tra0,01 e 0,001

Forte evidenza contro H0

< 0,001 Fortissima evidenza contro H0

Pag. 92

Significatività di r in SPSS

• Sig. = P-Value = livello di significatività osservato (vedi testo sull’inferenza) cioè probabilità di commettere errore di prima specie (rifiutare un’ipotesi nulla vera)

• CONCLUSIONE: valori piccoli di sig. (<0.05 oppure < 0.01) implicano il rifiuto dell’ipotesi nulla, e quindi consentono di ritenere SIGNIFICATIVA la correlazione

ESEMPIO

• Campione di 12 pezzi; r = 0.54• Livello di significatività 0.01• T tabulato con 10 gradi di libertà = 3.169

(vedi Tavola p. 627)

signific.non

03.21054.01

54.02

=−

=rt

α

ρρ

tt

nTnr

rt

HH

r

r

−→−−

=

≠=

)2(21

0:0:

2

1

0

P – value in Excel (per T di Student)• DISTRIB.T(tobs;gradi_lib;2)=

DISTRIB.T.2T(tobs;gradi_lib) calcola • P-value = P{T ≥ |tobs|,}

Pr(T>|tobs|) r(T<-|tobs|)

-|tobs| +|tobs|

• Es. in una T con 10 gradi_lib

• P{T ≥2.03)+• P{T <-

2.03)=0.0698

Esercizio Esempio: PASTA TAGLIATELLE (pp.48-50)

• Aprire il file tagliat40.sav. Costruire la matrice di correlazione.

• Determinare la significatività delle relazioni tra le diverse variabili

CORRELAZIONE PER IL CAMPIONE DI 23 PRELIEVI DI TAGLIATELLE (p. 50)

riga d.b. errata r=-0.245 corrige r=-0.175p-value errata 0.259 corrige 0.425

Correlazioni(a) UMIDITA' % CENERI % ROTTE %

Correlazione di Pearson 1 -.245 .697(**) UMIDITA' % Sig. (2-code) .259 .000 Correlazione di Pearson -.245 1 -.175 CENERI % Sig. (2-code) .259 .425 Correlazione di Pearson .697(**) -.175 1 ROTTE % Sig. (2-code) .000 .425

** La correlazione è significativa al livello 0,01 (2-code). a Listwise N=23

Svolgimento con SPSS

Svolgimento con Excel

• Creare la matrici di covarianza e correlazione con il componente aggiuntivo analisi dei dati. Provare ad ottenere lo stesso output utilizzando le funzioni di EXCEL covarianza e correlazione. Implementare il test sulla significatività dei diversi coeff di corr. Calcolare il p value tramite la funzione DISTRIB.T

Valori di rxy significativi

Al crescere della numerosità campionaria diminuisce il valore di rxy ritenuto significativo.

LIVELLO 0.05:

197.0100

444.020

878.05

≥→=

≥→=

≥→=

xy

xy

xy

rn

rn

rn

Obiettivo

• Risolvendo la disequazionen? di funzionein

)2(21 2

−>−−

ntnr

rQuando

α

)2(2)2(

2

2

−+−

−>

ntnnt

r

Quando

α

α

Esercizio

• Rappresentare graficamente la soglia oltre il quale il valore di rxy è ritenuto significativo al livello del 5% in funzione della numerosità campionaria (file sogliarxy.xlsx)

COGRADUAZIONEGraduatorie o rankings

• Relazione tra i posti d’ordine (GRADI o ranks) delle modalità di due variabili X e Y

• Definizione – Si dice che tra due variabili X e Y esiste:

• - perfetta cograduazione se:g(xi) = g(yi) per i = 1, 2, … , n• - perfetta contrograduazione seg(xi) = n+1 - g(yi) per i = 1, 2, … , n

ESEMPIO: 8 AEROPORTI• MOVIMENTI PASSEGGERI

Bergamo-Orio 47820 3 4291239 4Bologna-Borgo P. 54780 4 3624072 3Cagliari-Elmas 26425 1 2344282 1Milano-Linate 93942 6 9085999 6Milano-Malpensa 227718 7 19499158 7Roma-Fiumicino 302890 8 28208161 8Venezia-Tessera 75196 5 5780783 5Verona-Villafranca 33178 2 2581420 2

INDICE ρ DI SPEARMAN

• ρ = coefficiente di correlazione tra i gradi• L’indice ρ di Spearman assume valori

nell’intervallo [-1; +1] e precisamente:• ρ = -1 quando vi è perfetta

contrograduazione fra i due fenomeni;• ρ = 0 quando non vi è né concordanza né

discordanza tra le due graduatorie;• ρ = +1 quando vi è perfetta cograduazione

fra i due fenomeni.

Variabili e gradi

La cograduazione misura la relazione tra duefenomeni almeno ordinali (le variabiliquantitative discrete o continue possono essererese ordinali e i valori numerici possono esseresostituiti con i gradi)

• La cograduazione è una relazione monotòna.

ALTRA FORMULA (p. 55)

( )

)1(

)()(61 2

1

2

−−=∑=

nn

ygxgn

iii

ρ

Esercizio

• Aprire il file cograd.xlsx. Calcolare il coefficiente di cograduazione. In Excel implementare entrambe le formule di calcolo

Dimostrazione dell’uguaglianza delle due formule

( )

)1(

)()(61 2

1

2

−−=∑=

nn

ygxgn

iii

ρ

• Media dei primi n numeri naturali

• Devianza dei primi n numeri naturali (DEV(n)= nvar(n)) dato che

Dall’uguaglianza

( )

)1(

)()(61 2

1

2

−−=∑=

nn

ygxgn

iii

ρ

COGRADUAZIONEX = cilindrata; Y = comfort

ρ = 0.9Auto X Y g (X) g (Y) A 1000 Più che sufficiente 1 2B 2000 Buono 4 4C 1200 Sufficiente 2 1D 1600 Discreto 3 3E 3000 Ottimo 5 5

15 15

RELAZIONI TRA CORRELAZIONE E COGRADUAZIONE

• Perfetta correlazione implica perfetta cograduazione ma non viceversa

• La cograduazione è poco influenzata dai valori anomali

X YA 100 210

B 400 810

C 250 510

D 300 610

GRADI RIPETUTI• Posti a pari merito• Si assegna convenzionalmente a ciascuno dei

posti a pari merito un grado uguale alla media aritmetica dei gradi che essi avrebbero avuto se distinguibili.

• Ad esempio, se nella successione ordinata la terza e la quarta unità presentano modalità identiche di X si assegna ad entrambe grado 3.5; se le unità 5, 6 e 7 presentano la stessa modalità si attribuisce ad ognuna di esse grado 6, etc.

Esercizio

• Aprire il file home_theatre.• Calcolare il coefficiente di cograduazione

tra le variabili prezzo e potenza tenendo conto dei gradi ripetuti

Esercizio

• Variabili:• Movimenti• Totale passeggeri• N. compagnie• OSSERVAZIONE: la cograduazione può

risultare maggiore o minore della correlazione lineare

SCATTERPLOT MATRIX

MATRICE DI CORRELAZIONECor relaz ioni

1 .997** .876**.000 .004

8 8 8.997** 1 .840**.000 .009

8 8 8.876** .840** 1.004 .009

8 8 8

Correlazione di PearsonSig. (2-code)NCorrelazione di PearsonSig. (2-code)NCorrelazione di PearsonSig. (2-code)N

Movimenti_

tot_Pass

Num_compagnie_aeree

Movimenti_ tot_Pass

Num_compagnie_

aeree

La correlaz ione è signif icativa al livello 0,01 (2-code).**.

MATRICE DI COGRADUAZIONECor relaz ioni NON PARAMETRICHE

1.000 .976** .881**

. .000 .004

8 8 8.976** 1.000 .786*

.000 . .021

8 8 8.881** .786* 1.000

.004 .021 .

8 8 8

Sig.(2-code)N

Sig.(2-code)N

Sig.(2-code)N

Movimenti_

tot_Pass

Num_compagnie_aeree

Rho di SpearmanMovimenti_ tot_Pass

Num_compagnie_

aeree

La correlaz ione è signif icativa al livello 0,01 (2-code).**.

La correlaz ione è signif icativa al livello 0,05 (2-code).*.

ESERCIZIO

• In un campione casuale di 15 boccetti di vetro per profumo il coefficiente di correlazione tra i peso ed il volume internoè risultato uguale a -0.48.

• Si verifichi la significatività della correlazione al livello dell’uno %

• Si calcoli e si commenti il p-value(approssimato per chi svolge l’esame tradizionale)

SOLUZIONE

10.005.0012.3160.2

;771.1012.3)01.0(;13

973.113)48.0(1

48.0

01.0

05.0

10.0

2

<−<===

==

−=−−

−=

valuepttt

tg

tr

COMPITO

• In un campione di 20 televisori di marche e modelli diversi il coefficiente di correlazione tra il prezzo e il tempo di risposta è risultato uguale a -0.60.

• Si calcoli il p-value corrispondente e si dica quale conclusione se ne trae.

• Si spieghi se nel caso in esame sono soddisfatte in toto le condizioni per l’impiego della procedura inferenziale.

RISOLUZIONE(vedi p. 47)

tr = -3.18g = 18t0.01 = 2.898t0.001 = 3.9220.01 < P-VALUE< 0.001Si rifiuta l’ipotesi nulla al livello dell’uno %La correlazione inversa è significativa.

Passeggeri (in milioni)

Merce trasportata (in tonnellate)

Milano 4,10 8,5

Roma 5,30 7,30

Bari 2,96 3,29

Parma 0,3 0,8

Londra 13,20 113,86

ESERCIZIO ISi sono rilevate le seguenti 2 variabili con riferimento a 5 aeroporti•Si calcoli e si commenti il coeff. di cograduazione di Spearmann tra le variabili passeggeri e merce trasportata.•Si dica come cambierebbe il coefficiente di cograduazione se tutti gli aeroporti avessero un aumento relativo dei passeggeri del 4%.•Si dica come cambierebbe il coefficiente di cograduazione se tutti gli aeroporti avessero un aumento assoluto dei passeggeri di 2 milioni•Si dica come cambierebbe il coefficiente di cograduazione se i passeggeri trasportati dall’aeroporto di Londra fossero stati 83,2 •Si dica (senza effettuare i calcoli) come cambierebbe il coefficiente di cograduazione se i passeggeri trasportati dall’aeroporto di Roma fossero stati pari rispettivamente a

1)5.4 2)103)13.1

ESERCIZIO

Rappresentare graficamente sei coppie di punti (x,y) che presentano un indice di correlazione •Vicino a zero•Esattamente uguale a 1•Molto vicino a -1.

Esercizio

• Rappresentare graficamente cinque coppie di punti (x,y) che presentano un indice di cograduazione pari a -1 ma un indice di correlazione non esattamente uguale a -1.