ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli,...
Transcript of ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli,...
INDAGINI CON QUESTIONARIOZani – Cerioli, 2007, pp.11-20
• Formulazione del questionario• http://www.istat.it/strumenti/metodi/lineeguida/
• Prima parte (o ultima) riguardante le caratteristiche del rispondente
• Domande sull’oggetto dell’indagine
Suggerimenti pratici
• Nel questionario utilizzare domande formulate con diversi criteri
• Eventualmente, sul problema di maggiore interesse formulare due domande con criteri diversi (in posizioni non consecutive)
• Utilizzare questionari non troppo lunghi
COME TRATTARE LE DOMANDE CHE CONSENTONO RISPOSTE MULTIPLE?
Domande con risposte multiple:codificazione disgiuntiva
• Negli ultimi tre mesi hai letto qualche volta i seguenti giornali (quotidiani o settimanali)?
• Corriere della sera sì □ 1 no □ 0• Repubblica sì □ 1 no □ 0 • L’Espresso sì □ 1 no □ 0• Panorama sì □ 1 no □ 0• Gioia sì □ 1 no □ 0• Grazia sì □ 1 no □ 0• ….
VALUTAZIONE DEGLI ATTEGGIAMENTI ED OPINIONI (p. 16)
• Scale di Likert:• Assolutamente in disaccordo, in disaccordo, indifferente,
d’accordo, assolutamente d’accordo• Molto insoddisfatto, insoddisfatto, né soddisfatto né
insoddisfatto, soddisfatto, molto soddisfatto• VANTAGGI:• Chiarezza, • Maggiore articolazione, • Categorie ordinabili (traducono un continuum
sottostante)
VALUTAZIONE DEGLI ATTEGGIAMENTI ED OPINIONI (p. 16)
• Scale di Likert:• SVANTAGGI:• L’intervistato è indotto a scegliere una modalità di
risposta anche quando non sa cosa rispondere• Categoria centrale non so?
Il differenziale semanticoVALUTAZIONE DI UN OGGETTO TRAMITE UNA SERIE DI
AGGETTIVI BIPOLARI
• Bella - - - - - - - Brutta• Innovatrice - - - - - - - Conservatrice
• Attiva - - - - - - - Passiva• Ricca - - - - - - - Povera
• Unica - - - - - - - Comune • Divertente - - - - - - - Noiosa
• 3 DIMENSIONI SEMANTICHE SOTTOSTANTI:• EPA: Evaluation (buono-cattivo)• Potency (forte-debole)• Activity (veloce-lento)
Il differenziale semantico
Quanti aggettivi bipolari occorrono per individuare una determinata dimensione?
4 o 5 coppie di aggettivi bipolari
UFFICIO DEL TURISMO
• Come giudichi la città di Sabbioneta?• NOIOSA ---------------/--DIVERTENTE• CARENTE ------------/-----FUNZIONALE• PERICOLOSA----------------/-SICURA• ECONOMICA --------/---------COSTOSA
Utilizzi del differenziale semantico
• Immagine della marca (Brand image)• Efficacia delle strategie promozionali• Lancio di nuovi prodotti
• METTE IN EVIDENZA I PUNTI DI FORZA E DEBOLEZZA DELL’OGGETTO DELL’INDAGINE
Effetto di trascinamento e di omologazione
• Alcune domande, in virtù dei termini impiegati o dei concetti evocati, riescono ad influenzare anche le risposte ad alcune delle domande successive nel questionario
Cosa bisogna evitare nella predisposizione del questionario?
Suggerimenti pratici• Evitare l’effetto di trascinamento• Es. indagine con obiettivo atteggiamento
nei confronti della televisione• DOM 1) Molti programmi televisivi stimolano
l’intelligenza dei bambini (scala Likert)• DOM 2) In TV c’è troppa volgarità
Molti hanno risposto alla DOM 2) sotto l’effetto della DOM 1) ossia pensando ad un pubblico di bambini e
non ad un pubblico complessivo
Suggerimenti pratici• Evitare l’effetto di omologazione
• Es. domande su alcune realtà di natura soprannaturale
• Domanda sulla reincarnazione
• Output: 22% crede nella reincarnazione• Indagine alternativa: 3.7% crede nella
reincarnazione
Suggerimenti pratici• Evitare l’effetto di omologazione
ANALISI DEI DATI RACCOLTI CON QUESTIONARIO
• Per ogni variabile qualitativa: distribuzione di frequenze
• Per ogni variabile quantitativa: media (mediana) e deviazione standard (MAD)
• Per tutte le coppie di variabili qualitative: tavole di contingenza
• Per tutte le coppie di variabili quantitative: correlazione e matrice di correlazione
MISURE DI RELAZIONI LINEARI(vedi: Milioli, Riani, Zani, 2016, pp. 205-220)
• Diagramma di dispersione: prezzo-potenza home t., p.38
• Covarianza: COV (X, Y)• Coefficiente di correlazione lineare:r = -1 perfetta relazione inversa
r = 0 assenza di relazione linearer = +1 perfetta relazione diretta
)()(),(YVARXVAR
YXCOVrxy =
Es. implementazione in Excel della formula (file corr0.xlsx)
2/1
1 1
22
1
)()(1
))((1
)()(),(
−−
−−=
==
∑ ∑
∑
= =
=
n
i
n
iyixi
n
iyixi
xy
MyMxn
MyMxn
YVARXVARYXCOVr
DIAGRAMMA DI DISPERSIONE(508 CLIENTI file CONADR.xls r = 0.885)
0 10 20 30 40
n. visite
0
1000
2000
3000
spes
a to
tale
(ulti
mi 6
mes
i)
A A
AAA
AA
A
A
A
A AAAA
AA A
A
AA
A
A
A
AAA A
A AAA
A
A
A
A
A
A
A
AA
A
AA A
A
A
A
A
AA AAA
AA A
A
A
AAA
A
A
A
AAA A
A A
AA
AA
A
A
A
AA AAA
A
AA
A
A
A
A
A
A
AA
A
A
AA
A
A
A
A
A
A A
A
A
A
A
A
A
A
AA
AA
A
AA
AA
AA
A
A
A
AAA A
A
A
AA
A
A
A
A AAA
A
AA A
A
AA
AA A
A
A
AA
A
A
AAA
AA
A
AA
AA
A
AAA
AA
A
AA
A
A
A
A
A
A
A
A
A
AA
A
A
A A
AA
A
AAA
A
A
A
A AA
A
A
A
A
AAAA
A
A
A
A
AA AA
A A
A
AA
A
A
AAA
A
A
AA
AAAAA AA
AA
AAA
A
AA A
A
AAA
A
A
AA
A AAA AA
A
A
AA
A
A
AA
AAA
AA
AA
A
A
AAA
A
A A
A
AAA
A
AAA
A AAA
AA
A
AAA
A
AAA
A
A
A
A
A
AA
A
AA
A
A
A
A
A
AA
AA
A
A
A
A
A
A
A
AA
A
AAA
A
A
A
AA
A
A
AA
A
A
A
A AA
A
A
A
A
AA
AA
A
A
A
A
AAA
A
A A AAA
AA
AAA
A
AA
A
A
A
A
A
A
AA
A
A
A
AA
A
A
A
A
A A
A
A
AA
A
A AA
AA
A
A
A
A
AAA
A
A
AA
AAAA
AA
A
AA
AAA
A
AA
AAAA
AA
AAAA
A
AAA
A
A
A
AA
A
AA
AA A
A
A
AAA
AAA
A
A
AA
A
A
AAAA
A
A
A
A
A
A AA
A
A
A
A
AA
A
A
A
AA A
A
A
A AA A
ANALISI BIVARIATE (cap. II)(variabili quantitative)
• Matrice di correlazione e verifica significatività
• Diagramma di dispersione e scatterplot matrix
Esercizio
• Aprire il file home_theatre.sav• Costruire la scatterplot matrix delle
variabili PREZZO, POTENZA e CASSE, inserendo sulla diagonale principale i grafici ad istogrammi
Soluzione
• Creare la scatter plot matrix o con il generatore di grafici
Soluzione
• Oppure tramite il menu finestre di legacy
Inserimento degli istogrammi nella diagonale principale
• Dopo aver fatto doppio click sul grafico
Output
Esercizio
• Aprire il file ConadR.sav. • Creare la scatter plot matrix inserendo i
grafici ad istogrammi sulla diagonale principale
• Commentare il grafico ottenuto• Calcolare la matrice di covarianze,
codevianze (somma dei quadrati e dei prodotti incrociati) e correlazione
Scatter plot matrix (solo SPSS)
Commenti alla scatter plot matrix
• Asimmetria positiva per tutte le 4 variabili• Forte relazione diretta tra spesa totale e
numero di visite • Assenza di relazione lineare tra visite ed
età
Diagramma di dispersione dinamico
• File benessereSPM.xlsx
La zona A3:H106 del foglio X (database originale) contiene i dati di 7 indicatori rilevati dal Sole 24 Ore sulle province italiane.Inserire un grafico a dispersione tra la variabile i e la variabile j (con i=1, 2, ..., 7 e j=1, 2, ..., 7). Fare in modo che l'utente (tramite caselle a discesa) possa scegliere quale combinazione di variabili utilizzare.Aggiungere ai punti del diagramma di dispersione l'etichetta della provincia corrispondente.Calcolare il valore del coefficiente di correlazione delle due variabili scelte. Fare in modo che il grafico, il valore del coefficiente di correlazione, il titolo del grafico e le legende degli assici cartesioni si aggiornino automaticamente in base alle scelte effettuate nelle caselle a discesa
MATRICE DI COVARIANZA E MATRICE DI CORRELAZIONE
• Matrice di covarianza: di dimensioni pxpsimmetricacon le varianze sulla diagonale principale
• Matrice di correlazione:di dimensioni pxpsimmetricacon valori = 1 sulla diagonale principale
MATRICE DI COVARIANZA
• p variabili: X1, X2, X3,…, Xs, …, Xp
=×
)(),(),(
),()(),(),(),()(
21
2212
1211
PPP
P
P
pp
XVARXXCOVXXCOV
XXCOVXVARXXCOVXXCOVXXCOVXVAR
S
MATRICE DI CORRELAZIONE
)()(),(
YVARXVARYXCOVrxy =
=×
1
11
21
221
112
pp
p
p
pp
rr
rrrr
R
Costruzione matrici di covarianze e correlazione
in Excel e SPSSFiles CONADR.xlsx e
CONADR.sav
Correlazioni clienti Conad
Correlazioni
1 ,885 ,090 ,093,885 1 ,103 ,201,090 ,103 1 ,297,093 ,201 ,297 1
n. v isitespesa totale (ultimi età cliente
n. compon.
n. v isitespesa totale
(ultimi 6 mesi) età clienten. compon.
f amiglia
Correlazioni, covarianze, codevianze e significativit’
SIGNIFICATIVITA’ DEL COEFF. DI CORRELAZIONE
• Problema di verifica d’ipotesi: • Introduzione all’inferenza statistica• Come si interpreta un coefficiente di
correlazione con valori “intermedi” ?• Risposta: verifica della significatività• IPOTESI DI PARTENZA:n osservazioni campionarie (xi , yi)distribuzione normale bivariata dell’universo
con coeff.corr. ρ ignoto
Normale univariata
Ripasso
Caratteristiche
−
−=2
2 µ21exp
21),;(
σπσσµ xxf
µ-σ µ µ+ σ
Funz
ione
di d
ensi
tà
1. Ha una forma a campana2. Dipende dai parametri µ e σ
3. E’ massima quando x = µ4. Ha due punti di flesso in
corrispondenza di µ-σ e µ+σ
5. È simmetrica rispetto alla media
6. È asintotica rispetto all’asse delle ascisse
X∼N(µ, σ2)
Esercizio
• File norm.xls
Cenni sulla distribuzione normale bivariata
Cenni sulla distribuzione normale bivariata
Funzione di densità
Ogni distribuzione marginale o condizionata è normale univariata
Esercizio
• Creare il grafico a superficie della densità della normale bivariata nell’area di base
• x ε [-4 4] y ε [-4 4]
• File: normbiv.xlsm
TEST SUL COEFF. CORR.• Ipotesi nulla ed
ipotesi alternativa
• Test T di Student
• Si rifiuta H0 se:ove tα è il valore tabulato al livello αcon (n -2) gradi di libertà
α
ρρ
tt
nTnr
rt
HH
r
r
≥
−→−−
=
≠=
)2(21
0:0:
2
1
0
P - value• H1 unilaterale destra H1: θ > θ0
P-value = P{T ≥ tobs, dato che θ = θ0}.
tobs
P-value Pr(T>tobs)
f(t)
P - value• H1 unilaterale sinistra H1: θ < θ0
P-value = P{T ≤ tobs, dato che θ = θ0}.
tobs
Pr(T<tobs)
f(t)
P - value• H1 bilaterale: H1: θ ≠ θ0• P-value = P{T ≥ |tobs|, dato che θ = θ0}
+ P{T ≤ −|tobs|, dato che θ = θ0}
Pr(T>|tobs|) Pr(T<-|tobs|)
-|tobs| +|tobs|
Significato P-value:evidenza campionaria contro H0 ⇒ se il P-valueè piccolo rifiuto H0
P-value Conclusioni> 0,10 Nessuna evidenza contro H0
Compreso tra0,10 e 0,05
Debole evidenza contro H0
Compreso tra0,05 e 0,01
Discreta evidenza contro H0
Compreso tra0,01 e 0,001
Forte evidenza contro H0
< 0,001 Fortissima evidenza contro H0
Pag. 92
Significatività di r in SPSS
• Sig. = P-Value = livello di significatività osservato (vedi testo sull’inferenza) cioè probabilità di commettere errore di prima specie (rifiutare un’ipotesi nulla vera)
• CONCLUSIONE: valori piccoli di sig. (<0.05 oppure < 0.01) implicano il rifiuto dell’ipotesi nulla, e quindi consentono di ritenere SIGNIFICATIVA la correlazione
ESEMPIO
• Campione di 12 pezzi; r = 0.54• Livello di significatività 0.01• T tabulato con 10 gradi di libertà = 3.169
(vedi Tavola p. 627)
signific.non
03.21054.01
54.02
=−
=rt
α
ρρ
tt
nTnr
rt
HH
r
r
≥
−→−−
=
≠=
)2(21
0:0:
2
1
0
P – value in Excel (per T di Student)• DISTRIB.T(tobs;gradi_lib;2)=
DISTRIB.T.2T(tobs;gradi_lib) calcola • P-value = P{T ≥ |tobs|,}
Pr(T>|tobs|) r(T<-|tobs|)
-|tobs| +|tobs|
• Es. in una T con 10 gradi_lib
• P{T ≥2.03)+• P{T <-
2.03)=0.0698
Esercizio Esempio: PASTA TAGLIATELLE (pp.48-50)
• Aprire il file tagliat40.sav. Costruire la matrice di correlazione.
• Determinare la significatività delle relazioni tra le diverse variabili
CORRELAZIONE PER IL CAMPIONE DI 23 PRELIEVI DI TAGLIATELLE (p. 50)
riga d.b. errata r=-0.245 corrige r=-0.175p-value errata 0.259 corrige 0.425
Correlazioni(a) UMIDITA' % CENERI % ROTTE %
Correlazione di Pearson 1 -.245 .697(**) UMIDITA' % Sig. (2-code) .259 .000 Correlazione di Pearson -.245 1 -.175 CENERI % Sig. (2-code) .259 .425 Correlazione di Pearson .697(**) -.175 1 ROTTE % Sig. (2-code) .000 .425
** La correlazione è significativa al livello 0,01 (2-code). a Listwise N=23
Svolgimento con SPSS
Svolgimento con Excel
• Creare la matrici di covarianza e correlazione con il componente aggiuntivo analisi dei dati. Provare ad ottenere lo stesso output utilizzando le funzioni di EXCEL covarianza e correlazione. Implementare il test sulla significatività dei diversi coeff di corr. Calcolare il p value tramite la funzione DISTRIB.T
Valori di rxy significativi
Al crescere della numerosità campionaria diminuisce il valore di rxy ritenuto significativo.
LIVELLO 0.05:
197.0100
444.020
878.05
≥→=
≥→=
≥→=
xy
xy
xy
rn
rn
rn
Obiettivo
• Risolvendo la disequazionen? di funzionein
)2(21 2
−>−−
ntnr
rQuando
α
)2(2)2(
2
2
−+−
−>
ntnnt
r
Quando
α
α
Esercizio
• Rappresentare graficamente la soglia oltre il quale il valore di rxy è ritenuto significativo al livello del 5% in funzione della numerosità campionaria (file sogliarxy.xlsx)
COGRADUAZIONEGraduatorie o rankings
• Relazione tra i posti d’ordine (GRADI o ranks) delle modalità di due variabili X e Y
• Definizione – Si dice che tra due variabili X e Y esiste:
• - perfetta cograduazione se:g(xi) = g(yi) per i = 1, 2, … , n• - perfetta contrograduazione seg(xi) = n+1 - g(yi) per i = 1, 2, … , n
ESEMPIO: 8 AEROPORTI• MOVIMENTI PASSEGGERI
Bergamo-Orio 47820 3 4291239 4Bologna-Borgo P. 54780 4 3624072 3Cagliari-Elmas 26425 1 2344282 1Milano-Linate 93942 6 9085999 6Milano-Malpensa 227718 7 19499158 7Roma-Fiumicino 302890 8 28208161 8Venezia-Tessera 75196 5 5780783 5Verona-Villafranca 33178 2 2581420 2
INDICE ρ DI SPEARMAN
• ρ = coefficiente di correlazione tra i gradi• L’indice ρ di Spearman assume valori
nell’intervallo [-1; +1] e precisamente:• ρ = -1 quando vi è perfetta
contrograduazione fra i due fenomeni;• ρ = 0 quando non vi è né concordanza né
discordanza tra le due graduatorie;• ρ = +1 quando vi è perfetta cograduazione
fra i due fenomeni.
Variabili e gradi
La cograduazione misura la relazione tra duefenomeni almeno ordinali (le variabiliquantitative discrete o continue possono essererese ordinali e i valori numerici possono esseresostituiti con i gradi)
• La cograduazione è una relazione monotòna.
ALTRA FORMULA (p. 55)
( )
)1(
)()(61 2
1
2
−
−−=∑=
nn
ygxgn
iii
ρ
Esercizio
• Aprire il file cograd.xlsx. Calcolare il coefficiente di cograduazione. In Excel implementare entrambe le formule di calcolo
Dimostrazione dell’uguaglianza delle due formule
( )
)1(
)()(61 2
1
2
−
−−=∑=
nn
ygxgn
iii
ρ
• Media dei primi n numeri naturali
• Devianza dei primi n numeri naturali (DEV(n)= nvar(n)) dato che
Dall’uguaglianza
( )
)1(
)()(61 2
1
2
−
−−=∑=
nn
ygxgn
iii
ρ
COGRADUAZIONEX = cilindrata; Y = comfort
ρ = 0.9Auto X Y g (X) g (Y) A 1000 Più che sufficiente 1 2B 2000 Buono 4 4C 1200 Sufficiente 2 1D 1600 Discreto 3 3E 3000 Ottimo 5 5
15 15
RELAZIONI TRA CORRELAZIONE E COGRADUAZIONE
• Perfetta correlazione implica perfetta cograduazione ma non viceversa
• La cograduazione è poco influenzata dai valori anomali
X YA 100 210
B 400 810
C 250 510
D 300 610
GRADI RIPETUTI• Posti a pari merito• Si assegna convenzionalmente a ciascuno dei
posti a pari merito un grado uguale alla media aritmetica dei gradi che essi avrebbero avuto se distinguibili.
• Ad esempio, se nella successione ordinata la terza e la quarta unità presentano modalità identiche di X si assegna ad entrambe grado 3.5; se le unità 5, 6 e 7 presentano la stessa modalità si attribuisce ad ognuna di esse grado 6, etc.
Esercizio
• Aprire il file home_theatre.• Calcolare il coefficiente di cograduazione
tra le variabili prezzo e potenza tenendo conto dei gradi ripetuti
Esercizio
• Variabili:• Movimenti• Totale passeggeri• N. compagnie• OSSERVAZIONE: la cograduazione può
risultare maggiore o minore della correlazione lineare
SCATTERPLOT MATRIX
MATRICE DI CORRELAZIONECor relaz ioni
1 .997** .876**.000 .004
8 8 8.997** 1 .840**.000 .009
8 8 8.876** .840** 1.004 .009
8 8 8
Correlazione di PearsonSig. (2-code)NCorrelazione di PearsonSig. (2-code)NCorrelazione di PearsonSig. (2-code)N
Movimenti_
tot_Pass
Num_compagnie_aeree
Movimenti_ tot_Pass
Num_compagnie_
aeree
La correlaz ione è signif icativa al livello 0,01 (2-code).**.
MATRICE DI COGRADUAZIONECor relaz ioni NON PARAMETRICHE
1.000 .976** .881**
. .000 .004
8 8 8.976** 1.000 .786*
.000 . .021
8 8 8.881** .786* 1.000
.004 .021 .
8 8 8
Sig.(2-code)N
Sig.(2-code)N
Sig.(2-code)N
Movimenti_
tot_Pass
Num_compagnie_aeree
Rho di SpearmanMovimenti_ tot_Pass
Num_compagnie_
aeree
La correlaz ione è signif icativa al livello 0,01 (2-code).**.
La correlaz ione è signif icativa al livello 0,05 (2-code).*.
ESERCIZIO
• In un campione casuale di 15 boccetti di vetro per profumo il coefficiente di correlazione tra i peso ed il volume internoè risultato uguale a -0.48.
• Si verifichi la significatività della correlazione al livello dell’uno %
• Si calcoli e si commenti il p-value(approssimato per chi svolge l’esame tradizionale)
SOLUZIONE
10.005.0012.3160.2
;771.1012.3)01.0(;13
973.113)48.0(1
48.0
01.0
05.0
10.0
2
<−<===
==
−=−−
−=
valuepttt
tg
tr
COMPITO
• In un campione di 20 televisori di marche e modelli diversi il coefficiente di correlazione tra il prezzo e il tempo di risposta è risultato uguale a -0.60.
• Si calcoli il p-value corrispondente e si dica quale conclusione se ne trae.
• Si spieghi se nel caso in esame sono soddisfatte in toto le condizioni per l’impiego della procedura inferenziale.
RISOLUZIONE(vedi p. 47)
tr = -3.18g = 18t0.01 = 2.898t0.001 = 3.9220.01 < P-VALUE< 0.001Si rifiuta l’ipotesi nulla al livello dell’uno %La correlazione inversa è significativa.
Passeggeri (in milioni)
Merce trasportata (in tonnellate)
Milano 4,10 8,5
Roma 5,30 7,30
Bari 2,96 3,29
Parma 0,3 0,8
Londra 13,20 113,86
ESERCIZIO ISi sono rilevate le seguenti 2 variabili con riferimento a 5 aeroporti•Si calcoli e si commenti il coeff. di cograduazione di Spearmann tra le variabili passeggeri e merce trasportata.•Si dica come cambierebbe il coefficiente di cograduazione se tutti gli aeroporti avessero un aumento relativo dei passeggeri del 4%.•Si dica come cambierebbe il coefficiente di cograduazione se tutti gli aeroporti avessero un aumento assoluto dei passeggeri di 2 milioni•Si dica come cambierebbe il coefficiente di cograduazione se i passeggeri trasportati dall’aeroporto di Londra fossero stati 83,2 •Si dica (senza effettuare i calcoli) come cambierebbe il coefficiente di cograduazione se i passeggeri trasportati dall’aeroporto di Roma fossero stati pari rispettivamente a
1)5.4 2)103)13.1
ESERCIZIO
Rappresentare graficamente sei coppie di punti (x,y) che presentano un indice di correlazione •Vicino a zero•Esattamente uguale a 1•Molto vicino a -1.
Esercizio
• Rappresentare graficamente cinque coppie di punti (x,y) che presentano un indice di cograduazione pari a -1 ma un indice di correlazione non esattamente uguale a -1.