ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli,...

84
ANALISI DEI DATI PER IL MARKETING 2018 Marco Riani [email protected] http://www.riani.it

Transcript of ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli,...

Page 1: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ANALISI DEI DATIPER IL MARKETING

2018

Marco [email protected]

http://www.riani.it

Page 2: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

INDAGINI CON QUESTIONARIOZani – Cerioli, 2007, pp.11-20

• Formulazione del questionario• http://www.istat.it/strumenti/metodi/lineeguida/

• Prima parte (o ultima) riguardante le caratteristiche del rispondente

• Domande sull’oggetto dell’indagine

Page 3: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Suggerimenti pratici

• Nel questionario utilizzare domande formulate con diversi criteri

• Eventualmente, sul problema di maggiore interesse formulare due domande con criteri diversi (in posizioni non consecutive)

• Utilizzare questionari non troppo lunghi

Page 4: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

COME TRATTARE LE DOMANDE CHE CONSENTONO RISPOSTE MULTIPLE?

Page 5: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Domande con risposte multiple:codificazione disgiuntiva

• Negli ultimi tre mesi hai letto qualche volta i seguenti giornali (quotidiani o settimanali)?

• Corriere della sera sì □ 1 no □ 0• Repubblica sì □ 1 no □ 0 • L’Espresso sì □ 1 no □ 0• Panorama sì □ 1 no □ 0• Gioia sì □ 1 no □ 0• Grazia sì □ 1 no □ 0• ….

Page 6: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

VALUTAZIONE DEGLI ATTEGGIAMENTI ED OPINIONI (p. 16)

• Scale di Likert:• Assolutamente in disaccordo, in disaccordo, indifferente,

d’accordo, assolutamente d’accordo• Molto insoddisfatto, insoddisfatto, né soddisfatto né

insoddisfatto, soddisfatto, molto soddisfatto• VANTAGGI:• Chiarezza, • Maggiore articolazione, • Categorie ordinabili (traducono un continuum

sottostante)

Page 7: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

VALUTAZIONE DEGLI ATTEGGIAMENTI ED OPINIONI (p. 16)

• Scale di Likert:• SVANTAGGI:• L’intervistato è indotto a scegliere una modalità di

risposta anche quando non sa cosa rispondere• Categoria centrale non so?

Page 8: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Il differenziale semanticoVALUTAZIONE DI UN OGGETTO TRAMITE UNA SERIE DI

AGGETTIVI BIPOLARI

• Bella - - - - - - - Brutta• Innovatrice - - - - - - - Conservatrice

• Attiva - - - - - - - Passiva• Ricca - - - - - - - Povera

• Unica - - - - - - - Comune • Divertente - - - - - - - Noiosa

• 3 DIMENSIONI SEMANTICHE SOTTOSTANTI:• EPA: Evaluation (buono-cattivo)• Potency (forte-debole)• Activity (veloce-lento)

Page 9: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Il differenziale semantico

Quanti aggettivi bipolari occorrono per individuare una determinata dimensione?

4 o 5 coppie di aggettivi bipolari

Page 10: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

UFFICIO DEL TURISMO

• Come giudichi la città di Sabbioneta?• NOIOSA ---------------/--DIVERTENTE• CARENTE ------------/-----FUNZIONALE• PERICOLOSA----------------/-SICURA• ECONOMICA --------/---------COSTOSA

Page 11: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Utilizzi del differenziale semantico

• Immagine della marca (Brand image)• Efficacia delle strategie promozionali• Lancio di nuovi prodotti

• METTE IN EVIDENZA I PUNTI DI FORZA E DEBOLEZZA DELL’OGGETTO DELL’INDAGINE

Page 12: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Effetto di trascinamento e di omologazione

• Alcune domande, in virtù dei termini impiegati o dei concetti evocati, riescono ad influenzare anche le risposte ad alcune delle domande successive nel questionario

Cosa bisogna evitare nella predisposizione del questionario?

Page 13: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Suggerimenti pratici• Evitare l’effetto di trascinamento• Es. indagine con obiettivo atteggiamento

nei confronti della televisione• DOM 1) Molti programmi televisivi stimolano

l’intelligenza dei bambini (scala Likert)• DOM 2) In TV c’è troppa volgarità

Molti hanno risposto alla DOM 2) sotto l’effetto della DOM 1) ossia pensando ad un pubblico di bambini e

non ad un pubblico complessivo

Page 14: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Suggerimenti pratici• Evitare l’effetto di omologazione

• Es. domande su alcune realtà di natura soprannaturale

• Domanda sulla reincarnazione

• Output: 22% crede nella reincarnazione• Indagine alternativa: 3.7% crede nella

reincarnazione

Page 15: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Suggerimenti pratici• Evitare l’effetto di omologazione

Page 16: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ANALISI DEI DATI RACCOLTI CON QUESTIONARIO

• Per ogni variabile qualitativa: distribuzione di frequenze

• Per ogni variabile quantitativa: media (mediana) e deviazione standard (MAD)

• Per tutte le coppie di variabili qualitative: tavole di contingenza

• Per tutte le coppie di variabili quantitative: correlazione e matrice di correlazione

Page 17: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

MISURE DI RELAZIONI LINEARI(vedi: Milioli, Riani, Zani, 2016, pp. 205-220)

• Diagramma di dispersione: prezzo-potenza home t., p.38

• Covarianza: COV (X, Y)• Coefficiente di correlazione lineare:r = -1 perfetta relazione inversa

r = 0 assenza di relazione linearer = +1 perfetta relazione diretta

)()(),(YVARXVAR

YXCOVrxy =

Page 18: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Es. implementazione in Excel della formula (file corr0.xlsx)

2/1

1 1

22

1

)()(1

))((1

)()(),(

−−

−−=

==

∑ ∑

= =

=

n

i

n

iyixi

n

iyixi

xy

MyMxn

MyMxn

YVARXVARYXCOVr

Page 19: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

DIAGRAMMA DI DISPERSIONE(508 CLIENTI file CONADR.xls r = 0.885)

0 10 20 30 40

n. visite

0

1000

2000

3000

spes

a to

tale

(ulti

mi 6

mes

i)

A A

AAA

AA

A

A

A

A AAAA

AA A

A

AA

A

A

A

AAA A

A AAA

A

A

A

A

A

A

A

AA

A

AA A

A

A

A

A

AA AAA

AA A

A

A

AAA

A

A

A

AAA A

A A

AA

AA

A

A

A

AA AAA

A

AA

A

A

A

A

A

A

AA

A

A

AA

A

A

A

A

A

A A

A

A

A

A

A

A

A

AA

AA

A

AA

AA

AA

A

A

A

AAA A

A

A

AA

A

A

A

A AAA

A

AA A

A

AA

AA A

A

A

AA

A

A

AAA

AA

A

AA

AA

A

AAA

AA

A

AA

A

A

A

A

A

A

A

A

A

AA

A

A

A A

AA

A

AAA

A

A

A

A AA

A

A

A

A

AAAA

A

A

A

A

AA AA

A A

A

AA

A

A

AAA

A

A

AA

AAAAA AA

AA

AAA

A

AA A

A

AAA

A

A

AA

A AAA AA

A

A

AA

A

A

AA

AAA

AA

AA

A

A

AAA

A

A A

A

AAA

A

AAA

A AAA

AA

A

AAA

A

AAA

A

A

A

A

A

AA

A

AA

A

A

A

A

A

AA

AA

A

A

A

A

A

A

A

AA

A

AAA

A

A

A

AA

A

A

AA

A

A

A

A AA

A

A

A

A

AA

AA

A

A

A

A

AAA

A

A A AAA

AA

AAA

A

AA

A

A

A

A

A

A

AA

A

A

A

AA

A

A

A

A

A A

A

A

AA

A

A AA

AA

A

A

A

A

AAA

A

A

AA

AAAA

AA

A

AA

AAA

A

AA

AAAA

AA

AAAA

A

AAA

A

A

A

AA

A

AA

AA A

A

A

AAA

AAA

A

A

AA

A

A

AAAA

A

A

A

A

A

A AA

A

A

A

A

AA

A

A

A

AA A

A

A

A AA A

Page 20: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ANALISI BIVARIATE (cap. II)(variabili quantitative)

• Matrice di correlazione e verifica significatività

• Diagramma di dispersione e scatterplot matrix

Page 21: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Aprire il file home_theatre.sav• Costruire la scatterplot matrix delle

variabili PREZZO, POTENZA e CASSE, inserendo sulla diagonale principale i grafici ad istogrammi

Page 22: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Soluzione

• Creare la scatter plot matrix o con il generatore di grafici

Page 23: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Soluzione

• Oppure tramite il menu finestre di legacy

Page 24: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Inserimento degli istogrammi nella diagonale principale

• Dopo aver fatto doppio click sul grafico

Page 25: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Output

Page 26: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Aprire il file ConadR.sav. • Creare la scatter plot matrix inserendo i

grafici ad istogrammi sulla diagonale principale

• Commentare il grafico ottenuto• Calcolare la matrice di covarianze,

codevianze (somma dei quadrati e dei prodotti incrociati) e correlazione

Page 27: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Scatter plot matrix (solo SPSS)

Page 28: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Commenti alla scatter plot matrix

• Asimmetria positiva per tutte le 4 variabili• Forte relazione diretta tra spesa totale e

numero di visite • Assenza di relazione lineare tra visite ed

età

Page 29: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Diagramma di dispersione dinamico

• File benessereSPM.xlsx

La zona A3:H106 del foglio X (database originale) contiene i dati di 7 indicatori rilevati dal Sole 24 Ore sulle province italiane.Inserire un grafico a dispersione tra la variabile i e la variabile j (con i=1, 2, ..., 7 e j=1, 2, ..., 7). Fare in modo che l'utente (tramite caselle a discesa) possa scegliere quale combinazione di variabili utilizzare.Aggiungere ai punti del diagramma di dispersione l'etichetta della provincia corrispondente.Calcolare il valore del coefficiente di correlazione delle due variabili scelte. Fare in modo che il grafico, il valore del coefficiente di correlazione, il titolo del grafico e le legende degli assici cartesioni si aggiornino automaticamente in base alle scelte effettuate nelle caselle a discesa

Page 30: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

MATRICE DI COVARIANZA E MATRICE DI CORRELAZIONE

• Matrice di covarianza: di dimensioni pxpsimmetricacon le varianze sulla diagonale principale

• Matrice di correlazione:di dimensioni pxpsimmetricacon valori = 1 sulla diagonale principale

Page 31: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

MATRICE DI COVARIANZA

• p variabili: X1, X2, X3,…, Xs, …, Xp

)(),(),(

),()(),(),(),()(

21

2212

1211

PPP

P

P

pp

XVARXXCOVXXCOV

XXCOVXVARXXCOVXXCOVXXCOVXVAR

S

Page 32: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

MATRICE DI CORRELAZIONE

)()(),(

YVARXVARYXCOVrxy =

1

11

21

221

112

pp

p

p

pp

rr

rrrr

R

Page 33: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Costruzione matrici di covarianze e correlazione

in Excel e SPSSFiles CONADR.xlsx e

CONADR.sav

Page 34: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Correlazioni clienti Conad

Correlazioni

1 ,885 ,090 ,093,885 1 ,103 ,201,090 ,103 1 ,297,093 ,201 ,297 1

n. v isitespesa totale (ultimi età cliente

n. compon.

n. v isitespesa totale

(ultimi 6 mesi) età clienten. compon.

f amiglia

Page 35: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Correlazioni, covarianze, codevianze e significativit’

Page 36: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

SIGNIFICATIVITA’ DEL COEFF. DI CORRELAZIONE

• Problema di verifica d’ipotesi: • Introduzione all’inferenza statistica• Come si interpreta un coefficiente di

correlazione con valori “intermedi” ?• Risposta: verifica della significatività• IPOTESI DI PARTENZA:n osservazioni campionarie (xi , yi)distribuzione normale bivariata dell’universo

con coeff.corr. ρ ignoto

Page 37: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Normale univariata

Ripasso

Page 38: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Caratteristiche

−=2

2 µ21exp

21),;(

σπσσµ xxf

µ-σ µ µ+ σ

Funz

ione

di d

ensi

1. Ha una forma a campana2. Dipende dai parametri µ e σ

3. E’ massima quando x = µ4. Ha due punti di flesso in

corrispondenza di µ-σ e µ+σ

5. È simmetrica rispetto alla media

6. È asintotica rispetto all’asse delle ascisse

X∼N(µ, σ2)

Page 39: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• File norm.xls

Page 40: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Cenni sulla distribuzione normale bivariata

Page 41: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Cenni sulla distribuzione normale bivariata

Page 42: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Funzione di densità

Page 43: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Ogni distribuzione marginale o condizionata è normale univariata

Page 44: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Creare il grafico a superficie della densità della normale bivariata nell’area di base

• x ε [-4 4] y ε [-4 4]

• File: normbiv.xlsm

Page 45: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

TEST SUL COEFF. CORR.• Ipotesi nulla ed

ipotesi alternativa

• Test T di Student

• Si rifiuta H0 se:ove tα è il valore tabulato al livello αcon (n -2) gradi di libertà

α

ρρ

tt

nTnr

rt

HH

r

r

−→−−

=

≠=

)2(21

0:0:

2

1

0

Page 46: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

P - value• H1 unilaterale destra H1: θ > θ0

P-value = P{T ≥ tobs, dato che θ = θ0}.

tobs

P-value Pr(T>tobs)

f(t)

Page 47: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

P - value• H1 unilaterale sinistra H1: θ < θ0

P-value = P{T ≤ tobs, dato che θ = θ0}.

tobs

Pr(T<tobs)

f(t)

Page 48: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

P - value• H1 bilaterale: H1: θ ≠ θ0• P-value = P{T ≥ |tobs|, dato che θ = θ0}

+ P{T ≤ −|tobs|, dato che θ = θ0}

Pr(T>|tobs|) Pr(T<-|tobs|)

-|tobs| +|tobs|

Page 49: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Significato P-value:evidenza campionaria contro H0 ⇒ se il P-valueè piccolo rifiuto H0

P-value Conclusioni> 0,10 Nessuna evidenza contro H0

Compreso tra0,10 e 0,05

Debole evidenza contro H0

Compreso tra0,05 e 0,01

Discreta evidenza contro H0

Compreso tra0,01 e 0,001

Forte evidenza contro H0

< 0,001 Fortissima evidenza contro H0

Pag. 92

Page 50: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Significatività di r in SPSS

• Sig. = P-Value = livello di significatività osservato (vedi testo sull’inferenza) cioè probabilità di commettere errore di prima specie (rifiutare un’ipotesi nulla vera)

• CONCLUSIONE: valori piccoli di sig. (<0.05 oppure < 0.01) implicano il rifiuto dell’ipotesi nulla, e quindi consentono di ritenere SIGNIFICATIVA la correlazione

Page 51: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ESEMPIO

• Campione di 12 pezzi; r = 0.54• Livello di significatività 0.01• T tabulato con 10 gradi di libertà = 3.169

(vedi Tavola p. 627)

signific.non

03.21054.01

54.02

=−

=rt

α

ρρ

tt

nTnr

rt

HH

r

r

−→−−

=

≠=

)2(21

0:0:

2

1

0

Page 52: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

P – value in Excel (per T di Student)• DISTRIB.T(tobs;gradi_lib;2)=

DISTRIB.T.2T(tobs;gradi_lib) calcola • P-value = P{T ≥ |tobs|,}

Pr(T>|tobs|) r(T<-|tobs|)

-|tobs| +|tobs|

• Es. in una T con 10 gradi_lib

• P{T ≥2.03)+• P{T <-

2.03)=0.0698

Page 53: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio Esempio: PASTA TAGLIATELLE (pp.48-50)

• Aprire il file tagliat40.sav. Costruire la matrice di correlazione.

• Determinare la significatività delle relazioni tra le diverse variabili

Page 54: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

CORRELAZIONE PER IL CAMPIONE DI 23 PRELIEVI DI TAGLIATELLE (p. 50)

riga d.b. errata r=-0.245 corrige r=-0.175p-value errata 0.259 corrige 0.425

Correlazioni(a) UMIDITA' % CENERI % ROTTE %

Correlazione di Pearson 1 -.245 .697(**) UMIDITA' % Sig. (2-code) .259 .000 Correlazione di Pearson -.245 1 -.175 CENERI % Sig. (2-code) .259 .425 Correlazione di Pearson .697(**) -.175 1 ROTTE % Sig. (2-code) .000 .425

** La correlazione è significativa al livello 0,01 (2-code). a Listwise N=23

Page 55: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Svolgimento con SPSS

Page 56: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Svolgimento con Excel

• Creare la matrici di covarianza e correlazione con il componente aggiuntivo analisi dei dati. Provare ad ottenere lo stesso output utilizzando le funzioni di EXCEL covarianza e correlazione. Implementare il test sulla significatività dei diversi coeff di corr. Calcolare il p value tramite la funzione DISTRIB.T

Page 57: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Valori di rxy significativi

Al crescere della numerosità campionaria diminuisce il valore di rxy ritenuto significativo.

LIVELLO 0.05:

197.0100

444.020

878.05

≥→=

≥→=

≥→=

xy

xy

xy

rn

rn

rn

Page 58: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Obiettivo

• Risolvendo la disequazionen? di funzionein

)2(21 2

−>−−

ntnr

rQuando

α

)2(2)2(

2

2

−+−

−>

ntnnt

r

Quando

α

α

Page 59: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Rappresentare graficamente la soglia oltre il quale il valore di rxy è ritenuto significativo al livello del 5% in funzione della numerosità campionaria (file sogliarxy.xlsx)

Page 60: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

COGRADUAZIONEGraduatorie o rankings

• Relazione tra i posti d’ordine (GRADI o ranks) delle modalità di due variabili X e Y

• Definizione – Si dice che tra due variabili X e Y esiste:

• - perfetta cograduazione se:g(xi) = g(yi) per i = 1, 2, … , n• - perfetta contrograduazione seg(xi) = n+1 - g(yi) per i = 1, 2, … , n

Page 61: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ESEMPIO: 8 AEROPORTI• MOVIMENTI PASSEGGERI

Bergamo-Orio 47820 3 4291239 4Bologna-Borgo P. 54780 4 3624072 3Cagliari-Elmas 26425 1 2344282 1Milano-Linate 93942 6 9085999 6Milano-Malpensa 227718 7 19499158 7Roma-Fiumicino 302890 8 28208161 8Venezia-Tessera 75196 5 5780783 5Verona-Villafranca 33178 2 2581420 2

Page 62: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

INDICE ρ DI SPEARMAN

• ρ = coefficiente di correlazione tra i gradi• L’indice ρ di Spearman assume valori

nell’intervallo [-1; +1] e precisamente:• ρ = -1 quando vi è perfetta

contrograduazione fra i due fenomeni;• ρ = 0 quando non vi è né concordanza né

discordanza tra le due graduatorie;• ρ = +1 quando vi è perfetta cograduazione

fra i due fenomeni.

Page 63: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Variabili e gradi

La cograduazione misura la relazione tra duefenomeni almeno ordinali (le variabiliquantitative discrete o continue possono essererese ordinali e i valori numerici possono esseresostituiti con i gradi)

• La cograduazione è una relazione monotòna.

Page 64: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ALTRA FORMULA (p. 55)

( )

)1(

)()(61 2

1

2

−−=∑=

nn

ygxgn

iii

ρ

Page 65: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Aprire il file cograd.xlsx. Calcolare il coefficiente di cograduazione. In Excel implementare entrambe le formule di calcolo

Page 66: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Dimostrazione dell’uguaglianza delle due formule

( )

)1(

)()(61 2

1

2

−−=∑=

nn

ygxgn

iii

ρ

Page 67: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

• Media dei primi n numeri naturali

• Devianza dei primi n numeri naturali (DEV(n)= nvar(n)) dato che

Page 68: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Dall’uguaglianza

Page 69: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

( )

)1(

)()(61 2

1

2

−−=∑=

nn

ygxgn

iii

ρ

Page 70: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

COGRADUAZIONEX = cilindrata; Y = comfort

ρ = 0.9Auto X Y g (X) g (Y) A 1000 Più che sufficiente 1 2B 2000 Buono 4 4C 1200 Sufficiente 2 1D 1600 Discreto 3 3E 3000 Ottimo 5 5

15 15

Page 71: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

RELAZIONI TRA CORRELAZIONE E COGRADUAZIONE

• Perfetta correlazione implica perfetta cograduazione ma non viceversa

• La cograduazione è poco influenzata dai valori anomali

X YA 100 210

B 400 810

C 250 510

D 300 610

Page 72: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

GRADI RIPETUTI• Posti a pari merito• Si assegna convenzionalmente a ciascuno dei

posti a pari merito un grado uguale alla media aritmetica dei gradi che essi avrebbero avuto se distinguibili.

• Ad esempio, se nella successione ordinata la terza e la quarta unità presentano modalità identiche di X si assegna ad entrambe grado 3.5; se le unità 5, 6 e 7 presentano la stessa modalità si attribuisce ad ognuna di esse grado 6, etc.

Page 73: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Aprire il file home_theatre.• Calcolare il coefficiente di cograduazione

tra le variabili prezzo e potenza tenendo conto dei gradi ripetuti

Page 74: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Variabili:• Movimenti• Totale passeggeri• N. compagnie• OSSERVAZIONE: la cograduazione può

risultare maggiore o minore della correlazione lineare

Page 75: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

SCATTERPLOT MATRIX

Page 76: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

MATRICE DI CORRELAZIONECor relaz ioni

1 .997** .876**.000 .004

8 8 8.997** 1 .840**.000 .009

8 8 8.876** .840** 1.004 .009

8 8 8

Correlazione di PearsonSig. (2-code)NCorrelazione di PearsonSig. (2-code)NCorrelazione di PearsonSig. (2-code)N

Movimenti_

tot_Pass

Num_compagnie_aeree

Movimenti_ tot_Pass

Num_compagnie_

aeree

La correlaz ione è signif icativa al livello 0,01 (2-code).**.

Page 77: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

MATRICE DI COGRADUAZIONECor relaz ioni NON PARAMETRICHE

1.000 .976** .881**

. .000 .004

8 8 8.976** 1.000 .786*

.000 . .021

8 8 8.881** .786* 1.000

.004 .021 .

8 8 8

Sig.(2-code)N

Sig.(2-code)N

Sig.(2-code)N

Movimenti_

tot_Pass

Num_compagnie_aeree

Rho di SpearmanMovimenti_ tot_Pass

Num_compagnie_

aeree

La correlaz ione è signif icativa al livello 0,01 (2-code).**.

La correlaz ione è signif icativa al livello 0,05 (2-code).*.

Page 78: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ESERCIZIO

• In un campione casuale di 15 boccetti di vetro per profumo il coefficiente di correlazione tra i peso ed il volume internoè risultato uguale a -0.48.

• Si verifichi la significatività della correlazione al livello dell’uno %

• Si calcoli e si commenti il p-value(approssimato per chi svolge l’esame tradizionale)

Page 79: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

SOLUZIONE

10.005.0012.3160.2

;771.1012.3)01.0(;13

973.113)48.0(1

48.0

01.0

05.0

10.0

2

<−<===

==

−=−−

−=

valuepttt

tg

tr

Page 80: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

COMPITO

• In un campione di 20 televisori di marche e modelli diversi il coefficiente di correlazione tra il prezzo e il tempo di risposta è risultato uguale a -0.60.

• Si calcoli il p-value corrispondente e si dica quale conclusione se ne trae.

• Si spieghi se nel caso in esame sono soddisfatte in toto le condizioni per l’impiego della procedura inferenziale.

Page 81: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

RISOLUZIONE(vedi p. 47)

tr = -3.18g = 18t0.01 = 2.898t0.001 = 3.9220.01 < P-VALUE< 0.001Si rifiuta l’ipotesi nulla al livello dell’uno %La correlazione inversa è significativa.

Page 82: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Passeggeri (in milioni)

Merce trasportata (in tonnellate)

Milano 4,10 8,5

Roma 5,30 7,30

Bari 2,96 3,29

Parma 0,3 0,8

Londra 13,20 113,86

ESERCIZIO ISi sono rilevate le seguenti 2 variabili con riferimento a 5 aeroporti•Si calcoli e si commenti il coeff. di cograduazione di Spearmann tra le variabili passeggeri e merce trasportata.•Si dica come cambierebbe il coefficiente di cograduazione se tutti gli aeroporti avessero un aumento relativo dei passeggeri del 4%.•Si dica come cambierebbe il coefficiente di cograduazione se tutti gli aeroporti avessero un aumento assoluto dei passeggeri di 2 milioni•Si dica come cambierebbe il coefficiente di cograduazione se i passeggeri trasportati dall’aeroporto di Londra fossero stati 83,2 •Si dica (senza effettuare i calcoli) come cambierebbe il coefficiente di cograduazione se i passeggeri trasportati dall’aeroporto di Roma fossero stati pari rispettivamente a

1)5.4 2)103)13.1

Page 83: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

ESERCIZIO

Rappresentare graficamente sei coppie di punti (x,y) che presentano un indice di correlazione •Vicino a zero•Esattamente uguale a 1•Molto vicino a -1.

Page 84: ANALISI DEI DATI PER IL MARKETING 2018 - Marco Riani · INDAGINI CON QUESTIONARIO Zani – Cerioli, 2007, pp.11-20 ... • Per ogni variabile qualitativa: distribuzione di frequenze

Esercizio

• Rappresentare graficamente cinque coppie di punti (x,y) che presentano un indice di cograduazione pari a -1 ma un indice di correlazione non esattamente uguale a -1.