DATA MINING PER IL MARKETING Andrea Cerioli [email protected] Sito web del corso Richiami sul...

DATA MINING PER IL MARKETING

Andrea [email protected]

Sito web del corso

Richiami sul modello di regressione lineare (semplice)

Introduzione di elementi aleatori e problemi di inferenza

(v. corso Metodi Statistici per il Management + Capitoli 2 – 3 del libro)

mailto:[email protected]

Due semplici esempi sulle vendite (Esempio Prezzi-Vendite: p. 135)

N. dipende

nti(X)

Fatturatoin milioni di € (Y)

A 10 1,9

B 18 3,1

C 20 3,2

D 8 1,5

E 30 6,2

F 12 2,8

G 14 2,3

Prezzi in Euro (x)

Vendite (pezzi) (Y)

A 1.55 410B 1.60 380C 1.65 350D 1.60 400E 1.50 440F 1.65 380G 1.45 450H 1.50 420

Introduzione di elementi aleatori• Supermercati con prezzi/dipendenti uguali

possono avere vendite diverse: ci sono altri fattori influenti

• Alcuni di questi (quelli noti) possono essere inclusi nel modello: regressione multipla

• Anche dopo avere incluso i fattori noti, supermercati con caratteristiche analoghe possono avere vendite diverse: le vendite sono dovute in parte a tali fattori, ma in parte anche a elementi non conosciuti le interpretiamo come variabili aleatorie (casuali)

• Al contrario i dipendenti e i prezzi (var. esplicative) non sono variabili casuali poiché sono del tutto prevedibili dalla azienda che li stabilisce: sono fissati

Schema di riferimento• Una successione di valori fissi

x1, x2, … xn

• a cui sono associate n variabili aleatorie

Y1, Y2, … Yn

• Il punto cruciale consiste nel descrivere in modo appropriato tali v.a.:E(Yi)? var(Yi)? Distribuzione di Yi?

Assunzioni su Yi

• Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza (omoschedasticità):

var(Yi) = σ2 i=1, 2, …, n

σ2 è un parametro incognito da stimare

• Le osservazioni sono indipendenti (conoscendo le X):

cov(Yi, Yj)=0 i≠j

Tutta la «struttura nota» è nelle X

• I valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite:

E(Yi) = µi i=1, 2, …, n

• Modello di regressione: le medie delle distribuzioni variano linearmente con la variabile esplicativa

µi = E(Yi) = α+β xi

cioè i punti (x1, µ1), (x2, µ2), …, (xn, µn)

stanno tutti su una retta con parametri α e β

Modello di regressione

• α e β rappresentano l’intercetta ed il coefficiente angolare della retta sulla quale giacciono le medie incognite delle distribuzioni di Y1, …, Yn

• L’ipotesi che definisce il modello di regressione è:

µi = E(Yi) = α+β xi

N.B.: questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta, ma che i valori medi delle distribuzioni da cui provengono le osservazioni di Y verificano l’equazione della retta (per i valori fissati di x1, …, xn)

Dal grafico traspare inoltre che le distribuzioni da cui provengono le osservazioni di Y sono Gaussiane:

– y1 è una realizzazione di Y1 ~ N(µ1, σ2)

– y2 è una realizzazione di Y2 ~ N(µ2, σ2)

– …

Richiami sulla v.a. normale (pp. 63 – 72)

• se Y~N(µ, σ2): Z = (Y – µ)/ σ ~ N(0,1)Pr(-1.96<Z<1.96) = 0.95 Pr(-2.58<Z<2.58) = 0.99aY+b ~ N(b+ µ, a2σ2) (v. Teorema p. 64)funzione di densità: curva “a campana”

• Quando è sensato assumere che Y~N(µ, σ2)?

Modello di regressione - 2• Poiché

Yi = E(Yi) + termine di errore (gaussiano)

possiamo scrivere il modello come

Yi = α +β xi +εi

conE(εi)=0

Inoltre si assume che i termini di errore εi abbiano distribuzione gaussiana e siano indipendenti tra loroLe proprietà del termine di errore εi sono equivalenti a quelle della variabile dipendente Yi (perché X è fissata)

Stima dei parametri

• I parametri ignoti sono:α, β, µ1, µ2, …, µn, σ2

• La stima di α e β consente di ricostruire tutte le medie incognite µ1, µ2, …, µn

• In aggiunta, è necessario stimareσ2 = Varianza delle osservazioni Yi

attorno alla retta

Stime di α e β• Le formule di calcolo sono le stesse

dell’analisi dei dati (minimi quadrati: p. 143)

• Però è diversa l’interpretazione: ora

sono stime degli ignoti coefficienti e β

• Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn per valori fissi di x1, …, xn (campionamento ripetuto) si ottiene una distribuzione campionaria delle stime: anche le stime sono variabili casuali

Termine di errore e residuo stimato

0

1

2

3

4

5

6

7

8

0 10 20 30 40

X = N. dipendenti

Y =

ve

nd

ite

xy

xy ˆˆˆ i

( )i i iE y x

ie

ˆˆ ˆˆ( )i i iE y x

Modello vero (retta in blu) i i i i iy x x

Modello stimato(retta in nero)

ˆ ˆˆ ˆˆ ˆi i i i iy x e x

Stima di σ2

• σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni varianza del termine di errore, per x fissato:

σ2 = var(εi) = E(εi2)

• Dato che ei è l’unica stima disponibile di εi sembra naturale utilizzare come stimatore di σ2 una funzione della devianza dei residui:2

ie

Stima di σ2

• Dividiamo la devianza per i suoi “gradi di libertà”:

• n – 2 = gradi di libertà (degrees of freedom: df)

• Dobbiamo “pagare” 2 df per la stima di e β (v. p. 148)

2 2 22

ˆ ˆ( ) ( )

2 2 2i i i i iy y y e

sn n n

2 2( 2)iE e n 2 2E s

Inferenza sui parametri (modello di regressione)

Costruire intervalli di confidenza e test per la verifica d’ipotesi sui

parametri del modello: , β e 2 (da questi si possono ottenere intervalli e

test anche per le medie 1, …,n).

Il caso principale è quello del coeff. angolare β: l’inferenza parte dalla

stima campionaria

Studio della distribuzione di

2)(

)(ˆxx

Yxx

i

ii

?)ˆ( E )ˆ(E

?)ˆvar(

2

2

)()ˆvar(

xxi

Stimatore corretto (p. 149)

p. 150

Al posto di σ2 (ignoto) sostituiamo la sua stima s2

2

22

)()ˆ())ˆ(var(

xx

ssStima

i

• La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore

2ˆ)(

)ˆ(xx

sSEs

i

Interpretazione dello standard error di beta cappello

• Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati: è la misura (stimata) della variabilità campionaria nella stima di β tramite

• Principio del campionamento ripetuto

Studio della distribuzione di

?)ˆ( E )ˆ(E

?)ˆvar(

2

22

)(

1)ˆvar(

xx

x

n i

xY ˆˆ

v. pp. 149-150

Costruzione di intervalli di confidenza

per i parametri

Punto di partenza: lo scost. standard. di beta capello ha una distribuzione N(0,1) (perché?)

• Passaggi successivi (p. 154): – si esplicita la formula della var. di beta

cappello– si sostistuisce 2 ignoto con s2;– si richiama la v.a. T di Student con n-2

gradi di libertà

1

)ˆvar(

)ˆ(ˆPr Z

EZ

Intervallo di confidenza per

• Dove t/2 è il percentile della distribuzione T di Student con (n – 2) gradi di libertà tale che (v. figura p. 86):

Pr(T -t/2 ) = Pr(T t/2 ) = /2

Quali assunzioni per l’uso della T di Student?E nel caso di grandi campioni?

ˆ ˆ/2 /2ˆ ˆPr( ) 1t s t s

EsercizioEsempio 7 supermercati prezzo-vendite: p. 155

Esempio 7 supermercati dipendenti-fatturato: calcolo intervalli di confidenza per i parametri

Beta cappello = 0.198; SE = 0.0253Pr(0.133 < β < 0.263) = 0.95

Interpretazione (v. dopo)

Intervallo per e 2 (per esercizio)

Interpretazione• L'intervallo di confidenza di , con probabilità =

0.95, va da 0.133 a 0.263. • Ciò significa che, nell'universo di riferimento,

all'aumento di un dipendente corrisponde un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%).

• Osservazione 1: l'intervallo è piuttosto ampio dipende dalla ridotta numerosità campionaria (solo 7 supermercati).

• Osservazione 2: significato della probabilità (95%) associata all’intervallo

• Osservazione 3: confronto tra stima puntuale e intervallo

Costruzione di test di ipotesi per

α β σ2

Dato che2~

)ˆ(

ˆ

nt

SE

2~)ˆ(

ˆnt

SE

t-statistica

Calcolo del p-value (dalla tn-2) pp. 156 - 157

Sotto H0: β =0

Esercizio Es. 7 supermercati (dipendenti-fatturato):H0:β=0

tβ=7.82 p-value = 0.000548

Interpretazione: rifiuto decisamente l’ipotesi nulla

H0:=0

tα=0.39 p-value = 0.714

Interpretazione : non posso rifiutare l’ipotesi nulla

Es. 7 supermercati (prezzo-vendite): p. 157

Intervallo di confidenza per la previsione y0

• Varianza dell’errore di previsione (p. 167)

• Distribuzione dell’errore di previsione

• Intervallo di confidenza per y0 (p. 167)

Da che cosa dipende

0 0 0

0 0

ˆ~ ( 2)

ˆ ˆvar( ) var( )

e y yT n

e e

Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di previsione delle vendite al 95%

95.0)28.472.1Pr( 0 y Interpretazione

Come ci aspettiamo che cambi l’intervallo se X = 50?

DATA MINING PER IL MARKETING Andrea Cerioli [email protected] Sito web del corso Richiami sul...

Documents

Transcript of DATA MINING PER IL MARKETING Andrea Cerioli [email protected] Sito web del corso Richiami sul...