DATA MINING PER IL MARKETING Andrea Cerioli [email protected] Sito web del corso Richiami sul...
-
Upload
cinzia-parodi -
Category
Documents
-
view
221 -
download
5
Transcript of DATA MINING PER IL MARKETING Andrea Cerioli [email protected] Sito web del corso Richiami sul...
DATA MINING PER IL MARKETING
Andrea [email protected]
Sito web del corso
Richiami sul modello di regressione lineare (semplice)
Introduzione di elementi aleatori e problemi di inferenza
(v. corso Metodi Statistici per il Management + Capitoli 2 – 3 del libro)
Due semplici esempi sulle vendite (Esempio Prezzi-Vendite: p. 135)
N. dipende
nti(X)
Fatturatoin milioni di € (Y)
A 10 1,9
B 18 3,1
C 20 3,2
D 8 1,5
E 30 6,2
F 12 2,8
G 14 2,3
Prezzi in Euro (x)
Vendite (pezzi) (Y)
A 1.55 410B 1.60 380C 1.65 350D 1.60 400E 1.50 440F 1.65 380G 1.45 450H 1.50 420
Introduzione di elementi aleatori• Supermercati con prezzi/dipendenti uguali
possono avere vendite diverse: ci sono altri fattori influenti
• Alcuni di questi (quelli noti) possono essere inclusi nel modello: regressione multipla
• Anche dopo avere incluso i fattori noti, supermercati con caratteristiche analoghe possono avere vendite diverse: le vendite sono dovute in parte a tali fattori, ma in parte anche a elementi non conosciuti le interpretiamo come variabili aleatorie (casuali)
• Al contrario i dipendenti e i prezzi (var. esplicative) non sono variabili casuali poiché sono del tutto prevedibili dalla azienda che li stabilisce: sono fissati
Schema di riferimento• Una successione di valori fissi
x1, x2, … xn
• a cui sono associate n variabili aleatorie
Y1, Y2, … Yn
• Il punto cruciale consiste nel descrivere in modo appropriato tali v.a.:E(Yi)? var(Yi)? Distribuzione di Yi?
Assunzioni su Yi
• Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza (omoschedasticità):
var(Yi) = σ2 i=1, 2, …, n
σ2 è un parametro incognito da stimare
• Le osservazioni sono indipendenti (conoscendo le X):
cov(Yi, Yj)=0 i≠j
Tutta la «struttura nota» è nelle X
• I valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite:
E(Yi) = µi i=1, 2, …, n
• Modello di regressione: le medie delle distribuzioni variano linearmente con la variabile esplicativa
µi = E(Yi) = α+β xi
cioè i punti (x1, µ1), (x2, µ2), …, (xn, µn)
stanno tutti su una retta con parametri α e β
Modello di regressione
• α e β rappresentano l’intercetta ed il coefficiente angolare della retta sulla quale giacciono le medie incognite delle distribuzioni di Y1, …, Yn
• L’ipotesi che definisce il modello di regressione è:
µi = E(Yi) = α+β xi
N.B.: questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta, ma che i valori medi delle distribuzioni da cui provengono le osservazioni di Y verificano l’equazione della retta (per i valori fissati di x1, …, xn)
Dal grafico traspare inoltre che le distribuzioni da cui provengono le osservazioni di Y sono Gaussiane:
– y1 è una realizzazione di Y1 ~ N(µ1, σ2)
– y2 è una realizzazione di Y2 ~ N(µ2, σ2)
– …
Richiami sulla v.a. normale (pp. 63 – 72)
• se Y~N(µ, σ2): Z = (Y – µ)/ σ ~ N(0,1)Pr(-1.96<Z<1.96) = 0.95 Pr(-2.58<Z<2.58) = 0.99aY+b ~ N(b+ µ, a2σ2) (v. Teorema p. 64)funzione di densità: curva “a campana”
• Quando è sensato assumere che Y~N(µ, σ2)?
Modello di regressione - 2• Poiché
Yi = E(Yi) + termine di errore (gaussiano)
possiamo scrivere il modello come
Yi = α +β xi +εi
conE(εi)=0
Inoltre si assume che i termini di errore εi abbiano distribuzione gaussiana e siano indipendenti tra loroLe proprietà del termine di errore εi sono equivalenti a quelle della variabile dipendente Yi (perché X è fissata)
Stima dei parametri
• I parametri ignoti sono:α, β, µ1, µ2, …, µn, σ2
• La stima di α e β consente di ricostruire tutte le medie incognite µ1, µ2, …, µn
• In aggiunta, è necessario stimareσ2 = Varianza delle osservazioni Yi
attorno alla retta
Stime di α e β• Le formule di calcolo sono le stesse
dell’analisi dei dati (minimi quadrati: p. 143)
• Però è diversa l’interpretazione: ora
sono stime degli ignoti coefficienti e β
• Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn per valori fissi di x1, …, xn (campionamento ripetuto) si ottiene una distribuzione campionaria delle stime: anche le stime sono variabili casuali
Termine di errore e residuo stimato
0
1
2
3
4
5
6
7
8
0 10 20 30 40
X = N. dipendenti
Y =
ve
nd
ite
xy
xy ˆˆˆ i
( )i i iE y x
ie
ˆˆ ˆˆ( )i i iE y x
Modello vero (retta in blu) i i i i iy x x
Modello stimato(retta in nero)
ˆ ˆˆ ˆˆ ˆi i i i iy x e x
Stima di σ2
• σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni varianza del termine di errore, per x fissato:
σ2 = var(εi) = E(εi2)
• Dato che ei è l’unica stima disponibile di εi sembra naturale utilizzare come stimatore di σ2 una funzione della devianza dei residui:2
ie
Stima di σ2
• Dividiamo la devianza per i suoi “gradi di libertà”:
• n – 2 = gradi di libertà (degrees of freedom: df)
• Dobbiamo “pagare” 2 df per la stima di e β (v. p. 148)
2 2 22
ˆ ˆ( ) ( )
2 2 2i i i i iy y y e
sn n n
2 2( 2)iE e n 2 2E s
Inferenza sui parametri (modello di regressione)
Costruire intervalli di confidenza e test per la verifica d’ipotesi sui
parametri del modello: , β e 2 (da questi si possono ottenere intervalli e
test anche per le medie 1, …,n).
Il caso principale è quello del coeff. angolare β: l’inferenza parte dalla
stima campionaria
Studio della distribuzione di
2)(
)(ˆxx
Yxx
i
ii
?)ˆ( E )ˆ(E
?)ˆvar(
2
2
)()ˆvar(
xxi
Stimatore corretto (p. 149)
p. 150
Al posto di σ2 (ignoto) sostituiamo la sua stima s2
2
22
)()ˆ())ˆ(var(
xx
ssStima
i
• La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore
2ˆ)(
)ˆ(xx
sSEs
i
Interpretazione dello standard error di beta cappello
• Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati: è la misura (stimata) della variabilità campionaria nella stima di β tramite
• Principio del campionamento ripetuto
Studio della distribuzione di
?)ˆ( E )ˆ(E
?)ˆvar(
2
22
)(
1)ˆvar(
xx
x
n i
xY ˆˆ
v. pp. 149-150
Costruzione di intervalli di confidenza
per i parametri
Punto di partenza: lo scost. standard. di beta capello ha una distribuzione N(0,1) (perché?)
• Passaggi successivi (p. 154): – si esplicita la formula della var. di beta
cappello– si sostistuisce 2 ignoto con s2;– si richiama la v.a. T di Student con n-2
gradi di libertà
1
)ˆvar(
)ˆ(ˆPr Z
EZ
Intervallo di confidenza per
• Dove t/2 è il percentile della distribuzione T di Student con (n – 2) gradi di libertà tale che (v. figura p. 86):
Pr(T -t/2 ) = Pr(T t/2 ) = /2
Quali assunzioni per l’uso della T di Student?E nel caso di grandi campioni?
ˆ ˆ/2 /2ˆ ˆPr( ) 1t s t s
EsercizioEsempio 7 supermercati prezzo-vendite: p. 155
Esempio 7 supermercati dipendenti-fatturato: calcolo intervalli di confidenza per i parametri
Beta cappello = 0.198; SE = 0.0253Pr(0.133 < β < 0.263) = 0.95
Interpretazione (v. dopo)
Intervallo per e 2 (per esercizio)
Interpretazione• L'intervallo di confidenza di , con probabilità =
0.95, va da 0.133 a 0.263. • Ciò significa che, nell'universo di riferimento,
all'aumento di un dipendente corrisponde un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%).
• Osservazione 1: l'intervallo è piuttosto ampio dipende dalla ridotta numerosità campionaria (solo 7 supermercati).
• Osservazione 2: significato della probabilità (95%) associata all’intervallo
• Osservazione 3: confronto tra stima puntuale e intervallo
Costruzione di test di ipotesi per
α β σ2
Dato che2~
)ˆ(
ˆ
nt
SE
2~)ˆ(
ˆnt
SE
t-statistica
Calcolo del p-value (dalla tn-2) pp. 156 - 157
Sotto H0: β =0
Esercizio Es. 7 supermercati (dipendenti-fatturato):H0:β=0
tβ=7.82 p-value = 0.000548
Interpretazione: rifiuto decisamente l’ipotesi nulla
H0:=0
tα=0.39 p-value = 0.714
Interpretazione : non posso rifiutare l’ipotesi nulla
Es. 7 supermercati (prezzo-vendite): p. 157
Intervallo di confidenza per la previsione y0
• Varianza dell’errore di previsione (p. 167)
• Distribuzione dell’errore di previsione
• Intervallo di confidenza per y0 (p. 167)
Da che cosa dipende
0 0 0
0 0
ˆ~ ( 2)
ˆ ˆvar( ) var( )
e y yT n
e e
Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di previsione delle vendite al 95%
95.0)28.472.1Pr( 0 y Interpretazione
Come ci aspettiamo che cambi l’intervallo se X = 50?