Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum...

64
Marco Cristani Teoria e Tecniche del Riconoscimento 1 Teoria e Tecniche del Riconoscimento Stima dei parametri: approccio Maximum Likelihood, Expectation- Maximization, approccio Bayesiano Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11

Transcript of Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum...

Page 1: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 1

Teoria e Tecniche del Riconoscimento

Stima dei parametri:approccio Maximum Likelihood,

Expectation-Maximization,approccio Bayesiano

Facoltà di Scienze MM. FF. NN.

Università di Verona

A.A. 2010-11

Page 2: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 2

Introduzione

• Per creare un classificatore ottimale che utilizzi la regola di decisione Bayesiana è necessario conoscere:

– Le probabilità a priori– Le densità condizionali

• Le performance di un classificatore dipendono fortemente dalla bontà di queste componenti

• NON SI HANNO PRATICAMENTE MAI TUTTE QUESTE INFORMAZIONI!

)( iP )|( ip x

Page 3: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 3

• Più spesso, si hanno unicamente:– Una vaga conoscenza del problema, da cui

estrarre vaghe probabilità a priori.– Alcuni pattern particolarmente rappresentativi,

training data, usati per addestrare il classificatore (spesso troppo pochi!)

• La stima delle probabilità a priori di solito non risulta particolarmente difficoltosa.

• La stima delle densità condizionali è più complessa.

Page 4: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 4

• Assunto che la conoscenza, benché approssimativa, delle densità a priori non presenta problemi, per quanto riguarda le densità condizionali le problematiche si possono suddividere in:

1. Stimare la funzione sconosciuta

2. Stimare i parametri sconosciuti della funzione conosciuta

Per es., stimare il vettore se

)|( jp x

)|( jp x

),()|( jjj Np Σμx ),( jjj Σμθ

Page 5: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 5

Stima dei parametri

• Il secondo punto risulta di gran lunga più semplice (sebbene complesso!), e rappresenta un problema classico nella statistica.

• Trasferito nella pattern recognition, un approccio è quello di

1) stimare i parametri dai dati di training2) usare le stime risultanti come se fossero valori veri

3) utilizzare infine la teoria di decisione Bayesiana

per costruire un classificatore

Page 6: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 6

Uno sguardo d’insieme

Page 7: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 7

Stima dei parametri – Probabilità a priori• Supponiamo di avere un insieme di n dati di training

in cui ad ogni pattern è assegnata un’etichetta d’identità (ossia conosco per certo a quale stato j

appartiene il pattern k-esimo)

problema di learning dei parametri supervisionato• Allora

dove ni è il numero di campioni con etichetta i

n

nP i

i )(

Page 8: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 8

Stima dei parametri – Class conditional

• Supponiamo di avere c set di campioni D1,D2,...,Dc tracciati indipendentemente in accordo alla densità p(x|j)

– Assumiamo che p(x|j) abbia forma parametrica conosciuta

• Il problema di stima dei parametri consiste nello stimare i parametri che definiscono p(x|j)

• Per semplificare il problema, assumiamo inoltre che: – i campioni appartenenti al set Di non danno informazioni

relative ai parametri di p(x| j) se ij.

Page 9: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 9

Stima dei parametri – Due approcci• Specificatamente, il problema può essere

formulato come:– Dato un set di training D={x1, x2, ...., xn}– p(x|) è determinata da , che è un vettore

rappresentante i parametri necessari(p.e., se )

– Vogliamo trovare il migliore usando il set di training.

• Esistono due approcci– Stima Maximum-likelihood (ML)– Stima di Bayes

),( Σμθ ),()|( Σμx Np

Page 10: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 10

Stima dei parametri – Due approcci (2)

• Approccio Maximum Likelihood– I parametri sono quantità fissate ma sconosciute– La migliore stima dei loro valori è quella che

massimizza la probabilità di ottenere i dati di training

• Approccio Bayesiano – I parametri sono variabili aleatorie aventi

determinate probabilità a priori– Le osservazioni dei dati di training trasformano

queste probabilità in probabilità a posteriori

Page 11: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 11

Stima dei parametri – Due approcci (3)

– Aggiungendo campioni di training il risultato è di rifinire meglio la forma delle densità a posteriori, causando un innalzamento di esse in corrispondenza dei veri valori dei parametri (fenomeno di Bayesian Learning).

• I risultati dei due approcci, benché proceduralmente diversi, sono qualitativamente simili.

Page 12: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 12

Approccio Maximum Likelihood

• In forza dell’ipotesi di partenza del problema, poiché i pattern del set D sono i.i.d., abbiamo che:

• Vista come funzione di p(D|) viene chiamata likelihood di rispetto al set di campioni D.

• La stima di Maximum Likelihood di è, per definizione, il valore che massimizza p(D|);

• Ricordiamo l’assunzione che è fissato ma sconosciuto

n

kkxpp

1

)|()|( θθD

θ̂

Page 13: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 13

Approccio Maximum Likelihood (2)

Punti di training 1-D assunti generati da una densità gaussiana di varianza fissata ma media sconosciuta

4 delle infinite possibili gaussiane

NB: La likelihood p(D|) è funzione di , mentre la densità condizionale p(x|) funzione di x

LIKELIHOOD

LOG-LIKELIHOOD

Page 14: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 14

Approccio Maximum Likelihood (3)

• Se il numero di parametri da stimare è p, sia 1p)t e

• Per scopi analitici risulta più semplice lavorare con il logaritmo della likelihood.

• Definiamo quindi l() come funzione di log-likelihood

p

1

θ

n

kkxpDpl

1

)|(ln)|(ln)(

Page 15: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 15

Approccio Maximum Likelihood (4)

• Lo scopo è di ottenere quindi il vettore

in cui la dipendenza sul data set D è implicita.• Pertanto per ricavare il max:

da cui vogliamo ottenere

)(maxargˆ θθθ

l

n

kkxpl

1

)|(ln)( θθ

n

kkxppl

1

)|(ln)|(ln)( θθDθ

0)( θl

Page 16: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 16

Approccio Maximum Likelihood (5)

• Formalmente, una volta trovato il set di parametri che rende vera, è necessario controllare che la soluzione trovata sia effettivamente un massimo globale, piuttosto che un massimo locale o un flesso o peggio ancora un punto di minimo.

• Bisogna anche controllare cosa accade ai bordi degli estremi dello spazio dei parametri

• Applichiamo ora l’approccio ML ad alcuni casi specifici.

Page 17: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 17

Maximum Likelihood: caso Gaussiano

• Consideriamo che i campioni siano generati da una popolazione normale multivariata di media e covarianza .

• Per semplicità, consideriamo il caso in cui solo la media sia sconosciuta. Consideriamo quindi il punto campione xk e troviamo:

)()(2

12ln

2

1)|(ln 1

kt

kd

kp xxΣμx

)()|(ln 1 kkp xμxμ

Page 18: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 18

Maximum Likelihood: caso Gaussiano (2)

• Identificando con si deduce che la stima Maximum-Likelihood di deve soddisfare la relazione:

• Moltiplicando per e riorganizzando la somma otteniamo

che non è altro che la semplice media degli esempi di training, altresì indicata con per indicarne la dipendenza dalla numerosità del training set.

0ˆ1

1

μxΣ k

n

k

n

kkn 1

1ˆ xμ

nμ̂

Page 19: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 19

• Consideriamo ora il caso più tipico in cui la distribuzione Gaussiana abbia media e covarianza ignote.

• Consideriamo prima il caso univariato = (1, 2) = (,2)

• Se si prende un singolo punto abbiamo

la cui derivata è

Maximum Likelihood: caso Gaussiano (3)

21

22 )(

2

1π2ln

2

1)|(ln

kk xxp θ

22

21

2

12

2

)(

2

1

)(1

)(ln

k

k

k x

x

xpl θθθ

Page 20: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 20

• Eguagliando a 0 e considerando tutti i punti si ottiene:

dove e sono le stime ML per 1 e 2.

• Sostituendo si hanno le stime ML di media e varianza

Maximum Likelihood: caso Gaussiano (4)

0)ˆ(ˆ1

11

2

n

kkx

n

k

kn

k

x

12

2

21

1 2

)ˆ(ˆ1

1̂ 2̂

22

1ˆeˆˆ

n

kkx

n 1

n

kkx

n 1

22 )ˆ(1

ˆ

Page 21: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 21

• Il caso multivariato si tratta in maniera analoga con più conti. Il risultato è comunque:

• Si noti tuttavia che la stima della covarianza è sbilanciata, i.e., il valore aspettato della varianza campione su tutti i possibili insiemi di dimensione n non è uguale alla vera varianza

Maximum Likelihood: caso Gaussiano (5)

n

kkn 1

1ˆ xμ

n

k

tkkn 1

)ˆ)(ˆ(1ˆ μxμxΣ

22

1

2 1)(

1

n

nxx

nE

n

ii

Page 22: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 22

Maximum-Likelihood: altri casi• Esistono, oltre alla densità Gaussiana, anche altre famiglie di

densità che costituiscono altrettante famiglie di parametri:

– Distribuzione esponenziale

– Distribuzione uniforme

– Distribuzione di Bernoulli multivariata

altrimenti 0

0 )|(

xexp

x

altrimenti 0

0 1/)|(

xxp

Page 23: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 23

Maximum-Likelihood – Modello d’errore

• In generale, se i modelli parametrici sono validi, il classificatore maximum-likelihood fornisce risultati eccellenti.

• Invece, se si usano famiglie parametriche scorrette, il classificatore produce forti errori

– Questo accade anche se è nota la famiglia parametrica da usare, per esempio se si stima all’interno di una distribuzione gaussiana come parametro una varianza troppo larga.

Page 24: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 24

Maximum-Likelihood – Modello d’errore (2)

• Di fatto manca un modello d’errore che dia un voto alla parametrizzazione ottenuta.

• Inoltre, per applicare la stima di Maximum-Likelihood, tutti i dati di training devono essere disponibili

– Se vogliamo utilizzare nuovi dati di training, è necessario ricalcolare la procedura di stima Maximum-Likelihood.

Page 25: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Expectation-MaximizationExpectation-Maximization

μ1Σ1

μ2Σ2

μ3Σ3

Page 26: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Introduction - Introduction - Maximum Likelihood Estimation (MLE) problemMaximum Likelihood Estimation (MLE) problem

• INPUT:INPUT:– A dataset of A dataset of observationsobservations v={v v={v(t)(t)}}t=1...T t=1...T

– An An implicit implicit knowledge, i.e.knowledge, i.e.• the dataset comes from a parametric random processthe dataset comes from a parametric random process• such random process has a known form (f.i. a mixture such random process has a known form (f.i. a mixture

of Gaussians)of Gaussians)• other (i.i.d. data, usually)other (i.i.d. data, usually)

• OUTPUT:OUTPUT:– the the set of parameters hset of parameters hθθ that maximizes the that maximizes the

likelihoodlikelihood p(v|h p(v|hθθ ) a.k.a. ) a.k.a. objective functionobjective function L(h L(hθθ))

Page 27: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Introduction - Introduction - MLE problem and EM solutionMLE problem and EM solution

• Usually, the MLE is performed by Usually, the MLE is performed by differentiating the differentiating the likelihoodlikelihood function with respect to the various function with respect to the various parameters, and parameters, and solving for 0solving for 0

• Sometimes, this solution is not feasible due to the Sometimes, this solution is not feasible due to the complex form of the likelihoodcomplex form of the likelihood

• This is the situation in which the EM algorithm This is the situation in which the EM algorithm helpshelps

Page 28: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Introduction - Introduction - EMEM

• Iterative process Iterative process

• Each iteration is composed by 2 stepsEach iteration is composed by 2 steps– EE-step: -step: ExpectationExpectation– MM-step: -step: MaximizationMaximization

• Convergent to a local maxima of the likelihood Convergent to a local maxima of the likelihood functionfunction

• Widespreadly usedWidespreadly used– geneticsgenetics– statisticsstatistics– econometricseconometrics

Page 29: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Introduction - Introduction - EM placement in the maximization methods EM placement in the maximization methods literatureliterature

• Gradient descentGradient descent: linear : linear approximation to the L(happroximation to the L(hθθ) ) – we don’t know how good is the we don’t know how good is the

approximationapproximation– we don’t know how big the we don’t know how big the

step to dostep to do

• Newton methodsNewton methods: quadratic : quadratic approxapprox– same problem as abovesame problem as above

• EMEM: : – at each E step it builds a local at each E step it builds a local

lower bound of the objective lower bound of the objective functionfunction

– at each M step, a novel hat each M step, a novel hθθ

which correspondswhich corresponds to a to a bigger bigger value of the objective functionvalue of the objective function

Page 30: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Introduction - Introduction - MLE example - Mixture of Gaussians (MoG)MLE example - Mixture of Gaussians (MoG)

μ1Σ1

μ2Σ2

μ3Σ3

Page 31: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Introduction - Introduction - MLE example - MoGs (2)MLE example - MoGs (2)

μ1Σ1

μ2Σ2

μ3Σ3

Page 32: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Introduction - Introduction - MLE example - MoGs (3)MLE example - MoGs (3)

μ1Σ1

μ2Σ2

μ3Σ3• GoalsGoals

1.1. find find

2.2. maximizemaximize

PROBLEMATIC

the parameters are coupled, due to the the parameters are coupled, due to the sum of the log: sum of the log: no closed form solutionno closed form solution

Page 33: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

The algorithm - The algorithm - EM in one slide! - The EM trickEM in one slide! - The EM trick

Jensen Inequality The trick

Page 34: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

The algorithm - The algorithm - Novel objects in the MLE instanceNovel objects in the MLE instance

• hh = = hidden variablehidden variable– a hidden a hidden qualityquality of the single data point of the single data point

• P(h,v)P(h,v) = = complete data (hidden + visible) likelihoodcomplete data (hidden + visible) likelihood– it explains how the hidden variables and the visible ones it explains how the hidden variables and the visible ones

are coupled togetherare coupled together

• Q(h)Q(h) = = support distribution on the hidden variablessupport distribution on the hidden variables– a distribution over the hidden variables, simpler than P(h,v) a distribution over the hidden variables, simpler than P(h,v)

Page 35: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

The algorithm - The algorithm - Novel objects in the MLE instance (2)Novel objects in the MLE instance (2)

• F(Q(h),P(h,v))F(Q(h),P(h,v)) – a divergence between Q,P a functional a divergence between Q,P a functional – an inferior bound with respect to the objective an inferior bound with respect to the objective

function L(hfunction L(hθθ))– an object with Q(h) unknownan object with Q(h) unknown– an object with han object with hθθ unknown unknown

Page 36: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

The algorithm - The algorithm - Minimization of the divergenceMinimization of the divergence

• I minimize F(Q,P) I minimize F(Q,P) alternativelyalternatively

1.1. with respect to Q(h), with respect to Q(h), with hwith hθθ fixed fixed

2.2. with respect to hwith respect to hθθ, , with Q(h) fixedwith Q(h) fixed

functional derivative derivative

Page 37: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

The algorithm - The algorithm - The core of the EM in practiceThe core of the EM in practice• INITIALIZATIONINITIALIZATION: set an initial h: set an initial hθθ

• STEP ESTEP E: : Minimize F(Q,P) with respect to Q(hMinimize F(Q,P) with respect to Q(h(t)(t)) calculating for ) calculating for each possible value of heach possible value of h(t)(t)

for each tfor each t

• STEP MSTEP M: : Minimize F(Q,P) with respect to Minimize F(Q,P) with respect to hhθθ solving solving

for M parameters, this is a system of M equations.for M parameters, this is a system of M equations.

EASY TO COMPUTE !!!

EASY TO COMPUTE !!!

Page 38: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

The algorithm - The algorithm - Perplexities and practical receiptsPerplexities and practical receipts

• Cool, but when should I use EM?Cool, but when should I use EM?– with probabilistic problems, in which mixtures of with probabilistic problems, in which mixtures of

whateverwhatever are involved, where each data point is are involved, where each data point is generated by one of the components of the generated by one of the components of the mixturemixture• MoG (mixtures of Gaussian)MoG (mixtures of Gaussian)

• HMM (mixtures of states)HMM (mixtures of states)

• Bayes Net (mixtures of parents of a node)Bayes Net (mixtures of parents of a node)

• Crucial question: what is Crucial question: what is hh(t)(t) ??– hh(t)(t) indicates what component of the mixture indicates what component of the mixture

generates the data vgenerates the data v(t)(t)

Page 39: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Applications - Applications - Back to the MoGs - the E-playersBack to the MoGs - the E-players

μ1Σ1

μ2Σ2

μ3Σ3•

BAYES

Compute for each i, for each t

Page 40: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Applications - Applications - Back to the MoGs - the M-playersBack to the MoGs - the M-players

• μ1Σ1

μ2Σ2

μ3Σ3•

!!!

Page 41: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

RemarksRemarks

• The idea: introduce hidden variables which The idea: introduce hidden variables which knowledge semplifies the computation of the knowledge semplifies the computation of the parametersparameters

• The hidden variables are related with the The hidden variables are related with the visible variablesvisible variables

• The decision of the hidden quantities is not an The decision of the hidden quantities is not an automatic process, and relies on the scientistautomatic process, and relies on the scientist

• In genera, the EM well apply when we have to In genera, the EM well apply when we have to deal with mixturesdeal with mixtures

Page 42: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 43

Stima di Bayes

• A differenza dell’approccio ML, in cui supponiamo come fissato ma sconosciuto, l’approccio di stima Bayesiana dei parametri considera come una variabile aleatoria.

• In questo caso il set di dati di training D ci permette di convertire una distribuzione a priori p() su questa variabile in una densità di probabilità a posteriori p(|D)

p() p(|D)

• Data la difficoltà dell’argomento, è necessario un passo indietro al concetto di classificazione Bayesiana

Page 43: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 44

Approccio di stima Bayesiano – Idea centrale

• Il calcolo delle densità a posteriori Pi|x) sta alla base della classificazione Bayesiana

• Per creare un classificatore ottimale che utilizzi la regola di decisione Bayesiana è necessario conoscere:

– Le probabilità a priori Pi)

– Le densità condizionali px|i)

• Quando queste quantità sono sconosciute, bisogna ricorrere a tutte le informazioni a disposizione.

Page 44: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 45

Approccio di stima Bayesiano – Idea centrale (2)

• Parte di queste informazioni può essere derivante da:1. Conoscenza a priori

Forma funzionale delle densità sconosciute Intervallo dei valori dei parametri sconosciuti

2. Training set Sia D il set totale di campioni: il nostro compito si

trasforma così nella stima di Pi|x,D)

• Da queste probabilità possiamo ottenere il classificatore Bayesiano.

Page 45: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 46

Approccio di stima Bayesiano – Idea centrale (3)• Dato il set di training D, la formula di Bayes diventa:

• Assunzioni:

– Ragionevolmente, Pi |D ) Pi)

– Dato il caso di learning supervisionato il set D è partizionato in c set di campioni D1, D2,..., Dc con i campioni in Di appartenenti a i

– I campioni appartenenti al set Di non danno informazioni sui parametri di p(x| j, D) se ij.

c

jjj

iii

DPDp

DPDpDP

1

)|(),|(

)|(),|(),|(

x

xx

Marco Cristani
perche si assume che la conoscena a priori non dipenda dai dati, dalle osservazioni
Page 46: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 47

Approccio di stima Bayesiano – Idea centrale (4)

• Queste assunzioni portano a due conseguenze:1. Possiamo lavorare con ogni classe

indipendentemente, ossia

c

jjj

iii

DPDp

DPDpDP

1

)|(),|(

)|(),|(),|(

x

xx

c

jjjj

iiii

PDp

PDpDP

1

)(),|(

)(),|(),|(

x

xx

Page 47: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 48

2. Poiché ogni classe può essere trattata indipendentemente, si possono evitare le distinzioni tra le classi e semplificare la notazione riducendola a c diverse istanze dello stesso problema, ossia:

c

jjjj

iiii

PDp

PDpDP

1

)(),|(

)(),|(),|(

x

xx

Approccio di stima Bayesiano – Idea centrale (5)

)|( Dp x

Page 48: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 49

Distribuzione dei parametri

• Quello che vogliamo fare è effettivamente osservare come viene ottenuta p(x|D) tramite l’ausilio di un modello di parametri implicito .

• Ragionevolmente, abbiamo

dove l’integrazione si estende su tutto lo spazio dei parametri

)|,()|( θθxx dDpDp

Marco Cristani
Da qui partela vera e propria stima bayesiana, le formule di prima servono solo ad introdurre i dati e a collegarli all'osservazione
Page 49: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 50

• Quindi

• Poichè, per ipotesi, la probabilità di x è indipendente dai campioni di training D, dato ,

)|(),|(

)|,()|(

θθθx

θθxx

dDpDp

dDpDp

Distribuzione dei parametri

θθθxx dDppDp )|()|( )|(

Page 50: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 51

• L’equazione precedente lega esplicitamente la densità condizionale p(x|D) alla densità a posteriori p(|D) tramite il vettore sconosciuto di parametri

• Se p(|D) si concentra fortemente su un valore, otteniamo una stima del vettore più probabile, quindi

p(x|D) p(x | )• Ma questo approccio permette di tenere conto

dell’effetto di tutti gli altri modelli, descritti dal valore della funzione integrale, per tutti i possibili modelli.

Distribuzione dei parametri

θ̂

θθθxx dDppDp )|()|( )|(

θ̂

Marco Cristani
se persempio ho una delta function, allora metto nella formula e concludo
Page 51: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 52

Esempio: caso Gaussiano

• Utilizziamo le tecniche di stima Bayesiana per calcolare la densità a posteriori p( |D), e quindi la densità p(x|D) per il caso in cui in cui l’unica quantità sconosciuta è la media .

• Devo quindi definire

),()|()|()|( 2 Nxppp μxθx

θθθxx dDppDp )|()|( )|(

)|()|( DpDp θ

Page 52: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 53

Esempio: caso Gaussiano

• Con la regola di Bayes posso scrivere:

PRIMO PASSO

– in pratica 0 rappresenta la migliore scelta iniziale

per il parametro , con che ne misura l’incertezza.

dpDp

pDpDp

)()|(

)()|()|( Densità

riprodotta

),()( 200 Np Prior coniugato

Page 53: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

54

Esempio: caso Gaussiano

NOTA: la scelta del prior è arbitraria, ma:

• deve essere fatta (il prior deve essere noto)

• di solito si sceglie un prior coniugato

- prior che assicura che la forma della posterior p(|D) sia trattabile,

cioè abbia la stessa forma della condizionale

- Questo semplifica di molto l’analisi

- Esempio: gaussiana per gaussiana, dirichlet per multinomiale

Page 54: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 55

Esempio: caso Gaussiano

• Supponiamo di avere n campioni di training D={x1, x2,..., xn} e riscriviamo la densità riprodotta come

dove è un fattore di normalizzazione dipendente da D.

dpDp

pDpDp

)()|(

)()|()|(

)()|(1

pxpn

kk

Page 55: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 56

Esempio: caso Gaussiano

• L’equazione mostra come l’osservazione del set di esempi di training influenzi la nostra idea sul vero valore di ; essa relaziona la densità a priori p() con la densità a posteriori p(|D).

SECONDO PASSO: Svolgendo i calcoli, ci si accorge che, grazie al prior normale, p(|D) risulta anch’essa normale, modificandosi in dipendenza del numero di campioni che formano il training set, evolvendosi in impulso di Dirac per n (fenomeno di Learning Bayesiano).

• Formalmente si giunge alle seguenti formule:

Page 56: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 57

Esempio: caso Gaussiano

Page 57: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 58

n rappresenta la nostra migliore scelta per dopo aver

osservato n campioni.

n misura l’incertezza della nostra scelta.

220

2202

0220

2

122

0

20

2

2

1 dove

}2

)(exp{

2

1

)()|(

)()|()|(

n

nx

nn

n

dpDp

pDpDp

n

n

kkn

n

n

n

Esempio: caso Gaussiano

Page 58: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

Marco CristaniTeoria e Tecniche del Riconoscimento 59

Esempio: caso Gaussiano

Page 59: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

60

Esempio: caso Gaussiano

TERZO PASSO: stima della densità condizionale p(x|D)

Page 60: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

61

Esempio: caso Gaussiano

dove

Page 61: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

62

Esempio: caso Gaussiano

• Concludendo, la densità p(x|D) (= ) ottenuta è la densità

condizionale desiderata

che assieme ai prior P(i) produce le informazioni desiderate per il

design del classificatore, al contrario dell’approccio ML che restituisce

solo le stime puntuali

c

jjj

iii

PDp

PDpDP

1

)(),|(

)(),|(),|(

x

xx

2eˆ

),|( DP ix

Page 62: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

63

Stima di Bayes: in generaleRiassumendo ed estendendole al caso generale, le

formule principali viste sono:

Si noti la somiglianza con l’approccio ML, con la differenza che qui non si cerca il max puntuale

n

1kk )|p(x )|( θθDp

θθθxx dDppDp )|()|( )|(

dpDp

pDpDp

)()|(

)()|()|( )|(

)()|(

)()|(Dp

dpDp

pDpθ

θθθ

θθ

Page 63: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

64

Conclusioni: Bayes vs ML

• ML restituisce una stima puntuale , l’approccio Bayesiano una distribuzione su più ricca, tiene conto di tutti i possibili modelli)

• Bayes più accurato (in linea di principio), ML più fattibile in pratica

• Inoltre: ML, per un dataset abbastanza grande, produce risultati buoni• le stime risultano equivalenti per training set di cardinalità infinita

(Al limite, p(|D) converge ad una funzione delta)

θ̂

Page 64: Marco Cristani Teoria e Tecniche del Riconoscimento1 Stima dei parametri: approccio Maximum Likelihood, Expectation-Maximization, approccio Bayesiano Facoltà

65

Conclusioni: Bayes vs ML

• In Bayes occorre stimare i prior

• Praticamente, gli approcci sono differenti per vari motivi:• Complessità computazionale

• Interpretabilità

• Affidabilità delle informazioni a priori

θ̂