Corso di Sistemi di telecomunicazione A.A. 2009/2010

94
1 Corso di Sistemi di telecomunicazione A.A. 2009/2010 TEORIA DELLA STIMA f. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968 Prof. C. Regazzoni

description

Corso di Sistemi di telecomunicazione A.A. 2009/2010. TEORIA DELLA STIMA. Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968. Prof. C. Regazzoni. CONTENUTI. Introduzione Parametri casuali: stima Bayesiana - PowerPoint PPT Presentation

Transcript of Corso di Sistemi di telecomunicazione A.A. 2009/2010

Page 1: Corso di Sistemi di telecomunicazione A.A. 2009/2010

1

Corso di Sistemi di telecomunicazioneA.A. 2009/2010

TEORIA DELLA STIMA

Ref. ‘Detection, Estimation and Modulation Theory, Part I’, H.L.Van Trees, ed. John Wiley&Sons, Inc. 1968

Prof. C. Regazzoni

Page 2: Corso di Sistemi di telecomunicazione A.A. 2009/2010

2

CONTENUTI

• Introduzione

• Parametri casuali: stima Bayesiana

• Stima di parametri non casuali

• Stima di parametri multipli

• Ipotesi composta

• Stima a massima verosimiglianza

• Disuguaglianza di Cramer-Rao

• Limite inferiore del minimo MSE

Page 3: Corso di Sistemi di telecomunicazione A.A. 2009/2010

3

INTRODUZIONE

• Nella teoria della decisione viene considerato un

problema in cui si presenta una tra diverse ipotesi;

• Come risultato di una particolare ipotesi, veniva

osservato una variabile casuale vettoriale r.

• Basandoci sulla nostra osservazione, occorreva

cercare di scegliere l’ipotesi vera.

• Adesso consideriamo il problema della stima di

parametri

Page 4: Corso di Sistemi di telecomunicazione A.A. 2009/2010

4

INTRODUZIONEIl problema della stima: esempio

• Vogliamo misurare una tensione a ad un certo istante

di tempo;• da considerazioni fisiche sappiamo che la tensione è

tra -V e +V volt;• La misurazione della tensione è corrotta da rumore

che può essere modellato come variabile casuale n

indipendente con distribuzione Gaussiana a media

nulla;• La variabile osservata è:

• La densità di probabilità che governa il processo

dell’osservazione è, in questo caso:

Il problema della teoria della stima consiste

nell’osservare r e stimare a

nar

2

2

22

1

nnna|r

)AR(exp)AR(p)A|R(p

Page 5: Corso di Sistemi di telecomunicazione A.A. 2009/2010

5

INTRODUZIONEIl problema della stima

• L’esempio precedente mostra le caratteristiche

principali del problema della stima;

• Un modello per il problema generico della stima è

mostrato nella seguente figura:

Page 6: Corso di Sistemi di telecomunicazione A.A. 2009/2010

6

• Il modello ha 4 componenti:

1. Spazio dei parametri

L’uscita della sorgente è un parametro (o variabile). Noi vediamo questa uscita come un punto nello spazio dei parametri. Nel caso di un singolo parametro, questo corrisponde ad un segmento nella retta:

)(a R

INTRODUZIONEIl problema della stima

A

2. Mappaggio probabilistico dallo spazio dei parametri allo spazio delle osservazioni

Questa componente è la legge probabilistica che governa l’effetto di a sull’osservazione.(es rumore)

3. Spazio delle osservazioni

L’osservazione è un punto denotato dal vettore R.

4. Regola di stima

Dopo avere osservato R, vogliamo stimare il valore del parametro a. Denotiamo la stima con:

Studieremo diverse regole di stima e la loro implementazione

Page 7: Corso di Sistemi di telecomunicazione A.A. 2009/2010

7

PARAMETRI CASUALI: STIMA DI BAYES

• Nel problema del decisore di Bayes alle quantità che

dobbiamo specificare sono assegnati dei costi Cij e

delle probabilità a priori Pi;

• La matrice dei costi assegna un costo ad ogni possibile

azione da intraprendere, data ogni possibile ipotesi vera

• Nel problema della stima a e sono variabili

continue;

occorre assegnare un costo a tutte le possibili coppie

[a, ] nell’intervallo di interesse.

• Il costo è una funzione a due variabili C(a, â);

• In molti casi di interesse è realistico assumere che il

costo dipenda solo dall’errore di stima, che è:

)(a R

)(a R

a)(a)(a RR

• La funzione di costo C(a) è funzione di un’unica variabile.

Page 8: Corso di Sistemi di telecomunicazione A.A. 2009/2010

8

• Nella seguente figura sono mostrati alcuni esempi di funzioni di costo:

PARAMETRI CASUALI: STIMA DI BAYES

2 a)a(C

|a|)a(C

Un costo elevato è assegnatose l’errore è elevato.

21

20

|a|

|a|)a(C

Page 9: Corso di Sistemi di telecomunicazione A.A. 2009/2010

9

• La funzione di costo viene scelta tenendo conto di due fattori:

1. Vorremmo che la funzione di costo sia coerente con la natura del problema (richieste dell’utente);

2. Vorremmo che la funzione di costo sia tale per cui il problema della stima risulti analiticamente trattabile (lo scopo è trovare una stima che minimizzi il valore aspettato del costo).

• In pratica, le funzioni di costo rappresentano un compromesso tra i due obiettivi sopra citati.

• Analogamente alle probabilità a priori del problema della decisione, nel problema della stima abbiamo una densità di probabilità a priori pa(A).

• Assumeremo che pa(A) sia nota; nel caso che non fosse nota, può essere adottata una procedura analoga al test minimax.

PARAMETRI CASUALI: STIMA DI BAYES

Page 10: Corso di Sistemi di telecomunicazione A.A. 2009/2010

10

• Una volta specificate la funzione di costo e la probabilità a priori, possima screivere un’espressione per la funzione di rischio:

PARAMETRI CASUALI: STIMA DI BAYES

RRRR r d),A(p)](aA[CdA)](a,a[CE ,aR

• La media è eseguita sulla variabile a e sulle variabili osservate r.

• La stima di Bayes è la stima che minimizza il rischio.

• Consideriamo il caso in cui la funzione di costo è rappresentato dall’ errore quadratico. Il rischio in questo caso è:

RRR r d),A(p)](aA[dA ,a

2msR

• La densità congiunta può essere riscritta come segue:

)|()(),( |, RRR rrr AppAp aa

dA)|A(p)](aA[d)(p |a RRRR rr

2msR

Page 11: Corso di Sistemi di telecomunicazione A.A. 2009/2010

11

• L’integrale più interno della funzione di rischio a minimo MSE e Pr(R) sono non negativi possiamo minimizzare la funzione di rischio minimizzando l’integrale più interno.

• Denotiamo la stima a minimo MSE con

• Per trovare la stima differenziamo l’integrale interno rispetto ad e poniamo il risultato uguale a 0:

PARAMETRI CASUALI: STIMA DI BAYES

)(ˆ Rmsa

• Ponendo il risultato uguale a zero ed osservando che il secondo integrale è uguale a 1, abbiamo:

dAApadAAAp

dAApaAad

d

aa

a

)|()(ˆ2)|(2

)|()](ˆ[ˆ

||

|2

RRR

RR

rr

r

)(ˆ Ra

dAAApa )|()(a |ms RR r

• Questo minimo è unico, poiché la derivata seconda della funzione da minimizzare è uguale a due;

• La stima è uguale alla media della densità a posteriori.

Page 12: Corso di Sistemi di telecomunicazione A.A. 2009/2010

12

• Ricaviamo ora la stima di Bayes per il criterio del valore assoluto dell’errore:

PARAMETRI CASUALI: STIMA DI BAYES

• Per minimizzare l’integrale più interno scriviamo:

• Differenziando rispetto a â(R) e ponendo il risultato uguale a zero, abbiamo:

dA)|A(p|])(aA[|d)(p |a RRRR rrabsR

)(a|a

)(a

|a

dA)|A(p)](a)(A[

dA)|A(p)](A)(a[)(I

Rr

R

r

RRR

RRRR

)(a|a

)(a

|aabs

absdA)|A(pdA)|A(p

Rr

R

r RR

• Questa è la definizione del mediano della densità a posteriori.

Page 13: Corso di Sistemi di telecomunicazione A.A. 2009/2010

13

• Ricaviamo ora la stima di Bayes nel caso di costo uniforme:

PARAMETRI CASUALI: STIMA DI BAYES

• Per minimizzare questa equazione, massimizziamo l’integrale più interno.

• Di particolare interesse è il caso in cui è arbitrariamente piccolo, ma non zero.

• Un andamento tipico di densità di probabilità a posteriori è mostrato nella seguente figura:

2

21

/)(a

/)(a|a

unf

unf

dA)|A(pd)(pR

Rrr RRRunfR

Page 14: Corso di Sistemi di telecomunicazione A.A. 2009/2010

14

• Si vede che per piccolo, la migliore stima è il valore di A per cui la densità di probabilità a posteriori ha il suo massimo;

• Denotiamo la stima per questo caso particolare con âmap(R), la stima massima a posteriori.

• Per trovare la stima massima a posteriori, dobbiamo conoscere dove si trova il massimo della probabilità condizionale. Poiché il logaritmo è una funzione monotona, possiamo cercare il massimo di ln[pa|r(A|R)]

• Se il massimo cade nell’intervallo di valori di A permesso e ln[pa|r(A|R)] ha una derivata prima continua, allora una condizione necessaria, ma non sufficiente, per un massimo può essere ottenuta differenziando ln[pa|r(A|R)] rispetto ad A e ponendo il risultato uguale a zero:

PARAMETRI CASUALI: STIMA DI BAYES

0

)(aA

|a

A

)|A(pln[

R

r R(1)

Page 15: Corso di Sistemi di telecomunicazione A.A. 2009/2010

15

• L’equazione (1) è l’equazione MAP;

• Dobbiamo cercare di verificare che la soluzione ottenuta sia effettivamente il massimo assoluto.

• Possiamo riscrivere l’espressione di pa|r(A|R) per cercare di separare la variabile osservata R dalla conoscenza a priori:

PARAMETRI CASUALI: STIMA DI BAYES

)(p

)A(p)A|(p)|A(p aa|

|a R

RR

r

rr

• Facendo il logaritmo:

)](pln[)]A(pln[)]A|(pln[)]|A(pln[ aa||a RRR rrr

• Per la stima MAP siamo interessati solo nel trovare il valore di A in cui il termine a sinistra è massimo;

• Siccome l’ultimo termine a destra non è funzione di A, possiamo considerare solo la funzione:

)]A(pln[)]A|(pln[)A(l aa| Rr (2)

Page 16: Corso di Sistemi di telecomunicazione A.A. 2009/2010

16

• Il primo termine dell’equazione (2) descrive la dipendenza di R da A e il secondo termine descrive la conoscenza a priori.

• L’equazione MAP può essere riscritta come:

PARAMETRI CASUALI: STIMA DI BAYES

0)(ln[)|(ln[)(

)(ˆ)(ˆ

|

)(ˆ

RR

r

R

R

aA

a

aA

a

aA A

Ap

A

Ap

A

Al

Page 17: Corso di Sistemi di telecomunicazione A.A. 2009/2010

17

• Consideriamo:

PARAMETRI CASUALI: STIMA DI BAYESEsempio 1

N

i n

i

na|

)AR(exp)A|(p

12

2

22

1

Rr

N,,,inar ii ..... 21

• Assumiamo che la variabile a sia Gaussiana, N(0,a), e che i campioni ni siano variabili Gaussiane indipendenti N(0,n). Quindi:

2

2

22

1

aaa

Aexp)A(p

• Per trovare âms(R) abbiamo bisogno di conoscere pa|r(A|R).

• Una possibilità consiste nel trovare pr(R) e sostituirla nella regola di Bayes sulla probabilità condizionale per ricavare pr|a(R|A), ma questa procedura è piuttosto noiosa.

Page 18: Corso di Sistemi di telecomunicazione A.A. 2009/2010

18

• E’ più facile osservare che pa|r(A|R) è la densità di probabilità di a per ogni R dato, quindi:

PARAMETRI CASUALI: STIMA DI BAYESEsempio 1

1

dA)|A(p |a Rr

2

2

21

2

12

121

21

an

N

ii

r

N

i an|a

A)AR(

exp)(p

)|A(p

R

Rr

• Completando il quadrato all’esponente e considerando come una costante i termini dipendenti solo da Ri

2 si ottiene:

• Pr(R) è solo una costante di normalizzazione.

2

122

2

21

2

1 N

ii

na

a

p|a R

NN/Aexp)(k)|A(p

RRr

dove:

22

221

222 1

na

na

nap

N

N

è la varianza a posteriori.

Page 19: Corso di Sistemi di telecomunicazione A.A. 2009/2010

19

• Osserviamo che pa|r(A|R) è una densità Gaussiana.

• La stima âms(R) è la seguente media condizionale:

PARAMETRI CASUALI: STIMA DI BAYESEsempio 1

• Siccome la varianza a posteriori non è funzione di R, il rischio quadratico medio è uguale alla varianza a posteriori (v. espressione del rischio).

OSSERVAZIONI:

1. I valori Ri entrano nella densità a posteriori solo attraverso la loro somma, cioè:

N

iiR)(l

1R

è la statistica sufficiente. Il concetto di statistica sufficiente è lo stesso introdotto nella teoria delladecisione.

N

ii

na

ams R

NN/)(a

122

2 1

R

Page 20: Corso di Sistemi di telecomunicazione A.A. 2009/2010

20

2. La regola di stima usa l’informazione disponibile in maniera logica ed intuitiva: - Se a

2 << n2/N , la conoscenza a priori è migliore dei

dati osservati è la stima è molto vicina alla media a priori (in questo caso la media a priori è zero).

- Se a2 >> n

2/N , la conoscenza a priori è di poca utilità

e la stima usa principalmente i dati ricevuti. Nel caso limite âms è la media aritmetica degli Ri:

PARAMETRI CASUALI: STIMA DI BAYESEsempio 1

N

iims

N

RN

)(alim

a

n 10

1

2

2R

Page 21: Corso di Sistemi di telecomunicazione A.A. 2009/2010

21

PARAMETRI CASUALI: STIMA DI BAYESEsempio 1

)(a)(a msmap RR

La stima MAP per questo caso si ricava facilmente:

- Osservando l’espressione della pa|r(A|R), vediamo che

siccome la densità è Gaussiana, il massimo valore di pa|r(A|R) si ha in corrispondenza della media

condizionale, cioè:

- Siccome il valore mediano condizionale di una densità Gaussiana corrisponde alla media condizionale, abbiamo anche che:

)(a)(a msabs RR

Page 22: Corso di Sistemi di telecomunicazione A.A. 2009/2010

22

PARAMETRI CASUALI: STIMA DI BAYES

• Nell’esempio precedente si può quindi osservare che

tutte e tre le funzioni di costo considerate in

precedenza portano alla stessa stima.

• Questa invarianza rispetto alla scelta della funzione

di costo è una caratteristica importante perché

spesso, nella scelta della funzione di costo C(a), sono

considerati giudizi soggettivi.

• Alcune condizioni per cui vale questa proprietà di

invarianza sono contenute nelle due proprietà

seguenti:

Page 23: Corso di Sistemi di telecomunicazione A.A. 2009/2010

23

PARAMETRI CASUALI: STIMA DI BAYES

PROPRIETA’ 1

• Assumiamo che la funzione di costo C(a) sia una funzione simmetrica con convessità verso l’alto e che la densità di probabilità a posteriori pa|r(A|R) sia simmetrica rispetto alla sua media condizionale:

)a(C)a(C

)x(C)b()x(bC)x)b(bx(C 2121 11

simmetria

convessità

per ogni b nell’intervallo (0,1) e per ogni x1 e x2.

Funzione simmetricaconvessa

Funzione simmetricastrettamente convessa

Page 24: Corso di Sistemi di telecomunicazione A.A. 2009/2010

24

PARAMETRI CASUALI: STIMA DI BAYES

• Definendo:

]|a[Eaaaz ms R

)|Z(p)|Z(p |z|z RR rr

la simmetria della densità a posteriori implica che:

• La stima â che minimizza qualsiasi funzione di questa classe è identica a âms (che è la media condizionale).

DIM:

• Possiamo minimizzare il rischio condizionale. Usando la definizione di z e la proprietà di simmetria definiamo:

dZ)|Z(p)Zaa(C

dZ)|Z(p)Zaa(C

dZ)|Z(p)Zaa(C

dZ)|Z(p)Zaa(C)|a(

|zms

|zms

|zms

|zmsB

R

R

R

RR

r

r

r

r

R

Page 25: Corso di Sistemi di telecomunicazione A.A. 2009/2010

25

PARAMETRI CASUALI: STIMA DI BAYES

• Usando la condizione di convessità e considerando il secondo integrale dell’espressione precedente, possiamo scrivere:

])|E[C(Z)

|))]aa(Z())aa(Z([CE

|)]aa(Z[C)]aa(Z[CE)|a(

msms

msmsB

R

R

RR

R

2

1

2

12

1

• Nell’espressione, l’uguaglianza può essere raggiunta se âms = â. Questo completa la dimostrazione.

• Se la funzione di costo è strettamente convessa, allora la stima â è unica ed uguale a âms.

• La funzione di costo uniforme non è convessa, quindi si introduce la seconda proprietà.

Page 26: Corso di Sistemi di telecomunicazione A.A. 2009/2010

26

PARAMETRI CASUALI: STIMA DI BAYES

PROPRIETA’ 2

0

)|x(p)x(Clim |ax

Rr

• Assumiamo che la funzione di costo sia simmetrica, non decrescente e che la densità a posteriori pa|r(A|R) sia simmetrica (rispetto alla media

condizionale), unimodale e soddisfi la seguente condizione:

• La stima â che minimizza ogni funzione di costo in questa classe è identica a âms.

• La dimostrazione di questa proprietà è simile alla precedente.

Page 27: Corso di Sistemi di telecomunicazione A.A. 2009/2010

27

PARAMETRI CASUALI: STIMA DI BAYES

• D’ora in poi prenderemo in considerazione solo

le stime a minimo valore quadratico medio e a

massima probabilità a posteriori.

• Le proprietà 1 e 2 assicurano che ogni volta che le

densità a posteriori soddisfano le assunzioni date

precedentemente, le stime che otteniamo saranno

ottime per una larga classe di funzioni di costo.

Page 28: Corso di Sistemi di telecomunicazione A.A. 2009/2010

28

PARAMETRI CASUALI: STIMA DI BAYESEsempio 2

• Il parametro a appare nel segnale in modo non lineare. Denotiamo questa dipendenza con s(A). • Ogni osservazione ri consiste di s(A) più una

variabile aleatoria ni Gaussiana N(0, n).

• Le variabili ni sono statisticamente indipendenti tra

loro e rispetto al parametro a:

ii n)A(sr

• Quindi:

2

2

21

2

2

1

an

N

ii

|aA

)]A(sR[

exp)(k)|x(p

RRr

Page 29: Corso di Sistemi di telecomunicazione A.A. 2009/2010

29

PARAMETRI CASUALI: STIMA DI BAYESEsempio 2

• L’espressione precedente non può essere semplificata

ulteriormente senza specificare esplicitamente s(A).

• L’equazione MAP risulta essere:

• Per risolvere l’equazione in maniera esplicita, occorre specificare s(A).

• Quando s(A) è una funzione non lineare di A, non è possibile trovare una soluzione analitica.

01

2

2

)(aA

N

ii

n

a

map

AA

)A(s)]A(sR[

R

Page 30: Corso di Sistemi di telecomunicazione A.A. 2009/2010

30

PARAMETRI CASUALI: STIMA DI BAYESEsempio 3

• Un altro tipo di problema che frequentemente si presenta è la stima di un parametro in una densità di probabilità.

•Il numero di eventi in un esperimento obbedisce ad una legge di Poisson con valore medio a:

• Vogliamo osservare il numero di eventi e stimare il parametro a della legge di Poisson.

• Assumiamo che a sia una variabile casuale con una densità esponenziale:

... ,,n)Aexp(!n

A)Aa|eventin(Pr

n10

altrimenti

A)Aexp()A(pa 0

0

• La probabilità a posteriori di a è:

)NnPr(

)A(p)Aa|NnPr()N|A(P a

n|a

Page 31: Corso di Sistemi di telecomunicazione A.A. 2009/2010

31

PARAMETRI CASUALI: STIMA DI BAYESEsempio 3

• Quindi la densità a posteriori risulta essere:

dove

01 A))],(Aexp(A)[N(k)N|A(p Nn|a

!N

)()N(k

N

11

ha lo scopo di normalizzare la densità in modo cheil suo integrale sia unitario.

• La stima a minimo valore quadratico medio (MS) è la media condizionale:

)N()N()(

)(

dA)](Aexp[A!N

)(a

N

N

NN

ms

11

11

1

1

11

2

1

11

Page 32: Corso di Sistemi di telecomunicazione A.A. 2009/2010

32

PARAMETRI CASUALI: STIMA DI BAYESEsempio 3

• Per trovare âmap facciamo il logaritmo della densità

a posteriori:

)N(kln)(AAlnN)N|A(pln n|a 1

• Differenziando rispetto ad A, ponendo la derivata uguale a zero e risolvendo, otteniamo:

1

N)N(amap

• Osserviamo che âmap è diverso da âms(la pa|n(A|N) non è simmetrica rispetto alla media).

Page 33: Corso di Sistemi di telecomunicazione A.A. 2009/2010

33

PARAMETRI CASUALI: STIMA DI BAYESSINTESI

• La stima a minimo errore quadratico medio è sempre

la media della densità a posteriori (media

condizionale);

• La stima massima a posteriori (MAP) è il valore di A

in corrispondenza del quale la densità a posteriori

ha il suo massimo;

• Per una vasta classe di funzioni di costo la stima

ottima è la media condizionale ogni volta che la

densità a posteriori è una funzione unimodale

simmetrica rispetto alla media condizionale.

Page 34: Corso di Sistemi di telecomunicazione A.A. 2009/2010

34

STIMA DI PARAMETRI NON ALEATORI

• In molti casi non è realistico trattare i parametri sconosciuti come variabili aleatorie;

• Vogliamo trovare criteri di stima adatti per la stima di parametri non aleatori;

cerchiamo di adattare la procedura di Bayes a questo caso, cercando di eliminare la media su pa(A).

• Come esempio consideriamo la stima MMSE:

RRR r d)A|(p]A)(a[)A( a|

2R

dove l’operazione di media è solo su R, poiché è l’unica variabile aleatoria nel modello.

• Minimizzando la funzione di rischio, si ottiene:

A)(ams R

• Il risultato ottenuto è corretto, ma di nessun valore, poiché A è la quantità sconosciuta che stiamo cercando di stimare

questo approccio non è di alcun aiuto.

Page 35: Corso di Sistemi di telecomunicazione A.A. 2009/2010

35

STIMA DI PARAMETRI NON ALEATORI

• Un metodo più utile per la stima di parametri non aleatori consiste nell’esaminare altre possibili misure di qualità delle procedure di stima e quindi vedere se possiamo trovare stime che siano buone in termini di queste misure.

• La prima misura di qualità da considerare è il valore medio della stima:

RRRR r d)A|(p)(a)](a[E a|

• I possibili valori della media possono essere raggruppati in tre classi:

1. Se E[â(R)] =A per tutti i valori di A, diciamo che la stima è non polarizzata. Questo significa che il valore medio della stima è uguale alla quantità che vogliamo stimare.

2.Se E[â(R)] =A+B, dove B non è funzione di A, diciamo che la stima ha polarizzazione nota. Possiamo ottenere una stima non polarizzata sottraendo B da â(R).

3.Se E[â(R)] =A+B(A), diciamo che la stima ha una polarizzazione non nota.

Page 36: Corso di Sistemi di telecomunicazione A.A. 2009/2010

36

STIMA DI PARAMETRI NON ALEATORI

• Chiaramente anche una stima non polarizzata potrebbe dare un cattivo risultato su una particolare realizzazione.

• Un semplice esempio è dato dalla seguente figura:

)A(B]A)(a[E]A)(a[Var 22 RR

• La densità di probabilità della stima è centrata in A, ma la varianza di questa densità è così larga che è molto probabile commettere errori grandi.

• Una seconda misura di qualità è la varianza dell’errore di stima:

• Questa fornisce una misura di quanto si può espandere l’errore.

• In generale noi cercheremo di trovare stime non polarizzate con piccola varianza.

Page 37: Corso di Sistemi di telecomunicazione A.A. 2009/2010

37

STIMA A MASSIMA VEROSIMIGLIANZA

• Consideriamo il semplice problema riportato nell’esempio 1:

nAr

• Scegliamo come stima il valore di A che più verosimilmente genera il valore ricevuto R.

• Nel semplice caso additivo vediamo che questo equivale a scegliere il valore più probabile del rumore (N=0) e sottraendola da R.

• Denotiamo il valore ottenuto usando questa procedura come stima a massima verosimiglianza:

• Nel caso generale denotiamo la funzione pr|a(R|A), vista come funzione di A, come funzione di verosimiglianza (likelihood).

• Frequentemente noi lavoriamo con il logaritmo, ln[pa|r(A|R)], e denotiamo questa funzione come loglikelihood.

21

2

12 )AR(exp)()A|R(p na|r

R)R(aml

Page 38: Corso di Sistemi di telecomunicazione A.A. 2009/2010

38

STIMA A MASSIMA VEROSIMIGLIANZA

• La stima a massima verosimiglianza (ML) âml(R) è

quel valore di A per cui la funzione di verosimiglianza è massima.

• Se il massimo è interno al rango di A e la ln[pr|a(R|A)],

ha una derivata prima continua, allora una condizione necessaria su âml(R) è ottenuta differenziando

ln[pr|a(R|A)] rispetto ad A e ponendo il risultato uguale

a zero:

0

)(aA

a|

mlA

)A|(pln

R

r R

• Questa è chiamata equazione di verosimiglianza.

•Se confrontiamo l’equazione MAP con l’equazione di verosimiglianza vediamo che la stima ML corrisponde matematicamente al caso limite di una stima MAP in cui la conoscenza a priori tende a zero.

Page 39: Corso di Sistemi di telecomunicazione A.A. 2009/2010

39

STIMA A MASSIMA VEROSIMIGLIANZA

• Per vedere se la stima ML è una buona stima, dovremmo calcolarne la polarizzazione e la varianza.

• Spesso questi calcoli sono difficili da svolgere

anziché affrontare il problema direttamente, procederemo nel seguente modo:

1. ricaveremo, per prima cosa, un limite inferiore sulla varianza di ogni stima non polarizzata;

2.in secondo luogo, confronteremo la varianza di âml(R) con questo limite inferiore

Page 40: Corso di Sistemi di telecomunicazione A.A. 2009/2010

40

DISUGUAGLIANZA DI CRAMER-RAOParametri non aleatori

• Consideriamo la varianza di ogni stima â(R) di una variabile A. Può essere dimostrato il seguente:

TEOREMA:

(a) Se â(R) è una qualunque stima non polarizzata di A, allora:

12

A

)A|(plnE]A)(a[Var a| R

R r

o equivalentemente:

(b)

1

2|

2 )|(ln])(ˆ[

A

ApEAaVar a RR r

dove si assume che siano soddisfatte le seguenticondizioni:

A

)A|(plne

A

)A|(pln a|a|2

2

RR rr

esistono e sono integrabili in senso assoluto.

• Quando la stima è tale per cui vale l’uguaglianza, allora viene chiamata stima efficiente.

(c)

Page 41: Corso di Sistemi di telecomunicazione A.A. 2009/2010

41

DISUGUAGLIANZA DI CRAMER-RAOParametri non aleatori

DIM:

• La dimostrazione è una semplice applicazione della disuguaglianza di Schwartz.

• Siccome â(R) è una stima non polarizzata, allora:

0

RRRR r d]A)(a)[A|(p]A)(a[E a|

• Differenziando rispetto ad A:

dove la condizione (c) ci permette di portare ladifferenziazione dentro l’integrale.

0])(ˆ)[|(

])(ˆ)[|(

|

|

RRR

RRR

r

r

dAaApA

dAaApdA

d

a

a

0

RR

RRR r

r d]A)(a[A

)A|(pd)A|(p a|

a|

Page 42: Corso di Sistemi di telecomunicazione A.A. 2009/2010

42

DISUGUAGLIANZA DI CRAMER-RAOParametri non aleatori

• Il primo integrale è uguale a 1. Osserviamo che:

• Sostituendo questa espressione nella precedente abbiamo:

)A|(pA

)A|(pln

A

)A|(pa|

a|a| RRR

rrr

1

RRR

Rr

r d]A)(a)[A|(pA

)A|(plna|

a|

1

RRRR

Rrr

r d]A)(a[)A|(p)A|(pA

)A|(plna|a|

a|

• Usando la disuguaglianza di Schwartz:

12

2

RRR

RRR

r

rr

d)A|(p]A)(a[

d)A|(pA

)A|(pln

a|

a|a|

Page 43: Corso di Sistemi di telecomunicazione A.A. 2009/2010

43

DISUGUAGLIANZA DI CRAMER-RAOParametri non aleatori

• Nella disuguaglianza precedente, l’uguaglianza si ottiene se:

per tutti i valori di R e A.

)A(k]A)(a[A

)A|(pln a|

R

Rr

• I due termini a sinistra nella disuguaglianza precedente sono le medie dell’espressione (a):

1-

22

A

)A|(plnE]A)(a[E a| R

R r(4)

• Per dimostrare la (b) osserviamo che:

1

RRr d)A|(p a|

• Differenziando rispetto ad A, abbiamo:

0RR

RR

Rr

rr d)A|(pA

)A|(plnd

A

)A|(pa|

a|a|

(3)

Page 44: Corso di Sistemi di telecomunicazione A.A. 2009/2010

44

DISUGUAGLIANZA DI CRAMER-RAOParametri non aleatori

• Differenziando di nuovo rispetto ad A, abbiamo:

02

2

2

RRR

RRR

rr

rr

d)A|(pA

)A|(pln

d)A|(pA

)A|(pln

a|a|

a|a|

2

2

2

A

)A|(plnE

A

)A|(plnE a|a| RR rr

• che insieme alla equazione (4) dà la condizione (b).

Page 45: Corso di Sistemi di telecomunicazione A.A. 2009/2010

45

DISUGUAGLIANZA DI CRAMER-RAOParametri non aleatori

OSSERVAZIONI

1. Il risultato ottenuto mostra che ogni stima non polarizzata deve avere una varianza più grande di un certo valore;

2.Se l’uguaglianza (3) è soddisfatta, la stima âml(R) sarà proprio uguale al limite; questo può essere dimostrato combinando l’equazione (4) con l’equazione di verosimiglianza:

)(aA)(aA

a|ml

ml

)A(k)A)(a(A

)A|(plnR

R

r RR

0

• Il termine a destra è uguale a zero se:

)(a)(a ml RR oppure 0))(a(k ml R

• Siccome ci interessa una soluzione che dipende dai dati, allora consideriamo la prima delle due condizioni

se una stima efficiente esiste, allora è âml(R) e può essere ottenuta come unica soluzione alla equazione di verosimiglianza.

Page 46: Corso di Sistemi di telecomunicazione A.A. 2009/2010

46

DISUGUAGLIANZA DI CRAMER-RAOParametri non aleatori

3.Se una stima efficiente non esiste, non sappiamo

quanto buona sia âml(R); inoltre non sappiamo quanto la

varianza si avvicini al limite inferiore.

4.Allo scopo di utilizzare il limite, dobbiamo verificare

che la stima che stiamo considerando sia non

polarizzata.

Vediamo ora alcuni esempi dell’applicazione della

disuguaglianza di Cramer-Rao, considerando la stima

di parametri non aleatori.

Page 47: Corso di Sistemi di telecomunicazione A.A. 2009/2010

47

DISUGUAGLIANZA DI CRAMER-RAOEsempio 2

• Riprendiamo l’esempio 1:

N,,,inAr ii ..... 21

• Abbiamo che:

AR

N

N

A

Ap N

ii

n

a

12

| 1)|(ln

Rr

ponendo la derivata uguale a zero, otteniamo:

N

iiml R

N)(a

1

1R

• Per ricavare la polarizzazione, eseguiamo l’operazione di media:

AAN

)R(EN

)](a[EN

i

N

iiml

11

11R

la stima âml(R) è non polarizzata.

(5)

Page 48: Corso di Sistemi di telecomunicazione A.A. 2009/2010

48

DISUGUAGLIANZA DI CRAMER-RAOEsempio 2

• Siccome l’espressione (5) ha la forma richiesta dalla

(3), possiamo affermare che âml(R) è una stima

efficiente.

• Per valutare la varianza differenziamo l’equazione (5):

22|

2 )|(ln

n

a N

A

Ap

Rr

• Usando la condizione (b) della disuguaglianza di

Cramer-Rao e il risultato di efficienza appena

ottenuto, abbiamo:

N]A)(a[Var n

ml

2R

Page 49: Corso di Sistemi di telecomunicazione A.A. 2009/2010

49

DISUGUAGLIANZA DI CRAMER-RAOEsempio 3

• Riprendiamo l’esempio 3. In questo caso abbiamo che:

)AN(AA

N

)!NlnAAlnN(AA

)A|NnPr(ln

11

• La stima ML è:

N)(aml R

• La stima è chiaramente non polarizzata ed efficiente.

(6)

Page 50: Corso di Sistemi di telecomunicazione A.A. 2009/2010

50

DISUGUAGLIANZA DI CRAMER-RAOEsempio 4

• Per valutare la varianza, differenziamo l’equazione (6):

22

2

A

N

A

)A|NnPr(ln

• Quindi:

• In entrambi gli esempi 1 e 3, osserviamo che la stima

potrebbe essere ricavata con la stima MAP (ponendo

a nell’equazione MAP, ricordando che âms= âmap e

ponendo 0 nel risultato ottenuto precedentemente

nell’esempio 4.

AA

A

)N(E

A]A)N(a[Var ml

22

Page 51: Corso di Sistemi di telecomunicazione A.A. 2009/2010

51

DISUGUAGLIANZA DI CRAMER-RAOEsempio 2

• Riprendiamo ora l’esempio 2. In questo caso abbiamo:

(togliendo il contributo della pa(A)):

N

ii

n

a|

A

)A(s)]A(sR[

A

)A|(pln

12

1

Rr

• In generale, il termine a destra non può essere scritto

nella forma richiesta dall’equazione (3), e quindi una

stima non polarizzata ed efficiente non esiste.

• L’equazione di verosimiglianza è:

011

12

)(aA

N

ii

n ml

)A(sRNA

)A(s

R

• Se l’intervallo di valori assunto da s(A) contiene

allora una soluzione esiste: Ni iR)N/( 11

N

iiml R

N)](a[s

1

1R (8)

(7)

Page 52: Corso di Sistemi di telecomunicazione A.A. 2009/2010

52

DISUGUAGLIANZA DI CRAMER-RAOEsempio 3

• Se la (8) è soddisfatta, allora:

N

iiml R

Ns)(a

1

1 1R

• Questa equazione assume che esista la funzione inversa di s( . ).

• Se questa non esiste allora anche in assenza di rumore non siamo in grado di determinare A senza ambiguità.

• Quando progettiamo un sistema, dobbiamo sempre scegliere una funzione s( . ) che ci permetta di trovare A senza ambiguità in assenza di rumore.

• Se l’intervallo di valori assunto da s(A) non contiene allora il massimo si trova in uno dei punti estremi dell’intervallo.

Ni iR)N/( 11

Page 53: Corso di Sistemi di telecomunicazione A.A. 2009/2010

53

DISUGUAGLIANZA DI CRAMER-RAOEsempio 3

• Vediamo che la stima a massima verosimiglianza commuta su operazioni non lineari (questo non è vero per le stime MS o MAP).

• Se la stima non è polarizzata, valutiamo il limite sulla varianza differenziando la (7):

• Osservando che:

0 )n(E)]A(sr[E ii

2

21

2

2

22

21

A

)A(sN

A

)A(s)]A(sR[

A

)A|(pln

n

N

ii

n

a|

Rr

otteniamo il seguente limite per ogni stima non polarizzata:

2

2

]A/)A(s[N]A)(a[Var n

R

Page 54: Corso di Sistemi di telecomunicazione A.A. 2009/2010

54

DISUGUAGLIANZA DI CRAMER-RAOEsempio 3

• Vediamo che il limite è esattamente lo stesso ricavato per l’esempio 2, a meno del fattore

• La ragione intuitiva per cui abbiamo questo fattore può essere ottenuta analizzando la tipica funzione mostrata nella seguente figura:

)A(sY

• Definiamo:

2]A/)A(s[

ii nYr

Page 55: Corso di Sistemi di telecomunicazione A.A. 2009/2010

55

DISUGUAGLIANZA DI CRAMER-RAOEsempio 3

• La varianza nella stima di Y è proprio 2/N.

• Se y, l’errore nella stima di Y, è abbastanza piccolo, così che la pendenza è costante, allora:

)(aAA)A(sY

A

R

• Osserviamo che se y è elevato, non ci sarà più una semplice relazione lineare tra y e aquesto ci dice quando ci possiamo aspettare che il limite di Cramer-Rao fornisca una risposta accurata nel caso in cui il parametro da stimare sia presente nel problema con una legge non lineare.

• Precisamente, quando l’errore di stima è piccolo relativamente a , dovremmo aspettarci che la vera varianza sia vicina al limite dato dalla disuguaglianza di Cramer-Rao.

e

2

2

2 ]A/)A(s[N]A/)A(s[

)y(Var)a(Var n

22 A/)A(sA

Page 56: Corso di Sistemi di telecomunicazione A.A. 2009/2010

56

STIMA ML:proprietà

• Possono essere dimostrate le seguenti proprietà:

1. La soluzione dell’equazione di verosimiglianza converge in probabilità al valore corretto di A per N che tende all’infinito.(N numero di osservazioni indipendenti) Ogni stima con questa proprietà è chiamata consistente, quindi la stima ML è consistente.

2.La stima ML è asintoticamente efficiente, cioè:

3.La stima ML è asintoticamente Gaussiana, N(A, a).

• Queste proprietà riguardano il comportamento della stima ML con un elevato numero di osservazioni; esse forniscono una motivazione per l’utilizzo della stima ML anche quando una stima efficiente non esiste.

11

2

2

A

)A|(plnE

]A)(a[Varlim

a|

ml

N R

R

r

Page 57: Corso di Sistemi di telecomunicazione A.A. 2009/2010

57

Limite inferiore sul minimo MSE nella stima di parametri casuali

• Dimostriamo il seguente teorema:

Siano a una variabile aleatoria e r il vettore di osservazioni. Il valore MSE di ogni stima â(R) soddisfa la disuguaglianza:

• Osserviamo che la densità di probabilità è una densità congiunta e che la media è eseguita sia su a che su r.

• Si assume che esistano le funzioni indicate e valgano:

1. è assolutamente integrabile rispetto

ad R e A.

2. è assolutamente integrabile rispetto

ad R e A.

1

2,

2

,

12

,

,

2

),(ln

),(ln])(ˆ[

A

ApE

A

ApEaRaE

a

ar

a

ar

R

R

r

r

(9)

A

)A,(p a,

Rr

2

2

A

)A,(p a,

Rr

Page 58: Corso di Sistemi di telecomunicazione A.A. 2009/2010

58

Limite inferiore sul minimo MSE nella stima di parametri casuali

3. La media condizionale dell’errore, dato A, è:

• Assumiamo che:

RRR r d)A|(p]A)(a[)A(B a| (10)

0

)A(p)A(Blim aA

0

)A(p)A(Blim aA

DIM.

• Moltiplichiamo entrambi i membri della (10) per pa(A) e quindi differenziamo rispetto ad A:

RRR

RR

r

r

d]A)(a[A

)A,(p

d)A,(p)]A(B)A(p[dA

d

a,

a,a

Page 59: Corso di Sistemi di telecomunicazione A.A. 2009/2010

59

Limite inferiore sul minimo MSE nella stima di parametri casuali

• Integriamo rispetto ad A:

• L’assunzione nella condizione (3) rende la parte a sinistra uguale a zero.

• Seguendo lo stesso procedimento usato per la dimostrazione della disuguaglianza di Cramer-Rao si ottiene alla fine:

RRRr ddA]A)(a[

A

)A,(p)]A(B)A(p[ a,

a 1

12

2

A

)A,(plnE]a)R(a[E a, Rr

1

2

2

2

22

A

)A(plnE

A

)A,(plnE]a)R(a[E aa, Rr

o, equivalentemente:

• L’uguaglianza vale solo se:

]A)(a[kA

)A,(pln a,

R

Rr

per ogni R e A.

Page 60: Corso di Sistemi di telecomunicazione A.A. 2009/2010

60

Limite inferiore sul minimo MSE nella stima di parametri casuali

• Differenziando nuovamente, si ottiene una condizione equivalente:

• Osservando che questa equazione può essere riscritta in termini della densità a posteriori, abbiamo che:

• Integrando quest’ultima equazione due volte e applicando l’esponenziale al risultato, abbiamo:

• L’equazione (11) afferma semplicemente che la densità di probabilità a posteriori di a deve essere Gaussiana per tutti gli R per fare in modo che esista una stima efficiente.

kA

)A,(pln a,

2

2 Rr

per ogni R e A.

kA

Apa

2

|2 )|(ln Rr

)exp()|( 212

| CACkAApa Rr (12)

(11)

Page 61: Corso di Sistemi di telecomunicazione A.A. 2009/2010

61

Limite inferiore sul minimo MSE nella stima di parametri casuali

• Possiamo osservare che se la (11) è soddisfatta allora la stima MAP sarà efficiente.

• Siccome la stima a minimo MSE non può avere un errore maggiore, questo ci dice che:

ogni volta che esiste una stima efficiente.

• Quando una stima efficiente non esiste, generalmente è computazionalmente più semplice risolvere la equazione MAP piuttosto che trovare la media condizionale.

• Quando non esiste una stima efficiente, non sappiamo, usando sia âms(R), sia âmap(R), quanto il valore MSE si avvicina al limite inferiore. Si hanno propieta’ asintotiche “buone”. (v. ML per parametri non random).

)(a)(a mapms RR

Page 62: Corso di Sistemi di telecomunicazione A.A. 2009/2010

62

STIMA DI PARAMETRI MULTIPLI

• In molti problemi di interesse noi vogliamo stimare più di un parametro.

• Il modello è mostrato nella seguente figura:

Page 63: Corso di Sistemi di telecomunicazione A.A. 2009/2010

63

STIMA DI PARAMETRI MULTIPLI

• Se ci sono K parametri da stimare, allora li descriviamo

tramite un vettore di parametri a nello spazio

K-dimensionale.

• Gli altri elementi del modello rimangono invariati.

• Può essere considerato sia il caso in cui a sia un vettore

di parametri aleatori, sia il caso in cui a sia un vettore

di parametri reali (non aleatori).

• Anche nel caso vettoriale ci sono tre cose di interesse,

che sono:

1. Procedure di stima;

2. Misure di errore;

3. Limiti sulle prestazioni.

Page 64: Corso di Sistemi di telecomunicazione A.A. 2009/2010

64

STIMA DI PARAMETRI MULTIPLIProcedure di stima

• Nel caso di stima di Bayes minimizziamo il rischio per un’arbitraria funzione di costo scalare C(a, â), ma per i nostri scopi consideriamo solo funzioni di costo dipendenti dall’errore:

aRaRa )(ˆ)(

• Per il criterio MSE la funzione di costo è:

)()())((C T RaRaRa

• Si può dimostrare che la stima MS si riduce:

Dab dove D è una matrice L x K, e vogliamo minimizzare

L

i

T )R(bE)]()([Ei1

2 RbRb

il risultato sarà:

)(ˆ)(ˆ msms RaDRb

dARApARa raim

is)|()(ˆ /

Inoltre la stima MS commuta su operazioni lineari,cioe’ se:

Page 65: Corso di Sistemi di telecomunicazione A.A. 2009/2010

65

STIMA DI PARAMETRI MULTIPLIProcedure di stima

• Nel caso di stima MAP, abbiamo un insieme di K equazioni simultanee:

K,,,iA

)(pln

)(ˆAimap

..... 210

Ra

r|a R|A

• Per la stima ML dobbiamo trovare il valore di A che massimizza pr|a(R|A).

• Se il massimo è interno ed esiste la derivata parziale di pr|a(R|A) rispetto ad Ai, allora una condizione

necessaria è ottenuta dalle seguenti equazioni di verosimiglianza:

0 )(ˆ ml

)](p[lnRaAa|rA A|R

In entrambi i casi si deve verificare che si abbia un massimo assoluto.

Page 66: Corso di Sistemi di telecomunicazione A.A. 2009/2010

66

STIMA DI PARAMETRI MULTIPLIMisure di errore

• Per parametri non casuali la prima misura di errore è la polarizzazione:

• Se ogni componente del vettore è nulla per ogni A, allora la stima è polarizzata.

• La seconda misura di interesse analoga alla varianza dell’errore è la matrice di covarianza:

ARaRaAB )](ˆ[E)]([E)(

)])([(E TT aaaa

Dove:

)()(E ABaa

Consideriamo il caso di limite sull’errore relativo ad una singola componente Ai. Si possono definire altri limiti, ad esempio nel caso Gaussiano utilizzando l’intera matrice di covarianza.(v. Van Trees).

Page 67: Corso di Sistemi di telecomunicazione A.A. 2009/2010

67

STIMA DI PARAMETRI MULTIPLILimiti sulle prestazioni

• Consideriamo una stima non polarizzata Ai. Allora:ii

ii JAaVari

*2 ])(ˆ[ R

ji

jiij

AA

p-E

A

p

A

pEJ

)(ln

)(ln)(ln

2 A|R

A|RA|R

a|r

a|ra|r

dove J*ii sono gli elementi ii-esimi della matrice KxK J-1.

Gli elementi di J sono:

La matrice J e’ detta “matrice dell’informazione di Fisher” (Fisher’s information matrix).L’uguaglianza vale se e solo se:

RA

A

ARpAKARa

i

K

j jijii

ar

,

)|(ln)()(ˆ

1

|

Page 68: Corso di Sistemi di telecomunicazione A.A. 2009/2010

68

IPOTESI COMPOSITE

• Fino ad ora abbiamo considerato l’ipotesi semplice.• Per capire cosa si intende per ipotesi composite

consideriamo il seguente

ESEMPIO 1

•Sotto l’ipotesi 0 la variabile osservata r è Gaussiana a media nulla e varianza 2.

• Sotto l’ipotesi 1 la variabile osservata r è Gaussiana a media m e varianza 2.

• Il valore di m può essere un qualsiasi valore nello intervallo [M0,M1]. Quindi:

2

2

0022

10

Rexp)H|(p:H H| Rr

102

2

1122

11

MMM)MR(

exp)H|(p:H H|

Rr

Page 69: Corso di Sistemi di telecomunicazione A.A. 2009/2010

69

IPOTESI COMPOSITE

• Chiamiamo H1 ipotesi composita perché il valore del

parametro M, che caratterizza l’ipotesi, può assumere

un insieme di valori.

• Un modello per questo problema di decisione è

mostrato nella figura seguente:

Page 70: Corso di Sistemi di telecomunicazione A.A. 2009/2010

70

IPOTESI COMPOSITE(Esempio-continuazione)

• L’uscita della sorgente è un valore M che vediamo come un punto nello spazio dei parametri .

• Quindi definiamo le ipotesi come un sottospazio di .• In questo caso H0 corrisponde al punto M=0 e H1

corrisponde all’intervallo [M0, M1].

• Assumiamo che la densità di probabilità che governa il processo di mapping dallo spazio dei parametri allo spazio dell’osservazione pr|m(R|M) sia nota per tutti

i valori di M in .

• La componente finale è una regola di decisione che divide lo spazio delle osservazioni in due parti che corrispondono alle due possibili decisioni.

• È importante osservare che siamo interessati solo nel prendere una decisione è che l’attuale valore di M non è di nostro interesse.

• Per questa ragione il parametro M è spesso chiamato ‘parametro non voluto’.

Fine esempio

Page 71: Corso di Sistemi di telecomunicazione A.A. 2009/2010

71

IPOTESI COMPOSITE

• Nel test di ipotesi composita l’uscita della sorgente è quindi un punto nello spazio dei parametri denotato dal vettore .

• Le ipotesi sono sottospazi di .

• La densità di probabilità che governa il mapping dallo spazio dei parametri allo spazio delle osservazioni è denotata da pr|(R| ) e si assume essere nota per tutti

i valori di in .

• La componente finale del modello è la regola di decisione.

Page 72: Corso di Sistemi di telecomunicazione A.A. 2009/2010

72

IPOTESI COMPOSITE

• Per completare la formulazione del problema, dobbiamo

caratterizzare il parametro .

• Come nel caso della stima dei parametri, può essere

una variabile aleatoria o non aleatoria.

• Consideriamo il caso in cui sia una variabile

(vettore) aleatoria con una densità di probabilità nota;

denotiamo la densità di sotto le due ipotesi con p|H0(|

H0) e p|H1(|H1)

il rapporto di verosimiglianza è:

d)H|(p)|(p

d)H|(p)|(p

)H|(p

)H|(p)(

H||

H||

H|

H|

0

1

0

1

0

1

0

1

R

R

R

RR

r

r

r

r

• La densità di probabilità nota su ci permette di ridurre questo problema ad un semplice problema di hipothesis-testing integrando su .

Page 73: Corso di Sistemi di telecomunicazione A.A. 2009/2010

73

IPOTESI COMPOSITEEsempio 1

Riprendiamo l’esempio 1.

• Assumiamo che la densità di probabilità che governa m

su H1 sia:

M

Mexp)H|M(p

mmH|m

2

2

122

11

2

2

2

2

2

2

221

221

221

Rexp

dMM

exp)MR(

exp

)( mmR

Quindi il rapporto di verosimiglianza diventa:

Page 74: Corso di Sistemi di telecomunicazione A.A. 2009/2010

74

IPOTESI COMPOSITEEsempio 1

• Integrando ed applicando il logaritmo naturale ad

entrambi i membri dell’uguaglianza, otteniamo:

2

2

2

2222 1

2

121

0

m

m

mH

H

lnln)(

R

• Questo risultato è identico a quello ottenuto nel

secondo esempio visto nella teoria della decisione;

ciò è dovuto alla particolare scelta della densità di

probabilità che governa m.

( ha lo stesso significato visto in quel caso: soglia

determinata dal criterio adottato).

Page 75: Corso di Sistemi di telecomunicazione A.A. 2009/2010

75

IPOTESI COMPOSITE

• Come ci aspettavamo, il test usa solo l’ampiezza di R,

perché m ha una densità di probabilità simmetrica.

• Per il caso generale rappresentato dall’equazione di

verosimiglianza, il calcolo può risultare più complicato,

ma la procedura da seguire rimane la stessa.

• Quando è una variabile aleatoria con una densità

non nota, la migliore procedura di test non è

chiaramente specificata.

• Un approccio possibile consiste nel test minimax sulla

densità sconosciuta.

• Un approccio alternativo consiste nel considerare

diverse densità basandosi sulla parziale conoscenza a

priori di che si ha a disposizione.

• In molti casi la struttura del test non e’ molto sensibile

all’andamento della densità di probabilità.

Page 76: Corso di Sistemi di telecomunicazione A.A. 2009/2010

76

IPOTESI COMPOSITE

• Il secondo caso di interesse è il caso in cui è una

variabile non aleatoria.

• Qui, come nel problema della stima di parametri non

aleatori, cercheremo una procedura ed analizzeremo

i risultati.

• Una prima osservazione è che, siccome non ha densità

di probabilità su cui eseguire una media, il test di

Bayes non è significativo.

consideriamo il test di Neyman-Pearson

• Cominciamo la discussione esaminando ciò che

chiamiamo ‘limite di misurazione perfetta’ sulle

prestazioni del test.

• Per chiarire l’idea, riprendiamo l’esempio 1.

Page 77: Corso di Sistemi di telecomunicazione A.A. 2009/2010

77

IPOTESI COMPOSITEEsempio 2

• In questo caso = M e si ha che:

102

2

122

1MMM

)MR(exp)M|R(p:H m|r

2

2

022

1

R

exp)M|R(p:H m|r

dove M è un parametro non aleatorio sconosciuto.

• È chiaro che ogni test che progettiamo, non potrà mai essere migliore di un ipotetico test in cui il ricevitore prima misura perfettamente M (o, alternativamente, conosce M perché gli viene detto) e quindi progetta il test ad ottimo rapporto di verosimiglianza.

• Quindi noi possiamo limitare le curve ROC per ogni test con la curva ROC di questa misurazione fittizia.

Page 78: Corso di Sistemi di telecomunicazione A.A. 2009/2010

78

IPOTESI COMPOSITEEsempio 2

• In questo esempio consideriamo le seguenti curve dette

“Power Function”:

Page 79: Corso di Sistemi di telecomunicazione A.A. 2009/2010

79

IPOTESI COMPOSITEEsempio 2

• Questa curva è chiamata funzione di potenza. Essa

è semplicemente PD per tutti i valori di M (più

generalmente ) per diversi valori di PF.

• Siccome H0=H1 per M = 0, PD= PF.

• Le curve mostrate nella figura precedente

rappresentano un limite sulla bontà di un test.

• Ora volgiamo vedere quanto le prestazioni ottenute

dal nostro test si avvicinano a questo limite.

Page 80: Corso di Sistemi di telecomunicazione A.A. 2009/2010

80

IPOTESI COMPOSITEEsempio 2

• Le migliori prestazioni che possiamo ottenere

sarebbero raggiunte se la curva di test uguagliasse

il limite per tutti gli M appartenenti .

• Chiamiamo questo test UMP (il più uniformemente

potente). In altre parole, per una data PF un test UMP

ha una PD maggiore o uguale ad ogni altro test per

ogni M appartenente .

• Le condizioni affinchè esista un test UMP possono

essere viste nella seguente figura:

Page 81: Corso di Sistemi di telecomunicazione A.A. 2009/2010

81

IPOTESI COMPOSITEEsempio 2

• Costruiamo prima il limite di misurazione perfetta; poi consideriamo altri possibili test e le relative prestazioni;

• Il test A è un normale test a rapporto di verosimiglianza (LRT) progettato secondo l’assunzione che M = 1.

• La prima osservazione è che la potenza di questo test è uguale al limite quando M = 1, che segue dal modo in cui abbiamo costruito il limite.

• Per altri valori di M la potenza del test A può essere uguale o meno al limite.

• Similarmente il test B è un LRT progettato sotto l’assunzione M = 2 e il test C è un LRT progettato sotto l’assunzione M = -1.

• In ogni caso la loro potenza uguaglia il limite nei punti

per i quali il test è stato progettato.

Page 82: Corso di Sistemi di telecomunicazione A.A. 2009/2010

82

IPOTESI COMPOSITEEsempio 2

• Nella figura le curve relative ai test LRT non sono

quantitativamente corrette, ma servono per fare

notare che la potenza uguaglia il limite per il valore

di M per cui e’ stato progettato il test. Cio’ non toglie

che possa eguagliarlo anche in altri punti.

• Le condizioni per un test UMP ora sono chiare:

dobbiamo essere in grado di progettare un test LRT

completo (compreso il valore di soglia) per ogni M

appartenente a senza conoscere M.

Page 83: Corso di Sistemi di telecomunicazione A.A. 2009/2010

83

IPOTESI COMPOSITE

• In generale il limite può essere raggiunto per

ogni particolare semplicemente progettando un

normale LRT per quel particolare .

• Ogni UMP test deve essere non meno buono di altro

test per quel particolare . Ciò fornisce una condizione

necessaria e sufficiente per la sua esistenza.

PROPRIETA’:

Un test UMP esiste se e solo se il test LRT per ogni

appartenente a può essere completamente definito

(inclusa la soglia) senza la conoscenza di .

• Il ‘se’ della proprietà è ovvio. Il ‘solo se’ segue

direttamente dalla nostra discussione nel paragrafo

precedente: se esiste per cui non possiamo

trovare un LRT senza conoscere , dovremmo usare

un altro test perché non conosciamo . Però

questo test sarà inferiore per quel particolare al

test LRT e quindi non è uniformemente il più potente.

Page 84: Corso di Sistemi di telecomunicazione A.A. 2009/2010

84

IPOTESI COMPOSITEEsempio 2

• Ritorniamo all’esempio e usiamo il risultato ottenuto

dalla seguente figura:

• Sappiamo che il test di verosimiglianza è:

1

0

H

H

R

e

022

12

2

MsedR

RexpPF

L’apice + indica che M assume solo valori positivi.

Page 85: Corso di Sistemi di telecomunicazione A.A. 2009/2010

85

IPOTESI COMPOSITEEsempio 2

• Questo è mostrato nella seguente figura:

• Analogamente, se M è minore di zero:

0

1

H

H

R 022

12

2

MsedR

RexpPF

e

Page 86: Corso di Sistemi di telecomunicazione A.A. 2009/2010

86

IPOTESI COMPOSITEEsempio 2

• Rispetto all’esempio 1 traiamo le seguenti conclusioni:

1. Se M può assumere solo valori non negativi, allora esiste il test UMP.

2.Se M può assumere solo valori non positivi, allora esiste il test UMP.

3.Se M può assumere valori positivi e negativi, allora il test UMP non esiste.

• Nella seguente figura è mostrata la funzione potenza per i test LRT ottenuti sotto l’ipotesi che M sia positivo.

Page 87: Corso di Sistemi di telecomunicazione A.A. 2009/2010

87

IPOTESI COMPOSITE

• Ogni volta che il test UMP esiste, lo usiamo e il test lavora bene come se conoscessimo .

• Un problema più difficile si ha quando il test UMP non esiste.

• Discuteremo ora alcuni test possibili per il caso in cui non esiste il test UMP.

• Confiniamo la nostra discussione ad una possibile procedura di test, il test di verosimiglianza generalizzato.• Se conosciamo il segno di M: Il test UMP esiste perche’,per Neym.Pears., serve solo PF e questa dipende solo da p(R|Ho). In questo caso

se p(R|Ho) e’ nota e non dipende da M (fissata pF, fisso

la soglia).• Se non conosciamo il segno di M, anche fissato PF, non

sappiamo fissare la soglia (conosciamo |Rth|, ma non

il segno).

Page 88: Corso di Sistemi di telecomunicazione A.A. 2009/2010

88

IPOTESI COMPOSITETest di verosimiglianza generalizzato

• Il limite di misurazione perfetta suggerisce che una procedura logica consista nello stimare assumendo che H1 sia vera, quindi nello stimare assumendo che

H0 sia vera ed nell’usare queste stime nel test di

verosimiglianza, come se fossero corrette.

• Se sono usate le stime a massima verosimiglianza il risultato è chiamato LRT generalizzato.

• In particolare:

1

000

11

0

1 H

H|

|

g )|(pmax

)|(pmax

)( R

R

Rr

r

dove 1 assume tutti i valori in H1 e 0 assume tutti i valori in H0.

• In altre parole, facciamo una stima ML di 1 assumendo che sia vera l’ipotesi H1, quindi valutiamo pr|1(R|1)

per e usiamo questo valore al numeratore. Una

procedura simile fornisce il valore per il denominatore.

11 ˆ

Page 89: Corso di Sistemi di telecomunicazione A.A. 2009/2010

89

IPOTESI COMPOSITEEsempio 2

• Riprendiamo i dati dell’esempio 1, quindi = M.

• Anziché una, abbiamo N osservazioni indipendenti,

che denotiamo con il vettore R.

• Le densità di probabilità sono:

• In questo esempio H1 è un’ipotesi composita, mentre

H0 è un’ipotesi semplice.

N

i

iH,m|

)MR(exp)H,M|(p

12

2

122

11 Rr

N

i

iH,m|

Rexp)H,M|(p

12

2

022

10 Rr

Page 90: Corso di Sistemi di telecomunicazione A.A. 2009/2010

90

IPOTESI COMPOSITEEsempio 2

• Dalla stima a massima verosimiglianza otteniamo:

(come visto prima)

• Cancellando i termini comuni ed applicando il logaritmo:

N

R

M

N

ii

11

ˆquindi

1

02

2

1

2

21

1

221

2

1

21

H

HiN

i

Ni jiN

i

gR

exp

R)N/(Rexp

)(

R

lnRN

)(lnH

H

N

iig

1

0

2

122

1

R

• Il termine a sinistra è sempre maggiore o uguale a zero, così può sempre essere scelto maggiore o uguale a uno. un test equivalente è:

21

2

121

1

0

1 H

H

N

iiR

N

dove 1 è maggiore o uguale a zero. Equivalentemente:

112

1

1

0

1 H

H

N

iiR

N

|z|

Page 91: Corso di Sistemi di telecomunicazione A.A. 2009/2010

91

IPOTESI COMPOSITEEsempio 2

• La funzione di potenza di questo test si ricava

facilmente.

• La variabile z ha una varianza pari a 2; su H0 la sua

media è zero e su H1 la sua media è

• Le densità di probabilità sono riportate nella figura

seguente.

NM

Page 92: Corso di Sistemi di telecomunicazione A.A. 2009/2010

92

IPOTESI COMPOSITEEsempio 2

• Si ha che:

1

2

2

2

2

2

22

1

22

1

1

1

erfc

dZZ

expdZZ

expPF

e

NMerfc

NMerfc

dZ)NMZ(

exp

dZ)NMZ(

exp)M(PD

11

2

2

2

2

22

1

22

1

1

1

Page 93: Corso di Sistemi di telecomunicazione A.A. 2009/2010

93

IPOTESI COMPOSITEEsempio 2

• La funzione di potenza risultante è riportata nella

figura seguente:

• Nella figura è riportato il limite di misurazione perfetta per fare un confronto. Come ci si aspetta, la differenza si avvicina a zero quando NM

Page 94: Corso di Sistemi di telecomunicazione A.A. 2009/2010

94

IPOTESI COMPOSITEEsempio 2

• Come esistono casi in cui la stima ML fornisce

risultati scarsi, ci sono casi in cui il test di

verosimiglianza generalizzato fornisce risultati

scadenti.

• In questi ultimi casi dobbiamo cercare altre procedure

test.

• Fortunatamente, nella maggior parte dei problemi

fisici di interesse sia il test UMP che il test di

verosimiglianza generalizzato danno risultati

soddisfacenti.