Il neurone e i suoi componenti Il nucleo I dendriti Lassone Le connessioni sinaptiche.

Post on 02-May-2015

213 views 0 download

Transcript of Il neurone e i suoi componenti Il nucleo I dendriti Lassone Le connessioni sinaptiche.

Il neurone e i suoi componentiIl nucleoI dendritiL’assoneLe connessioni sinaptiche

Reti neuronali artificiali (RNA) (Artificial Neural Networks, ANN)

dalla neurobiologia e neurochimica, -struttura di elaborazione distribuita ed altamente interconnessa (~1011 neuroni e ~1015 connessioni nel cervello umano, ~1ms tempi di commutazione, ~10-6 joule/ciclo) - meccanismi di apprendimento e adattamento (anche dalla neuropsicologia)

approccio storicoapproccio funzionale

Riconoscitore lineare: y= wTx=iwixi; i=1N

Percettrone: y=(s) con s= wTx=iwixi; i=1N

s= campo indotto locale

Riconoscitore a stadi: y=(s2)

con s2=f(s1) con s1= wTx=iwixi; i=1N

Riconoscitore generalizzato: y=f(W,x)

Metodo di addestramento istantaneo (al singolo campione)Riconoscitore lineare

y= wTx E=(d-y)2 =e2

w=-dE/dw E=-dE/dw)2<0 dE/dw=-ex

w=-dE/dw =ex

Riconoscitore a stadiy=(s2) con s2=f(s1) con s1= wTx=iwixi; i=1N

w=-dE/dw =-dE/dy)(dy/ds2) (ds1/ds2) (ds2/dw)

w= e ’(s2) (ds1/ds2) x

Metodo di addestramento a blocchi (al singolo campione)Riconoscitore lineare

y= wTx=iwixi; i=1N E=E [d-y]2 = E [e]2

E=E [d- iwixi]2 = E [d2 +2 iwidxi +i(wixi)

2]

=E [d2 ]+ 2 iwi E [dxi] + E [ i(wixi)2]

L’ errore minimo si ha quando dE/dw=0 e cioè

E/wi= 2 E [dxi] +2 wiE [xi)2]=0

wi= - E [xi)2/E [dxi]

Caratteristiche delle RNA

- non linearita’- apprendimento(senza maestro)/addestramento (con maestro)- adattamento (plasticita’ e stabilita’)- risposta probativa (affermazione di non riconoscimento)- informazioni contestuali- tolleranza ai guasti- analogie neurobiologiche- realizzazione VLSI- uniformita’ di analisi e progetto

I metodi di apprendimento delle RNA

Apprendimento (addestramento non supervisionato)a) e’ definito il numero delle classi Kb) e’ definito il criterio di appartenenza ad un stessa classee’applicato solo il campione X

Addestramento (apprendimento supervisionato)e’ applicata la coppia campione-classe (X,Y*)

Ibridi (adattativi)a) e’ definito il criterio di appartenenza ad un stessa classee’ applicata la coppia campione-classe (X,Y*), ma non la struttura

Metodo di aggiornamento sequenziale dei pesi

Insieme d’ addestramento: (xk,y*k), k=1-Q,

Vettore uscita desiderato y*k= (y*km, m=1-M)

Vettore uscita yk= (ykm, m=1-M) prodotto da xk=(xk

i,i=1-N)

Funzione errore: E (W)= 1/2m (y*km-yk

m)2 = 1/2 m ek

m)2

Formula d’ aggiornamento: wji=-.dE/dwji= -jyi = ’(sj).ejyi

dove ej=mwmjm e m= - ’(sm).em

Formule d’ aggiornamento (per ogni coppia xk,y*k, si e’ omesso l’apice k)

strato d’ uscita O: ym= (sm) em=y*m-ym m= em’(sm) wjm= m yj

strato nascosto H2: ej=mmwjm j= ej’(sj) wkj = j yk

strato nascosto H1: ek=jjwkj k= ek’(sk) wik = k xi

Addestramento globale dei pesi sinaptici

Insieme d’ addestramento: (xk,y*k), k=1-Q,

Vettore uscita desiderato y*k= (y*km, m=1-M)

Vettore uscita prodotto da xk=(xki,i=1-N) yk= (yk

m, m=1-M)

Funzione errore globale: Eg(Wj)= 1/2km (y*km-yk

m)2 = 1/2k m ek

m)2

Retropropagazione dell’ errore (per ogni coppia xk,y*k, si e’ omesso l’apice k)

strato d’ uscita O: ym= (sm) em=y*m-ym m= em’(sm)

strato nascosto H2: ej=mmwjm j= ej’(sj)

strato nascosto H1: ek=jjwkj k= ek’(sk)

Formula per l’ aggiornamento globale:wji= -.dEg/dwji= k k

jyki = k ’(sk

j).ek

j

dove ekj=hjwhj

kh e

kj= - ’(sk

j).ek

j

Notea) metodo dei momenti: wij(n)= wij(n-1) +i (n)x j(n) con <1

b) suddivisione suggerita per l’ insieme di addestramento+validazione

add. val.1. Sessione

2. Sessione

3. Sessione

4. Sessione

3) normalizzazione: traslazione al valor medio: decorrelazione e equalizzazione della covarianza (trasformazione con autovalori)

4) inizializzazione: pesi casuali e piccoli (funzionamento al limite della zona lineare), =.1,~.9

Inferenza statistica delle RNA

RNAx, ck

y1(x)

ym(x)

yk(x)

yM(x)

E2= X P(x)(k P(ck /x) m [ym(x)-y*m(x)] 2})

E2= X P(x)(m {k P(ck /x) [ym(x)- m(x)k]2})

y*1 (x) = l(x) = 0

y*m(x) = m(x) = 0

y*k(x) = k(x) = 1

y*M(x) = M(x) = 0

ck =(l(x)…. k(x)….. M(x))

E2 = X P(x)(m {k [ym(x)- m(x)] 2 P(ck /x) })

Mak[ym(x)- m(x)]2 P(ck/x)= ym2(x)-2ym(x) P(cm/x) + P(cm/x)=

poiche’ m(x)=1 solo per k = m e k P(ck/x)=1, aggiungendo e togliendo

P2(cm/x) si ha:

[ym2(x)-2ym(x) P(cm/x) + P2(cm/x)] + [P(cm/x) - P2(cm/x)] =

= [ym(x)-P(cm/x)]2 + P(cm/x) [1- P(cm/x)]

dove solo il primo addendo dipende dalla rete per cui addestrandola correttamente si ottiene il minimo di E2:

ym(x)=P(cm/x)

yA

1 3

x11

2

x2

yA*

x1

x2

yA=fA(s) = 0.5

XA

A*yA*=fA*(s) = 0.5

+

+

x2

x1

ca b

y

c

ab

A+

x2 x1 1

y

x1 x2

MPL per EXOR

1

1

x1 x2 y

0 0 00 1 11 0 11 1 0

x2

1

0 1 x1

y=0

y=0

y=1

y=1

x1

x2

z=f(s) = 0.5

X

z=f(s) =-Tz=f(s) =T

A

A*

I

1 3

x1 1

2

x2

yAyA*z

u(z-T)u(-z-T)

MLP per riconoscimento di due classi con pdf gaussiane equiprobabili (HAYKIN Cap.4.8)

B

x2

AXA

zona didecisione

ottima BayesianaB

A

rA

x1X

XAX

discrim

inante

MLP

x1 1 x2

yA yB

MLP: Pe = 0.196Bayesiana: Pe = 0.185

Parametri di addestramento=0.1, =0.5

X(n)

x1(n)

x16(n)

1

8

1

3

RNA con apprendimento non supervisionato

a) Numero di classi (cluster) predefinitob) Criterio di verosimiglianza predefinito (il numero di cluster dipende dalla distribuzione statistica dei campioni)

- origine del modello: disposizione e interazione eccitatoria/inibitoria dei neuroni della corteccia cerebrale;- metodo di apprendimento;- metodo di riconoscimento (tassellazione di Voronoi);- estensione a reti con apprendimento supervisionato.

1 i N

1 j N

1 j M

X

Von der Malsburg

KohonenWjW1WM

yjy1 yM

xi

wji

1 i N

1 j Myi

Fig.10 Mappa autorganizzata (SOM) ed attivazione del nodo d’ uscita

j = argmin[(x,wh); h=1M]

yj=1; yh=0 per h j) Caratteristiche- riduzione della dimensionalita’ (neuroni su reticolo)-competizione (per l’ attivazione del nodo d’ uscita)-cooperazione (per l’ apprendimento)-adattamento sinaptico: eccitazione/inibizione

j

wj

wi

i

x

x2

x1

spazio discreto delle uscite

spazio continuo dei campioni

Si puo’ realizzare una strutturazione globale mediante interazioni locali (Turing, 1952)

La strutturazione e’ realizzata da interazioni prodotte da attivita’ed interconneaaioni neuronali

Principio 1. Le interconnessioni tendono ad essere eccitatorie

Principio 2. La limitazione delle ‘risorse’ permette l’aumento dideterminate attivita’ a scapito di altre

Principio 3. Le modifiche dei pesi sinaptici tendono ad essere cooperative

Principio 4. Un sistema autorganizzato deve essere ridondante

Competizioneneurone vincente: j = argmin[||x-wh||) ; h=1M]

oppure: j = argmax[xTwh ; h=1M]

distanza (Manhattan)reticolare, o laterale, dei nodi i e j:d(j,i)2

funzione di vicinato: hi(j) = exp[- d(i,j)2 /22]

CooperazioneI neuroni i del vicinato di j sono eccitati e e cooperano all’:

Adattamento sinapticowi= hi(j)(x-wi)

e diminuiscono con le sessioni di apprendimentoFase di autorganizzazione: =0.1-0.01, d(i,j) decrescente da massima

fase di convergenza statistica: =0.01, 1 d(i,j) 0

Aggiornamento pesi della SOM

W=(w1,w2,...,wM) vettore prototipo

Ej(W)= 1/2i hi(j) (x- wi)2

con i=1M e hi(j) funzione di vicinato di j

Ej(W)= grad(Ej(W)).W= i (E(W)/wi).wi

wi = -Ej(W)/wi = hi(j) (x- wi).

Addestramento delle SOM supervisionate Learning Vector Quantizer (LVQ) dati di addestramento: (X, C)

a) apprendimento della SOM (solo X)

b) addestramento (con X,C)b2) addestramento dello strato d’ uscita (con o senza competizione nello strato nascosto)b1) etichettaturab3) etichettatura e addestramento dello strato nascosto (con competizione) Wc= +/- (X-Wc) se X appartiene o no a C

Reti Neuronali AdattativeTeoria della risonanza adattativa (Adaptive Resonance Theory, ART)

Meccanismo psicofisiologico:1) Attenzione selettiva: ricerca di una situazione nel dominio di conoscenza2) Risonanza: se l’ attenzione selettiva rileva una situazione nota3) Orientamento: ricerca o creazione di una nuova situazione

Vantaggi: compatibilita’ fra plasticita’ e stabilita’Svantaggi: complessita’ della struttura e dell’ algoritmo di apprendimento

Apprendimento:Attivazione dello strato di riconoscimento (feedforward)Competizione (attenzione selettiva)Retroproiezione allo strato di confronto (verifica della risonanza) Creazione di un nuovo neurone di riconoscimento

strato diriconoscimento

strato diconfronto

1 j P P+1

1 i N

Wj

x1 xi xN

Zj

X

strato diriconoscimento

strato diconfronto

1 j P P+1

1 i N

wji

x1 xi xN

zij

j=argmax [XTWh,h=1,P] Attenzione selettiva

XTZj > risonanza: adattamento pesi Wj e Zj

XTZj< orientamento: XTZh con h > < j

se XTZh > risonanza: adattamento pesi Wh e Zh

se XTZh < per h=1,P si crea un nuovo nodo P+1

Fig. 15 Criterio di appartenenza ad un prototipo (Raggiodi convergenza, raggio di attenzione selettiva)

x2

x1

W1o

WPo

Wjo

WP+1= Xo

R

Raggio di attenzione selettiva

Xo

strato nascosto competitivo

strato d’ ingresso

wji

1 j P P+1

1 i N

wij=1

strato delle classi

Fig.16 SOFM supervisionata adattativa

1 h M

rete di controllo della risonaza e dell’ orientamento

x,y’

o

wjo

WP+1= X

o

Rj

X

risonanza j=cWj= (X-Wj)

att. selett. insuff. j><cRj = ((Wj,X)-Rj) Wj= (Wj -X)

wjo

o

Rj

X

att. selett. eccess. j=cRj = ((Wj,X)-Rj) Wj= (X-Wj)

wjo

o

Rj

X

jwP

o RP

orientamento j >< c

W P+1 = X; P+1 c; RP+1=1/2(X,WP)

RP+1