Reti neurali e applicazioni di interesse...

75
Corso di Perfezionamento in Metodi di Elaborazione di Segnali e Immagini Biomediche P. Sirabella - A. Colosimo LE RETI NEURALI ARTIFICIALI E LORO APPLICAZIONI D'INTERESSE BIOLOGICO Roma Maggio 1993

Transcript of Reti neurali e applicazioni di interesse...

Corso di Perfezionamento inMetodi di Elaborazione di Segnali e Immagini Biomediche

P. Sirabella - A. Colosimo

LE RETI NEURALI ARTIFICIALIE LORO APPLICAZIONI D'INTERESSE BIOLOGICO

RomaMaggio 1993

2

INDICE

Presentazione pag. 2

Capitolo 1. Gli algoritmi connessionisti e la simulazione dell'apprendimento

1.1 Considerazioni preliminari 31.2 Il neurone formale e la dinamica delle reti 51.3 L'apprendimento hebbiano 101.4 L'apprendimento non-hebbiano 141.5 L'apprendimento competitivo 171.6 Altre classificazioni dei modelli di apprendimento 20

Appendice A1 Il problema della stabilita-plasticità 22Bibliografia Capitolo 1 25

Capitolo 2. Una Applicazione di interesse fisiologico

2.1 Le mappe autoorganizzanti di Kohonen (SOM) a conservazione di topologia 272.2 La dinamica spazio-temporale delle SOM 292.3 Semplificazione ed implementazione dell'algoritmo 362.4 Una corteccia somatosensoria simulata 42

Appendice A2 L'interazione laterale in modelli dinamici d'interesse biologico 52Bibliografia Capitolo 2 54

Capitolo 3. Una Applicazione nello studio delle strutture proteiche

3.1 Il percettrone multi-strato e la regola delta generalizzata 553.2 La predizione delle strutture proteiche 613.3 Implementazione e risultati 67

Appendice A3 Confronto fra metodi alternativi nella predizione della strutturasecondaria di proteine 71

Bibliografia Capitolo 3 75

3

PRESENTAZIONE

Negli ultimi cinque anni l'argomento 'reti neurali' è ridiventato digrande attualità dopo circa un ventennio in cui l'approccio numerico-strutturale era stato largamente superato in popolarità, presso i cultoridella Intelligenza Artificiale, da quello di tipo logico-simbolico.Esaminare i motivi di tale rinascita, pur se di grande interesse, non énostra intenzione in questa sede* : preferiamo presentare una sintesisuccinta dei principali lavori sull'argomento, o per lo meno di quelliche ci hanno maggiormente ispirato e guidato nel nostro lavoro, e farlaimmediatamente seguire dalla illustrazione di due applicazioni da noisviluppate in settori estremamente diversi della biologia quantitativa: lasimulazione di una corteccia somatosensoria e la predizione dellastruttura secondaria di una proteina.

La scelta di tali argomenti non é stata, ovviamente, casuale:innanzi tutto, si voleva sottolineare la grande flessibilità di un insiemerelativamente eterogeneo di algoritmi accomunati dall'obiettivo disimulare l'apprendimento del S.N.C. come proprietà emergente diinsiemi numerosi di unità computazionali intrisecamente semplici e adalta connettività. Secondariamente, oltre che di indiscutibile valoreesplicativo e didattico, esse ci sono sembrate particolarmente adatte adispirare: a) ulteriori approfondimenti negli stessi settori; b)l'esplorazione, con le stesse tecniche, di problematiche nuove. Infine, cipremeva dimostrare l'assunto che non é necessario il possesso disuper-specializzazioni o di super-computers per implementare in tempiragionevoli reti neurali capaci di affrontare problemi reali.

* Per un approfondimento, vedi la lucida introduzione di D. Parisi alla edizione italianadel fondamentale lavoro di Rumelhart e McLelland "PDP, microstruttura deiprocessi cognitivi", Il Mulino, 1992.

4

1. Gli algoritmi connessionisti e la simulazionedell’apprendimento

1.1 Considerazioni preliminari

" Le Reti Neuronali Artificiali sono reti con interconnessioni adalto grado di parallelismo composte da semplici elementi,generalmente adattivi. Le loro organizzazioni gerarchiche sonopensate per interagire con il mondo reale allo stesso modo di unsistema nervoso biologico. " [Kohonen, 1988]

L'osservazione della enorme complessità di un sistema nervoso (nell'uomo

si hanno circa 1011 neuroni e 1015 connessioni) affida alla variabilità e alla

plasticità neuronale un ruolo fondamentale per il funzionamento del cervello:

sono l'apprendimento ed il confronto continuo con il mondo gli agenti che, su

una impalcatura genetica, costruiscono e trasformano continuamente una

individualità epigenetica neuronale [Edelman,1989] [Rosenfield,1988]. Ciò si

manifesta in variazioni sia strutturali (crescita di nuove fibre nervose e nuove

ramificazioni dendritiche) che chimiche (variazioni di accoppiamento sinaptico)

[Changeux,1983]. Solo queste ultime, per il momento, sono considerate nella

progettazioni di reti neuronali artificiali.

L'utilizzo di calcolatori digitali per la realizzazione di tali reti non significa

che, per esse, vengano adottate le regole della logica digitale. Il singolo elemento

di rete, il neurone formale (vedi appresso), svolge una operazione analogica di

trasformazione, di filtraggio adattivo del segnale. La plasticità funzionale

dell’insieme, partendo da oggetti elementari come il neurone, è raggiunta grazie

al grande livello di interconnessione, alla distribuzione di processi di

retroazione, alla non linearità della trasformazione e alla stessa variabilità

adattiva dei suoi parametri.

Sulla base, quindi, delle leggi di attivazione e modificazione neuronale,

frutto della ricerca neurofisiologica, sono stati sviluppati dei modelli fisico-

matematici la cui caratteristica principale è la capacità di simulare alcuni dei

comportamenti più elementari delle reti neuronali biologiche nei problemi di

apprendimento e riconoscimento. La struttura di questi modelli,

differenziandosi dagli algoritmi tradizionali alla von Neumann a carattere

concentrato e sequenziale, è, in analogia con la struttura cerebrale, altamente

parallela : le singole unità di elaborazione, in analogia con le cellule neuronali,

Gli algoritmi connessionisti e la simulazione dell'apprendimento

5

sono caratterizzate da una funzione di trasferimento sostanzialmente semplice e

soprattutto non lineare, in cui sono presenti una soglia di attivazione ed un

valore di saturazione. Infine, l'informazione che essi elaborano è

immagazzinata nello stato dell'intero sistema: è distribuita.

Una conseguenza indiretta delle precedenti assunzioni è la rottura del

concetto di “osservatore interno”, legato spesso all'idea dell'esistenza di un

ipotetico centro di controllo delle attività cerebrali. Tale idea è la stessa che ha

portato alla tesi del calcolatore come modello del cervello: in esso,

tradizionalmente, vi è una periferia ed un centro, l'unità centrale di elaborazione

(la CPU) che governa tutte le operazioni. Il cervello non ha, invece, un centro, e

i neuroscienziati ne hanno fornito indiscutibili prove [Kandel & Schwartz,

1985]. Quello che è alla base dello studio sulle reti neuronali artificiali e perciò

la tesi del cervello come modello del calcolatore : mantenendo l'analogia con

l'esempio biologico, le funzioni fondamentali del soma (o corpo cellulare), dell'

assone e della ramificazione dendritica con le proprie sinapsi vengono

riprodotte rispettivamente dall'unità di elaborazione, dal dispositivo di uscita e

dai dispositivi di ingresso, utilizzando pesi di accoppiamento variabili per le

varie unità, che costituiscono, di fatto, la parte adattiva del sistema.

Primi lavori1940-1960

-Logica Booleana-Apprendimento Sinaptico-Prime Simulazioni-Percettrone-Memorie Associative

McCULLOCH & PITTS (1943)HEBB (1949)FARLEY & CLARK (1952)ROSENBLATT (1958)STEINBUCH, TAYLOR (1961)

Transizione1960-1980

-Algoritmo LMS-Modello del Cerebellum CMAC-Matrici di correlazione-Apprendimento Competitivo-Cognitron, Neocognitron-ART, BCS

WIDROW & HOFF (1960)ALBUS (1971)KOHONEN (1972)VON DER MALSBURG (1973)FUKUSHIMA (1975)CARPENTER & GROSSBERG

(1976)

Rinascita1980-

-Modelli Connessionisti-RCE-Mappe Auto-Organizzanti-Teoria Memorie Associative-Boltzmann Machine-Back Propagation-Il volume PDP-Darwin III-ART 2-Computer neuronali ottici-Chip neuronali VLSI-Reti neuronali e Caos

FELDMAN & BALLARD (1982)REILLY, COOPER et al. (1982)KOHONEN (1984)HOPFIELD (1986)HINTON & SEJNOWSKI (1986)RUMELHART et al. (1986)RUMELHART & McCLELLAND (1986)EDELMAN, REEKE (1987)CARPENTER & GROSSBERG (1987)ABU-MOSTAFA & PSALTIS (1987)GRAF et al. (1988)FREEMAN et al. (1991)

Tabella 1 - Le tappe fondamentali nella ricerca sulle Reti Neuronali artificiali

Gli algoritmi connessionisti e la simulazione dell'apprendimento

6

Un utilizzo delle reti neuronali fra i più interessanti e accattivanti è quello

nei problemi in cui si richiede una capacità di riconoscimento di oggetti a

struttura complessa (in sostanza forme o, in un termine ormai internazionale,

patterns , principalmente visivi ed acustici), raggiunta grazie alla adattività del

sistema di memoria1.

Le applicazioni si basano principalmente sulla simulazione di processi di

apprendimento, che in base al loro carattere si possono suddividere in tre

categorie fondamentali :

Apprendimento supervisionato, dove è richiesta la presenza di un

“istruttore” esterno che, preparata una serie di esempi, assegni ad ogni stimolo

una configurazione di uscita ideale (target), cioè una rappresentazione interna

imposta. L'errore di rappresentazione generato dalla eventuale discordanza viene

utilizzato, grazie ad un meccanismo di retropropagazione, per la variazione

finalizzata delle sinapsi che, dopo una fase di addestramento, raggiungono una

condizione di equilibrio.

Apprendimento non supervisionato, dove la rete neuronale forma

spontaneamente delle rappresentazioni interne dell'insieme degli ingressi sotto

forma di classificazione.

Apprendimento auto-supervisionato, dove viene creato, sulla base di

determinati parametri interni, un errore di rappresentazione che, retropropagato,

determina le variazioni sinaptiche.

Nei successivi paragrafi saranno impostati alcuni criteri di differenziazione,

in base al sistema dinamico utilizzato, che potranno essere utili per la

comparazione tra i diversi modelli e per l'individuazione delle scelte che li hanno

prodotti. Saranno, quindi, brevemente discussi alcuni di essi in base al tipo di

apprendimento.

1.2 Il neurone formale e la dinamica delle reti

La modellizzazione della cellula neuronale proposta da McCulloch e Pitts

[McCulloch & Pitts,1943] è alla base, con varianti più o meno significative,

dell'equazione di attivazione di praticamente tutti i modelli neuronali tuttora in

1 E’ ben nota la complessità di tale obiettivo: ciò che viene compiuto spontaneamente e senza fatica anchedai più semplici esseri viventi, viene ancora oggi svolto con estrema difficoltà e in numeri limitati dai casi daicalcolatori più potenti.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

7

studio. Tale modellizzazione tratta il neurone come sistema binario a soglia, e

cioè a due stati di uscita {+1,0}, ed è stata in parte ispirata dall' osservazione

neurofisiologica per la quale i segnali tra due cellule nervose sembravano essere

caratterizzati da un comportamento di tipo esclusivo : la trasmissione del

neuroimpulso, il potenziale d'azione, è o completa o nulla. *

ASSONE

SOMA

SINAPSI

NEUROIMPULSOAFFERENTE

NEUROIMPULSOEFFERENTE

xj = Siwij+θj∑i

Si

wij

Sj = φ(xj)φ(xj)

φ(xj)

φ(xj)

xj

xj

xj

binaria

sigmoide

lineare a soglia

Fig 1.1 - Neurone FormaleNella figura è rappresentato il “neurone formale”, così come viene utilizzato, generalmente, nei modelli neuronali. Esso è costituito, strutturalmente, dalle sinapsi w ij che collegano il neurone con gli altri neuroni della rete e che raccolgono i neuroimpulsi afferenti. Vi è poi il corpo cellulare, dove viene svolta l’operazione di somma pesata di tali segnali in ingresso. Essa, modulata da una funzionea soglia, costituirà la risposta del neurone, e verrà propagata, attraverso l’unico dispositivo di uscita, l’assone , verso tutti gli altri neuroni ad esso connessi tramite altre sinapsi.

Nella progettazione di una rete neuronale artificiale ha un'importanza

primaria la scelta del sistema di equazioni dinamiche che ne regolano

l'evoluzione. Nel caso più generale potremo scrivere

dS/dt = f (x , S , W , M) (1.1a)dW/dt = g (x , S , W) (1.1b)dM/dt = h (S , W) (1.1c)

* Tale supposizione è, forse, dovuta anche alla contemporaneità storica, nei primi anni '40, tra i primi studisul calcolo neuronale e la realizzazione dei primi computers non completamente analogici.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

8

In esse, ed anche in seguito, il termine x è il vettore che rappresenta tutti

gli ingressi della rete (gli stimoli), S è il vettore associato a tutte le attività

neuronali di risposta, e W ed M sono due matrici associate ai termini adattivi di

connettività.

La prima equazione, legata alla risposta immediata del neurone, è detta

equazione di rilassamento o equazione di attivazione : nei sistemi biologici ha

costanti di tempo dell'ordine della decina di millisecondi, descrivendo fenomeni

fisici quali la diffusione di ioni leggeri. Le altre due equazioni descrivono

variazioni proteiche o di struttura anatomica, ed hanno costanti di tempo dell'

ordine di qualche giorno (o anche più). Esse sono dette equazioni di

adattamento o equazioni di apprendimento. L'ultima, in particolare,

descrive le funzioni fondamentali di una memoria associativa [Bottini, 1980,

1984].

Il neurone formale (Figura 1.1) è descritto, in sostanza, dalla legge che

determina l'attività del neurone in funzione dei segnali di ingresso: le varie vie

afferenti al neurone j-esimo portano ciascuna un segnale continuo Si (che

rappresenta l'attività sulla linea i-sima, eventualmente associata ad una

frequenza) che viene moltiplicato per un peso wij di accoppiamento

sinaptico tra il neurone j-simo e la via afferente i-sima. Per un principio di

sovrapposizione l'attività Sj del neurone (il segnale di uscita, inviato sull'assone)

sarà proporzionale alla somma pesata xj dei segnali afferenti, modulata da una

funzione di trasferimento φ(x) non lineare che tiene conto degli effetti di soglia e

di saturazione della risposta del neurone : nel caso particolare del neurone

“binario” φ(x) sarà una funzione di Heaviside a gradino binario. La legge di

McCulloch e Pitts prevede anche la possibilità di un termine di polarizzazione

θj del neurone che equivale all'opposto di una soglia per la funzione di uscita.

In termini formali si ottiene come legge di attivazione

Sj(t+1) = φ(xj(t+1)) = φ( ΣiwijSi(t)+θj) (1.2a)

doveφ(x) = {+1 se x>0 , 0 se x ≤ 0 } (1.2b)

Una equazione di questo tipo, rappresentando la risposta immediata del

neurone, è anche nota con il nome di equazione della memoria a breve termine,

o equazione STM (Short Term Memory). Nella Figura 1.1 è illustrato

Gli algoritmi connessionisti e la simulazione dell'apprendimento

9

l'equivalente formale del neurone secondo la schematizzazione di McCulloch e

Pitts.

In realtà, però, il neurone agisce più o meno come un integratore non

lineare dissipativo dei segnali di ingresso, la cui funzione di trasferimento è

descritta da almeno una ventina di variabili di stato. Nelle formalizzazioni,

comunque, si utilizza una più semplice, ma pur sempre realistica, operazione di

trasformazione. Una descrizione più verosimile della precedente considera

l'attività di un neurone come se fosse rappresentabile da una variabile continua S

non negativa descritta da una equazione dinamica del tipo :

dS/dt = I - γ (S) (1.2c)

della quale la (1.2) rappresenta una particolare soluzione stazionaria. Il termine

I rappresenta l'effetto integrato di tutte le correnti di membrana, mentre il

termine γ(S), di decadimento passivo, si oppone alla variazione di attivazione e

tiene conto degli effetti di non linearità attinenti alle proprietà reali del neurone

biologico, quali saturazione e fenomeni di perdita. Esso è, nel caso della (1.2), l'

inverso della funzione di trasferimento φ prima descritta.

Una espressione più completa dell' equazione STM di attivazione diventa,

nella sua forma più generale nota come modello additivo [Grossberg,1988],

dS j

dt = - γ(S j ) + ( φ(S i ∑

i

)w

ij( +) + θj) - ( φ(S i ∑

i

)w

ij( - ) + θj) + I j

(1.3)

Il secondo ed il terzo termine rappresentano dei segnali di feedback,

positivo e negativo, nei quali si tiene conto delle tracce di memoria contenute

nelle sinapsi eccitatorie wij(+) e in quelle inibitorie wij

(-) . Il quarto termine è il

generico input, che arriva direttamente al neurone j-simo senza l'intermediazione

di altri neuroni. L' equazione (1.3), in una variante nota come modello additivo

“shunting” e sempre dovuta a S. Grossberg [Grossberg, 1988], [Carpenter,

1989], limita l'attività del neurone nel range (-B, A)

Gli algoritmi connessionisti e la simulazione dell'apprendimento

10

dS j

dt= −γ(Sj ) + (A − S j ) (eccitazioni)∑ − (B + Sj ) (inibizioni) (1.4)∑ (*)

Tornando alla equazione dinamica semplificata (1.2c), possiamo assumere, solo

per quel che riguarda una rete neuronale artificiale, che la corrente di membrana

sia appunto esprimibile come nell' equazione (1.2)

I = Σi wij Si (1.2d)

Se, ora, possiamo considerare stazionari, o perlomeno variabili lentamente,

i segnali di ingresso, allora S raggiungerà l'equilibrio asintotico quando dS/dt=0,

e quindi

S = γ -1 (I) (1.2e)

I fenomeni di saturazione si innescano per alte attività neuronali, quindi il

termine di perdita γ(S) deve essere una funzione progressivamente crescente

dell' attività S. Se, poi, quest'ultima è a valori mai negativi, allora la funzione di

Heaviside è una possibile, seppur eccessivamente semplificata, funzione di

attivazione S(I).

Nei modelli ad apprendimento competitivo (vedi appresso) viene spesso

utilizzata una interpretazione geometrico-vettoriale dell'equazione di attivazione

(1.2) di McCulloch e Pitts: l'attività xj del neurone j-simo (modulata, in genere,

da una funzione di trasferimento lineare, non negativa e senza saturazione) è

vista come prodotto scalare del vettore di input S per il vettore dei pesi wj. Ciò

permette di ricavare il valore di attivazione anche dalla distanza euclidea tra i

punti rappresentativi dei rispettivi vettori : a prodotto scalare massimo

corrisponderà distanza minima, e viceversa (per vettori normalizzati).

Mentre, come già si è detto, tutti i modelli si differenziano assai poco

nell'utilizzo di una particolare equazione STM di attivazione, più rilevante

diventa la scelta di una specifica equazione di apprendimento.

* Essa è significativamente simile a quella ricavata (e che fruttò loro il Premio Nobel) da Huxley ed Hodgkin[Hodgkin & Huxley,1952] che, nell'ambito di una modellizzazione del comportamento elettrico di una cellulanervosa, descrive la corrente totale I di membrana come funzione del tempo e della tensione V didepolarizzazione di membrana

I = CM(dVdt

) + (V- VK)gK + (V- VNa )gNa + (V- Vl)g l

dove gK , gNa , gl e VK ,VNa ,Vl rappresentano rispettivamente le conduttanze (funzioni del tempo edel potenziale di membrana) dei canali a corrente ionica di Potassio, di Sodio e a corrente di perdita (leakagecurrent), e le cadute di tensione su ciascun canale, mentre CM rappresenta la capacità di membrana per unitàdi area.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

11

1.3 L’ apprendimento hebbiano

Che l'apprendimento avesse alla sua base un qualche forma di

trasformazione fisica nelle reti cellulari era già stato intuito da diversi

neurofisiologi, ma l'identificazione della natura e delle cause di tali

modificazioni avvenne soltanto grazie a un'intuizione di D. Hebb, alla fine degli

anni '40. Egli, finalmente, propose un meccanismo plausibile in grado di fornire

una base biologica ai processi della memoria: ipotizzò che fossero le sinapsi il

luogo in cui avvengono i cambiamenti strutturali legati all' apprendimento*.

La teoria di Hebb permise quindi di associare al neurone formale di

McCulloch e Pitts una formalizzazione della plasticità sinaptica, che descriva le

modificazioni nei termini di accoppiamento sinaptico. La sinapsi viene quindi

trattata come un rivelatore di correlazione tra l'attività Si del neurone

presinaptico e quella xj del neurone postsinaptico.

Nella teoria proposta da Hebb l'aumento di efficacia di una sinapsi

eccitatoria dipende dalla sincronicità di attivazione del neurone presinaptico e di

quello postsinaptico. Gli esperimenti di deprivazione monoculare di Hubel e

Wiesel indicarono, completando la teoria di Hebb, che la diminuzione di

efficacia di una sinapsi eccitatoria dipende dalla simultanea mancanza di

attivazione del neurone presinaptico e attivazione del neurone postsinaptico.

Ulteriori ricerche, alcune basate su esperimenti di deprivazione binoculare

[Singer,1986], mostrarono che in mancanza di attivazione del neurone

postsinaptico non si ha una variazione della efficacia sinaptica. Ciò dà luogo a

quattro possibili situazioni, mostrate dalla Figura 1.2.

Inoltre, la legge di Hebb aggiunge al modello di McCulloch e Pitts un

carattere adattivo, fondamentale per il verificarsi del processo di apprendimento.

* “Quando un assone della cellula A è abbastanza vicino da eccitare la cellula B, e prende ripetutamente partealla sua eccitazione, hanno luogo, in una o in entrambe le cellule, dei processi di crescita o dei mutamentistrutturali tali da aumentare l'efficienza di A, in quanto cellula scatenante l'attività di B” [Hebb,1949].Le motivazioni che portarono Hebb a queste conclusioni furono esclusivamente teoriche, e probabilmenteebbero grande importanza le idee dei filosofi empiristi inglesi Hobbes e Locke sul pensiero come associazionedi idee e sul principio di contiguità : due eventi mentali occorrenti simultaneamente provocheranno unreciproco legame di associazione, basato sulla contiguità temporale. Recentemente, inoltre, alcunineurobiologi hanno ipotizzato che alcuni aspetti caratteristici del fenomeno noto come Potenziamento a LungoTermine (LTP) potrebbero essere spiegati da un meccanismo del tipo di quello proposto da Hebb [Kelso etal.,1986] : si tratta di un processo di fondamentale importanza per la formazione dei ricordi. Esso consiste, inbreve, in un aumento, di lunga durata, della forza di una sinapsi causato da una breve stimolazione ad altafrequenza ("tetanica") della fibra afferente, ed è stato scoperto nell' ippocampo, che è una strutturadell'encefalo simile alla corteccia (ma più antica filogeneticamente), implicata nei processi dimemorizzazione e nell' apprendimento dell'orientamento spaziale.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

12

A

B

wABSINAPSI

Neurone A

attivoinattivoattivoinattivo

Neurone B

attivoattivoinattivoinattivo

>0<0=0=0

presinapticopostsinaptico

∆wAB

∆wAB

= variazione di efficacia sinaptica

Figura 1.2 Regole “hebbiane” di modificazione della efficacia sinaptica

La più semplice traduzione in termini formali dell'equazione di

apprendimento (1.1b), in base alla legge di Hebb assume l'espressione

dwij

dt = α Si x j ≥ 0 (1.5)

Si noti che, in analogia con quanto detto per la (1.2), è consuetudine

riferirsi alle equazioni di apprendimento, e quindi di modifica

dell'accoppiamento sinaptico, con il termine di equazioni LTM (Long Term

Memory). E' ovvio che le dinamiche dei due processi, STM ed LTM, siano

caratterizzate da costanti di tempo significativamente differenti.

Un'altra equazione di apprendimento che deriva strettamente da quella

hebbiana e che ha dato luogo, a sua volta, a numerose varianti è dovuta a

Grossberg [Grossberg,1968]. Con essa viene introdotto, nella legge di Hebb,

un termine di perdita o smemorizzazione

dwij

dt= α Si x j - w ij (1.6)

Nel caso più diffuso, per esempio, di uno stadio di ingresso nel quale i

vettori di pesi wiJ = (w1J ,,, wnJ) tendono a riprodurre il segnale afferente Si,

otterremo, per un sistema real-time (vedi appresso) :

Gli algoritmi connessionisti e la simulazione dell'apprendimento

13

dwij

dt= α(t) Si - w ij (1.7)

Nel caso, infine, del modello di Kohonen (vedi appresso), non abbiamo,

almeno esplicitamente, la funzione di gate dell'uscita xj del neurone che esiste

nella (1.7), e la dinamica assume la forma

dwij

dt= α Si x j - β(x j)wij α > 0 (1.8)

dove, mentre il primo termine è tipicamente hebbiano e comporta come effetto

la sensibilizzazione del neurone ad un determinato pattern ed è la base del

comportamento adattivo, il secondo svolge una funzione di smemorizzazione

attiva, stabilzzando l'attività del neurone entro un range opportuno. Si dimostra

infatti che i vettori dei pesi tenderanno a normalizzarsi, assumendo tutti, nell'

apprendimento, la medesima lunghezza [Kohonen,1984]. L'utilizzo della (1.8) è

però generalmemte limitato ad una sua forma semplificata, che verrà descritta in

seguito.

Uno dei primi modelli che adottò la regola di apprendimento hebbiana è

noto con il nome di LEARNING MATRIX ed è dovuto a K. Steinbuch

[Steinbuch, 1961]. Esso è il precursore dei modelli ad apprendimento

competitivo capaci di organizzare e raggruppare i patterns di ingresso in

categorie, imposte dall'addestratore.

La struttura della LEARNING MATRIX è, per sommi capi, la seguente : i

valori delle sinapsi wij sono gli elementi di una matrice che avrà un numero di

colonne pari alla dimensione del vettore binario a di ingresso, e un numero di

righe pari al numero di categorie che si vogliono creare e alle quali sarà

associato un vettore binario di categorie b (tale vettore dovrà avere una ed una

sola componente uguale ad 1, e cioè b=(0..010..0) ), seguendo così il

paradigma di classificazione.

L'apprendimento avviene presentando simultaneamente il vettore di

ingresso a ed il vettore b , avendo scelto in b la categoria alla quale sarà

assegnato a. Se descriviamo il segnale presinaptico come Si = (2a i-1)={+1,-1}

e quello postsinaptico come xj = bj = {+1, 0} possiamo utilizzare, nella fase di

apprendimento, esattamente la legge di Hebb (1.2) (con la differenza che le

variazioni possono anche essere negative). Nella fase di riconoscimento, ad

Gli algoritmi connessionisti e la simulazione dell'apprendimento

14

addestramento avvenuto e a dinamica arrestata, assegneremo il pattern

presentato alla categoria J-sima se il vettore estratto dalla matrice

wJ=(w1J,,,,,wnJ) è, scelto un criterio di distanza, il più vicino al vettore a . Se,

nella fase di riconoscimento, oltre ad arrestare la dinamica, ridefiniamo il

segnale presinaptico come Si=ai , allora possiamo produrre una risposta della

rete nel vettore b. Questo avrà la componente bJ = 1, e solo quella, se il prodotto

scalare

S x wJ = || S || || wJ|| cos (S,wJ)

è il massimo per ogni riga. Tale componente identificherà la categoria alla quale

è stato assegnato il pattern a : il sistema risponderà allo stimolo dichiarandone la

classe di appartenenza.

Un' altra area di ricerca che vide l'utilizzo delle leggi di variazione sinaptica

di derivazione hebbiana è quella sulle Memorie Associative Lineari (Linear

Associative Memory - LAM) [Nakano, 1972] [Kohonen, 1972]. L' idea che è

alla base delle LAM è che, dato un insieme di patterns associati (a(p),b(p)) , sia

possibile memorizzarlo in una matrice di correlazione i cui elementi siano

wij = Σp ai(p) bj(p) (1.9)

Nella fase del riconoscimento, presentando un pattern a(p), otterremo come

risposta dalla rete un vettore x=a(p)Tw proporzionale e, quindi, lineare con il

pattern associato b(p) . Se, infatti, nella xj = a(p) x wj sostituiamo la (1.9)

otteniamo

xj = Σq (a (p) x a (q)) bj(q) (1.10)

Anche in questo caso la legge di variazione dei coefficienti di correlazione è

del tipo hebbiano (1.2), se consideriamo ai segnale presinaptico e bj segnale

postsinaptico. E' sempre più evidente il senso dell'affermazione per cui,

modificandosi secondo la legge di Hebb, la sinapsi tra due neuroni funga da

rivelatore di correlazione di attività.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

15

1.4 L’apprendimento non-hebbiano

L'equazione dinamica hebbiana non fu l'unica ad essere utilizzata nella

ricerca sulle reti neuronali formali : specialmente nei primi modelli l'equazione

LTM adottata è sensibilmente differente, anche se spesso conduce a risultati

analoghi. Essa, nota come Delta Rule [Rosenblatt,1958], descrive una

variazione del termine sinaptico proporzionale alla differenza Dj tra l'uscita Sj

effettiva del neurone ed un valore di target bj imposto dall' “addestratore”

Dj = (bj- Sj ) (1.11a)

dw ij

dt=

αD jSi

S 2 (1.11b)

o anche nella forma

wij(t+1) = wij(t) + ∆wij (1.11c)

∆wij = −α∂( Di

2)i∑

∂wij (1.11d)

Le variazioni sinaptiche saranno quindi tanto minori quanto più i segnali di

uscita Sj dei singoli neuroni riprodurranno i segnali di target b j. La necessità di

un valore di target rende i modelli che utilizzano tale equazione di

apprendimento ascrivibili alla classe dei modelli ad apprendimento

supervisionato. Inoltre in essi si richiede la formazione di un termine di

correzione che necessita del confronto con un valore di target : essa non può

essere fatta nelle “immediate vicinanze” delle sinapsi. Questo termine di

correzione deve essere retropropagato dallo strato di uscita agli strati inferiori,

interrompendo così il flusso di informazione (con una verosimiglianza

biologica assai debole). Ciò non succede, invece, in modelli che usano la

dinamica (1.5) di Hebb, o una delle sue molte varianti : in essi non si deve

utilizzare alcuna grandezza che non sia disponibile nella zona sinaptica.

L'assenza di un valore di target, nei modelli di impostazione hebbiana, assegna

allo stato del neurone e al segnale di ingresso la totalità delle variabili in gioco e

la legge di variazione è peculiarmente locale.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

16

In uno dei primi modelli neuronali, il PERCEPTRON, ad opera di

Rosenblatt [Rosenblatt,1958], venne adattata al neurone di McCulloch e Pitts

una legge di apprendimento differente dalla legge di Hebb. Nel PERCEPTRON

il termine di attivazione STM relativo all' uscita Sj del neurone j-simo è simile

a quello di McCulloch e Pitts (1.2), con una funzione di attivazione φ a gradino

di tipo binario

Sj(t+1) = φ(xj(t+1)) = φ( ΣiwijSi(t)+θj) (1.2a)

doveφ(x) = {+1 se x>0 , 0 se x ≤ 0 } (1.2b)

Per la determinazione del termine di apprendimento LTM l'uscita Sj del

neurone viene confrontata con un valore di target bj imposto dall'

“addestratore” e la differenza Dj viene retropropagata (vedi Figura 1.2), ed

utilizzata per la variazione delle sinapsi con il neurone presinaptico per mezzo

della Delta Rule Dj = (bj- Sj ) (1.11a)

dw ij

dt=

αD jSi

S 2 (1.11b)

Una limitazione del PERCEPTRON di Rosenblatt venne infatti evidenziata

da Minsky e Papert [Minsky & Papert,1969] e consiste nel fatto che il

PERCEPTRON, nella sua forma originaria a due soli strati, è in grado di

classificare solo gruppi di patterns linearmente separabili : le superfici di

demarcazione sono iperpiani. Il PERCEPTRON di Rosenblatt è stato,

comunque, il capostipite di una lunga serie di modelli, detti anche a

retroaccoppiamento , che da questo hanno derivato, oltre alla Delta Rule anche

la caratteristica struttura del flusso di informazione che segue il paradigma di

classificazione (vedi appresso).

Un modello derivato dal PERCEPTRON è, per esempio, l'ADALINE,

dovuto a Widrow e Hoff [Widrow & Hoff,1960] [Widrow et al., 1988]*. Nell'

ADALINE, però, si abbandona l'approccio binario a vantaggio di quello lineare.

Il segnale che viene confrontato con quello di target viene prelevato dall'uscita

del neurone prima dell'intervento della funzione di trasferimento binaria φ : è

* Esiste un’altra importante variante (vedi appresso) del PERCEPTRON, il MULTILAYER PERCEPTRON[Rumelhart et al., 1986].

Gli algoritmi connessionisti e la simulazione dell'apprendimento

17

quindi ancora un segnale analogico, e ciò permetterà di ottenere un indice di

errore Dj molto più sensibile allo scostamento dell'uscita xj daltarget bj

Dj = (bj- xj ) (1.11a bis)

Tale valore verrà utilizzato per la variazione delle sinapsi wij, sempre per

mezzo della Delta Rule (1.11), permettendo la minimizzazione dello scarto

quadratico medio ΣiDi2 tra la configurazione di uscita della rete di neuroni e

quella di target. Questo algoritmo è noto con il nome LMS (Least Mean

Square).

xj = Siwij∑i

+ θj

Dj

bj

supervisore

φ

(perceptron)

(adaline)

= b - Sj j

i jw

iS

S = φ(x )j j

φ(x )j

jx

calcolo dell' errore

target

S = x j j

i jwd

dtDj∝

Input Layer

Output Layer

1 2 3 i n-1 n

1 2 j m

Figura 1.2 - PERCEPTRON / ADALINE LMS

Gli algoritmi connessionisti e la simulazione dell'apprendimento

18

Nella Figura 1.2 sono rappresentati simultaneamente gli schemi del

PERCEPTRON e dell'ADALINE: da come si vede la struttura è

sostanzialmente simile, e si differenziano soltanto per il diverso utilizzo del

segnale di uscita.

1.5 Modelli ad apprendimento competitivo

Nei modelli ad apprendimento competitivo si deve verificare la condizione

per la quale avremo una configurazione di uscita caratterizzata,

spontaneamente, dalla presenza di un solo neurone attivo alla volta (o,

perlomeno, uno molto più attivo di tutti gli altri, detto neurone vincente). Il

neurone vincente codifica, classifica, comprime, raggruppa o ortogonalizza di

volta in volta gli stimoli in ingresso. Ciò permetterà di ottenere una

compressione di informazione : ad una stessa categoria saranno assegnati tutti

gli stimoli che, fissata una metrica, saranno vicini, e cioè si assomiglieranno.

Viene compiuta quella che si dice una quantizzazione vettoriale adattiva , e

cioè la separazione dei patterns di ingresso in categorie mutuamente esclusive.

I primi modelli di questo tipo furono studiati intorno agli anni '70 sulla

base di lavori dovuti a Malsburg [Malsburg (von der), 1973], Fukushima

[Fukushima,1975] e Grossberg [Grossberg,1976]. In seguito furono sviluppati

da Amari [Amari & Takeuchi,1978], Cooper [Cooper et al.,1982] e,

soprattutto, dal già citato Kohonen [Kohonen,1984].

Il modello a mappe auto-organizzanti di Kohonen (Self Organizing Maps,

SOM) e la ART di Grossberg costituiscono degli esempi paradigmatici di reti

neuronali il cui utilizzo, più che come memorie associative, è legato alla loro

capacità di categorizzazione. Essi permettono di codificare adattivamente un

universo di stimoli sotto forma di categorie; essendo, poi, nella maggior parte,

ad apprendimento non-supervisionato non beneficiano del lavoro di un

istruttore che assegni arbitrariamente la categoria alla quale lo specifico stimolo

va assegnato.

Per ottenere una rete che segua delle regole di tipo competitivo uno degli

algoritmi più usati è quello noto come ON-CENTER / OFF-SURROUND :

esso si riferisce al meccanismo di feedback per il quale ogni neurone invia a sè

stesso e a quelli immediatamente vicini un segnale di tipo eccitatorio (ON-

CENTER), mentre ne invia uno di tipo inibitorio ai neuroni più lontani (OFF-

SURROUND). Tale segnale sarà una funzione f(xj) dell' attività del neurone

Gli algoritmi connessionisti e la simulazione dell'apprendimento

19

stesso: dalla forma di questa funzione dipenderà la maggiore o minore

modulazione della risposta della rete alla presentazione di uno stimolo. Una

delle proprietà più importanti dei modelli ad apprendimento competitivo,

dimostrata matematicamente da Grossberg [Grossberg,1976], è quella di

ottenere la distribuzione ottimale dei termini LTM wij per la rappresentazione

dell' insieme degli stimoli in ingresso.

Le equazioni di modello ad apprendimento competitivo, nella loro forma

più semplice, sono le seguenti

STM - Competitive :

1 s e w ij x i∑i

≥ Ma x { w j kxk∑k

: k≠j }

0 s e w ij x i∑i

< Ma x { w j kxk∑k

: k≠j }

xj

= (1.12)

e, per la variazione delle sinapsi ,

LTM - ON_Center / OFF_Surround :

dw ij

dt = αx j(x i- w i j) {s o l o pe r i l neur one v inc ent e } (1 .1 3 )

elemento della classe

rappresentante della classe

CONNESSIONIECCITATORIE

CONNESSIONIECCITATORIE

Strato di input

Pattern diinput

+

- -- -

x

Si

i

j+φ (x )−φ (x )j

Rete ad apprendimento competitivo ONc/OFFs

Strato di input

Strati adapprendimentocompetitivo

Figura 1.3 Possibile architettura di reti ad apprendimento competitivo

Gli algoritmi connessionisti e la simulazione dell'apprendimento

20

Finestra 1.1 - I sistemi ad apprendimento competitivo

Un sistema ad apprendimento competitivo è caratterizzato, in generale, dalle seguentiproprietà :

a) I neuroni dello strato nel quale avviene la competizione sono raggruppati in diversiaggregati cellulari. In ciascuno di tali aggregati esiste una rete connettiva (feedbacklaterale) che unisce la totalità dei neuroni di quell'aggregato. Le connessioni sonoeccitatorie tra neuroni vicini e inibitorie tra neuroni distanti. Ogni aggregato ha un soloneurone attivo alla volta, il vincente.

b) Tutti i neuroni dello strato competitivo ricevono lo stesso segnale dallo strato diinput.

c) La variazione sinaptica avviene soltanto sui neuroni attivi.d) Tale variazione fa in modo che il vettore wi relativo al neurone attivo tenda ad

avvicinarsi, con velocità data dal fattore di guadagno α, al vettore di input x.

I risultati che si ottengono sono caratterizzati dalle seguenti proprietà :

a) Se l'insieme degli stimoli possiede una qualsiasi struttura, e quindi se esistono deiraggruppamenti, il sistema li individuerà. E' naturalmente importante che taliraggruppamenti siano riconoscibili dalle grandezze utilizzate per la descrizione dellostimolo.

b) La particolare classificazione ottenuta sarà dipendente da una serie di condizioniiniziali : i valori di partenza delle sinapsi - generalmente casuali - e la particolare“storia” della presentazione degli stimoli.

c) Se la variazione delle sinapsi è tale da rendere minima la potenza r-sima dell'erroreE di ricostruzione

E = x - wc∫r p(x) dx

dove dx è il volume differenziale nello spazio degli degli ingressi, p(x) è ladistibuzione di densità di probabilità degli ingressi e l'indice c=c(x) è relativo al neuronebest match per l'ingresso x, allora si dimostra [Max,1960] che si ottiene una disposizionedei vettori di codifica w nello spazio dei segnali la cui funzione di densità puntuale è

una approssimazione di [p(x)]n/(n+r), dove n è la dimensione degli spazi di x e w. Nelcaso più frequente abbiamo r=2 e n>>r, ottenendo una approssimazione quasi ottimadella p(x).

d) Più l'insieme degli stimoli è strutturato e più la classificazione sarà stabile. Seinvece tali stimoli non sono rappresentabili in gruppi allora il sistema , ad ognipresentazione di uno stimolo, continuerà a subire variazioni.

Quest'ultimo punto ha richiesto che venisse risolto, in un modo o nell'altro, e spesso consoluzioni di compromesso, il dilemma della scelta tra stabilità-rigidità e instabilità-plasticità (vedi Appendice A1).

Gli algoritmi connessionisti e la simulazione dell'apprendimento

21

1.6 Altre classificazioni dei modelli di apprendimento

Modelli real-time e modelli lab-time.

Il tipo di controllo sull'evoluzione della rete e sulle dinamiche di

trasformazione (la legge di iterazione) da essa seguìte permette di individuare

due tipi di modelli : quelli a flusso continuo e controllo interno e quelli a flusso

selezionato e controllo esterno.

Nei primi non c'è una differenza qualitativa, o meglio, algoritmica, tra la

fase di apprendimento e quella di riconoscimento : la dinamica di variazione

sinaptica ha sempre la stessa equazione, che non viene alterata da un controllore

esterno nella fase di riconoscimento. Essa può essere modulata, semmai, da

una funzione α(t) decrescente nel tempo. Inoltre, non esistono controlli esterni

sul flusso di informazione: tutte le grandezze in gioco sono reperibili

localmente, o sono, perlomeno, interne. Tali modelli sono anche detti real-time.

Nei secondi, invece, è necessario un controllo esterno che, per esempio,

interrompa, ad apprendimento concluso, la dinamica delle sinapsi , oppure,

come succede nei modelli che adottano la Delta Rule, diriga il flusso di

informazioni che riporta gli errori di rappresentazione dallo strato di uscita a

quelli sottostanti (“back-propagation”) per la modificazione delle sinapsi: sono

perciò detti lab-time .

E' evidente la maggior potenza descrittiva del fenomeno biologico per i

modelli real-time: il concetto di plasticità neuronale vede una sua traduzione in

termini formali senz'altro più rispondente all'esempio biologico. La capacità di

apprendere di un sistema di tale tipo è, in alcuni modelli (Adaptive Resonance

Theory - ART) [Carpenter & Grossberg, 1987, 1988], addirittura regolata da

meccanismi di vigilanza di tipo attentivo: qualora, ad apprendimento avviato, si

presentasse uno stimolo mai visto, allora il suo contenuto di novità farebbe

attivare una modificazione sinaptica più significativa*.

Quattro paradigmi di apprendimento

Un'altra utile classificazione [Rumelhart & Zipser,1986] dei modelli in

base al tipo di apprendimento è basata sulla individuazione dei seguenti quattro

paradigmi :

* Se ne parlerà più diffusamente nell’ Appendice A1

Gli algoritmi connessionisti e la simulazione dell'apprendimento

22

Autoassociazione . In tali modelli l'addestramento della rete avviene

presentando ripetutamente una serie di patterns , che saranno memorizzati dal

sistema con un processo di autoassociazione. Ciò permetterà il recupero dei

patterns originali, rievocati nella rete con la presentazione, nella fase di

riconoscimento, di un pattern simile a quelli già visti o di un pattern originale,

presentato in forma frammentaria.

Eteroassociazione . Nella fase di apprendimento i patterns vengono

presentati sempre a coppie. Il sistema apprende quindi ad associare i due

patterns in modo tale che, alla presentazione dell'uno viene prodotto l'altro. E'

quindi possibile associare due set arbitrari di patterns. E' palese che tali modelli

siano una variante della classe precedente.

Paradigma di classificazione . Una variante più specifica del precedente, e

quindi anche del primo, permette di assegnare ai patterns di ingresso una

categoria : il pattern, che rappresenta la categoria assegnata dall'addestratore,

verrà associato, con un processo di eteroassociazione, al pattern in ingresso. Il

risultato di tale processo, differente da quelli conseguiti con eteroassociazione

ordinaria, è quello di ottenere una corretta classificazione degli stimoli in

categorie.

Rivelazione di regolarità . In quest'ultima classe, che si differenzia

notevolmente dalle precedenti, è il sistema stesso che, rivelando le caratteristiche

“più importanti” di una popolazione di stimoli, presentati ripetutamente, li

raggruppa in categorie. Esse quindi non sono fissate a priori dall'addestratore

ma vengono ricavate direttamente dall'esperienza sensoria.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

23

Appendice A1:

Il problema della stabilità-plasticità

Un sistema percettivo ideale dovrebbe essere in grado di adattarsi in modo

autonomo alle possibili, impreviste variazioni dell'ambiente informativo nel quale esso

sta evolvendo. Dovrebbe, inoltre, saper modulare la propria adattività in base alla

maggiore o minore rilevanza degli stimoli che riceve, facendo in modo di preservare

dalla distruzione le tracce di quanto già appreso senza però rinunciare alla plasticità.

I modelli ad auto-organizzazione e ad apprendimento competitivo hanno dimostrato

di avere caratteristiche di plasticità assai interessanti, ma un problema che nasce proprio

a causa della natura competitiva di tali sistemi di apprendimento, e che non è esclusivo

di essi, è quello della instabilità dei termini sinaptici. Succede infatti che la rete si

sensibilzza sempre sugli ultimi stimoli ricevuti a discapito dei precedenti (una evidenza

della necessità fisiologica del meccanismo di “rimozione” ?), spostando, di

conseguenza, ogni volta i valori dei termini LTM wij. Ciò comporta, per l'appunto, una

instabilità della memoria-rappresentazione : si possono avere delle risposte assai

differenti per lo stesso stimolo se questo viene ripresentato dopo che ne sono stati visti

altri .

Le tecniche per ovviare a tale instabilità sono differenti e più o meno drastiche :

una consiste nell'utilizzare per l'apprendimento solo delle classi stabili di stimoli, ma

tale limitazione è accettabile solo in un numero limitato di problemi. Un' altra invece è

basata su un guadagno plastico di apprendimento che diminuisce nel tempo, o addirittura

si annulla. Ciò, però, impedisce che nuovi stimoli possano essere codificati ad

apprendimento avviato : si perde la plasticità ed il sistema diviene rigido. Una terza

tecnica compensa la instabilità utilizzando un rate di apprendimento talmente lento da

rendere il sistema poco sensibile a fluttuazioni casuali e dipendente, nella

memorizzazione dei patterns, dalla frequenza con la quale questi si presentano : viene

ricordato meglio ciò che si vede più spesso, viene rimosso ciò che non si ripresenta più

e che ha perso la sua importanza informativa e, quindi, vitale . Il sistema sviluppa

meccanismi di tipo gerarchico, ma è necessariamente lento. Naturalmente queste

tecniche possono essere combinate in differenti modi.

Un trattamento della stabilità-plasticità più originale è quello adottato nella già

citata ART (Adaptive Resonance Theory) di S. Grossberg. In ART, che funziona

anch'essa con dinamiche di tipo competitivo, la fase di apprendimento è continuamente

attiva e dipendente, come già si è detto, da un controllo di tipo attentivo : viene così

salvata la plasticità della rete. Avranno degli effetti sulla modifica delle sinapsi solo

quegli stimoli che risultano nuovi per la memoria. Tale controllo è ottenuto associando

Gli algoritmi connessionisti e la simulazione dell'apprendimento

24

al flusso Bottom-Up di apprendimento competitivo (che traduce lo stimolo in

rappresentazione interna), comune anche agli altri tipi di reti, un flusso di tipo Top-Down

per il quale la rappresentazione interna, riconvertita , viene riportata allo stato di

ingresso per simulare un “processo di aspettazione”. Se lo stimolo è noto la sua

aspettazione lo riproduce. Ciò dovrebbe preservare dalla cancellazione gli stimoli già

appresi, e permetterne, invece, la memorizzazione di nuovi.

Un meccanismo basato sul confronto dell'informazione sensoriale con una sua

immagine d'aspettazione è noto, nel linguaggio della Psicologia della Gestalt, come

“inferenza inconscia” [Rock & Palmer,1991]. Anche dagli studi di Helmholtz sulla

percezione visiva [Helmholtz, 1866] e musicale [Helmholtz,1885] traspare la necessità di

un fenomeno di risonanza nel processo percettivo : noi percepiamo, in parte, ciò che ci

aspettiamo di percepire e che ci deriva dall'esperienza.

cooperazionecompetizione

cooperazionecompetizione

ApprendimentoBottom-Up

(Aspettazione)ApprendimentoBottom-Down

Inputs

Sono noti gli studi sulla percezione visiva compiuti da Kanizsa [Kanizsa,1976] dai

quali risulta che certe combinazioni di figure incomplete danno luogo a contorni

chiaramente visibili anche quando questi ultimi non esistono fisicamente : tali contorni

sono quindi una creazione della nostra percezione, che inferisce l'esistenza di contorni

virtuali, e cioè non presenti nella modalità sensoriale visiva.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

25

Formazione di contorni e superfici anomale [Kanizsa,1976]

La ragione di ciò non è del tutto chiara, anche se palesa una tendenza del sistema

percettivo al completamento amodale di immagini incomplete. Ma chiedersi cosa

significhi, dal punto di vista percettivo, completo e quale configurazione visiva possa

definirsi incompleta è ben altro problema. Potrebbe essere il risultato stesso del

meccanismo di categorizzazione, ma è solo un'ipotesi, e questa inclinazione spontanea

alla estrazione di regolarità e al dare forma all'informe ricorda, forse, il modo di

Cezanne di rappresentare la natura, “come fosse composta da coni, cilindri e sfere”.

Un aspetto del concetto di organizzazione secondo la Gestalt è legato al principio

della pregnanza, il quale stabilisce che, in presenza di stimoli ambigui, la percezione

sarà tanto semplice, regolare e simmetrica quanto lo permetteranno le informazioni

raccolte dalla retina. Il concetto di regolarità e, analogamente, di completezza sono stati

associati alla quantità di informazione contenuta nella percezione : le percezioni

"buone" e regolari contengono poca informazione, quelle "cattive" ne contengono molta.

Torna così di nuovo in gioco il meccanismo della categorizzazione come eliminazione

della ridondanza.

Quello che si verifica, quindi, in ART è un fenomeno di risonanza adattiva nelle

oscillazioni Bottom-Up e Top-Down che, instaurando un meccanismo di rivelazione di

coerenza dello stimolo con le categorie preformate, darà luogo all' apprendimento.

Nella ricerca sulle reti neuronali lo studio sulle memorie associative ha sempre

avuto un ruolo di primaria importanza. Le affinità tra i due campi sono molte, e c'è chi

ritiene che ogni rete neuronale sia, in sostanza, una memoria associativa. Non è sempre

vero, però, il viceversa.

Gli algoritmi connessionisti e la simulazione dell'apprendimento

26

Bibliografia del Capitolo 1

Amari, S. & Takeuchi, A. (1978). Mathematical theory on formation of categorydetecting in nerve cells. Biological Cybernetics , 29, 127-136

Bottini, S. (1980) . An algebraic model of an associative noise-like coding memory.Biological Cybernetics , 36, 221-228

Bottini, S. (1984) . Un modello di memoria associativa. Le Scienze - Quaderni , 19, 41-46

Carpenter , G. & Grossberg, S. (1987). ART 2 : Self -organization of stable categoryrecognition codes for analog input patterns. Applied Optics, 26 , 4919-4930

Carpenter , G. & Grossberg, S. (1988). The ART of adaptive pattern recognition by a self-organizing neural network. Computer , Marzo 1988, 77-88

Carpenter, G. (1989). Neural network models for pattern recognition and associativememory. Neural Networks , 2 , 243-257

Changeux, J.P. (1983). L' homme neuronal. Paris : Librairie Artheme Fayard (trad. it.L'uomo neuronale. Milano : Feltrinelli, 1990)

Cooper, L. et al. (1982). A theory for the developement of neuron selectivity : orientationspecificity and binocular interaction in the visual cortex. Journal of Neuroscience , 2, 32-48

Edelman, G. (1989). The remembered present : a biological theory of consciousness. NewYork: Basic Books (trad. it. Il presente ricordato, Milano : Rizzoli, 1991)

Fukushima, K. (1975). Cognitron : A self-organizing multilayered neural network.Biological Cybernetics , 20, 121-136

Grossberg, S. (1968). Some nonlinear networks capable of learning a spatial pattern ofarbitrary complexity. Proceedings of the National Accademy of Sciences USA, 59,368-372

Grossberg, S. (1976). Adaptive pattern classification and universal recoding, I part :Parallel development and coding of neural feature detectors. Biological Cybernetics ,23, 121-134

Grossberg, S. (1988). Nonlinear neural networks : Principles, mechanisms, andarchitectures. Neural Networks , 1 , 17-61

Hebb, D.O. (1949). The organization of behavior. New York : Wiley (trad. it.L'organizzazione del comportamento, Milano: Ed. F. Angeli, 1975)

Helmholtz, H. von (1885). On the Sensations of Tone as physiological basis for thetheory of music. London : Longmans,Green, and Co.

Helmholtz, H. von (1866). Treatise on physiological optics. New York : Dover, 1962.Hodgkin, A.L. & Huxley, A.F. (1952). A quantitative description of membrane current

and its application to conduction and excitation in nerve. Journal of Physiology, 117,500-544

Kandel, E.R. & Schwartz, J.H. (1985) . Principles of neural sciences, Elsevier SciencePublishing Co., Inc., New York (trad. ital. Principi di neuroscienze, Casa EditriceAmbrosiana, 1988 Milano)

Kanizsa, G. (1976) . Contorni soggettivi. Le Scienze , 96 , 30-36Kelso, S. et al. (1986). Hebbian synapses in hippocampus. Proc. Natl. Acad. Sci. USA ,

83 , 5326-5330Kohonen, T. (1972) . Correlation Matrix Memories. IEEE Transactions on Computers ,

C-21, 353-359Kohonen, T. (1984). Self -organization and associative memory. Berlin : Springer-VerlagKohonen, T. (1988). An introduction to neural computing. Neural Networks, 1 , 3-16Malsburg (von der), C. (1973). Self -organization of orientation sensitive cells in the

striate cortex. Kybernetik , 14, 85-100Max, J. (1960). Quantizing for minimum distortion. IRE Trans. Inform. Theory, IT-6, 2, 7-

12McCulloch, W.S. & Pitts, W. (1943). A logical calculus of the ideas immanent in

nervous activity. Bullettin of Mathematical Biophysics , 9 , 127-147Minsky, M. & Papert, S. (1969). Perceptron. Cambridge , MA : MIT PressNakano, N. (1972). Associatron : A model of associative memory. IEEE Transactions on

Systems,Man, and Cybernetics , SMC-2, 381-388Rock, I. & Palmer, S. (1991). L'eredità della psicologia della Gestalt. Le Scienze, 270 ,

60-66

Gli algoritmi connessionisti e la simulazione dell'apprendimento

27

Rosenblatt, F. (1958). The perceptron : A probabilistic model for information storage andorganization in the brain. Psychological Review , 65 , 386-408

Rosenfield, I. (1988). The invention of memory. New York: Basic Books (trad. it.L'invenzione della memoria, Milano : Rizzoli,1989)

Rumelhart, D. et al. (1986). Learning representations by back-propagating errors. Nature,323, 833-836

Rumelhart, D. & Zipser,D. (1986). Feature discovery by competitive learning.pubblicato in Parallel Distributed Processing : Explorations in the microstructure ofcognition, I , 152-193

Singer, W. (1986). Sviluppo cerebrale e ambiente. Le Scienze - Quaderni, 31, 58-70Steinbuch, K. (1961). Die Lernmatrix. Kybernetik , 1, 36-45Widrow, B. & Hoff, M.E. (1960). Adaptive switching circuits.1960 IRE WESCON

Convention Record , Part 4 , 96-104Widrow, B. et al. (1988). Layered neural nets for pattern recognition. IEEE Transactions

on acoustics,speech, and signal processing, ASSP- 36,7,1109-1118

Gli algoritmi connessionisti e la simulazione dell'apprendimento

28

2. Una applicazione di interesse fisiologico

2.1 Le mappe autoorganizzanti (SOM) di Kohonen a conservazionedi topologia

Una codifica appropriata del segnale sensorio, in base alle sue

caratteristiche più rilevanti, è certamente un presupposto fondamentale nei

problemi di riconoscimento delle forme e di elaborazione dei segnali. Si ha

spesso la necessità di rappresentare tali segnali, descritti all’origine in uno

spazio parametrico multidimensionale, in uno spazio di dimensionalità

inferiore, mantenendone però invariate le relazioni di correlazione. Si richiede,

in pratica, una operazione di riduzione di dimensionalità che conservi al meglio,

nello spazio immagine, la topologia dello spazio di partenza. Qualcosa di simile

avviene nella corteccia cerebrale, dove l'organizzazione dei neuroni è, con buona

approssimazione, bidimensionale e gli oggetti rappresentati sono descritti da

ben più di due variabili. Sono stati sviluppati diversi algoritmi in grado di

riprodurre* tale comportamento peculiare della corteccia.

Uno in particolare ha permesso di ottenere risultati interessanti, pur avendo

una struttura particolarmente semplice e, forse per questo, assai elegante. Esso è

dovuto a Teuvo Kohonen (Helsinki University of Technology, Laboratory of

Computer and Information Science) ed è noto con il nome di Self Organizing

Maps, o SOM ; esso nasce, nel 1981, inserendosi in una linea di ricerca sui

modelli ad apprendimento competitivo avviatasi con i lavori di Malsburg

[Malsburg,1973], di Amari e Takeuchi [Amari & Takeuchi,1978] [Takeuchi &

Amari , 1979]. Prima di tutto in esso si adotta uno schema ad apprendimento

non supervisionato, che lo rende indipendente dalle istruzioni di un eventuale

addestratore con un set di esempi preparati. Solo quando la rete di neuroni è già

stata addestrata, qualora sia richiesta una definizione più netta delle categorie

formate, si ricorre, in genere, ad un algoritmo di tipo supervisionato (Learning

Vector Quantization, LVQ).

Un'altra caratteristica peculiare, forse la più rilevante, è nella concezione

della rete interconnettiva tra i neuroni intrastrato, cioè nella definizione della

funzione che descrive il tipo di interazione tra i vari neuroni della rete:

l'efficienza di interconnessione è completamente indipendente dalla posizione

assoluta (le coordinate i,j) dei neuroni, mentre dipende fortemente dalla distanza

* Si noti che non sempre, anzi piuttosto raramente, la riproduzione di alcuni aspetti delle funzioni corticalielementari è ottenuta con metodi che simulano anche la struttura stessa della corteccia.

Una applicazione di interesse fisiologico

29

Finestra 2.1 - L' ispirazione neurofisiologica delle SOM

La capacità del cervello di rappresentare economicamente il mondo esterno per

mezzo di processi di eliminazione della ridondanza informativa e di astrazioni

successive è forse alla base del suo buon funzionamento. E' inoltre documentata

sperimentalmente l'organizzazione topografica di alcune aree sensoriali primarie, dedotta

dallo studio di alcune patologie funzionali caratteristiche provocate da danni localizzati

in zone precise della corteccia. La ricerca neurofisiologica, poi, sfruttando tecniche di

visualizzazione sempre più raffinate e non invasive (Tomografia ad Emissione di

Positroni, MagnetoEncefaloGrafia , ecc.), fornisce esempi sempre più chiari del

verificarsi della formazione di mappe topografiche, specialmente negli animali superiori

[Knudsen et al.,1987] : nella corteccia visiva (area V4) si formano raggruppamenti

cellulari a mappe e strie (microstrutture colonnari di non più di 5 mm di diametro) che

rispondono a particolari colori, organizzati per frequenza e saturazione [Zeki,1980], a

particolari orientamenti (nell' area V1) [Ts'o et al., 1990], o a patterns più complessi,

come ad esempio volti umani, [Damasio et al.,1982], [Rolls,1984]; nella corteccia uditiva

è stata osservata una precisa organizzazione tonotopica, quasi logaritmica con la

frequenza, dei campi recettivi [Oldfield,1988], o una rappresentazione ordinata dei ritardi

nell'eco e degli spostamenti Doppler nella corteccia uditiva del pipistrello [Suga &

O'Neill,1979]; nell'ippocampo è stata osservata una forma di rappresentazione dello

spazio ambientale più o meno come una carta geografica [Olton,1977], anche se in studi

più recenti [Eichenbaum & Cohen,1988] è stata rilevata, sempre nell'ippocampo, una

corrispondenza non biunivoca tra l'informazione spaziale e la sua rappresentazione

interna, in virtù di una multimodalità di codifica dei neuroni ippocampali; nella corteccia

somato-sensoria esiste una rappresentazione recettoriale dell'intero corpo organizzata

spazialmente [Kaas,1979], ed è inoltre stata osservata una capacità riorganizzativa in

seguito a lesioni che rende, quindi, la struttura topografica di tali mappe somato-sensorie

una conquista della plasticità, e non una semplice eredità genetica [Merzenich et al.,

1983].

Questa organizzazione topografico-localizzata è riscontrabile solo nelle mappe

sensoriali primarie, anche se esistono studi che dimostrerebbero l'organizzazione di

alcune regioni dei centri del linguaggio in base al contenuto semantico delle parole

[Petersen et al., 1988] ed altri che evidenzierebbero la rappresentazione spaziale di

grafemi e relazioni ortografiche [Caramazza & Hillis, 1990]. Gli strati della corteccia

che svolgono funzioni associative più elevate, come, per esempio, la corteccia

entorinale (dove vengono svolte le funzioni di associazione tra i vari segnali sensori),

non mostrano, infatti, una organizzazione spaziale evidente.

Una applicazione di interesse fisiologico

30

tra di essi sulla corteccia simulata, e la distribuzione dei “feedback” laterali

all'interno della corteccia dovrebbe, in prima approssimazione, essere la stessa

intorno ad ogni neurone. Questa modifica permette di ottenere una rete ordinata

spazialmente, che, nella costruzione di una rappresentazione degli stimoli,

conservi, sulla corteccia, la topologia dello spazio nel quale tali stimoli sono

descritti : stimoli simili attivano zone della corteccia adiacenti.

Infine, nelle equazioni differenziali non lineari di attivazione e di

apprendimento sono contenute delle semplici, ma importanti, modifiche che

contribuiscono a stabilizzare il processo di apprendimento.

2.2 La dinamica spazio-temporale delle S.O.M.

L'interazione laterale e le connessioni tempo-invarianti

I primi modelli ad apprendimento competitivo, che adottavano un

algoritmo di interazione laterale del tipo ON-CENTER/OFF-SURROUND

espresso dalle (1.12) e (1.13)*, mostravano già una capacità auto-organizzativa.

Nell'equazione di apprendimento il termine di guadagno plastico α può avere un

andamento temporalmente decrescente e sempre limitato da 0<α(t)<1. La

scelta del “neurone vincente” può essere fatta in base a criteri di similitudine,

che generalmente si riducono alla misura di una distanza d(x,wi) : il vincente è

il neurone per il quale

d(x,wc) = mini{d(x,wi)}

In un modello come quello appena descritto si verifica il fatto, però, che

tutte le cellule agiscono indipendentemente, non essendoci una vera e propria

interazione spaziale tra i neuroni. L'ordine con il quale essi sono assegnati a

dominii differenti dello spazio dei segnali di ingresso è più o meno casuale, e

fortemente dipendente dai valori iniziali wi(0) delle sinapsi. Il fenomeno di

ordinamento osservato è locale.

* STM - Competitive :

x j = 1 se w ijxi ≥ Max w jkxk :k ≠ jk

i

∑ ; x j = 0 se w ijx i < Max w jk xk :k ≠ jk

i

∑e, per la variazione delle sinapsi,

LTM - ON_Center / OFF_Surround : dw ij

dt= α x j (x i − w ij ) (solo per il neurone vincente)

Una applicazione di interesse fisiologico

31

L'introduzione di un più forte carattere auto-organizzante, massimizzato

nella prima fase dell'addestramento in modo da indirizzare la rete ad un

ordinamento prima della formazione di una qualsiasi mappa stabile, venne

adottato nelle prime versioni delle SOM di Kohonen (1981). L'ordinamento

finale della mappa perde così il carattere locale per assumerne uno globale, a

lungo raggio* .

Nel modello di Kohonen, infatti, l'utilizzo di una particolare funzione di

feedback laterale, coinvolgente i neuroni di tutta la corteccia, permette un

ordinamento coerente a largo raggio : questa funzione di interazione (Figura

2.1), nota con il nome di “Mexican Hat”, si ritrova nello studio di molti sistemi

sensorii biologici come, per esempio, quelli attinenti alla percezione visiva. La

sua funzione è fondamentale nei processi di esaltazione di contrasto. Una sua

applicazione caratteristica è, come filtro numerico, nelle tecniche di trattamento

delle immagini [Smith et al.,1988].

E' nota una versione analitica dell’interazione laterale, dovuta a D.Marr

(famoso per le sue ricerche sulla visione umana) e E.Hildreth [Marr &

Hildreth,1980], nella quale si ottiene il kernel del filtro dal Laplaciano di un

filtro Gaussiano. L'assunto principale di tale scelta è che il contorno di una

immagine G(x,y) dovrebbe essere associato a zone con massimo gradiente in

intensità. Se i punti di massima e minima pendenza si trovano in

corrispondenza dei punti di flesso, dove si annulla la derivata seconda della

funzione, essi potranno essere in corrispondenza dei punti di annullamento del

Laplaciano Λ della funzione G(x,y)

′ ′ G (x,y) = ΛG(x,y) =∂2G

∂x2 +∂2G

∂y2 = 0 (2.1)

Nel caso, appunto, del Laplaciano di una Gaussiana Marr e Hildreth

ottennero una funzione di interazione laterale del tipo

F(x,y) =1-(x 2 + y2)

2s2

exp − (x2 + y2)

2s2

(2.2)

* La maggior parte delle reti neuronali biologiche ha una organizzazione di tipo bidimensionale, in “fogli”. Inciascuno di essi esiste una rete interconnettiva laterale che collega densamente le singole cellule - si stimache ogni neurone sia collegato sinapticamente con altri 103÷104 neuroni dello stesso strato e che altrettantesiano le connessioni interstrato. Si è già vista l'importanza dell'informazione spaziale nei modelli adapprendimento competitivo : essa, però, rimane latente, e, forse, inefficiente, in algoritmi semplificati comequello ON-CENTER / OFF-SURROUND.

Una applicazione di interesse fisiologico

32

Essi sostennero, inoltre, che tali filtri dovevano estendersi in modo tale da

ricoprire l'intero “range” di gradazioni e frequenze spaziali dell'immagine da

filtrare, come avviene nel sistema visivo.

0

0,2

0,4

0,6

0,8

1

-0,2

0

0,2

0,4

0,6

0,8

1

XY

-0,2

F(x,y)

spazio neurale

feedback laterale

Nella figura è riportato il grafico del nucleo del filtro di convoluzione utilizzato da Marr e Hildreth per risolvere i problemi di esaltazione del contrasto ed estrazione dei bordi nella visione artificiale (eq. 2.2). La stessa relazione è stata proposta da altri ricercatori nel campo delle neuroscienze come funzione di interazione laterale (con inibizione laterale) per spiegare il meccanismo dell'autoorganizzazione con conservazione di topologia che si osserva in molte strutture corticali. Secondo questa ipotesi due neuroni vicini sulla corteccia (che ha una struttura in prima approssimazione bidimensionale) sarebbero accoppiati sinapticamente in modo eccitatorio, mentre due neeuroni più lontani subirebbero una interazione di tipo inibitorio. L'intensità (in valore assoluto) dell'interazione diminuisce con la distanza. Tipi di interazione laterale di questa natura sono stati osservati sperimentalmente.

Figura 2.1 - Mexican Hat

Nelle SOM i termini di accoppiamento di interazione laterale non sono

adattivi, dipendendo dalla sola distanza, ma sono, per semplicità, costanti nel

tempo. Le sinapsi adattive wij, invece, sono quelle che accoppiano ogni

neurone della “corteccia” con gli assoni afferenti che portano il segnale

sensorio: si assume che tutti i neuroni appartenenti a questa corteccia ricevano

simultaneamente tale segnale, e che, cosa importante, tale segnale sia a valori

continui. Ogni neurone avrà quindi un numero di sinapsi adattive pari alla

dimensione del vettore che descrive lo stimolo sensorio. Una rappresentazione

unidimensionale è riportata nella Figura 2.2 :

Una applicazione di interesse fisiologico

33

Segnali X di inputSinapsi adattive w di inputi j

Sinapsi di

feedback

laterale Segnali Y di output

Figura 2.2

La funzione di attivazione Sij(t) del neurone i,j-simo terrà conto perciò sia

degli ingressi relativi al segnale sensorio, mediati dalle sinapsi adattive, che di

quelli dovuti alle attività degli altri neuroni del suo stesso strato, mediati questi

ultimi dalla funzione F(x,y) di feedback laterale

Sij (t) = φ ηij(t) +n =−k

n =+k

∑ F(n,m)Si +n,j +m(t −1)m =−K

m =+K

(2.3)

dove il primo termine ηij(t) rappresenta l'eccitazione sensoria di ingresso,

mentre il secondo tiene conto degli effetti di feedback : le sommatorie sono da

intendersi estese a tutta la rete. La funzione di attivazione φ è generalmente una

sigmoide, ed è importante dire che lo stesso Kohonen non pone particolari

vincoli nella scelta della funzione F(x,y) di feedback laterale. E’ sufficiente che

essa risponda a caratteristiche abbastanza generali, affinchè si ottenga il risultato

sperato : una parte centrale eccitatoria ed una periferica inibitoria.

Tale risultato, raggiunto con il ricalcolo ciclico delle attività Sij(t) dei

neuroni per mezzo della (2.3) per gli intervalli successivi alla formazione dell'

eccitazione di ingresso ηij(t) (che, per ora, si considera limitata al tempo t=0), è

appunto una progressiva organizzazione di tali attività Sij(t) in “bolle”, e cioè in

raggruppamenti di neuroni attivi intorno al più attivo di tutti (per quel

determinato stimolo xi(t) ).

Una applicazione di interesse fisiologico

34

"Bolla" di attività su un arraybidimensionale di neuroni

t=500

t=300

t=200

t=90

Formazione di una "bolla" di attivitàsu un array monodimensionale di neuroni

Nelle simulazioni riprodotte in figura è stata utilizzata una rete di neuroni, non ancora “organizzati”, ad attività iniziale casuale; si è quindi applicata ripetutamente la (2.3) per il ricalcolo ciclico delle attività - senza presentare alcuno stimolo -, e sono stati ottenuti i “clusters” mostrati. Quindi, tale fenomeno di “clusterizzazione” avviene anche se gli stimoli sono “noise like”, e cioè quelli relativi unicamente all'interazione laterale, senza l’intervento di uno stimolo strutturato. Nota:Una analogia interessante, anche se azzardata, è quella con gli esperimenti fatti sulla formazione di mappe e strie nella corteccia visiva : si è osservata, infatti, la formazione di strutture ordinate - in particolare, striate - nella disposizione delle cellule corticali rispondenti a stimoli visivi per l'occhio destro e per l'occhio sinistro [Constantine-Paton & Law, 1983]. Un fenomeno interessante si verifica quando viene indotta una deprivazione monoculare : un occhio riceverà segnale “noise like” mentre l'altro riceverà stimoli visivi ordinari e correlati. In questo caso non si osserva più, sulla corteccia, la formazione di strie, a causa di meccanismi di tipo competitivo. Se, invece, la deprivazione è binoculare allora torna a formarsi la struttura striata, con due sorgenti “noise like“.

Figura 2.3

La dimensione di tali bolle è in qualche modo legata al rapporto E/I tra la

parte eccitatoria e quella inibitoria della F(x,y), e, più precisamente, le bolle

avranno il raggio tanto minore quanto maggiore sarà il contributo inibitorio. Il

verificarsi del meccanismo di “clusterizzazione” è dipendente dalla scelta di

alcuni parametri, quali appunto il rapporto E/I, la larghezza della F(x,y) e la sua

forma : essi sono pertanto da determinarsi empiricamente.

Un’osservazione importante è che si può ottenere una prima

organizzazione delle attività neuronali semplicemente utilizzando la sola

equazione di attivazione, riapplicata ciclicamente: non si è ancora parlato, infatti,

di una particolare equazione di apprendimento per le sinapsi adattive.

Il requisito fondamentale di tale equazione deve essere quello di portare i

vettori w sinaptici N-dimensionali a riprodurre, ordinatamente e in modo

Una applicazione di interesse fisiologico

35

ottimale, l'insieme dei vettori di stimolo. La distanza d(x,wi) deve decrescere

monotonamente, e la variazione δwi deve essere tale da verificare

[ gradwi d(x,wi) ]T • δwi < 0 (2.4)

Inoltre, nel processo di apprendimento, la fase della variazione delle sinapsi

dovrebbe avere una costante di tempo sensibilmente maggiore di quella della

elaborazione delle attività neuronali : come si è detto, nei circuiti biologici il

verificarsi dell'attivazione ha tempi caratteristici dell'ordine della decina di

millisecondi, mentre le variazioni proteiche e strutturali, nell'apprendimento,

hanno tipicamente tempi dell'ordine di qualche settimana. Ciò si traduce, per la

legge di iterazione del modello, nella necessità di due fasi : la prima, di

convoluzione spaziale delle attività neuronali, con la quale - per mezzo della

(2.3) - si produce una prima organizzazione nella rete. Dopo aver atteso la

convergenza della prima fase si avvia la seconda, più lenta, nella quale, per

mezzo di una equazione di apprendimento, si modificano i valori delle sinapsi

adattive. Nel prossimo paragrafo sarà descritta l'equazione di apprendimento

usata, tenendo presente che è solo una delle possibili.

Le connessioni tempo-varianti

L'equazione di apprendimento LTM utilizzata da Kohonen nelle SOM

[Kohonen,1984] appartiene alla classe generica del tipo

dw/dt ≡ w' = Φ(x;w;S)x - Θ(x;w;S)w (2.5)

x = stimolo = (x1 ,,, xn )T

S = risposta = wTx

w = sinapsi = (w1 ,,, wn )T

dove Φ e Θ sono funzioni scalari, eventualmente non lineari, dello stimolo x,

della risposta S e dello stato stesso della sinapsi w. Sostanzialmente le

variazioni sinaptiche avverranno soltanto nella direzione di x, w o una loro

combinazione lineare. La (2.5), per una scelta opportuna della funzione Φ ed

eliminando il termine di smemorizzazione Θ(•)w, riproduce la forma generale

della legge di Hebb vista precedentemente. Partendo, poi, dal fatto che abbiamo

definito l'attività neuronale S dipendente dal prodotto wTx, si possono

considerare le funzioni Φ e Θ proprio come Φ =Φ(S) e Θ=Θ(S), e si può

Una applicazione di interesse fisiologico

36

ritenere che le variazioni sinaptiche siano proporzionali a tali funzioni

dell'attività. Il requisito principale per una legge che descrive un sistema fisico è

che ne garantisca la stabilità, e cioè che per x(t) limitati rimanga finita la

soluzione w(t), per ogni t. Si deve, inoltre, considerare non significativa la

situazione per la quale w(t) → 0 per t→∞.

Esistono diverse possibili soluzioni del tipo (2.4) [Kohonen,1984 (cap.4)].

In questa sede ci si limiterà ad una discussione, per sommi capi, della

particolare soluzione adottata nel modello studiato :

dw/dt ≡ w' = α S x - β S w = (2.6)

= α xxTw - βwwTx α, β> 0

( n.b. : il prodotto wwT è una matrice n x n )

Se chiamiamo X il valore aspettato di x condizionato da w, e cioè

E { x | w } = X

e Cxx l'elemento della matrice di correlazione di x, ottenuto da

E { xxT | w } = Cxx

allora otteniamo una espressione della (2.5) come equazione differenziale di

Bernoulli di secondo grado

<w'> = α Cxxw - β(XTw)w (2.7)

Come si vede, una possibile soluzione stazionaria di <w'>=0 è quella che si

ottiene per w* = 0. Si dimostra anche che un qualsiasi autovettore della matrice

di correlazione Cxx rappresenta un punto fisso del sistema : se ci è un

autovettore con autovalore λi, allora l'eventuale soluzione sarà w*= kci, con k

costante scalare. Infatti

Cxx ci = λici

0 = k α λ ici - k2β(XTw)ci

k =αλ i

β(X Tw)

e quindi

w* =ci αλ i

β(XTw) (2.8)

Si dimostra pure [Kohonen,1984 (cap. 4)], però, che non tutti i punti fissi

rappresentano soluzioni stabili ; comunque, la “traiettoria” w(t) sarà rallentata

Una applicazione di interesse fisiologico

37

in corrispondenza di un punto fisso e, se il prodotto scalare tra l'autovettore

cmax associato all'autovalore massimo e il vettore w si mantiene positivo per

ogni t, si dimostra che la soluzione tenderà a convergere verso l'autovettore di

Cxx avente il massimo autovalore. In questo modello, infine, esiste la

probabilità non nulla che w(t) converga a zero anche per ingressi non nulli*.

A partire dalla (2.6), espressa nella sua forma più generale, vengono

introdotte delle varianti che, nel prossimo paragrafo, permetteranno di realizzare

un algoritmo semplificato.

2.3 Semplificazione e implementazione dell’algoritmo

L'equazione di attivazione STM (2.3) tende, come si è visto, a stabilizzare

l'attività Sj del neurone ad un valore “alto” o “basso”, in funzione della propria

eccitazione al segnale sensorio e dell' attività dei neuroni adiacenti. In pratica si

verifica che, una volta assegnati i valori iniziali (generalmente casuali) delle

connessioni sinaptiche, i neuroni che formeranno la bolla ad attività alta sono

quelli che - insieme con i vicini in un intorno di dimensioni determinate dalla

forma della F(x,y) di feedback laterale - hanno, al momento dell'arrivo dello

stimolo, una attività di gruppo massima. Ciò permette di fare delle

semplificazioni : senza attendere la formazione della bolla per effetto di

convoluzione spaziale delle attività neuronali di tutta la rete (cosa

computazionalente dispendiosa) si può imporre che questa si formi intorno al

neurone che, da solo, ha attività iniziale massima. Una ulteriore semplificazione

consiste nel considerare tale attività, che nell'equazione classica di McCulloch e

Pitts (1.2) è data sostanzialmente dal prodotto scalare tra il vettore sinaptico w e

il vettore di ingresso x, funzione di un criterio di similitudine nello spazio

vettoriale n-dimensionale. La scelta più semplice, ma non per questo riduttiva, è

quella della distanza euclidea, adottata in molti modelli ad apprendimento

* Da quanto si è detto si ricava la seguente proposizione:Se gli ingressi xi sono variabili stocastiche con proprietà statistiche stazionarie, allora i valori wi, in accordocon l'equazione (2.6), convergeranno a valori asintotici tali che il vettore w rappresenterà l'autovettore di Cxxassociato al maggior autovalore.Studi sullo stato stazionario del modello di Kohonen sono stati sviluppati da H. Ritter e K. Schulten, nei qualisi ottiene anche una espressione esplicita del fattore di ingrandimento locale della mappa (e cioè dellaproprietà della mappa di assegnare alla decodifica del segnale un numero di neuroni legato alla importanzastatistica di quest'ultimo) [Ritter & Schulten, 1986]. Sempre Ritter e Schulten ne hanno studiato le proprietàdi convergenza e le fluttuazioni dalla situazione di equilibrio, descrivendo il processo di apprendimento permezzo di una equivalente equazione di Fokker-Planck [Ritter & Schulten, 1988].

Una applicazione di interesse fisiologico

38

competitivo : con essa si può calcolare il “matching score” tra i due vettori

senza che essi debbano essere normalizzati. Il neurone che avrà quindi attività

iniziale massima sarà quello che misurerà distanza euclidea minima e, cioè, che

realizzerà, con il proprio vettore sinaptico w, il “best match” con il vettore di

ingresso x

|| x - wc || = min i || x - wi || (2.9)

Dopo aver individuato il neurone “best match”, si avvia, in un suo intorno

Nc, il processo di variazione delle sinapsi : la correlazione a largo raggio che si

osserva nelle SOM dipende proprio dalla scelta di tale intorno. I neuroni che

subiranno un adattamento delle sinapsi, alla presentazione di uno stimolo,

saranno quelli che misureranno una distanza (ora la distanza non è più nello

spazio parametrico N-dimensionale delle sinapsi, ma nello spazio fisico 2-

dimensionale della “corteccia”) dal neurone “best match” minore di un raggio

di interazione R(t), decrescente nel tempo. Avremo così un intorno Nc(t) la cui

dimensione iniziale dovrà essere tale da coinvolgere, nei primi processi, tutti i

neuroni della corteccia. Il suo andamento temporale può essere rappresentato da

una funzione lineare, esponenziale, etc. : la scelta, pure in questo caso, non è

estremamente vincolante. Eccone alcuni esempi

R(t) = max R0 +Rmin − R0( )t

T0 , R min

(2.10a)

R(t) = max R0−t

T0 , Rmin

(2.10b)

Il valore di T0 stabilisce una costante di tempo del processo di

clusterizzazione che verrà discussa tra breve. Il valore di Rmin stabilisce il

raggio minimo di interazione, in genere unitario o nullo, che si vuole mantenere

tra i neuroni nella fase asintotica dell'apprendimento. In alcune simulazioni,

discusse nel prossimo capitolo, è risultato importante mantenere un raggio

minimo di interazione non minore di due unità, allo scopo di garantire una certa

plasticità anche nella fase avviata del programma di apprendimento e permettere

alla rete di riassestarsi, qualora si verificassero mutazioni significative

nell'insieme di stimoli da apprendere. La scelta della forma geometrica

dell'intorno è, anche questa, abbastanza arbitraria e condizionata da fattori di

semplicità computazionale. Eccone alcune possibili

Una applicazione di interesse fisiologico

39

Esempi di intorni temporalmente decrescenti

Anche per l'equazione di apprendimento possono essere fatte delle

semplificazioni. Partendo dalla

dw/dt = α S x - β(S) w

possiamo, nel limite di saturazione per il quale l'attività S si stabilizza su valori

alti (dentro la bolla) o bassi (fuori dalla bolla), assegnare alla funzione non

lineare monotona β(S) degli analoghi valori di saturazione. Riscalando le

variabili x e w abbiamo la possibilità di definire S∈{0,1} e β(S)∈{0,α}, e

quindi di riscrivere l'equazione di apprendimento come

dw/dt = α (x - w) (2.11a)

se S = 1 e β = α (dentro la bolla )

dw/dt = 0 (2.11b)

se S = 0 e β = 0 (fuori dalla bolla )

Si è osservato, inoltre, che per avere buoni risultati nell'auto-

organizzazione, dobbiamo fare in modo che anche il guadagno plastico α sia

una funzione monotòna decrescente nel tempo, anche questa determinata sulla

base di prove empiriche. Unico vincolo, come gia si è detto, è che sia compresa

tra 0 e 1. Una scelta tra le più comuni è

α(t) = α0 (1 - t / T0) (2.12)α0 = 0.1 ÷ 0.9

Nel corso delle simulazioni si è visto che i migliori risultati si ottengono

con valori di α0 ≈ 0.1. Il valore T0, trovato anche nella (2.10) che descrive

l'andamento temporale del raggio R(t) di interazione, regola la durata della fase

di prima organizzazione della rete, durante la quale il raggio decrescerà dal

valore di massimo ricoprimento R0 al valore Rmin di interazione con i primi

Una applicazione di interesse fisiologico

40

vicini. Si è notato, sempre empiricamente, che migliori risultati si ottengono se,

una volta raggiunto il raggio minimo, si continua il programma di

apprendimento per un tempo T1 ≥ 10 T0. In questa seconda fase, nella quale

ogni gruppo di neuroni che risponde ad un certo stimolo si specializza, il

termine di guadagno plastico a viene mantenuto costante, o al più leggermente

decrescente nel tempo, intorno ad un valore che, nei casi studiati, è di

α ≈ 0.02 ÷ 0.06. Nel caso pratico, il termine temporale t (così come i termini T1

e T0 ) è, in realtà, un contatore di stimoli che misura la maturazione di una rete

in termini di esperienze : assume pertanto valori discreti. Risultati accettabili nel

processo di auto-organizzazione si ottengono se il programma di

apprendimento prevede complessivamente almeno qualche migliaio di stimoli

presentati alla rete (e cioè T1+T0 ≈103÷104) : ciò, però, dipende dalla

dimensione della rete stessa. Passando alle differenze finite si ottiene, così, la

forma ultima delle equazioni di apprendimento semplificate

|| x - wc || = min i || x - wi ||

wi(t+1) = wi(t) + α(t)[ x(t) - w(t) ] (2.13a)

per i ∈ Nc(t)

wi(t+1) = wi(t) (2.13b)

per i ∉ Nc(t)

Un’alternativa possibile al sistema appena visto prevede l'introduzione di

una funzione scalare Hci = Hci(t), che modula la variazione sinaptica del

neurone i-esimo, in funzione della distanza dal neurone c-esimo di “best

match”

wi(t+1) = wi(t) + Hci(t) [ x(t) - w(t) ] (2.14)

Una delle funzioni che possono descrivere la Hci(t) di modulazione del

guadagno può essere la

Hci (t) = H0 exp− ri − rc

2

s2(t)

(2.15)

che palesemente descrive una curva a “campana”, centrata in rc, la cui larghezza

è controllata dalla funzione s(t), decrescente nel tempo.

I risultati che si ottengono utilizzando l'algoritmo semplificato appena

descritto (Finestra 2.2), sia per la (2.14) che per la (2.15) (più onerosa dal punto

Una applicazione di interesse fisiologico

41

di vista computazionale), evidenziano le proprietà già note di questo modello: il

mapping a conservazione di topologia, la riduzione di dimensionalità e la

selezione delle dimensioni del segnale di ingresso più rilevanti dal punto di vista

informativo (quelle a massima varianza).

A titolo dimostrativo vengono riportati, nella figura seguente, i risultati

relativi alle diverse fasi di auto-organizzazione delle sinapsi di un array

bidimensionale di 225 neuroni, ai quali vengono presentati dei vettori di

patterns bidimensionali. La distribuzione di probabilità di questi ultimi ha una

forma particolare (vedi figura seguente), che, al termine del processo di

apprendimento, verrà riprodotta dai vettori associati alle sinapsi. Nelle figure

riportate sono rappresentati, nello stesso spazio parametrico, i punti

rappresentativi dei vettori di ingresso e dei vettori sinaptici.

Figura 2.4 Mapping in riduzione di dimensionalitàEsempio di mapping in riduzione di dimensionalità : lo spazio parametrico deipatterns di ingresso è 4-dimensionale, e viene mappato nello spazio fisico 2-dimensioanle di un array di 400 neuroni. Le figure rappresentano la proiezionedello spazio parametrico sul piano individuato dalle sue prime due proiezioni.

Una applicazione di interesse fisiologico

42

2.4 Una corteccia somatosensoria simulata

Il sistema sensorio che per primo si sviluppa nei mammiferi è il sistema

somato-sensitivo. E' ormai assodato che udito e, soprattutto, vista non

costituiscano, almeno nei primi mesi di vita, un efficiente sistema di

comunicazione con il mondo esterno. L'esperienza tattile, invece, offre un grado

di risoluzione e discriminazione, nella percezione sensibile, fin dai primi

momenti elevato, tanto da ritenere chesia la cute a permettere la realizzazione del

primo «rapporto oggettuale».

Ciò che differenzia questo sistema dagli altri sistemi sensori è la

distribuzione dei suoi recettori : i recettori per la sensibilità somatica non sono

localizzati in piccole regioni del corpo (come avviene, invece, nell'occhio o nella

coclea) ma sono distribuiti su tutta la superficie corporea, la cute. Diversi tipi di

sensazioni somatiche sono possibili : tatto (che ci permette di riconoscere la

grandezza, la forma e le caratteristiche superficiali degli oggetti ed il loro

movimento sulla cute), propriocezione (senso della posizione statica e dinamica

del corpo e degli arti), dolore e senso termico ; ciascuna di queste è, inoltre,

descritta da altre submodalità. Un aspetto di profondo interesse è la capacità di

discriminazione tattile differente in funzione della particolare regione del corpo

coinvolta : l'assunzione che non tutte le parti del corpo sono egualmente

sensibili e la conseguente indagine sui meccanismi stessi di sensibilizzazione ha

messo in evidenza che la maggiore o minore sensibilità tattile di una regione

corporea è collegata alla sua relativa rappresentazione corticale: la nostra

sensibilità non è dovuta tanto all'organo di senso periferico, quanto al cervello e

alla rappresentazione interna che in esso si ha dell'esperienza sensibile.

L'intensità di una sensazione somatica è legata sia all'intensità della risposta dei

neuroni corticali coinvolti che al numero stesso di questi ultimi. Sono frequenti

casi di assoluta insensibilità periferica dovuta a lesioni corticali, pur rimanendo

perfettamente funzionanti gli organi periferici.

Dallo studio di alcune patologie sono risultati estremamente interessanti

alcuni fenomeni di riorganizzazione della rappresentazione somatosensitiva

corticale in seguito a lesioni (in genere, dell'innervazione afferente, che dalla

periferia conduce il segnale sensorio al cervello), anche in soggetti adulti. Tale

capacità rende assolutamente indiscutibile che i meccanismi di sensibilizzazione,

che permettono di ottenere livelli di discriminazione tattile differenti, siano di

tipo epigenetico : anche se su una struttura predeterminata geneticamente, essi si

Una applicazione di interesse fisiologico

43

evolvono e mantengono il cervello plastico grazie alla continua e sempre

differente attività percettiva.

Finestra 2.3 - La rappresentazione corticale della superficie corporea

La rappresentazione sensoria della superficie corporea che si ha nel sistema

nervoso centrale è organizzata in mappe topografiche, come si è gia accennato, e le

regioni corticali coinvolte (vedi figura seguente) sono individuate nel giro postcentrale

(aree 1, 2, 3b e 3a di Brodmann).

solco postcentrale

solco centralegiro postcentrale

Corteccia somatosensoria e aree di Brodmann del giro postcentrale

3a

3b

1

2

corteccia motoriagiro postcentrale

solco postcentralesolco centrale

La rappresentazione interna corticale con conservazione di topologia che si ottiene

con il processo di auto-organizzazione permette una minimizzazione quasi ottima del

costo di connessione tra cellule corticali : quelle rispondenti a stimoli simili sono più

vicine tra loro.

Moderni studi elettrofisiologici hanno dimostrato, oltre all'esistenza di una

relazione reciproca tra aree corporee e aree corticali, che esiste una distorsione di

rappresentazione che si evidenzia nella diversità delle aree cerebrali destinate alla

rappresentazione di parti differenti del corpo: le proporzioni tra l'estensione superficiale

della parte descritta e l'estensione corticale della sua rappresentazione non sono

assolutamente rispettate. Queste distorsioni sono invece in relazione con l'importanza di

una particolare regione della superficie corporea per la sensibilità tattile. Nell' essere

umano, in cui la manipolazione degli oggetti ed il linguaggio sono funzioni di

importanza vitale, la mano e la lingua occupano un ruolo predominante, e le loro

rappresentazioni corticali sono molto più grandi delle altre. Per definire il concetto di

«importanza», motivandolo biologicamente, si può attribuire un ruolo fondamentale alla

frequenza con la quale viene svolta un certa funzione: data la particolare configurazione

Una applicazione di interesse fisiologico

44

anatomica e "ingegneristica" della mano umana, è statisticamente più probabile, per

esempio, che vengano sollecitati di più i cuscinetti digitali distali (i polpastrelli !) che

non i cuscinetti palmari : ciò che si osserva è infatti una area di rappresentazione

corticale sensibilmente maggiore nei primi.

La spiegazione di tale distorsione è nella differente concentrazione superficiale e

dimensione dei campi recettivi. Si ricorda che il campo recettivo di un neurone è

costituito da quella zona della superficie recettoriale, in questo caso la cute, la cui

stimolazione è in grado di eccitare o di inibire la scarica della cellula stessa. Nel

formalismo dei modelli neuronali teorici, esso descrive quella regione dello spazio

parametrico del segnale di ingresso che ha come effetto l'attivazione di uno specifico

neurone formale dello strato di uscita. Possiamo dire che ciascun neurone corticale, o

ciascuna microstruttura colonnare di neuroni, ha uno specifico campo recettivo. A regioni

di corteccia a rappresentazione distorta che hanno maggiore estensione saranno

associati, sulla superficie recettoriale, campi recettivi più piccoli la cui densità

superficiale è maggiore : ingrandimento corticale e dimensione dei campi recettivi sono

quindi inversamente correlati.

L'ingrandimento corticale che ne deriva permette di ottenere, per tali zone, una

discriminazione spaziale senza dubbio migliore : una sorta di lente di ingrandimento che

sfrutta la .... minor lunghezza d'onda della sonda. La dimensione limitata del campo

recettivo di un neurone ha, infatti, conseguenze funzionali di grande rilievo. Se

applichiamo uno stimolo ad un punto della cute, verranno eccitati i neuroni connessi con

le fibre afferenti che innervano il punto stimolato. Se, successivamente, lo stimolo viene

portato in un nuovo punto della cute, verrà attivata un'altra popolazione di neuroni. La

discriminazione spaziale cosciente tra i due stimoli sarà inversamente proporzionale alla

grandezza dei campi recettivi coinvolti : il rapporto, per esempio, tra l'ingrandimento

corticale della rappresentazione delle dita e quello della rappresentazione del tronco è,

nell'essere umano, di circa 100:1. Ciò permette di comprendere perchè sia, in fin dei

conti, più facile leggere la scrittura Braille con i polpastrelli che non con il gomito.

Allo scopo di dimostrare la capacità delle SOM di Kohonen di conservare

la topologia e, soprattutto, di organizzare in maniera gerarchica la risposta

neuronale, una di tali reti è stata utilizzata per simulare la formazione dei campi

recettivi tattili di una mano nella corteccia somatosensoria [Kaas et al.,1979] e

la successiva riorganizzazione corticale in seguito a lesione di un nervo afferente

[Merzenich & Kaas, 1982]. Nel caso in esame non c'è una riduzione di

dimensionalità poichè lo stimolo x è descritto in uno spazio

parametrico bidimensionale (la distribuzione dei "somatomeri" - i recettori al

Una applicazione di interesse fisiologico

45

tatto - sulla cute) ed è «mappato» conformemente sullo spazio, anch'esso

bidimensionale, della corteccia somatosensoriale.

Descrizione dell' esperimento :

1) Si è prodotto artificialmente un repertorio di base di circa 300

«stimoli» x=(x1,x2) (con xi∈{0,100} e xi∈N) facendo in modo che la

proiezione sul piano x1,x2 della distribuzione di probabilità P(x1,x2) avesse, più

o meno, la forma di una mano (vedere figure seguenti). Nell' ambito, poi, di tale

repertorio di stimoli, si è fatto in modo che P(x1,x2) fosse leggermente

maggiore in corrispondenza dei polpastrelli. Con lo stesso principio si è

prodotto un secondo repertorio, sempre di circa 300 «stimoli», relativo ad una

mano lesionata, nella quale viene a mancare il segnale afferente da un dito

centrale. La procedura di realizzazione di questi insiemi di stimoli, anche se

decisamente «artigianale», si è dimostrata efficiente ai fini dell'esperimento, e la

sua descrizione non sembra sufficientemente interessante.

2) Si è inizializzata la matrice w degli accoppiamenti sinaptici dei 400

neuroni della corteccia (un reticolo 20x20), in modo tale che tutti i neuroni

avessero i valori iniziali delle sinapsi disposti casualmente intorno al punto

centrale dello spazio parametrico di ingresso, e cioè wi,j,1 , wi,j,2 ≈ 50 , con

i,j=1,...,20. Una scelta alternativa sarebbe stata quella di assegnare a wi,j,1 , wi,j,2

dei valori casuali tra 0 e 100, ma si è osservata, in questo caso, una minor

velocità di organizzazione. Il numero di neuroni utilizzati si è preso dell'ordine

del numero di stimoli di base del repertorio (come verrà detto in seguito, su

ciascuno stimolo di base sarà prodotta, nel corso del programma di

apprendimento, una «nuvola» di rumore).

3) Viene avviato il processo di apprendimento, descritto dalle equazioni

|| x - wc || = min i || x - wi || neurone "best match"

wi,j,k (t+1) = wi,j,k(t) + α (t)[ x k (t) - wi,j,k(t) ] (2.16a)

per i,j ∈ Nc (t) i,j = 1,,20 k=1,,2

wi,j,k (t+1) = wi,j,k(t) (2.16b)

per i,j ∉ Nc (t) i,j = 1,,20 k=1,,2

dove Nc (t) è un intorno circolare di raggio R(t) del neurone "best match" per lo

stimolo x al tempo t (si ricorda che t è diventato un contatore di stimoli) ; per gli

andamenti temporali di α(t) e R(t) si sono adottate le seguenti

Una applicazione di interesse fisiologico

46

R (t) = max { R0 + \F((Rmin-R0)t;To) , Rmin }

α (t) = α0 (1 - \F(t;To) ) per t < To

α (t) = α1 per t > To

con la seguente scelta dei parametri, dettata puramente dall'esperienza,

R0 = 10 raggio iniziale di interazione (comprende tutta la rete)Rmin = 2 raggio minimo di interazione (mantenuto costante nella

seconda fase, di «specializzazione» )a0 = 0.1 valore iniziale del fattore di guadagno plasticoa1 = 0.06 valore finale del fattore di guadagno plastico

(mantenuto costante fase di «specializzazione» )T0 = 500 durata, in "stimoli",della fase di «prima organizzazione»

Poichè il numero di stimoli a disposizione (300) è minore del numero

richiesto per l'intero programma di apprendimento (103 ÷104 «stimolazioni»),

come capita di frequente in problemi di questo tipo, si è riutilizzato ciclicamente

il repertorio a disposizione, sommando ogni volta allo stimolo un rumore a

media nulla di dinamica pari al 5% di quella del segnale (100).

4) Dopo aver raggiunto, in circa 2000 «stimolazioni», una situazione di

stabilità evidenziata dalla formazione di campi recettivi ordinati spazialmente

con densità direttamente proporzionale all'importanza informativa dello stimolo

descritto, si è sostituito al repertorio originale di stimoli quello descrivente la

«mano lesionata», senza il «dito» centrale. Si è continuato, quindi, il processo di

apprendimento, che, seppur nella fase di specializzazione, si è fatto in modo che

mantenesse una certa plasticità. Per ottenere ciò è stato fondamentale che il

raggio minimo di interazione Rmin non fosse unitario o, ancor peggio, nullo

così come non dovesse essere indefinitamente decrescente il guadagno plastico

α(t) (cose che invece si verificano nella maggior parte delle realizzazioni del

modello di Kohonen).

I risultati ottenuti sono stati tradotti in forma grafica, di grande aiuto nello

studio di questo modello. La prima serie di immagini (Fig. 2.5, vedi appresso)

rappresenta i vari stadi del processo di auto-organizzazione: vi sono riportati,

sovrapposti e descritti nello stesso spazio parametrico (in questo caso

bidimensionale), i punti corrispondenti ai 300 stimoli di base x di repertorio e i

valori istantanei degli accoppiamenti sinaptici w. Per evidenziare l'effetto di

organizzazione spaziale, questi ultimi sono stati collegati da linee rette se relativi

a neuroni adiacenti sulla corteccia simulata. Quello che succede, nel corso

dell'apprendimento, è che la distribuzione dei valori di accoppiamento sinaptico

Una applicazione di interesse fisiologico

47

nello spazio parametrico dei patterns di ingresso tende a riprodurre la

distribuzione di probabilità di questi ultimi. Tale processo avviene in due fasi.

Prima si verifica un ordinamento grossolano, ma rapido: si ha un grande

raggio di interazione R(t) ed un alto valore di guadagno plastico. Dopo avviene

la specializzazione, più lenta, nella quale i dominii di interazione hanno

raggiunto il valore minimo asintotico ed il guadagno plastico si è stabilizzato su

di un valore di regime, inferiore ai valori iniziali, e tale da permettere variazioni

sinaptiche piccole ma, a tempi lunghi, significative. E', infatti, interessante

notare la plasticità e la dinamicità della rete che, successivamente alla «lesione»,

ridistribuisce i campi recettivi dei neuroni associati al dito «inibito» in modo tale

da aumentare il numero di neuroni attivati dalle zone recettoriali rimaste

funzionanti, ottenendo quindi un aumento di sensibilità e di discriminazione

spaziale per le dita rimaste : è la manifestazione di quel comportamento

gerarchico prima accennato, per il quale quando una particolare afferenza

diviene inattiva, il suo territorio di rappresentazione sulla corteccia può venire

invaso dalle afferenze che provengono dalle zone rimaste attive.

Successivamente, con metodi analoghi a quelli che si usano in

elettrofisiologia per la determinazione delle mappature corticali, si sono prodotti

degli «stimoli» sulla superficie recettoriale (quindi, sulla cute della mano

formale), e cioè sono stati utilizzati dei vettori appartenenti all'insieme P(x1,x2)

per sollecitare una risposta nella rete. Alcune delle attività misurate con questa

serie di «stimolazioni» sono state riportate nella Fig. 2.6. Per evidenziare il

miglioramento in risoluzione ottenuto con il processo di apprendimento viene

mostrato anche uno stato di attivazione attinente alla fase iniziale

dell'apprendimento (t=30), nel quale la risposta non è ancora localizzata. Da tali

figure si evidenzia ulteriormente la corrispondenza tra stimoli simili e zone

attivate adiacenti. Dopo aver registrato una sufficiente quantità di attivazioni,

relative a tutta la superficie della mano, se ne è ricavata una mappa corticale.

Una analoga mappa è stata ricavata (Fig. 2.7), con lo stesso procedimento,

a seguito della riorganizzazione dopo la «lesione»: da quest'ultima si può notare

la ridistribuzione dei campi recettivi, originariamente associati al dito lesionato,

tale da migliorare la sensibilità residua. Insieme con queste ultime, vengono

riprodotti (Fig. 2.8) alcuni risultati delle ricerche di Kaas e Merzenich sulla

rappresentazione della mano nella corteccia somato-sensoria delle scimmie

nictipiteco [Kaas et al.,1979][Merzenich et al.,1983] [Merzenich & Kaas,1982].

Le analogie, soprattutto, nella forma della mappa corticale nell'area di

Brodmann 3b, sono abbastanza evidenti.

Una applicazione di interesse fisiologico

48

Fig. 2.5 Autoorganizzazione della rappresentazione corticaleFasi successive del processo di autoorganizzazione della rappresentazione corticaledi una mano. Dopo 2000 stimolazioni viene eliminato il segnale sensorioproveniente dal terzo dito: la rappresentazione corticale si riorganizza e i neuronidiventati inattivi vengono riutilizzati per la rappresentazione della dita superstiti.

Una applicazione di interesse fisiologico

49

Fig. 2.6 Risposte corticali in conservazione di topologiaLa serie di immagini rappresenta la risposta corticale ad una serie di stimolazioni(•) sulla mano simulata. La prima immagine é stata ottenuta con una corteccia nonancora sufficientemente addestrata (30 stimolazioni): é evidente la scarsarisoluzione di rappresentazione. Una migliore risoluzione si ottiene invece con lacorteccia più addestrata (2000 stimolazioni), utilizzata per le immagini successiva.E', inoltre, fortemente evidente la conservazione di topologia nellarappresentazione.

Una applicazione di interesse fisiologico

50

Fig. 2.7 Variazioni nella risposta corticale in seguito a lesioneLa figura riporta le mappe della rappresentazione corticale della mano ottenute conl'addestramento della rete neuronale. La prima mappa é precedente la lesione alterzo dito, la seconda é successiva. I numeri riportati nelle mappe sono associati aciascuna delle dita (0 é associato ai cuscinetti palmari, '-' é associato a neuroni conrisposta debole). A seguito della lesione si osserva una evidente riorganizzazionedella rappresentazione, che conduce ad una rappresentazione più sensibile delle ditasuperstiti adiacenti.

Una applicazione di interesse fisiologico

51

Una ulteriore simulazione potrebbe essere quella della formazione delle

microstrutture colonnari della corteccia visiva sensibili alla orientazione nello

spazio di semplici stimoli visivi.

In conclusione, il modello delle Self Organizing Maps di Kohonen si

dimostra notevolmente interessante, oltre che per le sue possibili applicazioni,

anche per la sua innegabile interpretazione descrittiva (e non esclusivamente

strumentale) dei sistemi sensoriali biologici.

Figura 2.8 (da Kandel & Schwartz, op. cit.) Rappresentazione della mano nella corteccia somato-sensoria di scimmie

Gli esperimenti di mappatura di Kaas, Merzenich e coll. indicano cha ciascuna dellequattro subregioni del giro postcentrale (3a, 3b, 1 e 2) contiene una propriarappresentazione. A) Veduta dorsolaterale della corteccia di un nictipiteco chedocumenta come, sia nell'area 3b che nell'area 1, esista una rappresentazione cutaneadistinta. La rappresentazione delle superfici fornite di peli del piede e della mano sonoombreggiate. Le dita della mano e dei piedi sono numerate. B1) E' una mappa piùespansa e più dettagliata delle aree della mano della corteccia della scimmia riportata inA. In B2) le distorsioni di rappresentazione del palmo della mano sono in relazione conl'estensione delle rappresentazioni di ciascuna zona a livello corticale. I cuscinettipalmari, quindi, sono numerati da P4 a P1; vi sono due cuscinetti insulari (I), unoipotenare (H) e due tenari (T). I cinque cuscinetti digitali sono anch'essi numerati.

Una applicazione di interesse fisiologico

52

Appendice A2:

L’interazione laterale in modelli dinamici di interesse biologico

Studi di fondamentale importanza che portarono alla teorizzazione di una forma di

interazione spaziale di questo tipo, sono dovuti a A.M. Turing [Turing,1952] e a A.

Gierer e H. Meinhardt [Gierer & Meinhardt,1972] (che elaborarono una teoria biologica

sulla formazione di patterns). Turing, nell' articolo "The chemical basis of

morphogenesis", ipotizzò che l'azione combinata di un processo di diffusione con

opportune cinetiche di reazione chimica avrebbe potuto destabilizzare uno stato

stazionario omogeneo e provocare la formazione spontanea di strutture temporalmente

stabili e spazialmente disomogenee. Egli suggerì che tale processo avrebbe potuto

spiegare una grande varietà di fenomeni morfogenetici. Successive ricerche in chimica,

fisica e biologia dimostrarono la possibilità di tali meccanismi morfogenetici [Castets et

al.,1990]. Alcuni ricercatori, lavorando sull'ipotesi di Turing, giunsero alla conclusione

che, al fine di creare dei patterns di concentrazioni stazionare in sistemi di reagenti

chimici, era necessario rispettare una condizione : che il reagente chimico inibitore

dovesse diffondersi nel sistema molto più rapidamente dell' agente eccitatore. Questo

potrebbe essere in analogia, traducendone l'effetto in coordinate spaziali, con la

inibizione a lungo raggio e con la eccitazione a corto raggio della “Mexican Hat” già

vista. Un'ulteriore, recente, conferma sperimentale del modello di Turing è ad opera di I.

R. Epstein e I. Lengyel [Epstein & Lengyel, 1991], che, in breve, osservarono la

formazione di strutture di Turing ottenute dalla reazione di agenti chimici diffusi in un

gel: le molecole inibitrici (ioni ClO2-) non erano interagenti con il gel, e potevano

muoversi liberamente in esso; quelle, invece, attivatorie (ioni I-) formavano dei

complessi più o meno stabili e venivano, quindi rallentate. Ciò diede luogo a fluttuazioni

di densità del reagente, evidenziate da grumi di colore su un fondo omogeneo.

Un'evidenza sperimentale di tali forme di inibizione laterale è nella struttura, per

esempio, dei campi recettivi dei neuroni parvocellulari ad opposizione di colore nel

corpo genicolato laterale (sistema visivo) : essi sono eccitati su una piccola regione

centrale da luce di un determinato colore (rosso) ed inibiti su un anello periferico

omocentrico da luce di un colore complementare (verde). Analoga è la struttura dei

neuroni magnocellulari a banda estesa, eccitati da tutte le lunghezze d'onda nella zona

centrale e inibiti da tutte le lunghezze d'onda nella zona periferica. I primi sviluppano un

sistema sensibile al colore, lento, poco sensibile ai contrasti e ad alta risoluzione; i

secondi, invece, sono ciechi al colore, veloci, fortemente sensibile ai contrasti e a bassa

risoluzione [Hubel & Livingstone,1988]. Questi neuroni, insieme con quelli gangliari

della retina, fungono da primi stadi di filtraggio dell'informazione visiva nel percorso

dalla retina alla corteccia. Mountcastle [Mountcastle,1957,1968], infine, propose un

Una applicazione di interesse fisiologico

53

modello per la discriminazione spaziale di due punti basato sulla ricostruzione degli

eventi neuronali che hanno luogo nella corteccia somato-sensoria a seguito

dell'applicazione di un lieve stimolo tattile. Il meccanismo che, secondo questo modello

(Figura A2.1), permette di riconoscere due stimoli puntiformi, applicati l'uno vicino

all'altro, come due punti distinti piuttosto che uno solo ha come sua base la stessa teoria

dell'inibizione laterale. Due stimoli applicati su parti distinte della cute producono due

gradienti di attività eccitatoria in ogni nucleo del sistema somato-sensitivo. L'attività di

ciascuna popolazione ha un picco distinto, e la popolazione cellulare circostante, che

viene inibita, accentua ed aumenta maggiormente la distinzione tra i due picchi. Questa

inibizione laterale non si presenta al livello dei recettori, ma compare in tutte le stazioni

di ritrasmissione successive, per cui la popolazione neuronale eccitata dallo stimolo è

circondata da una cintura di neuroni inibiti : ciò impedirà la fusione delle zone

eccitatorie determinate dai due stimoli, mantenendo così i picchi di attività distinti a

livello corticale ed aumentando il contrasto tra le due zone eccitatorie. E' facile vedere

come una organizzazione neuronale di questo tipo, presente in tutti i sistemi sensoriali e

motori, possa condurre al riconoscimento delle forme e dei contorni delle figure.

attivita' evocatadalla stimolazione diun singolo punto

somma delle attivita' evocate dalla stimolazionesimultanea di due punti

spazio neurale

attivita'neuronale

senzainibizionelaterale

spazio neurale

attivita'neuronale

coninibizione laterale

Schema proposto da Mountcastle per spiegare in che modo l'inibizione laterale puo' contribuire alla discriminazione tattile tra due punti .

Figura A2.1 Il modello per l’inibizione laterale proposto da Mountcastle

Una applicazione di interesse fisiologico

54

Bibliografia del Capitolo 2Amari, S. & Takeuchi, A. (1978). Mathematical theory on formation of category

detecting in nerve cells. Biological Cybernetics, 29, 127-136Caramazza, A. & Hillis, A. (1990) . Spatial representation of words in the brain implied

by studies of a unilateral neglect patient. Nature, 346, 267-269Castets, V. et al. (1990). Experimental evidence of a sustained standing Turing-type

nonequilibrium chemical pattern. Physic Review Letters, 64, 2953Damasio, A.R. et al. (1982). Prosopagnosia: Anatomic basis and behavioral mechanisms.

Neurology, 32, 331-341Eichenbaum, H. & Cohen, N.J. (1988). Representation in the hippocampus : what do

hippocampal neurons code ?, Trends in Neurosciences, 11, 244-248Gierer, A. & Meinhardt, H. (1971). A theory of biological pattern formation. Kybernetik,

12, 30-39Hubel, D. & Livingstone, M. (1988). Segregation of form, color, movement and depth :

anatomy, physiology, and perception. Science, 240, 740-749Kaas, J.H. et al. (1979). Multiple representations of the body within the primary

somatosensory cortex of primates. Science, 204, 521-523Knudsen, E.I. et al. (1987). Computational maps in the brain. Annual Review in

Neuroscience, 10, 41-65Kohonen, T. (1984). Self-organization and associative memory. Springer Verlag, Berlin

: 1984 (2nd 1988)Malsburg, (von der) C. (1973). Self-organization of orientation sensitive cells in the

striate cortex. Kybernetik, 14, 85-100Marr, D. & Hildreth, E. (1980) Theory of the edge detection. Proc. R. Soc. London

Ser. B, 207, 187-217Merzenich, M.M. et al. (1983) . The reorganization of somatosensory cortex following

peripheral nerve damage in adult and developing animals . Annu. Rev. of Neurosci.,6, 325-356

Merzenich, M.M. & Kaas, J.H. (1982). Reorganization of mammalian somatosensorycortex following peripheral nerve injury. Trends in Neurosciences, 5, 434-436

Mountcastle, V.B. (1957) . Modality and topographic properties of single neurons of cat’ssomatic sensory cortex. J. Neurophysiol., 20, 408-434

Mountcastle, V.B. & Darian-Smith, I. (1968) . Neural mechanisms in somesthesia. In V.B.Mountcastle (ed.), Medical Physiology, 12th ed., Vol. II St. Louis, Mosby, 1372-1423

Oldfield, B.P. (1988). Tonotopic organization of the insect auditory pathway. Trends inNeuroscences, 11, 267-270

Olton, D.S. (1977). Spatial representation in the hippocampus. Scientific American, 236,82 1977

Petersen, S.E. et al. (1988). Positron emission tomographic studies of the corticalanatomy of single-word processing, Nature, 331, 585-589

Ritter, H. & Kohonen, T. (1989). Self-organizing semantic maps. Biological Cybernetics,61, 241-254

Ritter, H. & Schulten, K. (1986). On the stationary state of Kohonen's Self-Organizingsensory mapping. Biological Cybernetics, 54, 99-106

Ritter, H. & Schulten, K. (1988). Convergence properties of Kohonen's topologyconserving maps : fluctuations, stability and dimension selection. BiologicalCybernetics, 60, 59-71

Rolls, E.T. (1984). Neurons in the cortex of the temporal lobe and in the amygdala of themonkey that responses selective for faces. Human Neurobiology, 3, 209-222

Smith, T.G. Jr et al. (1988). Edge detection in images using Marr-Hildreth filteringtechniques. Journal of Neurosciences Methods, 26, 75-82

Suga, N. & O'Neill, W.E. (1979). Neural axis representing target range in the auditorycortex of the mustache bat. Science, 206, 351-353

Takeuchi, A. & Amari, S. (1979). Formation of topographic maps and columnarmicrostructures, Biological Cybenetics, 35, 63-72

Ts'o, D.Y. et al. (1990). Functional organization of primate visual cortex by highresolution optical imaging. Science, 249, 417-420

Turing, A.M. (1952). The chemical basis of morphogenesis. Philos. Trans. R. Soc.London Ser. B, 237, 37

Zeki, S. (1980). The representation of colours in the cerebral cortex. Nature, 284, 412-418

Una applicazione di interesse fisiologico

55

3. Una applicazione allo studio delle strutture proteiche

3.1 Il percettrone multistrato e la regola delta generalizzata

Il perceptron si é dimostrato degno di studio a dispetto (o, forse,a causa!) dei suoi seri limiti. Esso ha molte proprietà attraenti:la sua linearità, il suo affascinante teorema d'apprendimento, lasua limpida ed esemplare semplicità come modello dicomputazione parallela. Non c'é ragione di supporre chenessuno di questi pregi sia ereditato dalla versione a più strati....

[Minski e Papert, 1969]

Ricordiamo (vedi Cap. 1) che i percettroni costituiscono una classe di

sistemi connessionisti così denominati da Rosenblatt nel 1962 in cui si realizza

un apprendimento di tipo supervisionato modificando l'entità delle connessioni

sinaptiche fra i neuroni per mezzo della "regola delta". Secondo tale regola, la

variazione (∆Wkj) fra il j-esimo ed il k-esimo neurone dei livelli di input e di

output, rispettivamente*, è proporzionale al prodotto del valore del neurone di

input per la differenza fra il valore atteso e quello effettivo del neurone di

output:

regola delta : ∆Wkj = ηδk inj (3.1)

dove η é il fattore di proporzionalità denominato "tasso" o "velocità di

apprendimento"; δk = Uk - Ok é l'errore relativo al k-esimo neurone di output,

dato dalla differenza fra il valore atteso (Uk) e quello prodotto (Ok); e inj é il

valore del j-esimo neurone di input.

Nel loro famoso libro del 1969, Minski e Papert dimostrarono che i

percettroni ad un solo strato di sinapsi modificabili non sono in grado di

risolvere problemi interessanti come quelli della parità, della connettività o

dell'XOR (vedi Finestra 3.1): da qui lo scemare dell'interesse, negli anni

successivi, verso i sistemi connessionisti. Anche se gli stessi autori

riconoscevano che le limitazioni suddette non si applicano ai percettroni

multistrato, tuttavia l'uso di questi ultimi era molto limitato, ai loro occhi, dalla

mancanza di un adeguato algoritmo di apprendimento.

* nei percettroni i neuroni formali sono disposti in livelli ordinati, e le connessioni hanno luogo solo franeuroni appartenenti a livelli diversi. Il più semplice percettrone di Rosenblatt possedeva due livelli di neuroni(input ed output) connessi da uno 'strato' di sinapsi.

Una applicazione allo studio delle strutture proteiche

56

FINESTRA 3.1

Le unità nascoste incrementano le performance dei percettroni:

il caso della funzione logica XOR (= OR disgiuntivo).

Il mapping (corrispondenza) Input

-> Output secondo la Tavola di verità a

lato non é possibile utilizzando due sole

unità binarie per l'Input ed una per

l'Output (percettrone ad uno strato di

Input Output0 0 00 1 11 0 11 1 0

connessioni).

Il problema consiste nel fatto che i patterns d'ingresso meno simili fra loro (il

primo e l'ultimo) devono generare lo stesso output.

La soluzione é possibile solo inserendo una ulteriore unità di elaborazione, per

esempio in un livello intermedio fra l'Input e l'Output secondo lo schema in basso, in cui

i valori all'interno dei neuroni indicano la soglia di attivazione, e quelli sulle

connessioni la forza delle medesime.

In_1 In_2 Int Out

0 0 0 0 0 1 0 1

1 0 0 1 1 1 1 0

Output

Int.

In_1, In_2

1.5

1 1

1 1

- 2

0.5

La soglia di 1.5 per l'unità intermedia la rende attiva solo quando sono entrambeattive In_1 e In_2; In tal caso, il pesodi -2 per la connessione con l'unità diuscita fa sì che l'output complessivodi quest'ultima sia pari a zero.

Una applicazione allo studio delle strutture proteiche

57

Figura 3.1

Rappresentazione schematica di un percettrone multistrato.

L - 1 L L + 1

wj i(L)

w ji+1(L

)

i+1

i-1 j-1 k-1

i k

j+1 k+1

j

net k (L+1)

Sono rappresentati tre livelli di neuroni, L-1, L ed L+1, caratterizzatirispettivamente dagli indici i, j e k. I due livelli esterni possono considerarsi l'Input (L-1) e l'Output (L+1) della rete. Le connessioni sinaptiche hanno luogo solo fra neuronidi livelli diversi: nella figura sono rappresentate, per semplicità, solo due connessioni(Wj,i(L) e Wj,i+1(L) ) fra tre neuroni dei livelli L-1 ed L. L'output del generico (k-esimo) neurone del generico (L+1 esimo) livello é fornito da una

funzione di trasformazione non lineare : Ok(L +1) = f (net k

(L +1))

al cui argomento, netk (L+1) , contribuiscono le uscite dei neuroni del livello precedente,Oj(L) , pesati dalle corrispondenti connessioni, Wkj (L+1), e dal valore di soglia specificodel neurone, θk (L+1) :

net k(L +1) = W kj

(L +1)O j(L ) + θk

(L +1)

j∑

Una applicazione allo studio delle strutture proteiche

58

Oggi tale algoritmo esiste, va sotto il nome di 'retropropagazione degli

errori', e costituisce una naturale evoluzione della regola delta. Ciò, insieme alla

verifica dei limiti intrinseci dell'approccio simbolico-sequenziale, ha contribuito

a cambiare radicalmente, in questi anni, l'atteggiamento di diffidenza nei

confronti dell'approccio connessionista.

L'algoritmo di retropropagazione dell'errore

Estendere l'applicazione della regola delta al caso del percettrone

multistrato (schematizzato in Figura 3.1) comporta la definizione adeguata del

segnale d'errore (δ) per le unità degli strati intermedi, per le quali non é

immediatamente disponibile il valore del segnale atteso (Uk).

Un metodo generale per risolvere il problema é basato sull'osservazione

che la regola delta corrisponde all'applicazione dell'algoritmo di ricerca dello

'steepest descent' (=massimo gradiente) nella minimizzazione di una

funzione di costo : C =1

2 k∑ (U k − O k )2 .

La derivata di tale funzione rispetto alle sinapsi che connettono due generici

livelli R ed S, si può scrivere:∂C

∂WSR

=∂C

∂OS

∂OS

∂netS

∂netS

∂WSR

(3.2)

• Nel caso che i neuroni d'indice S appartengano all'ultimo livello

(Output) della rete, la (3.2) diventa*, con gli indici in accordo allo schema di

Fig. 3.1,

∂C

∂Wkj

=∂C

∂Ok

∂Ok

∂net k

∂net k

∂W kj

= −(Uk − Ok ) f ' (net k ) Oj (3.3)

• Nel caso che i neuroni d'indice S appartengano ad un livello intermedio

della rete, la (3.2) diventa, con gli indici in accordo allo schema di Fig. 3.1,

∂C

∂W ji

=∂C

∂O j

∂Oj

∂net j

∂net j

∂W ji

=∂C

∂O j

f ' ( net j) Oi (3.4)

* Si noti che nel caso in cui la funzione di trasformazione sia lineare, ovvero Ok = ∑jWkjOj, la (3.2) sisemplifica e fornisce direttamente la regola delta:

∂C

∂Wkj

=∂C

∂Ok

∂O k

∂W kj

= −(U k − Ok ) Oj

Una applicazione allo studio delle strutture proteiche

59

in cui il primo termine del membro di destra (∂C / ∂Oj ) può essere calcolato

dalla:

∂C

∂Oj

=∂C

∂Ok

∂Ok

∂netk

∂net k

∂O jk∑ =

∂C

∂Ok

f ' ( net k ) Wkjk

∑ (3.5)

La (3.5) sta al cuore dell'algoritmo ricorsivo di retropropagazione

dell'errore, perché fornisce la dipendenza della C (funzione di costo) dall'Output

delle unità di livello intermedio (j) in funzione della dipendenza dalle unità del

livello successivo (k) e dallo strato sinaptico interposto (Wji).

Nella Finestra 3.2 viene fornito, sempre con riferimento allo schema di

Figura 3.1, il diagramma di flusso usato per implementare in uno spreadsheet

programmabile l'algoritmo suddetto nella predizione della struttura secondaria

della nitrito-reduttasi di Ps. aeruginosa (vedi appresso). I punti seguenti

commentano i vari stadi del diagramma* . Per semplicità, si farà riferimento ai

singoli elementi di vettori e matrici.

1. Per la inizializzazione delle matrici sinaptiche si utilizza in genere un

generatore di numeri casuali compresi fra 0 ed 1.

2. Netj si ricava dai valori generati dal livello di Input Oi (che codifica

l'informazione in ingresso) e dai valori della matrice sinaptica del primo strato.

La funzione di trasformazione non lineare usata, f(net), é la:

O j =1

1 + e−( W jiO i + θ j )

j∑

Con operazioni analoghe vengono calcolate Netk e Ok ed i valori dei

successivi altri livelli (se presenti).

3. Ottenuto l'output dell'ultimo livello (Ok nel presente caso), se il valore

della funzione di costo é sufficientemente piccolo rispetto ad un riferimento

prefissato, si interrompono le iterazioni.

4. L'aggiornamento delle matrici sinaptiche nel corso di ogni iterazione

(apprendimento) avviene strato dopo strato a partire dall'ultimo, per il quale il

calcolo é particolarmente semplice. Negli altri casi si procede come descritto.

* I valori delle soglie di attivazione dei neuroni di tutti gli strati (θ) sono anch'essi suscettibili diottimizzazione con un procedimento del tutto analogo, che procede in parallelo a quello descritto per lematrici sinaptiche.

Una applicazione allo studio delle strutture proteiche

60

Finestra 3.2Diagramma di flusso per l'apprendimento supervisionato di un percettrone a

due strati con retropropagazione degli errori(La nomenclatura e gli indici si riferiscono allo schema della Fig. 3.1)

1 Inizializza Wji

e Wkj

se piccola

se grande

FINE

concatenazione in avanti

2.1 Calcola netj e Oj = f (netj )

2.2 Calcola netk e Ok = f (netk )

3 Calcola la C = (Uk

− Ok

)k∑

4.1 Calcola la f '(netk

)

4.2 Calcolak∂ = η (U

k− O

k) f ' (net

k)

4.3 Calcolakj∆W = η ∂

kO

k

4.4 AggiornakjW

4.5 Calcola la f '(netj)

4.6 Calcolaj∂ = f '(net

j) ∂

kk∑ kjW4.7 Calcola

ji∆W = η ∂jO

j

4.8 AggiornajiW

Retropropagazione dell'errore su due strati

Una applicazione allo studio delle strutture proteiche

61

3.2 La predizione delle strutture proteiche

Il problema

Le proteine costituiscono la componente di gran lunga preponderante fra le

macromolecole costituenti le cellule. Questo sia dal punto di vista ponderale che

in considerazione dell'importanza e varietà delle funzioni svolte. Capire in che

modo tali funzioni siano legate alla struttura molecolare costituisce uno degli

argomenti centrali dell'odierna ricerca in Biologia Molecolare, Biochimica e

Biofisica [Branden and Tooze, 1992].

Le proteine sono polimeri lineari formati da centinaia di unità elementari,

gli aminoacidi, caratterizzati da una estremità carbossilica (acida) ed una

amminica (basica) ed esistenti in natura in 20 diverse varietà (Finestra 3.3). Lo

studio della organizzazione strutturale delle proteine avviene a 4 diversi livelli :

- Struttura Primaria: corrisponde alla sequenza degli aminoacidi e alla

posizione dei legami disolfuro, quando ve ne sono, e riflette quindi l’insieme

dei legami covalenti di una proteina.

- Struttura Secondaria: si riferisce alla disposizione nello spazio dei residui di

aminoacidi adiacenti nella sequenza lineare. Alcune di queste relazioni steriche

sono di tipo regolare e danno origine a strutture periodiche: l’ α-elica e la

struttura β sono elementi di struttura secondaria. Quando le relazioni non sono

di tipo regolare, esse si dicono random-coil.

- Struttura Terziaria: riguarda la disposizione nello spazio dei residui di

aminoacidi lontani fra loro nella sequenza lineare. La linea di divisione fra

struttura secondaria e terziaria non è netta.

- Struttura Quaternaria: le proteine che contengono più di una catena

polipeptidica hanno un ulteriore livello di organizzazione strutturale: ciascuna

catena polipeptidica viene chiamata subunità e la struttura quaternaria si riferisce

alla disposizione nello spazio di queste subunità.

Predire l'arrangiamento tridimensionale delle proteine, cioé le loro strutture

secondaria e terziaria, dalla sequenza lineare degli aminoacidi componenti

(struttura primaria), è diventato un argomento di grande attualità da quando le

tecniche di biologia molecolare (DNA ricombinante) consentono di accumulare

informazione sulle strutture primarie ad una velocità molto maggiore di quanto

non facciano, relativamente alle strutture tridimensionali, le tecniche

spettroscopiche (diffrazione dei raggi X, NMR, etc.).

Bisogna inoltre considerare che per le proteine cosidette "intrinseche di

membrana", molte delle quali svolgono un ruolo chiave in processi

fondamentali come la respirazione (citocromi b, c1, a, etc.) o il riconoscimento

Una applicazione allo studio delle strutture proteiche

62

(maggior complesso di istocompatibilità, etc.) cellulare, l'uso delle tecniche

diffrattometriche é fortemente ostacolato dalla difficile cristallizzabilità. D'altra

parte, le basi-dati su cui si fondano le tecniche predittive sono costituite nella

quasi totalità da proteine solubili: ci si trova insomma nella sfavorevole

situazione per cui proprio laddove dei metodi predittivi si avrebbe più bisogno

(proteine di membrana), essi sono meno efficienti per la squilibrata

composizione della base dati.

I metodi statistici tradizionali

Mentre non é possibile, al momento, fare a meno dell'informazione

sperimentale diretta nello studio delle strutture terziarie e quaternarie, per la

predizione delle strutture secondarie un considerevole numero di proposte

[Pascarella et al., 1990], basate su metodi di tipo statistico, sono apparse in

letteratura a partire dal classico lavoro di Chou e Fasman [Chou & Fasman,

1978]. Il metodo tradizionale attualmente più popolare per facilità d'uso e

affidabilità dei risultati é dovuto a Garnier e collaboratori [Garnier et al., 1987].

Esso, dal punto di vista dell'utilizzatore finale, si riduce all'uso di tavole di

“propensità” a formare le tre principali strutture secondarie (α-eliche, foglietti β

e strutture disordinate) da parte dei residui all'interno di una finestra di ampiezza

arbitraria. Di considerevole interesse per la sua originalità appare il metodo

suggerito da Lim [Lim, 1974] basato sull'identificazione di 'patterns' locali di

idrofobicità lungo la sequenza.

Non va dimenticato, comunque, che lo scopo finale di ogni metodo

predittivo é di chiarire l'arrangiamento tridimensionale della proteina e che, in

questa prospettiva, percentuali di correttezza nella predizione delle strutture

secondarie dell'ordine del 65-70%, quali si ottengono con i metodi succitati,

sono ancora inadeguate. Tali prestazioni migliorano quando ci si riferisce a

condizioni particolarmente favorevoli, cioé quando le proteine di “test” sono

omogenee alla gran maggioranza delle proteine contenute nel data-base. In

mancanza di tale omogeneità la “performance” del metodo é drasticamente

ridotta.

L’approccio connessionista

L'uso di reti neurali ad apprendimento supervisionato nei problemi relativi

allo studio della struttura tridimensionale di proteine è relativamente recente e

limitato alla predizione delle strutture secondarie, ed i lavori specifici

sull'argomento sono pochi.

Una applicazione allo studio delle strutture proteiche

63

Finestra 3.3

A. Natura chimica degli aminoacidiAminoacidi Simbolo Simbolo FormulaNaturali abbreviato

Alanina Ala A R-CH3Cisteina Cys C R-CH2-SHAc. Aspartico Asp D R-CH2-COOHAc. glutammico Glu E R-CH2-CH2-COOHFenilalanina Phe F R-CH2-PhGlicina Gly G R-HIstidina His H R-CH2-ImidazoloIsoleucina Ile I R-CH(CH3)-CH2-CH3Lisina Lys K R-(CH2)4-NH2Leucina Leu L R-CH2-CH(CH3)2Metionina Met M R-CH2-CH2-S-CH3Asparagina Asn N R-CH2-CO-NH2Prolina Pro P 2-carbossi Pirrolidina(*)Glutammina Gln Q R-CH2-CH2-CO-NH2Arginina Arg R R-(CH2)2-NH-CH(NH2)2Serina Ser S R-CH2-OHTreonina Thr T R-CH(OH)-C(H)3Valina Val V R-CH(CH3)2Triptofano Trp W R-CH2-IndoloTirosina Tyr Y R-CH2-Ph-OH

Nota: R = -CH(NH2)-COOH ; Ph = -C6H5 ; PhOH = -C6H4-OH

B. Relazioni fra strutture primaria, secondaria e terziaria.

Struttura Primaria(1 quadratino = 1

AminoAcido)

Elemento di StrutturaSecondaria

(alpha-elica)Struttura Terziaria

Una applicazione allo studio delle strutture proteiche

64

Alcuni di essi, tuttavia, riportano i risultati dell'applicazione del metodo in

forma tabulare, analoga alle tavole dei valori di “propensità” degli amminoacidi

per le varie conformazioni, prodotte da alcuni dei metodi statistici. Ciò mette in

grado chiunque di utilizzare tali risultati ai fini della predizione della struttura

secondaria di un qualunque polipeptide. Lo schema funzionale per un

percettrone impiegato nella predizione di strutture secondarie proteiche é

comunque basato sulle due fasi seguenti:

Fase 1 (apprendimento): Si sottopongono alla rete un certo numero di casi

significativi, per i quali si conosce l’esatta corrispondenza fra struttura primaria

e secondaria della proteina, ottimizzando in base a questa corrispondenza la

geometria e l’intensità delle connessioni e il valore di soglia per i neuroni.

Questa fase, assolutamente peculiare di questo approccio, viene schematizzata

nella Figura 3.2.

Fase 2 (interrogazione): Si sottopone allo strato di input della rete una

struttura primaria lasciando che, in base ai valori relativi alle connessioni e alle

soglie, ottimizzati nella precedente fase di “Apprendimento”, lo strato di Output

proponga una struttura secondaria corrispondente.

La Figura 3.3 illustra l'architettura di un generico percettrone usabile nella

predizione della struttura secondaria di proteine. Numerose varianti rispetto a

tale schema di massima sono state, tuttavia, ampiamente sperimentate.

Un'osservazione di rilievo è che le prestazioni di una rete non dipendono in

modo semplice dalle dimensioni del "training set" usato nella fase di

apprendimento. In particolare:

- grande importanza riveste il grado di omologia esistente fra le proteine del

“training set” e quelle del “testing set” (usate nella fase di interrogazione );

- tanto meglio la rete “impara a riconoscere” le proteine del training set, tanto

peggiore sarà la sua abilità predittiva nei confronti di proteine “non note” .

Considerazioni conclusive

Le peculiarità dell'uso di reti neurali nella predizione delle strutture

proteiche che sembrano particolarmente promettenti rispetto agli approcci di

tipo tradizionale sono:

- la non necessità di assunzioni teoriche preliminari;

- la flessibilità nella definizione dell'architettura delle reti, che consente di trovare

arrangiamenti ottimali per problemi/situazioni particolari;

- la prospettiva di sfruttare appieno alcuni recenti sviluppi nelle tecnologie

informatiche come l'uso contemporaneo di numerosi processori "in parallelo",

Una applicazione allo studio delle strutture proteiche

65

con conseguenti miglioramenti nella efficienza computazionale misurabili in

ordini di grandezza.

I limiti riscontrati nelle applicazioni realizzate finora indicano tuttavia che

non ci si puo' aspettare miglioramenti sostanziali nella soluzione del problema

da un uso indiscriminato del metodo in termini di scatola nera. Esso va visto,

a nostro parere, come un ulteriore strumento di indagine, potente e flessibile,

che si aggiunge agli altri già in nostro possesso, complementandoli con

caratteristiche nuove ed originali.

Figura 3.2L'algoritmo ciclico di apprendimento per un percettrone

da usare nella predizione di strutture secondarie di proteine

Esempio iesimo dicorrispondenza notafra strutture prima-ria e secondaria.

Lo strato diInput codificala sequenza

Lo strato diOutput codifi-ca la strutt.secondaria

Loop 1

Si ottimizza-no la forza delle sinapsie le soglie

FINE

Y

Loop 2

La riduzione

in ∆C è asintotica?

N

Calcolo di∆C = C(i)-C(i-1)

Calcolo di C(i)

Nota: L'apprendimento consiste nel minimizzare una funzione (C) delle differenza frarisultati attesi e risultati ottenuti (cfr. diagramma di flusso in Finestra 3.2) delle unità dioutput di ogni livello neuronico (i = numero di iterazione)

Una applicazione allo studio delle strutture proteiche

66

Figura 3.3 Generica architettura di un percettrone multistrato utilizzato nella

predizione della struttura secondaria di proteine.

G2 G7 G12

123

1920

G1

(Ala) (Phe)

G13

(Trp)

Strato diInput

Sinapsi

Strato intermedio

Sinapsi

coilβα

Strato diOutput

Legenda:Lo strato di “input” è costituito da gruppi di neuroni (G1....G13) il cui numero è pari all'estensione della" finestra mobile" lungo la sequenza da esaminare. I neuroni all'interno di un gruppo (in genere 20) codificano un singolo residuo secondo uno schema binario (Es.: 10000000000000000000 = Ala; 00000000000000000001 = Trp).Lo strato di “output” contiene in genere tanti neuroni quante sono le conformazioni (tipicamente a-elica, b-sheet e random-coil) fra le quali si vuole identificare quella del residuo centrale nella finestra. Sono tuttavia possibili soluzioni alternative (vedi appresso).Lo strato intermedio, se presente, contiene un numero variabile di unità collegate agli strati di input ed output da sinapsi (indicate solo in forma generica nello schema), le cui posizioni e intensità vengono definite nel corso del processo di apprendimento.

Una applicazione allo studio delle strutture proteiche

67

3.3 Implementazione e Risultati

Il caso della Nitrito-reduttasi di Pseudomonas aeruginosa

In questo paragrafo viene descritto un caso interessante di applicazione del

metodo di predizione della struttura secondaria di una proteina che utilizza un

percettrone ad uno strato di sinapsi e l'algoritmo di retropropagazione

dell'errore riportato nella Finestra 3.2. La proteina é la nitrito-reduttasi di

Pseudomonas aeruginosa , un enzima che catalizza la reazione:

2 H+ + 1e- + NO2- -------> H2O + NO

all'interno della catena respiratoria batterica che opera la denitrificazione

dissimilativa ovvero la trasformazione metabolica del nitrato ad azoto [Horio et

al., 1958; Yamanaka, 1961]* .

L'enzima é un omodimero di P.M. 120 KDalton contenente 4 gruppi

prostetici, due emi di tipo c e due emi di tipo d1 [Gudat et al., 1963; Kuronen

and Ellfolk, 1972; Kuronen et al., 1975; Silvestrini et al., 1978], responsabili

dei caratteristici spettri di assorbimento nel visibile dell'enzima. L'eme c

costituisce il sito di interazione con i substrati macromolecolari riducenti

(citocromo c551 ed azzurrina) [Horio, 1960], mentre al livello dell'eme d1

avviene la riduzione del nitrito e l'interazione con altri ligandi tipici delle

emoproteine (NO, CO, O2, etc.). I potenziali redox dei due emi sono poco

diversi fra loro e fortemente dipendenti dalle condizioni sperimentali : pH,

ligandi, etc.

Nuovi motivi d'interesse nello studio di tale enzima sono costituiti da:

A) la disponibilità della struttura primaria, recentemente ottenuta

[Silvestrini et al., 1989];

B) la conoscenza del gene corrispondente, che é stato clonato,

sequenziato e recentemente espresso in un sistema eterologo

(Pseudomonas putida ) [Silvestrini et al., 1992].

* E' interessante notare che l'enzima é anche in grado di catalizzare la riduzione dell'ossigeno molecolare adacqua, secondo la:

4 H+ + O2 + 4e- --------> 2H2O

nonostante ciò avvenga con efficienza minore (e sicuramente con diverso meccanismo) rispetto alla reazionefisiologica (Greenwood et al., 1978). Per questo motivo tale enzima é stato a lungo considerato come unmodello semplificato (perché idrosolubile e meno complesso strutturalmente) della citocromo ossidasimitocondriale.

Una applicazione allo studio delle strutture proteiche

68

Informazioni strutturali disponibili

L'enzima é sintetizzato come una pre-proteina di 567 aminoacidi i primi

22 dei quali costituiscono il peptide segnale che dirige la proteina nello spazio

periplasmatico e che viene successivamente proteolizzato. La proteina matura é

quindi costituita da 543 residui aminoacidici (Figura 3.4 A). Il sito dell'eme c

é situato vicino all'estremità aminico-terminale della catena polipeptidica; nulla

si sa, viceversa, del sito di legame dell'eme d1.

Per quanto riguarda la struttura secondaria, studi di dicroismo circolare

hanno mostrato una rilevante percentuale di foglietto-β, circa il 48%, ed una

minore percentuale di α-elica, circa il 16% [Tordi et al., 1984].

La bassa qualità dei cristalli finora ottenuti ha impedito qualunque studio

diretto della struttura tridimensionale con la diffrattometria a raggi X. Studi a

bassa risoluzione [Berger and Wharton, 1980; Saraste et al., 1977] indicano

una struttura dimerica le cui dimensioni sono di circa 40 x 80 Å; studi di

fluorescenza [Mitra and Bersohn, 1980] indicano che i quattro emi si trovano ad

un polo del dimero (Figura 3.4 A). Numerose evidenze (studi di denaturazione

termica e di proteolisi in condizioni controllate) suggeriscono variazioni

conformazionali sull'enzima dipendenti dallo stato redox e dalla presenza di

ligandi sugli emi.

Risultati

La osservazione, ampiamente documentata in letteratura [Quian &

Sejnowskj, 1988] e da noi riprodotta che la performance funzionale di un

percettrone dipenda strettamente dalla composizione del 'training set', ci ha

indotto ad esaminare l'efficacia predittiva di un semplice percettrone a 2 livelli,

implementato su un foglio elettronico programmabile (Wingz1.1), ed

addestrato con tre diversi training-sets. I risultati ottenuti, riportati nella

Tabella 3.1, mostrano che in uno dei tre casi la predizione é in accordo

soddisfacente con le stime ottenute dagli spettri di dicroismo circolare delle

percentuali di α-elica e foglietto β esistenti nell'enzima completamente ridotto.

Una applicazione allo studio delle strutture proteiche

69

F i g u r a 3 . 4

I n f o r m a z i o n e s t r u t t u r a l e d i s p o n i b i l e s u l l a n i t r i t or e d u t t a s i d a P s e u d o m o n a s a e r u g i n o s a

A . S t r u t t u r a P r i m a r i a : 543 Aminoacidi

1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 90 | | | | |

K D D M K A A E Q Y Q G A A S A V D P A H V V R T N G A P D M S E S E F N E A K Q I Y F Q R C A GC H G V L R K G A T G K P L T P D I T Q Q R G Q Q Y L E A L I T Y G T P L G M P N W G S S G E L SK E Q I T L M A K Y I Q H T P P Q P P E W G M P E M R E S W K V L V K P E D R P K K Q L N D L D LP N L F S V T L R D A G Q I A L V D G D S K K I V K V I D T G Y A V H I S R M S A S G R Y L L V IG R D A R I D M I D L W A K E P T K V A E I K I G I E A R S V E S S K F K G Y E D R Y T I A G A YW P P Q F A I M D G E T L E P K Q I V S T R G M T V D T Q T Y H P E P R V A A I I A S H E H P E FI V N V K ET G K V L L V N Y K D I D N L T V T S I G A A P F L H D G G W D S S H R Y F M T A A N N S N K V AV I D S K D R R L S A L V D V G K T P H P G R G A N F V H P K Y G P V W S T S H L G D G S I S L IG T D P K N H P Q Y A W K K V A E L Q G Q G G G S L F I K T H P K S S H L Y V D T T F N P D A R IS Q S V A V F D L K N L D A K Y Q V L P I A E W A D L G E G A K R V V Q P E Y N K R G D E V W F SV W N G K N D S S A L V V V D D K T L K L K A V V K D P R L I T P T G K F N V Y N T Q H D V Y

B . S t r u t t u r a Q u a t e r n a r i a a B a s s a r i s o l u z i o n e

Una applicazione allo studio delle strutture proteiche

70

Tabella 3.1

Influenza della composizione del 'training set' sulla predizione della struttura secondariadella nitrito reduttasi di Pseudomonas da parte di un percettrone.

TRAINING SET 1($)

TRAINING SET 2(§)

TRAINING SET 3(&)

dicroismo circolare(*)

(100% riduzione)

HELIX(%)

0.07 0.23 0.20 0.16 ± 0.01

BETA (%) 0.42 0.37 0.50 0.48 ± 0.02

COIL (%) 0.50 0.41 0.29 n. d.

(*) Da Tordi et al. (1984 )($) training set 1 = Bence-Jones protein + SOD (from erythrocytes)(§) training set 2 = b-trypsin + ferredoxin(&) training set 3 = subtilisin inhibitor + plastocyanin

----------------------------------------

Tali risultati indicano che la miglior strategia per ottimizzare la

performance di un percettrone nella predizione delle strutture secondarie

incognite consista non tanto nell'amplificare il più possibile le dimensioni del

training set usato nella fase di addestramento, quanto nello scegliere con

estrema cura la sua composizione. Questo, ovviamente, assegna una

responsabilità primaria al ricercatore, che deve utilizzare tutta l'informazione

disponibile sul sistema in studio e su quelli ad esso in qualche modo correlati e

di struttura nota*. Laddove ciò si rivelasse un compito difficile o impossibile,

tuttavia, si dovrebbe ancora poter sfruttare le capacità classificatorie delle mappe

di Kohonen per individuare automaticamente, sulla base della conoscenza della

sola struttura primaria, i migliori candidati per la composizione del training-set.

* Numerosi autori hanno già suggerito, del resto, di ricorrere sistematicamente alla considerazione delleomologia di sequenza e di struttura secondaria, per risolvere il problema - ben più complesso - delladeterminazione della struttura terziaria.

Una applicazione allo studio delle strutture proteiche

71

Appendice A.3:

Confronto fra metodi statistici e connessionisti

1. METODI STATISTICI

Chou e Fasman (1978)

Tale metodo si basa sulla definizione del cosiddetto “parametro conformazionale”

Pj,k per ogni residuo J ed ogni conformazione k, corrispondente alle frequenze con cui il

residuo appare in quella configurazione all'interno di un data-base, normalizzate rispetto

alla frequenza media della configurazione: Pj,k = fj,k / <fk>. In tal modo é possibile

individuare, lungo una struttura polipeptidica qualsiasi, dei siti di nucleazione specifici

per ogni configurazione usando il metodo della finestra mobile: <Ps> = Ps,j / (n+1) ,

dove Ps,j é la propensità per la conformazione k del residuo in posizione j lungo un

frammento di sequenza lungo n+1. Così, ad esempio, le due coppie di condizioni

seguenti:

<Pβ> ≤ <Pα> e 1.03 ≤ <Pα>, all'interno di un esapeptide; e

<Pα> ≤ <Pβ> e 1.05 ≤ <Pβ>, all'interno di un pentapeptide,

indicano, rispettivamente, siti di nucleazione per un'alfa elica e un foglietto beta.

I maggiori problemi, con tale metodo, nascono dalla difficile definizione della

lunghezza dei tratti in una specifica struttura e dalla predizione dei "beta-turns" o

"hairpines", che spesso si sovrappongono e distruggono le altre strutture. E' stato notato

che perfino la diretta implementazione della più semplice e primitiva versione del

metodo originale, non fornisce risultati riproducibili per l'ambiguita delle regole suggerite

nel definire i casi dubbi.

Garnier (1987).

L'idea di base sviluppata da Garnier consiste nel mappare la correlazioni

statistiche esistenti fra strutture primaria e secondaria sotto forma di "tavole"

contenenti i cosiddetti "indici di propensità" di un dato residuo per una data struttura

secondaria sulla base della natura chimica del residuo e dei suoi immediati vicini nella

sequenza. Più specificamente, il metodo é basato sulla valutazione della funzione

seguente:

I = (Sj = X : <X> ; Rj-w , ... Rj-w)

Una applicazione allo studio delle strutture proteiche

72

dove I rappresenta l'informazione relativa allo stato conformazionale del j-esimo

residuo (Sj) e incorporata nella natura chimica dei 2*W+1 residui (Rj-w , ... Rj-w)

all'interno di una finestra di mezza-larghezza = W e centrata sul residuo j-esimo. X é

una specifica struttura secondaria (α-elica, foglietto-β o random-coil) e <X>

rappresenta le altre strutture diverse da X. Nell'articolo originale di Garnier et al.

(1987), il modo di ricavare rigorosamente I dalle frequenze osservate nelle strutture di

proteine note é descritto nei partifcolari. Gli "indici di propensità" forniti nell'articolo in

effetti si riferiscono alla seguente espressione semplificata:

I (S j

m = -8

m = +8

∑ = X : X ; R j + m )

in cui l'influenza esercitata sui residui contenuti in una finestra di mezza-larghezza=8

vengono assunti come indipendenti l'uno dall'altro, e quindi semplicemente additivi. Gli

autori sottolineano, d'altra parte, che qualunque altra approssimazione meno drastica

sarebbe resa inutile dalla scarsità dei dati sperimentali disponibili.

2. METODI CONNESSIONISTI

Holley and Karplus (1989)

Lo strato di Input consiste in una finestra di 17 gruppi. Ogni gruppo è costituito da

21 neuroni, uno per ciascuno dei 20 aminoacidi, più uno usato quando la finestra mobile

si sovrappone con l'estremità della catena polipeptidica. Lo strato intermedio contiene

due soli neuroni. Anche lo strato di output contiene due soli neuroni, che codificano le

strutture secondarie secondo lo schema : (1,0) = a ; (0,1) = b ; (0,0) = coil. I reali

positivi compresi fra 0 ed 1 che costituiscono i valori effettivamente assunti dalle unità

di output (vedi Tavola I), vengono discretizzati in 0 o 1 con l'uso di un valore di

soglia, anch'esso ottimizzato durante il processo di apprendimento. In definitiva, l' a-

elica è assegnata a quei gruppi di almeno quattro residui contingui che abbiano valori

della prima unità di output maggiori sia della seconda, sia della soglia; il b-sheet è

assegnato ai gruppi di almeno due residui contigui per i quali i valori della seconda unità

di output siano maggiori sia della prima sia della soglia; il random-coil é assegnato a

tutti i rimanenti valori.

Una applicazione allo studio delle strutture proteiche

73

Qian and Sejnowski (1988)

La rete standard usata da questi autori comprende: uno strato di output

corrispondente ad una finestra di 13 residui, ognuno dei quali codificato da 20 neuroni;

uno strato di output formato da 3 unità, ciascuna rappresentante una possibile

conformazione secondaria da assegnare al residuo centrale della finestra; uno strato

intermedio formato da 40 unità nascoste. Un piccolo ma significativo miglioramento

nelle prestazioni è stato notato da questi autori utilizzando due reti in serie, in modo che,

a parità di tutte le altre condizioni, l'output della prima divenga l'input della seconda.

Quest'ultimo risulta in tal modo costituito da 13 gruppi con tre unità per gruppo, e

contiene tutta l'informazione relativa alla struttura secondaria derivante dalla prima rete.

Bohr et al. (1988)

Le particolarità nelle reti usate da questi autori, consistono in: a) finestre molto

ampie, comprendenti 25 residui per lato; b) strato di output composto da 2 unità

codificanti (il livello di confidenza per) la presenza o l'assenza di una singola

configurazione secondaria. Cio' significa che ottenere il quadro completo della struttura

secondaria di una proteina comporta l'uso di tante reti, ciascuna specializzata per una

particolare configurazione. Per il resto, le reti usate da questi autori sono molto simili a

quelle usate da Qian e Sejnowski.

3. CONFRONTO TRA METODI DIVERSI

La stime dell'efficienza predittiva di un qualunque metodo viene effettuata

utilizzando degli indici di affidabilità, alcuni dei quali sono riportati nella Tabella 3.2.

Tabella 3.2Q3 = (percentuale di predizione corretta) = (Pα + Pβ + Pcoil) / N in cui

Pi = residui previsti correttamente nella configurazione i-esima;N = numero totale di residui.

Ci = (coefficiente di correlazione relativo alla configurazione i-esima ) =

= Pin i − uio i

(n i + u i)(n i + o i)(Pi + ui)(Pi + o i )

in cui : i puo' essere una qualunque configurazione ( α, β, coil, ... ) ;Pi = numero di residui previsti correttamente in configurazione iesima;ni = " " non previsti " " " ;oi = " " previsti non correttamente " " ;ui = " " non previsti non correttamente " " .

Una applicazione allo studio delle strutture proteiche

74

Un confronto fra i due approcci alternativi (statistico e connessionista) che tenga

conto soltanto dell'affidabilità dei risultati ottenuti in uno o più casi particolari é, a nostro

parere, scarsamente convincente, perché é difficile garantire che il confronto avvenga in

condizioni esattamente comparabili. Nella Tabella 3.3 vengono comunque riportati i

risultati di due analisi di questo tipo che indicano prestazioni significativamente migliori

nel caso dei percettroni.

Tabella 3.3 Confronto fra metodi statistici e connessionisti

in base agli indici della Tabella 3.2: Q3 ; (Ca, Cb, Ccoil)

autori delmetodo

autori delconfronto

Chou -Fasman

Robson Lim NN (1) NN (2)

Quian &Sejnowski, 1988 (#)

50.0(.25;.19;.24)

53.0(.31;.24;.24)

50.0(.35;.12;.20)

62.7(.35;.29;.28)

64.3(.41;.31;.41)

Holley &Karplus, 1989 ($)

48.0 55.0 54.0 63.0(.41;.32;.36)

Note:NN (1) e NN (2) si riferiscono rispettivamente a una e due reti neuronali (in serie). In tutti i casil’assegnazione delle strutture secondarie è basata sull’algoritmo di Kabsch and Sander (1983).(#) “training” = 18105 residui / 91 proteine ; “test” = 2441 residui / 15 proteine($) “training” = 8315 residui / 48 proteine ; “test” = 2441 residui / 14 proteine

Una applicazione allo studio delle strutture proteiche

75

Bibliografia del Capitolo 3

Berger H. and Wharton D. C. (1980) Biochim. Biophys. Acta, 622,355-359.Branden C. and Tooze J., (1991), "Introduction to protein strucure", Garland Pub., N.Y.

and London.Chou P.Y. and Fasman G.D., (1978) , Adv. Enzymol. 47, 45-148Cohen F.E., Abarbanel R.M., Kuntz I.D. and Fletterick R.J.; (1986), Biochemistry 25,

266-275.Ferràn E. A. and Ferrara P. (1991), Biol. Cybern. 65, 451-458Gibrat J.-F., Garnier J. and Robson B; (1987), "Further developments of protein secondary

structure prediction using information theory", J. Mol. Biol. 198, 425-443.Greenwood C.,Barber D., Parr S.R.,Antonini E.,Brunori M. and Colosimo A.(1978),

Biochem. J. 173, 11-17.Gudat J.C., Singh J. and Wharton D.C. (1973) Biochim. Biophys. Acta 292, 376-390.Horio T., Higashi T., Matsubara H., Kusai K., Nakai M. and Okunuki K.(1958) Biochim.

Biophys. Acta 29, 297-302.Horio T., Higashi T., Sasagawa M., Kusai K., Nakai M. and Okunuki K. (1960) Biochem.

J. 77, 194-201Kabsch W. and Sander C. , (1983), Biopolymers, 22, 2577-2637.Kuronen T., and Ellfolk N. (1972) Biochim. Biophys. Acta 275, 308-318.Kuronen T., Saraste M. and Ellfolk N. (1975) Biochim. Biophys. Acta 393, 48-54.Lesk A.M., (1991), "Protein Architecture: a practical approach", IRL Press, Oxford.Lim V.L., J. Mol. Biol., 88, 873, 1974.Parr S.R., Barber D., Greenwood C., Phillips B.W. and Melling J. (1976) Biochem. J.

157, 423-430.Pascarella S., Colosimo A. and Bossa F., (1990), "Computational analysis of protein

sequencing data", in "Laboratory methodology in Biochemistry", (Fini C. andWittman-Liebold B. eds.), CRC Press, Boca Raton (USA)

Qian N. and Sejnowski T.J. (1988) . Predicting the secondary structure of globularproteins using neural networks models. J. Mol. Biol. 202, 865-884

Saraste M., Virtanen I. and Kuronen T. (1977) Biochim. Biophys. Acta 492, 156-162.Silvestrini M. C., Colosimo A., Brunori M., Walsh T.A., Barber D. and Greenwood C.

(1978) Biochem. J. 183, 701-709.Silvestrini M.C., Cutruzzolà F., D' Alessandro R., Brunori M., Fochesato N. and Zennaro

E., Biochem. J. (1992) 285, 661-666.Silvestrini M.C., Galeotti C.L., Gervais M., Schininà E. , Barra D. , Bossa F. and Brunori

M., FEBS Letters (1989), 254, 33-38.Silvestrini M.C., Tordi M.G., Musci G. and Brunori M. (1990) J. Biol. Chem. 265, 11783-

11787.Tordi M.G., Silvestrini M.C., Colosimo A., Provencher S. and Brunori M., (1984),

Biochem. J., 218, 907-912.Tordi M.G., Silvestrini M.C., Colosimo A., Provencher S., and Brunori M., (1984),

Biochem.J., 218, 907-912.Tordi M.G., Silvestrini M.C., Colosimo A., Tuttobello L., and Brunori M., (1985),

Biochem.J., 230, 797-805.Yamanaka T. (1972) Adv. Biophys. 3, 227-276.Yamanaka T., Ota A. and Okunuki K. (1961) Biochim. Biophys. Acta 53, 294-308.

Una applicazione allo studio delle strutture proteiche