Modulo di reti neuronali · 2008. 5. 27. · Modulo di reti neuronali Appunti del corso 2007-2008...

49
I NTELLIGENZA A RTICIFIALE Modulo di reti neuronali Appunti del corso 2007-2008 Alessio Plebe e-mail: [email protected]

Transcript of Modulo di reti neuronali · 2008. 5. 27. · Modulo di reti neuronali Appunti del corso 2007-2008...

  • INTELLIGENZA ARTICIFIALE

    Modulo di reti neuronaliAppunti del corso 2007-2008

    Alessio Plebee-mail: [email protected]

  • 2

  • Indice

    1 Tra due storie 51.1 Il secolo del cervello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.1.1 Tra chimica ed elettricità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.1.2 Il passaggio stretto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.3 Funzioni neuronali e plasticità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.2 Un avvio difficile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.1 Un personaggio famoso, una sua proposta dimenticata . . . . . . . . . . . . . . . 121.2.2 Difficoltà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.3 Le conferme della plasticità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.1 La plasticità in reti di neuroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    1.4 L’affermazione delle reti artificiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2 Le reti a strati 192.1 Funzionamento di base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.1.1 Esempi ed applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2 Il metodo di apprendimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    2.2.1 Esempio di apprendimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.2.2 Criteri progettuali di esperimenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    2.3 Trovare strutture nel tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.3.1 L’apprendimento della sintassi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3 Senza maestri 353.1 L’auto-organizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2 Reti SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    3.2.1 Mappe di bevande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3 Reti LISSOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    Bibliografia 47

    3

  • 4 INDICE

  • Capitolo 1

    Tra due storie

    Lo sviluppo delle reti neuronali artificiali ha avuto luogo nell’incrociarsi di due storie parallele.Una riguarda l’avvento e il progresso di quella che è stata certamente la più rivoluzionaria discipli-

    na del secolo scorso: la neuroscienza. L’altra è invece una particolare area all’interno dell’informatica,la cosiddetta intelligenza artificiale, che si è proposta l’ideazione di programmi al calcolatore in capaci direplicare in qualche misura comportamenti della mente umana. Mentre al suo avvio, negli anni ’50, l’in-telligenza artificiale faceva riferimento all’idea comune di come funziona la mente, al più supportata dalquadro fornito dalla psicologia tradizionale, parallelamente le neuroscienze stavano cominciando a far luceproprio sui meccanismi reali della mente, iniziando a svelare come essa sia basata su circuiti elettrici chefunzionano da calcolatori.

    È evidente che, pur essendo i due ambiti molto lontani, per metodologie, culture, linguaggi, era ecla-tante la coincidenza che si andava delineando sul loro oggetto di attenzione. Anziché inventare softwareche replicasse funzioni mentali con puro sforzo immaginativo, si apre la prospettiva di verificare empirica-mente, misurare le computazioni reali che svolgono tali funzioni. E dalla parte del neuroscienziato, se ilcervello che vuole indagare è una sorta di calcolatore, quale fortuna poterne avere un surrogato interamenteprogettabile dall’uomo, e quindi più facilmente replicabile ed analizzabile in tutti i suoi dettagli.

    Come si vedrà, le cose non sono andate cosı̀ lisce, un po’ per posizioni teoriche, non favorevoli aquesto connubio, un po’ per l’evidenza, emersa molto presto, di quanto siano radicalmente diversi i duecomputer, quello al silicio realizzato dall’uomo, e quello biologico ideato dalla natura. Pur nelle notevolidifficoltà, il settore delle reti neuronali artificiali è diventato oramai da molto tempo dominante nell’ambitodell’intelligenza artificiale, è in continua espansione, e recentemente è sempre più considerato all’internodelle neuroscienze stesse, come aiuto effettivo alla comprensione dei meccanismi neuronali. Da ancor piùtempo è diventato uno dei settori centrali nelle scienze cognitive, come strumento di modellazione di unavasta gamma di comportamenti mentali, anche ad alto livello, con la speranza di replicare almeno qualcosadi ciò che veramente succede nella nostra mente.

    1.1 Il secolo del cervelloLe neuroscienze sono sorprendenti anzitutto perché nessun’altro campo del sapere ha fatto un salto cosı̀drastico in un secolo. Per quanto settori come, per esempio, la fisica delle particelle e la cosmologia sianodomini sempre più avanzati, con la continua messa in discussione di paradigmi un tempo assodati, unabuona parte delle conoscenze attuali poggia su una continuità di scoperte databile almeno tre secoli. Per nonparlare di felici intuizioni ben prima della nascita della scienza moderna, basti pensare alla teoria atomisticadi Democrito. Nessuno invece aveva avuto mai un’intuizione analoga su come potesse funzionare la menteumana. Su cui c’era una mancanza di conoscenza veramente profonda, fino al 1900, proprio con l’inizio ditale secolo si accendono i riflettori su quel mirabile elemento di calcolo, che ne è la base: il neurone.

    Cosı̀ fu battezzato questo tipo di cellula dal medico tedesco Wilhelm Waldeyer, nel 1891, il periodo

    5

  • 6 CAPITOLO 1. TRA DUE STORIE

    sinapsi

    soma

    assonedendriti

    hillockzone

    Figura 1.1: Schema di una cellula neuronale.

    in cui nasce la nuova neuroscienza. Camillo Golgi trovò che alcuni sali di argento coloravano le cellulecerebrali in modo da evidenziare nettamente le loro ramificazioni distinguendole dallo sfondo, ma testar-damente continuò a considerare il cervello come un unico tessuto piuttosto spugnoso, e quindi il meritodella grande scoperta andò al suo rivale Santiago Ramón y Cajal. Questi aveva notato che c’era una leggeradiscontinuità lungo quei filamenti, indizio che lo portò a diverse buone intuizioni. Anzitutto capı̀ che lı̀ ter-minava una cellula e ne cominciava un’altra, poi che queste cellule erano più o meno dello stesso tipo, infineche la chiave del loro modo di funzionare andava cercata in questi loro stretti accoppiamenti [55]. Cosain effetti transitasse attraverso quei filamenti, che collegavano in reti incredibilmente complesse un numerosterminato di neuroni, rimaneva misterioso, quindi per diversi anni la scarsità di elementi certi dissuase daltentare una costruzione teorica.

    Nei decenni successivi arrivarono dei primi risultati certi sulla natura del collegamento tra questi neu-roni; Otto Loewi dimostrò che all’interno del neurone la trasmissione è sostanzialmente elettrica, mentre traneuroni è di tipo chimico, e la sovrapposizione dei due principi doveva avvenire in un insieme tutt’altro chesemplice. Come lo è invece la Fig. 1.1, qui impiegata per schematizzare questa cellula, descritta a seguitonel suo funzionamento di massima.

    Il neurone è formato dal corpo cellulare centrale, chiamato soma (dal greco ������� = corpo), e da diver-se ramificazioni. I dendriti (dal greco ��������� = albero) sono in un certo senso i canali di input, in quantocaptano segnali da altri neuroni, convogliandoli al soma che si comporta di conseguenza. Uno degli effettipiù importanti è la possibilità di emettere un segnale elettrico, che si propaga lungo l’assone, una sorta dicanale di output del neurone, attraverso cui il segnale viaggia verso altri neuroni. Nel punto di attacco del-l’assone al soma vi è un restringimento (la cosiddetta hillock zone) dove normalmente è inibito il passaggiodel segnale di output. Al confine tra l’assone di un neurone che trasmette e il dendrite di uno ricevente visono le sinapsi (dal greco ��� ����� � = punto di contatto), che possono modulare con continuità il segnalein transito, attenuandone o meno l’effetto sul neurone che sta ricevendo. Le sinapsi sono delle interfacce,la presinapsi fa parte del neurone trasmittente e le postsinapsi, situate sui dendriti, sono parte del neuroneche riceve. Tutto questo sistema di comunicazioni, come accennato prima, si basa su fenomeni sia elettriciche chimici: il neurone assume una carica elettrica soprattutto perché nel suo interno si accumulano ioni,solitamente positivi, ma l’accesso di questi ioni attraverso la membrana cellulare è regolato da fenomenichimici nelle sinapsi, che verranno esaminati in dettaglio più avanti.

    Dato l’esile spessore della membrana neuronale, basta anche una modesta differenza di potenzialetra l’interno e l’esterno della cellula per dar luogo a campi elettrici notevoli, tipicamente intorno a 100.000Volt/cm (quanto basterebbe per esempio a produrre un arco voltaico nell’aria). Quando questo campo superaun certo valore, il potenziale che manteneva la chiusura della hillock zone si abbatte, e si crea un’onda dicariche che attraversa tutto l’assone verso nuovi neuroni. Questo canale è attivo, nel senso che riesce amantenere il livello elettrico indipendentemente dalla distanza, compito che richiede un continuo scambio

  • 1.1. IL SECOLO DEL CERVELLO 7

    ∂V

    ∂t= δ

    ∂2V

    ∂x2+ I + F (V, yNa+ , yK+ , yL) , (1.1)

    ∂yNa+

    ∂t= γNa+ (V ) yNa+ + αNa+ (V ) , (1.2)

    ∂yK+

    ∂t= γK+ (V ) yK+ + αK+ (V ) , (1.3)

    ∂yL

    ∂t= γL (V ) yL + αL (V ) . (1.4)

    Tabella 1.1: Le equazioni di Hodgkin-Huxley, V è la tensione elettrica e I la corrente, x lo spazio monodimensionale,yX sono concentrazioni, le equazioni (1.2) e (1.3) descrivono i canali ionici di sodio e potassio, la (1.4) il termine didispersione, e la (1.1) somma i contributi al potenziale elettrico; F , γi e αi sono funzioni non lineari.

    40 mV

    −70 mV

    4 msec

    V

    t2 msec

    Figura 1.2: La tipica forma d’onda del fenomeno chiamato action potential.

    di molecole tra il soma e ogni tratto dell’assone, la velocità di trasmissione è bassa, intorno a 1.5 m. alsecondo, come una persona che cammina di buon passo. Nei dendriti la trasmissione è invece passiva, mala loro lunghezza è tipicamente minore rispetto all’assone.

    1.1.1 Tra chimica ed elettricitàUna svolta storica nella comprensione di cosa succede nel neurone, avviene verso metà secolo. Due fisio-logi inglesi, Alan Lloyd Hodgkin e Andrew Fielding Huxley, nel 1952 a coronamento di un decennio distudi sui fenomeni elettrochimici delle membrane cellulari, realizzano un modello completo di come fun-ziona veramente il neurone [26], comunemente denominato H-H, che ancora oggi rimane il riferimento pereccellenza.

    Il loro sistema di quattro equazioni differenziali non lineari (Tab. 1.1), tecnicamente denominate direazione-diffusione, non è di facile soluzione, quelle più generali richiedono tecniche (indici di Conley,biforcazione di Hopf, etc.) la cui frequentazione è decisamente riservata ai professionisti della matematica.Solamente negli anni recenti, grazie al continuo incremento nelle prestazioni dei computer, è stato possibilesimulare queste equazioni, come si vedrà in §??.

    È relativamente semplice invece l’effetto complessivo principale di quelle quattro equazioni. Si trattadel cosiddetto AP (Action Potential), o spike, la tipica forma d’onda che per prima fu osservata da Emiledu Bois-Reymond, e inizialmente denominata negative Schwankung [?]. È un impulso elettrico piuttostobrusco, che si propaga come un’onda lungo l’assone, mantenendo la sua caratteristica forma, illustrata nellaFig. 1.2, è questo il fenomeno più importante del modello H-H. La causa di tutto ciò sono delle correntiioniche, soprattutto formate da K+, Na+, e Ca++ (ioni potassio, sodio e calcio), che trovano delle apertureselettive (i canali ionici) dove possono essere invitati all’interno della cellula, e questo grado, per cosı̀dire, di ospitalità dipende non solo dallo stato elettrico alle estremità dei dendriti, ma anche dallo stato dipolarizzazione all’assone, ovvero dal punto in cui ci si trova nell’asse temporale della Fig. 1.2. Tipicamente

  • 8 CAPITOLO 1. TRA DUE STORIE

    un impulso di AP inibisce per un attimo le condizioni che lo favoriscono, in termini elettrici succede cheimmediatamente dopo l’emissione di un AP il potenziale della membrana è ancod più negativo (rispettoall’esterno del neurone) che in condizioni abituali. IL comportamento tipico di un neurone quando si trovisollecitato ai suoi ingressi è di produrre un treno di AP, molto simili tra loro, tanto più ravvicinati tanto piùintenso è l’accumulo di segnali in ingresso.

    Attualmente la lista completa degli ioni che partecipano alla formazione degli AP si è estesa ad otto[20], è evidente quindi quanta sofisticazione e molteplicità di controllo sia esercitata nella generazionedell’AP, sempre a livello di un singolo neurone.

    Naturalmente dalle soluzioni di quel sistema di equazioni si deducono anche le condizioni precise chedanno luogo ad un AP. Come detto oggi sono disponibili dei simulatori dove è possibile ricostruire al com-puter un neurone completo, ed ammirare la sua AP in uscita dall’assone [5], sono software particolarmentepesanti, con cui non è pensabile simulare connessioni di molti neuroni, anche con numeri ben lontani daquelli di una rete entro cui possa svolgersi anche la più elementare delle funzioni cognitive.

    Nonostante la sua veneranda età il modello H-H continua ad essere un riferimento, le sue evoluzionipiù recenti e l’individuazione di alcuni fenomeni non compatibili [56, 25] rimangono abbastanza marginali.Originariamente fu sviluppato solo per descrivere la forma d’onda che transitava nell’assone, ma senzasignificative variazioni fu adattato al soma [7] e anche ai dendriti [66]. Negli ultimi anni c’è stato anchechi ha cercato di elaborare modelli più semplici, suscettibili di una comprensione intuitiva, pur essendoapprossimazioni accettabili del modello H-H, che vanno in direzione di una matematica costitutiva dellereti neuronali. Uno dei più popolari è quello correntemente denominato integrate-and-fire (accumula espara), in cui il potenziale della membrana è regolato dalla sola equazione differenziale lineare [19]:

    τ∂V

    ∂t+ V (t) = kI(t) (1.5)

    dove V e I sono tensione e corrente elettrica, come nella (1.1), τ è la costante di tempo di scarica della mem-brana, k una costante (dimensionalmente una resistenza elettrica). Il comportamento non lineare dell’AP,che la (1.5) non può descrivere, è ottenuto aggiungendo le condizioni sopra cui può prodursi l’onda:

    V (t) > θ (1.6)∂V

    ∂t> 0 (1.7)

    dove θ è la soglia che deve raggiungere il neurone per “sparare”. Nei più riusciti di questi tentativi disemplificazione risulta che il neurone integrate-and-fire riproduce al 90% quello H-H [32].

    1.1.2 Il passaggio strettoIl modello H-H e i suoi derivati rappresentano un’approssimazione accettabile per il comportamento elet-trico nel neurone ma non possono dire niente su quell’oscura interfaccia dove l’elettricità cessa di essereprevalente: la sinapsi. Il termine fu introdotto all’inizio del secolo scorso dal neurofisiologo inglese CharlesSherrington che ne intuı̀ l’importanza, pur senza essere in grado di individuarne i meccanismi di funzio-namento [61]. È il punto di contatto tra due neuroni, la zona dove termina il percorso di un’onda AP nel-l’assone e si affaccia il dendrite del neurone successivo, che verrà informato dell’eccitazione del neuroneprecedente non più elettricamente, ma tramite segnali chimici.

    Non esiste una trattazione matematica adeguata per questo processo, anche la sua comprensione qua-litativa è stata problematica e tuttora non si può considerare esauriente. È stato anche motivo di una delledispute neuroscientifiche più accese, che ha visto da un lato Otto Loewi e Henry Dale, sostenitori della co-municazione chimica attraverso la sinapsi, e dall’altro John Eccles convinto della sua natura elettrica, con lateoria del rapid detonator response, un presunto modo piuttosto esplosivo con cui l’action potential termi-nerebbe la sua corsa, inducendo prorompenti ripercussioni sui vicini dendriti. Nonostante nel 1921 Loewidimostrasse l’azione dell’acetilcolina, il primo neurotrasmettitore scoperto [12], con attribuzione nel 1936del Nobel a lui e Dale, Eccles non si diede per vinto, contando anche sull’appoggio e l’incoraggiamento

  • 1.1. IL SECOLO DEL CERVELLO 9

    Ca++

    Ca++

    Ca++

    +

    AC

    assone

    dendrite

    spina dendritica

    terminazionepresinaptica canale

    ionico

    glutammato

    terminazionepostsinaptica

    Na

    recettore

    CaM

    Figura 1.3: Schema di una sinapsi eccitatoria. L’arrivo dell’AP nell’assone apre il canale ionico con influsso di ioniCa++ che, attraverso la CaM, calmodulina proteinchinasi, provocano l’apertura delle vescicole/ glutammato. Molecoledi glutammato si diffondono cosı̀ verso l’esterno, e si legano con i relativi recettori nella terminazione postsinaptica,con conseguente apertura di un altro canale ionico, attraverso cui penetrano ioni Na+. Altre molecole non provenientidalla presinapsi possono raggiungere diversi tipi di recettori, dal cui legame consegue un aumento del livello ionico,per esempio di Ca++ tramite la AC, adenilciclasi.

    di Karl Popper, perseverando le ricerche delle sinapsi elettriche fino al 1951 quando dovette arrendersi alletroppe evidenze sperimentali [13].

    Nella Fig. 1.3 si è schematizzata una sinapsi evidenziando i suoi meccanismi più importanti. Suppo-nendo che l’assone venga percorso da un AP, alla terminazione presinaptica si verifica una forte depolariz-zazione (ovvero la membrana possiede all’interno una carica più positiva che all’esterno), che modifica lapermeabilità dei cosiddetti canali ionici. Si tratta di vere e proprie valvole di controllo elettrochimiche natu-rali, i cui dettagli furono scoperti solamente nel 1976 da Erwin Neher e Bert Sakmann, che possono aprirsie chiudersi per far passare solamente determinati ioni, a seconda se sono soddisfatte certe condizioni [49].Nel caso della terminazione presinaptica è proprio l’AP a determinarne l’apertura, che facilita l’ingresso diioni calcio. La sinapsi in questa zona contiene diverse vescicole, che sono contenitori chiusi con una dosedi neurotrasmettitori, molecole che hanno funzione di comunicazione tra diversi neuroni. La presenza degliioni, tramite trasformazioni chimiche, causa la fusione della pellicola esterna delle vescicole alla membranadell’assone, con il suo svuotamento di neurotrasmettitori all’esterno. Tutto questo processo dura un paio dimillisecondi.

    Dall’altro lato, separata da uno spazio sottile (detto synaptic cleft), c’è la parete postsinaptica dellaspina dendritica, parte del neurone successivo. Qui si affacciano tanti recettori, protuberanze che hannoaffinità a catturare un determinato tipo di molecola. Alcuni recettori saranno quelli sensibili proprio alneurotrasmettitore rilasciato, e sono l’estremità esterna di un canale ionico “controllato”, che si apre solo

  • 10 CAPITOLO 1. TRA DUE STORIE

    aspartate

    − − − − − − − + + + + + +

    glutammatoGABA

    Na+−K+ Cl

    Figura 1.4: Due diverse classi di interazioni sinaptiche. Quella a sinistra è di tipo inibitorio, e favorisce l’aperturadei canali di potassio in uscita ed eventualmente cloro in entrata, provocando una iperpolarizzazione IPSP. A destra c’èinvece una eccitatoria, che apre canali ionici di sodio in entrata, depolarizzando il dendrite.

    quando vengono catturate molecole del neurotrasmettitore. Anche i canali ionici sono selettivi, caso dellaFig. 1.3 il canale che si apre è quello del sodio Na+, che entrando depolarizza il dendrite, ovvero facilital’innesco di un AP, cosı̀ come descritto dal modello H-H. Il tempo impiegato da questa reazione è dell’ordinedi un centesimo di secondo.

    Un altro meccanismo che influenza pure la probabilità di eccitazione del neurone è provocato da mo-lecole a cui corrispondono recettori con affinità selettiva sulla postsinapsi, che non comandano direttamentecanali regolanti l’afflusso di ioni in ingresso o entrata, ma che innescano all’interno catene reattive chimi-che il cui effetto finale è la modifica del livello di ioni all’interno del dendrite. Nell’esempio della Fig. 1.3l’effetto è un’ulteriore depolarizzazione della membrana.

    Esistono diversi neurotrasmettitori, è anzitutto importante la distinzione in due classi, a seconda se laloro presenza inibisca oppure favorisca l’eccitazione del neurone che li recepisce. È utile specificare chequi ci si riferisce ai neuroni cerebrali, quelli periferici hanno caratteristiche diverse, per esempio l’acetilco-lina, il famoso primo neurotrasmettitore scoperto, è il principale nella periferia ma non nel cervello. Qui ilmessaggero che va per la maggiore è il glutammato, insieme con l’aspartate rappresenta una buona partedei segnalatori chimici che facilitano l’eccitazione dei neuroni vicini. Il maggior responsabile dell’effet-to opposto è una di quelle molecole dal nome impossibile (acido glicinico-gamma-aminobutirrico), di cuiconviene decisamente usare l’acronimo, GABA. I neuroni caratterizzati da questo neurotrasmettitore sonodi conseguenza denominati GABA-ergic, e quando si eccitano inibiscono tutti quelli raggiunti dal loro as-sone. I due diversi effetti, che sono stati schematizzati nella Fig. 1.4, vengono denominati IPSP (InhibitoryPostsynaptic Potential) e EPSP (Excitatory Postsynaptic Potential).

    A questo punto della storia sul versante della neuroscienza, è opportuno sottolineare che sia gli studivisti nelle sezioni precedenti che soprattutto l’impianto delle reti artificiali che ne deriveranno successiva-mente, sono all’insegna di quello che si può chiamare paradigma del neurone, ovvero che questa cellulasia l’elemento primario di calcolo. Il compito di modelli superiori è di vedere le funzioni che si realizzanomediante complesse composizioni di questo atomo elaborativo. Come ha insegnato Thomas Kuhn non c’èparadigma scientifico che non sia rivedibile, comportando radicali cambiamenti nei programmi di ricerca[36], potrebbe essere il caso del neurone. Averlo assunto come mattone del calcolo cerebrale è stata un’i-potesi proficua, che ha portato a tante spiegazioni convincenti, ma un cambiamento di paradigma potrebbestravolgere l’impianto finora costruito. Non è una generica avvertenza, per esempio alcuni sospettano chele vere unità di calcolo siano certi segmenti di dendrite [73, Cap. 13].

    1.1.3 Funzioni neuronali e plasticitàUno degli aspetti più complessi ed ancora oscuri del funzionamento neuronale riguarda le modalità concui una rete si evolve nel tempo, modificandosi in modo da compiere una determinata funzione. È ciò che

  • 1.1. IL SECOLO DEL CERVELLO 11

    viene spesso denominato plasticità. Rientra in questo processo uno dei problemi di fondo, la specializza-zione delle varie aree cerebrali a funzioni completamente diverse, pur supportate dallo stesso elemento ingrado di calcolare, ma anche una varietà di fenomeni che vanno sotto il nome di memoria, apprendimento,adattamento e persino la riconversione di intere aree cerebrali in seguito a lesioni.

    Il problema può essere posto chiaramente in termini matematici: una collezione di neuroni omogeneidelle dimensioni di quelle tipiche cerebrali può esplicare potenzialmente infinite funzioni diverse, quellaspecifica attuata contingentemente non è che il risultato di come si è strutturata nel tempo quella particolarecollezione. È evidente che far luce su questo processo sarebbe cruciale per l’indagine cognitiva, è propriola plasticità ciò che rende un cervello amorfo, una collezione di neuroni ancora non specializzati alle lorofunzioni, una mente umana, ovvero un dispositivo in cui i neuroni si sono affinati mediante la plasticitàa svolgere le funzioni che permettono al suo organismo di esplicare tutte i complessi comportamenti cherichiede la vita. Purtroppo di tutto questo si sa ancora veramente poco. Certamente l’impronta al funzio-namento di una rete deriva dallo stesso funzionamento della rete nel tempo, in altri termini è l’esperienzadell’individuo a forgiare i suoi circuiti cognitivi. Nella formazione del sistema nervoso intervengono anchemeccanismi globali pilotati dalla genetica, altro campo in cui si comincia appena adesso ad avere qualcheinformazione, ma il loro contributo non può che essere esiguo rispetto al processo di strutturazione dellereti neuronali. Ce ne si può rendere conto immediatamente da banali considerazioni quantitative sull’in-formazione. Basta fare un calcolo per difetto supponendo che tutte le regole di funzionamento del cervellosiano racchiuse solamente nell’efficienza delle trasmissioni sinaptiche, rappresentabili in non più di un cen-tinaio di diverse gradazioni. Esistono circa 1015 sinapsi, che quindi non possono richiedere meno di 1017bit di informazione per essere specificate, contro i 109 bit dell’intero genoma umano. Si tratta certamentedi un’argomentazione molto superficiale, ma 8 ordini di grandezza sono un abisso tale da rendere difficileogni replica.

    When an axon of cell A is near enough to excite cell B and repeatedly or persistently takes part in firingit, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, asone of the cells firing B, is increased1. [23, p. 62]

    Dell’intera opera The Organization of Behavior di Donald Hebb, questa è la citazione di gran lunga piùfortunata, che ricorre nella maggioranza dei testi sulle reti neuronali.

    Non senza buoni motivi: per lungo tempo infatti l’unico criterio plausibile per spiegare le modifichesinaptiche è stato proprio quest’intuizione di Hebb. Di intuizione si trattava, infatti non vi era all’epocanessun dato sperimentale, e l’unica fonte di ispirazione era un buon senso di stampo psicologico, di fattoHebb può essere considerato il primo dei neuropsicologi. In sostanza, se vi sono motivi per un neurone diattivarsi, e questi motivi co-occorrono tipicamente con qualche altra motivazione che attiva un suo afferente,ci deve essere sotto qualcosa che val la pena codificare nelle sinapsi. Ciò può essere letto filosoficamente,come un principio di rappresentazione del mondo. Se le attivazioni sono derivate da percezioni sensoriali,quella regola non fa altro che rappresentare a livello sinaptico l’associazione tra eventi del mondo, presuntadall’esperienza. La citatissima regola faceva proprio parte di una teoria complessiva sulla visione, in cuiesisterebbero degli analizzatori percettivi innati di poche proprietà elementari, quali contorni, tessiture,angoli, che alimentano assembramenti di cellule la cui strutturazione avverrebbe nel tempo, rafforzando leinterconnessioni corrispondenti alle forme degli oggetti che tipicamente vengono visti. Lo stesso potrebbevalere per rappresentare interrelazioni di tipo linguistico: se un determinato elemento, parola o enunciato,ha una caratteristica concomitanza d’uso con altri enunciati o parole, questo fatto viene progressivamentecodificato come rafforzamento sinaptico.

    La sua regola ha retto abbastanza bene la controprova neuroscientifica, nel senso che non è stata smen-tita categoricamente, quello che è emerso è un quadro decisamente più ampio in cui trova anch’essa collo-cazione. È vero che in diversi casi le modifiche dell’efficienza sinaptica sono da mettere in relazione conquello che avviene localmente tra i due neuroni che vi si affacciano, ma gli effetti possono essere molteplici,i quattro principali sono raggruppati nella Tab. 1.2. Tuttavia le modifiche all’efficienza sinaptica non sono

    1Quando un assone della cellula A è prossimo ad eccitare la cellula B e ripetutamente o persistentemente contribuisce alla suaeccitazione, avviene un processo di crescita o qualche cambiamento metabolico in una o in entrambe le cellule, tale che l’efficienza diA nei confronti dell’eccitabilità di B è aumentata.

  • 12 CAPITOLO 1. TRA DUE STORIE

    hebbiana anti-hebbiana omosinaptica eterosinaptica

    ++++++++ −−−−−−−−−−− −−−−−−−−−−− −−−−−−−−−−−

    Tabella 1.2: Vari tipi di plasticità sinaptica. Le terminazioni presinaptiche (sopra) e postsinaptiche (sotto) sono ingrigio chiaro quando attive, e scure quando inattive, nello spazio sinaptico è indicato tramite i segni “+” o “-” l’aumentoo la diminuzione dell’efficienza sinaptica indotta dal persistere della configurazione.

    tutte qui, non sono cioè dovute solamente ai fattori locali, ma possono anche avvenire in modo indipenden-te, per esempio se una cellula tende ad eccitarsi spesso può rafforzare i suoi collegamenti sinaptici ancheverso terminazioni da cui non arrivano abitualmente segnali.

    C’è un altro cambiamento di prospettiva più radicale all’interno della neuroscienza, che evita la nettadistinzione tra fenomeni di plasticità da un lato, che fissano la forza dei collegamenti sinaptici, e attivitàneuronale, dove ha corso il passaggio dei segnali con le modalità dettate dall’attuale stato dei collegamenti.È una divisione con forte impronta computeristica, dove esistono tipicamente i processori e i processi, ilsistema sinaptico è profondamente diverso, con una dinamica ben più flessibile. L’arrivo ad una terminazio-ne presinaptica dell’AP e la plasticità sono entrambe due complesse catene di processi fisico-chimici checoncorrono all’eccitazione o meno del neurone postsinaptico. Sono semplicemente caratterizzati da duescale temporali diverse, ma esistono diversi altri processi che riempiono le scale intermedie, ancora nonmolto conosciuti [9, pp. 174–178].

    1.2 Un avvio difficileSi passa ora all’altro versante, l’intelligenza artificiale, e le sue vicissitudini entro cui ha cominciato adelinearsi l’idea id un software che replicasse i neuroni biologici. Mentre dall’altra la prima metà delsecolo era stata costellata di strepitose scoperte, qui le cose procedono più stentatamente.

    1.2.1 Un personaggio famoso, una sua proposta dimenticataNon è noto a tutti che il primo a sviluppare una rete neuronale artificiale in senso più compiuto è statoproprio colui che ha fondato la scienza del computer: Alan Turing. Uno degli aspetti che più lo attiravanonell’abbinare computer e cervello era quello dell’apprendimento, anche nel famoso Computing Machineryand Intelligence la sua prescrizione per un programma in grado di superare il suo test di intelligenza eradi replicare il modo con cui si forma la mente di un bambino. Questo spunto aveva già assunto una formacompiuta in un lavoro pressoché sconosciuto, intitolato Intelligent Machinery [67], dove prese in conside-razione la possibilità di costruire calcolatori digitali composti da elementi semplici connessi tra loro, allastregua dei neuroni nel cervello. Turing chiamò questa rete artificiale ante-litteram unorganized machines(macchine senza organizzazione), nel senso che inizialmente la topologia di connessione e i valori delleintensità di connessione sono casuali. Qualunque compito potrà essere svolto dalla macchina dopo un ade-guato periodo di addestramento, che Turing ipotizzò basato su due ingressi separati: uno che corrisponde al

  • 1.2. UN AVVIO DIFFICILE 13

    piacere, o alla gratificazione, e un secondo corrispondente al dolore, alla punizione. Il procedimento perciòsarà

    analogous to the kind of process by which a child would really be taught ... If also one decided on quitedefinite teaching policies there could also be programmed into the machine. One would then allow thewhole system to run for an appreciable period, and then break in as a kind of inspector of schools and seewhat progress has been made2.

    [67, pag. 20–21]

    Vi sono tanti punti straordinariamente precursori: non solo è sottolineata la più completa generalitàdel computer–rete-neuronale, ma è stata subito colta l’importanza del procedimento con cui la rete vieneaddestrata, e qui traspare chiaramente l’anticipazione di illustri teorie a venire sull’apprendimento neuronale(vedi §1.1.3). Cosı̀ come era successo per la Turing Machine, anche questi lavori in tema neuronale sonodel tutto speculativi, non esistendo ancora alcun computer, e anche negli anni successivi Turing non ebbe adisposizione risorse per poter dar vita alla sua idea, che pur aveva sviluppato in dettagli quasi realizzativi.

    Purtroppo questi lavori sembrano siano passati inosservati da coloro che negli anni immediatamentesuccessivi si sarebbero incamminati in questa direzione, o per lo meno non vengono citati. Ci si sarebbeaspettati una certa convergenza con le idee di McCulloch e Pitts, che riconoscono un importante tributo aTuring, ma al Turing del On Computable Numbers [68], e infatti nel loro lavoro molta attenzione è dedicataalle dimostrazioni formali su quali numeri possono calcolare le loro reti di neuroni logici, e sull’equiva-lenza rispetto alla Turing Machine. Viceversa Turing non aveva messo in relazione il suo famoso modelloprecedente con la nuova idea di computer neuronale e pare non fosse per niente colpito dalla loro tesi, anziconsiderava apertamente McCulloch un ciarlatano.

    Quindi non ci fu eco per le unorganized machines, dopo la scomparsa di Turing questo capitolo sichiuse definitivamente, è venuto alla luce recentemente solo per l’attenzione degli storici [39], al contrarioMcCulloch e Pitts in America fecero scalpore tra i neo adepti del computer.

    1.2.2 DifficoltàMarvin Minsky intraprese proprio la sua carriera in intelligenza artificiale adottando il modello di McCul-loch e Pitts, con una tesi di dottorato sul modello del cervello e le reti neuronali [47]. Nello stesso annosempre al MIT nacque la prima rete neuronale artificiale funzionante in un computer, quella di Farley eClark [18], composta da quattro gruppi di otto celle binarie, due di input e due di output, che funzionavada discriminatore in due classi. Inizialmente i pattern delle due classi venivano presentati soltanto ad unodei due ingressi, rafforzando le connessioni che producevano output maggiore all’uscita corrispondente.Dopo l’addestramento un generico pattern era presentato in parallelo ai due ingressi, e classificato in basea quale dei due output aveva attivazione maggiore. Dopo pochi anni Rosenblatt introdusse il percettrone[59], una struttura lineare di celle, composte ciascuna da un sommatore seguito da una soglia e da un fattoremoltiplicativo. Queste uscite entravano in un comparatore, che rilevava l’uscita massima e modificava ilfattore moltiplicativo della cella corrispondente.

    A questo punto però la storia subisce una discontinuità, gli orientamenti dominanti all’interno dell’in-telligenza artificiale erano altre, come i linguaggi formali e il calcolo logico, che oramai, sepolta l’ipotesi diMcCulloch, erano del tutto incompatibili con i neuroni, anche artificiali. Questa rottura successivamente siintreccerà anche con le controversie filosofiche intorno alle teorie computazionali della mente; ma inizial-mente la discussione è ad un livello diverso, riguarda direttamente l’efficacia delle reti artificiali rispetto aimetodi classici simbolici, come generici strumenti di intelligenza artificiale.

    L’atteggiamento non è certo benevolo nei confronti delle reti neuronali. Il momento culminante è statoil famoso libro Perceptron [46], che sulla base di un’attenta analisi delle limitazioni inerenti ai primi pro-cedimenti di addestramento, in sostanza decretava la sterilità dell’intero filone. Questo diffuso scetticismo

    2analogo al processo tramite cui un bambino impara nella realtà ... Se poi si è scelta una determinata politica di insegnamento, lasi può programmare nella macchina. Il sistema dovrà quindi girare per un tempo sufficiente, periodicamente si può interrompere edagire come da ispettori di scuola vedendo quali sono i progressi fino a quel momento.

  • 14 CAPITOLO 1. TRA DUE STORIE

    tra gli ambienti dell’intelligenza artificiale più influenti, portò ad un rallentamento nello sviluppo delle retiartificiali per quasi un ventennio, ancora nel 1986 Simon intitola la sezione sul percettrone di un suo lavoroBirth and Death of a Myth [62].

    1.3 Le conferme della plasticitàMentre l’intelligenza artificiale stenta ad impadronirsi delle scoperte sulla natura di calcolo del cervello,queste continuano a susseguirsi, anzi, l’espansione continua delle neuroscienze, che nella seconda metàdel novecento sono diventate preponderanti nello studio dell’uomo, hanno favorito il rapido evolversi discoperte sui dettagli sempre più precisi e minuti del funzionamento dei neuroni.

    Si può certamente dire che questo è il momento in cui, nel parallelo delle due storie, quella biologicasi è portata molto più avanti. Anche se, più si avanza, e più emerge la complessità dell’oggetto di studio,e conseguentemente la sensazione di quanto si stia lontani, nonostante tutto, da una piena comprensione dicome funziona il nostro cervello.

    Al di la delle intuizioni, per quanto plausibili, di natura psicologica, che come visto in §1.1.3 erano stateparticolarmente precoci, molto è stato fatto per cercare un fondamento più oggettivo e una forma matematicadella plasticità neuronale, perlomeno di alcune delle sue molteplici manifestazioni. Uno dei meccanismipiù importanti che modella il funzionamento della rete è sicuramente il rafforzamento o l’atrofizzazionedelle connessioni sinaptiche, seguito dai fenomeni di arborizzazione, cioè una vera e propria crescita eramificazione dei dendriti e degli assoni.

    Il pioniere dell’indagine sulla plasticità è stato Eric Kandel, che dal 1970 ha studiato nel dettaglio laAplysia, un mollusco con un sistema neuronale molto semplice (“appena” 20.000 neuroni) ma purtuttaviacon un comportamento prevalentemente forgiato dall’esperienza [31]. È stato identificato un meccanismo,noto come LTP (Long Term Potentiation), per cui se si verifica una coincidenza temporale tra alcune AP inarrivo alle sinapsi di un neurone, e questo a sua volta diventa attivo, allora quelle sinapsi si rafforzano, inmisura più evidente per le sinapsi ancora deboli. Ci sono stati molti dubbi se l’ LTP non fosse un’apparenzadovuta alle condizioni sperimentali di Kandel, o se avvenisse soltanto per quel particolare sistema neuronaledove era stato dimostrato [58].

    Soprattutto, mancava una spiegazione fisica di come poteva modificarsi la struttura di un neurone(rafforzare le proprie sinapsi sull’assone), a seguito di ciò che era accaduto ad un altro. Dalle conoscenze suifenomeni sinaptici non si evince nessuna possibilità di comunicazione “all’indietro”: in ogni neurone l’APsi propaga solo in avanti lungo l’assone fino all’estremità presinaptica, qui viene propagata chimicamentenell’estremità postsinaptica sul dentrite del neurone successivo, che può o meno a sua volta generare un AP,ma la cosa non preoccupa più il precedente; mancava ogni indizio sull’elusivo retrograde messenger, cosı̀viene denominato. Sono stati Tim Bliss e Graham Collindge ad individuare il linguaggio chimico con cui unneurone può parlare a quelli che lo precedono e si basa su una serie di processi in cui sono coinvolti due tipidi recettori [6]. Il primo è denominato NMDA, dalla sigla del neurotrasmettitore sintetico a cui è sensibile(N-metile-D-aspartate), il secondo Q/K (dai due neurotrasmettitori sintetici Quisqualate e Kainate) o anchenon-NMDA. Entrambi sono sensibili al glutammato, ma il primo subisce pure l’effetto inibitorio degli ionimagnesio, presenti all’interno del dendrite.

    I recettori Q/K quando catturano glutammato aprono un canale ionico del sodio, che penetra all’in-terno, come nel normale processo sinaptico già analizzato in §1.1.2. Se il dendrite è depolarizzato (cioè ilsuo neurone è eccitato), viene liberato lo ione magnesio dal recettore NMDA, che in presenza all’esterno diglutammato, apre il suo canale ionico, consentendo l’ingresso anche a Ca++, tramite cui viene sintetizzatoNO, il monossido di azoto, che normalmente è un potente veleno per l’uomo! È proprio il pericoloso NOa diffondersi all’esterno della membrana postsinaptica e raggiungere l’interno di quella presinaptica, nor-malmente impermeabili alle altre molecole, grazie alle sue ridottissime dimensioni. È la sua presenza nellaterminazione presinaptica ad indurne la crescita. Nella Fig. 1.5 è illustrato tale processo. Quest’inaspettatoruolo dell’NO nei meccanismi della memoria umana lo ha riabilitato dalla sua triste fama di temibile veleno,con l’ambito titolo di “Molecola dell’ Anno 1992”. Tutto questo è ulteriormente modellato dall’azione dei

  • 1.3. LE CONFERME DELLA PLASTICITÀ 15

    Ca++

    Na

    MG

    dendrite

    +

    ++

    recettore NMDArecettore Q/K

    Ca++

    Ca++ NO

    dendrite

    recettore NMDArecettore Q/K

    Mg

    Na+

    ++

    Figura 1.5: Un fenomeno sinaptico alla base del LTP. Le terminazioni presinaptiche e postsinaptiche sono in grigiochiaro quando attive, e scure quando inattive. A sinistra un AP provoca la produzione di glutammato nella presinapsi,dal lato della postsinapsi i recettori Q/K si aprono favorendo l’ingresso di Na+, mentre i recettori NMDA sono bloccatidalla presenza interna di ioni Mg++. Se il neurone postsinaptico è attivo, a destra, allora lo ione magnesio fuoriesce,e i recettori NMDA aprono il canale ionico permettendo l’ingresso di Ca++, dal quale per sintesi viene prodotto NO,che è in grado per diffusione di raggiungere all’indietro la terminazione presinaptica.

    cosiddetti neuromediatori, altre sostanze chimiche che facilitano o meno il processo di base, attualmente nesono stati individuati una cinquantina circa.

    Dopo l’Aplysia fenomeni di LTP furono dimostrati nell’ippocampo dei mammiferi, una struttura inter-na del cervello che si sapeva essere legata alla memoria, ma recentemente anche nella neocorteccia [3]. Èstato trovato il complementare del LTP, LTD (Long Term Depression, e un certo numero di altre modifichedell’efficienza sinaptica su scale temporali inferiori, come il PTP (Post Tetanic Potentiation) con duratadell’ordine del minuto, e anche cambiamenti temporanei della capacità di eccitazione di un neurone del tut-to indipendenti dalle sinapsi, come il AHP (After HyperPolarization) in grado di deprimere la suscettibilitàanche per diversi minuti.

    Molto meno si sa sulle modifiche alla connettività tra neuroni su scale più lunghe, tra cui primeg-gia l’arborizzazione. Probabilmente rientra in quella modalità più generale della crescita biologica, percui quando gli scambi all’interno dell’organismo non possono essere più supportati dal semplice processodiffusivo, vi è la genesi di strutture filamentose che si allungano e ramificano ai fini di garantire la comu-nicazione. Sono in atto alcuni tentativi di costruire un modello matematico di queste crescite biologichearborizzate [24], c’è da aspettarsi che il caso delle arborizzazioni neuronali sia tra i più ardui, data la varietàdei meccanismi comunicativi nel sistema cerebrale.

  • 16 CAPITOLO 1. TRA DUE STORIE

    Figura 1.6: La struttura laminare della corteccia, con i sei caratteristici strati.

    1.3.1 La plasticità in reti di neuroniOltre a meccanismi locali che possono spiegare la plasticità, sono stati indagati dei principi capaci di rego-lare l’organizzazione di aggregati più numerosi, non più composti solamente dal singolo neurone o da dueaccoppiati attraverso una sinapsi.

    I primi agglomerati neuronali su cui è stato possibile individuare la formazione di funzioni compu-tazionali appartengono al sistema visivo. Gli storici studi di David Hubel e Torsten Wiesel [28, 29] deglianni sessanta sulla corteccia visiva hanno costituito una nuova rivoluzione, il primo esempio di correlazio-ne tra una funzione al alto livello e dati empirici sul comportamento a livello dei neuroni. È proprio suquesti esperimenti che viene delineata una certa ipotesi sull’organizzazine non solo della visione, ma piùin generale della corteccia cerebrale. Uno degli aspetti funzionali più caratteristici della corteccia visivaprimaria è la sua mappatura topografica, il fatto cioè che i suoi neuroni sono posizionati spazialmente inun ordine topologico che rispecchia quello del sensore che li ha originati, ovvero la retina. Se, per esempio,un neurone della V1 si eccita in corrispondenza di un segnale localizzato in un certo punto della retina, unpunto poco più a destra, sempre nella retina, provocherà l’attivazione di un neurone corticale più a destra diquello precedente, e lo stesso nell’altra direzione. Oggi è noto che la mappatura topografica è una caratteri-stica diffusa nella corteccia, comune praticamente ad ogni modalità sensoriale, ma la natura spiccatamentebidimensionale delle immagini ha reso più facile scoprire ed approfondire questo fenomeno proprio nellavisione. Per le aree visive questa regolarità topologica è più specificatamente chiamata retinotopia, essendoappunto la retina il riferimento spaziale per queste mappe corticali. Prima di entrare in maggior dettaglio èopportuno introdurre due altre proprietà, questa volta non specifiche della visione bensı̀ comuni all’interacorteccia.

    Si tratta della struttura laminare e dell’organizzazione in colonne. I 2 mm circa di spessore dellacorteccia sono caratterizzati da una struttura orizzontale molto uniforme, in cui sono riconoscibili sei diversilivelli, popolati da neuroni con caratteristiche abbastanza precise, come reso pittoricamente nella Fig. 1.6.Per esempio cellule di tipo piramidale sono presenti soprattutto nel livello 5 e del tutto assenti nel 4, che èinvece caratterizzato dal maggior numero di afferenti dal talamo. È infatti qui che proiettano gli assoni deineuroni del nucleo laterale genicolato, nel caso della V1. L’altra proprietà, significativa in aree organizzatetopologicamente, è che scendendo in verticale attraverso i sei strati tutti i neuroni sembrano riguardarela stessa zone sensoriale, è come se l’intera struttura si comportasse da singola colonna elaborativa diquell’elemento sensoriale.

    Le colonne del sistema

    Queste due caratteristiche si congiungono alla proprietà retinotopica per dar luogo ad un’organizzazionespaziale piuttosto complessa. Anzitutto nelle mappe si sovrappone l’alternanza chiamata dominanza ocu-lare, vale a dire una maggior sensibilità rispetto alle afferenze dell’occhio controlaterale o ipsolaterale. Adesserne influenzati non sono più singole celle neuronali, bensı̀ le colonne, attraverso l’intero spessore dellacorteccia, e la loro singola funzione non è più limitata ai campi recettivi a simmetria radiale, come quellivisti nella retina. La loro sensibilità è verso una serie di caratteristiche più complessive dell’immagine,la più evidente è l’orientazione prevalente delle linee che la costituiscono. Fin dai primi studi di Hubel eWiesel è stato notato, presentando delle immagini visive contenenti contorni rettilinei, che le colonne si

  • 1.4. L’AFFERMAZIONE DELLE RETI ARTIFICIALI 17

    Figura 1.7: A sinistra immagine di una porzione di corteccia V1 con evidenziate in bianco e nero le bande di dominanzaoculare. A destra uno schematico dettaglio sulle colonne che compongono la mappa, in cui in chiaro e scuro sonosempre rappresentate le alternanze dei due occhi, e con la freccia la sensibilità rispetto alla direzione prevalente.

    attivavano in modo preferenziale ciascuna ad una certa orientazione, coprendo gradualmente tutti gli angolipossibili.

    In sintesi adesso la disposizione spaziale delle colonne si trova a dover rispondere a non poche caratte-ristiche diverse: anzitutto la retinotopia, che da sola comporta due dimensioni, e poi la dominanza oculareed infine l’orientazione delle colonne. La Fig. 1.7 cerca di rendere un’idea di questa complessa organiz-zazione. Mappe più o meno intricate, che comunque riflettono ad un certo livello una qualche retinotopia,ce ne sono non poche, nei primati ne sono state accertate 16 (per emisfero) [1]. Le strane forme sinuoseche assumono sia le bande di dominanza che quelle di orientazione attraverso la corteccia striata sono sta-te oggetto di notevoli studi. L’interrogativo principale è sulle motivazioni di quei particolari disegni, e larisposta pare sia proprio in una ottimizzazione naturale della disposizione di elementi elaborativi in gradodi tener conto contemporaneamente delle caratteristiche sopra elencate. La computazione qui ha dato unamano, tramite modelli matematici è stato verificato che effettivamente quelle strane forme risultano le piùefficienti [65, 21, 45]. Alcuni studi hanno ricondotto più precisamente il fenomeno al principio generale diauto-organizzazione neuronale che sarà argomento di §3.1.

    1.4 L’affermazione delle reti artificialiIronia della sorte, proprio lo stesso anno in cui Simon aveva decretato la Birth and Death of a Myth, il 1986,è quello della resurrezione del mito, con la pubblicazione dell’opera miliare di Rumelhart e McClellandParallel Distributed Processing: Explorations in the Microstructure of Cognition [60]. PDP, oltre all’a-cronimo preso dal titolo del libro, è anche un progetto ad ampio respiro condotto alla Carnegie MellonUniversity, che comprende implementazioni di diversi modelli neuronali, ma soprattutto del metodo chedecreterà il successo delle reti neuronali artificiali: la back-propagation.

    Prima di entrare nel vivo delle reti artificiali, è opportuno, al termine di questo breve percorso a cavallotra le due storie, e dopo aver sottolineato le interazioni che si sono create tra il mondo delle neuroscienzee dell’informatica, puntualizzare anche le reciproche differenze. Le reti artificiali sono qualcosa di diversodai neuroni, spesso ne sono solamente una vaga metafora. Non per questo perdono di importanza, nellosviluppare modelli c’è una pluralità di intenti che non coincidono necessariamente con il desiderio di ripro-durre fedelmente meccanismi cerebrali. Nella Tab. 1.3 si sono elencati i principali punti in cui il carbonio,la materia a disposizione della natura, si avvicina o differisce dal silicio, li’ dove progettano gli informatici.

    Le prime due righe descrivono due punti su cui avviene la principale convergenza tra i due mondi. Aseguire vengono le differenze, che sono separate da linee ad indicare che non valgono necessariamente pertutti i modelli di reti artificiali, ma solo per alcuni.

  • 18 CAPITOLO 1. TRA DUE STORIE

    realizzano un sistema computazionale tramite elementi altamente indifferenziatil’attivazione di un elemento è condizionata dall’accumulo di attivazioni al suo ingresso

    elabora grandezze fisiche (segnali elettrici,concentrazioni chimiche)

    elabora valori simbolici (numeri)

    elemento complesso, costitutivo di reti comples-se

    elemento semplice, costitutivo di reti relativamen-te complesse

    dotato di una varietà di meccanismi plasticiplasticità condensata nei soli collegamentisinaptici

    privo di un significato specifico assegnabile aisuoi input e output

    concepito come dispositivo dotato di input eoutput

    plasticità derivante da meccanismi locali esegnali globali

    plasticità indotta dalla conoscenza a priori dellafunzione svolta

    comportamento dinamico (genera treni di im-pulsi nel tempo)

    comportamento statico (indipendente dal tempo)

    Tabella 1.3: Le differenze tra i neuroni biologici ed artificiali.

  • Capitolo 2

    Le reti a strati

    Entrando nel merito delle reti neuronali artificiali, non si può non cominciare con quella che ne ha decretatoil successo. Pur se la sua denominazione più popolare è di rete a backpropagation, questo termine indica inrealtà una tecnica matematica adottabile per il suo apprendimento. Ed è effettivamente la tecnica propostain abbinamento alla rete di cui si va a parlare, e quella che più frequentemente ancora oggi è praticata.Tuttavia l’architettura vera e propria della rete è indipendente dal suo metodo di addestramento, ed infattine esiste oggi una notevole varietà, al contrario la backpropagation può essere vista come un principio piùgenerale, adottabile anche in reti diverse.

    Pertanto sono forse più appropriate altre denominazioni per queste reti, non insolita è quella di feed-forward networks, che sottolinea un flusso di processo obbligato dei dati attraverso la rete (“in avanti”),qui si è preferito “reti a strati”, essendo la suddivisione dei neuroni in strati una ben precisa prescrizionearchitetturale, mantenuta nelle diverse varianti e modalità di addestramento che via via sono state proposte.

    2.1 Funzionamento di baseLa grande ripresa delle reti neuronali artificiali alla fine degli anni ’80 è dovuta non poco alla monumentaleopera del gruppo di Rumelhart, e soprattutto alla popolarità della formula di back-propagation, destinata adun’enorme fortuna in campo applicativo. Questo termine in realtà non si riferisce al modello di rete stesso,ma ad un metodo messo a punto per l’addestramento, ovvero la determinazione dei parametri variabili delmodello, che costituisce ancora oggi l’aspetto più critico delle architetture neuronali. La relativa efficaciadella back-propagation è stata proprio la motivazione principale della svolta neuronale negli anni ’80.

    ~x1 = A(I)~x +~b(I) (2.1)

    f̂ (~x) = A(O)~xK +~b(O) (2.2)

    xi,k = F (wk−1,i · ~xk−1 − θi,k) 1 < k < K (2.3)

    F ∈

    {

    g ∈ C1 : R1 3 limx→−∞

    g (x) 6= limx→+∞

    g (x) ∈ R1}

    (2.4)

    Tabella 2.1: Le equazioni che governano il comportamento di una rete a strati, il cui scopo sia di approssimare lafunzione f (~x) : RN → RM tramite una f̂ (~x) : RN → RM , con K strati, e con N1 = N , NK = M . Le equazioni(2.1) e (2.2) descrivono rispettivamente gli strati di ingresso e di uscita, la (2.3) il generico strato k; A({I,O}),~b({I,O})sono matrici diagonali e vettori di scalature di input e output, wk−1,i è la riga i della matrice Nk × Nk−1 W dei pesitra lo strato k e quello k − 1, θ è un offset scalare; la funzione non lineare F è una sigmoide generalizzata descritta in(2.4), con g la classe delle funzioni misurabili e C1 il set delle funzioni continue su R1.

    19

  • 20 CAPITOLO 2. LE RETI A STRATI

    strato diingresso

    strato di

    stratonascosto

    uscita

    Figura 2.1: Schema di una rete a tre strati.

    Queste reti sono organizzate con neuroni disposti su più strati, in cui il segnale si propaga dal primostrato, di input, all’ultimo, di output.

    La descrizione matematica della rete, nella sua più ampia generalità, è quella condensata nella Tab.2.1, di cui a seguito verranno commentati ed analizzati i diversi aspetti.

    Nelle equazioni si è chiamata genericamente con xi,k l’attivazione del neurone i-simo nello strato k,mentre il vettore ~x comprende le attivazioni di tutti i neuroni dello strato k.

    La Fig. 2.1 esemplifica questo modello di rete in un caso con 3 ingressi, 2 uscite, e uno strato interno di5 neuroni. Anche se le equazioni in Tab. 2.1 fanno riferimento genericamente a K strati, ed effettivamentesi vedono in circolazione reti con numero variabile di strati, occorre tenere presente che la configurazionepiù comune è quella a tre strati, e quindi l’organizzazione di Fig. 2.1 non è un esempio casuale. In questasituazione i tre strati assumono nomi univoci:

    1. strato d’ingresso

    2. strato intermedio

    3. strato d’uscita

    Più precisamente è stato valutato che una rete con soli due strati, il minimo possibile, non avrebbe sufficientepotenza di calcolo, mancando lo strato intermedio, ma avere più strati intermedi è computazionalmenteequivalente ad averne uno solo, purché con un numero sufficiente di neuroni. Lo strato intermedio vienespesso chiamato “nascosto” (hidden layer) per motivi appropriati, come si vedrà a breve.

    Per quanto riguarda il numero di neuroni da impiegare nei tre diversi strati, vi sono delle considerazionidiverse da fare:

    • il numero di neuroni degli strati di ingresso e uscita sono direttamente conseguenza della dimensionedei dati di ingresso e di uscita, quindi dipendono dalla natura del problema;

    • il numero di neuroni dello strato intermedio viene stabilito empiricamente, più neuroni danno maggiorflessibilità al tipo di calcolo che è in grado di realizzare la rete, ma aumentano il numero di pesisinaptici, e quindi di parametri da determinare durante l’addestramento.

    Questo secondo punto verrà approfondito in 2.2.2.Le equazioni (2.1) e (2.2) sono delle semplici scalature, perché si preferisce far lavorare la rete con

    valori non superiori all’unità, e i dati del problema, sia in ingresso che in uscita possono essere su scale

    Luca D'AngeloNotaZ

  • 2.1. FUNZIONAMENTO DI BASE 21

    1

    Figura 2.2: La tipica funzione non lineare di un neurone nelle reti a strati.

    differenti. La vera equazione neuronale è la (2.3), in cui può leggere un’astrazione di due principi moltogenerali che si possono riscontrare nel calcolo neuronale biologico: uno riguarda l’operazione di accumuloche ogni neurone compie nei confronti di un certo numero di contributi, che afferiscono da altri neuroniai suoi dendriti, l’altro riguarda la presenza di elementi non lineari nel calcolo complessivo. Entrambisono dei punti piuttosto consolidati, l’esistenza del primo è evidente dalle modalità di funzionamento dellesinapsi trattate in §1.1.2, semmai il dubbio è se sia l’unico o anche semplicemente il principale meccanismoneuronale. L’accumulo è quello espresso dal prodotto scalare:

    wk−1,i · ~xk−1

    in cui tutti i valori dei neuroni nello strato precedente, ~xk−1, sono sommati, previa moltiplicazione con icosiddetti “pesi sinaptici” (weights), wk−1,i, che fungono da efficienze sinaptiche.

    La non linearità è un elemento matematicamente indispensabile: se i neuroni operassero solamente inmodo lineare (cioè in modo proporzionale all’accumulo di segnali in ingresso), sarebbero pesantemente li-mitati nelle funzioni che potrebbero esplicare: qualunque sistema distribuito, per quanto grande, di elementidi calcolo lineare, non può che produrre funzioni di trasferimento lineari. Il dubbio non si pone nemmenonel cervello, non esiste fenomeno biologico che sia effettivamente lineare, e in particolare non lo sono tuttii meccanismi che concorrono al AP di un neurone. L’esigenza c’è nei modelli matematici, dove le nonlinearità sono sempre sgradevoli, per renderle più trattabili si cerca almeno di isolarle, mantenendo il piùpossibile il resto del sistema lineare. È quello che viene fatto nelle reti a strati, dove la non-linearità è unafunzione di corredo a ciascun neurone, la F della (2.4). L’espressione analitica più diffusa della F è lafunzione sigmoide, detta anche logistica:

    F(x) =1

    1 + e−x, (2.5)

    caratterizzata da una parte centrale lineare e da una saturazione ai suoi estremi, come visibile in Fig. 2.2.La saturazione è la più naturale forma di non linearità: esprime il semplice fatto che nella realtà l’energia adisposizione è finita, pertanto anche se all’ingresso del neurone si presentano accumuli di segnali sempre piùelevati, la sua uscita elettrica una volta raggiunto il suo massimo rimarrà costante, insensibile alle ulteriorivariazioni nell’ingresso.

    L’elemento θ nella (2.3) è un’altro che, anche se in misura decisamente meno rilevante rispetto allanon-linearità, aggiunge qualche potenzialità della rete, ed ha una motivazione biologica. È una soglia,ovvero un valore minimo che deve eguagliare la somma dei contributi all’ingresso di un neurone affinchéquesto cominci ad avere un’attivazione. Se anche in igresso c’è un certo l’accumulo, derivante dai neuronidello strato precedente, finché risulta minore della soglia, l’uscita del neurone rimane nulla. È il correlatodella depolarizzaione naturale della menbrana neuronale, la situazione tipica del neurone a riposo, cherichiede un accumulo di cariche nei dendriti per neutralizzarla, prima di potersi caricare positivamente ealla fine emettere il suo impulso lungo l’assone.

    Mentre la non-linearità F(·) è ingrediente essenziale di ogni rete neuronale, la presenza di una soglia θnell’equazione (2.3) di una rete a strati non è indispensabile, ed è un’opzione in più per ottenere prestazionimigliori, ma in tanti esempi di applicazioni semplici non è utilitzzata.

  • 22 CAPITOLO 2. LE RETI A STRATI

    2.1.1 Esempi ed applicazioniPer rendere l’idea dell’abbinamento tra il meccanismo di accumulo e quello della non linearità si è fattoricorso ad un piccolo esempio numerico, nella Fig. 2.3. I primi tre neuroni, che si possono chiamare

    −0.1 0.40.8

    0.2 0.90.9

    Questo è un piccolo dettaglio di rete, con tre neuroni collegati ad un terzo, in unostrato superiore. I valori 0.2, 0.9 e 0.9 sono le attivazioni dei tre neuroni nello stratoinferiore, mentre i valori -0.1, 0.8 e 0.4 dentro i riquadri sono i legami sinapticitra i neuroni, che rimangono invariati una volta che la rete è addestrata, e sonoindipendenti da ingressi e uscite. Il valore negativo indica che il primo neruone inbasso a sinistra agisce in modo inibitorio.

    −0.1 0.40.8

    0.2 0.90.9

    (1.06)F Adesso si vede il risultato dell’accumulo dei tre contributi nel neurone dello stratosuperiore, in cui le attivazioni dei tre neuroni inferiori vengono pesate tramite lerispettive efficienze sinaptiche, e i tre contributi vengono sommati, il risultato è1.06.

    −0.1 0.40.8

    0.2 0.90.9

    0.75I valori vengono moltiplicati per i legami sinaptici e sommati tra loro, in pratica sieffettua l’operazione −0.1×0.8 + −0.18×0.4, il cui risultato, -0.15, è l’ingressodel terzo neurone. Anche qui il valore passa per la funzione non-lineare, che produ-ce infine come valore del neurone -0.14, che in uscita verrà propagato ad altre partidella rete.

    Figura 2.3: Esempio di funzionamento di una porzione di rete neuronale a strati.

    x1,1, x1,2 e x1,3 hanno certe loro attivazoni, che saranno derivate da altri calcoli su neuroni di strati ancorainferiori, oppure possono essere gli ingressi stessi della rete, se si tratta di neuroni del primo strato. Leloro uscite si connettono tramite sinapsi al neurone in alto, x2,1. I grafici della figura illustrano i passi delcalcolo. All’inizio vengono accumulati i contributi in ingresso dei tre neuroni, come prodotto delle loroattivazioni per i rispettivi pesi sinaptici, cosı̀ come detta la (2.3):

    x2,1 = F(w1,1 · ~x1) =

    F(−0.1 × 0.2 + 0.8 × 0.9 + 0.4 × 0.9) =

    F(1.06).

    Da notare che nel calcolo c’è anche un contributo negativo, dato dal peso sinaptico −0.1 tra i neuroni x1,1e x2,1, che biologicamente vorrebbe dire che il neurone x1,1 agisce in modo inibitorio su x2,1. Il passosuccessivo è applicare la F , la funzione non lineare, al valore 1.06. Nel caso si utilizzi la sigmoide, ilpassaggio successivo sarebbe l’applicazione della (2.5):

    x2,1 = F(1.06) =1

    1 + e−1.06= 0.75

    Da notare come il valore 1.06 fosse superiore alla massima saturazione accettata dalla sigmoide, che nonsupera mai 1.0, e il risultato sia un numero ben inferiore a 1.0.

    Non è facile pronunciarsi su quanto il modello a strati possa essere una matematica fedele delle retineuronali, naturalmente c’è una semplificazione drastica di quella complessa molteplicità di meccanismicon cui i segnali si propagano da un neurone all’altro, indubbiamente i due principi conservati sono basilarie la separazione tra accumulo pesato e non linearità non è matematicamente compromettente. Assumere in

    Luca D'AngeloNotaha fatto questa formula

    Luca D'AngeloNotaLA SINAPSI è NEGATIVA, QUANDO IL NEURONE HA UNA FUNZIONE INIBITORIA

  • 2.1. FUNZIONAMENTO DI BASE 23

    t t

    Figura 2.4: L’interpretazione statica dell’ AP di un neurone: il neurone a sinistra ha una frequenza bassa e quindi èinattivo, quello a destra invece è attivo.

    r r

    F1 F F2 3

    HllV A V H

    blu rosa peso

    Figura 2.5: Due esempi di applicazioni del modello di reti a strati. Quello a sinistra calcola le forze da applicare ai mu-scoli del braccio in modo da raggiungere un oggetto, presente nel campo visivo. Gli input saranno le posizioni verticalied orizzontali dell’oggetto nell’occhio sinistro e destro e l’angolo di vergenza. L’esempio a destra deve discriminaredue possibili oggetti, un Puffo o un maialino, sulla base di certe caratteristiche: quantità di colore blu, di colore rosa epeso.

    modo additivo i contributi in ingresso corrisponde in buona sostanza all’approssimazione integrate-and-firevista in 1.1.2, le cose sono molto più compromettenti in uscita, più genericamente sulla tipologia dei segnaliin gioco. Nelle reti a strati sono numeri statici, non c’è dipendenza dal tempo. Nel cervello invece sono AP,forme d’onda che viaggiano nel tempo. La differenza non è da poco e non è detto che con questo passaggionon si sia tagliata fuori una parte importante del calcolo nel cervello, l’argomento verrà ripreso varie volte,fino a mostrare alcune matematiche in cui gli impulsi sono mantenuti tali. La relazione che viene assuntanelle reti a strati tra AP e valori dei neuroni è esemplificata in Fig. 2.4: dagli impulsi si passa ad un livellodi attivazione fisso proporzionale alla loro frequenza. Le differenze con le reti biologiche non sono finitequi, ma prima c’è da sottolineare una proprietà davvero notevole di queste architetture.

    Un aspetto del tutto inatteso di questi oggetti matematici, che venne scoperto a seguito di diversi lavori,dovuti soprattutto a Maxwell Stinchcombe [11, 27, 63, 64], è la loro capacità di approssimare qualsiasifunzione continua con qualsivoglia precisione. La risposta più forte possibile al libro di Minsky e Papert.Queste reti artificiali di elementi talmente semplici posseggono l’impressionante potenza e generalità dipoter esplicare qualunque funzione, per quanto complessa.

    Va subito precisato che la proprietà dimostrata è quella teorica, le modalità per condurre una specificarete a comportarsi secondo la funzione desiderata sono ben altro discorso, non certo da poco come già piùvolte accennato. Qui entra in gioco il meccanismo dell’apprendimento, che verrà trattato a seguito, maanche la scelta dell’architettura, ovvero decidere quanti neuroni utilizzare nei vari strati.

    La scelta del numero di neuroni nello strato di ingresso e di uscita è strettamente legata alla natura del

  • 24 CAPITOLO 2. LE RETI A STRATI

    problema a cui si intende applicare la rete, ciò è parte dell’esigenza più generale di interpretare i numeriassunti dai neuroni in ingresso ed uscita, assegnando loro un significato. I due esempi della Fig. 2.5 sonotipici modi di adoperare le reti a strati. Il primo, quello a sinistra, è un caso di controllo sensomotorio,in cui si utilizzano informazioni visive per controllare comandi alla muscolatura di un braccio. Sia perl’ingresso che per l’uscita sono importanti i valori numerici in tutta la loro gradazione. Il numero di neuroniin ingresso è dettato proprio dalla natura dell’input, per identificare la posizione di un oggetto nello spaziotramite gli occhi sono sufficienti cinque dati:

    • Vl posizione verticale sulla retina sinistra;

    • Hl posizione orizzontale sulla retina sinistra;

    • Vr posizione verticale sulla retina destra;

    • Hr posizione orizzontale sulla retina destra;

    • A angolo di vergenza, ovvero quanto i due occhi convergono.

    Per l’uscita si sono ipotizzati tre soli valori, il minimo per poter posizionare una mano nello spazio, peresempio possono essere:

    • F1 angolo verticale della spalla;

    • F2 angolo orizzontale della spalla;

    • F3 angolo del gomito.

    Il secondo caso è invece il tipico uso delle reti artificiali come classificatori, per verificare l’apparte-nenza di una certa entità ad alcune classi note, sulla base di caratteristiche misurabili. Nella classificazionerisulta meno rilevante il valore numerico dei neuroni di uscita, il risultato della classificazione è stabilito dalneurone più attivo. È sempre possibile però attribuire al valore numerico dei neuroni in uscita un significato,come stima della probabilità di appartenenza alle diverse classi.

    2.2 Il metodo di apprendimentoLa rete a strati può essere un principio matematicamente molto valido, possono valere addirittura dimo-strazioni teoriche sulla sua illimitata potenza nel riprodurre qualunque funzione in modo molto accurato,ma come si è già accennato tutto ciò vale solamente se esiste un metodo praticabile per far “apprendere”alla rete il compito desiderato. Occorre in sostanza, un sostituto artificiale della plasticità, quella mirabileproprietà del cervello che si è visto essere, in §1.3, la più elusiva da indagare. Era qui che si arenavano leproposte di reti neuronali prima degli anni di successo, ed è invece proprio questo metodo ad averle resepoi potenti. Il principio della back-propagation consiste nel fissare i parametri caratteristici della rete conun processo di addestramento, in cui tutta una casistica di soluzioni note della funzione desiderata è pre-sentata progressivamente alla rete. Naturalmente all’inizio la rete, dato un certo ingresso, fornirà in uscitaun risultato ben diverso da quello atteso, i suoi parametri sono modificati secondo una propagazione all’in-dietro dell’errore, da qui il nome back-propagation. Occorre quindi anzitutto un insieme di dati conosciuti,denominati target, sotto forma di coppie ingresso-uscita:

    T ={〈

    ~x(1), f(

    ~x(1))〉

    ,〈

    ~x(2), f(

    ~x(2))〉

    , · · ·}

    , (2.6)

    quello che viene denominato training set. Durante l’apprendimento si prende un generico campione (target)t da T , e si presenta l’ingresso ~x(t) alla rete. A questo punto si effettuano le modifiche ai parametri dellarete, chiamando p quello su cui si desidera agire, la formula generale entro cui ricade la back-propagation èla seguente:

    ∆p = −η∂E(t)

    ∂p(2.7)

  • 2.2. IL METODO DI APPRENDIMENTO 25

    3,2

    2,1 2,2 2,3

    w3,1 1,2

    3,22,2

    3,1x

    x x x

    ww w

    w w

    x

    1,1 2,1

    Figura 2.6: Esempio di strato finale e intermedio, con denominazioni semplificate delle attivazioni e dei pesi sinaptici,utilizzato per illustrare la back-propagation.

    dove E(t) è una misura dell’errore compiuto dalla rete sul target t, ed è calcolabile per esempio conl’espressione quadratica:

    E(t) =(

    f̂(

    ~x(t))

    − f(

    ~x(t)))T (

    f̂(

    ~x(t))

    − f(

    ~x(t)))

    (2.8)

    ma può avere formulazioni diverse, la (2.8) è pratica per ottenere una forma analitica del metodo. Il genericoparametro qui indicato con p è di solito un peso sinaptico w, ma può essere anche una soglia neuronale θ, ilprocedimento è identico. Nella (2.7) η è il cosiddetto learning rate, un valore < 1 che caratterizza l’entitàdella modifica applicata al parametro, ad ogni passo di apprendimento. Il senso del metodo è nell’apportaread ogni parametro una correzione nella direzione che renderebbe minore l’errore, e di entità proporzionalea quanto la suddetta correzione inciderebbe nel ridurre l’errore stesso.

    Le possibilità pratiche di applicare la forma generale della (2.7) in modo semplice, sono legate alla suasoluzione analitica, che nel caso della misura quadratica dell’errore, e di una funzione non lineare sigmoide,equazione (2.5), è immediata da ricavare. Si illustra qui il caso semplificato in cui ci siano solamente dueneuroni nello strato di uscita, che si possono quindi chiamare x3,1 e x3,2, e tre nello strato intermedio,come visibile in Fig. 2.6. Supponiamo di applicare un certo target t alla rete, e ne omettiamo l’indicazionein apice, per semplificare la scrittura. Se si chiamano f1 e f2 le componenti della f

    (

    ~x(t))

    , ovvero leuscite esatte, note, del target t, l’errore diventa semplicemente, passando dai vettori della (2.8) alle lorocomponenti scalari:

    E = (f1 − x3,1)2

    + (f2 − x3,2)2. (2.9)

    Si denominino con wi,j gli elementi di w2,j , i pesi sinaptici che collegano i neuroni dello strato intermedioal neurone j nello strato finale. E si supponga che il parametro p di sui si stia parlando sia adesso w2,1,il peso sinaptico che collega il secondo neurone dello strato nascosto, x2,2, al primo dello strato in uscita,x3,1, la (2.7) diventa:

    ∆w2,1 = −η∂E

    ∂w2,1(2.10)

    Applicando le regole elementari di derivazioni, tenendo presente la (2.9):

    ∂E

    ∂w2,1=

    ∂E

    ∂x3,1

    ∂x3,1

    ∂w2,1+

    ∂E

    ∂x3,2

    ∂x3,2

    ∂w2,1(2.11)

    In cui le prime derivate sono immediate:

    ∂E

    ∂x3,1= −2 (f1 − x3,1) (2.12)

    ∂E

    ∂x3,2= −2 (f2 − x3,2) (2.13)

  • 26 CAPITOLO 2. LE RETI A STRATI

    Le derivate delle x rispetto a w possono essere essere espresse in funzione del pesi sinaptici e delleattivazioni dei neuroni nello strato intermedio, applicando la regola delle reti a strati (2.3):

    ∂x3,1

    ∂w2,1=

    ∂F (w1,1x2,1 + w2,1x2,2 + w3,1x2,3)

    ∂w2,1(2.14)

    ∂x3,2

    ∂w2,1=

    ∂F (w1,2x2,1 + w2,2x2,2 + w3,2x2,3)

    ∂w2,1(2.15)

    Ma nella (2.15) si vede che la x3,2 non dipende dal peso w2,1, e quindi la derivata è nulla. La (2.14) si puòscrivere facilmente se la F è una sigmoide, per la quale vale:

    ∂F(x)

    ∂x= F(x)(1 −F(x)) (2.16)

    Chiamando F ′ la derivata nella (2.16), ed applicando nuovamente la regola di derivazione di funzionicomposte:

    ∂F (w1,1x2,1 + w2,1x2,2 + w3,1x2,3)

    ∂w2,1= F ′ x2,2 (2.17)

    Si è ora in grado di esprimere la variazione da apportare al parametro w2,1, riportando il risultato della(2.17) in (2.12) ed infine in (2.10):

    ∆w2,1 = 2η (f1 − x3,1) F′ x2,2 (2.18)

    In maniera del tutto analoga, volendo calcolare la variazione da apportare al peso sinaptico w1,2, conriferimento sempre alla Fig. 2.6, è facile dedurre:

    ∆w1,2 = 2η (f2 − x3,2) F′ x2,1 (2.19)

    Si lasciano al lettore i passaggi matematici.

    2.2.1 Esempio di apprendimentoSi aggiunge un ulteriore esempio, che non vuol essere un effettivo caso di rete a strati, è infatti estremamenteessenziale ai soli fini di facilitare la comprensione di ciò che succede durante l’addestramento.

    stratodi ingresso

    stratointermedio

    stratodi uscita

    Come esempio si è presa una rete che sia in gra-do di distinguere se in un bicchiere ci sia vino ococa cola, dal solo colore. Il compito di una retedefinisce già la configurazione degli strati di neu-roni in ingresso e in uscita. Dovendo decidere travino e coca, bastano in uscita due neuroni, quelloche si attiva di più indica il responso. In ingressoinvece, visto che si è stabilito di attenersi al so-lo colore del liquido, ci sono tre neuroni, che siattiveranno in proporzione alle componenti prin-cipali del colore: rosso, verde e blu. Il numero dineuroni nello strato intermedio dipende solamen-te dalla difficoltà del compito: più è complesso epiù dev’essere numeroso.

  • 2.2. IL METODO DI APPRENDIMENTO 27

    Durante l’apprendimento verranno presenta-ti alla rete campioni di liquido, le attivazio-ni dei neuroni sono mostrate in scala di gri-gi. Inizialmente i parametri della rete so-no casuali, ed è quindi inevitabile che ilprimo esempio, vino rosso (sinistra), ven-ga frainteso per coca cola. Qui intervienela back-propagation, che corregge i pesi si-naptici nella direzione di mitigare l’errore, ilpossibile risultato è visibile a destra.

    Una prima grossolana evidenza statistica da esempi di vinorosso, potrebbe essere che colore scuro denoti vino, ma esiste ilvino bianco, che induce in errore la rete, a sinistra, e nuovamentel’effetto della back-propagation modifica i pesi sinaptici nelladirezione giusta (destra).

    Al termine dell’apprendimentoi pesi della rete saranno tali dafornire una predizione correttasia per vini rossi che bianchi,e perché no, rosati, distinguen-do le particolari componenti dicolore che sono invece propriedella coca cola.

    Questa breve introduzione alle reti a strati termina con qualche ulteriore considerazione riguardo ailoro rapporti con i neuroni veri, si è già discusso del problema staticità e AP, ora è imputata la loro modalitàdi apprendimento, la back-propagation. Questo procedimento, se da un lato ha reso le reti a strati tantoapprezzate in campi applicativi, è proprio quello che ha suscitato più perplessità prima ancora del discorsosulla natura ad impulsi dei segnali neuronali, soprattutto da parte di psicologi per l’incompatibilità con iprincipi cognitivi dell’apprendimento [42, 54]. Secondo Patricia Churchland e Terrence Sejnowski è unacritica mal posta, perché plasticità neuronale e back-propagation condividono la stessa finalità, definibilematematicamente come ottimizzazione, non è essenziale la procedura con cui venga messa in atto, è il tipodi funzione realizzabile dalle reti l’oggetto di interesse conoscitivo [9, pp. 130–135].

    Si condivide pienamente la futilità della questione specifica sulla formulazione algoritmica della back-propagation o di qualunque suo equivalente più moderno rispetto ad un metodo di ottimizzazione imple-mentato nel cervello, qualunque esso sia. Non si ritiene però che ci sia solo questo nell’addestramento, maanche altri presupposti su cui si mantengono riserve.

  • 28 CAPITOLO 2. LE RETI A STRATI

    È discutibile in generale la pratica di usare coppie ingressi-uscite esatte note a priori, per portare larete a comportarsi in modo analogo, quello che va sotto il nome di addestramento supervisionato. Nonè facile disquisire su una sua possibile corrispondenza naturale, visto che, come detto precedentemente, imeccanismi di apprendimento neuronali biologici sono ancora molto oscuri; certamente sussistono proble-mi di diverso tipo, anzitutto ontologici, non esiste un analogo dell’output nei sistemi biologici, nel senso diprocessamento di informazione (l’unica forma di output sono i segnali ai muscoli), ma ancor più difficile èindividuare un correlato dell’azione di confronto tra questo output con quello desiderato, anzitutto proprioperché è arduo concretizzare il “desiderato” tra i segnali neuronali, una volta messi da parte i desideri dicoloro che stanno conducendo gli esperimenti.

    Prescindendo da questi dubbi, la semplicità di questa prima matematica, e la facilità con cui possonoessere condotti esperimenti su funzioni neuronali di scala intermedia, ne hanno fatto uno degli strumentispeculativi principali degli anni ’80 e ’90.

    2.2.2 Criteri progettuali di esperimentiPur con tutta la potenza del metodo di back-propagation, e le capacità di calcolo offerte dalle reti a strati,non vi è nulla di magico in questi metodi, e le possibilità che possano risolvere un generico problema nonsono affatto scontate.

    Se si considera che i problemi in cui vengono impiegate le reti a strati sono di qualsiasi natura, sicapisce come esse possano costituire un approccio preferenziale anzitutto per la loro estrema semplicità,per cui è tutto sommato poco impegnativo sperimentarle, anche in assenza di garanzie sul loro successo. Purnella loro semplicità ed immediatezza d’uso, esistono alcuni criteri da tener presente quando si progettanoesperimenti, che ne possono facilitare il successo, anche se mai garantirlo.

    Scelta del numero di neuroni

    Come detto in 2.1, il numero di neuroni in ingresso e in uscita è fissato rigidamente dal problema. Si puòinvece giocare sul numero di neuroni dello strato intermedio, normalmente partendo da un numero limitato,ed aumentandolo qualora i risultati non fossero soddisfacenti. C’è da tener presente un criterio di massimache riguarda il bilancio tra i parametri della rete e i campioni del training set. Il meccanismo della back-propagation fissa i valori opportuni dei parametri, minimizzando l’errore su un certo numero di campioninoti della funzione da approssimare. Non è pensabile governare un numero elevato di parametri, se nonsono disponibili abbastanza campioni. Più precisamente, si ritiene che il numero dei campioni debba esserealmeno dieci volte maggiore del numero di parametri, perché la back-propagation sia efficace.

    Prendendo ad esempio la rete di Fig. 2.1, in cui vi sono 3 neuroni in ingresso, 2 in uscita, e 5 nello stratointermedio, i pesi sinaptici risultano 3× 5+5× 2 = 25, quindi per il criterio appena detto occorre disporredi almeno 250 campioni. Se si utilizzasse uno strato intermedio con 10 neuroni, i parametri diventerebbero3 × 10 + 10 × 2 = 50, richiedendo quindi un training set di 500 campioni minimo.

    Learning rate e epoche di apprendimento

    Dato un training set T , l’applicazione della (2.7) mediante un singolo target t, esteso a tutti i parametri pdella rete, produce un passo elementare di apprendimento. Il procedimento esteso a tutti i target produceuna singola epoca di apprendimento, in cui ogni target è stato presentato una volta dalla rete.

    L’apprendimento completo richiede diverse epoche, durante le quali si può controllare l’evoluzionedella rete, calcolando ad ogni epoca e l’errore medio su tutti i target:

    E(e) =1

    N

    t=1···N

    E(t,e) (2.20)

    dove N è il numero complessivo di target, si è indicato ora con E(t,e) l’errore commesso sul target t all’e-poca di addestramento e. Nel caso di un addestramento con successo, E(e) andrà sempre diminuendo perepoche e successive, fino a raggiungere valori molto piccoli. Si dice che si è raggiunta una convergenze

  • 2.2. IL METODO DI APPRENDIMENTO 29

    λ = 0.1 λ = 0.001 λ = 0.1 λ = 0.001

    e

    E

    e

    E

    e

    E

    e

    E

    Figura 2.7: Esempi di andamento dell’errore durante le epoche di addestramento, per diversi valori del learning rateη. I due casi di sinistra illustrano l’addestramento in un problema evidentemente facile, per cui si raggiunge unaconvergenza della rete verso valori di errore bassi sia con η grande che con η piccolo. I due casi di destra riguardanoun problema più complesso, in cui valori di η maggiori non portano ad una convergenza della rete.

    della rete neuronale verso la sua configurazione addestrata, la soluzione. La velocità con cui E(e) decresceè dettata in buona misura dal learning rate η della (2.7). Vi è però un limite superiore per cui valori troppoalti di η non conducono ad alcuna convergenza: l’errore oscilla continuamente rimanendo molto alto. Larete non è nelle condizioni di imparare. La prima precauzione da prendere è abbassare il learning rate, everificare se in modo meno veloce c’è possibilità di apprendimento. Esempi sono in Fig. 2.7. Se anchecon lerning rate inferiori non si raggiunge convergenza, è segno che vi sono altri problemi che rendono ilcompito troppo difficile da imparare per la rete: può essere il numero insufficiente di neuroni nello stratointermedio, oppure un numero troppo esiguo di campioni nel training set, o anche una loro inadeguatezzastatistica nel rappresentare il problema. Gli esempio del training set potrebbero essere casualmente campio-nati solamente agli estremi di zone in cui vi è un forte salto di valori nell’uscita della funzione, per piccoledifferenze degli ingressi. Prendiamo l’esempio di 2.2.1, se il traning set fosse costituito solamente da alcunivini bianchi, diversi bicchieri di coca cola, e come unico rappresentanti di vini rossi un bicchiere di pessimovino sfuso, acescente e abbondantemente ossidato. Il suo colore assomiglierebbe molto alla coca cola, mal’uscita della funzione sarebbe drasticamente diverso: vino (anche se nella fattispece sarebbe arduo ritener-lo tale. . . ). È evidente che l’apprendimento della rete in questo caso è penalizzato dall’assenza di campionisignificativi, che coprano le differenze di input tra colore mattonato e rosso rubino, tipico di vini rossi, dadistinguere dalla coca cola.

    Generalizzazione e overtraining

    Esiste anche una considerazione più sottile riguardo il successo o meno della rete nell’imparare il suocompito, che potrebbe sfuggire all’esame dell’andamento dell’errore E(e) appena visto.

    Ciò che viene richiesto in un esperimento da una rete neuronale, è di imparare il rapporto intrinsecoche esiste tra certi input e i corrispettivi output, in un determinato problema. Ciò, nella back-propagation,avveine grazie alla presentazione di esempi. Ma il punto è che la rete non deve semplicemente apprenderequegli specifici esempi, ma tramite quelli apprendere la natura del problema, ciò che tecnicamente vienedetta capacità di generalizzazione. Se tale prerogativa è andata in porto durante l’addestramento, c’è lagaranzia che la rete si comporterà egregiamente in tutte le situazioni in cui è impiegata successivamente,ovvero su casi nuovi che non coincidono con nessuno dei campioni già conosciuti, ma fanno solo parte dellostesso problema. Ma può verificarsi qualcosa di diverso dall’auspicata generalizzazione, che la rete abbiasviluppato una specializzazione estrema nel trattare i singoli casi che componenvano il training set su cui èstata addestrata, e non sia in grado di rispondere adeguatamente di fronte a campioni diversi da quelli. È ilfenomeno denominato overtraining. Con una metafora sull’apprendimento umano, le due situazioni sonofelicemente rapportabili a quando l’insegnante rimprovera ad un alunno di avere “imparato a memoria” lalezione, e di non aver “imparato il concetto”.

    Tornando all’esempio di 2.2.1, e al caso in cui l’univo esemplare di vino rosso fosse un bel bicchierecolor mattonato da vino di imbevibile produzione artigianale. Con opportune scelte del numero di neuronie del learning rate, si potrebbe probabilmente raggiungere un addestramento perfetto, con errore E (e) moltobasso, dopo molte epoche. Il rischio è che la rete abbia “imparato a memoria”, ovvero specializzato i suoi

  • 30 CAPITOLO 2. LE RETI A STRATI

    e

    E

    Figura 2.8: Esempio di addestramento con fenomeno di overtraining. La curva continua è l’errore medio di epocaper il training set, la curva tratteggiata è lo strsso errore per il test set. Si è demarcato il momento quando è opportunosospendere il preocesso di apprendimento.

    pesi per quell’univo daso di vino rosso anomalo, e che, presentandole un bicchiere di vino degno di talenome, dal colore corretto, scambi ora quello per coca cola.

    Il problema è serio, anzitutto perché in generale non c’è a priori nessuna informazione su quali possonoessere i casi nuovi a cui la rete potrà andare in