L’Intelligenza Artificiale - educational.rai.it · blema dell’IA consiste in primo luogo nel...

607

CAPITOLO 5

L’Intelligenza ArtificialeLo studio dell’Intelligenza Artificiale ha una storia recente; la sua data di nascita ufficiale è ritenuta, all’unanimità, il 1956. Non c’è invece nessun accordo sulla definizione del suo programma di ricerca come disciplina scientifica.

Tra alcuni filosofi, e anche tra alcuni ricercatori del set-tore, c’è un diffuso scetticismo circa la possibilità stes-

sa di considerare l’Intelligenza Artificiale (IA, d’ora in avan-ti) una scienza. In una sua interpretazione «debole» (per usa-re un termine reso canonico da John Searle), essa apparepiuttosto una pratica sperimentale, tra l’informatica e l’in-gegneria. Suo obiettivo sarebbe la costruzione di artefatti conprestazioni tali da aiutare o assistere l’uomo (e in qualche ca-so sostituirlo) nel risolvere compiti teorici o pratici di di-versa complessità. In questa prospettiva, l’IA è vista comeil punto di arrivo di un processo evolutivo che ha consenti-to di estendere l’automazione da alcune attività del lavoromanuale ad alcune attività del lavoro intellettuale, quali, peresempio, l’elaborazione di calcoli complessi, il controllo e lapianificazione, la consulenza specializzata in alcune pre-stazioni professionali. Dal momento che di lavoro intellet-tuale si tratta, non si può non parlare di «intelligenza», mapoiché tale lavoro è completamente «automatico», diventadifficile, o opinabile, precisare la natura di tale intelligen-za. In fondo, qui sta l’origine del paradosso sul quale a vol-te si è insistito: non appena una prestazione del lavoro in-tellettuale è riprodotta da un artefatto, essa non appare piùuna funzione veramente intelligente.

Secondo un altro punto di vista, l’IA può nutrire l’ambizio-ne di essere una scienza, questa volta dei principi generalidell’intelligenza e della conoscenza (comuni cioè agli esseriumani e alle macchine), ma ha bisogno, per poter assumerea tutti gli effetti tale statuto, dell’apporto decisivo della logi-ca: un po’ come si dice della fisica, che ha avuto bisogno del-la matematica per svilupparsi come scienza. Quindi, il pro-blema dell’IA consiste in primo luogo nel trovare la logica,o le logiche, pertinenti ai suoi scopi.

Diversa ancora è la prospettiva che vede l’IA definirsi piut-tosto in rapporto alle ricerche sull’intelligenza naturale. Quile cose si complicano, perché l’intelligenza naturale non è a

L’IntelligenzaArtificiale, ovvero la costruzione di macchine«pensanti» capaci di affiancarsi all’uomoin svariate circostanze(calcolo, gestione dati,attività intellettuale)ha cominciato a interessare la comunità scientificaa partire dagli anniCinquanta, ma era giàstata anticipata dallericerche di Turinganni prima.

sua volta un dominio ben definito, e la stessa psicologia, la di-sciplina tradizionalmente deputata al suo studio, ha spesso vis-suto in modo alquanto conflittuale il proprio statuto di scien-za. Più recentemente, inoltre, ridimensionata l’idea che lamente possa costituire un oggetto di indagine indipendentedal cervello, alcune tendenze dell’IA interessate alla mente so-no portate a fare i conti con i risultati e i metodi di un’altrascienza, la neurologia (o neuroscienza, come adesso si dice).

È interessante notare come già Alan Turing, figura miticanella storia dell’IA nonostante sia scomparso due anni pri-ma della nascita ufficiale della nuova disciplina, si fosse con-frontato con i principali problemi che hanno dato luogo allediverse interpretazioni del programma di ricerca dell’IA. Giàla celebre macchina astratta che porta il nome di Turing ela sua tesi sulla natura della calcolabilità del 1935 si basa-vano, rispetto ad altre formulazioni equivalenti, su una pre-messa del tutto originale: quella di dare una descrizione ri-gorosa di procedura automatica, o più precisamente mec-canica, rifacendosi al comportamento di un essere umanoche la esegue. Dopo quella che potremmo chiamare, con l’av-vento dei primi calcolatori digitali, la realizzazione fisica del-la sua macchina astratta, Turing discusse le obiezioni alla pos-sibilità di una «macchina intelligente» che si basavano sullainconciliabilità della nozione di «automatismo» con quella di«intelligenza». Nell’Ottocento forse avrebbe potuto essere unvescovo a muovergli obiezioni del genere. Ai suoi tempi, Tu-ring, come ha ricordato Hodges (1983), trovò invece unodei principali oppositori in un neurologo, Geoffrey Jefferson,il quale gli obiettava che la logica era inutile per lo studio del-la mente umana, e che era impossibile riprodurre le carat-teristiche di quest’ultima in un artefatto non biologico,astraendo cioè dal cervello e, più in generale, dal corpo. Uninventario parziale ma efficace, si direbbe, dei principali pro-blemi con i quali si misurerà l’IA nel corso della sua storia.

Anche se la cibernetica aveva fatto la sua parte nel ridi-mensionare la contrapposizione tra le nozioni di automati-smo e di intelligenza, era stata la costruzione dei primi cal-colatori digitali a suggerire un modo per ridiscuterla dacca-po. Vogliamo allora cominciare seguendo quella che ci sem-bra la strada maestra che ha portato alle origini dell’IA, la stra-da segnata dalle tappe della costruzione del calcolatore, chehanno consentito via via di pensare a esso come a una mac-china intelligente, coniugando due termini tradizionalmen-te tanto lontani l’uno dall’altro.

608

LOGICA, PARADOSSI E INTELLIGENZA ARTIFICIALE

Le anticipazioniprofetiche di Turing

Le polemiche su automatismo e intelligenza

609

5. L’Intelligenza Artificiale

LA CIBERNETICA

La cibernetica è una disciplina sorta a metàdel XX secolo per lo studio delle macchine au-tomatiche (nel senso di macchine che svol-gono esse stesse parte dell’attività di control-lo), dei sistemi di ogni tipo analoghi a tali mac-chine e dei concetti teorici sottostanti a tali si-stemi, secondo una prospettiva che unificas-se i contributi e le prospettive di ricerca pro-venienti da aree differenti del sapere come l’e-lettronica, la biologia, la sociologia, la teoriamatematica dell’informazione, la teoria degliautomi. Il nome fu coniato da Norbert Wiener,uno dei fondatori della cibernetica, per indi-care «l’intero campo della teoria del control-lo e della comunicazione sia nelle macchinesia negli animali».

Punto di partenza della cibernetica è in ef-fetti lo studio dei servomeccanismi e in ge-nerale dei sistemi (meccanici, organici o so-ciali) basati sulla retroazione o feedback. Laretroazione è una tecnica usata per diminui-re lo scostamento da uno stato definito co-me ottimale, usando come ingresso del ser-vomeccanismo le stesse deviazioni del siste-ma rispetto allo stato di riferimento; è detta

anche, in questa forma, retroazione negativa(negative feedback).

Un sistema a retroazione consiste in unoo più sottosistemi connessi da un circuito inmodo che l’ingresso (input) di ciascuno sial’uscita (output) dell’altro. L’intento dei fon-datori della cibernetica era di giungere a unadisciplina astratta di carattere matematico, icui oggetti fossero innanzitutto gli aspetti co-muni a certi tipi di dispositivi meccanici oelettronici, ai fenomeni sociali, ai compor-tamenti teleologici, ai processi neurofisiolo-gici, e più in generale il trattamento scienti-fico di sistemi in cui risulti predominante lacomplessità.

In seguito la cibernetica venne compiuta-mente identificata con la teoria e la progetta-zione di sistemi di elaborazione dell’informa-zione (informatica), da una parte, e con il cam-po di studio delle teorie dei sistemi, dall’altra.

In che misura la cibernetica rappresenti unapotenzialità di sviluppo per l’umanità è unaquestione tuttora dibattuta, e non solo nellacomunità scientifica.

610


Verso il calcolatore intelligente«Se Babbage fosse vissuto settantacinque anni dopo, io sareidisoccupato»: così sembra dicesse il fisico Howard Aiken(1900-73) davanti alla sua macchina, il calcolatore Mark I, oAutomatic Sequence Controlled Calculator, completato a Har-vard nel febbraio del 1944. Si trattava di una macchina costi-tuita di relè elettromagnetici, capace di effettuare calcoli nu-merici su cifre codificate in rappresentazione decimale. Comela celebre «macchina analitica», mai realizzata ma progettatain tutti i particolari nel 1837 dal matematico inglese CharlesBabbage (1791-1871), il calcolatore di Aiken si basava sull’ideadi macchina a programma: le istruzioni per eseguire un cal-colo, una volta codificate in forma binaria su un nastro di car-ta perforato, potevano essere effettuate sequenzialmente in mo-do automatico, cioè senza l’intervento dell’operatore umano.

In un certo senso, Aiken corse veramente il rischio di rima-nere disoccupato: qualche anno prima che egli completasse lacostruzione del Mark I, nel 1941, l’ingegnere Konrad Zuse(1910-95) aveva costruito in Germania un calcolatore auto-matico che per di più usava una rappresentazione completa-mente binaria. Ma la macchina di Zuse, nota come Z3, andò

Howard Aiken davanti al gigantescocalcolatore Mark 1,presso l’Università di Harvard nel 1944. Le esigenze bellichefornirono uno stimoloeccezionale allo studiodi macchine capaci di gestire una sempremaggiore quantità di calcoli. Nel 1946 si sarebbe arrivati alprimo elaboratoreelettronico, l’ENIAC.

611


distrutta durante i bombardamenti degli alleati sulla Germa-nia. Il calcolatore digitale automatico nasceva dunque in Eu-ropa, e nel pieno del secondo conflitto mondiale. È stato Nor-bert Wiener (1894-1964) a ricordare come esso si sostituissegradualmente al calcolatore analogico nelle applicazioni bel-liche. L’elaborazione veloce e precisa di grandi quantità di da-ti numerici era indispensabile, per esempio, per rendere effi-cace l’artiglieria di fronte all’accresciuta velocità dei veicoli ae-rei. Presso il MIT (Massachusetts Institute of Technology),Wiener, in collaborazione con l’ingegnere Julian Bigelow, svol-se un ruolo di primo piano nella messa a punto di sistemi au-tomatici antiaerei, nei quali l’informazione sull’obiettivo mo-bile captata dal radar ed elaborata dal calcolatore retroagivamodificando l’asse di puntamento del cannone.

Con Bigelow e con il fisiologo Arthuro Rosenblueth (1900-70), Wiener pubblicò nel 1943 un sintetico articolo in cui sisosteneva di recuperare il linguaggio psicologico (termini co-me «scopo», «scelta», «obiettivo» e simili) per descrivere si-stemi dotati di retroazione (feedback) negativa come quello ap-pena descritto, in grado, cioè, di rispondere in modo selettivoalle sollecitazioni dell’ambiente, modificando il proprio com-portamento al pari degli organismi viventi. Quell’articolo è or-mai considerato l’atto di nascita della cibernetica, come Wie-ner chiamò qualche anno dopo la disciplina che avrebbe do-vuto occuparsi dei meccanismi dell’autoregolazione e del con-trollo presenti tanto negli organismi viventi quanto nelle nuo-ve macchine con retroazione (Wiener, 1948).

Sempre nel 1943, Warren McCulloch (1898-1969), neuro-logo e psichiatra, firmava con l’allora giovanissimo logico Wal-ter Pitts (1923-69) un saggio destinato a influenzare comepochi tanto la scienza dei calcolatori quanto la progettazionedi alcune delle più celebri macchine dell’epoca cibernetica(McCulloch e Pitts, A Logical Calculus of the Ideas Immanentin Nervous Activity, 1943). Come ricorderà poi McCulloch, inquel momento egli e Pitts non conoscevano i risultati che Clau-de Shannon (1916-2001), futuro fondatore della teoria del-l’informazione, aveva pubblicato nel 1938, sollecitato dai pro-blemi in cui si era imbattuto lavorando, presso il MIT, all’a-nalizzatore differenziale di Vannevar Bush (1890-1974), la piùnota macchina analogica dell’epoca. Eppure, tanto McCulloche Pitts quanto Shannon usavano uno stesso strumento, l’al-gebra di Boole, per indagare due domini molto diversi: McCul-loch e Pitts le reti costituite di neuroni «formali», analoghimolto semplificati dei neuroni del cervello e funzionanti

Dall’analogico al digitale

Le macchine a retroazione

612


secondo la legge del tutto o niente (un neurone scatta o nonscatta se l’intensità degli impulsi che riceve supera o menouna certa soglia), Shannon i componenti dei circuiti elettri-ci, funzionanti secondo una legge analoga (un relè scatta o nonscatta se la corrente raggiunge o meno una certa intensità).L’intuizione di Shannon fu determinante nella progettazio-ne dei circuiti dei calcolatori digitali. Se nulla sapevano del la-voro di Shannon, McCulloch e Pitts erano perfettamente aconoscenza di quello di Turing, e conclusero che una lororete di neuroni formali era equivalente a una macchina di Tu-ring con nastro finito.

Mentre la sconfitta della Germania interruppe il lavoro diZuse, in Inghilterra e negli Stati Uniti la realizzazione dei gran-di calcolatori digitali non conobbe soste, continuando a mo-bilitare risorse e talenti straordinari, che in breve tempo por-tarono a una vera e propria svolta.

In Inghilterra già dalla fine del 1943 funzionavano i Colos-si, calcolatori automatici impiegati nella decrittazione dei co-dici militari tedeschi. Si trattava di macchine specializzate nelrisolvere solo questo tipo di compiti, ma erano molto evolu-te, essendo tra l’altro completamente elettroniche, cioè conle valvole al posto dei relè elettromeccanici: un progresso tec-

Norbert Wiener(1894-1964), padredella cibernetica,professore dimatematica al MIT(MassachusettsInstitute ofTechnology) dal 1932al 1960: una dellefigure fondamentalidel «periodo epico»della ricerca sui primielaboratori elettronici.

I calcolatoriautomatici Colossi

613


nologico che, portando ai calcolatori della cosiddetta primagenerazione, avrebbe reso per la prima volta veramente velo-ce l’elaborazione dei dati. Coperte dal più stretto segreto mi-litare (come tanti altri progetti della cibernetica e della scien-za dei calcolatori degli anni del secondo conflitto mondiale),solo dal 1975 si è cominciato a conoscere le caratteristichedi queste macchine, al cui progetto aveva partecipato un grup-po di ricercatori guidato dal matematico Max Newman, cheincludeva I.J. Good e Donald Michie. Alla decrittazione delcodice della leggendaria macchina tedesca ENIGMA con-tribuì lo stesso Turing, che successivamente, nella secondametà degli anni Quaranta, partecipò a due diversi progetti digrandi calcolatori: ACE (Automatic Computing Engine) a Ted-dington e MADM (Manchester Automatic Digital Machi-ne) a Manchester.

Negli Stati Uniti si arrivò a completare la costruzione di uncalcolatore elettronico nel 1946. I suoi progettisti, due ricer-catori dell’Università di Pennsylvania, J. Presper Eckert (1919)e John Mauchly (1907-80), lo chiamarono Electronic Nu-merical Integrator and Calculator, o ENIAC. Era certo il piùgrande calcolatore mai costruito, ed è solitamente conside-rato il primo grande calcolatore di tipo generale: per l’epoca,

L’ingegnere tedescoKonrad Zuse era inanticipo di dieci annisui suoi colleghiamericani: il suoprimo computer, lo Z1, è del 1935,mentre lo Z3 del 1941 aveva relèelettromeccanici,nastro perforato ainformazione binaria,ed era comandato da una tastiera.Sfortunatamente andò distrutto neibombardamenti sulla Germania del 1944-45.

Il calcolatoreelettronico

614


la migliore realizzazione di una macchina universale nel sen-so di Turing.

Fu proprio all’interno del gruppo dell’ENIAC che maturòla svolta alla quale abbiamo alluso. Consulente del progettodell’ENIAC era stato il matematico di origine ungherese Johnvon Neumann (1903-1957). Pochi testi sono rimasti cele-bri nella storia della scienza dei calcolatori come il First Draftredatto da Von Neumann nel 1945, dove, adottando la sim-bologia di McCulloch e Pitts, si descriveva l’architettura diun calcolatore di nuova concezione, che sarebbe rimasta so-stanzialmente immutata negli anni a venire: quella di un cal-colatore nella cui memoria interna sono depositati non soloi dati, come nei calcolatori realizzati fino a quel momento,ma anche le istruzioni per manipolarli, ovvero il program-ma, che diventava così modificabile non meno dei dati.

La paternità dell’idea sollevò un dissidio tra Von Neumannda una parte ed Eckert e Mauchly dall’altra. A costruire ilprimo calcolatore con programma memorizzato fu però ilgruppo guidato dal matematico Maurice Wilkes (1913) aCambridge, che nel 1949 completò l’EDSAC (ElectronicDelay Storage Automatic Calculator). Negli Stati Uniti uncalcolatore di questo tipo fu realizzato l’anno seguente conil nome di EDVAC (Electronic Discrete Variable AutomaticComputer).

J.W. Mauchly e J. Presper Eckert al lavoro sull’ENIACnel gennaio del 1946.I due scienziaticontenderanno a von Neumann lapaternità del concetto di «programmamemorizzato».

615


«Pensiero meccanico»Una caratteristica fondamentale di un calcolatore di tipogenerale, già intuita da Babbage, è quella di manipolare nonsolo simboli numerici, ma simboli generici, con i quali è pos-sibile rappresentare le entità più diverse: parole di una linguanaturale, espressioni matematiche, posizioni di un gioco, og-getti da riconoscere e classificare e così via.

Un’altra caratteristica fondamentale del calcolatore, an-che questa intuita da Babbage e che invece mancava nei cal-colatori di Zuse e di Aiken, è l’istruzione di «salto condizio-nato» (conditional branching), con la quale diventa possibi-le dare al programma del calcolatore una capacità discrimi-nativa. La macchina in questo caso non si limita a seguire unasequenza fissa di istruzioni, ma può cambiare l’ordine di ese-cuzione, in modo che, se una data condizione è soddisfatta,essa effettua le operazioni specificate da una certa parte delprogramma (da un sottoprogramma), altrimenti ne esegue al-tre specificate da una diversa parte del programma (da un al-tro sottoprogramma). Questa capacità, già posseduta dai piùprogrediti dei Colossi e dall’ENIAC, era pienamente valo-rizzata dalla presenza del programma memorizzato.

L’EDSAC era appena completato che proprio queste duesue caratteristiche, l’elaborazione di dati non numerici e lapresenza dell’istruzione di salto condizionato in un program-ma memorizzato, furono portate in primo piano per parlare

Parte di una macchinacalcolatrice per ilcalcolo differenzialericostruita dai progetti originali di Charles Babbage(1792-1871), ilmatematico ingleseche per tutta la vita si dedicò allostudio della macchinache ha anticipato dicento anni la nascitadel computer.

616


di «pensiero meccanico» dei calcolatori. In un lavoro pub-blicato nel 1952, Programming a digital computer to learn, An-thony Oettinger (1929), nel Mathematical Laboratory diret-to da Wilkes a Cambridge, descriveva due programmi perl’EDSAC in grado di modificare le proprie prestazioni sullabase dell’esperienza, ovvero di «apprendere». Uno di questimanifestava una forma di apprendimento che oggi diremmomnemonico. Il compito da eseguire era quello di imparare do-ve acquistare certe merci in un mondo simulato di rivendi-tori. Il programma cercava a caso tra i vari rivenditori fino ascovare la merce desiderata, annotando in memoria pressoquale rivenditore l’aveva trovata. Richiesto di cercare di nuo-vo quella stessa merce, il programma raggiungeva direttamenteil relativo rivenditore, senza ripetere la ricerca. Inoltre, essoera dotato di una certa «curiosità», come diceva Oettinger:nelle sue ricerche casuali, il programma prendeva nota di al-tre merci, diverse da quella cercata, fornite dai vari rivenditoriin cui si imbatteva, in modo da poter usare questa informa-zione per abbreviare la ricerca di quelle merci in successiveesplorazioni. È evidente come tutto si basasse sulla iterazio-ne di cicli controllati da salti condizionati: il programma con-tinuava nella sua ricerca se la merce non era quella voluta,prendendo nota del risultato, altrimenti si fermava.

A stimolare la ricerca di Oettinger erano stati soprattuttotre lavori che risalivano agli anni immediatamente precedenti.Il primo era un articolo di Shannon, Programming a compu-ter to plain chess (1950), in cui l’autore insisteva sull’impor-tanza delle applicazioni non numeriche dei calcolatori digi-tali, come la programmazione del gioco degli scacchi, l’og-getto della sua ricerca, sulla quale dovremo tornare. Gli al-tri due portavano la firma di Turing e di Wilkes, e vertevanosul «pensiero meccanico», ovvero sull’asserita «intelligen-za» dei calcolatori. L’articolo di Turing, Computing Machi-nery and Intelligence (1950), diventerà uno dei testi più co-nosciuti e citati nella letteratura relativa alle nuove macchi-ne, sia per alcune intuizioni anticipatrici di sviluppi futuri,sia per la proposta di quello che egli chiamò il «gioco dell’i-mitazione». Al gioco partecipano un uomo, una donna e uninterrogante, il quale, ponendo le domande più diverse e ri-cevendo le risposte attraverso due terminali distinti, deve sco-prire chi è l’uomo e chi la donna. Turing immagina che, neldare le risposte, l’uomo tenti di ingannare l’interrogante, men-tre la donna tenti di aiutarlo. Egli propone quindi di sostituireall’uomo una macchina, in effetti un calcolatore digitale di ti-

L’articolo di Turingsull’intelligenza e gli elaboratori

Il «pensieromeccanico» dei calcolatori

617


po generale, e di vedere come se la cavi nel gioco, e cioè fi-no a che punto riesca a ingannare l’interrogante. Quest’ulti-mo, si chiede Turing, sbaglierebbe nell’identificare i suoi in-terlocutori «altrettanto spesso» di quando al gioco parteci-pava un uomo e non una macchina?

Wilkes, riprendendo il gioco dell’imitazione nell’articolo CanMachines Think? (1951), sosteneva che, per pensare seria-mente di «simulare il comportamento umano» con un cal-colatore, si sarebbe dovuto progettare un «programma di ap-prendimento generalizzato», cioè in grado di imparare in qual-siasi campo scelto dal programmatore: un obiettivo molto lon-tano, date le prestazioni dei programmi realizzati.

L’articolo di Wilkessulla possibilità di pensiero dellemacchine

LE APPLICAZIONI DELL’INTELLIGENZA ARTIFICIALE: LA ROBOTICA

Tra i diversi campi di studio dell’IntelligenzaArtificiale, il cui concetto si può far risalireal matematico britannico Alan Turing, si è svi-luppata l’odierna tecnica di progettazione dirobot, la robotica.

Un moderno robot, in grado di muoversi au-tonomamente nell’ambiente in cui esplica lesue funzioni, è una macchina, comprendenteo collegata a un elaboratore elettronico, orien-tata alla manipolazione di parti o utensili por-tatili, ma non in grado di eseguire particolarioperazioni tecnologiche. Suo campo di appli-cazione sono le attività di tipo discreto nellequali vengono trattati oggetti individuati e nu-merabili. Scopo principale è quello di sostitui-re l’uomo in alcune attività produttive, in par-ticolare nelle operazioni di manipolazione. Ro-bot evoluti sono addirittura insostituibili in al-cune imprese spaziali.

I robot industriali hanno mostrato – come glielaboratori elettronici – una tendenza marcataa svilupparsi per generazioni, cioè attraversosalti qualitativi. I robot della prima generazionehanno capacità di memoria, ma non hanno, senon in misura molto ridotta, capacità di adat-tarsi alle condizioni esterne. I robot di secon-da generazione sono invece muniti di sensoriche consentono capacità sensoriali rudimentalicome tatto e vista, vengono invece progettati, ein parte impiegati, per poter essere in grado diinteragire con l’ambiente esterno. Sono inoltredotati di sistemi di elaborazione, che permet-

tono loro di prendere semplici decisioni e dieffettuare scelte operative in base alle situa-zioni percepite attraverso i propri sensori. Ca-ratteristica fondamentale dei robot destinati al-l’attività manifatturiera è la capacità di ap-prendere tutte le fasi del ciclo lavorativo. I robotvengono anche utilizzati per il rilevamento deidati durante i processi produttivi, ma più spes-so effettuano dei controlli automatici sulle ope-razioni svolte.

Nel 2003 un’équipe di ricercatori americaniha messo a punto un robot i cui movimentisono governati da una rete di cellule neurali,ossia un ibrido tra essere vivente e componentirobotiche, che ha una caratteristica fonda-mentale: muovendosi assorbe informazioni dal-l’ambiente circostante e reagisce cambiandoil proprio comportamento, imparando perciòdall’esperienza.

Un francobollocelebrativo dellafigura di AlanTuring, uno deiteorizzatori delconcetto diIntelligenzaArtificiale e dellesue applicazionitecnologiche,come la robotica.

618


Oettinger ritenne che i suoi programmi costituissero delleparziali risposte ai quesiti posti da Turing e da Wilkes. Senzamanifestare la capacità «generalizzata» di apprendimento in-dicata da Wilkes, essi riuscivano tuttavia a migliorare le pro-prie prestazioni in certi compiti particolari. Inoltre, essi avreb-bero potuto superare almeno «una forma ristretta», come eglisi esprimeva, del gioco dell’imitazione. Oettinger sembra dun-que essere stato il primo a interpretare il gioco dell’imitazio-ne come un test sufficiente (un «criterio», egli diceva) per va-lutare le prestazioni di particolari programmi per calcolatore indomini limitati. Sarà questa interpretazione «ristretta» del gio-co dell’imitazione, nota come test di Turing, che diventerà piùpopolare in seguito.

Oettinger osservava inoltre che il calcolatore era usato in que-sti casi per simulare certe funzioni del cervello, non la sua strut-

Maurice Wilkes(1913) al lavoro sul computer EDSACnel 1949. L’EDSACrappresenta il primoelaboratore a programmamemorizzato della storia.

Il gioco dell’imitazione e il testi di Turing

619


tura fisica, e il criterio di Turing poteva servire per verificaresolo una corrispondenza funzionale tra calcolatore e cervello.In questo caso, rendendo esplicite alcune intuizioni di Turing,le sue osservazioni coglievano un punto che ispirerà l’orienta-mento di futuri approcci computazionali ai processi mentali.Anche le sue proposte metodologiche andavano in questa di-rezione. L’uso simbolico del calcolatore individuava per Oet-tinger coloro che sarebbero stati in effetti tra i principali uten-ti delle nuove macchine: «Quanti, come gli psicologi e i neu-rologi, sono interessati alle potenzialità degli attuali calcola-tori digitali come modelli della struttura e delle funzioni dei si-stemi nervosi organici». D’altra parte, il salto condizionato erada lui interpretato in un’accezione che l’avrebbe reso partico-larmente suggestivo per tali utenti. Anche Shannon, nell’arti-colo ricordato da Oettinger, ne parlava come di una procedu-ra che metteva la macchina nella condizione di decidere o sce-gliere tra alternative diverse sulla base di risultati ottenuti inprecedenza. Ma Oettinger sottolineava questo aspetto comecruciale per i suoi programmi, perché consentiva loro di «or-ganizzare sensatamente (meaningfully) la nuova informazione,e di selezionare modi alternativi di comportamento sulla ba-se di tale organizzazione».

Come si è detto, i programmi di Oettinger erano basati in mo-do essenziale sul salto condizionato. In fondo, non si trattavache della capacità propria di un calcolatore come l’EDSACdi simulare il comportamento di un dispositivo analogico do-tato di retroazione. Ma proprio la cibernetica aveva esaltatole capacità discriminative di tali dispositivi, e come abbiamovisto erano stati Rosenblueth, Bigelow e Wiener a introdurreil linguaggio psicologico della «scelta» e dello «scopo» nella de-scrizione di questi artefatti. Un invito a un uso quanto menocauto di termini psicologici suggeriti dal salto condizionato co-me «decisione» o «discriminazione», per non parlare di «pen-siero», venne poi da un successivo intervento di Wilkes (1953).Mentre testimoniava l’effettivo impiego di tali termini da par-te di molti programmatori (abbiamo ricordato il caso di Shan-non), e riconosceva l’importanza del salto condizionato per lamessa a punto di programmi che apprendono come quelli diOettinger, Wilkes osservava come questa procedura non aves-se nulla di straordinario, ed era comunemente usata da qual-siasi programmatore di grandi calcolatori. Tuttavia, procedu-re di questo tipo, caratteristiche delle nuove macchine, sonostate all’origine della discussa plausibilità, sulla quale torne-remo, di attribuire loro una qualche forma di intenzionalità.

L’invito di Wilkes a non pensare icalcolatori in terminipsicologici

620


La simulazione del cervello sul calcolatore: struttura o funzione?L’articolo di Wilkes compariva ripubblicato su uno dei piùdiffusi periodici scientifici dell’epoca, i «Proceedings of theIRE» (Institute of Radio Engineers), in un numero specialedel 1953, The Computer Issue, che costituisce forse la mi-gliore testimonianza del livello raggiunto in quel momentodalla progettazione e dalla tecnologia dei calcolatori. L’arti-colo era seguito da un intervento di Shannon, Computers andAutomata (1953), una rassegna dei programmi che manife-stavano prestazioni paragonabili a quelle umane, e da unalunga serie di contributi che presentavano il calcolatore sot-to tutti i suoi aspetti, da quelli della programmazione a quel-li dello hardware, mentre si intravedevano i vantaggi del-l’imminente diffusione dei transistori, che avrebbe caratte-rizzato la seconda generazione di calcolatori. Nella realizza-zione e nella diffusione dei calcolatori, in prevalenza pro-gettati nel mondo delle università, non era mancato, oltreal sostegno dei militari, l’apporto dell’industria. Negli StatiUniti, l’IBM aveva contribuito a finanziare il progetto di Ai-ken, e proprio all’inizio degli anni Cinquanta, quasi contem-poraneamente alla Ferranti in Inghilterra, era entrata nel mer-cato con il calcolatore IBM 701, accuratamente descritto nelComputer Issue. Era il primo di una serie di calcolatori elet-tronici generali con programma memorizzato, utilizzabili perscopi di ricerca teorica ma anche di applicazione industriale,che dovevano portare l’azienda americana ad assumere ra-pidamente un ruolo egemone nel settore. Su questo calco-latore aveva cominciato a far girare un suo primo programma

per il gioco della dama Arthur Sa-muel (1901-90), allora ri-cercatore presso l’IBM,un cui articolo introdut-tivo apriva il Computer Is-sue.Nell’aprile dello stesso

1953 si era svolta a NewYork l’ultima Macy Confe-rence di cibernetica, decimodi una serie di appuntamen-ti che, a partire dal marzo del1946, avevano visto crescereintorno alla proposta di Wie-

Una unità PU(pluggable unit) delcomputer IBM 701:costruito in 19esemplari nel 1952, il 701 costituisce il primo computerprodotto in serie della storia. Ormai le potenzialità deglielaboratori nonriguardavano più solouna cerchia ristretta di matematici (o, tutt’al più,militari) ma anche ilmondo dell’industria,del commercio, delterziario.

621


ner l’interesse di filosofi e scienziati di formazione molto di-versa. A chiudere la conferenza era McCulloch, con un Som-mario dei punti di accordo raggiunti nelle precedenti riunioni(1953). Tra questi egli ricordava le sue reti formali e i risul-tati di Turing, ma neppure un cenno era dedicato all’emer-gente impiego del calcolatore come macchina generale e alsuo possibile ruolo nel programma cibernetico. E questo no-nostante egli fosse solito descrivere il cervello, per la verità

I TRANSISTOR

Il nome transistor indica attualmente più grup-pi di dispositivi elettronici costruiti con ma-teriali semiconduttori. I gruppi più importan-ti nella famiglia dei transistor sono i transistorbipolari e quelli a effetto di campo.

Le piccole dimensioni, l’elevata affidabili-tà, la possibilità di integrarne un grande nu-mero su di una piastrina di silicio, e la pos-sibilità di utilizzarli sia come amplificatori siacome interruttori, hanno fatto di questi di-spositivi i protagonisti dello sviluppo dell’elet-tronica. I transistor bipolari si ottengono da unmonocristallo di silicio nel quale vengono ri-cavate tre zone drogate, rispettivamente p, ne di nuovo p, formando in tal modo un tran-sistor PNP, (oppure n, p e di nuovo n, tran-sistor NPN). Il drogaggio del silicio si ottieneaggiungendo piccole quantità di impurità, al-luminio o boro per ottenere silicio di tipo P,arsenico o fosforo per il silicio di tipo N.

Il silicio N contiene come portatori di cari-ca liberi gli elettroni apportati dall’elemento

drogante, mentre nel silicio P i portatori liberisono costituiti da lacune, cariche positiva-mente. Le tre zone sono chiamate, rispetti-vamente, emettitore (E), base (B) e colletto-re (C), e formano due giunzioni fra materia-le di tipo P e N. Caratteristica della base èdi essere sottile (alcuni micrometri al mas-simo) e poco drogata rispetto all’emettitore.Il cristallo di silicio viene racchiuso in un con-tenitore che ha lo scopo di proteggere il cri-stallo dalla luce, da attacchi meccanici, chi-mici e di dissipare il calore prodotto duranteil funzionamento. Sulle tre zone E, B e C ven-gono saldati durante la costruzione dei fili dicollegamento che fuoriescono poi dal con-tenitore e servono per il collegamento al cir-cuito.

I transistori a effetto di campo (FET, Field Ef-fect Transistor), anche detti transistori unipo-lari sono numerosi: i più importanti sono ilJFET (FET a giunzione) e il MOS-FET (Me-tallo Ossido Semiconduttore).

Schemi dei due tipi principali di transistor, NPN e PNP.

TIPO NPN

TIPO NPN TIPO PNP

collettore(C)

emettitore (E)

base (B) base (B)

emettitorezona n zona p zona n zona p zona n zona p

base collettore

emettitore (E)

collettore(C)

TIPO PNP

622


piuttosto genericamente, come «un calcolatore digitale do-tato di retroazione». Se si confrontano i resoconti di questaConferenza con gli interventi contenuti nel Computer Issue,si ha la sensazione di avere a che fare con due mondi moltodistanti l’uno dall’altro.

Un diverso convegno, al quale partecipava lo stessoMcCulloch, sembrava questa volta fare i conti con il ruo-lo che il calcolatore poteva svolgere nelle scienze della men-te e del cervello. Insieme a Oettinger, al neurologo OttoSchmitt e a Nathaniel Rochester, direttore di ricerca del-l’IBM, McCulloch era uno dei quattro relatori del simposioProgetto di macchine che simulano il comportamento del cer-vello umano (1956), organizzato nel 1955 dalla IRE Natio-nal Convention. Invitati a discutere le relazioni erano tra glialtri John Mauchly, Walter Pitts e Marvin Minsky, in quelmomento ad Harvard. La lettura del resoconto di questosimposio è illuminante: si ha la sensazione di avere davan-ti l’inventario degli argomenti principali, degli approcci me-todologici, delle ambizioni e delle difficoltà che verranno inprimo piano nel decennio successivo, e in qualche caso an-che in tempi più recenti.

Sullo sfondo o al centro dei temi dibattuti al simposio i pri-mi programmi per calcolatore già funzionanti, o comunquein fase di sperimentazione, che in un modo o in un altro imi-tavano prestazioni umane o competevano con esse. Alcunierano stati già illustrati da Shannon nel Computer Issue, eOettinger nel suo intervento ne citava altri. C’erano anzituttoi programmi che se la cavavano più o meno bene in giochi didiversa complessità: quello per la dama, suggerito da Turinga Cristopher Strachey, che lo pubblicò nel 1952; quello diD.W. Davies per il filetto, che girava su un calcolatore DEU-CE; quello per il nim. Il calcolatore NIMROD, costruito dal-la Ferranti, aveva giocato al nim con i visitatori della mo-stra scientifica del Festival of Britain del 1951, dove si tro-vava esposto insieme alle celebri «tartarughe» elettronichedel cibernetico Walter Grey Walter (1910-77). Turing era trai visitatori di questa esposizione delle meraviglie delle nuo-ve macchine, giocò con il calcolatore e riuscì a batterlo. C’e-rano poi i programmi già ricordati dello stesso Oettinger, equello più recente di Rochester, il quale, con John Holland(1929) e altri ricercatori, si era proposto di simulare su unIBM 701 la teoria sviluppata nel libro del 1949, The Orga-nization of Behavior, dallo psicologo Donald Hebb (1904-85), per il quale l’apprendimento consisteva nel rafforza-

Scienze della mentee ruolo delcalcolatore

623


mento delle connessioni tra neuroni, o gruppi di neuroni, ri-petutamente attivati. Al simposio si confrontarono posizio-ni diverse. La discussione con Pitts portava Oettinger a chia-rire la sua affermazione circa il duplice interesse suscitatodal calcolatore digitale: nelle ricerche neurologiche, dove es-so può essere usato per controllare teorie del funzionamen-to del cervello, e nella simulazione delle «funzioni mentalisuperiori», che può essere invece ottenuta senza simulareciò che si sa o si ipotizza al livello della struttura biologica,cioè del cervello. La ricerca sulla simulazione delle funzio-ni suggerisce a sua volta i modi in cui migliorare le presta-zioni di macchine come i calcolatori, tanto distanti dal cer-vello sul piano della somiglianza strutturale. Come esempiodel primo tipo di ricerche Oettinger citava il programma si-mulativo di Rochester, che questi aveva presentato al sim-posio insistendo a sua volta sulla proposta metodologica di«usare i calcolatori automatici moderni per controllare cer-ti aspetti di alcune teorie del funzionamento del cervello».Lo schema qui sopra riproduce il ciclo metodologico illu-strato da Rochester, che va dall’implementazione sul cal-colatore del modello di una teoria del cervello, all’estrazio-ne delle implicazioni del modello, al loro controllo, all’usodei dati per confermare, refutare o modificare la teoria: pro-prio il ciclo sperimentato sulla teoria di Hebb, che aveva do-vuto subire alcune modifiche suggerite dal modello imple-mentato sul calcolatore.

Molto dibattuta al simposio fu la questione sollevata daSchmitt: se i calcolatori dovevano imitare la duttilità del ra-gionamento manifestata dal cervello umano, bisognava chericorressero non alla rigida logica del sì e del no, o bivalen-te, ma a una logica sfumata, o «grigia», come egli diceva. Inuna breve polemica con McCulloch, infine, Minsky si di-

▼

▼

▼

modello teorico calcolo di alcuneimplicazioni del modello

uso dei risultatiper confermare, refutare

o modificareil modello teorico

esperimento per verificare se le predizionisono corrette

▼

Il ciclo metodologicoproposto da NathanielRochester nel 1955, in cui il calcolatore è usato per controllare la teoriadell’apprendimento di Hebb.

Il ciclo metodologicodi Rochester

624


chiarava scettico sullo stato dei modelli con «memoria di-stribuita», e rifiutava di ritenere, come gli veniva proposto,che un buon esempio di tali modelli fosse una macchina do-tata delle semplici capacità auto-organizzative dell’«omeo-stato» del cibernetico William Ross Ashby (1903-72). L’o-meostato, una delle più note macchine dell’era ciberneti-ca, era descritta da Ashby (1952) come un sistema «ultra-stabile», in grado non solo di autocorreggere il proprio com-portamento (come i sistemi dotati di retroazione negativa o«stabili») ma anche di auto-organizzarsi, cioè di cambiarela propria organizzazione interna al fine di reagire in modoappropriato a un disturbo proveniente dall’ambiente.

Strategie soddisfacentiIl simposio del 1955 si era svolto mentre Samuel completa-va l’implementazione su un calcolatore IBM 704 di un nuo-vo programma per la dama, destinato a rimanere una pietramiliare nelle ricerche sull’apprendimento automatico. Eglisviluppò alcune precedenti intuizioni di Shannon sulla pro-grammazione degli scacchi, ma scelse la dama per la mag-giore semplicità delle regole, che rendeva il gioco effettiva-mente trattabile al calcolatore. Lo studio del comportamen-to decisionale nei giochi ha svolto un ruolo di primo pianonella ricerca che è all’origine dell’IA, ed è dunque interes-sante ricostruirne con qualche dettaglio le premesse e i prin-cipali sviluppi.

Shannon aveva cominciato a pensare a un programma sucalcolatore per gli scacchi intorno alla metà degli anni Qua-ranta. Anche su questo argomento Turing aveva detto la sua:con Good, aveva simulato «a mano» un programma per gliscacchi che nelle caratteristiche fondamentali richiama quel-lo di Shannon. Quest’ultimo, descritto nell’articolo del 1950già ricordato, si basava sull’idea di valutare la mossa miglio-re attraverso un’analisi anticipativa delle mosse alternativedel gioco, sulla base di una procedura nota come «minimax».Si tratta di una procedura che risale alle prime formulazionidella teoria matematica dei giochi, sulla quale aveva lavora-to a partire dagli anni Venti anche von Neumann. Il gioca-tore di scacchi era diventato una metafora comune nell’a-nalisi dei processi di decisione, trovando infine una formu-lazione rimasta classica nel libro che Von Neumann avevapubblicato nel 1944 con l’economista Oskar Morgenstern,Theory of Games and Economic Behavior.

L’omeostato

Lo studio delcomportamentodecisionale nei giochi

625


CLAUDE ELWOOD SHANNON

Matematico e informatico statunitense (Pe-toskey, Michigan 1916-Metford, Massachu-setts 2001), Shannon è il fondatore della teo-ria dell’informazione, alla base della modernacomunicazione digitale.

Durante il suo master presso il Dipartimen-to di Ingegneria elettrica del MassachusettsInstitute of Technology (MIT) Shannon appli-cò la logica simbolica e l’algebra booleanaalla progettazione di circuiti a commutatori,antenati dei circuiti integrati. I risultati prin-cipali di tale ricerca sono nella sua tesi ASymbolic Analysis of Relay and Switching Cir-cuits, (che gli fruttò il premio Alfred NobleAmerican Institute of American Engineers).

La tesi di master di Shannon è considera-ta una pietra miliare nella teoria della pro-gettazione dei circuiti integrati per i compu-ter. Negli anni successivi, Shannon comin-ciò a sviluppare le sue idee sui sistemi di co-municazione dell’informazione in presenzadi «rumore» che lo portarono, nel 1948, alsuo lavoro più importante e punto di par-tenza della teoria dell’informazione: A Ma-thematical Theory of Communication. Shan-

non arrivò all’idea rivoluzionaria della rap-presentazione digitale dell’informazione (siaquesta sotto forma di testo, o di immagine,o di suono, o di video), che si ottiene cam-pionando la sorgente dell’informazione a unavelocità appropriata, e convertendo i cam-pioni in un flusso di bit.

Shannon è noto anche per la sua inclina-zione a progettare giochi e passatempi elet-tronici e connessi con l’intelligenza artificia-le tra cui un programma per giocare a scac-chi con il computer (fonte d’ispirazione permolti programmi di simile natura scritti in se-guito).

È diventato famoso il «topolino di Shannon»,un dispositivo elettronico che cercava la stra-da in un labirinto e sembrava impararla at-traverso errori e tentativi. Shannon ha ancheapplicato concetti di teoria dell’informazioneall’economia, e in particolare al concettodell’«investimento ottimale»: in questo caso ilproblema da risolvere è la massimizzazione diuna funzione portfolio attraverso una sceltaappropriata delle azioni, e il rumore sono levariazioni della borsa.

Claude Shannonfotografato ailaboratori Bell nel 1954. La suaterminologia e i suoimodelli di teoriadell’informazionehanno mantenutotutta la lororilevanza anche a distanza dicinquanta anni.


Nella loro terminologia, gli scacchi, al pari di altri giochi cheabbiamo ricordato, come la dama, il nim o il filetto, sono «de-terminati univocamente». Un modo per rappresentarli è l’al-bero del gioco. Esso viene generato a partire da una posizio-ne o un nodo iniziale considerando prima tutte le mosse le-cite del primo giocatore (i nodi raggiungibili da quello inizialeapplicando le regole del gioco), poi tutte le risposte dell’av-versario e così via. Un giocatore perfettamente razionale, ineffetti onnisciente, sarebbe in grado di «vedere» l’intero al-bero del gioco, e dunque di scegliere la migliore successio-ne di mosse attraverso la valutazione delle conseguenze finalidi ciascuna mossa alternativa: gli basterebbe assegnare va-lori distinti alle posizioni finali, corrispondenti alla vittoria, alpareggio e alla sconfitta; quindi risalire l’albero a ritroso ap-

626

UN ESEMPIO DI ALBERO PARZIALE DEL GIOCO DEGLI SCACCHI

La funzione di valutazione applicata a un alberoparziale del gioco degli scacchi. L’albero sipercorre a ritroso (nella figura, da destra versosinistra). Le contromosse del nero (le lineetratteggiate) che procurerebbero al bianco lavittoria o il vantaggio maggiore hanno ipunteggi più alti, sotto forma di numeri positivipiù grandi, mentre le contromosse del nero cheporterebbero il bianco alla sconfitta o aposizioni di svantaggio maggiore hanno i

punteggi più bassi, sotto forma di numerinegativi più grandi. Assumendo che il nero, alfine di minimizzare il vantaggio del bianco,scelga una delle tre mosse con numeri negativipiù grandi, si assegnano questi ultimi alle trepossibili mosse alternative del bianco (le lineecontinue). A questo punto, la mossa miglioreper il bianco è quella delle tre che, in quantomassimizza il proprio vantaggio, ottiene ilpunteggio più alto, in questo caso -0,1.

+0,3

–0,1

+0,6

–0,5

–7,3

+0,2

–6,3

–1,5

+3,3

–0,1

bianco nero

–0,1

–7

–6

627


plicando la procedura del minimax, stabilendo cioè a ogni no-do quale ramo lo porta a una posizione di vantaggio massi-mo per lui e minimo per l’avversario, fino a tornare alle al-ternative della sua prima mossa e prendere la decisione. Nel-la pratica questa strategia esaustiva o per «forza bruta» tro-va in generale una difficoltà insormontabile nell’esplosionecombinatoria delle mosse possibili, addirittura più che astro-nomica nel caso degli scacchi, che Shannon calcolava nel-l’ordine di 10120. Egli propose perciò una prima modifica diquesta strategia, consistente nel generare l’albero del giocosolo fino a una certa profondità, nell’assegnare determinativalori ai nodi così raggiunti e nel valutare a ritroso i cammi-ni mediante una funzione di valutazione basata sulla proce-dura del minimax (si veda lo schema a fianco). Consapevo-le del fatto che una procedura simile era in generale radi-calmente inefficiente, Shannon si pose il problema di comemigliorarla, al fine di «sviluppare una strategia passabilmen-te buona per selezionare la mossa successiva», e ipotizzò diincorporare nel programma (più precisamente, nella funzio-ne di valutazione) accorgimenti e criteri di selettività che ri-mandavano direttamente agli studi dello psicologo olande-se Adrian de Groot su maestri di scacchi i quali riferivanole loro analisi «ad alta voce» durante il gioco.

Lo studio più approfondito della possibilità di implemen-tare la funzione di valutazione si deve a Samuel. Il suo obiet-tivo era di usare la dama per sperimentare le capacità di ap-prendimento delle macchine. Il programma di Samuel, primadi valutare una posizione, controllava in memoria se l’avevagià valutata, in modo da non perdere tempo a farlo di nuovo.Questa forma di apprendimento mnemonico, che abbiamogià visto sperimentata in semplici compiti da Oettinger, fu po-tenziata da Samuel in modo che la memorizzazione di una po-sizione valutata aumentasse le capacità anticipative del pro-gramma: quando (come mostra lo schema sopra), un nodo ter-

livello 1

2

3le valutazioni verrebbero normalmenteeseguite a questo livello

livello precedente di valutazione

✽

L’apprendimentomnemonico nelprogramma per ladama di ArthurSamuel.Normalmente, lavalutazione verrebbeeseguita fino al livello3. Ma in questo caso alla posizione risulta assegnato unpunteggio nel corso di una valutazioneprecedente, che è stato conservato in memoria. Ciòpermette di migliorarela valutazione a ritroso.

628


minale di un albero da esplorare in avanti coinci-deva con il nodo iniziale di un albero già esplora-to, la cui valutazione era stata dunque memoriz-zata, la ricerca arrivava di fatto a una maggiore pro-fondità, quella dell’albero già esplorato.

Il riferimento di Shannon a De Groot suggeri-va la possibilità di una strada sensibilmente di-versa da quella tentata da Samuel, e consistentenell’affrontare il problema dell’esplosione combi-natoria studiando più da vicino i processi umanidella scelta. Ora proprio questi erano stati l’og-getto dell’interesse di Herbert Simon (1916-2001), studioso del comportamento decisionalee delle organizzazioni complesse nell’ambito del-la ricerca operativa, un’altra disciplina che, comela cibernetica e la scienza dei calcolatori, aveva

avuto un forte impulso durante il secondo conflitto mondia-le. Già in anni precedenti Simon aveva abbandonato l’im-postazione normativa della teoria dei giochi, che consistevanello studio della scelta o della strategia che l’agente, il co-siddetto «uomo economico», dovrebbe attuare al fine di mas-simizzare le possibilità di raggiungere una soluzione ottima.Egli aveva invece introdotto la dimensione psicologica nellostudio della scelta, attraverso l’analisi del comportamento de-cisionale che l’agente normalmente attua, condizionato co-m’è tanto dai propri limiti interni, per esempio di memoriao di capacità di usare dati e conoscenze di cui dispone, quan-to dalla complessità dell’ambiente in cui si trova a operare.Nello sviluppare questo punto di vista non normativo Simonpubblicava nel 1947 Administrative Behavior, il libro nel qua-le concludeva una linea di ricerca premiata molti anni do-po, nel 1978, con un Nobel per l’economia. Il giocatore discacchi restava per Simon la metafora del comportamentodell’agente razionale, ma questa volta era descritto non sot-to il profilo dell’astratta razionalità onnisciente dell’uomo eco-nomico, ma sotto quello della razionalità limitata del solu-tore di problemi reale, o «uomo amministrativo», come lo de-finiva Simon. I suoi limiti interni e la complessità dell’am-biente esterno, ben rappresentata dal gioco degli scacchi, nongli consentono di mettere in atto strategie ottimali, ma solostrategie parziali che risultano più o meno «soddisfacenti»,secondo il termine di Simon.

Queste idee di Simon furono all’origine, nel 1952, della suaipotesi di un programma per gli scacchi che non fosse basa-

Copertina della quarta edizione di AdministrativeBehavior(Il comportamentoamministrativo),pubblicato per laprima volta nel 1947,fondamento dellericerche sulcomportamentodecisionale chefruttarono a H. Simonil premio Nobel per l’economia.

629


to in modo cruciale sui perfezionamenti della funzione di va-lutazione di Shannon, ma piuttosto sull’implementazione diquelle strategie soddisfacenti che egli aveva considerato ilcuore dei processi umani di soluzione di problemi. In quelperiodo Simon già era in contatto con Allen Newell (1927-92), un fisico della RAND Corporation che si occupava di or-ganizzazioni complesse. Newell aveva seguito i corsi del ma-tematico George Polya, il quale, nel suo How to Solve It del1945, aveva definito i processi della soluzione di problemi co-me «euristici», cioè basati sull’uso di indizi e di espedientiutili alla ricerca della soluzione: un’idea che richiamava mol-to da vicino quella della strategia soddisfacente di Simon. Ne-well ha raccontato di essere rimasto colpito da un program-ma che gli rese chiare le enormi potenzialità del calcolatorecome macchina non numerica: Oliver Selfridge, già assistentedi Wiener al MIT, aveva messo a punto nel 1954 un pro-gramma che era in grado di riconoscere configurazioni co-me lettere dell’alfabeto o semplici figure geometriche, tra iprimi esempi di quella che si sarebbe chiamata pattern re-cognition. Decise allora di sperimentare le capacità di ela-borazione simbolica del calcolatore con il gioco degli scac-chi. Nel gennaio del 1956, tuttavia, Simon comunicava perlettera a De Groot che lui e Newell, accantonato il progetto

Herbert Simon (in una foto del 1978)assieme al fisico Allen Newell e al programmatoreClifford Shaw ideò nel 1955-56 unprogramma per ladimostrazione diproblemi di logicaenunciativa, il Logic Theorist, cui sarebbe seguito nel 1958 il General Problem Solver.

630


del programma per gli scacchi, erano invece sul punto di con-cludere quello di un dimostratore automatico di teoremi del-la logica enunciativa. Nel frattempo, ai due si era aggiuntoClifford Shaw (1922), un abile programmatore.

Come gli scacchi o altri giochi ricordati, anche la dimo-strazione di teoremi poteva essere rappresentata come un al-bero. Ma si tratta di un albero (un «labirinto», come inizial-mente si diceva) diverso da quello del gioco, dove vengonorappresentate le mosse antagoniste di due giocatori. Newell,Shaw e Simon ne diedero una formulazione che è all’origi-ne di quella che poi sarebbe diventata nota in IA come la rap-presentazione dello spazio degli stati.

La ricerca della soluzione viene vista in questo caso comela ricerca di un cammino dell’albero che, attraverso l’appli-

Un ricercatore della Ferranti diManchester impostasul computer unprogramma per ilgioco degli scacchi:siamo nel 1955.

631


cazione di opportuni operatori, porta da un nodo (uno sta-to) assunto come iniziale a quello finale, la soluzione del pro-blema. Come nell’albero del gioco, anche qui si ripresentail problema dell’esplosione combinatoria. In teoria, se fossepossibile esplorare in modo esaustivo tutti i cammini a par-tire dallo stato iniziale, prima o poi si arriverebbe alla solu-zione del problema (posto che essa esista). Basterebbe fis-sare l’ordine in cui esaminare i nodi, stabilendo così una pro-cedura per trovare tutti i successori di un dato nodo: Newell,Shaw e Simon chiamarono questa procedura (o una sua va-riante) «algoritmo del British Museum». L’agente o il solu-tore di problemi reale non mette mai in pratica un algorit-mo del genere, seguendo invece procedure che fanno usodi informazioni parziali o di indizi. L’idea dei tre autori erache un programma su calcolatore, per essere in grado di af-frontare il problema dell’esplosione combinatoria, avrebbedovuto incorporare tali procedure, qualificabili come euri-stiche.

Il programma basato su questa intuizione era quello di cuiSimon scriveva a De Groot: il Logic Theorist (LT), che arri-vò a stampare una quarantina di teoremi del calcolo deglienunciati dei Principia mathematica di Bertrand Russell e Al-fred Whitehead. Un’idea approssimativa di tale intuizione,che è risultata tra quelle più importanti della cosiddetta pro-grammazione euristica, può essere data rifacendosi a una«versione modificata del LT», come Newell, Shaw e Simondefinirono inizialmente, nel 1958, un successivo programmadi dimostrazione di teoremi, poi chiamato General ProblemSolver (GPS). Sulla base degli operatori, un insieme di regoledella logica enunciativa, questa versione del LT trasforma-va una formula logica data come iniziale nella formula cherappresentava il teorema da dimostrare. Lo faceva indivi-duando differenze tra le due formule e selezionando l’ope-ratore adatto per eliminarle. Il ciclo trasforma-elimina la dif-ferenza-applica l’operatore, organizzato come una gerarchiadi sottoprogrammi, poteva essere ripetuto più volte, evitan-do la generazione esaustiva delle formule e generando, in ca-so di successo, solo quelle progressivamente più simili allaformula cercata.

Questa euristica, poi detta «mezzi-fine», si rivelò poi di por-tata molto generale, cioè applicabile anche ad «ambienti delcompito», per usare l’espressione dei tre autori, diversi daquello della logica: di qui l’attribuzione di generalità al loroprogramma.

Il Logic Theorist (LT)

632


Le euristiche prima e dopo DartmouthIl calcolatore JOHNNIAC (JOHN Neumann Integrator andAutomatic Computer) stampò la prima dimostrazione del LTnell’agosto del 1956. Il LT, tuttavia, aveva già svolto un ruolo daprotagonista nell’ormai famoso seminario estivo organizzato nelgiugno del medesimo anno da Minsky, Rochester, Shannon edal matematico John McCarthy (1927). L’incontro, come silegge nella proposta presentata alla fondazione Rockfeller chedecise di finanziarlo, aveva come obiettivo di esaminare «la con-gettura che ogni aspetto dell’apprendimento o qualsiasi altracaratteristica dell’intelligenza può in linea di principio esserespecificata con precisione tale che diventi possibile costruireuna macchina che la simuli». Il seminario si svolse a Hanno-ver, nel New Hampshire, nello stesso Dartmouth College incui, nel 1940, Wiener e Mauchly avevano assistito al funzio-namento di una macchina di George Stibitz, all’epoca proget-tatore di macchine a relè molto avanzate. Erano passati sedi-ci anni: il periodo più denso di eventi cruciali nella storia deicalcolatori e della scienza dell’elaborazione dell’informazione.

Il seminario di Dartmouth fu la fucina dei programmi ma-nifesto della Intelligenza Artificiale, come venne battezzatala disciplina i cui presupposti abbiamo individuato all’indo-mani dei primi sviluppi della scienza dei calcolatori. A Dart-mouth furono presenti in momenti diversi i principali ricer-catori già attivi nella progettazione di programmi per calco-latore con prestazioni «intelligenti»: oltre ai nomi dei pro-motori dell’incontro, abbiamo già ricordato Newell, Simon,Selfridge, Samuel. Dopo Dartmouth, si sarebbero formati icentri storici della ricerca in IA: alla Carnegie-Mellon Uni-versity con Newell e Simon, al MIT con Minsky, alla Stan-ford University con McCarthy. In Inghilterra, l’eredità di Tu-ring fu raccolta da Michie a Edimburgo, prima che la ricer-ca in IA decollasse in altri paesi europei.

A Dartmouth gli autori del LT ebbero modo di discuterecon McCarthy un aspetto della programmazione del LT chenon era di poco conto: esso era scritto non in linguaggio mac-china (cioè in successioni finite di cifre binarie, corrispon-denti all’assenza o alla presenza di un impulso), ma in un lin-guaggio di livello superiore. Newell, Shaw e Simon si era-no resi conto della difficoltà di scrivere programmi per com-piti complessi direttamente in linguaggio macchina. L’esi-genza di disporre di un programma che traducesse in lin-guaggio macchina le istruzioni formulate dall’operatore me-

Il calcolatoreJOHNNIAC

FORTRAN, il primolinguaggio diprogrammazione di ordine superiore

633


diante un linguaggio più vicino a quello naturale era avver-tita da tempo. All’inizio degli anni Cinquanta progressi im-portanti in questa direzione erano stati fatti da Heinz Ru-tishauser e da Corrado Böhm a Zurigo. Nel 1954 un grup-po di ricercatori dell’IBM diretto da John Backus comple-tava infine il FORTRAN (FORmula TRANslator), il primolinguaggio di programmazione di livello superiore. Quello diNewell, Shaw e Simon, lo IPL (Information Processing Lan-guage), aveva comunque caratteristiche tutte sue, tagliatesu misura per gestire la complessità dei programmi euristi-ci. L’ispirazione di fondo dello IPL, quella della program-mazione a liste, fu ripresa nel 1958 da McCarthy nel LISP(LISt Processor), destinato a rimanere a lungo il linguag-gio di elezione dell’IA.

Il LT viene spesso presentato come il progetto che era allostato di realizzazione più avanzato tra quelli discussi a Dart-mouth, e come il primo programma di IA che facesse espli-citamente uso di euristiche. Prima del LT, tuttavia, esiste-vano programmi che incorporavano procedure che si sareb-bero potute definire euristiche: prime tra tutte, quelle checonsentivano al programma di Samuel di migliorare le pro-

Il supercomputerJOHNNIAC, entratoin uso nel 1953 pressol’Institute forAdvanced Study diPrinceton (USA), e basato sopra unprogetto di vonNeumann. Rimase in uso fino al 1966.

634


prie prestazioni nell’affrontare l’esplosione combinatoriadelle mosse del gioco. Benché non fossero pensate con que-sta finalità, data l’estrema semplicità dell’ambiente del com-pito, si sarebbero potute definire euristiche anche le pro-cedure selettive presenti nei programmi di Oettinger, il qua-le, pur senza usare quel termine, citava esplicitamente Howto Solve It di Polya.

Senza entrare nella disputa sui primati, va detto che il ter-mine «euristica» conteneva all’origine una duplicità che po-teva essere esplicitata tenendo conto di obiettivi diversi. Edera proprio la diversità degli obiettivi a distinguere i due pro-grammi più evoluti dei giorni di Dartmouth, il LT e il pro-gramma di Samuel. Newell, Shaw e Simon erano interes-sati prevalentemente a implementare sul calcolatore pro-grammi che riproducessero i processi umani di soluzione diproblemi. Anzi, proprio i limiti che il LT rivelava sotto que-sto aspetto indussero i tre autori a intraprendere il proget-to del GPS, con il quale essi ritennero di aver raggiunto illoro obiettivo principale: quello di riuscire a confrontare nontanto la prestazione finale di un programma con quella diun essere umano, quanto e soprattutto i processi compu-tazionali che costituivano il programma (la sua «traccia»)con i processi impiegati dai solutori di problemi umani al-le prese con un certo compito, così come era possibile ri-cavarli da un protocollo registrato mentre essi riferivano «adalta voce» le loro mosse. Fu sulla base di protocolli del ge-nere, per esempio, che venne studiata e programmata l’eu-ristica mezzi-fine del GPS. Di più: valutando che il test diTuring riguardasse solo le prestazioni e non i processi, es-si non lo accettarono come test definitivo dell’intelligenzadelle macchine. Per loro il vero test era costituito dalla ri-uscita di un confronto dettagliato traccia-protocollo. Inol-tre, il GPS, dal momento che si dimostrò capace di risol-vere diversi tipi di problemi (di scacchi, di integrazione nu-merica e vari rompicapo), lasciava sperare di riuscire a ri-produrre in un programma un’altra caratteristica dell’in-telligenza umana, la sua versatilità in ambienti di compitodiversi, con l’obiettivo finale di arrivare alla simulazione diuna soluzione di problemi generale o integrata. Tutto que-sto era completamente estraneo all’obiettivo di Samuel, cheera quello di costruire un giocatore automatico efficiente,indipendentemente dalla plausibilità psicologica in sensostretto dei processi selettivi implementati nel programma,e che tale restò nei successivi perfezionamenti che egli in-

Il concetto di euristica

L’euristica mezzi-fine del GPS

635


DEEP BLUE

Deep Blue è a tutt’oggi la macchina più po-tente messa al servizio di un gioco, precisa-mente del gioco degli scacchi. Tale gioco haimpegnato i computer fin dalla loro nascita:Alan Turing (considerato il padre dell’Intelli-genza Artificiale) già nel 1946-47 abbozzavale idee per un primo programma capace di gio-care a scacchi. Il gioco, fra i più antichi delmondo, ha sempre mosso un notevole inte-resse presso le comunità di ricercatori che svi-luppavano le moderne tecnologie dell’infor-matica. Le sue stesse regole, semplici e a untempo sofisticate, che si basano su ragiona-menti e strategie, formalizzabili in un pro-gramma per calcolatori, hanno probabilmen-

te decretato il successo degli scacchi pressoi ricercatori di tutto il mondo che, a più ripre-se, hanno costruito macchine capaci di gio-carvi, e con ottimi risultati.

Deep Blue è l’apice di questa ricerca: rea-lizzato nel 1996 dall’IBM con processori Po-wer 2 a 130 MHz è capace di esaminare 200milioni di mosse al secondo e, nel 1997, siè aggiudicato un torneo scacchistico batten-do il campione del mondo Kasparov, che l’a-veva sconfitto l’anno precedente.

L’inizio della partita fra Garry Kasparov e Deep Blue, un computer di grande potenza,nel 1997.

636


trodusse nel suo programma, fino a portarlo al punto cheesso riuscì a battere al gioco il suo stesso autore e anche gio-catori di ottimo livello.

D’altra parte, è proprio su questa strada che si avviò la pro-grammazione degli scacchi al calcolatore. Nonostante i suc-cessivi tentativi di Newell e Simon, allorché ripresero conShaw il progetto di affrontare l’esplosione combinatoria constrategie selettive ispirate a quelle di giocatori umani, i ve-ri progressi nella programmazione degli scacchi sono staticonseguiti con l’implementazione di algoritmi che esplo-rassero in modo efficiente e in profondità l’albero del gio-co. Questo approccio è stato reso possibile dalla crescen-te velocità di elaborazione dei dati tipica dei calcolatori concircuiti integrati su alta e altissima scala delle ultime ge-nerazioni.

Ma non va dimenticato che i successi di un supercalco-latore come Deep Blue, che nel 1997 ha battuto il campionedel mondo Garry Kasparov, sono dovuti, oltre che alla ve-locità nell’analisi delle mosse, soprattutto alla capacità digestire conoscenze relative al gioco. È un fatto, tuttavia, chela programmazione degli scacchi ha perso interesse perquanti, come Newell e Simon, avevano pensato ai calco-latori come a un laboratorio per studiare i processi umanidella soluzione di problemi.

L’idea che euristiche efficienti fossero indispensabili perrendere «trattabili» problemi teoricamente solubili in cuiè presente l’esplosione combinatoria è stata alla base dellacosiddetta teoria della complessità computazionale, svi-luppata verso la fine degli anni Sessanta soprattutto dai la-vori di S.A. Cook e R.M. Karp. Essi hanno fornito un qua-dro teorico per l’analisi di diversi problemi di decisione edi ottimizzazione posti in precedenza, come abbiamo ri-cordato, dalla teoria dei giochi. È nell’ambito della com-plessità computazionale che è stata sollevata la questionedegli «ostacoli teorici all’IA», come in Theoretical Impedi-ments to Artificial Intelligence (1974), di M.O. Rabin, chetuttavia è restata sempre piuttosto sullo sfondo della ricer-ca in IA.

Simboli o neuroni?Alle origini dell’IA, due possibili accezioni del termine eu-ristica contribuivano dunque a individuare due tendenze diricerca ben distinte, le cui diverse aspirazioni hanno influito

La programmazionecomputerizzata degli scacchi

La teoria dellacomplessitàcomputazionale

637


sulla successiva evoluzione della disciplina: quella rivoltaalla simulazione più dettagliata possibile dei processi co-gnitivi umani e quella rivolta alla prestazione più efficien-te possibile dei programmi, attraverso procedure anche «nonumane». Nel 1961, discutendo un’esposizione del GPS da-ta da Simon durante un seminario al MIT, Minsky tracciòuna netta distinzione nella ricerca in IA proprio in questitermini, attribuendo al gruppo della Carnegie-Mellon, rap-presentato da Newell e Simon, l’obiettivo della simulazio-ne del comportamento.

A sua volta Simon, riprendendo una distinzione già indi-viduata nel mondo della ricerca sulle macchine intelligen-ti da Pitts prima di Dartmouth, insisteva che l’«imitazionedella gerarchia di cause finali che chiamiamo mente», checaratterizzava ogni impresa dell’IA, si contrapponevaall’«imitazione del cervello», tipica della precedente tradi-zione della cibernetica.

A questo proposito, dopo il simposio della IRE Conven-tion del 1955, in cui Minsky aveva sollevato dubbi sull’ef-ficacia dei modelli a memoria distribuita, si era tenuto a Ted-dington, nel 1958, il simposio sulla meccanizzazione deiprocessi del pensiero, al quale avevano partecipato neuro-logi e psicologi come R.L. Gregory, esperti di programma-zione come Backus, cibernetici come Ashby, McCulloch,

Una foto recente di Marvin Lee Minsky(nato nel 1927), uno dei padri dell’IntelligenzaArtificiale: l’ideadominante nel pensiero di Minsky è quella direndere un computercapace di manipolare nonsolo dati numerici, maanche simboli di tipolinguistico per lacomprensione di forme di ragionamento basate su analogie e sul sensocomune.

Imitazione delcervello o procedurenon umane?

638


Donald MacKay, Gordon Pask, protagonisti di Dartmouthcome McCarthy, Selfridge e lo stesso Minsky. Nel suo in-tervento Minsky, dopo aver presentato l’emergente pro-grammazione euristica come lo studio dei «processi sintat-tici che comportano la manipolazione di espressioni sim-boliche», esprimeva un radicale scetticismo verso i «mo-delli a reti neurali», e in generale verso i sistemi auto-orga-nizzanti. Questa volta Minsky non si riferiva alla sempliceauto-organizzazione alla Ashby, ma alle più recenti e pro-gredite macchine a reti neurali con memoria distribuita, pre-sentate allo stesso simposio.

Tra queste c’era il Perceptron, ideato alla Cornell Univer-sity da Frank Rosenblatt, una macchina che «imparava» a di-stinguere e classificare stimoli visivi. Nella sua versione piùsemplice presentata a Teddington, il Perceptron era com-posto di un unico strato di neuroni del tipo di McCulloch ePitts, collegati in ingresso con un’unità sensoriale corrispon-dente a una retina e in uscita con due unità di risposta. I neu-roni, o unità associative, avevano un «valore» (un «peso», co-me poi si dirà) variabile, cosa che consentiva alla macchina

Gli studisull’IntelligenzaArtificialeprogredirono di paripasso con quelli sullereti neurali, e sicrearono fin dall’iniziodue scuole di pensieropro e contro lemacchine a retineurali, identificabilicon le figure diRosenblatt e Minsky.

639


di migliorare la propria prestazione dopo una procedura di«addestramento». Nelle versioni più note del Perceptron, laprocedura consisteva nel modificare dall’esterno il valore del-le connessioni se la risposta della macchina non era quellacorretta. Rosenblatt, in Two theorems of statistical separabilityin the Perceptron (1959), era straordinariamente ottimista sul-le potenzialità della sua macchina, che a Teddington descrisseaddirittura come «un analogo del cervello biologico [...] ca-pace di idee originali». Sostenne anche che era una sterilepretesa quella di voler riprodurre le capacità del cervello at-traverso i calcolatori digitali, «programmati per seguire re-gole», egli disse, dunque capaci magari di giocare più o me-no bene a scacchi, ma certo non di migliorare le loro pre-stazioni spontaneamente, interagendo con l’ambiente.

Era proprio questa la conclusione che Minsky attaccò: purmanifestando qualche forma elementare di adattamento eapprendimento, anche i modelli a reti neurali più evoluticome il Perceptron non erano in grado di eguagliare la pro-grammazione euristica quando si trattava di riprodurre com-portamenti cognitivi complessi. Minsky, in Some Methodsof Heuristic Programming and Artificial Intelligence (1959),si dichiarava scettico anche nei confronti del Pandemonium,la nuova macchina descritta da Selfridge a Teddington, nel-la quale l’informazione veniva elaborata in parallelo da unagerarchia di unità dette «demoni». L’entusiasmo suscitatoda tali modelli, dovuto essenzialmente a una loro maggio-re somiglianza strutturale con il cervello «naturale» e a uncerto parallelismo del loro funzionamento, per Minsky nonera giustificato, data la loro dubbia capacità di manipolarestrutture simboliche e concetti di ordine superiore. Sem-brava difficile pensare seriamente che da cambiamenti, co-me egli si esprimeva, al «livello microscopico» in sistemi co-me le reti neurali potessero emergere cambiamenti signi-ficativi al «livello del comportamento manifesto», quelli cheinvece cominciavano a essere sperimentati con successocon i sistemi dotati di organizzazione gerarchica comples-sa come i programmi euristici per calcolatore. Di più: an-che se si fosse riusciti a fornire a una rete neurale mecca-nismi per la formazione di concetti semplici, per catturarei processi superiori si sarebbe sempre dovuto ricorrere asistemi euristici «formali o linguistici». Tanto valeva, con-cludeva Minsky, abbandonare lo studio delle reti neurali,e dedicarsi a «quella che alcuni di noi chiamano intelligenzaartificiale».

Le critiche di Minskyai modelli a retineurali

640


Al simposio di Teddington si sanciva all’interno della co-munità degli studiosi di macchine intelligenti quella diver-genza di metodi e di obiettivi che abbiamo visto prendere for-ma prima della nascita ufficiale dell’IA a Dartmouth. Ciono-nostante, le due tendenze – quella degli «imitatori del cer-vello» e quella dei «manipolatori di espressioni simboliche» –convissero e si confrontarono in successivi incontri comuni:per esempio, nelle due conferenze interdisciplinari sui siste-mi auto-organizzanti del 1959 e del 1961, che videro la par-tecipazione di tutti i principali protagonisti di Dartmouth edi Teddington. In particolare negli anni Sessanta, la ricercasulle reti neurali continuò ad affiancarsi a quella dell’IA un po’ovunque, ad opera di diversi ricercatori, come Albert Uttley,Wilfrid Taylor, Bernard Widrow (che erano stati relatori a Ted-dington), Eduardo Caianiello, Augusto Gamba, Karl Stein-buch. In molte ricerche sul Perceptron o ispirate a esso si spe-rimentarono regole diverse di apprendimento, simulazioni eanche realizzazioni elettroniche.

Tanto le ricerche di Rosenblatt quanto quelle di Newell,Shaw e Simon non potevano non suscitare interesse nel mon-do degli psicologi. La più diffusa rivista di psicologia ameri-cana, la «Psychological Review», pubblicò nel 1958 tanto ladescrizione del Perceptron quanto quella del LT. L’articolodi Rosenblatt (1958) era sicuramente il più ostico, nonostantein quell’occasione egli esplicitasse i propri legami con quellache definiva la «posizione connessionista» di Hebb e di pre-cedenti psicologi associazionisti. Benché la rivista continuas-se poi a pubblicare altre ricerche sui Perceptron, fu il grup-po di Carnegie-Mellon che riuscì a ottenere l’eco più vasta tragli psicologi, inserendosi con tempestività nel dibattito, chein quel momento li divideva, sui problemi del metodo speri-mentale, della costruzione della teoria psicologica, del rap-porto tra studio della mente e ricerca neurologica.

Nel loro articolo Newell, Shaw e Simon (1958) tracciava-no un ritratto efficace della psicologia dell’epoca, descriven-dola come stretta nella morsa della «polarizzazione» tra com-portamentismo e gestaltismo, che effettivamente era avver-tita come paralizzante da molti psicologi. A costoro essi indi-cavano un itinerario inedito quanto allettante, che consistevanel riconoscere la complessità dell’oggetto studiato, la men-te, come richiedevano i gestaltisti, ma nel rivendicare nellostesso tempo la necessità di un suo studio scientifico, comeinvocavano i comportamentisti, attraverso un nuovo metododi controllo operativo delle teorie psicologiche. Il punto di par-

Imitatori del cervellocontro manipolatoridi espressionisimboliche

L’interesse deglipsicologi per ilPerceptron e il LT

641


tenza era il calcolatore come macchina generale simbolica,con i suoi processi elementari di elaborazione dell’informa-zione, dai tre autori descritti come processi di lettura-scrit-tura-confronto di simboli, di associazione di simboli, di saltocondizionato. Essi sono alla base di processi più complessi,quali le euristiche di un programma come il GPS, scritto inun opportuno linguaggio di programmazione.

L’ipotesi, come mostra lo schema qui sotto, era che i processielementari sono analoghi a quelli usati dagli esseri umani, esono alla base dei processi umani di elaborazione più com-plessi, a loro volta euristici, desumibili dai protocolli verbali.Il successo del confronto tra tracce e protocolli, del qualeabbiamo parlato, giustificava l’ipotesi, e dunque l’impresa stes-sa della psicologia come scienza: la simulazione dei processicognitivi al calcolatore. Proprio la costruzione di programmisiffatti, che potevano essere considerati veri e propri modellidi attività cognitive, offriva allo psicologo il nuovo metodo dicontrollo operativo della teoria, nella versione del ciclo epi-stemologico «costruzione della teoria-controllo-modifica» infondo già indicata da Rochester. Un esempio dell’applicazio-ne di tale metodo era l’abbandono del LT per una sua «ver-sione modificata», il GPS. Questa proposta dava agli psicologila sensazione di aver trovato un loro posto al sole, secondo l’e-spressione di Edwin Tolman: la psicologia era finalmente au-tonoma dalla neurologia, e per una buona ragione. Dal mo-mento che i processi elementari possono essere realizzati insostrati fisici diversi, il cervello e l’hardware del calcolatore,

confrontodella traccia

con il protocollo

a questo livellonon c’è alcunacorrispondenza

diretta

neuro-fisiologia

teoriadell’elaborazionedell’informazione

linguaggiodi elaborazionedell’informazioneper il calcolatore

▼

▼

▼

▼

▼

▼

comportamento umano

nella soluzione dei problemi

processielementari

dell’informazione

GPS

sistemanervoso

hardwaredel calcolatore

Il funzionalismo dellaprima IA: i processidell’informazionepossono essererealizzati da strutturemateriali diverse, il sistema nervosoumano e l’hardwaredel calcolatore.

642


il potere causale della struttura fisica sulla mente è indipen-dente dalla specifica realizzazione o «instanziazione» di talestruttura nel cervello biologico. Non è previsto confronto al li-vello delle diverse strutture, secondo l’ipotesi funzionalista cheabbiamo visto implicitamente già formulata molti anni prima,ai tempi delle prime discussioni sul «pensiero meccanico».Dopo gli anni bui del comportamentismo, la mente era ri-consegnata agli psicologi dai costruttori di macchine. L’uomo,visto come elaboratore di informazione simbolica, diventavail protagonista della nuova Information Processing Psycho-logy: la psicologia della elaborazione dell’informazione.

Approcci semanticiUno dei programmi di IA concepito nei giorni di Dartmouthsi era proposto di affrontare il problema dell’esplosione com-binatoria con uno stile sensibilmente diverso da quello del-la rappresentazione dello spazio degli stati. Si trattava dellaGeometry Theorem Machine, un programma che girò poi nel1959 su un IBM 704, scritto in una versione modificata delFORTRAN da Herbert Gelernter (1929) e da altri program-matori del gruppo di Rochester. La macchina dimostrava undiscreto numero di teoremi di geometria piana euclidea, ri-correndo a uno stratagemma già indicato da Minsky a Dart-mouth, dove Gelernter era stato presente.

Nei programmi della prima IA che giocavano o dimostra-vano teoremi, il significato dei simboli era considerato inin-fluente. Nel GPS, per esempio, tutto si riduceva a un puroe semplice pattern matching: si confrontavano cioè struttu-re o configurazioni fisiche di simboli diverse (in effetti, for-mule ben formate della logica enunciativa) consistenti in let-tere e in segni come «�», «→» e così via (i connettivi logi-ci), e si applicavano operatori per eliminare certe differenzetra tali strutture, «come se [queste] fossero pezzi di legno ometallo», come diranno poi H.A. Simon e L. Siklossy in Re-presentation and Meaning (1972). A dare il significato ai sim-boli manipolati dal programma era il programmatore.

La novità della Geometry Machine era che, pur applicandoper dimostrare un teorema l’euristica mezzi-fine nella for-ma della scomposizione del problema in sottoproblemi piùsemplici, nel guidare la ricerca non usava, come il LT o ilGPS, solo metodi cosiddetti «sintattici» di pattern matchingtra enunciati. La macchina disponeva di una figura geo-metrica (codificata come un elenco di coordinate) corri-

La GeometryTheorem Machine

Il funzionamentodella GeometryMachine

643


spondente all’enunciato del teorema; quando generava unsottoproblema, lo confrontava con la figura, e lo scartava su-bito se risultava incompatibile con essa: «se volete, [qui] stala nostra intelligenza artificiale!», concludeva Gelernter(1959). Successivi esperimenti convinsero gli autori dellaGeometry Machine che essa poteva addirittura compete-re con un essere umano in una forma «ristretta», come es-si dicevano, del test di Turing, limitata cioè alla dimostra-zione di teoremi della geometria. Il motivo di tale entusia-smo è presto detto. Si riteneva che la Geometry Machineusasse un’interpretazione semantica degli enunciati per con-

NOAM AVRAM CHOMSKY

Linguista statunitense, nato a Philadelphia(Pennsylvania), nel 1928, è considerato unodei più importanti studiosi della linguisticamoderna. A Chomsky si deve la teoria dellagrammatica generativa, enunciata per la pri-ma volta in Syntactic Structures (1957, Lestrutture della sintassi). Con la grammaticagenerativa Chomsky si propone di formulareun insieme limitato di regole che comprendatutte le possibili (e forse infinite) intuizioni concui i parlanti distinguono naturalmente nella

loro lingua nativa le frasi grammaticalmentecorrette da quelle sgrammaticate e individua-no quelle interpretabili in modo duplice o am-biguo. Dagli anni Settanta Chomsky ha indi-rizzato i suoi studi alla definizione di una«grammatica universale» in grado di indivi-duare alcuni principi generali applicabili a unnumero elevato di lingue e di spiegare i mec-canismi che hanno prodotto forme gramma-ticali diverse da quelle fondamentali.

Noam Chomsky,oltre che per i suoistudi di grammaticagenerativa e dilogica, ha attrattol’attenzione deimedia con le sueposizioni pacifiste e la critica serrata alcapitalismostatunitense.

644


trollare la ricerca: in fondo, non fa così anche undimostratore umano?

In effetti, l’approccio sintattico della prima IAera coerente con gli sviluppi prevalenti in un set-tore con il quale essa ha intrattenuto all’originerapporti privilegiati, quello della linguistica tra-sformazionale di Noam Chomsky. Con il tempotali rapporti diventarono sempre più conflittuali,eppure Simon (1991) ricordava ancora con pia-cere come nello stesso convegno dell’IRE al MITdel 1956, qualche mese dopo Dartmouth, men-tre egli e Newell presentavano l’implementazionedel LT, Chomsky esponeva i lineamenti della teo-ria linguistica che l’anno successivo avrebbe pub-blicato in Syntactic Structures. Con questo libro

Chomsky instaurò un vero e proprio primato della sintassinello studio del linguaggio, un primato con il quale la suc-cessiva ricerca ha dovuto sempre fare i conti. I primi approccialla manipolazione automatica del linguaggio naturale in ter-mini di analizzatori sintattici delle frasi devono molto alle sueidee. D’altra parte, le strutture formali delle grammatiche tra-sformazionali non mancarono di attrarre l’attenzione di quan-ti lavoravano allo sviluppo dei linguaggi di programmazione edei loro compilatori.

C’era poi un settore della ricerca precedente alla nascitaufficiale dell’IA in cui gli aspetti computazionali della sin-tassi svolgevano un ruolo da protagonista, e i problemi se-mantici venivano deliberatamente accantonati: quello del-la traduzione automatica. Si trattava di un settore di ricer-ca nato quasi agli albori dei calcolatori digitali, che però tro-vò impulso nell’immediato dopoguerra soprattutto ad ope-ra di Warren Weaver. Al calcolatore, come abbiamo visto giàsperimentato nella decrittazione dei codici nel periodo bel-lico, in questo caso era assegnato un compito che non an-dava molto al di là della sostituzione, mediante un diziona-rio bilingue, di una parola con una equivalente, seguendole regole della grammatica e riducendo la semantica, quan-do non se ne poteva fare a meno, allo studio di qualche re-golarità statistica.

Tra i primi a mettere in pratica questo tipo di approccioera stato Oettinger. Trasferitosi a Harvard, a partire dallametà degli anni Cinquanta avviò un progetto per la realiz-zazione di una macchina per la traduzione dal russo all’in-glese. Nel decennio successivo si attivarono centri di ricerca

La copertina del testodi Hubert L. Dreyfus,nell’edizione del 1995con il titolo modificato:Quel che i computernon possono ancorafare. La prima edizionevenne pubblicata nel1972 con il titolo Quel che i computernon possono fare e avanzò le primecritiche all’IntelligenzaArtificiale.

645


un po’ ovunque, in Europa occidentale, in Unione Sovie-tica, in Giappone. Nonostante la mobilitazione di risorsee l’entità dei finanziamenti, dopo qualche successo inizia-le la traduzione automatica sembrava essersi arenata. Nel1966, a seguito del cosiddetto rapporto ALPAC, negli Sta-ti Uniti i finanziamenti furono interrotti. Lo stesso Oet-tinger, profondamente deluso, smise di occuparsi di tra-duzione automatica, se non per tornare a ribadire l’intrin-seca impossibilità dell’impresa, firmando infine una sua pre-fazione a uno dei testi poi diventati un punto di riferimen-to per ogni critico dell’IA, What Computers Can’t Do, del fi-losofo Hubert Dreyfus (nato nel 1929). Ironia della sorte:Oettinger era stato uno degli obiettivi preferiti delle invet-tive contro il «pensiero meccanico» contenute in una pre-cedente pubblicazione del 1961, questa volta di un inge-gnere, Mortimer Taube, Computers and Common Sense: theMyth of Thinking Machines.

La difficoltà che meglio riassume il motivo del fallimentodi quella che veniva definita la «traduzione completamenteautomatica di alta qualità» è stata discussa da un altro pio-niere del settore, Yehoshua Bar-Hillel. Possiamo esprimerlain questi termini. Data la frase «il cane si è inceppato», il par-lante di lingua italiana sa che qui con «cane» ci si riferiscenon all’amico dell’uomo, diciamo CANE1, ma al percussore,CANE2. Come potrebbe una macchina tradurre corretta-mente la frase in inglese, dove CANE1 è dog mentre CANE2è cock, senza sapere ciò di cui si parla? Casi del genere pos-sono moltiplicarsi a piacere, a conferma del fatto che unabuona traduzione interlingua, ma in generale una buonacomprensione delle lingue, non può prescindere dai signi-ficati suggeriti dal contesto e dalla conoscenza implicita nellessico dei parlanti. Ora, è possibile o è invece da esclude-re, come concludeva lo stesso Bar-Hillel, che si riesca a rap-presentare queste caratteristiche in un programma per cal-colatore?

L’idea di ricorrere a un modello che tenesse conto delle con-nessioni associative tra le parole di un dizionario per rende-re più flessibile l’impiego del lessico maturò proprio nel con-testo della traduzione automatica: tra gli anni Cinquanta eSessanta la sperimentarono tra gli altri Silvio Ceccato, con lesue «sfere nozionali», e Margaret Masterman.

A partire dalla tesi di dottorato del 1966 con Simon alla Car-negie-Mellon, M. Ross Quillian elaborò una proposta chesi è rivelata tra le più feconde di sviluppi fino ai nostri gior-

Il fallimento della «traduzionecompletamenteautomatica di alta qualità»

646


ni: quella di «rete semantica». Obiettivo di Quillian era piùin generale la costruzione di un modello della memoria se-mantica psicologicamente plausibile, che implementato inun calcolatore riproducesse qualche aspetto della capacitàdegli esseri umani di comprendere un testo e di ricavare in-ferenze da un insieme di conoscenze. È a questo punto chegli obiettivi dell’IA cominciarono ad allontanarsi da quelli diChomsky. Secondo Quillian il suo modello dimostrava chel’insieme dei problemi legati alla comprensione di un testo,si trattasse di analizzarlo, tradurlo, o interpretarlo per ri-spondere a domande, in generale non si esauriva nella co-struzione di un analizzatore sintattico: il problema crucia-le era di «estrarre [dal testo] una rappresentazione cogni-tiva» circa il significato delle parole. Di qui il ruolo cen-trale attribuito alla memoria semantica. Questa era con-cepita da Quillian come una sterminata rete frammentatain «piani», porzioni di nodi della rete che rappresentano il si-gnificato di una parola del lessico, ovvero di una voce del di-zionario. Per rappresentare (figura qui sotto), poniamo, il si-

PLANT

FOOD

LIVE

STRUCTURE

LIVE GET 3

FROM 3FOOD

KEEP

LIVE

THING

HAS-TO

TO 7

AND

Una rete semantica di M. Ross Quillian.

Il concetto di «retesemantica» neglistudi di Quillian

647


gnificato della parola plant, che in inglese ha tre significatidiversi, Quillian usava tre nodi diversi, detti «patriarchi»:PLANT (pianta, in italiano), PLANT1 (impianto) e PLANT2(piantare). Essi erano collegati tra loro mediante «legami as-sociativi», in modo da poterli esplorare in successione per de-cidere poi a quale significato di plant ci si riferisce in un de-terminato contesto. In un certo senso, si trattava di un mec-canismo di disambiguazione con il quale si poteva affronta-re la difficoltà indicata da Bar-Hillel. Infatti, a ciascuno deitre nodi patriarchi corrispondeva un piano distinto, struttu-rato come una gerarchia di nodi subordinati al patriarca e col-legati a loro volta da legami associativi ad altri nodi patriarchiappartenenti ad altri piani. Nello schema a fianco, il nodo pa-triarca PLANT è collegato da tali legami ai nodi subordina-ti STRUCTURE (struttura) e LIVE (vivo, vivente), e il pia-no corrispondente è delimitato da un rettangolo. A sua vol-ta, ciascuno di tali nodi rimanda ad altri piani, che rappre-sentano il significato delle parole corrispondenti. In questomodo si stabiliscono legami associativi più diretti tra alcuninodi che non tra altri, con il risultato, poniamo, che PLANTma non PLANT1 risulta direttamente collegato con FOOD(cibo), e i due sono a loro volta collegati con LIVE: più o me-no così CANE2, ma non CANE1, risulterebbe direttamen-te collegato con FUCILE.

Il lavoro di Quillian venne pubblicato in una raccolta cu-rata da Minsky nel 1968, Semantic Information Processing,insieme a una serie di ricerche svolte al MIT nella primametà degli anni Sessanta, tutte centrate sulla rappresen-tazione della conoscenza. Alcuni programmi della raccoltasono rimasti molto noti, come ANALOGY di Thomas Evans,che riconosceva analogie tra semplici figure geometriche,STUDENT di Daniel Bobrow, che risolveva qualche pro-blema di algebra elementare, SIR (Semantic InformationRetrieval) di Bertram Raphael. Scritto in LISP, SIR era ingrado di rispondere ad alcune domande che implicavanola conoscenza di semplici relazioni logiche, come l’appar-tenenza e l’inclusione insiemistiche, e di qualche loro pro-prietà, come la transitività dell’inclusione. Questo gli per-metteva di ricavare un ridotto numero di inferenze, relati-ve a un dominio molto ristretto, non esplicitamente codi-ficate nella sua base di dati. La conoscenza era rappresen-tata internamente nel programma sotto forma di «schemi»(templates) prefissati del tipo «** è parte di **», dove levariabili ** sono nomi. Con tali schemi il programma con-

Il programma SIR

La struttura dellarete semantica

648


frontava le frasi in inglese date in ingresso e, applicando re-gole di sostituzione e quantificazione delle variabili che oc-correvano in essi, mostrava di «capire» frasi come «un di-to è parte di una mano». Capire il significato di una frase,secondo Raphael, consisteva nel processo automatico chesi riassumeva nel riconoscere gli oggetti della frase e nel col-locarli nella relazione specificata. La possibilità di risolve-re qualche semplicissima ambiguità attraverso questa pro-cedura induceva Raphael e Minsky a concludere che ap-procci semantici di questo tipo avevano maggiori poten-zialità rispetto a quelli sintattici sostenuti dalla linguisti-ca, e anche a quelli basati sulla semplice ricerca euristicanello spazio degli stati. Gli «eccellenti risultati», osservavaMinsky in Semantic Information Processing (1968), ottenutidall’uso del modello semantico della Geometry Machine neerano la prima dimostrazione.

Anche Simon, in The Theory of Problem Solving (1972), eradi questo parere. Il «semplice paradigma dell’albero della ri-cerca», come egli definiva ormai la ricerca euristica della so-luzione nello spazio degli stati, aveva dato il meglio di sé, e ifuturi programmi avrebbero dovuto avere la capacità di usa-re in modo sempre più esteso e raffinato l’informazione uti-le per la soluzione di un problema. D’altra parte, egli osser-vava come nei programmi che dovevano comprendere il lin-guaggio naturale la distinzione chomskiana tra competenza(la conoscenza astratta del linguaggio) e prestazione (la rea-lizzazione di tale conoscenza in specifiche capacità lingui-stiche) tendeva a dissolversi. Una serie di ricerche svolte al-la Carnegie-Mellon tra il 1965 e il 1969 documentava que-sto approccio, in quel momento sostanzialmente convergen-te a quello del MIT. Un programma di Stephen Coles, peresempio, usava l’informazione semantica contenuta in unaraffigurazione corrispondente a una frase ambigua per deci-dere quale delle possibili analisi sintattiche della frase eraquella corretta in relazione al contesto dato. Sistemi «ibri-di» di questo tipo, per usare il termine di Simon, mettevanoa frutto la lezione della Geometry Machine: essa non avevauna sola rappresentazione dello spazio della ricerca, quelladello spazio degli stati, ma ne aveva anche una seconda, sot-to forma di uno «spazio semantico», quello delle figure geo-metriche, e la sua efficienza era dovuta all’uso delle due rap-presentazioni. Il problema del controllo della ricerca, con-cludeva Simon, si legava ormai a quello della rappresenta-zione della conoscenza.

La teoria delproblem solving

649


Generalità e conoscenzaLe prestazioni del programma ELIZA, implementato da Jo-seph Weizenbaum in quegli stessi anni al MIT, si basavanosu una procedura simile al confronto di schemi di SIR: pa-role date in ingresso venivano associate con parole chiave co-dificate nella base di dati. Il programma riusciva così a col-loquiare con un essere umano simulando il comportamentodi uno psicoterapeuta. ELIZA è rimasto il più famoso tra iprogrammi di comprensione del linguaggio di quegli anni per-ché superò in qualche caso la solita «forma ristretta» del testdi Turing: alcuni pazienti che interagirono con il program-ma lo scambiarono per un terapeuta umano. In un libro di-ventato molto popolare (Computer Power and Human Rea-son, 1976), Weizenbaum trasse da questo risultato conclu-sioni pessimistiche e persino preoccupate sull’utilità del-l’impresa dell’IA. A questa discutibile forma del test di Tu-ring è ispirato il premio Loebner, periodicamente assegnatoa un calcolatore in grado di superarlo.

Anche la figura diJoseph Weizenbaum(nato nel 1923), il padre di ELIZA, va ad aggiungersi aquel gruppo di grandiinformatici che, sullascia di Oettinger,hanno cominciato a mostrare seri dubbi e preoccupazione nei confronti dello sviluppodell’IntelligenzaArtificiale.

Il programma ELIZA

650


Al di là delle valutazioni più generali di Weizenbaum, vistiretrospettivamente questi programmi «semantici» degli anniSessanta appaiono davvero poco semantici. Le prestazionierano limitate a domini ridottissimi e la conoscenza era da-ta implicitamente negli schemi o nelle parole chiave fornitedal programmatore. La stessa analisi sintattica consistevain semplici procedure ad hoc. Le entusiastiche valutazioniche Minsky dava dei programmi contenuti nella raccolta del1968 appaiono oggi esagerate, non meno della sua ottimi-stica previsione sugli sviluppi futuri, che come vedremo nonandarono, e non potevano andare, nella direzione del sem-plice perfezionamento di questo tipo di esperienze. Tuttavia,pur nella loro rozzezza, questi programmi hanno posto perprimi un’esigenza che costituirà uno dei baricentri della ri-cerca successiva in IA: quella di costruire sistemi in gradodi gestire conoscenze sul mondo attraverso sue adeguate rap-presentazioni.

A metterne subito in risalto l’importanza per questo obiet-tivo fu un allievo di Simon, Edward Feigenbaum, in un in-tervento alla Information Processing Conference del 1968 incui egli si proponeva di indicare le prospettive dell’IA del «suc-cessivo decennio». Dalla Carnegie-Mellon, dove sotto la su-pervisione di Simon aveva messo a punto un programma percalcolatore, noto come EPAM, che simulava i processi uma-

Il team originale delprogetto DENDRALventicinque anni dopo(foto del 1991): dasinistra a destra BruceBuchanan, GeorgiaSutherland, EdwardFeigenbaum, il premioNobel JoshuaLederberg e DennisSmith.

I limiti deiprogrammisemantici degli anniSessanta

651


ni della memorizzazione di sillabe prive di senso, Feigenbaumera approdato a Stanford, e i suoi interessi erano cambiati.A Stanford aveva incontrato Joshua Lederberg, Nobel perla genetica, e a partire dal 1965 i due avevano avviato un pro-getto destinato ad aprire all’IA una nuova dimensione ap-plicativa, con conseguenze di tipo commerciale in quel mo-mento imprevedibili. Come chiariva Feigenbaum nel pre-sentare alla Information Processing Conference i primi ri-sultati delle ricerche condotte con Lederberg, il loro proget-to si collocava in quella che egli considerava «la tendenzaprincipale dell’impresa dell’IA: la soluzione di problemi nelparadigma della ricerca euristica». Con una fondamentaledifferenza, tuttavia: l’ambiente del compito scelto non eraquello dei problemi cosiddetti «ben definiti» e dei «problemigiocattolo» (toy problem) sui quali si era esercitata la pro-grammazione euristica fino a quel momento, cioè la logicao i vari giochi e rompicapo. Al contrario, il loro programmaaffrontava un compito di particolare complessità: l’induzio-ne e la formazione di ipotesi in un problema di natura scien-tifica, vale a dire l’individuazione della struttura molecolaredi composti organici non noti.

Il diagramma di flusso del programma si sviluppava in unciclo che riproduceva l’osservazione dei dati, la formazione diipotesi, la predizione e il controllo secondo la procedura ca-nonica del metodo scientifico «baconiano», come lo definìMichie nella discussione che seguì l’esposizione di Feigen-baum all’Information Processing Conference. Nella sua ver-sione originaria, il programma, scritto in LISP e battezzatoDENDRAL (DENDRitic ALgorithm), era composto da un«Generatore di ipotesi» e da un «Previsore». Come chiari-ranno in seguito i suoi autori, queste due parti di DENDRALrispecchiavano la filosofia «generalista» del GPS, nel sensoche incorporavano il metodo più generale e, come allora sidisse, più «debole» possibile della ricerca euristica come laconcepivano Newell e Simon, quello del «genera-e-control-la». Il Generatore definiva lo spazio del problema di DEN-DRAL come uno spazio delle ipotesi, in modo del tutto ana-logo, osservava Feigenbaum, a un generatore delle mosse con-sentite di un programma per gli scacchi. La generazione del-le ipotesi sulla struttura molecolare poteva essere esaustiva,basandosi su un algoritmo già individuato da Lederberg. Asua volta, il Previsore, che controllava le ipotesi e seleziona-va quelle plausibili, era definito un «esperto», ma un esper-to molto generale: la sua competenza era la teoria della spet-

Il programmaDENDRAL

652


trometria di massa. La novità del programma era che il Pre-visore non esaminava tutte le ipotesi prodotte dal Genera-tore secondo l’algoritmo di Lederberg, ma solo un suo sot-toinsieme, selezionato da un «Processore di inferenze preli-minari». Era questo il vero «specialista», poi definito comeun pianificatore che opera sulla base di conoscenze e rego-le euristiche relative allo spettro di massa e ai costituenti ato-mici della molecola che si desidera individuare.

DENDRAL è considerato il capostipite dei «sistemi esper-ti», come verranno subito chiamati quei sistemi di IA che im-piegano estesamente conoscenze specialistiche per risolvereproblemi complessi. Esso potrebbe essere visto come l’an-tagonista del GPS, che, nella forma originaria di solutore diproblemi generale e integrato, si dimostrava ormai inattua-bile. Non va dimenticato tuttavia che DENDRAL, nelle in-tenzioni dei suoi autori, rappresentava all’inizio uno studiosul nesso critico esistente tra generalità e potenza delle eu-ristiche. La loro conclusione fu che le euristiche generali, i«metodi deboli», si dimostrano efficienti solo quando ven-gono associati a qualche euristica specializzata per un certodominio di conoscenze. In questa forma, i metodi deboli con-tinuarono a costituire gli elementi portanti di diversi siste-mi di ricerca euristica in IA. Una parte della successiva spe-rimentazione su DENDRAL, per esempio, si è concentratasullo studio dei vincoli da imporre al pianificatore.

Michie, intervenendo nella stessa Information ProcessingConference, qualificò DENDRAL un esempio di «ingegne-ria epistemologica». Feigenbaum ha raccontato poi di averpreferito l’espressione «ingegneria della conoscenza», che èormai entrata nel gergo per qualificare uno dei punti criticidella ricerca sui sistemi esperti: come trasferire in un pro-gramma di IA il patrimonio di conoscenza euristica che ca-ratterizza un esperto umano. Feigenbaum ha raccontato an-che la diffidenza che DENDRAL incontrò inizialmente pres-so i «generalisti», coloro che, anche senza aderire all’impo-stazione originaria del GPS, pensavano che il compito dell’IAfosse la ricerca dei principi generali dell’intelligenza che po-tevano essere trasferiti nelle macchine. Va detto comunqueche prima dello sviluppo di calcolatori con grandi memorie apartire dagli anni Settanta, la gestione di basi di conoscen-za estese come quelle richieste dai sistemi esperti non era unobiettivo perseguibile. Solo dopo quel periodo i sistemi esper-ti riuscirono a diffondersi nei settori più diversi, dalla medi-cina, alla geologia, all’ingegneria, all’istruzione assistita, e a

Il capostipite dei«sistemi esperti»

Ingegneria dellaconoscenza

653


trasformarsi spesso in altrettanti prodotti commerciali. Lostesso Feigenbaum fondò in seguito una società per la pro-gettazione e la vendita di software per sistemi esperti.

Percorsi della logicaNel famoso libro Perceptrons, pubblicato nel 1969 da Minskycon Seymour Papert, che era approdato al MIT dopo diver-se esperienze europee, i due, come si suole ripetere, assas-sinarono le reti neurali, dimostrando l’incapacità dei Per-ceptron alla Rosenblatt di discriminare stimoli visivi anchemolto semplici. Su questo avremo modo di tornare. Al mo-mento della pubblicazione di quel libro, tuttavia, non era en-trata in crisi solo la proposta dei sistemi autorganizzanti e del-le reti neurali, le cui prestazioni, come Minsky aveva previ-sto a Teddington, non andavano oltre la riproduzione di sem-plici attività di classificazione e associazione. In effetti, era-no entrati in crisi anche un paio di stili di ricerca dell’IA, unpaio di «paradigmi», come dicevano i loro protagonisti, e al-tri stavano per venire in primo piano, in un clima di con-trapposizioni, scelte di campo e ripensamenti che ha carat-terizzato l’IA di tutto il «successivo decennio», per ripren-dere l’espressione di Feigenbaum.

Tra le posizioni generaliste che gli autori di DENDRAL re-spingevano non c’era solo il GPS, ma anche un programma ditipo generale di cui McCarthy aveva delineato il prototipoall’epoca del simposio di Teddington. L’Advice Taker, era que-sto il nome del programma, avrebbe dovuto essere in grado

Un’immagine di SeymourPapert, il matematicoamericano di originesudafricana, studioso diIntelligenza Artificiale efondatore di una nuovadidattica basata sull’uso del computer e su unarivoluzionaria concezionedella matematica comestrumento diapprendimento dellarealtà, della creatività edella bellezza da parte dei bambini.

654


Computergrafica raffigurante una rete di cellule nervose sopra un microchip. Il biochip rappresentauna frontiera dello studio sui cyborg, organismi viventi i cui tessuti neurali sono interconnessi conelementi artificiali informatici.

655


di elaborare piani e ricavare conseguenze sulla base di un cor-po di conoscenze sufficientemente esteso, facendo anche usodi «consigli» provenienti dal programmatore. L’Advice Takercondivideva con il GPS l’aspirazione alla generalità, maMcCarthy insisteva sul modo uniforme in cui rappresentarela conoscenza che il sistema aveva dell’ambiente, inevitabil-mente basata su credenze e aspettative o, come egli diceva,sul «buon senso». Tale conoscenza doveva essere rappresen-tata sotto forma di enunciati della logica predicativa assunticome assiomi o premesse, e le conseguenze dovevano esse-re ricavate mediante le regole di tale logica.

Un primo tentativo di implementare almeno alcune carat-teristiche dell’Advice Taker risale al 1964 e si deve a FisherBlack: Minsky lo includeva in Semantic Information Proces-sing, avvertendo però che si trattava dell’«articolo meno “se-mantico” della raccolta». L’aspirazione alla generalità e a unmeccanismo di deduzione uniforme che caratterizzava l’Ad-vice Taker fu però ripresa esplicitamente solo dopo la for-mulazione di una nuova procedura di deduzione automatica,che inizialmente si rivelò particolarmente promettente. Sitrattava del principio di risoluzione di J. Alan Robinson, cheuno studente di McCarthy, Cordell Green, incorporò in unprogramma question answering, QA3, che era in grado di ri-spondere a domande su alcuni domini diversi.

Alle spalle del risultato di Robinson c’erano gli studi di di-versi ricercatori interessati a un tipo di dimostrazione auto-matica di teoremi che non aveva come obiettivo la simula-zione dei processi umani, ma si richiamava a precedenti ri-sultati di logici come Skolem, Herbrand e Gentzen. In par-ticolare, Hao Wang aveva già ribaltato i calcoli di Newell,Shaw e Simon sull’efficienza delle euristiche del LT, imple-mentando su un IBM 704, tra il 1958 e il 1959, tre proce-dure algoritmiche che in pochi minuti dimostravano buonaparte dei teoremi del calcolo enunciativo e predicativo deiPrincipia mathematica. Le successive ricerche di Martin Da-vis e Hilary Putnam e di Dag Prawitz culminarono nel lavo-ro del 1965 di Robinson, nel quale si descriveva un calcolologico senza assiomi ma con un’unica regola di inferenza, det-ta «risoluzione». Nella sua forma più semplice, la regola di-ce che da due formule ben formate costituite da sole di-sgiunzioni di formule atomiche o loro negazioni, A∨ B e B∨ C(le «clausole genitrici»), è possibile inferire il «risolvente»A∨ C (la clausola consistente nell’unione dei costituenti noncomplementari delle clausole genitrici).

L’Advice Taker

Una nuovaprocedura dideduzioneautomatica

656


Il calcolo di Robinson soddisfaceva un re-quisito importante, la completezza, ma la co-struzione di un dimostratore automatico di teo-remi con la sola risoluzione era in generale re-sa impossibile dall’esplosione combinatoria deirisolventi inutili o ridondanti generati dalla re-gola. Per alcuni anni la maggior parte della ri-cerca sulla deduzione automatica si concentròsui cosiddetti «raffinamenti» della risoluzione,che vennero studiati soprattutto nella dupli-ce forma delle restrizioni e degli ordinamentida imporre alla generazione di particolari clau-

sole. L’interesse per i raffinamenti è testimoniato dai nu-merosissimi articoli sull’argomento pubblicati su MachineIntelligence, la raccolta curata dal gruppo di Michie, checominciò a uscire periodicamente dal 1967, e su «ArtificialIntelligence», la prima rivista dedicata all’IA, pubblicata apartire da quello stesso anno. Questi periodici testimonia-no però anche il cambiamento di rotta verificatosi nella pri-ma metà degli anni Settanta, quando l’insoddisfazione peri risultati raggiunti dalla ricerca sui raffinamenti della ri-soluzione riaccese l’interesse per una dimostrazione di teo-remi meno sensibile al requisito della completezza e più at-tenta alle procedure euristiche ispirate ai metodi umanidi soluzione di problemi, meno sintattici e uniformi e piùlegati a conoscenze relative a domini specifici. W.W. Bled-soe è stato forse colui che, lavorando inizialmente sui raf-finamenti, «passò dall’altra parte», come egli disse, conmaggiore convinzione: il suo programma per dimostrazio-ni insiemistiche IMPLY si richiamava in parte all’imposta-zione euristica di Newell e Simon e di Gelernter.

Questa riscoperta delle euristiche simulative non decretòtuttavia l’abbandono immediato della risoluzione: al contra-rio, più o meno nello stesso periodo in cui veniva data per spac-ciata, essa spianò la strada a un nuovo stile di programma-zione, introdotto da Robert Kowalski e noto come «program-mazione logica». Essa usa un raffinamento della risoluzioneche è completo e insieme efficiente per una particolare e im-portante classe di formule, le clausole di Horn (dal nome dellogico che le aveva studiate). Tale raffinamento venne pre-sto incorporato nel PROLOG (PROgramming LOGic), il lin-guaggio di programmazione sviluppato nella prima metà deglianni Settanta in alcune università europee, anzitutto a Edim-burgo e, con Alain Colmerauer, a Marsiglia.

Un ironico bozzettodedicato al linguaggiodi programmazionePROLOG.

La riscoperta delle euristiche

657


Problemi di buon sensoLa difficoltà nell’estendere le prestazioni di QA3 in presen-za di problemi complessi e di basi di dati estese scoraggiò in-vece Green dal continuare a perseguire l’obiettivo di un si-stema capace di rispondere a domande che fosse «genera-le, formale e deduttivo» (così egli si esprimeva pensandoall’Advice Taker). Come ha osservato lo stesso McCarthy(1988), fu questa difficoltà relativa alle tecniche di control-lo del ragionamento che portò all’elaborazione di program-mi assai complessi come STRIPS (STandford Research In-

Un esperimentocondotto al MIT(MassachussetsInstitute ofTechnology)con un sistema«mano-occhio» (foto del 1970). Si tratta di uno deiprimi concreti esempidi automatismorobotizzato.

658


stitute Problem Solver) e i suoi successori. In STRIPS, pro-gettato nel 1969 presso lo SRI (Stanford Research Institu-te) da Richard Fikes e Nils Nillson, la conoscenza era rap-presentata ancora una volta mediante la logica del primo or-dine e la deduzione era sempre affidata alla risoluzione, mala pianificazione era effettuata tramite una versione evolu-ta dell’euristica mezzi-fine del GPS. Nel 1971, sempre pres-so lo SRI, gli autori di STRIPS, con la collaborazione di Ra-phael, impiegarono il loro programma come sistema di con-trollo di un robot che si muoveva in un ambiente reale, bat-tezzato Shakey. Nel decennio precedente, a Stanford, al MIT,a Edimburgo, si erano sperimentate diverse linee di ricer-ca sulla manipolazione automatica di semplici blocchi di-sposti su un tavolo da parte di sistemi muniti di un bracciomobile e di una telecamera che forniva immagini a un cal-colatore, i cosiddetti sistemi «mano-occhio» (hand-eye). Nonerano mancati anche tentativi di costruire robot mobili. Sha-key era però un robot che pianificava azioni sulla base diun programma per calcolatore, muovendosi in un ambien-te molto delimitato in cui riusciva a evitare ostacoli e a spo-stare grossi cubi. Le sue prestazioni non furono comunquegiudicate tali che il tradizionale sovvenzionatore delle ri-cerche di IA negli Stati Uniti, la DARPA (Defense Advan-ced Research Projects Agency), interessata in quel momentoalle applicazioni militari della robotica, continuasse a fi-nanziare il progetto.

Un problema che aveva scoraggiato Green, e che il gruppodello SRI era riuscito a rendere trattabile con STRIPS nel-l’ambito delle limitate prestazioni di Shakey, è diventato no-to come il frame problem, formulato da McCarthy e PatrickHayes, allora all’Università di Edimburgo (1969). Il frame pro-blem si pone con particolare evidenza nella fase di esecuzio-

Il robot Shakey nel 1971: il primo a muoversi in unambiente reale, compiendogesti elementari, qualispostare solidi geometriciposti sul pavimento.

Il programmaSTRIPS

I sistemi hand-eye

659


ne di un piano, quando occorre considerare sequenze alter-native di azioni, e mentre certe azioni contribuiscono a cam-biare il contesto di partenza, altre lo lasciano inalterato. Poi-ché ci si propone di dare una rappresentazione formale dellaconoscenza del mondo, e poiché il mondo cambia durante l’e-secuzione di un piano, è necessario descrivere sempre, me-diante opportuni assiomi, i cosiddetti «assiomi del frame», an-che gli aspetti di una situazione che non vengono modificatidall’azione. Procedendo nell’esecuzione del piano, la cosa sitraduce inevitabilmente in una proliferazione di assiomi che,se può essere controllata nel caso dei soliti problemi giocat-tolo, risulta sempre incontrollabile nel caso di problemi cheriguardano la complessità del mondo reale: un robot che simuove nel mondo fisico affronta un problema di questo ti-po, e Shakey poteva affrontarlo solo perché si muoveva in unambiente ben delimitato.

Nell’articolo sul frame problem, tuttavia, McCarthy e Ha-yes ponevano una netta distinzione tra i problemi sollevati dalcontrollo delle inferenze, che venivano definiti «euristici»,e i problemi relativi alla rappresentazione della conoscenzamediante un linguaggio formale, che venivano definiti «epi-stemologici». Con STRIPS si era dunque tentato di affron-tare i problemi euristici. Ma l’interesse di McCarthy si è sem-pre diretto verso quelli epistemologici, la cui soluzione, oalmeno corretta impostazione, sembra essere per lui preli-minare alla soluzione degli altri. In questo senso, perMcCarthy l’Advice Taker non è mai stato realizzato, e mailo sarà se prima non saranno chiariti gli aspetti della logicanecessari per catturare il carattere non monotono del ragio-namento basato sul buon senso. In questo caso l’informazioneda cui si parte è incompleta, o la situazione cambia, cosicchél’apprendere nuova informazione può provocare l’elimina-zione di conclusioni precedentemente inferite, cosa che nonpuò verificarsi nella logica tradizionale o monotona. L’esem-pio canonico contempla l’inferenza seguente: se x è un uc-cello (premessa), allora x può volare (conclusione); ma semi accorgo che x è uno struzzo (ulteriore premessa), devorivedere la conclusione raggiunta. È nell’approccio episte-mologico al ragionamento non monotòno che si colloca la pro-posta della «circoscrizione» di McCarthy. Essa si presenta co-me una «regola per le congetture» che, in presenza di infor-mazioni incomplete, come nel caso esemplificato, giustifi-ca il fatto che «si salta» a certe conclusioni. L’idea è di cir-coscrivere come «anomale» le potenziali eccezioni a una si-

Il frame problem

Problemi euristici e problemiepistemologici

660


tuazione tipica, come quella descritta dall’enunciato «se x èun uccello, allora x può volare». In questo caso, la proprietà«non volare» risulta anomala rispetto a «essere un uccello»,dunque viene circoscritta, assumendo cioè che abbia l’e-stensione più piccola possibile relativamente alle informa-zioni di cui si dispone. L’enunciato dell’esempio si riformu-la pertanto come la regola seguente: se x è un uccello, e x nonè un uccello anomalo, allora x può volare.

Il contesto epistemologico ha fatto da sfondo a tutta unaserie di ricerche, definite poi «logiciste», sull’uso della logicacome strumento per rappresentare la conoscenza basata sulsenso comune. Non è stato chiarito però come le soluzioniproposte potessero fornire suggerimenti per la loro imple-mentazione effettiva, in altri termini per la soluzione dei pro-blemi euristici. Si è assistito così alla proliferazione piuttostofine a sé stessa di ricerche su diverse forme di circoscrizionee regole non monotone, che ha provocato alla fine anche qual-che defezione: è il caso di Drew McDermott, che ha abban-donato le ricerche sulla logica non monotona attraverso, perusare la sua formula, una «critica della ragion pura» logicista(A critique of Pure Reason, 1988). Risultati controversi si so-no avuti anche nello studio di altre forme di logica: modale,temporale, fuzzy. Con quest’ultima, introdotta da Lofti Zadeh(e che ha trovato successivamente impreviste applicazioni in-dustriali), si è pensato di poter catturare il carattere «sfuma-to» del ragionamento del buon senso: un problema, come siricorderà, posto all’origine stessa della simulazione dei pro-cessi mentali con il calcolatore in termini di logica «grigia».

Drew Mc Dermott (in una foto del 1998)ha ricercato soluzionilogiciste al problemadella conoscenzabasata sul buon senso,ma è poi pervenuto acriticare alcuni aspettifondamentali di taleapproccio.

661


Contro la logicaAntitetica a quella logicista è stata la posizione sempre so-stenuta da Minsky. Risale al 1975 la pubblicazione di unsuo articolo (A Framework for Representing Knowledge) di-ventato così popolare da essere noto ormai come il «frame pa-per». In esso Minsky tornava a contrapporre il «nuovo para-digma» della rappresentazione della conoscenza al precedente«paradigma della ricerca euristica», proponendo una strut-tura dati che chiamò frame.

Il nucleo dell’idea non era certo originale. Nozioni del ge-nere, lo ricordava lo stesso Minsky, erano già popolari pres-so gli psicologi (lo «schema» di Bartlett, per esempio). Inol-tre, per certi aspetti il frame si collocava tra gli sviluppi del-la nozione di rete semantica di Quillan, il più influente deiquali era in quel momento la teoria della «dipendenza con-cettuale» elaborata da Roger Schank, alla Yale University, conuna impostazione ugualmente antichomskiana e antilogici-sta. Agli inizi degli anni Settanta la teoria di Schank sancivai limiti insuperabili dei programmi di comprensione del lin-guaggio naturale del precedente decennio. Il modello nega-tivo era per Schank ELIZA, «una collezione di trucchi», eglidiceva, per far scimmiottare a un programma la compren-sione del significato delle parole. Il suo obiettivo era quellodi descrivere, attraverso processi computazionali che fosse-ro psicologicamente plausibili, la comprensione del linguag-gio come fenomeno cognitivo. Egli proponeva di individua-re un piccolo insieme di nozioni elementari, le «primitive se-mantiche», con le quali poter costruire la rappresentazionedel significato di qualsiasi verbo inglese. La frase veniva dun-que analizzata attraverso l’esplicitazione della sua rappre-sentazione in termini di primitive semantiche. Infatti, eraquesto l’assioma centrale della teoria, due frasi che hannolo stesso significato, anche se contengono parole diverse o so-no diversamente costruite, condividono un’unica rappresen-tazione in termini di primitive semantiche. Così le frasi «l’uo-mo ricevette il libro» e «io diedi il libro all’uomo» possono es-sere rappresentate con una particolare rete in termini di un’u-nica primitiva semantica che definisce il trasferimento di pos-sesso (trans nella terminologia di Schank, come si vede nel-lo schema nella pagina successiva).

La teoria di Schank aveva delle implicazioni importanti perla traduzione automatica, come dimostravano i primi pro-grammi di Schank quali MARGIE e SAM. Le primitive se-

Passi verso la traduzioneautomatica

Le critiche di Minskyal paradigma dellaricerca euristica

662


mantiche, ritenute comuni a tutte le lingue naturali, costi-tuivano una sorta di «interlingua», e dunque l’abilità di tra-durre frasi non era considerata diversa da quella di com-prenderle o parafrasarle: essa si basa sempre sull’esplicita-zione di una rappresentazione, in questo caso comune a fra-si di due lingue differenti. Svanito il sogno originario della«traduzione completamente automatica di alta qualità», è apartire da queste esperienze che si è avuta la ripresa di diversiprogetti di traduzione automatica.

Fu quando Schank passò dalla costruzione di un program-ma che capisse (o traducesse) singole frasi a quella di un pro-gramma che capisse (o traducesse) interi brani che si trovòa dover fare i conti in modo ineludibile con i soliti problemidel buon senso: primo fra tutti, quello delle conoscenze ne-cessarie per ricavare inferenze sensate dall’unione di diver-se frasi, in modo da rendere esplicite credenze e aspettativesollecitate implicitamente dalla lettura del testo. Per affron-tare questi problemi Schank, con lo psicologo di Yale RobertAnderson, elaborò in SAM (Script Applier Mechanism) ilmeccanismo degli script. Per darne un’idea, possiamo tornareal frame paper di Minsky. Il frame è diventato il prototipo del-le varie nozioni affini, script inclusi, elaborate in quegli an-ni o negli anni successivi con l’obiettivo opposto a quello lo-gicista, e cioè di affrontare il problema del buon senso con si-stemi di rappresentazione della conoscenza psicologicamenteplausibili. Ma non va dimenticato che i sistemi a regole diproduzione sono stati usati da Newell e Seimn, lo accenne-remo, con lo stesso obiettivo. L’interesse per il frame è co-munque documentato fin dal suo apparire nei commenti diFikes, Hewitt, Schank e altri in Schank e Nash-Webber.

uomo trans libro

qualcuno

uomo▼

▼

▼

▼ ▼ ▼

a

da

io trans libro

io

uomo▼

▼

▼

▼ ▼ ▼a

da

Il programma di Schank

La primitivasemantica transdi Roger Schank.

663


Per riprendere un esempio di Minsky, nell’aprire una por-ta all’interno di una casa che non ci è familiare, di solito ciaspettiamo di trovare una stanza con delle caratteristiche piùo meno riconoscibili e prevedibili, che rimandano a un in-sieme di conoscenze organizzate sotto forma di prototipi. Lestrutture-dati nelle quali riflettere questo modo duttile e in-sieme molto integrato di usare la conoscenza che è tipico de-gli esseri umani sono descrivibili per Minsky come sistemi diframe. Dunque, il frame stanza è un contenitore di dati checomprende, elencate in apposite «caselle» o slots, caratteri-stiche generiche come avere un certo numero di pareti e difinestre, un soffitto e così via. Potranno esserci vari tipi distanze: da pranzo, da letto e così via, ciascuno dei quali co-stituisce a sua volta un frame con caratteristiche più speci-fiche, sempre elencate in apposite «caselle». E la camerada pranzo di Giovanni potrà essere ben diversa da quella diMaria in svariati dettagli, ma farà sempre parte di uno stes-so tipo del frame stanza, del quale eredita le proprietà, se-condo il meccanismo già presente nelle reti semantiche diQuillian. La descrizione di Minsky è per lo più intuitiva etalora oscura. Comunque, egli descriveva metodi che atti-vano o disattivano frame a diversi livelli di dettaglio, dandoluogo alla possibilità di modificare credenze e aspettative fru-strate quando le circostanze lo richiedono. Per esempio, ilmodo di affrontare le eccezioni tipico del ragionamento delbuon senso o di quello non monotono è per Minsky ben rap-presentato in un frame con il metodo dei default, i quali sta-biliscono generalizzazioni che costituiscono credenze pre-sunte fino a prova (o in difetto di informazione) in contra-rio: un default di stanza può essere il numero «uguale a 4»delle pareti, ma una stanza con una parete crollata resta sem-pre un qualche tipo del frame stanza. In un’appendice al fra-me paper, Minsky sferrava un duro attacco alle tesi logici-ste, che a suo avviso, sviate dai falsi problemi della coeren-za e della completezza, non erano in grado di affrontare ilcarattere olistico della conoscenza umana, per usare questavolta il termine impiegato da Daniel Bobrow e Terry Wino-grad a proposito del linguaggio per la rappresentazione del-la conoscenza KRL (Knowledge Representation Language),certo il più influenzato dall’idea dei frame.

Sulla ragionevolezza della contrapposizione di Minsky trarappresentazioni psicologicamente plausibili e rappresenta-zioni logiciste le valutazioni non sono state concordi. Unarisposta dal fronte logicista è venuta inizialmente da Hayes,

I sistemi di framesecondo Minsky

664


che ha tentato con discusso successo di tradurre in terminidi logica del primo ordine il formalismo delle reti semantichee dei frame, per dimostrarne la sostanziale equivalenza. Tut-tavia, se per alcuni i frame non sono altro che insiemi di enun-ciati dichiarativi, per altri, più plausibilmente, essi, comegli script e altre nozioni analoghe, hanno suggerito un modoper superare la contrapposizione teorizzata da McCarthy traproblemi epistemologici e problemi euristici, e anche perridimensionare la disputa tra «dichiarativisti» e «procedura-listi», che divise il mondo dell’IA degli anni Settanta (e at-tualmente, è stato detto, più dissolta che risolta). In breve,mentre per la tesi dichiarativista, sostenuta soprattutto dailogicisti, la conoscenza è in primo luogo «sapere che», e dun-que consiste nel disporre di un insieme di fatti e di regole perinferirne altri, per la tesi proceduralista la conoscenza è inprimo luogo «sapere come», e dunque consiste nel disporredi procedure per l’uso della conoscenza stessa. È possibiledotare i frame di procedure di quest’ultimo tipo, dette «col-legamenti procedurali»: per esempio, nel frame stanza, si po-trebbe collegare alla casella «numero delle pareti: uguale a4» una procedura per riconoscere, quando le circostanze lorichiedessero, la parete di una stanza di forma circolare.

Il programma che può essere considerato un esempio del-le tesi proceduraliste è SHRDLU, realizzato da Winogradal MIT nel 1971 nell’ambito di un progetto per la compren-sione del linguaggio naturale. SHRDLU è un robot simula-to in grado di effettuare con grande coerenza azioni in un am-biente anch’esso simulato, in cui blocchi di forme e colori di-versi sono disposti su un tavolo: un «micromondo», come ve-nivano chiamati questi insiemi di solidi geometrici sui qualisi esercitò molta IA di quegli anni. SHRDLU eseguiva cor-rettamente diversi ordini, dati in ingresso in lingua inglese,di spostare certi blocchi sul tavolo, e dietro richiesta spie-gava, in inglese, perché si comportasse in un modo piutto-sto che in un altro. Era anche in grado di togliere ambiguitàa ordini non chiari, rifacendosi al modo in cui erano dispo-sti i blocchi in un dato momento, e chiedendo all’occorren-za conferma della propria interpretazione del contesto. Perfare ciò SHRDLU integrava l’analisi sintattica e quella se-mantica degli enunciati con un piccolo corpo di cooscenzesugli oggetti e le proprietà del micromondo. Con un approc-cio diverso da quello di Schank, diventava possibile trattarequegli stessi aspetti del significato inaccessibili ai program-mi degli anni Sessanta, che, lo abbiamo visto, si basavano sul-

Il programmaSHRDLU

665


l’uso di confronto di schemi e di parole chiave. SHRDLU ave-va infatti un modello interno del micromondo, e la cono-scenza su di esso era rappresentata in forma non dichiarati-va ma procedurale. A ogni parola del suo vocabolario corri-spondeva cioè non una definizione esplicita, ma un breve pro-gramma, la cui esecuzione controllava se l’uso della parolanel contesto dato era o no corretto: in ciò consisteva il si-gnificato della parola stessa.

La rappresentazione della conoscenza in forma procedu-rale tipica di SHURDLU era resa possibile dal MICRO-PLANNER, il linguaggio di alto livello impiegato. Si tratta-va di una sezione del PLANNER, ideato da Carl Hewitt alMIT nel 1971, in cui la parte relativa al controllo (o euristi-ca nel senso di McCarthy) era per così dire integrata a quel-la relativa alla rappresentazione (o epistemologica).

La Visione ArtificialeUna critica alla scuola dei micromondi, all’egemonia dellarappresentazione della conoscenza, al proceduralismo e al-la soluzione di problemi cognitiva, insomma all’intero perquanto discorde fronte della ricerca in IA degli anni Set-tanta, venne da David Marr (1945-80). Egli mosse le suecritiche lavorando in un settore a lungo ritenuto seconda-rio in IA: quello della Visione Artificiale. Ancora oggi le ideedi Marr, nonostante se ne vedano diversi limiti (ad alcuniaccenneremo in seguito), sembrano segnare uno spartiac-que nella breve storia della Visione Artificiale, e hanno la-sciato tracce importanti in più recenti tendenze della ricercacognitiva.

rosso

verde

verde

rosso

rosso

blu

blu

Il «micromondo» di figure solidegeometriche delprogramma SHRDLUdel 1971, fondato su procedure chedefiniscono laconoscenza partendodalla procedura stessa,di modo che ilcomputer acquisiscaconoscenze non tantosapendo quello che stafacendo, ma sapendose quel che sta facendoè corretto in relazionealle caratteristiche di forma e colore (2 variabili)dell’oggetto con cui interagisce.

La critica di Marralle ricerche sull’IA

666


Invitato da Minsky e Papert, Marr arrivò al MIT dall’Inghil-terra nel 1973, da neurofisiologo convinto che la visione fos-se un argomento troppo complesso per essere affrontato coni metodi della sua sola disciplina. Al MIT c’era una lunga tra-dizione di ricerca sulla visione, legata agli interessi per la ro-botica che abbiamo ricordato, stimolati in particolare daMinsky. Dopo una falsa partenza, in cui la Visione Artificialevenne considerata un problema secondario e di facile solu-zione rispetto alla ricerca dei principi generali dell’intelligen-za, sembrava si fosse imboccata una strada promettente. Al-l’inizio degli anni Sessanta, Larry Roberts era passato dallo stu-dio del riconoscimento e della semplice classificazione di fi-gure bidimensionali, in genere a forma di lettere, tipico dellapattern recognition tradizionale, allo studio della descrizione discene a tre dimensioni, quelle che deve saper decifrare un ro-

Il MIT (MassachusettsInstitute ofTechnology), il laboratoriostatunitense diinformatica e diIntelligenzaArtificiale, dovehanno lavorato alcunidei più importantiinformatici delmondo, come DavidMarr.

667


bot. Questo comportava i difficili problemi dell’individuazio-ne dei contorni di figure sovrapposte, della distorsione pro-spettica, della variazione di intensità luminosa, della tessitura.Egli usò solidi geometrici di varia forma, che erano rappre-sentati nei suoi programmi tramite le coordinate dei loro ver-tici. Il pionieristico lavoro di Roberts proseguì al MIT con leesplorazioni dei collaudati mondi di blocchi da parte di Adol-fo Guzman, David Waltz, Patrick Winston.

Marr respinse la strategia dei micromondi, perché non po-teva essere estesa ai casi di scene più complesse come quel-le della vita reale. Inoltre, giudicò che la maggior parte di que-ste ricerche condividesse la filosofia dell’IA di quegli anni:per mettere in grado un sistema artificiale di decifrare unascena, si era pensato di munirlo di rappresentazioni e di eu-ristiche, insomma di conoscenza specializzata «dall’alto», che

668


esso avrebbe dovuto usare per riconoscerei componenti della scena stessa. L’idea di

Marr, coerente ad alcuni risultati del-la ricerca neurofisiologica, era inve-ce che sono le caratteristiche fisi-che degli oggetti, non le cono-scenze del sistema sugli oggetti, aguidare «dal basso» la loro identi-ficazione nei primi due stadi del-la percezione visiva, che costitui-scono la «visione primaria». Nel

primo stadio il sistema estrae da unoggetto informazioni sulle proprietàdell’immagine bidimensionale, per

esempio relative alla variazione diintensità luminosa, ottenendoneuno «schizzo primario». Nel se-condo stadio, sulla base di tale

schizzo, il sistema elabora informa-zioni relative questa volta alla profon-

dità e all’orientamento dell’oggetto, ottenendone uno «schiz-zo a due dimensioni e mezzo». Solo l’elaborazione di que-st’ultimo in un «modello a tre dimensioni» dell’oggetto, il ter-zo stadio o della «visione alta», richiede l’intervento delleconoscenze generali in possesso del sistema, che lo guida-no nell’identificare quale tipo di oggetto sia presente nellascena. Tommaso Poggio ha definito «ottica inversa» lo studiodi questo processo di ricostruzione di immagini tridimen-sionali a partire da immagini bidimensionali.

Nel libro pubblicato postumo, Vision, Marr sosteneva chela teoria computazionale della visione è interessata in primoluogo all’individuazione delle restrizioni fisiche e delle fun-zioni (che cosa si vuole computare), mentre la scelta del ti-po di rappresentazioni e dei particolari algoritmi per mani-polarle (dei programmi) interessano un altro livello di ana-lisi (come si effettua la computazione). Questa distinzionecorrispondeva secondo Marr a quella di Chomsky tra il li-vello della competenza e quello della prestazione. Il terzo li-vello previsto da Marr è quello dell’implementazione del-l’algoritmo in un particolare hardware. Lo schema a fian-co, che riassume le relazioni tra i vari livelli, permette fra l’al-tro di cogliere il rapporto di interazione esistente secondoMarr tra ricerca neurologica e ricerca in IA. I risultati dellapsicofisiologia e della neurologia possono influire sulla scel-

David Marr ha datoinizio ai tentativi di realizzare sistemiartificiali in grado di«vedere» e di decifrareuna scena.

669


ta di particolari rappresentazioni e algoritmi: un’interazio-ne che supera la mera estraneità teorizzata comunementedall’IA (si torni a vedere in proposito lo schema pagina 641).

Sulla base di questa proposta teorica generale, che andavaal di là dei problemi posti dalla visione in senso stretto, Marrcriticò i principali protagonisti dell’IA degli anni Settanta: Wi-nograd e i proceduralisti perché confondevano due livelli,quello computazionale e quello algoritmico (per quanto es-si lo facessero volutamente, come abbiamo visto); Schank eMinsky perché lavoravano esclusivamente sui meccanismidella rappresentazione, dunque al livello algoritmico, tra-scurando quello computazionale; Newell e Simon perché,quando si illudevano di simulare il comportamento umano,in realtà lo «mimavano» attraverso procedure ad hoc, comediceva Marr, scegliendo anche essi il livello sbagliato. Mol-te delle critiche da lui sollevate finivano per toccare i punti

problemarappresentazionale

esperienza ordinaria

problema computazionale

naturadell’informazione

restrizioni e processi della teoria computazionale

rappresentazione specifica(può essere programmata)

algoritmo specifico(può essere programmato)

psicofisica

meccanismo nervosospecifico

meccanismo nervosospecifico

neurofisiologiae neuroanatomia

▼

▼

▼▼

▼

▼

▼

▼

▼

▼

▼

▼

▼

▼

▼▼

Schema dell’approcciodi Marr al problemadella visione al computer.

caldi della ricerca dell’IA di quegli anni, primo tra tutti la dif-ficoltà di rappresentare la conoscenza con strutture come iframe o gli script non appena si usciva dai soliti micromon-di: una difficoltà che, andando al di là della disputa tra logi-cisti e antilogicisti, riproponeva il problema della conoscen-za basata sul buon senso, vera bestia nera dell’IA, e che finìper scoraggiare lo stesso Winograd dal proseguire le propriericerche.

Vecchi e nuovi progettiLe critiche di Marr alla simulazione dei processi cognitiviavevano come oggetto la monumentale summa del 1972,Human Problem Solving, nella quale Newell e Simon ave-vano raccolto i risultati della loro lunga ricerca sull’argo-mento. Da un lato i processi di soluzione di problemi di sin-goli soggetti umani, desunti dai protocolli verbali, venivanostudiati sotto forma di «microteorie» simulative (programmio schemi di programmi che riproducevano tali processi coni maggiori dettagli possibili), dall’altro si definivano i linea-menti di una teoria generale dell’elaborazione dell’informa-zione, individuando una nozione di «sistema di elaborazio-ne dell’informazione» (Information Processing System, oIPS) come «genere» di cui uomo e calcolatore sono due «spe-cie» distinte. Infine, si sviluppava una particolare versionedell’idea di «regola di produzione», che nella forma genera-le «SE condizione, ALLORA azione», specifica la condizio-ne in presenza della quale hanno luogo una o più azioni.Incorporate nei cosiddetti «sistemi di produzioni», regole diquesto tipo sono state ampiamente sperimentate per rap-presentare la conoscenza nei sistemi esperti, a partire almenoda MYCIN, un sistema esperto nella diagnosi delle malat-tie del sangue.

Nel 1975 Newell e Simon, nell’intervento in occasione delPremio Turing, formularono un’ipotesi che può essere vistacome il perfezionamento di quella dello IPS: l’«ipotesi del si-stema fisico di simboli», secondo la quale condizione neces-saria e sufficiente per attribuire intelligenza a un sistema, na-turale o artificiale, è la sua capacità di trasformare espressio-ni simboliche in altre mediante regole. Tuttavia, gli interessidi Newell e di Simon andavano già da tempo divergendo.

Newell continuò il lavoro sui sistemi di produzione, con-vincendosi che essi potevano suggerire un’architettura ge-nerale dell’intelligenza. La conferma gli parve di trovarla nel

670


Le critiche di Marralla simulazione dei processi cognitivi

L’«ipotesi delsistema fisico dei simboli»

671


Una delle capacità che caratterizzano l’intelligenza naturale o artificiale è costituita dal processo di traduzione e trasformazione di certe espressioni simboliche (i dati che entrano nella testa) in altre (i dati in uscita) mediante determinate regole.

672


1984, quando con John Laird e Paul Rosenbloom cominciòl’implementazione di SOAR, pensato come un’architetturaunica per ogni tipo di compito: i compiti erano formulati sem-pre come ricerca nello spazio del problema. SOAR procededunque selezionando e applicando gli opportuni operatoriche trasformano lo stato iniziale in una successione di statiche portano a quello finale, l’obiettivo o la soluzione del pro-blema. Quando nel corso di questo processo si incorre in unaimpasse, dovuta per esempio alla difficoltà di decidere qua-le operatore applicare, SOAR genera un sotto-obiettivo, lacui soluzione lo libera da tale impasse. Essa viene aggiuntasotto forma di nuova regola alla lista delle regole, e costitui-sce un nuovo «pezzo» (chunk) di conoscenza, che in futuropotrà essere usato ove si riproduca quella stessa impasse. Ilchunking è dunque un meccanismo di apprendimento chegenera nuove regole, anzi l’unico meccanismo di apprendi-mento previsto dall’architettura. Il lavoro su SOAR, che co-me si vede riprendeva, e per certi aspetti radicalizzava, mol-ti temi nei quali affondavano le radici dell’IA, assorbì Newellfino alla sua scomparsa. È tutt’ora continuato dal suo grup-po, sollevando molte riserve nel mondo dell’IA soprattuttoper quanto riguarda l’utilità di assumere un’architettura uni-ficata per l’intera attività cognitiva.

Per Simon le questioni relative all’architettura cognitiva nonhanno avuto un interesse preminente. Con diversi collabo-ratori, egli continuò fino alla sua scomparsa la sperimenta-zione sulla simulazione del comportamento umano, in par-ticolare usando i protocolli verbali. Nello stesso tempo ap-profondì l’analisi dei processi della creatività scientifica, dalui già definita come una forma, per quanto complessa, di at-tività di soluzione di problemi. Con altri ricercatori, comeGary Bradhaw e Patrik Langley, collaborò alla costruzionedi vari programmi che riscoprivano concetti e leggi di diver-se discipline scientifiche. Si tratta per lo più di programmiche usano euristiche generali o deboli e basi di conoscenzaridotte. BACON rappresenta il caso estremo, molto vicino alGPS: riscopre le leggi di Keplero attraverso metodi generaliche individuano regolarità presenti nei dati di cui dispone,senza fare riferimento né al loro significato né ad alcuna as-sunzione sulla loro struttura. Se consideriamo DENDRALun programma per la scoperta, dobbiamo collocarlo all’e-stremo opposto.

Un programma che in un certo senso si colloca in unaposizione intermedia, sebbene oscillante, tra BACON e

Newell, Laird e Rosenbloomimplementano SOAR

Simon e le ricerchesui protocolli verbali

673


DENDRAL è AM (Automated Mathematician), sviluppa-to nell’area della scoperta matematica da Douglas Lenat ver-so la metà degli anni Settanta a Stanford. Per la verità, l’i-spirazione originaria di Lenat sembrava agli antipodi deisistemi esperti. Lenat si proponeva infatti di «tagliare il cor-done ombelicale» che lega il programma all’esperto uma-no (il problema dell’ingegneria della conoscenza), per ve-dere se, o fino a che punto, il programma era in grado di ap-prendere incrementando gradualmente le conoscenze a par-tire da una base di conoscenza generale. Tale base di co-noscenza era piuttosto ricca e, senza essere paragonabilea quella di un tipico sistema esperto, era tuttavia ben lon-tana dall’austerità di BACON. L’obiettivo era di approssi-marsi, sottolineava Lenat, «all’ideale dell’interscambio trageneralità e potenza»: quasi un richiamo, questa volta, al-la filosofia originaria degli autori di DENDRAL. Euristichedi questo tipo resero il programma capace di «riscoprire»numerosi concetti matematici, arrivando a formulare la con-gettura di Goldbach, che esso introduceva dopo aver «ri-scoperto» i numeri primi.

Lenat si accorse che una delle ragioni fondamentali che im-pediva ad AM di compiere ulteriori progressi consisteva nel-la sua incapacità di introdurre, o «apprendere», nuove euri-stiche. Trasferitosi alla Carnegie-Mellon, egli si dedicò a unnuovo programma, EURISKO, che possedesse regole che

Doug Lenat, il fondatore del CYC, un progettoche mira allarealizzazione di unprogramma dotato dibuon senso nella fasedi ricerca e dicomprensione dei dati.

lo mettessero in grado di introdurre non solo nuovi concet-ti, nello stile di AM, ma anche nuove regole euristiche, o «me-taeuristiche». L’idea di un metalivello dove rappresentare leregole che il programma può usare per decidere quali rego-le del livello oggetto applicare, o in quale ordine, può esse-re vista come l’evoluzione dell’idea di controllo attraverso leeuristiche della prima IA. Questa opportunità è stata speri-mentata in sistemi come TEIRESIAS e SOAR. In altri ca-si, come nel sistema FOL di Richard Weyhrauch, la cono-scenza metateorica viene trasferita al livello della teoria og-getto mediante «principi di riflessione», per rendere più ef-ficiente la generazione delle dimostrazioni. Quando si parladi riflessione e di autoriferimento, inevitabilmente si è por-tati a pensare alla coscienza, un argomento sul quale, a par-te alcune speculazioni su possibili architetture riflessive, l’IAnon ha ancora prodotto risultati apprezzabili.

Nemmeno l’approccio di EURISKO ebbe il successo spe-rato. Lenat ha discusso in modo molto spregiudicato i limitidi AM e di EURISKO. Alla fine si è trovato d’accordo conle conclusioni critiche alle quali era arrivato lo stesso Fei-genbaum a proposito dei sistemi esperti: essi mancano del-la conoscenza generale che caratterizza il buon senso, co-sicché le loro prestazioni, basate su conoscenze specialisti-che, degradano rapidamente.

Partendo da questa constatazione, Lenat ha avviato nel 1984il programma CYC (enCYClopedia), un progetto a lungo ter-mine talmente ambizioso da lasciare scettici molti sulla suacompleta realizzabilità. CYC dovrebbe essere fornito di unabase di conoscenza desunta da un certo numero di voci diun’enciclopedia e, inoltre, delle conoscenze generali del buonsenso presupposte nella comprensione di tali voci. L’obiet-tivo (quasi la realizzazione del sogno di McCarthy) è di da-re al programma tutta la conoscenza del buon senso neces-saria per la comprensione di qualsiasi altra voce dell’enci-clopedia. Inizialmente, a CYC si interessò la MCTC (Mi-croelectronics and Computer Technology Corporation), unconsorzio nazionale che avrebbe dovuto preparare la rispostaamericana al progetto giapponese dei calcolatori «superin-telligenti» della quinta generazione programmati con il PRO-LOG (avviato nel 1982 con 855 milioni di dollari stanziatiin dieci anni, tale progetto si avviò presto a un drastico ridi-mensionamento). Successivamente CYC, rappresentando lasperanza in una generazione di sistemi esperti di concezio-ne interamente nuova, ha suscitato l’interesse di diverse im-

674


Da AM a EURISKO

Lenat e ilprogramma CYC

675


prese commerciali, che hanno stanziato in un primo momentoun finanziamento di 25 milioni di dollari.

In SOAR l’apprendimento ha un ruolo centrale, AM ed EU-RISKO sono programmi che apprendono attraverso la sco-perta. Sono solo alcuni esempi di come nei primi anni Ot-tanta l’apprendimento costituisca un tema di primo piano nel-la ricerca di IA, dopo un lungo periodo in cui non era statooggetto di esplorazioni sistematiche. La nuova tendenza è te-stimoniata dalla raccolta Machine Learning (1983) di R.S.Michalski, J.G. Carbonell e T.M. Mitchell, diventata poi unapubblicazione che periodicamente documenta l’estesa varietàdelle attuali proposte sull’apprendimento automatico.

Architetture a confronto: scienzacognitiva e neoconnessionismoL’ipotesi del sistema fisico di simboli non caratterizza certoin modo omogeneo l’impresa dell’IA. Considerata di voltain volta, dentro e fuori il mondo dell’IA, un eccesso radica-le o un atto di fede o un’utopia, essa ha comunque sintetiz-zato le aspirazioni originarie dell’IA come scienza della men-te, e ha influito, magari in forme variamente indebolite, sul-

Elaborazione alcomputer di una reteneurale applicata a unmicrochip. Esistonodiversi punti dicontatto tra i risultatidegli studi condottinegli ultimi anni sulle reti neurali e le ricerchesull’IntelligenzaArtificiale.

676


L’impresa di creare un’Intelligenza Artificiale è ostacolata dalla complessità della materia affrontata: la mente, i suoi processi cognitivi e la possibilità di trasferirli in ambito scientifico e meccanico.

677


l’evoluzione di una nuova disciplina, la scienza cognitiva. Que-sta ebbe la sua consacrazione alla Conferenza di San Die-go, organizzata nel 1979 dalla Cognitive Science Society, cheda due anni pubblicava già la rivista ufficiale della Società eaveva avuto generosi finanziamenti dalla Sloan Foundation.Alla Conferenza parteciparono psicologi, linguisti e filosofi,oltre a Minsky, Newell, Shank, Simon, Winograd: nella scien-za cognitiva confluivano infatti molte delle ambizioni dellaInformation Processing Psychology e dell’IA come scienzadella mente, al punto che Simon, intervenendo alla Confe-renza, arrivava a retrodatare al 1956 la nascita della scienzacognitiva.

La nuova disciplina doveva ritagliarsi uno spazio autono-mo nei sui rapporti con l’IA. Due libri, pubblicati quasi con-temporaneamente da Zenon Pylyshyn e da Philip Johnson-Laird, tentano l’impresa. Vi sono alcune cose che i due au-tori condividono, insieme alla maggior parte dei ricercato-ri del campo. Entrambi sostengono l’idea generale della co-gnizione come computazione di strutture di simboli e ri-fiutano la metodologia del test di Turing, perché con essaci si limita a considerare la prestazione senza tener contodei processi cognitivi. Inoltre, entrambi si pongono il pro-blema, da punti di vista diversi, di quali restrizioni impor-re all’architettura cognitiva o ai processi cognitivi stessi: peresempio, i limiti di memoria, gli errori nella soluzione di pro-blemi, i tempi di prestazione. Anche se la simulazione delcomportamento è giudicata per lo più pura «mimica» nelsenso di Marr, si avverte in queste tesi l’eredità della In-formation Processing Psychology dei vecchi tempi. Per il re-sto, l’approccio di Pylyshyn è molto diverso da quello diJohnson-Laird. Pylyshyn tracciava una distinzione tra i pro-cessi «cognitivamente penetrabili» e quelli «cognitivamen-te non penetrabili», che riguardano l’architettura cognitiva.Pur tra qualche incertezza, Pylyshyn sembrava muoversinella direzione di Marr e di Chomsky, già portata alle estre-me conseguenze nella concezione della mente sostenuta inquegli anni da Jerry Fodor. Questi aveva proposto un’ar-chitettura funzionale della mente in cui si distinguono isistemi deputati alla percezione e al linguaggio, descritti co-me moduli non influenzati da credenze e conoscenze, daisistemi «centrali», responsabili dei processi cognitivi su-periori, per esempio della soluzione di problemi. La scien-za cognitiva, come scienza computazionale della mente, puòoccuparsi solo dei primi, mentre quelli centrali, risultan-

L’ipotesi del sistemafisico di simboli

Sistemi percettivi e sistemi cognitivisuperiori

678


do cognitivamente penetrabili, cioè influenzati da creden-ze e conoscenze, le restano inaccessibili: si spiegano così ifallimenti dell’IA, che si è illusa di riuscire a rappresenta-re i processi centrali con strutture dati come i frame o gliscript. All’opposto di Pylyshyn, Johnson-Laird elaborava lanozione di una nuova struttura dati, in cui rappresentarein forma analogica le conoscenze e le aspettative, anche sog-gettive, degli esseri umani: quella dei «modelli mentali»,che egli aveva cominciato a sperimentare nel ragionamen-to sillogistico. Inoltre, estendeva i suoi interessi ad argo-menti verso i quali Pylyshyn e molta scienza cognitiva del-l’epoca restavano sordi: quello del ruolo della componenteemotiva nella cognizione, o quello della coscienza, argo-menti poi tornati in primo piano nella ricerca.

Ma già Pylyshyn si trovava a dover contestare nel suo librola validità di proposte di «nuove architetture della cognizio-ne», alternative a quelle ispirate all’ipotesi dell’elaborazionesimbolica, proposte dal cosiddetto «nuovo connessionismo».Pylyshyn si riferiva alla raccolta pubblicata nel 1981 da Ja-mes Anderson e Geoffrey Hinton, Parallel Models of Asso-ciative Memory, che preannunciava la ripresa in grande sti-le delle reti neurali. Anderson, e con lui Teuvo Kohonen, Ste-phen Grossberg e altri ricercatori che abbiamo già ricorda-to, non avevano interrotto la ricerca sulle reti neurali. Inol-tre, più di una proposta formulata dall’IA, per esempio il mec-canismo di «attivazione diffusa» della memoria semanticadi Quillan, aveva ispirato modelli dotati di un certo paralle-lismo. Ma almeno due eventi dovevano avviare una vera e pro-pria rivincita di Rosenblatt. Nel 1982, in Neural Networksand Physical Systems with Emergent Collective Computatio-nal Abilities, John Hopfield mostrava come le reti neurali po-tessero funzionare come memorie associative. Nel 1986 Da-vid Rumelhart e i suoi collaboratori pubblicavano una seriedi ricerche (Parallel Distributed Processing, Explorations inthe Microstucture of Cognitions) ispirate a un approccio di«elaborazione distribuita in parallelo» (PDP) dell’informa-zione che mostravano come un algoritmo di apprendimentoper correzione dell’errore, ormai noto come «retropropaga-zione» (backpropagation), permetteva di superare le princi-pali limitazioni delle reti neurali dimostrate da Minsky e Pa-pert nel libro del 1968. Queste si dimostravano effettivamentetali solo per le reti a uno strato interno, come il Perceptronsemplice che abbiamo ricordato, non per le reti non linearia più strati.

La struttura dei«modelli mentali»

Reti neurali ememorie associative

679


Alla metà degli anni Ottanta risale anche la realizzazione digrandi calcolatori ad architettura parallela, con l’obiettivodi superare i limiti dell’elaborazione seriale dell’informazio-ne tipica dei calcolatori con architettura alla von Neumann:la connection machine di David Hillis ne è l’esempio più no-to. Calcolatori di questo tipo, come quelli del progetto APEguidato dal fisico Nicola Cabibbo, hanno conosciuto diverseapplicazioni nel mondo della ricerca.

L’Intelligenza Artificiale e gli enigmi della menteLe nuove reti neurali di Hopfield, diventate oggetto di studiodei fisici, si sono ritrovate nella famiglia dei sistemi dinami-ci complessi, primi tra tutti i vetri di spin, attualmente unodegli argomenti di punta della fisica. Inoltre, esse hanno co-nosciuto diverse applicazioni in problemi di ottimizzazionenella teoria della complessità computazionale. Nel clima diuna rinnovata attenzione verso le neuroscienze, il libro delgruppo PDP sollevò invece reazioni di euforia soprattutto nelmondo degli psicologi cognitivi e dei filosofi, provocando trai primi diverse conversioni al connessionismo e tra i secon-di una ripresa del materialismo riduzionista, tradizionale av-versario filosofico del funzionalismo.

I filosofi sostenitori del materialismo riduzionista, comeHerbert Feigl, J.C. Smart, D.M. Armstrong, avevano propo-sto tra gli anni Cinquanta e Sessanta la teoria dell’identitàmente-cervello, stando alla quale uno stato mentale deve es-sere identificato con lo stato cerebrale corrispondente. Cri-tiche a questa teoria furono sollevate soprattutto dopo la pub-blicazione, nel 1960, dell’influente articolo di Putnam Men-ti e macchine. Il fatto che gli stati interni di una macchinadi Turing potevano essere implementati su hardware diver-si aveva suggerito a Putnam che anche gli stati mentali po-tevano essere realizzati in sistemi fisici diversi, non solo or-ganici, come il cervello, ma anche inorganici, come un cer-to hardware di un calcolatore. Pertanto non aveva senso iden-tificare stati mentali con stati cerebrali, e i predicati psico-logici potevano essere compresi rifacendosi non alla loro rea-lizzazione o instanziazione fisica, che poteva essere di voltain volta differente, ma alla loro organizzazione funzionale co-mune, cioè alle loro interazioni reciproche. Era questa, in sin-tesi, l’ipotesi del funzionalismo ispirato alla macchina di Tu-ring. Essa era coerente con l’idea affermatasi con gli svilup-

I grandi computerad architetturaparallela

La teoriadell’identità mente-cervello

680


pi della scienza dei calcolatori e della prima IA, secondo cuii processi dell’intelligenza possono essere studiati al livellodel programma (della manipolazione di simboli), astraendodalla natura specifica della struttura osservabile al livello fi-sico. Tuttavia, il funzionalismo che è diventato la filosofia po-polare tra i ricercatori di IA e poi di scienza cognitiva ha avu-to una sua evoluzione, e a volte esso è noto come funziona-lismo computazionale.

Un contributo importante in questa direzione è stato quel-lo di Newell (1980-82). Riprendendo l’ipotesi del sistemafisico di simboli, egli introdusse un terzo livello di descri-zione di un sistema artificiale, il livello della conoscenza, checollocò sopra i due tradizionali livelli teorizzati dall’IA, quel-lo fisico (o dello hardware) e quello del programma (o dei sim-boli). Il riconoscimento del livello della conoscenza nella

Una correntedell’IntelligenzaArtificiale teorizza chevi sia una separazionetra stati mentali e staticerebrali, ovvero tramente e cervello.

681


gerarchia dei livelli di descrizione di un sistema costituiva l’e-splicitazione di una pratica comune tra i ricercatori di IA:quella di descrivere un sistema artificiale come un agente ra-zionale, che elabora conoscenze per pianificare azioni in vi-sta del raggiungimento di certi scopi o obiettivi. L’individua-zione di questo livello non ha niente a che vedere con le di-storsioni provocate dall’abuso di tale pratica denunciate daMcDermott (1976).

Come abbiamo visto, era stata la cibernetica a introdurreil linguaggio psicologico nella descrizione del comportamentodi certi artefatti. Daniel Dennett (1942) aveva ripreso que-sta idea già sviluppata dalla filosofia della mente di matricecibernetica, in particolare da MacKay, per dare una sua so-luzione al problema dell’intenzionalità. Con la propostadell’«atteggiamento intenzionale», egli ritenne di poter su-perare la tesi del filosofo Franz Brentano sull’incompatibili-tà tra spiegazione meccanicista, che riguarda il mondo fisico,e spiegazione intenzionale, che riguarda esclusivamente lasfera del mentale. L’atteggiamento intenzionale, in altri ter-mini la scelta di un osservatore esterno di descrivere un si-stema come intenzionale mediante il linguaggio psicologicoo «mentalistico», è per Dennett legittimo, anzi indispensa-bile, per controllare e prevedere il comportamento di sisteminon solo naturali o organici, come gli esseri umani o gli ani-mali, ma anche fisici o artificiali, come un calcolatore o unrobot. Per esempio, quando si gioca a scacchi con un calco-latore, è scontato assumere l’atteggiamento intenzionale perprevedere le sue mosse, e infatti si dice che esso ha un cer-to «piano», o che ha lo «scopo» o l’«intenzione» di battere l’av-versario e così via.

La proposta di Dennett è diventata molto popolare tra i ri-cercatori di IA e di scienza cognitiva. Lo stesso Newell(1982) ritenne che il livello della conoscenza corrispondesseal livello dell’atteggiamento intenzionale di Dennett: in fon-do, l’una e l’altra nozione dovevano molto alla descrizionedel comportamento razionale data da Simon molti anni pri-ma. Newell, tuttavia, sempre rifacendosi al sistema fisicodi simboli, elaborò una sua proposta sul significato e sul-l’intenzionalità, che si presentava come una sistemazionedella concezione del significato prevalente in IA. Dal suopunto di vista, la manipolazione sintattica (mediante re-gole) delle espressioni simboliche da parte di un sistema ar-tificiale poteva essere considerata semantica in quanto èrappresentazionale, vale a dire che le espressioni si riferi-

Il linguaggio«presentalistico» per l’IntelligenzaArtificiale

La proposta di Newell sul significato

682


scono a eventi del mondo perché, sulla base di regole, ven-gono trasformate nello stesso modo in cui si trasformano glieventi del mondo. Assumendo questa ipotesi come base diquella che Newell definiva la «concezione computaziona-le della mente», la stessa mente era considerata, per ri-prendere un’espressione di Dennett, un «dispositivo sin-tattico» che imita o riproduce il funzionamento di un «di-spositivo semantico».

Nel libro che abbiamo ricordato Pylyshyn presentava il li-vello della conoscenza di Newell proprio come un livello se-mantico, quello dell’attribuzione di significato alle strutturedi simboli, le quali costituiscono il livello sintattico, inter-medio, anche qui, tra quello semantico e quello della rea-lizzazione fisica. Si potrebbe discutere se le tre nozioni diDennett, Newell e Pylyshyn siano effettivamente equivalentisul piano esplicativo. Comunque, è stato Pylyshyn, seguen-do Fodor, a riprendere il funzionalismo computazionale conil proposito di spiegare alcuni enigmi del problema mente-cervello dibattuti dal comportamentismo e dal materialismoriduzionista. In effetti Pylyshyn (1984) tentava la difficile im-presa di conciliare le idee di Fodor con quelle di Newell. Ri-spetto all’atteggiamento intenzionale di Dennett, che è unapura e semplice questione di scelta da parte dell’osservato-re del sistema (naturale o artificiale), l’attribuzione di inten-zionalità al livello semantico di Pylyshyn è giustificata dallacapacità propria del sistema stesso di elaborare strutture disimboli, una capacità che si ritiene tipica delle menti e deiprogrammi. Questo sembra escludere che semplici artefatticome quelli della tradizione cibernetica richiedano neces-sariamente una descrizione intenzionale.

Per esempio, come può uno «scopo» o una «intenzione»,appartenenti secondo Brentano alla sfera del mentale, es-sere causa di un evento fisico, come un’azione (o una suc-cessione di azioni) diretta a conseguirli? Se si pensa allamente come al «dispositivo sintattico» che abbiamo ricor-dato, il calcolatore suggerisce come questo sia possibile:in questo caso, è la forma fisica delle rappresentazioni, inquanto strutture di simboli fisicamente realizzate o instan-ziate, non il significato o il contenuto intenzionale delle rap-presentazioni stesse, a svolgere il ruolo causale del com-portamento. Il contenuto di una rappresentazione potreb-be anche non esistere (l’obiettivo della ricerca del SantoGraal, poniamo), e tuttavia la forma o struttura della rap-presentazione potrebbe svolgere il ruolo causale richiesto.

La mente come«dispositivosintattico»

Il funzionalismocomputazionale

683


Nel caso della mente, le strutture di simboli devono ipo-tizzarsi instanziate nel cervello. L’accusa di dualismo (diseparare il mentale dal fisico) mossa qualche volta a questotipo di funzionalismo è ingiustificata, dal momento che, co-me si vede, esso vuole tentare una soluzione materialista, manon riduzionista, del ruolo causale degli stati mentali.

Piuttosto, senza essere dualista, il funzionalismo compu-tazionale della maggior parte dell’IA non considera crucialela natura biologica della struttura fisica nella quale si realiz-zano gli stati mentali. È questa tesi, insieme a quella del ruo-lo causale dei simboli per l’intenzionalità, che è stata ogget-to di critiche diverse. John Searle (1932) ha sostenuto cheil ruolo causale delle rappresentazioni simboliche è un puroartificio, dal momento che l’intenzionalità manifestata da unprogramma è «derivata» dal cervello del suo artefice (del pro-grammatore), l’unico in grado di avere intenzionalità «origi-naria». Questa tesi è stata tra le più discusse in IA come inscienza cognitiva.

Il filosofo John Lucas aveva comunque sollevato già neglianni Sessanta obiezioni al meccanicismo ispirato alla mac-china di Turing, le quali possono essere ricondotte alla tesidell’incapacità delle macchine di manipolare la semantica edi manifestare «vera» (o «originaria») intenzionalità. La tesidi Lucas (ispirata ai teoremi sull’incompletezza di Gödel) è

Un momento di unapartita a scacchi trauomo e computer.L’essere umano,quando si confrontacon una macchina, èportato naturalmentead attribuirlecomportamentiintenzionali, quasi che il confronto fossecon un altro uomo.

684


stata ripresa dal fisico Penrose (1989). Un’altra critica alla fi-losofia dell’IA e della scienza cognitiva, ormai definite «clas-siche» o «simboliche», è venuta dalla ripresa del materiali-smo riduzionista. Come si è accennato, essa si è verificatain sintonia con il rinnovato interesse per le neuroscienze sol-lecitato dal connessionismo. Neurophilosophy, il libro di Pa-tricia Smith Churchland (1943), si proponeva di confutarela versione del funzionalismo computazionale ritenuta più ra-dicale, quella di Pylyshyn. A giudizio della Churchland, la tri-partizione dei livelli di spiegazione (semantico o della cono-scenza, simbolico e fisico) è una semplificazione inaccetta-bile, basata su una «distinzione monolitica» tra struttura efunzione: in realtà, il loro numero non può essere astratta-mente delimitato in anticipo, data la molteplicità dei livelliindividuati dalla ricerca effettiva delle neuroscienze. Inoltre,la comprensione della struttura biologica (del cervello) puòsuggerire, e di fatto suggerisce, teorie dell’organizzazione fun-zionale. Infine, è solo un dogma che le rappresentazioni deb-bano avere una forma simbolica per poter ricoprire l’asseri-to ruolo causale nell’intenzionalità. La «neuroscienza com-putazionale» di Churchland e Sejnowski (The Computatio-nal Brain, 1992) fa sua questa posizione critica.

Pylyshyn, d’altra parte, al Convegno della Cognitive Scien-ce Society del 1984 si era trovato a scontrarsi con Hintone Rumelhart nel corso di un simposio dedicato a Connes-

Il neurologo TerenceSejnowski è considerato unpioniere nel campo dellaneuroscienzacomputazionale. Sejnowski utilizza ilcomputer per elaborare sularga scala i dati ottenutistudiando le connessioninervose in modo dariprodurre elettronicamente ilfunzionamento delle cellulenervose umane.

Le critiche alfunzionalismocomputazionale

685


sionismo o regole, che sancì la spaccatura tra i sostenitori del-l’approccio connessionista e di quello «simbolico» dellascienza cognitiva e dell’IA. Con Fodor, Pylyshyn firmò poiun lungo saggio in cui si argomentava che le reti neurali nonsono in grado di riprodurre le caratteristiche fondamentalidei processi inferenziali, e vanno viste semplicemente comeuna possibile architettura astratta sulla quale poter imple-mentare i sistemi simbolici ad architettura classica o alla vonNeumann. Questa tesi, sulla quale quasi non c’è stato ri-cercatore che non abbia trovato il modo di pronunciarsi, èrestata un punto di riferimento delle principali critiche alconnessionismo. Una rassegna parziale della disputa è da-ta da Bechtel e Abrahamsen (Connectionism and the Mind,1991), che introducono anche i principali argomenti dellafilosofia della mente di ispirazione connessionista.

Passi diversi verso l’Intelligenza ArtificialeSiamo alla fine degli anni Ottanta: il mondo della ricerca sul-la mente e sulle macchine si presenta quanto mai diviso.Per darne un’idea, sceglieremo alcuni eventi che hanno ca-ratterizzato lo scorcio di quel decennio, e permettono di ren-dersi conto dei principali orientamenti della ricerca fino ainostri giorni.

Nel 1987, al workshop sui fondamenti della IA che si svol-ge presso il MIT, si confrontano le tendenze più influenti del-l’IA, attraverso una serie di relazioni e controrelazioni moltoaccese. La rivista «Artificial Intelligence» le pubblicava nel1991, e David Kirsh, in Foundation of Artificial Intelligence(1991), riassumeva efficacemente in cinque punti le assun-zioni generali sulle quali si erano confrontati e divisi i par-tecipanti al workshop. Essi erano: 1) la centralità delle re-gole e della rappresentazione della conoscenza; 2) il disem-bodiment, ovvero lo studio della cognizione astraendo dallapercezione e dal controllo motorio; 3) il carattere linguisti-co (in primo luogo logico-matematico) della descrizione del-l’attività cognitiva; 4) lo studio dell’attività cognitiva astraen-do dall’apprendimento, dallo sviluppo cognitivo e dai cam-biamenti evolutivi; 5) l’unicità dell’architettura per l’intera co-gnizione.

Secondo Kirsh, tra i diversi partecipanti al workshop, i lo-gicisti, interessati alle teorie formali del buon senso e dellecredenze, accettano le prime quattro assunzioni, che inve-ce sono respinte dai connessionisti; gli uni e gli altri restano

Le divisioni tra i ricercatoridell’IntelligenzaArtificiale

686


comunque neutrali sulla quinta assunzione. L’unicità del-l’architettura è portata in primo piano dal gruppo di SOAR,insieme alla centralità dell’apprendimento nello studio del-la cognizione. Questi due punti non costituiscono invece lepremesse del progetto CYC. Altri programmi di ricerca pos-sono ritrovarsi in qualcuna o nessuna delle cinque assun-zioni: per esempio, la cosiddetta «IA distribuita», ripropo-sta al workshop da Hewitt e Les Gasser da punti di vista di-versi, o la robotica di Rodney Brooks.

L’IA distribuita, nata ufficialmente al Convegno americanoa essa dedicato nel 1980, ha alle spalle l’evoluzione dei si-stemi a blackboard, una base di dati condivisa da diversi mo-duli cooperanti deputati a conoscenze specialistiche. HER-SAY II, progettato negli anni Settanta alla Carnegie-Melloncome sistema per il riconoscimento del parlato, è conside-rato tutt’ora uno degli esempi meglio riusciti di questo generedi architetture, sperimentate anche in alcuni sistemi esper-ti. L’IA distribuita ha insistito sull’aspetto cooperativo dellagestione della conoscenza, ma anche sulla dimensione so-ciale della conoscenza e dell’azione, punti importanti quan-to trascurati dalla ricerca precedente. Al workshop, Gasserdiscuteva l’effettiva novità della proposta di Hewitt, il qualedava una formulazione dell’IA distribuita che si rifaceva aisuoi «sistemi aperti», così detti perché, al fine di tener testa

Alcuni deicomponenti dello staff di studiosi chepartecipa al progettoCYC sull’IntelligenzaArtificiale: scopo del progetto è costruireuna base diconoscenza universaleper dotare i computerdi senso comune.

687


alle informazioni parziali di cui dispongono, devono coope-rare collettivamente anche attraverso l’applicazione di di-versi criteri e strategie di soluzione di problemi.

Da parte sua, Brooks, con lo slogan «conoscenza senza rap-presentazione», riassumeva al workshop la filosofia implici-ta nei nuovi robot da lui costruiti al MIT. L’obiettivo polemicodello slogan di Brooks era l’approccio detto «dall’alto» alla ro-botica, quello che privilegia le capacità deliberative (ragio-namento, pianificazione) e la rappresentazione della cono-scenza, mettendo in secondo piano l’integrazione di questecapacità con le diverse modalità senso-motorie. L’approc-cio dall’alto aveva suggerito a molti ricercatori di IA che il pro-blema dell’interazione di un robot con l’ambiente reale po-teva essere risolto quando si fosse trovato il modo di fornir-gli un adeguato modello del mondo. In altri termini, si trat-tava di studiare anzitutto come rappresentare in un pro-gramma le conoscenze che avrebbero messo in grado il robot,controllato da quel programma, di fare inferenze e di piani-ficare le proprie azioni in un ambiente reale. Abbiamo vistocome tale approccio si imbattesse nelle difficoltà testimo-niate dalle modeste prestazioni di robot come Shakey, la co-struzione dei quali non aveva conosciuto mai veri progressi.

L’«architettura della sussunzione» proposta da Brooks peri suoi robot si candidava esplicitamente come un’alternati-

Rodney Brooks,direttore dellaboratorio diIntelligenza Artificialedel MIT, con uno deisuoi robot «Genghis»sulla schiena.

688


va a questo tipo di robotica. Questa architettura ha permessodi costruire robot mobili che manifestano comportamenti«autonomi»: essi hanno buone doti di robustezza, essendocapaci di reagire efficacemente a situazioni non previste onon prevedibili, e sono in grado di farlo in tempo reale, sen-za cioè che sia necessaria una complessa attività di pianifi-cazione delle risposte. Nell’architettura della sussunzione,l’agente è visto come composto da livelli o moduli di con-trollo funzionalmente distinti ma interconnessi, che agisco-no senza la supervisione di un sistema di controllo e di pia-nificazione dell’azione basato su un modello del mondo. Inquesto caso un livello o modulo di controllo di basso livel-lo, relativo a un comportamento reattivo (e dunque funzio-nante attraverso continue retroazioni o feedback con l’am-biente), è interconnesso con un modulo di un livello più al-to, che controlla un comportamento più complesso, in mo-do tale che un modulo può attivare o inibire un altro modulo.Per esempio Allen, il capostipite di questa generazione di«creature», come Brooks chiamava i suoi semplici robot, èin grado di continuare a evitare persone e ostacoli diversi (uncompito di livello basso, essenzialmente reattivo) mentre va-ga nell’ambiente e lo fa per raggiungere un obiettivo asse-gnatogli (dunque un compito di un livello più alto). Brooksha chiamato questo approccio «scomposizione del compor-tamento», per distinguerlo dalla «scomposizione funziona-le» proposta dalla robotica alla Shakey, consistente nel se-parare i ruoli della percezione, della pianificazione e dell’a-zione. Non è dunque un «modello del mondo» a guidarel’azione del robot: questo, piuttosto, per dirla con Brooks,«usa il mondo come proprio modello», confrontando con-tinuamente ogni singolo obiettivo con la situazione del mon-do reale.

Tra gli approcci allo studio dell’intelligenza presentati alworkshop, quello di Brooks era il più radicale: esso respin-geva tutte le cinque assunzioni elencate da Kirsh. Il quale sol-levava a Brooks un problema che si pone quasi spontanea-mente: quanta (che tipo di) intelligenza è possibile riprodurresenza rappresentazioni simboliche, senza capacità di piani-ficazione e deliberative?

Torneremo brevemente in seguito su questo interrogativo.Intanto, dobbiamo osservare che se allo scorcio degli anni Ot-tanta l’IA appare non meno divisa del solito su quasi tutti iproblemi fondamentali, i sostenitori dell’asserito «paradigmaconnessionista» si trovano a dover fare i conti in quegli stes-

L’architettura della sussunzione e i robot «autonomi»

Il paradigmaconnessionista

689


si anni con i postumi della consueta ebbrezza che ha pun-tualmente accompagnato i cosiddetti cambiamenti di para-digma nella storia della costruzione di macchine intelligenti.Come ai tempi del Perceptron, i modelli connessionisti con-tinuano a dare il meglio di sé nella riproduzione di attività ele-mentari, come pattern recognition, classificazione, appren-dimento per associazione, e poco o nulla di importante rea-lizzano nella riproduzione di attività cognitive «alte», comeil ragionamento basato su inferenze.

Nel 1989 si svolge presso la New Mexico State Universityun workshop sui modelli connessionisti di alto livello, il pri-mo serio tentativo di fare i conti con i limiti del connessio-nismo, ridiscutendone i fondamenti attraverso un confron-to finalmente non polemico con il «paradigma simbolico»,come viene ormai chiamato l’approccio dell’IA tradizionale.Un possibile vademecum dei pregi e dei limiti dei due ap-procci venne stilato da Michael Dyer, e si può dire che essoconserva tutt’ora una sua validità (nella tabella alla paginasuccessiva essi corrispondono, rispettivamente, ai «+» e ai«–»). Le proposte di una loro integrazione reciproca, in cer-ti casi sotto forma di sistemi connessionistico-simbolici det-ti «ibridi», furono in quell’occasione le più diverse, e tende-vano ad accentuare il ruolo giocato in positivo dall’uno o dal-

Uno dei robot«Genghis» di RodneyBrooks posto sopra uninsetto vero. SecondoBrooks, piuttosto cheimitare l’uomo, i robotdovrebbero cominciareimitando gli insetti, ed essere, usandoparole sue, «veloci,economici e fuoricontrollo».

690


l’altro dei due approcci. Tali proposte hanno avuto l’ambi-zione di suggerire nuovi modelli cognitivi, e anche di affron-tare il problema del symbol grounding, come lo psicologo Ste-van Harnad ha definito la questione di come «ancorare» i sim-boli agli aspetti della percezione del mondo. Esse vanno dun-que distinte da altre proposte di sistemi pure classificabili co-me ibridi, ma con obiettivi di tipo più applicativo: in questicasi si associa una rete neurale a un sistema esperto per ri-durre la scarsa robustezza delle prestazioni di quest’ultimo inpresenza di dati incompleti.

Se questi approcci ibridi tentavano di affrontare il proble-ma dei limiti del connessionismo nei confronti di capacitàcognitive superiori, in quegli stessi anni una nuova discipli-na suscita tra i critici dell’IA tradizionale – «classica» o «sim-bolica» che dir si voglia – la speranza di riuscire a indagare sualtri aspetti trascurati anche dal connessionismo, questa vol-ta tra quelli non cognitivi: lo sviluppo e l’evoluzione biologi-ca, per esempio, considerati nel quadro dell’interazione di-namica tra sistema e ambiente. Si tratta della Vita Artificia-le. Il nome è stato proposto da Cristopher Langton, il qualepromuove nel 1987 a Los Angeles il workshop interdiscipli-nare sulla sintesi e la simulazione dei sistemi viventi, che

Simbolico Subsimbolico/Distribuito Capacità

– + integrazione della conoscenza– + variazioni graduali– + rappresentazioni intermedie– + memoria ricostruttiva– + autorganizzazione– + reperimento associativo– + robustezza– + inferenza associativa– + apprendimento adattativo+ – variabili e valori+ – schemi e ruoli+ – struttura ricorsiva+ – capacità generativa infinita+ – default ed ereditarietà+ – instanziazioni (tipi-occorrenze)+ – riferimento/puntatori+ – gestione della memoria+ – comunicazione tra compiti+ – metaragionamento+ – apprendimento su spiegazione+ – controllo sequenziale complesso

Nel 1989 MichaelDyer ha stilato latabella riportata quisopra, da cui emerge un nuovo paradigmarelativo allo studiodell’IA, dettosubsimbolico/distribuito.Nel paradigmasimbolico il contesto di un simbolo (ad esempio il contestodel simbolo: birra) si mostra attorno a esso e consiste di altri simboli (boccale);nel paradigmasubsimbolico il contestodi un simbolo si mostradentro di esso e consistedi subsimboli (liquidodorato e spumoso a contatto con vetro).

LA TABELLA DI MICHAEL DYER

691


L’OMEOSTATO

Il concetto di omeostasi (introdotto in fisiolo-gia da Cannon) è la condizione in cui le va-riabili interne di un sistema organico sonomantenute costantemente entro limiti fisio-logici, nonostante le influenze perturbanti, me-diante forme di regolazione biologica. In par-ticolare, con stabilità s’intende la proprietà chepermette a un sistema di tornare al proprio sta-to originario dopo un disturbo o perturbazio-ne; la perturbazione è intesa come ogni va-riabile i cui cambiamenti non possono esse-re predetti dall’osservatore mediante associa-zioni funzionali note.

L’«equilibrio omeostatico» (o «ultrastabili-tà», secondo Ashby) è poi un’estensione del-

l’omeostasi in cui vengono modificati i per-corsi stessi di retroazione (esistono cioè cir-cuiti di retroazione secondari, di livello supe-riore, atti a determinare quelli primari in ba-se a informazioni sulle condizioni di instabi-lità) finché si ottiene la regolazione desidera-ta. Un tale dispositivo è anche detto «mac-china di Ashby» e può essere rappresentatoda un automa finito non deterministico.

William Ross Ashby, uno dei maggiori studiosi di cibernetica. Il suo progetto di omeostato(detto anche macchina di Ashby) è stato uno dei più significativi nello sviluppo dei modelli matematici in cibernetica.

692


oltre a lanciare la Vita Artificiale rilanciava una parola d’or-dine dei tempi della cibernetica, con gli anni un po’ appan-nata: interdisciplinare. Nella sua premessa al workshop (Ar-tificial Life, 1989) Langton vedeva nel «comportamentoemergente» l’idea chiave della Vita Artificiale: essa si pro-pone di ricostruire artificialmente le proprietà dell’organiz-zazione dei sistemi viventi a partire dalla riproduzione delleinterazioni locali che sono alla base del loro comportamento.

La Vita Artificiale è diventata un terreno di incontro di ri-cercatori con interessi anche molto eterogeni, dalla simula-zione dell’evoluzione biologica, agli automi cellulari e in ge-nerale all’Animat, come Stewart Wilson ha chiamato tanto lasimulazione in ambienti virtuali quanto la realizzazione in am-bienti reali di creature artificiali, delle quali i «veicoli» diValentino Braitenberg e, andando indietro nel tempo, le tar-tarughe cibernetiche di Grey Walter sono considerati i pre-cursori.

Come l’approccio della nuova robotica, anche quello del-la Vita Artificiale è stato definito «dal basso», perché en-trambi, sia pure da punti di vista diversi, hanno posto al cen-tro dell’attenzione lo studio dei meccanismi più elementa-ri o primari dell’interazione tra il sistema (organismo o Ani-mat che sia) e ambiente. In realtà, in entrambi i casi siste-ma e ambiente vengono considerati come le componenti diun unico insieme: una concezione, questa, che ha trovatol’approdo più coerente e generale nella teoria dei sistemi di-namici, sostenuta in particolare da Tim van Gelder. Unadelle tesi che caratterizzano questo approccio è che il mec-canismo essenzialmente denotazionale delle rappresenta-

Schema sequenzialeelaborato da CristopherLangton e da luichiamato «VitaArtificiale». Questeimmagini mostranocome si possanoricostruire in manieraartificiale i processi diriproduzione dei sistemiviventi: dall’organismosingolo (in alto asinistra) si formaun’intera colonia (in basso a destra)attraverso una continuaespansione.

L’approccio dal basso della Vita Artificiale

693


zioni, tipico dei modelli computazionali classici, non è ingrado di cogliere la complessità delle relazioni reciprochetra sistema e ambiente: il ruolo decisivo è giocato in que-sto caso dalla matematica che descrive l’evoluzione dei si-stemi complessi. Prototipo elementare dei sistemi dinami-ci è una macchina cibernetica già ricordata, che in effettipuò essere considerata il precursore di tali sistemi, l’omeo-stato di Ashby. Dovrebbe essere una macchina del genere adetronizzare la macchina di Turing dal ruolo di modellogenerale della cognizione.

Convergenti con gli approcci che abbiamo ricordato si so-no dimostrati gli sviluppi nel campo della Visione Artifi-ciale dopo Marr, quelli della Visione Animata. Quest’ulti-ma ha tratto ispirazione dalla concezione «ecologica» del-la percezione visiva sostenuta dallo psicologo James J. Gib-son, che aveva insistito sull’assimilazione diretta, ovvero nonmediata da rappresentazioni, dell’informazione provenien-te dal mondo da parte dell’organismo. Come abbiamo visto,era stato proprio Marr a contestare l’approccio dall’alto del-l’IA alla percezione visiva, nel momento in cui egli portavain primo piano i meccanismi della visione primaria. Marrnon metteva però in discussione l’ipotesi computazionale-rappresentazionale, respingendo su questa base le tesi an-tirappresentazionaliste di Gibson. L’approccio di Marr, ba-sato sull’idea che la ricostruzione tridimensionale della sce-na (a partire da immagini bidimensionali elaborate dalla vi-sione primaria) fosse l’approdo finale del processo visivo,è apparso carente. Dana Ballard concludeva che con Marrci si era limitati allo studio di sistemi di visione statici e pas-sivi, senza considerare gli aspetti attivi della percezione vi-siva. Secondo Ballard, occorreva tener conto di questi aspet-ti, che stanno alla base della stretta relazione che l’agenteintrattiene con il mondo, e se di un tipo di rappresentazio-ni bisogna parlare, allora si tratta rappresentazioni «perso-nali», ovvero situate in contesti e relative all’interesse del-l’osservatore. Sono gli obiettivi di quest’ultimo a orientareil processo visivo.

Un’altra linea di ricerca di lunga tradizione che viene tal-volta ricondotta agli approcci dal basso è rappresentata da-gli algoritmi genetici. Abbiamo lasciato John Holland ai tem-pi della sua collaborazione con Rochester negli anni Cin-quanta, quando i due simulavano su calcolatore la teoria del-l’apprendimento di Hebb. Trasferitosi successivamente al-l’Università del Michigan, Holland maturò l’idea degli algo-

Il progetto dellaVisione Animata

Gli algoritmi genetici

694


ritmi genetici nella prima metà degli anni Sessanta, influen-zato tra l’altro dal libro del biologo evoluzionista R.A. Fis-her, Genetic Theory of Natural Selection. La sintesi delle sueidee confluì nel volume pubblicato nel 1975 Adaptation inNatural and Artificial Systems. Da quel momento, per circaun decennio, gli algoritmi genetici furono oggetto di nume-rose ricerche rimaste ai margini della comunità dell’IA, so-prattutto tesi di dottorato di studenti di Holland e relazionia convegni informali, spesso neppure pubblicate. Il rinato in-teresse nei loro confronti negli anni di cui ci occupiamo si de-ve certo al diffondersi del parallelismo e dello studio dei si-stemi dinamici complessi, ma anche a sviluppi interessantiche ne hanno segnato l’evoluzione più recente, per esempionello studio dello sviluppo prebiotico.

Gli algoritmi genetici rappresentano un modello fortementeidealizzato dei processi della selezione naturale. Essi par-tono generando a caso una popolazione di stringhe, corri-spondenti ai genotipi dell’evoluzione naturale, ciascuna del-le quali rappresenta una possibile soluzione a un dato pro-blema. Tale popolazione viene fatta evolvere mediante l’ap-plicazione di operatori basati su criteri di ricombinazione chesimulano i processi genetici dell’evoluzione naturale. In que-sto modo da stringhe «genitrici» se ne generano altre, cherappresentano nuove soluzioni per il problema, possibil-mente migliori.

Successivamente, gli algoritmi genetici sono stati inseritinei «sistemi a classificatori», veri e propri sistemi di appren-dimento automatico, nei quali Holland ha ripreso alcune in-tuizioni contenute nel vecchio programma per la dama di Sa-

John Holland, uno dei più convinti sostenitoridell’importanza delle ricerche sugli algoritmi genetici nel campo dell’IntelligenzaArtificiale.

Gli algoritmi e i processi diselezione naturale

695


muel. Il diagramma di flusso di un sistema a classificatori èquello rappresentato qui sotto. Si associa a ogni regola del si-stema, codificata come una regola di produzione, una certa«forza», che corrisponde alla sua già sperimentata utilità perla soluzione di un problema. A ogni ciclo, i «rilevatori» ag-giungono dall’ambiente stringhe nella «lista dei messaggi»,codificati come stringhe di un alfabeto binario, che vengo-no confrontate con la parte condizioni della «lista delle re-gole». Le regole le cui condizioni risultano soddisfatte atti-vano la parte azione e vengono messe in competizione traloro da un algoritmo che ne può variare la forza, a secondadell’utilità complessiva per l’adattamento del sistema all’am-biente. A questo punto interviene l’algoritmo genetico, cheseleziona le regole di forza più elevata per prenderle come ge-nitrici e genera una «prole» di nuove regole. Vengono così eli-minate le regole più deboli, e ne vengono create di nuove esempre potenzialmente migliori.

rilevatori

ambiente

effettori

algoritmo Bucket Bigade(varia la forza delle regole)

algoritmo genetico(genera nuove regole)

▼

▼

▼

▼▼

▼

messaggiin uscita

messaggiin ingresso

listadei messaggi

listadelle regole

confronto

Diagramma di flussodi un sistema aclassificatori.

La «nuova IA»Alla fine del Novecento, l’IA si avvia a compiere i cinquan-t’anni di storia. All’IA classica o simbolica se ne affianca or-mai un’altra, cosiddetta «nuova», che comprende gli svilup-pi delle tendenze dell’IA che abbiamo visto emergere (o ri-emergere) dalla crescente diversificazione della ricerca tra glianni Ottanta e Novanta: dalle reti neurali ai sistemi dina-mici, dalla Vita Artificiale agli algoritmi genetici, dalla robo-tica alla Brooks alla Visione Animata. Il volume di Pfeifer eScheier Understanding Intelligence (1999) sintetizza moltobene la filosofia di questa nuova IA.

Se il connessionismo, con la sua critica al funzionalismocomputazionale, sembrava aver richiamato l’attenzione diricercatori di IA e scienza cognitiva sul «cervello», adesso èla volta del «corpo»: la nuova IA prende dunque una nettaposizione, in particolare, sul secondo punto proposto da Kirshal workshop del 1987, il disembodiment, presentandosi sen-za riserve come embodied o «situata» (i due termini vengo-no spesso usati nello stesso contesto).

Da un lato la lezione di neurologi come Antonio Dama-sio, che insistono sul ruolo primario delle componenti emo-tive nell’attività cognitiva, sembra portare acqua al mulinodell’embodiment, dall’altro un filosofo come Dreyfus, che dasempre aveva insistito sul carattere situato della cognizio-ne e sulla centralità del corpo, diventa l’alleato dell’IA nuo-va contro quella vecchia, classica o simbolica, già detta GO-FAI (un acronimo di John Haugeland: Good Old FashionedArtificial Intelligence). Quest’ultima viene identificata conil funzionalismo computazionale e ritenuta coinvolta nel dua-lismo mente-corpo di cartesiana memoria (nella versionesoftware-hardware). Piuttosto che discutere la plausibilitàdi queste contrapposizioni (qualcosa diremo nel paragrafoconclusivo), vediamo alcuni dei principali esiti della ricer-ca di questa nuova IA.

Forse la robotica, dopo l’impulso datole da Brooks, ne co-stituisce l’area più interessante e promettente. Ma va ri-cordato che la robotica alla Brooks si è trovata a dover af-frontare presto problemi non facili. Uno di questi riguar-da il sistema di controllo in robot basati sull’architettura del-la sussunzione. Come sappiamo, l’idea della sussunzioneè di assegnare a ogni comportamento un modulo di con-trollo. Ma la progettazione di un’architettura del generesconta la crescita esponenziale della difficoltà di integrare

696


L’IA «situata»

La nuova robotica

697


Un aspetto che la ricercasull’IntelligenzaArtificiale non puòignorare è il ruolofondamentale giocatodalle componentiemotive nei processicognitivi; su questoaspetto ha a lungoinsistito il neurologoAntonio Damasio,vincitore del premio«Principe delleAsturie» 2005.

efficacemente i moduli man mano che questi vengono a es-sere aggiunti per ottenere prestazioni più complesse del ro-bot. E i successi dei primi robot possono spiegarsi con la re-lativa semplicità delle loro prestazioni. Da difficoltà di que-sto tipo è partita la robotica evolutiva, che ha usato gli al-goritmi genetici come procedura automatica per sviluppa-re in modo evolutivo il sistema di controllo di un robot, si-mulato o reale, nel corso della sua interazione con l’am-biente esterno (in questo caso i moduli di controllo stan-no per i genotipi).

Progettazione evolutiva basata su metodi ispirati agli al-goritmi genetici e fabbricazione automatica di robot sonoalla base di un approccio, tra Vita Artificiale e nuova robo-tica, ispirato da Jordan Pollack. Si tratta questa volta di farprogettare a un programma per calcolatore, sulla base di ele-menti di partenza elementari (come leve e giunti, ma anchereti neurali), diverse generazioni di semplici robot mobili,facendole «evolvere» in un ambiente virtuale in modo daeliminare progressivamente i progetti meno efficienti e mi-gliorando quelli meglio adattati all’ambiente (in termini dimaggiore capacità locomotorie). Questi sono infine realiz-zati automaticamente.

L’autonomia, obiettivo della nuova robotica, viene dunqueestesa dal livello del comportamento a quelli della proget-tazione e della fabbricazione. In prospettiva, si tratta di co-

698


Lo scienziato Jordan Pollack ha messo a punto, insieme a Hod Lipson, un programma automatico per la progettazione e la costruzione di robot: il risultato è una creatura semovente, capace diutilizzare pochi strumenti semplici come sbarre di plastica, giunti sferici, piccoli motori, e dotata di una rete neurale che funge da cervello.

699


struire robot riducendo al minimo l’intervento dell’uomo,un obiettivo con potenziali applicazioni di vasta portata.

Tornando a Brooks, bisogna aggiungere che lo stesso pano-rama delle ricerche condotte al di fuori della robotica da lui ispi-rata si è molto evoluto e diversificato dall’epoca dell’approc-cio dall’alto degli anni Settanta. Da tempo nessuno (grazie an-che alla lezione di Brooks) ha più in mente di costruire robotbasati sulla netta distinzione tra componente percettiva e com-ponente deliberativa e sul predomino della pianificazione cen-tralizzata. Già alcune ricerche di robotica indipendenti daBrooks avevano sperimentato sistemi di rappresentazione del-la conoscenza «ibridi». In questo caso, rappresentazioni ana-logiche (del genere dei modelli mentali di Johnson-Laird) sup-plivano certe rigidità delle rappresentazioni simboliche nei pro-cessi di pianificazione di robot in ambienti simulati o reali (si-stemi «ibridi» di rappresentazione della conoscenza sono sta-ti descritti da Nebel in Reasoning and Revision in Hybrid Re-presentation Systems, 1990). Una rassegna di Bonasso e Dean(A Retrospective of the AAAI Robot Competitions, 1997), chepartiva dall’esame di architetture robotiche alla Shakey, davaefficacemente la sensazione dell’estrema varietà dei metodi spe-rimentati dalla ricerca robotica, sia per gli aspetti relativi al con-trollo, sia per quelli concernenti la natura delle componentireattive, di quelle deliberative e della loro possibile integra-zione reciproca, sia, infine, per quanto riguarda il ruolo svoltodal tipo di rappresentazione della conoscenza usato. Le stes-se competizioni tra squadre di robot giocatori nelle RoboCup(immagine qui sotto) hanno cominciato ben presto a costitui-re uno straordinario laboratorio di sperimentazione e innova-

I sistemi ibridi dirappresentazionedella conoscenza

La squadra italiana dirobot calciatori ART,seconda classificatanel torneo diRoboCup diStoccolma nel 1999.

700


zione, dando anche un nuovo impulso allo studio dell’intera-zione cooperativa tra agenti e ai sistemi multi-agente. È cosìche al simposio della American Association for the Artificial In-telligence del 1998 viene proposto un Manifesto della roboti-ca cognitiva basato sull’idea di robot «ibridi», dove con il ter-mine questa volta si indicano architetture in grado di manife-stare robustezza e azione in tempo reale e di usare sistemi dipianificazione e rappresentazione della conoscenza.

In effetti, uno sguardo all’evoluzione della ricerca dopo gli an-ni Ottanta mostra come la nuova robotica abbia dovuto fare iconti con lo slogan radicale di Brooks («intelligenza senza rap-presentazione») e con la già ricordata difficoltà sollevata daKirsh: quella di sviluppare le capacità dei robot da un livellomeramente reattivo a un livello in cui sopravvenissero attivitàpiù complesse di interazione con l’ambiente, come qualche for-ma di pianificazione, di ragionamento, di apprendimento. Lostesso Brooks è tornato successivamente su questa difficoltà,proponendo un nuovo slogan («intelligenza senza ragione» inIntelligence without Reason, 1995) contro l’asserito razionali-smo («cartesiano») dell’IA, ma con una precisazione di non po-co conto per quanto riguarda le rappresentazioni, che, se con-frontata con le sue iniziali affermazioni, sembra quasi un ri-pensamento. La sua originaria critica alle rappresentazioni, eglisostiene, era diretta contro le rappresentazioni come le con-cepivano l’IA e la robotica classiche, non contro le rappresen-tazioni come «modelli parziali del mondo», cioè «relative al par-ticolare compito per il quale [esse] sono usate», come egli siesprime alludendo alle prestazioni dei nuovi robot.

In prospettiva, le implicazioni di queste conclusioni sem-brano rilevanti su due fronti. In primo luogo, per la nuova ro-botica con vocazione etologica, interessata alla costruzionedi modelli di animali più o meno semplici, modelli che in-cludono diverse restrizioni comportamentali, neurologiche ein generale biologiche («neuroetologia computazionale» è ilnome scelto da alcuni suoi iniziatori, per distinguersi dallamenzionata «neuroscienza computazionale» di Churchlande Sejnowski, 1992). In secondo luogo, per la robotica uma-noide, sulla quale si è concentrata l’attenzione di diversi ri-cercatori, dall’Europa al Giappone agli Stati Uniti. Qui sem-pre Brooks e il suo Humanoid Research Group (in partico-lare con il progetto «Macchine socializzabili») hanno avvia-to la sperimentazione di robot antropomorfi.

Rispetto ai robot mobili precedenti, i robot umanoidi so-no concepiti per essere in grado di interagire ed eventual-

I robot cheinteragiscono con l’ambiente

Il progetto«Macchinesocializzabili»

701


mente cooperare con gli esseri umani, anche in attività di vi-ta quotidiana. Alla robotica si apre in questo caso un inedi-to campo di applicazioni. Uno dei casi più rilevanti quantocontroversi è quello dell’assistenza da parte di robot uma-noidi (o con capacità umanoidi) a disabili e anziani: un pro-blema, per ragioni sociali evidenti, avvertito in diversi paesi.

I robot umanoidi hanno posto il problema di come dotarlidi una morfologia somigliante a quella degli esseri umani, inmodo da facilitare la comunicazione reciproca. Si tratta, peresempio, di dar loro capacità di mimica facciale e capacitàdi manifestare emozioni, come sorpresa o spavento o ap-provazione, aspetti notoriamente rilevanti nell’interazionesociale. Costruito integrando conoscenze provenienti da teo-rie diverse, dalla psicologia sociale e dello sviluppo alle neu-roscienze, il robot Kismet, è in grado di imparare a manife-stare sia semplici ma adeguate espressioni facciali sia ele-mentari convenzioni sociali, che lo portano per esempio aseguire i gesti e la mimica facciale dell’interlocutore umano,manifestando un’espressione di perplessità se quest’ultimocompie, poniamo, azioni con velocità eccessiva. Coerenticon gli obiettivi di questa robotica si sono mostrati gli sviluppi

Kismet, il robotumanoide creatodall’esperta in roboticaCynthia Breazeal:questo robot, dotato di notevoli capacità di apprendimento, è in grado di interagireintuitivamente conl’interlocutore.

702


L’immunologo statunitense Gerald Edelman (premio Nobel per la medicina nel 1972), elaborando la teoria della selezione dei gruppi nervosi, ha trasferito i concetti sviluppati nell’ambito delle suericerche sul sistema immunitario e quello dello sviluppo del cervello.

703


successivi alla Visione Animata. L’importanza dell’azione intempo reale nella prestazione dei robot trova un corrispetti-vo nell’elaborazione di architetture della percezione visivasensibili allo stesso problema. È confermata l’idea della Vi-sione Animata sulla necessità di ridimensionare l’idea dellavisione come dettagliata ricostruzione tridimensionale delmondo, a favore di un meccanismo che consenta interazio-ni rapide e adattative con l’ambiente. A questo scopo si ri-velano utili anche architetture distribuite, come avviene peresempio nel robot Kismet, in grado di elaborare in tempo rea-le trenta fotogrammi al secondo.

Alla filosofia della nuova IA è approdato anche un altro pro-getto di ricerca simulativa che, partito negli anni Ottanta, èstato da subito critico nei confronti dell’IA simbolica ma an-che del connessionismo: la «modellistica neurale sintetica»di Gerald Edelman. Con diversi collaboratori egli aveva giàcostruito automi a reti neurali simulati capaci di integrare al-cune modalità sensoriali. L’aspetto «complicato» degli au-tomi di Edelman rispetto alle reti neurali più comuni è do-vuto al suo interesse per la plausibilità biologica della simu-lazione. Per esempio, l’automa simulato Darwin III, che haun «occhio» mobile e un «braccio» con quattro articolazioni,comprende ben 50.000 «neuroni» di cinquanta tipi diversi,collegati attraverso circa 620.000 collegamenti sinaptici. Unaversione di Darwin III è diventata il «cervello» di un robotmobile, NOMAD, collegato con esso via radio.

Gli automi di Edelman incorporano i principi del «darwini-smo neurale», la sua teoria secondo la quale l’epigenesi e l’ap-prendimento sono il risultato di un processo evoluzionistico diselezione di gruppi diversi di neuroni durante lo sviluppo del-l’organismo e la sua interazione con l’ambiente. Le macchinesono da lui considerate un controllo di questa teoria, e anchela base di un progetto più ambizioso: quello di arrivare per gra-di, attraverso la costruzione di artefatti di complessità e reali-smo crescenti, a svelare gli enigmi di alcune forme di coscienza.Il darwinismo neurale, per quanto suggerito a Edelman dallasua originale esperienza di immunologo, si inserisce nella sto-ria dei tentativi selezionisti di spiegazione dell’apprendimento.Tanto l’assunto del modello come controllo di ipotesi teori-che quanto quello di rendere il modello sempre più adeguatoai fini della riproduzione di fenomeni organici complessi so-no scelte metodologiche che Edelman condivide con strategiesimulative anche molto diverse dalla sua, delle quali la nostraricognizione ha fornito vari esempi.

La modellisticaneurale sintetica di Edelman

Il «darwinismoneurale» degliautomi di Edelman

704


Per concludere, e continuareHolland ha concluso che i sistemi a classificatori, visti co-me modelli cognitivi, si collocano in una «regione interme-dia» tra i sistemi connessionisti e quelli simbolici. Al paridei sistemi connessionisti, essi insistono sulla microstruttu-ra e sull’emergenza di computazioni complesse a partire daprocessi semplici; tuttavia, le loro unità fondamentali sono leregole di produzione, e dunque in essi la conoscenza non siriduce a una questione di forza delle connessioni. Alcune ten-denze della Visione Artificiale si sono trovate a seguire unastrada che «condivide parte dei due approcci», quello sim-bolico e quello connessionista. Il cosiddetto connessionismo

Il mondo del web èuno dei settori piùimportanti per lefuture ricerchenell’ambitodell’IntelligenzaArtificiale, la cuiesplorazione avrà lemaggiori ricadutenella nostra vitaquotidiana.

705


di alto livello ha tentato a sua volta di seguire una strada delgenere. E sono numerosi i tentativi di esplorare un «terrenointermedio della simulazione cognitiva» simbolico-connes-sionista.

Anche nel campo della nuova IA non mancano posizioniin questa stessa direzione. Verchure (1993) ha potuto con-cludere che in futuro l’approccio di Edelman e quello diSOAR «potrebbero essere usati per introdurre restrizioni re-ciproche». Thornton (1997) ha sostenuto un approccio «ibri-do» nel quale le esigenze evolutive poste dalla Vita Artificia-le e quelle rappresentazionali dell’IA classica si intergrano re-ciprocamente con successo. Goodale e Humphrey (1998)hanno sottolineato la vocazione «duplice» della nuova Vi-

706


sione Artificiale, nella quale l’approccio alla Marr risulta com-plementare a quello alla Gibson nella rispettiva enfasi suaspetti diversi della percezione visiva. Dell’approccio «ibri-do» in robotica abbiamo già detto, mentre non manca di es-sere discussa l’asserita incompatibilità tra spiegazione clas-sica e spiegazione dinamicista della cognizione.

È possibile che la futura ricerca in IA, anche per quanto ri-guarda i modelli cognitivi, avrà ancora molto da dire sugliesperimenti che consistono nell’integrare o contaminare di-versi approcci nello studio delle macchine intelligenti. Na-turalmente, questo non chiude lo spazio ad altri tipi di espe-rienze: da quelle puramente logico-linguistiche alle reti neu-rali nei campi più disparati, per esempio nella neuroscien-za cognitiva, ai sistemi multi-agente. Alcune di queste espe-rienze hanno dato luogo in anni recenti a un nuovo, vastocampo di applicazioni: quello che va dai sistemi ipertestua-li al web semantico e in generale all’esplorazione del mon-do del web.

Sarebbe dunque auspicabile evitare di fare dell’IA vecchiae nuova altrettanti paradigmi contrapposti con vocazione im-perialista, con l’unico risultato di ripetere antichi errori. Sem-bra andare in questa direzione la sbrigativa liquidazione del-l’IA classica come GOFAI quale premessa di valutazioni ul-traottimistiche della nuova IA [in questo caso non si può nonessere d’accordo con Sloman (2002): chi polemizza con l’IAclassica in termini di GOFAI normalmente non conosce lastoria e lo stato effettivo della ricerca], che inducono a cari-care sulle spalle della Vita Artificiale o di certa robotica l’in-tero fardello della riproduzione dello sviluppo fino all’intel-ligenza «alta». La sensazione di già visto è irresistibile: ancorauna volta, per usare le parole con le quali Brian C. Smith ri-assumeva sarcasticamente la storia dell’IA, ecco «la convin-zione che con un semplice meccanismo si possano realizza-re cose straordinarie, data a sufficienza una risorsa di qual-che tipo, come tempo, informazione, esperienza, capacitàdi calcolo».

La questione dei paradigmi è comunque interessante e me-rita un cenno. A insistere sulla contrapposizione del loro para-digma «subsimbolico» con quello «simbolico» dell’IA sonostati soprattutto i connessionisti degli anni Ottanta, con unaterminologia resa canonica da Paul Smolensky. In un primomomento è sembrato di assistere agli effetti di una sorta ditrauma: Rosenblatt aveva ragione, il libro di Minsky e Pa-pert aveva ingiustamente cancellato le reti neurali dal mon-

Modelli cognitivi e web semantico

La questione dei paradigmi

707


do della ricerca. Forse il ruolo dei due è stato alquanto so-pravvalutato. È vero che dopo la pubblicazione del libro diMinsky e Papert, nel 1969, ci fu un drastico ridimensiona-mento quando non un arresto nei finanziamenti della ricer-ca sulle reti neurali, in particolare, si direbbe, negli Stati Uni-ti. Lo stesso Papert (1988) ha raccontato la storiella delle «duesorelle», l’IA e le reti neurali, che convissero pacificamentefinché la DARPA non fece la sua scelta per l’IA (successi-vamente, comunque, anche l’altra sorella è rientrata nelle gra-zie della DARPA). Forse anche la morte improvvisa di Ro-senblatt, certo un propagandista delle sue idee non menospregiudicato dei suoi antagonisti, influì sugli esiti della vi-

Diagramma del percorso diun’informazione in una rete neuraleutilizzata inun’applicazioneinformatica.

708


Il continuo rapporto con i computer e i meccanismi più avanzati ha abituato le nuove generazioni a un nuovo tipo di approccio con la tecnologia, considerata un elemento imprescindibile e costante della vita quotidiana.

709


cenda. Tuttavia, come abbiamo ricordato, gli studi sulle retineurali furono portati avanti da diversi ricercatori, anche sein un clima di isolamento. Proprio come avvenne poi nellapiù esigua comunità degli algoritmi genetici, i cui risultati,considerati i successivi sviluppi in settori diversi, sembranoattualmente più influenti di quelli raggiunti dal connessio-nismo degli anni Ottanta. Come scrivevano alla fine di que-gli anni Anderson e Rosenfeld (1988): «Le nostre reti, dopotrent’anni di progressi, funzionano ancora come “cervelli le-sionati” [incapaci di comportamento simbolico, secondo l’e-spressione dello stesso Rosenblatt]. Resta aperta la questio-ne di quali severe modifiche apportare alla teoria delle retineurali affinché riescano a raggiungere le funzioni cogniti-ve superiori». Il connessionismo di alto livello non è stato cheun tentativo di affrontare proprio questo problema, che vaben al di là della rinascita delle reti con la backpropagationo delle scelte da matrigna della DARPA, e che resta un pro-blema tuttora non risolto in generale.

Da parte sua, James McClelland ha dichiarato recente-mente di non credere che l’evento decisivo per l’arresto del-la ricerca sulle reti neurali sia stato il libro di Minsky e Pa-pert. Tenendo conto del fatto che la ricerca sulle reti si fasimulandole su calcolatore, semplicemente «non si era pron-ti per la ricerca sulle reti neurali. [...] La potenza di calcolodei [calcolatori dei] primi anni Sessanta era del tutto insuf-ficiente». Per quanto ovvio, sarà bene ricordare che questi li-miti delle prestazioni dei calcolatori sono gli stessi che han-no condizionato lo sviluppo e non poche scelte dell’IA sim-bolica. A puro titolo d’esempio, si pensi alla scelta a favoredel «paradigma» della conoscenza rispetto al precedente«paradigma» della ricerca euristica sui problemi giocattolo,un scelta che si è posta solo quando si è cominciato a disporredi calcolatori con grandi memorie e una grande potenza dicalcolo. Ha raccontato Simon che a orientare la ricerca delsuo gruppo verso compiti nei quali non era richiesta moltaconoscenza (i problemi giocattolo) fu inizialmente anche lamancanza di tali calcolatori: che la conoscenza fosse impor-tante per l’intelligenza era noto, ma non era ancora possibi-le affrontarla sulle macchine. Resta il fatto che le capacitàdei primi calcolatori incoraggiavano la sperimentazione di eu-ristiche deboli su problemi giocattolo, in quel momento con-siderati la vera Drosophila dell’IA. È lì che parve possibile ten-tare di affrontare l’esplosione combinatoria, ed è lì che siebbero i primi decisivi successi. Anche se, visti retrospetti-

Un problema aperto:reti neurali efunzioni cognitivesuperiori

IA e potenza di calcolo

710


vamente, questi possono apparire poco significativi, per l’e-poca erano innegabilmente tali da incoraggiare certe scelte(e anche certe illusioni) piuttosto che certe altre: per la «ma-nipolazione euristica di simboli» invece che per l’«imitazio-ne del cervello» o per la «rappresentazione della conoscen-za». Nessuna linea di ricerca viene spazzata via da un libro senon è già debole per conto suo.

Un caso molto diverso da quello delle reti neurali, che tut-tavia può suggerire qualche riflessione, è quello della tradu-zione automatica. La ricerca era in un vicolo cieco, e i fi-nanziamenti furono interrotti nella metà degli anni Sessan-ta. Ma, come si è visto, fu possibile riprenderla qualche an-no dopo, quando si individuò una strada più promettente peraffrontarla, che portò a ricollegare la traduzione automaticaai nuovi studi sul linguaggio naturale. Anche qui, fu lo svi-

La comunicazione fra uomo e computerin un’illustrazioned’artista. La possibilitàdi colloquiaredirettamente con icomputer nel propriolinguaggio abituale è uno dei passifondamentali sulla via della realizzazionedell’IntelligenzaArtificiale.

711


luppo della potenza dei calcolatori che contribuì in modo de-cisivo a rendere quella strada praticabile, rendendo anchepossibili le attuali, e di nuovo ben finanziate, applicazioni del-la traduzione automatica in settori diversi, certo ridimensio-nate rispetto agli ambiziosi progetti iniziali.

Prima della contrapposizione simbolico-subsimbolico, odi quella più recente simbolico-situato, ci è capitato di im-batterci in altre contrapposizioni tra paradigmi, questa volta,lo abbiamo accennato, lungo la storia dell’IA simbolica. Divolta in volta ci è stato detto che erano contrapposti, solo percitare i casi più inflazionati, il paradigma della ricerca euri-stica e quello della conoscenza; quello logicista e quello an-tilogicista; quello dichiarativista e quello proceduralista; quel-lo individuale e quello distribuito o cooperativo. Ma è evi-dente che nessuno di questi può essere riconosciuto come

712


un paradigma in senso tecnico, cioè secondo l’interpretazio-ne sancita da Thomas Kuhn. Piuttosto, ciascuno di essi ri-assume la parola d’ordine di indirizzi di ricerca diversi e an-che rivali, in una storia come quella dell’IA in cui si sono in-traprese e poi abbandonate le strade più diverse, salvo poiriprenderne qualcuna a distanza di tempo; in cui non c’è maistata vera unanimità sullo stesso oggetto di studio: la menteumana o quella artificiale? («questa [che si studia in IA] è in-telligenza artificiale», diceva McCarthy in proposito); in cuipoteva risultare «offensivo», come concludeva Hayes (1984),persino tentare di definire l’IA, «dal momento che qualsiasidefinizione tende a escludere qualcuno, e a nessuno piacesentirsi dire che non sta lavorando nella disciplina in cui pen-sa di lavorare» (si ricordi la definizione della Information Pro-cessing Psychology di Newell e Simon come «la disciplinache usa metodi estranei alla psicologia cognitiva per tratta-re questioni estranee alla IA»).

Non è certo, questa, la descrizione di una scienza «matu-ra», cumulativa (Dreyfus vedeva nell’assenza di cumulativi-tà il germe del suo fallimento), ma è quella che risulta dallanostra ricostruzione. Ma va anche detto che certe contrap-posizioni tra «paradigmi» non sono state avvertite sempre e

Fin dagli anniCinquanta gli studisul linguaggio sonostati fondamentali peraffinare le capacità ditraduzione automaticadei computer: nellafoto il presidentedell’IBM Thomas J. Watson, a destra,mentre esaminainsieme a duecollaboratori latraduzione dal russoall’inglese fatta da uncomputer (1954).

713


ovunque con la stessa asprezza: di quella tra dichiarativistie proceduralisti, osservava McDermott (1976), alla Carne-gie-Mellon non si sono preoccupati, e non ne hanno risen-tito affatto. In questo tumultuoso panorama, l’evento dell’e-marginazione e poi della ripresa delle reti neurali, o di certarobotica di ispirazione cibernetica, non appare in fondo co-sì sconcertante come è stato troppe volte descritto. E il fat-to che in tanti casi sia possibile accostare esperienze di di-versa ispirazione «in una regione intermedia» sembra con-fermarlo, e rende un esercizio retorico la loro collocazionein paradigmi contrapposti. [ROBERTO CORDESCHI]

La ricerca di una «regioneintermedia» tra levarie tendenze

L’Intelligenza Artificiale - educational.rai.it · blema dell’IA consiste in primo luogo nel...

Documents

Transcript of L’Intelligenza Artificiale - educational.rai.it · blema dell’IA consiste in primo luogo nel...