Psicologia della percezione - UniBG · Il costruttivismo - È «l’approio lassio dominante alla...

50
Psicologia della percezione (filosofia della mente-II)

Transcript of Psicologia della percezione - UniBG · Il costruttivismo - È «l’approio lassio dominante alla...

Psicologia della percezione

(filosofia della mente-II)

Il costruttivismo

- È «l’approccio classico dominante alla teoria della visione» (Palmer 1999)- La percezione visiva è un processo attivo- L’esperienza visiva è l’esito di un complesso processo di “ri-costruzione” del mondo a partire dallo stimolo visivo e dalla conoscenza di cui i soggetti già dispongono.- La conoscenza è in parte innata in parte appresa.

Il costruttivismo

A seconda di come si caratterizza il processo di ricostruzione, abbiamo diverse versioni di costruttivismo.- Helmholtz: i processi percettivi sono inferenze inconsce. - Gregory/Rock: i processi percettivi sono ragionamenti induttivi (inferenze alla miglior spiegazione)- teoria computazionale (Marr): i processi percettivi sono algoritmi

L’argomento della sottodeterminazione dello stimolo

Oggetti (tridimensionali) diversi possono avere proiezioni bidimensionali identiche: un’immagine (2-D) è compatibile con più interpretazioni 3-D.

È necessario imporre dei vincoli sul processo percettivo per selezionare, tra le diverse “interpretazioni” possibili dell’immagine retinica, quella giusta: lo stimolo deve essere integrato dal sistema visivo.I vincoli sono incorporati nella conoscenza già

disponibile al cervello (innata o appresa che essa sia).

Esempi di vincoli al processo visivo

– Normalmente gli oggetti non sono visti dal basso

– La luce proviene dall’alto

– 5 punti sulla superficie di uno stesso oggetto su due immagini differenti sono sufficienti a stabilirne l’orientamento

– se si conosce l’orientamento di alcuni punti (superficie liscia e opaca), si può stabilire la forma

– …

Critiche al costruttivismo

È sbagliato identificare lo stimolo con la sola immagine retinica, tanto più se considerata staticamente (Gibson visione ecologica)

La tesi secondo cui i processi visivi sono inferenze alla miglior spiegazione è contraddetta da taluni casi di completamento visivo: ciò che si vede non corrisponde all’ipotesi più probabile/plausibile (Kanizsa 1980)

Le teorie costruttivistiche incorrono nella fallacia dell’homunculus (Gibson, Pylyshyn, cfr. Calabi 2009)

Completamento amodale

Leggi della Gestalt

- Vicinanza (o prossimità)- Somiglianza- Buona continuazione (allineamento)- Chiusura- Destino comune- Buona forma

Vicinanza e somiglianza

Fallacia dell’homunculus?

Se i processi percettivi sono veri e propri ragionamenti (inferenze alla miglior spiegazione), tali ragionamenti devono basarsi su premesse interpretate (= a cui è stato assegnato un significato). Ma chi è l’interprete?Non possiamo essere noi perché non abbiamo consapevolezza alcuna di eseguire tali ragionamenti; ma non può nemmeno essere il cervello.

Replica: i processi visivi sono descrivibili come inferenze alla spiegazione migliore. È come-se fossero inferenze, ma, “in realtà”, sono realizzati da meccanismi ciechi al significato.

La teoria computazionale (Marr 1982)

La visione è un insieme di processi computazionali. Il processo visivo è ri-costruttivo, ma la ricostruzione è (in larga parte) a carico di sistemi specializzati automatici (i “moduli”) che hanno accesso esclusivamente a informazioni “proprietarie” innate di cui non siamo consapevoli. Il processo visivo è (in larga parte) bottom-up, cioè innescato dallo stimolo e non guidato da scopi o aspettative. Gli unici effetti top-down sono quelli attentivi, anche questi automatici (Pylyshyn 2003) -c’è un’attenzione consapevole ed una inconsapevole.

La teoria computazionale (Marr 1982)

I tre livelli di spiegazione:

1) Livello della teoria computazionale: che cosa fa il sistema visivo e quali sono i suoi componenti funzionali.

2) Livello degli algoritmi e rappresentazioni: con quali programmi il sistema visivo esegue la sua funzione e in che modo codifica –rappresenta– le informazioni pertinenti.

3) Livello dell’implementazione: in che modo il cervello realizza programmi e rappresentazioni specificati a livello 2.

La teoria computazionale (Marr 1982)

La teoria della visione è un caso paradigmatico di funzionalismo computazionale. Il carattere astratto delle computazioni lo rende un tipo di funzionalismo; ma l’importanza accordata al livello implementativo dimostra che non si tratta di un funzionalismo antibiologico. Il livello più importante è il primo (teoria computazionale): se ci sbagliamo su che cosa fa il sistema (nella fattispecie) visivo, capiremo ben poco del fenomeno oggetto di studio:«realizzare un meccanismo (per es. un programma) capace di prestazioni analoghe a quelle di un agente umano impegnato in un processo cognitivo non costituisce di per sé una spiegazione di quel processo se non è presente una descrizione di alto livello dei vincoli che qualsiasi meccanismo deve soddisfare se deve essere considerato una realizzazione di quel processo cognitivo.» (Marraffa & Paternoster 2011)

La teoria computazionale (Marr 1982)

Funzione del sistema visivo: Riconoscimento degli oggetti presenti nel campo visivo sulla base della loro forma:Vedere un O come una certa forma geometrica.

Argomento: dati neuropsicologici (Warrington & Taylor). Dissociazioni tra la capacità di identificare la forma di un oggetto e la capacità di fare uso dell’oggetto (oggi questi dati sono stati reinterpretati e in parte corretti).

Dissociazioni riconoscimento/uso (Warrington & Taylor)

I pazienti con lesioni (parietali) nell’emisfero destro erano in grado di riconoscere l’oggetto solo se visto da una prospettiva standard, convenzionale; per esempio, riconoscevano un secchio solo se visto di fronte, non se visto dall’alto. Nella prospettiva convenzionale il paziente era in grado di fare un’elaborazione “semantica” completa dell’oggetto: era in grado di denominarlo, di spiegarne la funzione e le modalità d’uso ecc.; nella prospettiva non convenzionale, l’elaborazione semantica non poteva neanche partire perché il paziente non sapeva letteralmente ricondurre l’oggetto a una classe nota, e negava che l’oggetto fosse ciò che di fatto era. I pazienti con lesioni parietali sinistre, benché esibissero gravi disturbi linguistici, incluse l’incapacità di denominare l’oggetto e l’incapacità di spiegarne uso e scopo, erano invece in grado di riconoscere la geometria dell’oggetto anche in una varietà di prospettive non convenzionali, inclusi punti di vista fortemente anomali, e ciò anche in condizioni di illuminazione precarie.

La teoria computazionale (Marr 1982)

Vedere = identificare oggetti sulla base della loro forma (individuare una forma 3-D nell’ambiente e ricondurla a una categoria visivo-spaziale).

Lo scopo della visione è «costruire a partire dalle immagini [retiniche] una descrizione di forma e posizione delle cose» (Marr 1982, p. 36)

Input del sistema visivo: stimolo esterno Input del modulo della visione propriamente detto:

immagine retinicaOutput del modulo della visione: descrizione strutturale

della porzione di mondo che rientra nel campo visivo.

Input del processo visivo: l’occhio

• Obiettivo: raccogliere la luce dagli oggetti nella scena e creare un’immagine a 2-D.

• l’occhio umano e del robot

– un foro (o una lente) che focalizza la luce da più punti della scena su un singolo punto della retina

– un sistema di elementi fotosensibili che converte la configurazione di luce in impulsi elettrici (codice simbolico)

Output del processo visivo

Rappresentazione simbolica del mondo tridimensionale che guidi il comportamento. Codifica:

- la posizione dell’agente rispetto agli altri oggetti della scena e la posizione relativa degli oggetti

- i colori, le forme, la disposizione delle superfici

- (nel caso di un sistema che si muove) la rappresentazione dinamica della scena

La visione costruisce un modello del mondo a partire dalle configurazioni di luce sulla retina.

Livelli multipli di elaborazione e rappresentazione

Rappresentazione iniziale: immagini retiniche

Primo livello di elaborazione Schizzo primario

Secondo livello di elaborazione Schizzo 2½ -D

Terzo livello di elaborazione Modello 3-D

Livello 1 + livello 2 = visione primaria

Livello 3 = visione di alto livello

Immagini retiniche

Matrici di “livelli di grigio”, cioè tabelle di pixel a ciascuno dei quali è associato un valore numerico che ne codifica l’intensità luminosa.

La funzione L(x,y) che associa ad ogni pixel il suo valore di intensità luminosa si chiama funzione di luminanza.

Rappresentazioni primarie(costruite dal livello 1)

• Informazioni sui cambi significativi di intensità luminosa e sui contorni (di oggetti)– localizzazione

– contrasto

– precisione

• Corrispondono a caratteristiche fisiche– estremità degli oggetti e contorni delle tessiture

– particolari sulle superfici e limiti delle ombre

• Per scene che cambiano dinamicamente …– direzione e velocità di movimento dei cambi di

intensità

Rappresentazioni intermedie(costruite dal livello 2)

• Informazioni sulla forma 3-D degli oggetti dal punto di vista dell’osservatore

– orientamento di piccole superfici

– distanza dai punti delle superfici dall’osservatore

• Per scene dinamiche …

– movimento delle superfici in 3 direzioni

Rappresentazioni di alto livello(costruite dal livello 3 o pre-memorizzate)

• Forme 3-D e orientamento in relazione a un sistema di coordinate indipendente dall’osservatore (punto di vista)

– sistema basato sull’oggetto stesso

– sistema basato su una locazione fissata nel mondo

Livello 1

Input: immagine retinica

Output: schizzo primario (= distribuzione spaziale di primitive di basso livello)

Metodo: zero-crossing

Primitive: angoli, parti di contorni, macchie, configurazioni geometriche elementari potenzialmente significative

Schizzo primario grezzo schizzo primario ricco

Applicazione ricorsiva di tecniche di risoluzione dell’immagine

Grado di conferma empirica: (abbastanza) buono

Zero-crossing

Algoritmo che evidenzia le zone a più alta discontinuità della funzione di luminanza (= differenze molto elevate di luminanza).

Dove ci sono discontinuità di luminanza più forti, è probabile che passi un contorno

(ma anche un’ombra…)

È un operatore matematico che consiste nel calcolare la derivata seconda della funzione di luminanza (che è una funzione di due variabili).

Livello 1

Livello 1

Livello 2

Input: schizzo primarioOutput: schizzo a due dimensioni e mezzo (2½-D)Metodi: profondità da disparità binoculare, shape from

shading, shape from motion, … ( vedi invarianti di Gibson)

Primitive: vettori-profondità e vettori-orientamento Lo schizzo 2½ D è una rappresentazione delle superfici

dell’oggetto centrata sull’osservatore (view-dependent)

Grado di conferma empirica: grossolano

Schizzo 2½-D

Livello 3

Input: schizzo 2½-D

Output: descrizione strutturale (3-D) dell’oggetto

Metodo: ricerca di sottografi in un grafo

Una descrizione strutturale è un grafo in cui i nodi corrispondono a parti significative dell’oggetto e gli archi a relazioni spaziali tra le parti.

(es. tavolo = superficie, gamba1, gamba2, gamba3)

Grado di conferma empirica: pressoché nullo (“speculazione computazionale”)

Modelli 3-D

Modelli 3-D: analisi ricorsiva

Critiche alla teoria computazionale

- I modelli 3-D non servono. Si possono riconoscere oggetti esclusivamente sulla base di diverse immagini 2-D (da diverse prospettive)

- Il riconoscimento non è il compito principale della visione

- In molti casi non è necessario costruire un modello “ricco” del mondo per agire con efficacia

- La percezione non è solo una funzione cerebrale ma dell’intero organismo

- La teoria computazionale è una versione di teoria del dato sensoriale

Marr: conclusioni

- Grande potenza teorica- Sottolineatura eccessiva della visione orientata

al riconoscimento- Sottovalutazione del movimento (ma vedi

Ullman 1979) - Sottovalutazione del riconoscimento in 2D?- Fondamentale come paradigma; superato nei

dettagli.

Gibson: la visione ecologica

- Il sistema visivo è stato progettato dall’evoluzione per risolvere problemi significativi biologicamente

- Gli esperimenti in laboratorio, quindi, sono fuorvianti: costringono l’osservatore in una situazione insolita (condizioni statiche, mancanza di informazioni adeguate, scenari inverosimili, devianti dalle situazioni ecologiche)

- La percezione (visiva) è una relazione tra un intero organismo e l’ambiente

- Lo scopo primario della visione è il controllo del movimento ( azione efficace)

Gibson: la visione ecologica

- Lo stimolo non è l’immagine retinica, ma la variazione della struttura di luce riflessa nel punto di osservazione (“assetto ottico ambiente”)

- Nella struttura della luce riflessa c’è tutta l’informazione necessaria: le variazioni dell’assetto ottico ambiente determinate dai movimenti veicolano l’informazione

- Il movimento è eseguito dagli occhi, dalla testa e dall’intero corpo

- La percezione (visiva) è una relazione diretta di un organismo (preso nella sua interezza) col mondo

Gibson: la funzione del sistema visivo

Estrarre dall’assetto ottico ambiente il lay-out ambientale, cioè la disposizione di superfici presenti nella porzione di ambiente visibile.

Il lay-out è specificato dagli invarianti, proprietà visive di ordine superiore.

Il sistema visivo è capace di estrarre dall’assetto ottico ambiente gli invarianti, perché è “sintonizzato” su di essi.

Gli invarianti

Sono proprietà visive che restano costanti al variare delle immagini retiniche.

Esempi:- Horizon ratio (rapporto di orizzonte posizione rispetto all’orizzonte)

- gradiente di tessitura

- flusso ottico in espansione ( parallasse di movimento)

Gli invarianti

Gli invarianti

Invarianti: indizi prospettici

Tessitura = “irregolarità” delle superfici (non sono quasi mai perfettamente lisce).

Gradiente di tessitura = il progressivo infittirsi della tessitura in una particolare direzione indica che la superficie “si allontana” da noi in quella direzione. Quanto più gli elementi sono piccoli e fitti, tanto più la superficie è lontana. Se non c’è gradiente, la superficie è orientata verticalmente di fronte a noi. Il gradiente è massimo se la superficie è parallela alla linea dello sguardo.

Horizon ratio = rapporto tra l’altezza di un oggetto e la sua distanza dalla linea dell’orizzonte gli oggetti più vicini alla linea dell’orizzonte tendono ad apparire più lontani e le loro dimensioni vengono stimate sulla base della distanza dalla linea dell’orizzonte.

Invarianti: indizi cinetici

Parallasse di movimento = quando ci muoviamo in una certa direzione a noi gli oggetti vicini sembrano muoversi rapidamente, quelli lontani lentamente, quelli molto lontani appaiono pressoché fermi.

Flusso ottico in espansione = Il nostro sistema visivo è in grado di calcolare le distanze a cui si trovano i vari oggetti basandosi sulla rapidità con cui sembrano spostarsi quando ci muoviamo.

Le affordances

Sono le “opportunità” o potenzialità offerte dagli oggetti presenti nell’ambiente.

(Bozzi parla di “qualità terziarie”)

Es. una pietra è afferrabile e scagliabile, e con una pietra si può percuotere qualcosa o scalfire una superficie.

Secondo Gibson le affordances si percepiscono immediatamente, anziché essere l’esito di processi di ragionamento/riflessione.

Obiezioni alla visione ecologica

1) Critica alla natura diretta della percezione (Fodor & Pylyshyn 1981):

una stessa stimolazione luminosa può essere originata da diversi assetti nel mondo (es. posso produrre quella stimolazione artificialmente) e, per converso, uno stesso assetto dell’ambiente può dare origine a stimolazioni luminose diverse (è sufficiente interferire sulla luce riflessa o, più semplicemente, è sufficiente … spegnere la luce!)

È indispensabile integrare lo stimolo (fare inferenze o qualcosa di simile)

Replica

- L’argomento è vacuo perché si può riapplicare a qualsiasi stadio dell’elaborazione percettiva il contenuto dell’esperienza percettiva non risulta determinato da nulla

- Nemmeno Gibson nega che ci siano operazioni sulla stimolazione; il punto è che queste operazioni sono eseguite dai sistemi della corteccia visiva: non sono operazioni mentali, psicologiche (Schwartz1994).

problema: che cosa rende mentale uno stato o processo neurofisiologico subcosciente?

Obiezioni alla visione ecologica

2) Gli esperimenti sulle illusioni sono del tutto probanti, perché anche in quelle circostanze il sistema visivo è all’opera.

Replica: sì, ma è all’opera in condizioni “degradate”. Il sistema “sbaglia” perché la stimolazione non contiene informazioni adeguate.

Obiezioni alla visione ecologica

3) Le affordances non si possono recuperare dall’assetto ottico ambiente. La “scagliabilità” di una pietra, ad esempio, non è una proprietà (puramente) visiva.

Replica (approssimativa): percezione e azione non sono separabili. Ci sono rappresentazioni visuomotoriedegli oggetti che integano forma e uso.

4) La risonanza agli invarianti è una mera metafora.Replica: la risonanza agli invarianti è realizzata da certi

sistemi neurofisiologici la cui indagine spetta alle neuroscienze.

problema: che cosa è “psicologico”? Importante far “coevolvere” psicologia e neuroscienza

Il paradigma sensomotorio(o visione enattiva)

- La percezione non è separabile dall’azione

- Competenza (o abilità) sensomotoria = conoscenza di come ci si deve muovere per modificare la stimolazione visiva

- Percepire = esercitare la competenza sensomotoria

- La competenza sensomotoria è una conoscenza tacita e corporea (un “sapere del corpo”)

- Il soggetto della percezione è l’intero organismo, non la sua mente/cervello.

Il paradigma sensomotorio(o visione enattiva)

L’argomento dell’esperienza virtuale:

In diversi casi facciamo esperienza di elementi non presenti nel campo visivo (es. completamento amodale).

L’esperienza virtuale è possibile perché abbiamo la capacità di accedere agli elementi non presenti, facendoli rientrare nel campo visivo.

Conclusioni

Si può integrare la prospettiva computazionale con quella ecologica, prendendo il meglio da ciascuna delle due? È la tendenza della ricerca recente (es. visione-per-l’azione vs. visione-per-la-categorizzazione).

La teoria ecologica è una giustificazione empirica del realismo diretto?