I DISEGNI QUASI-SPERIMENTALI III Modulo... · Un’analoga scarsità di ipotesi rivali si ha nella...

1

Estratto da D.T. Campbell, J.C, Stanley, Disegni sperimentali e quasi-sperimentali per la ricerca

I DISEGNI QUASI-SPERIMENTALI

In numerosi contesti sociali naturali è possibile effettuare la raccolta dei dati ricorrendo a

procedure che si approssimano ad un disegno sperimentale (potendo decidere, ad esempio, quando

compiere l’osservazione e quali soggetti osservare), anche qualora non sia possibile controllare

appieno, come richiederebbe un esperimento vero e proprio, la sequenza degli stimoli sperimentali

(quando effettuare il trattamento e quali soggetti esporre ad esso, tenendo altresì conto della

randomizzazione delle esposizioni). Queste situazioni possono essere definite, nell’insieme, “disegni

quasi-sperimentali”. Uno degli scopi del presente capitolo consiste nel promuovere l’uso dei disegni

quasi-sperimentali e nell’incrementare la capacità di riconoscere i contesti in cui si danno le condizioni

per un loro impiego. Ma, proprio perché tali disegni non permettono un controllo sperimentale

completo, è necessario che il ricercatore conosca quali sono le specifiche variabili di cui il particolare

disegno di ricerca utilizzato non garantisce il controllo.

Il capitolo precedente avrà probabilmente accresciuto le preoccupazioni dello studioso medio

o del potenziale ricercatore alle prese con la progettazione di un esperimento. Ciò è senz’altro positivo

se spinge a mettere a punto e realizzare esperimenti migliori e se conduce ad una maggiore cautela nel

trarre inferenze dai risultati ottenuti. Tuttavia, tali preoccupazioni potrebbero determinare un

indesiderato effetto collaterale se il ricercatore maturasse la convinzione che il controllo sperimentale

è irraggiungibile, essendo così indotto ad abbandonare qualsiasi tentativo in tal senso a favore di

procedure di indagine ancor più informali. Inoltre – e con probabilità persino maggiori – questo

impressionante elenco di fattori di invalidità potrebbe ridurre la volontà di avvalersi dei disegni quasi-

sperimentali, nei quali appare subito evidente la mancanza di un controllo sperimentale completo. Se

così fosse si sarebbe ottenuto il risultato opposto a quello che il presente lavoro si propone di

raggiungere.

Qualsiasi esperimento è imperfetto dal punto di vista dell’interpretazione definitiva dei

risultati raggiunti e del tentativo di collocarlo nell’ambito di una scienza in evoluzione.

L’esplicitazione dei criteri di validità dovrebbe contribuire ad accrescere la consapevolezza del

ricercatore in merito alle imperfezioni residue del disegno adottato, di modo che, con riguardo alle

questioni rilevanti, egli possa prendere atto dell’esistenza di differenti possibili interpretazioni dei dati

raccolti. Naturalmente, è auspicabile che il ricercatore si sforzi di predisporre il miglior esperimento

possibile in rapporto alla situazione, e valuti attentamente quali sono i contesti artificiali e naturali in

cui risultano soddisfatte al meglio le condizioni di controllo. Inoltre, il ricercatore dovrebbe condurre

l’esperimento e procedere all’interpretazione avendo piena cognizione dei punti in merito ai quali i

risultati ottenuti sono ambigui. Tale consapevolezza, pure importante per gli esperimenti in cui si

esercita un controllo “pieno”, risulta essenziale per quanto riguarda i disegni quasi-sperimentali.

Adempiendo a questa finalità generale, analizzeremo, nella sezione che segue, i punti di forza

e di debolezza di alcuni disegni quasi-sperimentali, ciascuno dei quali riteniamo sia meritevole di

adozione qualora non sia possibile ricorrere a disegni migliori.

Alcune osservazioni preliminari sulla teoria della sperimentazione

(…) La scienza, così come altri processi conoscitivi, implica la formulazione di teorie, ipotesi,

modelli, etc., suscettibili di essere accettati o rifiutati sulla base di qualche criterio esterno. La

sperimentazione appartiene a questa seconda fase, alla fase di vaglio, rifiuto e rielaborazione.

Potremmo immaginare un’ecologia della scienza di cui ci occupiamo, nella quale il numero delle

possibili ipotesi positive superi notevolmente il numero delle ipotesi che si dimostreranno alla lunga

compatibili con le nostre osservazioni. Il compito di raccogliere dati che consentano di controllare

una teoria in gran parte coincide, quindi, con il rifiuto delle ipotesi inadeguate. Per portare a termine

tale compito, qualsiasi struttura organizzata di dati osservativi in grado di determinare esiti invalidanti

per la teoria sarà utile, inclusi i disegni quasi-sperimentali, caratterizzati da un’efficacia inferiore

rispetto agli esperimenti propriamente detti.

Ma, ci si potrebbe chiedere, disegni imperfetti di questo tipo non daranno origine a conferme

spurie di teorie inadeguate? Non indirizzeranno nella direzione errata le ricerche che seguiranno? Non

2

riempiranno le riviste con dozzine di studi, apparentemente necessari per sradicare un solo falso

positivo pubblicato con grande rilievo? Certo, si tratta di un grave rischio, che, tuttavia, bisogna

correre. Un rischio della stessa natura, sebbene di grado diverso, è presente negli esperimenti “veri e

propri” che abbiamo definito come Disegni 4, 5 e 6. Essenzialmente, i risultati sperimentali non

“confermano” né “provano” mai una teoria – piuttosto, la teoria accettata è stata sottoposta a controllo

ed è sfuggita alla sconferma. In virtù del fatto che viene spesso utilizzato per indicare la validità

deduttiva, il termine “prova” ha acquisito per la nostra generazione una connotazione impropria, tanto

con riferimento agli usi più consolidati quanto con riferimento alle sue applicazioni a procedure

induttive quali la sperimentazione. I risultati di un esperimento “indagano” non “provano” una teoria.

Un’ipotesi adeguata è quella che è ripetutamente sopravvissuta a tale indagine – tuttavia, essa potrebbe

essere sconfermata in qualsiasi momento da una nuova indagine.

È, oggi, universalmente condivisa l’idea secondo cui l’”ipotesi nulla”, spesso formulata per

convenienza nella forma di una proposizione alla base di un esperimento, non può mai essere

“accettata” in virtù dei dati ottenuti; essa può soltanto essere “rifiutata” o “non rifiutata”. Lo stesso

dicasi delle ipotesi intese in senso più generale – tecnicamente, esse non sono mai “confermate”:

quando, per convenienza, impieghiamo questo termine intendiamo, piuttosto, che l’ipotesi è stata

sottoposta a sconferma e non è stata sconfermata. Questo punto di vista è compatibile con tutte le

filosofie della scienza di stampo humeano, che enfatizzano l’impossibilità di provare per via deduttiva

leggi ottenute per via induttiva. Recentemente, Hanson (1958) e Popper (1959) sono stati

particolarmente espliciti su questo punto. Molti dati raccolti nell’ambito della ricerca

sull’insegnamento hanno un valore minimo o nullo e molte ipotesi sono eccessivamente flessibili, al

punto di non poter essere sconfermate sulla base delle indagini che vengono condotte. Aumentare la

credibilità di queste pseudo-ricerche non fa parte dei nostri desideri. Riteniamo, tuttavia, che i disegni

di ricerca che si analizzeranno nelle pagine seguenti abbiano una capacità di indagine sufficiente per

essere utilizzati nel caso in cui non siano possibili indagini più efficaci.

Se, da una parte, la nozione secondo cui gli esperimenti non “confermano” mai una teoria è

corretta, dall’altra, essa è talmente contraria ai nostri atteggiamenti e alle nostre esperienze di

scienziati da risultare quasi intollerabile. Questa enfasi appare particolarmente inadeguata se si pensa

alle raffinate e sorprendenti conferme rintracciabili nell’ambito della fisica e della chimica, dove è

possibile che, in numerosi punti di misurazione, i dati sperimentali si dispongano perfettamente lungo

la curva complessa prevista dalla teoria. E questa prospettiva diventa fenomenologicamente

inaccettabile per molti di noi quando viene estesa ai risultati induttivi ricavati attraverso la vista. Ad

esempio, è difficile accettare che i tavoli e le sedie che “vediamo” davanti a noi non sono “confermati”

o “provati” dall’evidenza visiva, ma sono “mere” ipotesi sugli oggetti esterni non ancora sconfermate

dalle molteplici investigazioni del sistema visivo. Tale riluttanza contiene un briciolo di verità.

Le numerose ipotesi rivali plausibili, capaci di dar conto dei dati raccolti conferiscono a una teoria

gradi diversi di “conferma”: minore è il numero delle ipotesi rivali residue, maggiore è il grado di

“conferma” della teoria. Presumibilmente, anche per le scienze più avanzate, in qualsiasi stadio del

processo di accumulazione delle prove esistono numerose teorie possibili che sono compatibili con i

dati, in particolare se vengono ammesse tutte le teorie che presuppongono evenienze complesse.

Eppure, è probabile che siano poche o nulle le ipotesi teoriche rivali disponibili a livello pratico o

seriamente proponibili, in grado di competere con teorie “saldamente fondate” e con teorie sottoposte

a controlli approfonditi mediante esperimenti complessi. Questa scarsità rappresenta la controparte

epistemologica della conferma positiva di una teoria, che la sperimentazione sofisticata sembra offrire.

Un’analoga scarsità di ipotesi rivali si ha nella conoscenza fenomenologicamente positiva che la vista

sembra offrire, in contrasto, ad esempio, con la relativa ambiguità della esplorazione tattile dei non

vedenti.

In questa prospettiva, l’elencazione dei fattori di invalidità che i disegni sperimentali

controllano può essere considerata come una esplicitazione di ipotesi, spesso plausibili, rivali rispetto

a quella secondo cui la variabile sperimentale ha avuto un effetto. Nel caso in cui un disegno

sperimentale “controllasse” uno di tali fattori di invalidità, sarebbe annullata semplicemente l’ipotesi

rivale associata al fattore in questione, sebbene, attraverso possibili, complesse coincidenze, essa possa

ancora essere tirata in ballo per spiegare il risultato sperimentale. Le “ipotesi rivali plausibili” che

hanno richiesto il consueto ricorso a speciali gruppi di controllo hanno lo status di leggi empiriche

accettate: gli effetti determinati dalla pratica hanno determinato l’aggiunta di un gruppo di controllo al

3

Disegno 2, così come, in campo medico, la suggestionabilità e lo shock operatorio hanno imposto che

si selezionassero, rispettivamente, il gruppo di controllo placebo e il gruppo di controllo sottoposto ad

una operazione chirurgica simulata. Le ipotesi rivali sono plausibili fin tanto che siamo disposti ad

attribuire loro lo status di leggi empiriche. Interpretando i risultati di un quasi-esperimento in cui

manchi qualche tipo di controllo, si dovrà considerare accuratamente l’ipotesi che vi siano fattori non

controllati in grado di spiegarli. Minore è la plausibilità di questa ipotesi, maggiore risulterà la

“validità” dell’esperimento.

Come è stato sottolineato analizzando il disegno di Solomon a quattro gruppi (Disegno 5),

maggiore è il numero e maggiore è l’indipendenza delle modalità attraverso le quali l’effetto

sperimentale viene controllato, minore sarà il numero e minore sarà la plausibilità di singole ipotesi

rivali invalidanti. Il nostro è un appello alla parsimonia. La “validità” dell’esperimento diventa una

questione riguardante la credibilità relativa delle teorie rivali: l’ipotesi teorica secondo cui X ha

prodotto un effetto versus le ipotesi teoriche della causazione che presuppongono l’azione di fattori

incontrollati diversi da X. Se un’unica ipotesi teorica, secondo cui X ha prodotto un effetto, può essere

introdotta per dar conto di più insiemi di differenze osservate, mentre, in alternativa, bisognerebbe

presumere molti altri effetti separati determinati da variabili incontrollate, un effetto per ciascuna

differenza osservata, allora sembra ragionevole far propria la prima opzione. Gli scienziati fanno

spesso appello a questa modalità di inferenza quando riassumono una letteratura caratterizzata dalla

scarsa presenza di esperimenti perfettamente controllati. Così, Watson (1959, p. 296) ha rilevato che

gli effetti negativi prodotti dalla deprivazione materna sono sostenti da una quantità di evidenze di

diversa natura, la cui specificità varia da uno studio all’altro. Del pari, Glickman (1961), pur rilevando

la presenza di ipotesi rivali plausibili praticamente in tutte le indagini riguardanti uno specifico settore

di studi, ha fatto notare che il processo di consolidamento di una data ipotesi sperimentale risulta

sorprendente proprio perché l’ipotesi rivale plausibile varia da un’indagine all’altra.

(…) Nelle pagine che seguono ci occuperemo in primo luogo degli esperimenti basati su un

solo gruppo. A partire, perlomeno, dal 1920, il disegno sperimentale dominante all’interno della

psicologia e della pedagogia prevede un gruppo di controllo, come, ad esempio, il Disegno 4, il 6 o,

forse ancora più spesso, il Disegno 10, che sarà analizzato più oltre. Nelle scienze sociali e nella

riflessione riguardante le indagini sul campo, i disegni che prevedono un gruppo di controllo

dominano a tal punto la scena da essere considerati dai più sinonimo di “sperimentazione”. Di

conseguenza, è possibile che molti ricercatori rinuncino al tentativo di una sperimentazione in quei

contesti in cui non sono disponibili gruppi di controllo, finendo così con l’ottenere risultati di ricerca

ancor più approssimativi. Esistono, di fatto, molti disegni quasi-sperimentali che risultano applicabili a

singoli gruppi e proficuamente utilizzabili, secondo una logica e un’ interpretazione sperimentali, in

molti contesti in cui non è possibile attuare un disegno che preveda il gruppo di controllo. Spesso, la

collaborazione e l’accesso sperimentale sono possibili all’interno di unità di tipo amministrativo: un

insegnante ha a disposizione la sua classe, il preside di una scuola superiore potrebbe voler effettuare

periodicamente indagini sul morale degli insegnanti e degli studenti, e così via. In questi casi, il

trattamento differenziale dei segmenti interni all’unità (necessario per un esperimento con gruppo di

controllo) potrebbe essere impraticabile per ragioni di carattere strutturale-amministrativo, ovvero,

sebbene attuabile, potrebbe essere giudicato poco desiderabile proprio dal punto di vista dei risultati

dell’indagine, a causa degli effetti reattivi che determinerebbe. In contesti così caratterizzati, si

possono quindi prendere in considerazione disegni sperimentali basati su un solo gruppo.

7. L’ESPERIMENTO BASATO SULLE SERIE TEMPORALI

L’essenza del presente disegno consiste nell’introduzione di una variazione sperimentale

all’interno di un processo periodico di misurazione riguardante un dato gruppo o individuo, gli effetti

della quale sono indicati proprio da una discontinuità dei risultati delle misurazioni effettuate nella

serie temporale considerata. Questo disegno può essere rappresentato graficamente nella seguente

forma:

O1 O2 O3 O4 X O5 O6 O7 O8

Il disegno basato sulle serie temporali ha caratterizzato la maggior parte degli esperimenti

classici condotti nel XIX secolo nell’ambito delle scienze fisiche e della biologia. Ad esempio,

4

consideriamo l’immersione in un bagno di acido nitrico di una barra di ferro il cui peso è rimasto

invariato per molti mesi; e immaginiamo che dopo l’immersione si registri una variazione

decrementale del peso della barra. Nel caso specifico, l’istituzione di un nesso tra l’immersione in

acido nitrico e la susseguente perdita di peso della barra seguirebbe una logica sperimentale di questo

tipo. Certamente, sarebbe possibile costituire dei “gruppi di controllo” rappresentati da barre di ferro

riposte sugli scaffali, il cui peso rimane invariato; tuttavia, la misurazione e la registrazione del peso di

queste barre non sarebbero, di norma, ritenute necessarie né rilevanti. Si comprende, dunque, perché

questo disegno venga spesso giudicato ammissibile nelle scienze di maggior successo, mentre

raramente esso viene annoverato tra i disegni sperimentali validi per le scienze sociali (si vedano,

tuttavia, Maxwell, 1958; Underwood, 1957b, p. 133). Tale differenza di status si basa su fondati

motivi, una considerazione attenta dei quali consentirà di capire meglio a quali condizioni tale disegno

può essere efficacemente impiegato dagli scienziati sociali qualora un controllo sperimentale più

completo sia impossibile. Questo disegno caratterizza gli esperimenti classici condotti dal British

Industrial Fatigue Research Board sui fattori che influenzano la produzione industriale (ad esempio,

Farmer, Brooks e Chambers, 1923).

5

La Figura 3 mostra alcuni possibili modelli derivanti dall’introduzione in una serie temporale

(O1 - O8) di una variazione sperimentale, rappresentata dalla linea verticale X. Ai fini della nostra

discussione, supponiamo che un ricercatore sia tentato di inferire che X abbia avuto un effetto

analizzando le serie temporali rappresentate in A e B e, probabilmente, C, D ed E, ma che non sia

incline ad inferire tale effetto studiando le serie temporali rappresentate in F, G ed H, pur avendo egli

osservato che lo scarto fra i valori registrati in O4 ed in O5 nei casi F, G ed H presenta la stessa

ampiezza e la stessa stabilità statistica rilevata nei casi precedenti, ad eccezione del caso D. (...)

possiamo assumere che il problema della validità interna rinvia in ultima analisi alla presenza di

plausibili ipotesi rivali in grado di fornire una spiegazione credibile – e alternativa a quella offerta

dall’ipotesi sperimentale – della variazione osservata nelle serie temporali. I punti di forza di questo

disegno appaiono evidenti in contrapposizione al Disegno 2, con il quale presenta un’affinità

superficiale rappresentata dalla mancanza di un gruppo di controllo e dall’utilizzazione di misurazioni

prima-e-dopo.

Analizzando i problemi relativi alla validità interna, si rileva che il principale punto debole del

Disegno 7 risiede nell’assenza di garanzie in merito al controllo del fattore storia. In altri termini, è

possibile formulare un’ipotesi rivale secondo cui non X, ma un evento più o meno contemporaneo ad

X abbia determinato la variazione rilevata. La fiducia attribuita alle potenzialità interpretative di questo

disegno sperimentale nelle singole, concrete applicazioni di ricerca riposa sulla possibilità di eliminare

stimoli estranei di tale natura. Si consideri un esperimento, basato su misurazioni ripetute, sull’effetto

di un documentario sull’ottimismo degli studenti in merito all’eventualità di una guerra. In questo

caso, l’incapacità di controllare chiaramente il fattore storia sembrerebbe rappresentare un problema

estremamente serio, considerato che gli studenti sono quotidianamente esposti a molte fonti di stimoli,

potenzialmente rilevanti, che si aggiungono a quelli somministrati in classe, sotto il diretto controllo

del ricercatore. Naturalmente, persino in questo caso, se l’esperimento dovesse essere accompagnato

dalla registrazione accurata degli stimoli non sperimentali aggiuntivi e potenzialmente rilevanti,

sarebbe possibile quell’interpretazione plausibile che fa sì che valga la pena di effettuare la

sperimentazione. Come evidenziato in precedenza, il fattore storia rappresenta la controparte di quello

che nelle ricerche di laboratorio condotte nell’ambito della fisica e della biologia viene definito

isolamento sperimentale. La plausibilità della storia come fattore di spiegazione di variazioni quali

quelle rilevate nelle serie temporali A e B della Figura 3 dipende in larga misura dal grado di

isolamento sperimentale che il ricercatore può assicurare. Gli studi sul riflesso condizionato realizzati

da Pavlov sui cani – essenzialmente, esperimenti con “un solo gruppo” o con “un solo animale” –

avrebbero fornito un sostegno di gran lunga meno credibile alle sue teorie se fossero stati condotti

all’angolo di una strada molto trafficata piuttosto che in un laboratorio isolato acusticamente. Ciò che

costituisce l’isolamento sperimentale varia in ragione del problema studiato e del tipo di strumento di

misurazione utilizzato. Costruire l’isolamento sperimentale in uno studio sulle particelle subatomiche

che si avvale delle camere a nebbia o dei contatori di scintillazione richiede più precauzioni di quante

non siano necessarie per l’ipotetico esperimento sulle barre di ferro immerse in acido nitrico, citato in

precedenza. In molte delle situazioni che consentirebbero l’utilizzo del Disegno 7, il ricercatore

potrebbe plausibilmente richiamarsi a una nozione di isolamento sperimentale inteso come

consapevolezza, da parte sua, dei possibili eventi rivali capaci di determinare la variazione rilevata, e

potrebbe plausibilmente argomentare la scarsa probabilità di spiegare l’effetto osservato nei termini di

quegli eventi.

Gli effetti del clima e della stagione rientrano fra le altre variabili estranee che potremmo per

comodità ricondurre al fattore storia. Gli esperimenti di questo tipo, infatti, sono suscettibili di

estendersi per periodi di tempo talmente lunghi da comprendere variazioni stagionali, e, come negli

studi sulla produttività dei lavoratori, le fluttuazioni stagionali della luce, del clima, e così via possono

essere confuse con l’introduzione di una variazione sperimentale. Potrebbero, forse, essere ugualmente

ricondotte al fattore storia, sebbene siano in un certo senso pertinenti al fattore maturazione, le

variazioni periodiche nelle serie temporali corrispondenti a determinate consuetudini istituzionali del

gruppo, quali, ad esempio, i cicli settimanali di lavoro, i cicli legati alla retribuzione stipendiale, i

periodi degli esami, le vacanze e le festività studentesche. Le serie di osservazioni dovrebbero essere

messe a punto in modo tale da mantenere costanti i cicli noti o, in alternativa, dovrebbero essere

prolungate fino a contenere svariati cicli completi di questo tipo.

6

Proseguendo l’analisi dei fattori da controllare, sembra possibile escludere l’azione del fattore

maturazione, dato che, se il risultato ottenuto è del tipo rappresentato nei diagrammi A o B della figura

3, non è possibile, di norma, formulare sulla base di detto fattore ipotesi rivali plausibili capaci di

spiegare la variazione verificatasi nel passaggio da O4 ad O5, ma non rilevata nelle osservazioni

effettuate nei periodi precedenti. (Tuttavia, è possibile che la maturazione non si manifesti in forma

semplice e regolare. Si noti come, in mancanza di ulteriori informazioni, l’improvvisa apparizione del

ciclo mestruale nelle ragazze che frequentano il primo anno della scuola media inferiore potrebbe

sembrare, sulla base del solo dato fisiologico, un effetto del passaggio da un livello di istruzione

all’altro). Analogamente, risulterebbe in generale scarsamente plausibile un’ipotesi rivale che tentasse

di spiegare lo scarto rilevato fra O4 ed O5 nei termini di un effetto del fattore testing. Evidentemente,

potendo disporre, come nel Disegno 2, esclusivamente delle osservazioni O4 ed O5, verrebbe meno la

possibilità di escludere dalla spiegazione tanto l’effetto della maturazione quanto l’effetto del test-

retest. In ciò risiede il grande vantaggio che il Disegno 7 presenta rispetto al Disegno 2.

Analogamente, molte delle ipotesi che attribuiscono la variazione osservata ad una variazione

dello strumento utilizzato non sarebbero in grado di spiegare per quale ragione l’errore strumentale si

verifica nello specifico caso considerato, ma non nei precedenti. In quanto al fattore strumentazione,

qui si richiama l’attenzione sulle situazioni in cui la conseguenza di un’alterazione dello strumento di

misura potrebbe essere erroneamente interpretata come effetto di X. (…) Il Disegno 7 può spesso

essere impiegato per misurare gli effetti di una significativa variazione delle politiche governative.

Tenendo conto di quanto si è detto, quando si introduce un cambiamento di questo tipo è preferibile

lasciare immutato lo strumento utilizzato per rilevarne gli effetti. In molti casi, per preservare

l’interpretabilità di una serie temporale, è preferibile continuare ad impiegare uno strumento già in uso

piuttosto che adottare uno nuovo.

Gli effetti dovuti al fattore regressione sono, di norma, una funzione accelerata inversamente

proporzionale al tempo trascorso; di conseguenza, essi non tornano utili per spiegare plausibilmente

perché il valore rilevato in O5 risulta maggiore rispetto a quello rilevato in O2, O3 ed O4. In quanto al

fattore selezione, nel caso in cui tutte le osservazioni O siano effettuate sugli stessi soggetti, esso può

essere escluso in qualità di causa di un effetto principale, sia con riferimento a questo tipo di disegno

sia con riferimento al Disegno 2. Se i dati relativi ad un gruppo sono fondamentalmente costituiti da

informazioni riguardanti i singoli componenti, allora è possibile escludere altresì il fattore mortalità,

come già avveniva per il Disegno 2. Tuttavia, se le osservazioni sono costituite da prodotti di natura

collettiva, allora è necessario monitorare l’assenteismo, gli abbandoni e i subentri all’interno del

gruppo in modo da assicurarsi che la concomitanza di questi cambiamenti non fornisca un’ipotesi

rivale plausibile.

Per quanto riguarda la validità esterna, è evidente che l’effetto sperimentale potrebbe ben

essere circoscritto alle popolazioni ripetutamente sottoposte al test. Nell’ambito della ricerca

sull’insegnamento, è molto difficile che si presenti un problema di questa natura, se non nei casi in cui

siano previsti cicli di osservazioni artificiali che esulano dal normale contesto scolastico. Di più:

questo disegno è particolarmente adatto a quei contesti istituzionali in cui la raccolta sistematica di

dati inerenti all’attività svolta si configura come un adempimento essenziale. Gli esami di profitto

effettuati annualmente nelle scuole pubbliche, l’annotazione delle assenze per malattia, e simili,

rappresentano, di norma, attività non reattive, in quanto rientrano in modo del tutto naturale tra le

funzioni proprie dell’universo al quale si desidera estendere la generalizzazione. L’interazione fra X e

il fattore selezione rinvia alla possibilità che gli effetti della variabile sperimentale siano limitati allo

specifico campione su cui è stato condotto l’esperimento e che la reazione osservata non sia tipica

dell’universo oggetto di indagine, rispetto al quale il gruppo esposto al trattamento, proprio perché

aggregatosi in modo naturale, non è che un campione distorto. Ad esempio, i vincoli posti da questo

disegno sperimentale possono indurre il ricercatore a prendere in considerazione soltanto gli studenti

che si sono sottoposti ai test con continuità e che costituiscono, ovviamente, un sottoinsieme a sé

stante. Inoltre, qualora siano state effettuate numerose osservazioni, come il Disegno 7 del resto

prevede, è possibile che proprio la ripetizione del test abbia causato un effetto di assenteismo e di

conseguente riduzione/selezione del gruppo originario di studenti.

Affinché le serie temporali possano essere correttamente interpretate come esperimenti, è

necessario che il ricercatore sia in grado di specificare l’ampiezza attesa dell’intervallo di tempo

compreso fra l’introduzione della variabile sperimentale e la manifestazione di un suo effetto. Con una

7

simile precisazione, il modello indicato dalla serie temporale D della Figura 3 potrebbe essere

giudicato non meno conclusivo del modello della serie temporale A. (…) A mano a mano che aumenta

l’intervallo temporale fra la variabile sperimentale X e l’effetto osservato, aumenta anche la probabilità

che l’effetto osservato sia dovuto a circostanze storiche estranee.

Appare, inoltre, indispensabile specificare la X prima di esaminare il risultato delle serie

temporali. L’esame post hoc di una serie temporale allo scopo di inferire quale X abbia preceduto la

variazione più vistosa non è ammissibile, perché consente una capitalizzazione opportunistica della

casualità che rende difficile, se non impossibile, qualsiasi tentativo di stimare la significatività

dell’effetto.

La prevalenza di questo disegno nell’ambito delle scienze di maggiore successo dovrebbe

indurci a considerarlo con notevole rispetto. Tuttavia, va ricordato che le questioni dell’”isolamento

sperimentale” e delle “condizioni costanti” rendono i risultati delle applicazioni del Disegno 7 di più

facile interpretazione per queste scienze che per le nostre. Bisogna, inoltre, tenere presente che, così

come applicato negli ambiti di nostra competenza, un solo esperimento non è mai decisivo. Sebbene

sia possibile che non si faccia mai ricorso al gruppo di controllo, è bene che l’indagine basata sul

Disegno 7 sia replicata in situazioni differenti da differenti ricercatori prima che possa essere stabilito

un dato risultato. Anche noi dovremmo utilizzarlo in questo modo; soprattutto, sapendo che

ricorreremo ad esso quando non è possibile applicare un disegno che consenta un controllo migliore.

Organizzeremo i nostri archivi di dati istituzionali in modo da ottenere quante più serie temporali sono

possibili per questo tipo di valutazioni, esaminando più dettagliatamente gli effetti in ipotesi connessi

a mutamenti di natura amministrativa e ad altri eventi imprevisti e discontinui, e cercando di capire a

quale/i di essi è possibile attribuire realisticamente lo status di X. Tuttavia, i risultati non potranno

essere considerati definitivi prima che l’indagine sia ripetuta più volte e nell’ambito di contesti

differenti.

8. IL DISEGNO CON CAMPIONI TEMPORALI EQUIVALENTI

Il disegno sperimentale di forma più comune prevede l’utilizzo di un campione equivalente di

soggetti che funge da base di comparazione degli effetti della variabile sperimentale. Per converso,

una forma ricorrente di esperimento con un solo gruppo prevede l’utilizzo di due campioni equivalenti

di occasioni, in uno soltanto dei quali è presente la variabile sperimentale. Tale disegno può essere

rappresentato graficamente nel modo seguente (sebbene l’alternanza debba essere considerata casuale

piuttosto che regolare):

X1O X0O X1O X0O

Il Disegno 8, quindi, prevede che la variabile sperimentale venga introdotta a più riprese,

configurandosi così come una variante del Disegno 7, in cui la variabile di trattamento, come si è

visto, interviene in un unico, definito momento. Ovviamente, la sua utilità è maggiore nel caso in cui

sia noto in anticipo che l’effetto della variabile sperimentale avrà un carattere transitorio o reversibile.

Sebbene la logica su cui si fonda questo esperimento possa essere considerata un’estensione di quella

che sta alla base dell’esperimento delle serie temporali, l’analisi statistica dei risultati viene condotta

secondo modalità più vicine a quelle dell’esperimento con due gruppi, valutando la significatività della

differenza fra le medie di due serie di misurazioni. Di norma, le misurazioni sono puntualmente

congiunte alle somministrazioni della variabile sperimentale, risultando spesso concomitanti, come

negli studi sull’ apprendimento, la produttività, i condizionamenti, le reazioni fisiologiche, e così via.

Probabilmente, il primo, e più tipico, utilizzo di questo disegno sperimentale – ad esempio, nelle

ricerche di Allport (1920) e Sorokin (1930) sul rendimento degli studenti in varie condizioni –

prevedeva la comparazione fra due variabili sperimentali, ossia X1 versus X2, piuttosto che fra una

variabile sperimentale ed una di controllo. La procedura consistente nell’alternare con regolarità le

differenti condizioni sperimentali e nell’effettuare il test dopo un consistente intervallo temporale non

è, nella maggior parte dei casi, auspicabile; in particolare, nei casi in cui si possa ingenerare

confusione con i cicli giornalieri, settimanali e mensili, ovvero nelle circostanze in cui, attraverso la

sua prevedibile periodicità, un condizionamento indesiderato dell’intervallo temporale possa

accentuare la differenza fra un trattamento e l’altro. Così, Sorokin si assicurò che ciascun trattamento

sperimentale fosse effettuato con la stessa frequenza di pomeriggio e di mattina.

8

Nella maggior parte dei casi, ciascuna delle condizioni sperimentali viene introdotta in un

numero relativamente limitato di occasioni, tuttavia lo sviluppo impresso da Brunswik (1956) alla

teoria del campionamento richiama l’attenzione sulla necessità di disporre di campioni casuali ampi,

rappresentativi ed equivalenti, relativi ai singoli momenti in cui si procede al trattamento sperimentale.

Kerr (1945) è forse lo studioso che più si è avvicinato a questo modello con i suoi esperimenti sugli

effetti della musica sulla produttività industriale. Ciascuno dei suoi numerosi esperimenti prevedeva

un solo gruppo sperimentale, analizzato in particolari giorni, scelti lungo l’arco di mesi in modo da

ottenere campioni randomizzati ed equivalenti. In uno di questi studi, Kerr ha potuto così mettere a

confronto i dati raccolti in 56 giorni nei quali il lavoro in fabbrica era accompagnato dalla musica, con

quelli rilevati in 51 giorni nei quali tale attività veniva svolta in assenza di stimoli musicali. In un altro

esperimento, egli ha invece avuto modo di studiare gli effetti sulla produttività di 3 generi musicali

differenti, confrontando i risultati rilevati su campioni equivalenti di 14 giorni.

Nella particolare applicazione di Kerr, ad esempio, il Disegno 8 sembra, nel complesso, dotato

di validità interna. Il fattore storia – che costituisce il principale punto debole dell’esperimento basato

sulle serie temporali – viene controllato introducendo la variabile X in più occasioni differenti,

rendendo in tal modo estremamente improbabile qualsiasi spiegazione rivale fondata sul

contemporaneo intervento di avvenimenti esterni. Gli altri fattori di invalidità vengono controllati

seguendo la stessa logica descritta per il Disegno 7. Per quanto attiene alla validità esterna, la

generalizzazione ha, ovviamente, senso soltanto in riferimento a popolazioni sottoposte a test con una

certa frequenza. Uno dei punti deboli caratteristici di questo disegno sperimentale è costituito dalla

reattività all’esperimento, dovuta alla consapevolezza da parte dei soggetti interessati di essere

sottoposti ad un test. Somministrando a gruppi diversi, differenti variabili sperimentali, è possibile (in

particolare se si utilizza il Disegno 6) rendere i soggetti del tutto ignari dell’esperimento o dei

trattamenti che si stanno confrontando. Non è così, invece, nel caso in cui vi sia un solo gruppo

ripetutamente esposto ad una particolare condizione sperimentale piuttosto che ad un’altra: ad

esempio, nel caso di Sorokin, ad un sistema alternativo di calcolo del salario; nel caso di Allport, ad

una condizione di lavoro piuttosto che ad un’altra; nel caso degli studi di Wyatt, Fraser e Stock (1926),

ad un particolare impianto di aerazione; nel caso di Kerr, ad un genere musicale piuttosto che ad un

altro (sebbene Kerr abbia preso accurate precauzioni per far sì che gli stimoli musicali programmati,

rappresentati da 3 diversi generi, costituissero parte integrante dell’ambiente di lavoro). Per quanto

riguarda l’interazione fra il fattore selezione e la X, la generalizzazione degli effetti dimostrati di X è,

di solito, limitata al particolare tipo di popolazione coinvolta nell’esperimento.

Questo disegno sperimentale reca con sé il medesimo rischio per la validità esterna che

caratterizza gli altri disegni discussi nel presente volume, nei quali livelli multipli di X vengono

presentati allo stesso gruppo di soggetti; l’effetto conseguente è stato definito “interferenza della X

multipla”. L’effetto di X1, nella situazione più semplice in cui essa viene messa a confronto con X0,

può essere generalizzato esclusivamente alle condizioni in cui X1 viene presentata più volte, a

determinati intervalli di tempo. Non esiste alcuna valida ragione per estendere la generalizzazione a

possibili altre situazioni, in cui X1 è costantemente presente, ovvero in cui essa è introdotta una ed una

sola volta. Inoltre, la condizione X0 – o assenza di X – non costituisce semplicemente un aspetto tipico

dei periodi in cui X è mancante, ma è rappresentativa soltanto a condizione che i casi in cui la variabile

X è assente si alternino ai casi in cui essa è presente. Se l’effetto di X1 si prolunga fino a toccare anche

i periodi di assenza della variabile sperimentale, come in genere è probabile che accada, è possibile

che, rispetto, ad esempio, al Disegno 6, il disegno basato sulle serie temporali sottovaluti l’effetto di

X1. D’altra parte, la dinamica stessa dell’esperimento, caratterizzata da frequenti variazioni, potrebbe

aumentare il valore di stimolo di X, portandolo ben al di sopra di quanto sarebbe se la variabile

sperimentale fosse presente in modo costante ed omogeneo. Nello studio di Kerr, l’effetto che la

musica hawaiana esercita sulla produttività potrebbe variare sostanzialmente a seconda che essa

costituisca il sottofondo costante delle attività lavorative ovvero l’accompagnamento musicale di un

solo giorno in alternativa ad altri generi musicali ascoltati negli altri giorni.

Si noti, tuttavia, che molti aspetti dell’insegnamento su cui gli studiosi sono interessati a

condurre un esperimento possono avere effetti che si limitano, per tutte le finalità pratiche, al solo

periodo in cui essi sono effettivamente implementati, magari proprio sotto forma di variabile X . Per

tali finalità, questo disegno potrebbe rivelarsi prezioso. Supponiamo che a un insegnante interessi

conoscere se sia più proficuo ai fini dell’apprendimento lo studio individuale e condotto in silenzio

9

della lezione oppure la ripetizione in gruppo e a voce alta. Variando queste due modalità di studio

nell’arco di una serie di lezioni, è possibile dare origine ad un esperimento interpretabile. In questo

stesso modo si può studiare l’effetto che la presenza in classe di un genitore-osservatore esercita sulle

libere discussioni fra gli studenti. Una consapevole applicazione di questo disegno può porre la

valutazione sperimentale delle alternative sotto il completo dominio dell’insegnante; il quale può

testare metodi e procedure di insegnamento che, se promettenti, potrebbero essere sottoposte ad

esperimenti più ampi e meglio coordinati.

Questo approccio sperimentale può essere adottato campionando situazioni che riguardano un

singolo individuo. Benché i test di significatività non siano di norma applicati in questi casi, questo

disegno è abbastanza comune nel campo della ricerca fisiologica, in cui un animale viene

ripetutamente sottoposto a stimolazione avendo cura di evitare una periodizzazione della

somministrazione. Quest’ultimo requisito risponde all’esigenza di randomizzazione che la logica del

disegno richiede. È, inoltre, possibile utilizzare il disegno a quadrato latino piuttosto che la

randomizzazione semplice (ad esempio, Cox, 1951; Maxwell, 1958).

10. IL DISEGNO CON GRUPPO DI CONTROLLO NON EQUIVALENTE

Uno dei disegni sperimentali più diffusi nell’ambito delle ricerche sull’istruzione prevede un

gruppo sperimentale ed un gruppo di controllo, entrambi sottoposti a pre-test e post-test, ma non

equivalenti dal punto di vista del campionamento pre-sperimentale. Tali gruppi, piuttosto,

corrispondono a collettivi naturali preesistenti, quali, ad esempio, gli alunni di una stessa classe. Essi

sono sì scelti in modo da risultare il più possibile omogenei fra loro, tuttavia il grado di fiducia circa

l’equivalenza non è tale da evitare il ricorso al pre-test. L’assegnazione di X ad uno dei due gruppi

viene effettuata, per definizione, in modo casuale e sotto il controllo del ricercatore.

O X O

O O

Discutendo del presente disegno sperimentale, è bene essere da subito chiari su due questioni:

in primo luogo, non bisogna confonderlo con il Disegno 4; quest’ultimo, infatti, pur essendo

ugualmente basato su pre-test, post-test e gruppo di controllo, prevede che le unità di una stessa

popolazione siano assegnate al gruppo sperimentale o al gruppo di controllo secondo un procedimento

casuale. Secondariamente, malgrado ciò, si deve ammettere che il Disegno 10 può essere utilizzato in

molti dei casi in cui non è possibile fare ricorso ai Disegni 4, 5 e 6. In particolare, bisogna riconoscere

che, pur in assenza di piene garanzie di equivalenza, l’introduzione di un gruppo di controllo in questo

disegno sperimentale riduce notevolmente l’ambiguità dell’interpretazione rispetto al Disegno 2,

caratterizzato dalla presenza di un solo gruppo, sottoposto a pre-test e post-test. Se i criteri di

reclutamento dei due gruppi sono molto simili e se tale somiglianza trova riscontro nei punteggi

ottenuti dai due gruppi al pre-test, allora i controlli previsti dalla logica dell’esperimento risultano

maggiormente efficaci. Acquisiti tali desiderata ai fini della validità interna, possiamo affermare che

un disegno di questo tipo consente il controllo degli effetti principali dovuti ai fattori storia,

maturazione, testing e strumentazione. Ciò in quanto le differenze fra il pre-test ed il post-test

rilevabili per il gruppo sperimentale, se maggiori di quelle osservate per il gruppo di controllo,

sarebbero riconducibili all’intervento della variabile sperimentale e non all’azione di detti fattori, i

quali entrerebbero in gioco nel caso in cui tali differenze fossero riscontrate, nella stessa misura, in

entrambi i gruppi.

Un tentativo per spiegare una variazione incrementale, nel solo gruppo sperimentale, del

punteggio dal pre-test al post-test esclusivamente in termini di fattori esterni quali la storia, la

maturazione o il testing, deve ipotizzare un’interazione fra queste variabili e le specifiche differenze di

selezione che distinguono il gruppo sperimentale dal gruppo di controllo. Sebbene queste interazioni

siano, in genere, improbabili, vi sono alcune situazioni nelle quali potrebbero essere invocate. Le

interazioni più comuni riguardano forse il fattore maturazione. Se, ad esempio, il gruppo sperimentale

è costituito da persone sottoposte a psicoterapia ed il gruppo di controllo da individui di tutt’altro

genere, facilmente contattabili e disponibili al test, e se entrambi i gruppi sono sottoposti a pre-test e

post-test, un miglioramento registrato esclusivamente nel gruppo sperimentale potrebbe certamente

essere interpretato come uno spontaneo processo di guarigione specifico di un gruppo così estremo,

10

cioè a dire come un effetto che si sarebbe rilevato probabilmente anche in assenza del trattamento

sperimentale. Questo effetto di interazione fra il fattore selezione e il fattore maturazione (…)

potrebbe essere scambiato per un effetto di X, e costituisce quindi una minaccia alla validità interna

dell’esperimento.

Un esempio concreto, tratto dalla ricerca nel settore dell’istruzione, può contribuire a chiarire

questo punto. Lo studio condotto da Sanford ed Hemphill (1952) sugli effetti di un corso di psicologia

ad Annapolis rappresenta un’eccellente applicazione del Disegno 10. In questo studio, la seconda

classe di Annapolis è identificata con il gruppo sperimentale, mentre la terza classe è scelta a

rappresentare il gruppo di controllo. Gli incrementi più consistenti rilevati nel gruppo sperimentale

potrebbero essere interamente spiegati come parte di un processo generale di trasformazione che

interessa in modo particolare le prime due classi, ma solo tangenzialmente le terze e le quarte. Tali

incrementi rappresentano quindi un effetto dell’interazione fra i fattori di selezione che differenziano il

gruppo sperimentale da quello di controllo ed i processi di modificazione naturale (maturazione)

caratteristici di questi gruppi, piuttosto che un effetto del programma sperimentale. Il particolare

gruppo di controllo utilizzato da Sanford ed Hemphill rende possibile verificare questa interpretazione

rivale. L’ipotesi concernente l’interazione selezione-maturazione porterebbe a pensare che lo scarto fra

i punteggi ottenuti nel pre-test dalla terza (gruppo di controllo) e dalla seconda classe (gruppo

sperimentale) abbia pressoché la stessa ampiezza dello scarto fra i punteggi ottenuti dal gruppo

sperimentale nel pre-test e nel post-test. Ai fini dell’interpretazione di questo esperimento, è una

fortuna che ciò non si sia verificato. Nella maggior parte dei casi, le differenze di punteggio rilevate

nel pre-test fra una classe e l’altra non andavano nella stessa direzione né avevano la stessa

consistenza degli incrementi di punteggio registrati fra pre-test e post-test per il gruppo sperimentale.

Tuttavia, l’incremento osservato dei punteggi relativi alla dimensione della “sicurezza di sé in

differenti situazioni sociali” può essere spiegato come un prodotto dell’interazione selezione-

maturazione. Il gruppo sperimentale faceva registrare, nel passaggio dalla prima alla seconda

rilevazione, un incremento di punteggio medio da 43,26 a 51,42, mentre la terza classe otteneva un

punteggio medio iniziale pari a 55,82 e conseguiva nella seconda tornata un punteggio di 56,78.

In talune occasioni, l’ipotesi dell’interazione selezione-maturazione è sostenibile persino nel

caso in cui i due gruppi ottengano nel pre-test gli stessi risultati. Il più comune di questi casi si verifica

quando un gruppo mostra un livello di maturazione o una capacità di mutamento autonomo superiore

rispetto all’altro gruppo..

Il fattore regressione costituisce l’altro grande problema del Disegno 10 con riferimento alla

validità interna. Malgrado tale minaccia possa essere evitata, raramente si riesce a farlo. In generale, se

entrambi i gruppi vengono selezionati sulla base dei punteggi estremi ottenuti in O, o sulla base di

misurazioni correlate con tali punteggi, allora una differenza fra i due gruppi in relazione all’entità

dello scarto fra i punteggi del pre-test e quelli del post-test potrebbe rappresentare proprio un prodotto

della regressione piuttosto che l’effetto di X. L’incidenza di questa eventualità è aumentata a causa

della persistenza di una fuorviante tradizione, specifica della sperimentazione in ambito didattico-

pedagogico, che considera il matching come una procedura corretta e sufficiente per stabilire

l’equivalenza pre-sperimentale dei gruppi. Questo errore si accompagna all’incapacità di distinguere i

Disegni 4 e 10 ed il ruolo sensibilmente diverso che il matching a partire dai risultati del pre-test

riveste in ciascuno di questi diversi contesti sperimentali. Nel Disegno 4, il matching può essere

considerato un’utile appendice alla randomizzazione ma non un suo sostituto: sulla base dei punteggi

ottenuti nel pre-test, ovvero sulla base di risultati di rilevazioni assimilabili, l’intera popolazione

disponibile per gli scopi sperimentali può essere suddivisa in coppie di soggetti formate seguendo

un’accurata procedura di matching; i membri di queste coppie possono quindi essere assegnati a caso

al gruppo sperimentale o al gruppo di controllo. Unificando le due procedure, matching e

randomizzazione, si ottiene, di norma, un disegno sperimentale caratterizzato da una precisione

superiore rispetto a quella che si avrebbe seguendo la sola randomizzazione.

Non bisogna commettere l’errore di confondere il modello procedurale appena descritto – che

riguarda, è bene ribadirlo, essenzialmente il Disegno 4 – con la procedura di matching tipica del

Disegno 10, la quale viene applicata nel tentativo di compensare la distanza fra il gruppo sperimentale

ed il gruppo di controllo quando risulta impossibile assegnare i soggetti ai trattamenti attraverso un

rigoroso procedimento casuale. Se, nel Disegno 10, le medie dei gruppi differiscono in modo

cospicuo, allora il matching non solo non produce il voluto effetto di riequilibrio tra i gruppi, ma

11

determina, sicuramente, anche indesiderati effetti di regressione. Sarà allora facile prevedere che i due

gruppi otterranno nel post-test punteggi differenti a prescindere da qualunque effetto di X (…).

Interpretando le concrete applicazioni del Disegno 10 basate sulla procedura del matching, si

può rilevare che la direzione dell’errore è chiaramente prevedibile. Si consideri, ad esempio, un

esperimento di psicoterapia che utilizzi come O l’indice di insoddisfazione nei confronti di se stessi.

Supponiamo che il gruppo sperimentale sia composto da soggetti sottoposti a terapia psichica e che il

gruppo di controllo sia invece volutamente rappresentato, per contrasto, da individui “sani”,

presumendo così di ottenere un effetto di riequilibrio. Il gruppo di controllo presenterà allora, per

deliberata scelta del ricercatore, punteggi estremamente bassi rispetto alla popolazione normale, i quali

regrediranno nel post-test proprio in direzione della media della popolazione normale; in tal modo, si

riduce la probabilità che si possa manifestare un effetto significativo della terapia sperimentale,

piuttosto che prodursi un’impressione spuria di efficacia della stessa.

(…) È importante distinguere due diverse versioni del Disegno 10, attribuendo loro uno status

differente come approssimazioni all’esperimento vero e proprio. Da una parte, si ha la situazione in

cui il ricercatore può disporre di due gruppi naturali – ad esempio, due classi scolastiche – e può

decidere liberamente a quale dei due sarà somministrata la variabile sperimentale X, o, perlomeno, non

sussistono motivi per sospettare che tale scelta sia in qualche modo legata ad X. In questo caso,

sebbene sia possibile che dall’osservazione O risultino medie iniziali differenti per i due gruppi, la

ricerca può approssimarsi all’esperimento vero e proprio. Dall’altra parte, sono rinvenibili esempi di

applicazioni del Disegno 10 in cui, con tutta evidenza, i soggetti si autoselezionano, scegliendo

autonomamente il gruppo di appartenenza. E non esiste alcun gruppo di controllo da porre a confronto

con un gruppo sperimentale che cerca deliberatamente l’esposizione ad X. In quest’ultimo caso,

l’assunto secondo cui i due gruppi mostreranno una regressione uniforme diventa meno sostenibile,

mentre aumentano le probabilità che si verifichi una interazione fra il fattore selezione e il fattore

maturazione (e le altre interazioni legate alla procedura di selezione dei soggetti). Il Disegno 10 basato

sull’autoselezione del gruppo è quindi molto più debole, ma fornisce informazioni che, in molti casi,

consentono di escludere qualsiasi effetto di X. Il gruppo di controllo, pur essendo caratterizzato da

modalità di selezione dei soggetti e da un valore della media sensibilmente differenti rispetto al gruppo

sperimentale, corrobora questa interpretazione.

L’effetto dovuto al fattore testing come causa di invalidità esterna è analogo a quello già

descritto per il Disegno 4 (cfr. sopra). In quanto all’interazione fra il fattore selezione ed X occorre

ricordare ricorda che l’effetto di X potrebbe valere esclusivamente per i soggetti selezionati secondo le

procedure indicate nel nostro esempio. Poiché, con tutta probabilità, le condizioni poste dal Disegno

10 limitano la nostra libertà di campionamento in misura minore rispetto al Disegno 4, tale specificità

sarà, di norma, inferiore rispetto a quanto non sarebbe in un esperimento di laboratorio. La minaccia

alla validità esterna rappresentata da condizioni sperimentali reattive è presente, ma probabilmente in

misura minore che nella maggior parte degli esperimenti veri e propri, come, ad esempio, nel Disegno

4.

Nel caso in cui il ricercatore possa scegliere fra due alternative – utilizzare due classi

preesistenti (come prevede il Disegno 10) o estrarre da esse campioni casuali di studenti da assegnare

ai differenti trattamenti (come prevedono i Disegni 4, 5 e 6) – quasi certamente la seconda determinerà

condizioni sperimentali assai reattive, ingenerando negli studenti maggiore consapevolezza del fatto

che si stanno sottoponendo a un esperimento, facendoli sentire delle “cavie” e così via.

Gli studi di Thorndike sul trasferimento dell’addestramento (ad esempio, E.L. Thorndike e

Woodworth, 1901; Brolyer, Thorndike e Woodyard, 1927) costituiscono esempi di applicazione del

Disegno 10 ad X non controllate dal ricercatore. I risultati di tali ricerche mostrano come sia stato

evitato, almeno parzialmente, l’errore dovuto agli effetti di regressione causati dalla procedura di

matching sopra descritta; essi dovrebbero, tuttavia, essere analizzati alla luce delle moderne tecniche

di analisi (…).

11. I DISEGNI CONTROBILANCIATI

Sotto questa intestazione sono classificati tutti quei disegni in cui si raggiunge il controllo

sperimentale o si aumenta la precisione dell’esperimento facendo in modo che tutti i trattamenti siano

associati a tutti i soggetti (o a tutte le occasioni). Tali disegni sono stati definiti “esperimenti di

rotazione” (McCall, 1923), “disegni controbilanciati” (ad esempio, Underwood, 1949), “disegni

12

incrociati” (ad esempio, Cochran e Cox, 1957; Cox, 1958) e “disegni a scambio” (Kempthorne, 1952).

In questi casi, per ottenere l’effetto di bilanciamento viene generalmente adottata la disposizione a

quadrato latino. Questa stessa disposizione caratterizza altresì il nostro Disegno 11, raffigurato qui

come un disegno quasi-sperimentale che prevede l’applicazione in modo del tutto casuale di 4

trattamenti a 4 gruppi naturali o anche a 4 individui (ad esempio, Maxwell, 1958):

Tempo 1 Tempo 2 Tempo 3 Tempo 4

Gruppo A X1O X2O X3O X4O

Gruppo B X2O X4O X1O X3O

Gruppo C X3O X1O X4O X2O

Gruppo D X4O X3O X2O X1O

Nella rappresentazione grafica figura esclusivamente il post-test poiché il presente disegno è

da preferirsi nei casi in cui non sia giudicata opportuna la somministrazione del pre-test e non sia

attuabile un Disegno del tipo 10. Il disegno presenta tre basi di classificazione (gruppi, occasioni ed X

o trattamenti sperimentali). Ogni classificazione è “ortogonale” alle altre due in quanto ogni valore di

ciascuna classificazione è associato con la stessa frequenza (una volta per ciascun quadrato latino) a

ogni valore di ciascuna delle altre due. Per cominciare, si può osservare che ciascun trattamento

(ciascuna X) figura una volta, e solo una volta, in ogni colonna e in ogni riga. Lo stesso quadrato latino

può essere sottoposto a rotazione in modo tale che le X diventino teste di riga o di colonna, ad

esempio:

X1 X2 X3 X4

Gruppo A t1O t2O t3O t4O

Gruppo B t3O t1O t4O t2O

Gruppo C t2O t4O t1O t3O

Gruppo D t4O t3O t2O t1O

Le somme dei punteggi per le differenti X sono quindi confrontabili, essendo tali punteggi stati

rilevati in ognuna delle occasioni e per ognuno dei gruppi considerati. Le differenze risultanti dal

confronto non possono essere interpretate semplicemente come conseguenza delle differenze iniziali

fra un gruppo e l’altro o come effetti dell’acquisizione di una pratica, della storia, e così via.

Analogamente, è possibile procedere al confronto fra i totali di riga, relativi alle differenze fra i

gruppi, mentre, spostando l’attenzione sul primo dei due grafici sopra riportati, si possono comparare i

totali di colonna, relativi alle differenze fra le occasioni. Nei termini dell’analisi della varianza, tale

approccio sembra quindi fornire dati sui tre effetti principali di un disegno sperimentale, con lo stesso

numero di celle che è, di norma, necessario per due. Ragionando nei termini dell’analisi della varianza

appare evidente il costo di questa maggiore efficacia: quello che sembra essere un effetto principale

significativo, dovuto ad uno qualunque dei tre criteri di classificazione potrebbe essere invece il

prodotto di un’interazione significativa, di forma complessa, fra gli altri due (Lindquist, 1953, pp. 258-

64). L’apparente differenza fra gli effetti delle X potrebbe essere letta come uno specifico, complesso,

effetto di interazione fra la peculiarità dei gruppi e la particolarità delle occasioni, sicché

l’ammissibilità di un’inferenza circa l’efficacia dei trattamenti sperimentali dipenderà dalla plausibilità

di questa ipotesi rivale. Il problema merita una discussione più approfondita.

Osserviamo, in primo luogo, che una simile ipotesi è più verosimile nel caso della variante

quasi-sperimentale del quadrato latino, di cui ci stiamo occupando qui, piuttosto che nel caso di

un’applicazione dello stesso disegno secondo i canoni dell’esperimento vero e proprio, solitamente

descritta nei testi che affrontano questo argomento. Con riferimento a quello che può essere definito

come fattore gruppo, vengono confuse due possibili cause di effetti sistematici. Innanzitutto, occorre

considerare l’azione del fattore selezione sistematica, che interviene nei processi di costituzione

naturale dei gruppi; si può presumere che tale fattore induca un effetto principale e che, nello stesso

tempo, interagisca con i fattori rappresentati dalla storia, dalla maturazione, dall’acquisizione di una

pratica, e così via. Se intendessimo, tenendo conto di ciò, predisporre un esperimento perfettamente

controllato, l’assegnazione di ciascun soggetto a questo o quel gruppo dovrebbe avvenire in modo del

13

tutto indipendente e casuale. Così facendo, si eliminerebbe questa fonte sia di effetti principali sia di

effetti di interazione, quanto meno con riferimento agli errori di campionamento. In realtà, è

l’impossibilità di un’assegnazione casuale di questo tipo che detta il ricorso alla variante quasi-

sperimentale del quadrato latino, una particolarità della quale consiste nell’introduzione del

meccanismo di controbilanciamento allo scopo di ottenere, in qualche misura, proprio un effetto di

equivalenza fra i gruppi. (Per converso, negli esperimenti pienamente controllati, il quadrato latino

viene utilizzato per ragioni di economia o per affrontare specifiche questioni di campionamento

relativo a porzioni di territorio). Una seconda possibile fonte di effetti erroneamente attribuiti a quello

che si è appena denominato fattore gruppo, è legata invece alle sequenze specifiche dei trattamenti

sperimentali. Se in tutte le repliche di un esperimento propriamente detto fosse pedissequamente

riprodotto lo stesso quadrato latino di sequenza dei trattamenti, non sarebbe possibile escludere anche

questa fonte di effetti principali e di effetti di interazione. Tuttavia, nell’esperimento vero e proprio, ad

alcuni insiemi di soggetti sono assegnati di volta in volta quadrati latini differenti, specifici,

eliminando l’effetto sistematico dovuto ad una data, invariabile sequenza di trattamenti sperimentali.

Così facendo si evita, inoltre, la possibilità che una specifica interazione sistematica produca quello

che appare come un effetto principale di X.

La molteplicità delle occasioni, caratteristica costitutiva del disegno a quadrato latino, può dar

luogo a un effetto principale ingenerato dalla ripetizione dei test, dalla maturazione, dall’acquisizione

di una pratica e dagli effetti residui cumulativi di riporto o dai trasferimenti [si tratta di cambiamenti

specifici che si verificano quando le condizioni precedenti continuano a influenzare la prestazione

nelle prove successive]; senza contare gli effetti del fattore storia, anch’esso collegabile alla pluralità

dei momenti sperimentali. Naturalmente, il disegno di ricerca basato sul quadrato latino è progettato

per evitare che tali effetti principali si confondano con gli effetti principali di X. Tuttavia, il sospetto di

interazioni significative è forse maggiormente giustificato nel caso in cui gli effetti principali siano il

sintomo di una notevole eterogeneità piuttosto che nel caso in cui essi siano del tutto assenti. (…)

Molti usi del quadrato latino nell’ambito di esperimenti veri e propri – come, ad esempio, nel settore

degli studi agrari – non implicano misurazioni ripetute e non producono, di norma, alcun

corrispondente effetto sistematico di colonna.

Queste considerazioni attestano la grande importanza che riveste la ripetizione del disegno

quasi-sperimentale con differenti, specifici, quadrati latini. Se le iterazioni sono sufficientemente

numerose, il disegno quasi-sperimentale si converte in un esperimento vero e proprio. Inoltre, in

questo modo il numero dei gruppi coinvolti potrebbe rendere possibile l’assegnazione casuale ai

trattamenti, che costituisce, di norma, una forma di controllo più efficace. Eppure, in mancanza di

queste possibilità, anche un solo quadrato latino rappresenta un disegno quasi-sperimentale che,

intuitivamente, si può considerare soddisfacente, poiché consente di rilevare tutti gli effetti presenti in

tutti i gruppi di comparazione. Nella consapevolezza di poter giungere ad interpretazioni errate, si

tratta di un disegno che vale la pena di adottare nel caso in cui non sia possibile un controllo migliore.

Dopo aver evidenziato le insufficienze di questo disegno, è bene ora analizzare e sottolineare i relativi

punti di forza.

Così come accade per tutti i quasi-esperimenti, il Disegno 11 acquista maggiore forza grazie

alla concordanza delle ripetizioni interne dell’esperimento. (…) Supponiamo che il quadro risultante

sia caratterizzato da una gratificante coerenza, che lo stesso trattamento sia maggiormente efficace per

tutti e quattro i gruppi, e così via. A questo punto bisogna chiedersi: è probabile che tutto ciò non sia

un effetto del trattamento ma, piuttosto, il risultato di un’interazione fra gruppi ed occasioni? Possiamo

notare che la maggior parte delle interazioni possibili fra gruppi ed occasioni ridurrebbe o

offuscherebbe l’effetto manifesto di X. Un’interazione in grado di emulare un effetto principale di X

sarebbe improbabile, tanto più nei quadrati latini di maggiori dimensioni.

Il ricercatore alle prese con l’analisi di un numero estremamente limitato di gruppi naturali,

quali ad esempio delle classi scolastiche, non suscettibili di essere suddivisi, mediante procedimento

casuale, in sottogruppi equivalenti cui somministrare il trattamento, è particolarmente attratto dal

Disegno 11.

(…) Mentre in altri disegni la particolare reattività di uno soltanto dei gruppi ad un evento

esterno (fattore storia) o alla pratica (fattore maturazione) potrebbe simulare un effetto di X, nel

disegno controbilanciato effetti coincidenti di questo tipo dovrebbero verificarsi, di volta in volta, in

ciascuno dei gruppi in differenti occasioni. Naturalmente, ciò implica che un effetto principale di X

14

non venga considerato rilevante se l’analisi delle celle mostra che la sua significatività statistica è il

risultato soprattutto di una differenza molto marcata registrata relativamente a uno soltanto dei gruppi

analizzati. Per un’analisi più dettagliata di questo problema si vedano Wilk e Kempthorne (1957),

Lubin (1961) e Stanley (1955).

16. L’ANALISI REGRESSIONE-DISCONTINUITÀ

Il contesto scolastico è tra gli ambiti di maggiore utilizzazione di tale disegno quasi-

sperimentale. Inoltre, la discussione che segue metterà chiaramente in luce il vantaggio di analizzare,

in ciascun contesto specifico, tutte le possibili implicazioni di un’ipotesi causale, ricercando sempre

nuove circostanze in cui testarla. In uno degli ambiti di applicazione (Thistlethwaite e Campbell,

1960) era previsto il conferimento di un premio agli studenti più qualificati, scelti in base ad un

punteggio composito basato sul possesso di una serie ben precisa di requisiti. Tale premio consisteva

in una borsa di studio, nell’ammissione ad una università particolarmente prestigiosa, nella possibilità

di studiare in Europa per un anno, e così via. In una fase successiva al conferimento del premio, il

disegno prevedeva la rilevazione (mediante differenti osservazioni O) del rendimento scolastico e di

altri specifici atteggiamenti di tutti gli studenti coinvolti, premiati e non. I ricercatori hanno tentato di

rispondere alla seguente domanda: il conseguimento del premio ha determinato delle differenze tra gli

studenti? Si tratta di un complesso problema di inferenza; infatti, le qualità necessarie per ottenere il

premio (con le sole eccezioni del bisogno e della residenza, se rilevanti) sono le stesse che consentono

di ottenere punteggi elevati nelle successive rilevazioni. Di fatto, possiamo da subito affermare che,

anche se non avessero ottenuto alcun riconoscimento speciale, gli studenti premiati avrebbero

conseguito, nelle rilevazioni effettuate in un secondo momento, punteggi più elevati rispetto ai non

premiati.

Nella Figura 4 è illustrata la relazione attesa fra la bravura esibita precedentemente e il

rendimento mostrato successivamente al premio, cui si aggiungono i risultati conseguiti grazie alle

opportunità formative o motivazionali che ne sono derivate. Non perdendo di vista il problema

sollevato, consideriamo, in primo luogo, la differenza tra un disegno sperimentale vero e proprio, il

Disegno 6, e il nostro disegno quasi-sperimentale. Il Disegno 6 può essere descritto come un processo

decisionale finalizzato a introdurre una distinzione o come un esperimento che rientra in un

programma, in cui, limitatamente a una serie ristretta di punteggi coincidenti o immediatamente al di

sotto di un certo valore discriminante, l’assegnazione casuale porterebbe alla creazione di due gruppi

abbastanza sovrapponibili: un gruppo sperimentale formato dagli studenti vincenti e un gruppo di

controllo formato dagli studenti non vincenti. Questi due gruppi si comporteranno presumibilmente

come indicato dai due cerchietti posti sulla linea di demarcazione della Figura 4. Limitatamente a

questi casi si potrebbe optare per un esperimento vero e proprio. Questo tipo di esperimenti è attuabile

e deve essere quindi preferito.

Rispetto all’esperimento vero e proprio appena delineato, il Disegno 16, a carattere quasi-

sperimentale, si pone l’obiettivo di analizzare la linea di regressione, alla ricerca di una discontinuità

che secondo l’ipotesi causale dovrebbe collocarsi in corrispondenza del valore discriminante. Se il

risultato fosse simile a quello riportato e se i cerchietti della Figura 4 rappresentassero estrapolazioni

dalle due metà della linea di regressione piuttosto che valori-limite tenendo conto dei quali procedere

casualmente alla costituzione di gruppi in vista di un esperimento vero e proprio, si otterrebbero prove

molto significative di un effetto di X, significative quasi quanto quelle fornite dall’esperimento vero e

proprio.

Si noti che l’ipotesi in discussione riguarda chiaramente una differenza di intercetta piuttosto

che di inclinazione e che il salto della linea di regressione deve collocarsi esattamente in

corrispondenza del punto X, in quanto nessun “differimento” o “estensione” è compatibile con tale

ipotesi. Di conseguenza, è possibile utilizzare in questo contesto test parametrici e non parametrici non

basati su assunti di linearità. Si noti, d’altra parte, che gli assunti di linearità sono, di norma, più

plausibili per dati che, come quelli analizzati, sono stati ricavati attraverso la regressione piuttosto che

per le serie temporali. Probabilmente, il test più efficace potrebbe essere rappresentato dall’analisi

della covarianza, in cui il punteggio in base al quale si ottiene il premio è la covariata dei risultati

conseguiti in seguito, mentre i gruppi sarebbero costituiti, rispettivamente, da coloro che hanno

ricevuto il premio (gruppo sperimentale) e da coloro che non l’hanno ricevuto (gruppo di controllo).

15

Quante probabilità ci sono che un disegno di questo tipo venga utilizzato? Di certo esso va

applicato in ambiti caratterizzati dal ripetersi di una data situazione ed in cui gli argomenti a favore

dell’ipotesi sperimentale abbondano. Vale la pena di controllare uno per uno tali argomenti? Uno dei

sacrifici che tale disegno richiede consiste nel fatto che tutte le componenti da cui scaturirà la

decisione finale devono essere rappresentate in un indice composito; inoltre è necessario individuare

precisamente il valore discriminante. Nondimeno, siamo convinti che tutte le caratteristiche

individuali che concorreranno a determinare la decisione in merito all’assegnazione del

riconoscimento (l’aspetto del soggetto in una foto, la reputazione della classe considerata

indipendentemente dalla reputazione della relativa scuola, il prestigio della famiglia in ambito

scolastico, e così via) potranno essere ricomprese in questo indice composito, attraverso delle stime, se

non in maniera più diretta. Del pari, dovremmo a questo punto aver maturato la convinzione (Meehl,

1954) che una formula multipla che consenta di soppesare i vari elementi mettendoli fra loro in

relazione (anche utilizzando come criterio le decisioni di una precedente commissione) è di norma

preferibile a valutazioni effettuate caso per caso da un’apposita commissione. Non avremmo quindi

nulla da perdere, bensì molto da guadagnare, rendendo in forma quantitativa le decisioni relative al

premio, di qualunque natura esse siano. Così facendo – e avendo cura di archiviare tutta la

documentazione relativa ai premiati e agli esclusi – si potrebbe studiare il follow-up degli effetti a

distanza di anni.

Ci sia consentito, a questo punto, ricordare un fatto realmente accaduto. Una generosa

fondazione interessata al miglioramento dell’istruzione superiore donò ad una università della Ivy

League (le otto università più prestigiose del Nord-Est degli Stati Uniti: Brown, Columbia, Cornell,

Dartmouth College, Harvard, Princeton, University of Pennsylvania, Yale) mezzo milione di dollari

per uno studio sull’impatto dell’università sugli studenti. A distanza di dieci anni, non è stato ancora

pubblicato un solo rapporto di ricerca riguardante, sia pure alla lontana, questo problema. I beneficiari

della donazione – e i donatori stessi – avevano preso sul serio la proposta? Risultava possibile fornire

una risposta valida alla questione posta? Il Disegno 16 sembra fornire un’approssimazione possibile.

Ma, naturalmente, nessuno studioso mostrerebbe un interesse reale verso gli effetti di una variabile

sperimentale di natura così generale e indeterminata.

Soffermiamoci ora sulla Tabella 3. La simultaneità della costituzione dei gruppi da sottoporre

a osservazione garantisce un certo controllo del fattore storia e del fattore maturazione. L’effetto di

testing come effetto principale viene controllato nella misura in cui entrambi i gruppi (sperimentale e

di controllo) vengono sottoposti al test. Gli errori legati al fattore strumentazione potrebbero

rappresentare un problema nel caso in cui l’osservazione di follow-up fosse condotta dalla stessa

16

istituzione responsabile dell’assegnazione del premio: infatti, la gratitudine per essere stati premiati o

il risentimento per non esserlo stati potrebbero influire sugli atteggiamenti degli studenti e determinare

una diversa accentuazione nel descrivere il proprio successo personale nella vita, e così via. Questo

problema si presenterebbe anche se si applicasse un disegno sperimentale vero e proprio. Per

eliminarlo, è consigliabile affidare la conduzione del follow-up ad una diversa istituzione rispetto a

quella che ha assegnato il premio. Sulla base delle argomentazioni sviluppate in precedenza, riteniamo

che il controllo del fattore regressione e del fattore selezione sia limitato ai contributi spuri che essi

possono recare all’inferenza, anche in presenza di errori di campionamento e di una regressione attiva.

Tale controllo è possibile evitando di porre i due fattori sullo stesso piano e procedendo ad una analisi

dettagliata di entrambi. Il fattore mortalità potrebbe intervenire allorquando l’istituzione che

attribuisce il premio sia la stessa che effettua le rilevazioni di follow-up; in tal caso, infatti, i vincitori

del premio, gli ex studenti, e così via, potrebbero mostrare maggiore spirito di collaborazione rispetto

agli esclusi. Occorre sottolineare che il normale desiderio del ricercatore di raggiungere l’intero

campione selezionato, ottenendo così una rappresentazione esaustiva, può rivelarsi in questo caso

fuorviante. Infatti, immaginiamo di incarica re della conduzione del follow-up un’istituzione che non

sia la stessa che ha assegnato il premio, ottenendosi una diminuzione – ad esempio, dal 90% al 50% –

dei soggetti disposti a collaborare; ebbene, è probabile che il ricercatore rifiuti questa eventualità, dal

momento che il suo obiettivo è quello di rappresentare la totalità dei premiati. Così facendo egli

trascurerà il fatto che la vera finalità della ricerca consiste nella raccolta di dati interpretabili; inoltre,

dimenticherà che nessun dato è interpretabile considerato in sé e per sé; ancora, mancherà di rendersi

conto che un gruppo di controllo è indispensabile per poter utilizzare i dati riguardanti i premiati, cioè

a dire il gruppo sperimentale. Sia per questa ragione sia, come abbiamo visto, per le implicazioni del

fattore strumentazione, è preferibile, dal punto di vista scientifico, che le fasi di test e di re-test siano

gestite da due istituzioni differenti; in questo modo, si potrà con tutta probabilità ottenere una

percentuale di risposte al follow-up pari al 50% per entrambi i gruppi, piuttosto che ricavare il 90% di

risposte dal gruppo dei premiati e il 50% dal gruppo degli esclusi. Ancora una volta, il problema della

mortalità si presenterebbe negli stessi termini anche nell’esperimento vero e proprio. In entrambi i

casi, l’interazione fra i fattori della selezione e della maturazione come possibile fonte di invalidità

interna è sotto controllo. Infatti, nel caso del nostro disegno quasi-sperimentale tale interazione non

potrebbe legittimamente spiegare una evidente discontinuità della linea di regressione in

corrispondenza di X. La minaccia alla validità esterna rappresentata dall’interazione fra il fattore

testing e la variabile sperimentale è controllata nella misura in cui le rilevazioni dei punteggi in base ai

quali sono assegnati i premi rientrano tra le normali attività delle strutture formative, ovvero delle

istituzioni cui si desidera estendere i risultati dell’esperimento.

L’interazione fra il fattore selezione ed X costituisce un problema rilevante con riferimento

alla validità esterna, tanto nell’esperimento vero e proprio quanto nell’analisi regressione-

discontinuità. Questo perché, in entrambi i casi, l’effetto della variabile sperimentale è suscettibile di

conferma soltanto per una gamma molto ristretta di punteggi, ossia soltanto per quelli che si collocano

in corrispondenza del valore discriminante. Per quanto concerne il disegno quasi-sperimentale, le

possibilità di inferenza sembrerebbero maggiori; tuttavia, gli effetti negativi derivanti dall’assunto di

linearità sono minimi se l’estrapolazione avviene in un solo punto, come nella Figura 4. Per effettuare

generalizzazioni più ampie bisognerebbe procedere all’estrapolazione di valori inferiori a X per

l’intera gamma dei valori X, tenendo presente che per ogni estrapolazione di grado superiore il numero

delle ipotesi rivali plausibili si accresce. Inoltre, i valori estrapolati dei differenti tipi di curve

corrispondenti ai valori inferiori ad X hanno una maggiore dispersione, e così via.

I DISEGNI QUASI-SPERIMENTALI III Modulo... · Un’analoga scarsità di ipotesi rivali si ha nella...

Documents

Transcript of I DISEGNI QUASI-SPERIMENTALI III Modulo... · Un’analoga scarsità di ipotesi rivali si ha nella...