Casuale e rappresentativo: ma cosa vuole dire? · Casuale e rappresentativo: ma cosa vuole dire?*...

Casuale e rappresentativo: ma cosa vuole dire?* di Alberto Marradi pp. 9-52 in Paolo Ceri (cur.), La politica e i sondaggi. Torino: Rosenberg & Sellier 1997. Premessa Nel momento in cui scrivo (estate ’96) il culmine dell’ondata più recente di sondo-mania (infatuazione per i sondaggi) sembra passato. Ma l’acqua non si è ritirata: lo spazio dedicato ai sondaggi sui media di ogni genere resta alto, e tale appare destinato a restare. Ceri ha sostenuto (1994, 886-7) che i sondaggi pre-elettorali, che trainano tutti gli altri, attraggono tanto più l’attenzione quanto meno solide e diffuse sono l’identificazione e la fedeltà di partito, e quindi maggiore è l’ansia con cui politici e giornalisti attendono indicazioni sugli orientamenti dell’elettorato. Rositi ha aggiunto la profondità e la virulenza del conflitto politico tra i fattori che conferiscono rilevanza ai sondaggi (1995, 2). Queste due tesi combinate, e unite a una ragionevole valutazione del senso di sazietà che l’ultima ondata aveva provocato in molti, possono confortare le affermazioni con cui ho aperto questo saggio. Il senso di sazietà, e il fatto che il conflitto politico sembra — forse anche per effetto del carattere tranquillo del Presidente del consiglio — meno virulento che alcuni mesi or sono, rendono infatti plausibile l’impressione che il culmine dell’ultima ondata di sondo-mania sia passato. D’altra parte, si ha la precisa sensazione è che nuove ondate incombano. Vediamo perché. Lo sgretolamento delle identificazioni di partito, e anche delle sub-culture politico-ideologiche, sembra un fenomeno di lungo periodo — addirittura un fenomeno irreversibile. Ciò comprime, e continuerà a comprimere, la quota del “voto di appartenenza”, il tipo di voto che conferisce stabilità e prevedibilità ai risultati elettorali, e quindi riduce l’importanza dei sondaggi. I due tipi alternativi di motivazione al voto tradizionalmente riconosciuti1, il voto di opinione e il voto di scambio, sono due manifestazioni della razionalità (che promuove valori universalisti nel primo caso, interessi particolaristi nel secondo). Tanto l’elettore di opinione quanto l’elettore di scambio possono razionalmente cambiare voto da una consultazione all’altra; quindi, maggiori le quote di questi due tipi di elettorato, più alto è l’interesse dei sondaggi. Inoltre, accanto al voto di opinione e al voto di scambio, dovrebbe ormai esser riconosciuta la presenza di un quarto tipo di voto, che chiamerei “voto di impressione”, perché in tal modo mi sembra di catturarne la natura di risposta immediata, superficiale, irriflessa, affidata più ai sensi che all’intelletto. L’elettore di impressione può mutare orientamento di sera in sera. Quindi ha senso rilevarne gli orientamenti sera per sera — come infatti si fa. Inoltre i suoi orientamenti vengono non solo (spesso) rilevati e pubblicizzati attraverso il mezzo televisivo, ma vengono anche (più spesso, e in misura crescente) determinati dallo stesso mezzo che li rileva. Lo stesso fatto di essere un elettore di impressione viene in larga misura prodotto — come ha cautamente suggerito Rositi (1995, 7-8) — dall’esposizione ai messaggi televisivi del tipo attualmente prevalente anche nelle trasmissioni di argomento politico. Ritengo infatti — anche se sarebbe arduo corroborare questa tesi empiricamente — che il sostituirsi della televisione alla famiglia come agente di socializzazione primaria abbia, fra le altre conseguenze, determinato l’erosione del voto di appartenenza; ma che la televisione abbia sostituito anche la scuola come agente di socializzazione, e ciò abbia precluso la trasformazione di questi voti in voti di opinione e li abbia dirottati verso i lidi soffici e umbratili del voto di impressione. Analogo dirottamento hanno probabilmente subito i voti che il recente sviluppo economico di alcune zone del paese poteva aver messo in grado di uscire dalla palude del voto di scambio.

* Questo saggio è stato preparato fruendo del contratto CNR n. 96.01481.10. 1 Almeno a partire dal noto articolo in cui Parisi e Pasquino (1977) hanno codificato e denominato i tre criteri (appartenenza, .scambio e opinione) che un elettore può seguire nel decidere per chi votare.

Riassumendo: decresce l’incidenza della motivazione di lungo periodo al voto (l’appartenenza); rimane stabile, o decresce leggermente, l’incidenza delle motivazioni razionali e di medio periodo (l’opinione, lo scambio); cresce impetuosamente, auto-alimentandosi, l’incidenza delle motivazioni non-razionali e di brevissimo periodo (le impressioni). Se questa analisi è corretta, e fin tanto che i rapporti di forza tra le varie motivazioni non cambieranno, l’acqua resterà alta — cioè i politici e i giornalisti avranno sempre le loro ottime ragioni per commissionare, diffondere, commentare sondaggi pre-elettorali. Su questa situazione cronica si innesteranno crisi acute di sondo-mania ogni volta che il conflitto politico diventerà acuto, cioè quanto meno nei mesi precedenti importanti scadenze elettorali. La conclusione è preoccupante perché, scrutando lo scenario da gratta-e-vinci che ci sta attorno, non si vedono dighe capaci di contenere in qualche modo questo genere di inondazioni. Molti (fra gli ultimi Ceri 1994, Rositi 1995, Bosio 1996 — per non menzionare innumerevoli articoli sulla stampa non accademica) hanno analizzato i pericoli che una sondo-crazia unita a una video-crazia, cioè un quarto potere che, sulla base dei sondaggi, si proclama depositario e interprete unico dell’opinione pubblica, rappresenta per una società civile che sembra essere uscita da un’adolescenza sessantottina solo per piombare in un’infanzia tele-dipendente. Rositi in particolare ha ricordato gli ammonimenti di Tocqueville contro gli interpreti della volontà nazionale, e di Weber contro la democrazia plebiscitaria — il “potere di un capo che si legittima in nome di una diretta, immediata consonanza con la volontà collettiva”. Malauguratamente, il setting per una video-crazia/sondo-crazia è pronto; molti elementi li ha elencati Rositi (1995, 4): diffuso anti-parlamentarismo, impreparazione politica di larghi strati dell’elettorato, indebolimento dell’associazionismo politico; un altro l‘ho ricordato sopra: sostituzione della televisione alla famiglia e alla scuola come agente di socializzazione; altri se ne possono aggiungere: continuo impoverimento delle capacità critiche trasmesse dalla scuola2, pervasiva e continua sottolineatura dell’importanza del caso, della sorte, della lotteria rispetto al merito, dell’apparire rispetto all’essere, del comunicare rispetto al pensare. E non è detto che i pericoli per la democrazia liberale debbano venire solo dall’indovinato cocktail di gaullismo e tycoonismo rampante di cui abbiamo recente esperienza. La storia dell’America latina, alla quale i processi socio-culturali sopra richiamati ci vanno inesorabilmente avvicinando, mostra che caudillos e jefes possono provenire dal sindacalismo, dai militari nazionalisti e progressisti, dal populismo lumpen-proletario. E — visto che la storia ha molta più fantasia degli uomini — non si può neppure escludere la video-crazia/ sondo-crazia di una casta di alti papaveri di partito, che controllino l’opinione pubblica attraverso squadre di intervistatori, senza dover ricorrere a polizie segrete. E’ opportuno quindi che chi percepisce il pericolo che la video-crazia/ sondo-crazia costituisce per le libere istituzioni (e anche per il, già disastrato, livello culturale medio del paese) si ponga con urgenza il problema di scalzare, o almeno scalfire, i pilastri sui quali poggia il nuovo Moloch. In particolare, chi ha avuto esperienze a vario livello con la macchina che produce sondaggi può e deve sentire il dovere di mettere queste sue esperienze e competenze al servizio della società civile.

In effetti, non sono mancati gli addetti ai lavori che hanno pubblicato analisi critiche di quegli aspetti della macchina-per-fare-i-sondaggi di cui avevano fatto particolari esperienze o avevano maggiore conoscenza: per i sondaggi accademici Boccuzzi (1985), intervistatrice e poi dottore di ricerca; per i sondaggi di agenzia Toller (1994), intervistatrice “pentita” e ora giornalista; per le proiezioni il collega Draghi (1982; 1996); per gli exit polls il collega Natale (1996); per i sondaggi telematici la collega Pavsic (1996); e così via. Questi autori, e altri come loro, hanno reso un servigio prezioso, analizzando al microscopio i problemi, i limiti e le distorsioni relativi a specifiche tecniche o aree di ricerca. Visto che l’evoluzione tecnologica è rapida anche in questo settore, la comunità scientifica deve ogni volta augurarsi che qualche suo membro, acquisita esperienza nell’impiego di una nuova tecnica, ne voglia fare oggetto di una pubblica

2 Alludo in particolare alla pratica abolizione del compito di tradurre (in classe o a casa) da una lingua all’altra, che addestrava la mente alla soluzione di problemi anziché all’apprendimento mnemonico, e quindi abituava a pensare autonomamente. Alludo anche alla continua contrazione del mero bagaglio di nozioni trasmesse e richieste: a un bagaglio di nozioni si può infatti sempre attingere per formare, una volta maturati, una coscienza critica.

valutazione critica. Se questo aggiornamento non è tempestivo, la critica rincorrerà gli ultimi sviluppi con armi spuntate perché relative ai penultimi.

C’è peraltro, credo, un modo per rendere meno affannosa questa rincorsa critica alle novità. E’ affrontare il nocciolo del problema, cioè il potere sacrale che le due parole magiche ‘casuale’ e ‘rappresentativo’ conferiscono a chi se ne appropria, permettendogli di spiegarci ogni sera cosa pensano 50 milioni di italiani adulti su questo e su quello dopo averne interrogati sì e no mille con frettolose telefonate. Sono convinto che non dovremmo stare a preoccuparci della sondo-crazia se ai portavoce televisivi di questi nuovi demiurghi fosse vietato di dire: “onorevole X, sette milioni di italiani le chiedono...” in luogo di un più dimesso “onorevole X, 128 persone (sulle 1.000 cui abbiamo telefonato) hanno scelto di porle — fra le quattro che abbiamo sottoposto loro — questa domanda:...” A 128 persone nessuno darebbe grande peso. Ma chi osa contestarne sette milioni? E’ su questa proiezione automatica sui moltissimi delle informazioni relative ai pochissimi che si fonda il potere sacrale dei sondaggi, e il loro pericolo.

La tendenza a sparare grosse cifre sulla base di informazioni ben più modeste si manifesta anche al di fuori dei sondaggi, ed è comunque congeniale al mezzo televisivo. «Oggi 15 milioni di autovetture hanno viaggiato sulle autostrade» «Ventidue milioni di famiglie sono rimaste a casa in questo week end». Nel primo caso, si proietteranno i conteggi (o le stime a lume di naso?) di qualche decina di operatori ai caselli. E nel secondo? Si telefona a duecento portieri? Alle cifre con molti zero noi italiani siamo particolarmente affezionati (è già un tratto che ci accomuna ai sudamericani): guadagnare uno stipendio espresso in milioni ci fa sentire importanti, mentre un tedesco sarebbe terrorizzato al ricordo della grande inflazione degli anni ’20 — un terrore che anche i tedeschi più giovani ereditano con il patrimonio genetico. Obbligare chiunque diffonda risultati di sondaggi a dare prima il totale effettivo degli interrogati e le frequenze effettive di ogni risposta, ciascuna seguita dalla relativa percentuale, vietando inoltre qualsiasi proiezione in cifre assolute calcolate sull’intera popolazione, sarebbe una misura semplicissima, ma naturalmente non piace a nessuno.

Ho visto complicati codici di auto-regolamentazione proposti3 da associazioni di operatori professionali nel settore: avanzavano richieste (pubblicazione del testo integrale del questionario, delle procedure dettagliate di campionamento, e simili) che evidentemente nessun giornalista sarebbe disposto a soddisfare, perché ciò comporterebbe una dilatazione dei tempi e degli spazi contraria ai più elementari canoni giornalistici. Ma non ho visto traccia di una proposta così semplice, che costerebbe solo una riga e pochi secondi.4

Ho l’impressione che la proposta di costringere i media a dare solo le cifre effettive degli intervistati non sarà mai oggetto di discussione. Ai giornalisti è gradita come la peste, perché sanno che il pubblico è stato abituato (anche e soprattutto da loro) a prestare attenzione solo dal milione in su. Da parte loro, gli accademici delle scienze umane, anche se magari non hanno mai avuto a che fare con i sondaggi, sentono che una proposta del genere vibrerebbe un colpo d’ascia all’albero sul quale stanno seduti. Togli alle scienze umane la pretesa di generalizzare (a una popolazione o addirittura al cosiddetto universo) le informazioni ricavate su pochi casi, e hai scardinato il pilastro che agli occhi dei più, dentro e fuori il recinto, regge il loro status di scienze.

3 Alludo in particolare al codice di auto-regolamentazione proposto nell’aprile ‘95 dall’Associazione degli Istituti di Ricerca e di Marketing (ASSIRM) in un convegno sul tema. Peraltro, un codice del genere esiste già; ma “non pare essere stato applicato sin qui non essendo mai pervenuta notizia di alcuna sanzione, anche di fronte a casi di palese inaccuratezza nell’esecuzione di rilevazioni” (Mannheimer 1996, 7). 4 Quando, intervenendo al convegno di cui alla nota precedente, avanzai la proposta descritta nel testo (obbligo di dare le cifre effettive prima delle percentuali, divieto di proiettare tali percentuali in cifre assolute calcolate sull’intera popolazione) gli interventi successivi hanno riconosciuto che sarebbe stata una proposta semplice ed efficace, e la cosa è finita lì.

Quella che ho appena descritto resta comunque una battaglia da fare, con l’ottimismo della volontà. Ma anche col pessimismo della ragione, predisponendo una seconda trincea o — se preferite — una seconda linea di attacco. Come dicevo sopra, la valutazione critica delle singole innovazioni tecniche è preziosa, e c’è da augurarsi che si trovi sempre qualche competente disposto a farla. Anche una rassegna panoramica come quella di Groves (1989) è importante. Peraltro, le analisi critiche delle specifiche innovazioni tecniche sono destinate ad essere superate con la stessa rapidità con cui sono superate le tecniche che analizzano: inoltre, sono contributi che per essere assimilati richiedono inevitabilmente competenze tecniche assai più ampie e dettagliate di quelle a disposizione di un profano, pur colto e interessato. C’è quindi bisogno anche di un lavoro che affronti il cuore del problema — cioè, ripeto, i concetti di estrazione casuale e di distribuzione rappresentativa. Se l’analisi è condotta con sufficiente profondità e generalità, essa dovrebbe stabilire criteri che valgono per qualsiasi novità presente o futura, cioè per qualsiasi tecnica escogitata per estendere a un’intera popolazione i risultati relativi a un campione — quindi, per i sondaggi telefonici come per gli exit polls, per le proiezioni come per i sondaggi effettuati per via telematica, cioè interrogando periodicamente un campione di persone attraverso un computer consegnato loro5. In tal modo potrebbe fornire ogni volta la base e il punto di riferimento per le critiche agli aspetti specifici di ciascuna innovazione tecnica. Devo peraltro temperare subito la generalità di questa affermazione osservando che proiezioni ed exit polls hanno caratteristiche tali da differenziarsi nettamente dalle altre tecniche da entrambi i punti di vista che ci interessano: l’affidabilità dei risultati e la pericolosità per le libere istituzioni. Le caratteristiche rilevanti che proiezioni ed exit polls hanno in comune sono due: — si riferiscono a qualcosa di già avvenuto (i voti già espressi); — le stime che essi producono vengono confrontate nel giro di poche ore con i risultati effettivi. Qualcosa che è già avvenuto non può essere modificato: sono quindi i media, e non i partiti, che hanno interesse a commissionare proiezioni ed exit polls. Ma anche sul mercato della comunicazione, il loro valore è altissimo fin tanto che non sono noti i risultati ufficiali; dopodiché essi vengono per così dire assorbiti da questi ultimi.

Il pubblico delle maratone televisive post-elettorali si trova per qualche ora nella situazione di quelle fanciulle alto-borghesi che per secoli le famiglie nobili europee hanno scelto come consorti dei loro cadetti più timidi e remissivi. Una volta prescelta, la fanciulla veniva ammessa nel palazzo dove le si faceva incontrare il nobile rampollo solo dopo una congrua anticamera da trascorrere nel salone con i ritratti degli avi, in modo che si rendesse meglio conto dell’onore che le era toccato. Durante l’attesa la fanciulla interrogava ansiosamente le fisionomie dei ritratti per avere un’anticipazione delle fattezze del suo promesso. Ma quando finalmente la porta del salone si apriva e appariva il principe azzurro, i ritratti così spasmodicamente scrutati erano istantaneamente dimenticati — e magari la fanciulla odiava quella sala per il resto della sua vita.

Per questi motivi sostengo che proiezioni ed exit polls non possono, e non potranno mai, avere un impatto politico distinto dall’esito elettorale, di cui sono l’anticipazione, e di conseguenza non potranno esser manovrati al punto da costituire un pericolo per la democrazia. Beninteso, man mano che affluiscono i risultati ufficiali, qualcuno del pubblico, e molti fra gli addetti ai lavori, possono confrontare quei risultati con le previsioni ricavate da proiezioni ed exit polls . Ma questo fenomeno non ha alcuna conseguenza politica, mentre ha un effetto benefico sulla qualità dei sondaggi. Vediamo perché. Chi confronta previsioni e risultati effettivi lo fa per vedere “se X {l’agenzia che effettua le proiezioni o i polls ] ci ha indovinato”. Quella che nel pubblico è una curiosità accademica, negli addetti ai lavori può essere qualcosa di ben diverso: una valutazione delle prestazioni delle varie agenzie, da comparare fra loro e con i relativi prezzi al fine di orientare le future commesse.

5 Sui sondaggi telematici (electronic mail surveys) vedi Kiesler e Sproull (1986); Saris (1989); Walsh et at. (1992); Beckenbach (1995).

Proprio perché — come ricordavo sopra — le stime prodotte possono essere confrontate “a caldo”; e da un vasto pubblico, con i risultati, le agenzie sanno benissimo che la maratona televisiva post-elettorale è per esse un banco di prova decisivo. Quindi hanno tutte le ragioni per investire il massimo delle loro attenzioni e risorse nel miglioramento delle loro prestazioni — come in effetti fanno.6

Rispetto ai comuni sondaggi, i punti di campionamento sono molto più numerosi e scelti assai più accuratamente : si suddivide il territorio in varie decine di zone omogenee entro le quali si scelgono con cura i seggi7 (fra i 300 e i 600, quindi tre o quattro volte tanto i punti di campionamento di un comune sondaggio) la cui composizione demografica ha subito le minori alterazioni rispetto alle precedenti elezioni, e nei quali la distribuzione dei voti nelle precedenti elezioni è stata la più vicina alla distribuzione dei voti in quella zona (Draghi 1996, 133). Nel caso degli exit polls, si intervistano dai 30mila ai 120mila votanti — almeno cinquanta volte tanto rispetto a un comune sondaggio. Si organizzano addirittura dei sondaggi preliminari ad hoc negli stessi distretti in cui verranno poi effettuati i polls, per disporre di una stima più aggiornata dei loro orientamenti rispetto alle elezioni imminenti. A qualche lettore tutti questi accorgimenti possono magari sembrare ovvi e normali: ma è invitato a confrontarli con la superficialità e la parsimonia di mezzi con cui sono condotti i sondaggi comuni, dei quali si dirà nelle sezioni successive. Rifletta anche, il lettore, sul fatto che se ogni sondaggio dovesse essere così impostato, pochissimi committenti potrebbero permettersene il costo.

A parte la cura incomparabilmente maggiore con cui vengono condotti, ci sono fattori intrinseci che rendono più affidabili i risultati di proiezioni ed exit polls rispetto ai risultati dei comuni sondaggi. Nel caso delle proiezioni, questi fattori sono evidenti: si parte infatti non da dichiarazioni circa il voto (da esprimere o già espresso) ma dagli effettivi risultati in un seggio, o gruppo di seggi limitrofi, dai quali si inferisce, in base a formule di ponderazione più o meno complicate, il risultato dell’intera area o dell’intero paese8. Non si ricorre, quindi, a una dichiarazione per ricostruire un comportamento, ma si stima la distribuzione di questi comportamenti sulla base della distribuzione di un loro sotto-insieme. Il problema dell’inferenza campione-popolazione si pone qui allo stato puro, privo di tutte quelle complicazioni che descriverò a partire dal § 1.2. In particolare, non si pongono i due problemi capitali di ogni forma di sondaggio: — non è detto che l’individuo estratto si trasformi in intervistato, perché può essere irreperibile, rifiutare l’intervista, non rinviare il questionario postale, non accettare il televisore in casa, e così via; — non è detto che le dichiarazioni dell’intervistato corrispondano ai suoi comportamenti, o atteggiamenti, effettivi. Gli scarti fra gli esiti delle proiezioni e i risultati effettivi dipendono quindi da due soli fattori: — il cosiddetto “errore di campionamento”, cioè il fatto che la distribuzione dei voti nei seggi scelti a far parte del campione si discosta — per motivi erratici — dalla distribuzione dei voti nell’intero paese. L’errore di campionamento non è un errore umano, e caratterizza ogni inferenza fra un campione e la relativa popolazione, anche quella più semplice e diretta (vedi oltre, § 1.2). — errori (in questo caso umani, pienamente giustificabili data la complessità del problema) nella scelta delle varie formule di ponderazione con le quali i risultati dei vari seggi sono combinati per produrre delle stime relative ai collegi, alle regioni, all’intero paese.

6 I dettagli di queste procedure sono descritte nel saggio di Natale in questo volume. Qui richiamo solo gli aspetti in cui l’investimento di risorse e di attenzione si discosta di più da quello operato nei comuni sondaggi, descritti nella sez. 1. 7 Nel caso dei polls si scelgono le “sedi”, gruppi di seggi ubicati nello stesso edificio. Sarebbe infatti complicato per un intervistatore individuare i votanti in quel dato seggio fra tutti quelli che escono dall’edificio. Per maggiori particolari vedi il saggio di Natale in questo volume, § 2c. 8 Inoltre, per poter fornire proiezioni anche quando lo spoglio in alcuni dei seggi scelti non è stato completato, si ricorre a un clustering agglomerativo dei seggi omogenei, ben descritto da Draghi (1996, 134).

A differenza delle proiezioni, gli exit polls sono, come dice il nome, sondaggi. Presentano quindi entrambi i generi di problemi appena richiamati: l’individuo che si sceglie di intervistare può rifiutare l’intervista, o può dichiarare il falso. Ma entrambi questi problemi si presentano in forma molto attenuata rispetto ai comuni sondaggi. Innanzitutto, non si dà il caso che l’individuo sia irreperibile: egli viene scelto non estraendolo da una lista di indirizzi e poi andandolo a cercare a quell’indirizzo, ma individuandolo nel flusso dei votanti che escono dai seggi9. Certo, può rifiutare l’intervista; ma è improbabile che lo faccia, visto che è fuori casa, è già stato distolto dalle sue abituali occupazioni, e gli riesce difficile invocare impegni urgenti, dato che è domenica10. Inoltre, l’impegno che gli si chiede è palesemente molto limitato (l’intervistatore gli presenta una scheda dove deve replicare il voto appena dato, corredandolo di tre o quattro informazioni elementari: sesso, età, titolo di studio, professione), e talvolta può anche essere considerato divertente (di solito viene messa a disposizione degli intervistati la replica di una cabina elettorale dove il voto può essere espresso in segretezza). Quest’ultimo accorgimento elimina il rischio di mancata corrispondenza fra il voto dichiarato e il voto effettivo per ragioni di riserbo. E’ escluso anche che l’intervistato non ricordi il voto appena espresso (mentre nei comuni sondaggi il cattivo ricordo riduce molto la fedeltà delle dichiarazioni circa i precedenti voti), ed è molto improbabile che abbia già cambiato idea (mentre il problema dei late switchers è uno dei più seri fattori di insuccesso dei sondaggi pre-elettorali). Certo, l’intervistato può prendersi gioco dell’agenzia, dichiarando volutamente un voto diverso, e magari opposto, a quello effettivo. Nel complesso, comunque, gli exit polls sono del tutto immuni da molti dei principali fattori intrinseci di infedeltà propri dei normali sondaggi, presentano i restanti fattori in forma attenuata, e non ne presentano di specifici. Dato che, per le ragioni illustrate, essi, come le proiezioni, non costituiscono alcun pericolo per la nostra libertà politica, non me ne occuperò nella trattazione che segue. Visto che, invece, le altre forme di sondaggio possono costituire un pericolo, la loro trattazione non può esser circoscritta agli addetti ai lavori, ma deve esser condotta con il linguaggio più vicino possibile a quello ordinario, e presupponendo il minimo possibile di conoscenze matematiche e statistiche. Qualche anno fa ho fatto un tentativo del genere (1989). Ma, sia perché il linguaggio era ancora troppo tecnico, sia perché il saggio vide la luce su una pubblicazione nobile ma relativamente poco diffusa, mi sembra il momento di riprovarci, svolgendo le argomentazioni di allora in forma semplificata e aggiornata.

1. Casualità, cioè estrazione casuale Dei due concetti fondamentali per il nostro discorso, il concetto di casualità è il più facile da illustrare ai non addetti ai lavori, perché si può ricorrere — come infatti fanno i manuali di statistica e di metodologia — all’immagine di un’urna dalla quale vengono estratte delle palline. Si può aggiungere l’immagine dell’estrazione dei numeri del lotto, che serve a sottolineare il fatto che le palline non devono essere riconoscibili da parte di chi le estrae nel momento in cui le estrae. Immagini così immediate e familiari dovrebbero rendere evidente il requisito che tutti i membri della popolazione campionata, così come tutte le palline dell’urna e tutti i numeri del lotto, devono avere esattamente la stessa probabilità di essere estratti.

Esse svolgono così la classica funzione ideal-tipica11 di evidenziare le differenze fra la situazione ideale e le varie situazioni effettive. Vediamo un esempio. Se non è indotto a riflettere, il non addetto ai lavori può anche ritenere che intervistando le persone “a caso” per strada si operi un campionamento casuale. Ma è facile (me lo conferma l’esperienza didattica) fargli riconoscere che mentre tutte le palline dell’urna hanno la stessa probabilità di essere estratte

9 Di solito si contatta un votante ogni tanti che escono, in certe fasce orarie: vedi il saggio di Natale in questo volume. 10 Draghi rileva una maggiore propensione al rifiuto fra gli anziani e le donne, ma non la quantifica (1996, 139). 11 Per Weber (1904) la principale funzione del tipo ideale è costituire un termine di paragone: confrontando con esso le situazioni effettive, si può meglio valutare per quali aspetti, e quanto, esse se ne distaccano.

(e quindi sono una popolazione dalla quale di effettua un campionamento casuale) non si può immaginare alcuna popolazione definita i cui membri abbiano la stessa probabilità di imbattersi in quel dato intervistatore e di attirarne l’attenzione. Infatti, anche se fosse definibile una popolazione di “quelli che passano di lì”, alcuni membri ci passeranno più spesso nelle ore in cui lavora l’intervistatore ; inoltre alcuni si faranno notare di più, altri tenderanno a passare inosservati, etc. L’immagine ideal-tipica dell’urna serve quindi a rendere familiare l’idea che l’uguale probabilità di essere inseriti nel campione per tutti i membri della popolazione campionata è un requisito della casualità. È’ una condizione necessaria? È’ una condizione sufficiente? La prima questione è controversa e complicata, e l’affronterò nella sez. 4. Consideriamo ora l’altra.

1.1. Nella teoria statistica si fa notare che, se si scelgono i membri di un campione mediante una tavola dei numeri casuali (il che equivale a estrarre le palline da un’urna) non solo ogni elemento ma anche ogni combinazione di elementi ha la stessa probabilità di essere scelta12 (cfr. Corbetta 1972, 350; Chiari e Corbetta 1973, 484). Questo differenzia il campionamento detto ‘casuale semplice’ dal campionamento detto ‘sistematico’, che non garantisce affatto l’equi-probabilità di estrazione per ogni combinazione di individui. Si può effettuare un campionamento sistematico se si dispone di un elenco completo e numerato degli individui nella popolazione da campionare13. Basta dividere l’elenco in tanti segmenti di lunghezza uguale quanti sono i membri del campione che si vuole estrarre; dopodiché si estrae a caso un elemento dal primo segmento, e da ogni altro segmento si estrae l’elemento che porta il numero corrispondente. Supponiamo ad esempio di aver diviso un elenco di mille nomi in 10 segmenti di cento nomi, e di aver estratto il 57° individuo dal primo segmento: il nostro campione di 10 membri (tanti quanti sono i segmenti) risulterà composto dagli individui che occupano le posizioni 57, 157, 257, ..., 957 nell’elenco generale. Questa procedura, molto usata nelle scienze sociali perché particolarmente rapida ed efficiente, non soddisfa la condizione di equi-probabilità di estrazione per ogni combinazione di individui. Anzi, la stragrande maggioranza delle possibili combinazioni non ha alcuna possibilità di essere inclusa (non può infatti essere estratta alcuna combinazione che comprenda due o più membri che occupano una posizione sequenzialmente diversa: ad es., l’ottavo membro di un qualunque segmento ed il decimo membro di un qualunque altro segmento).14

Ma questo — come vedremo — è di gran lunga il meno grave di tutti i problemi che affliggono il campionamento nelle scienze sociali. Solo se il passo (la lunghezza del segmento) viene scelto in modo infelice, può capitare che l’estrazione si distacchi in maniera significativa da una sostanziale casualità.15

Gran parte dei sondaggi telefonici ricorrono al campionamento sistematico, adottando come rudimentale “passo” la pagina dell’elenco telefonico: di solito viene estratto il primo (o l’ennesimo)

12 E’ il caso di aggiungere un rilievo peraltro ovvio: le combinazioni hanno uguale probabilità di essere estratte solo se hanno lo stesso numero di elementi. Tutte le combinazioni di n elementi hanno la stessa probabilità di essere estratte, e ciascuna di esse ha una probabilità maggiore di qualsiasi combinazione con più di n elementi e minore di qualsiasi combinazione con meno di n elementi. 13 Di solito si precisa che il criterio secondo il quale sono ordinati gli individui non dev’essere in alcun modo collegato alle proprietà che interessano nella ricerca per la quale si effettua il campionamento. Ma — come verrà mostrato in una prossima nota — questo inconveniente può essere neutralizzato con una scelta oculata del passo (lunghezza del segmento dal quale si estrae un elemento). 14 Nel momento in cui decidiamo di ricorrere a un campione sistematico decidiamo automaticamente che tutte le combinazioni comprendenti membri in posizione diversa non saranno estraibili; nel momento in cui stabiliamo il passo (100 nomi, oppure 200, etc.) decidiamo automaticamente anche quante saranno effettivamente tali combinazioni non estraibili. 15 Per spiegare cosa intendo per “scelta infelice del passo”, invito il lettore a immaginare una divisione di fanteria composta da cento plotoni, ognuno con cento effettivi di cui 5 graduati; nell’elenco degli effettivi di ogni plotone, i primi numeri sono assegnati ai graduati, gli altri ai soldati semplici. E’ evidente che applicando un campionamento sistematico con passo 100 all’elenco degli effettivi della divisione ordinati per plotone si estrarrebbe o un campione senza graduati oppure un campione senza soldati. Ma questa conseguenza sarebbe evitata con qualsiasi passo diverso da 100 (o da un multiplo o sotto-multiplo di 100).

nome di ogni pagina, oppure un nome ogni due, tre o più pagine. Se interessano solo individui, tutti i nomi di ditte, uffici, negozi eventualmente estratti vengono sostituiti con i più vicini nomi di individui. Questo naturalmente aumenta molto le probabilità che entrino a far parte del campione persone il cui cognome inizia in modo simile a un nome ricorrente di ditta o di negozio (ad es. Bar..., Ass...). Ma a questa distorsione si può porre rimedio, così come si può tener conto del fatto che la maggior parte delle utenze sono intestate al “capo-famiglia”, adottando delle complicate tabelle per stabilire quale membro della famiglia scelta attraverso l’elenco telefonico debba essere intervistato. Un problema più delicato è posto dal fatto che chi vive solo ha (per es.) quattro volte più probabilità di entrare nel campione di ciascuno dei membri di una famiglia-tipo (coniugi, nonna, figlio ventenne) con un solo numero telefonico. E’ teoricamente possibile rimediare ex post a questa distorsione con complicate ri-ponderazioni; ma, a parte le gravi riserve sulle legittimità di queste ponderazioni, che esporrò al par. 4.1, per effettuarle sono necessarie varie informazioni non facilmente disponibili in veste aggiornata.16

Un problema altrettanto serio, e più evidente, è costituito dal fatto che non tutti gli italiani adulti sono titolari, o comunque riconducibili, a un’utenza telefonica privata che compaia sull’elenco. Si potrebbe pensare che questo limite riguardi solo le aree più povere del paese, ma non è affatto così.17

Questi ultimi due problemi, peraltro, non riguardano il sondaggio telefonico in sé, e meno che mai il campionamento sistematico in sé. Essi emergono soltanto se si vuole estendere l’inferenza al di là della popolazione effettivamente campionata, che non è una popolazione di residenti adulti, e nemmeno una popolazione di residenti forniti di telefono, ma è una popolazione di utenze telefoniche. D’altra parte, questa estensione dell’inferenza è inevitabile, dato che a nessuno interessano atteggiamenti e comportamenti delle utenze telefoniche. Stando così le cose, ritengo che si possano campionare utenze telefoniche ed estendere i risultati alla corrispondente popolazione di residenti adulti solo se: — si dispone di un’aggiornata distribuzione per numero di componenti delle famiglie (meglio se delle sole famiglie con utenza telefonica) e si opera in modo da produrre un’analoga distribuzione delle famiglie individuate e inserite nel campione mediante l’elenco del telefono; — si dispone di una seria stima della quota di residenti sprovvisti di telefono nelle zone dove vengono effettuate interviste, e si fa in modo di intervistare un numero di tali residenti proporzionale alla loro quota sul totale della popolazione. Visto che più si estende l’ambito territoriale della ricerca, più diventa difficile procurarsi queste informazioni per l’intero ambito, ritengo del tutto insostenibile la pretesa di aver estratto attraverso l’elenco del telefono un campione casuale della popolazione italiana adulta. 1.2. Un problema generale, che riguarda tutte le forme di sondaggio, è posto dal fatto che nelle scienze sociali l’estrazione non è fine a se stessa, ma è in funzione di un successivo contatto (di solito un’intervista). Se un individuo estratto non viene reperito dall’intervistatore al suo indirizzo o non risponde al telefono, oppure non si lascia interrogare o non rinvia il questionario compilato, o non

16 Bisognerebbe disporre della distribuzione aggiornata delle famiglie per numero di componenti nell’area in cui si effettuano le interviste, per poterla confrontare con l’analoga distribuzione nel campione, quale risulta da apposita domanda agli intervistati. Inoltre, ammesso che tale distribuzione sia disponibile, essa riguarderebbe tutti i residenti e non solo quelli forniti di telefono nell’abitazione — il che ci riconduce al punto successivo. 17 In occasione di una ricerca (condotta negli anni ottanta e inedita) sull’immagine delle tre industrie irizzate (Ansaldo, Italimpianti, Italsider) presso gli abitanti di Genova, convinsi i committenti a controllare in sede di pre-test le indicazioni fornite alla SIP circa la percentuale di genovesi forniti di telefono (il 90%). Il pre-test fu quindi svolto su intervistati scelti con la tecnica del city-block sampling (letteralmente campionamento degli isolati, spesso detto “campionamento per spot” dalle agenzie italiane): partendo da un punto da noi assegnato, gli intervistatori facevano il giro dell’isolato entrando in un portone ogni cinque e alternando i pianerottoli. Al termine, chiedevano all’intervistato il suo numero di telefono “così quelli possono controllare che l’intervista sia stata effettuata e non inventata”. La percentuale fornita dalla SIP risultò esatta solo per i quartieri residenziali; ma nel centro storico e nella periferia operaia trovammo percentuali fra il 45% e il 60%. Su tali percentuali ci basammo per integrare quartiere per quartiere l’elenco degli intervistati estratti con il campionamento sistematico dall’elenco telefonico, intervistando genovesi privi di telefono individuati mediante la stessa tecnica del city-block sampling. Sulle distorsioni alla casualità del campionamento nei sondaggi telefonici, Brick et al. (1995); Keeter (1995). Sui sondaggi telefonici in generale, Groves e Kahn (1979).

accetta di ospitare in casa un calcolatore collegato con l’agenzia, è come se non fosse stato estratto: egli viene a “cadere” dal campione. Ora, per quanto molti ricercatori siano assai parchi di informazioni sull’incidenza di tali “cadute” nei loro sondaggi18, è comune esperienza che esse possono raggiungere l’80-90% del campione se il questionario è inviato per posta, il 50-60% se l’intervista è sollecitata per via telefonica, e il 30-40% se è sollecitata di persona da un intervistatore.19

Quello che preoccupa di più, peraltro, non è l’alta incidenza numerica delle cadute. Come osservano Castellano e Herzel, “se le caratteristiche dei non-rispondenti rispetto all’oggetto dell’indagine fossero le stesse di quelli che rispondono al questionario, il fenomeno sarebbe di importanza trascurabile: si avrebbe soltanto una riduzione della dimensione del campione... che potrebbe essere compensata mediante la rilevazione di altre unità sostitutive... [ma] in generale la massa dei non-rispondenti si differenzierà da quella dei rispondenti per abitudini di vita, situazione economica, livello di istruzione, età, e per altri fattori consimili, ed è poco probabile che questo complesso di fattori non influisca anche sulla distribuzione del carattere che si intende indagare” (1971, 302).

L’opinione di Castellano e Herzel è suffragata dai risultati di mezzo secolo di ricerche20. Nel caso di questionari postali, risulta più probabile che rispondano gli anziani con un livello di cultura medio-alto, mentre è più difficile che rispondano quelli che svolgono un lavoro full-time fuori casa, nonché gli scarsamente istruiti ; professionisti e lavoratori autonomi rispondono solo se sono interessati al problema specifico toccato dal sondaggio. Se il questionario è somministrato da un intervistatore, di persona o per telefono, questi ha ovviamente maggiori difficoltà a reperire chi lavora fuori casa, incontra un maggior tasso di rifiuti per indifferenza o diffidenza nei quartieri del centro cittadino e in quelli sottoproletari, trova quasi sempre ben disposte le casalinghe e le giovani, mal disposti gli occupati e i giovani, etc.21 Nel caso di sondaggi telematici, è risultato — non era difficile immaginarlo — che il nuovo strumento è accettato meno volentieri in casa dalle persone anziane, in genere abitudinarie e sospettose di ogni novità ; in generale dalle persone non familiari con i calcolatori (Pavsic 1996) ; d’altra parte, ha meno motivi per accettare le condizioni dell’agenzia chi non ha bisogno di (altri) calcolatori in casa e chi vive in appartamenti piccoli (prevalentemente giovani residenti in grandi città). Alcuni particolari categorie di persone — giovanissimi, super-impegnati — magari accettano le condizioni ma poi mancano di soddisfarle (Kiesler e Sproull 1986 ; Walsh et al. 1992).

In altre parole, la mera appartenenza di un soggetto a certe categorie riduce oppure accresce a priori, e in modo significativo, la probabilità che egli sia reperibile al telefono o al suo indirizzo nelle ore in cui può cercarlo un intervistatore, che conceda l’intervista, che rinvii il questionario postale, etc.

18 Lo lamenta anche Statera (1982, 137). Sui tassi abituali di “cadute” vedi Pitrone (1984, 145-157) e la letteratura ivi citata. 19 E’ infatti molto più facile troncare una conversazione telefonica che mandare via una persona dalla porta di casa sbattendogliela in faccia. L’intervista telematica (effettuata attraverso un calcolatore domiciliato nelle abitazioni) è ancora molto poco diffusa, e non ho informazioni sul tasso di rifiuti di ospitare il calcolatore alle condizioni poste dell’agenzia. 20 Tra le più antiche, Stanton (1939) e Reid (1942). Tra le più note, un’intera monografia (Marquis 1977), e inoltre Ferber e Wales (1952); Donald (1960); Heberlein e Baumgartner (1978), che passano in rassegna le opere precedenti; Goyder (1982). Per un elenco più nutrito, rinvio a Marradi (1989, 73). Sulle specifiche distorsioni alla causalità introdotte dalle nuove tecniche, Herzog et al. (1983); Walsh et al. (1992). 21 Le distorsioni introdotte, in un modo o nell’altro, nel processo di reperimento dell’intervistato e di esecuzione dell’intervista hanno ricevuto una grande varietà di etichette nella letteratura metodologica: le più usate fra queste (design bias e participation bias) non sono molto felici come espressioni, ma sono state definite con chiarezza da Stephenson. Si ha design bias perché “la gente non sta seduta a casa ad aspettare che si faccia vivo un intervistatore”, e si ha participation bias perché “anche quando l’intervistatore rintraccia qualcuno, non è detto che questo cooperi” (1979, 483). Due espressioni non corrispondenti, in quanto relative a un confronto a posteriori fra caratteristiche degli intervistatori e degli intervistati, sono stati introdotte da Ferber e Wales (1952): una corrispondenza più alta di quella attribuibile al caso fra le caratteristiche dell’intervistato e quelle dell’intervistatore è stata da loro denominata selection bias se si riferisce alle caratteristiche socio-demografiche e answer bias se si riferisce alle opinioni.

Per capire le conseguenze di questo fatto, ricapitoliamo tutto il procedimento con l’aiuto della fig. 1. Se ognuno dei membri della popolazione campionata ha la stessa probabilità di essere estratto a far parte del campione, diremo che questo campione è casuale al momento dell’estrazione (cce). Durante i passaggi intermedi fra l’estrazione e la concessione dell’intervista, tuttavia, ogni cce si divide di fatto in due sub-campioni: quello dei soggetti che rispondono (sr) e quello dei soggetti che, per questo o quel motivo, non vengono intervistati o comunque non rispondono (snr)22. Per le ragioni sopra ricordate, né sr né snr possono essere considerati campioni casuali di cce, e quindi a fortiori della popolazione che interessa. Conseguenza: anche un campione casuale al momento dell’estrazione viene trasformato, dal processo di reperimento e intervista dei singoli soggetti, in due campioni non casuali23. Su uno di questi (sr) viene svolta la ricerca, continuando a considerarlo pienamente casuale.

Fig. 1: Da un campione casuale a due

campioni non casuali

L’immagine dell’estrazione dall’urna è pienamente applicabile solo nel caso di popolazioni che per qualche motivo sono a disposizione del ricercatore e non possono rifiutarsi di rispondere (soldati, internati in carceri, ospedali, ospizi, manicomi, e in larga misura anche studenti24). A parte queste situazioni di “cattività”25, gli esseri umani differiscono dalle palline nell'urna per due aspetti essenziali: non sono a portata di mano del ricercatore e sono pienamente liberi di non rispondere ai suoi quesiti anche quando sono stati raggiunti (mentre le palline non possono rifiutarsi di essere estratte). Di conseguenza, l'estrazione casuale degli intervistandi da un elenco è una condizione necessaria ma non sufficiente di casualità del campione : se si intende conoscere le opinioni e/o altre caratteristiche non-pubbliche degli individui estratti, è necessario che tutti

22 Dato che alcune categorie di persone, anche quando concedono l’intervista, tendono a rifiutare più della media domande che ritengono delicate (sul voto, il reddito, il sesso, etc.), il discorso che stiamo facendo per l’intervista nel suo complesso dovrebbe essere ripetuto separatamente quanto meno per ogni domanda delicata. 23 Anche il prof. Luzzatto Fegiz, fondatore della Doxa, ammise il fatto che i questionari postali sono soggetti a distorsioni sistematiche: “è dimostrato che coloro che rispondono non sono affatto un campione rappresentativo dell’universo cui è stato spedito il questionario... può succedere che coloro che rispondono siano sistematicamente differenti da quelli che cestinano i questionari” (Bollettini Doxa n. 20 del 15 ott. 1951, p.156 e n. 21 del 1° nov. 1951, p.159). Luzzatto omise peraltro di menzionare il fatto che le distorsioni sistematiche sono inevitabili anche nel caso di sondaggi mediante intervista. Forse perché molti potenziali committenti sono in grado di organizzarsi da soli un questionario postale (quindi è meglio scoraggiarli), mentre se si vuole fare un sondaggio mediante interviste è più difficile fare a meno dei servigi di un’agenzia specializzata. Altra osservazione riguarda l’uso del termine ‘rappresentativo’ da parte di Luzzatto Fegiz. Dato che l’avere uno stato piuttosto che l’altro su alcune proprietà (età, sesso, status occupazionale, livello di istruzione, etc.) influisce sulle probabilità di un individuo di entrare a far parte di sr (il sub-campione dei soggetti che rispondono), la questione riguarda prima di tutto la casualità del campione e solo in secondo luogo, ed eventualmente, la sua rappresentatività. Ai rapporti fra casualità e rappresentatività dedicherò la sez. 3. 24 Infatti buona parte delle ricerche pubblicate dagli psicologi sono condotte sugli studenti dei loro corsi universitari. 25 I soggetti a disposizione dei ricercatori sono detti captives (prigionieri) da psicologi e sociologi di lingua inglese,

siano effettivamente reperiti e collaborino ; ma se gli individui non sono in qualche modo tenuti o costretti a farlo, è molto improbabile che tutti (o anche quasi tutti) si prestino. Più alta è l’incidenza delle “cadute” dal campione estratto, meno è legittimo continuare a definirlo ‘casuale’. Sarebbe come fare un’estrazione dei numeri del lotto in cui alcune palline sono più leggere e altre sono più pesanti della media delle palline. Le prime tenderebbero a restare negli strati alti dell’urna, e quindi i numeri che portano avrebbero più probabilità della media di essere estratti. Le seconde tenderebbero ad andare in fondo all’urna, e quindi i loro numeri verrebbero estratti più raramente degli altri.

Non molti autori hanno denunciato il fatto che le “cadute” rendono non-casuale anche un campione estratto casualmente26. Fra questi, Mosteller precisa che le mancate interviste “provocano allargamenti di ampiezza ignota attorno alle stime dei parametri” (1968, 120). Analogo rilievo da parte di Chiari e Corbetta, che aggiungono: “In effetti, anche il ricercatore più rigido si vedrà costretto a sostituire, con altri estratti a caso, i soggetti irreperibili o che assolutamente si rifiutano di rispondere. In certe situazioni cercherà anche, con cautela naturalmente, di ridurre la dispersione delle unità campionarie più scomode mediante una concentrazione delle stesse in un numero limitato di aree in modo da facilitare la raccolta dei dati” (1973, 646).

In questo passo si mettono inavvertitamente sullo stesso piano due operazioni profondamente differenti : la sostituzione ex post dei soggetti caduti dal campione perché irreperibili e/o non disposti a farsi intervistare, e la manipolazione preliminare e deliberata, per ragioni economiche (risparmio sui costi di trasferta degli intervistatori), del piano di campionamento. Si tratta invece di due operazioni che si compiono in momenti diversi, con motivazioni diverse e con — soprattutto — conseguenze di ben diversa gravità sulla natura casuale dell’estrazione, e quindi del campione.

Nel par. 4.1 vedremo le procedure cui ricorrono le agenzie per “ridurre la dispersione delle unità campionarie più scomode”. Consideriamo ora la sostituzione dei soggetti non intervistabili con altri. Questa è una pratica corrente, cui anche i metodologi più rigorosi fanno ricorso, per ragioni di forza maggiore. Tuttavia essa introduce una distorsione di entità e conseguenze non accertabili rispetto all’esito dell’originaria estrazione casuale, e pertanto a rigore non è compatibile con la pretesa di aver estratto un campione casuale. Come osservano Castellano e Herzel (1971, 302), anziché intervistare unità sostitutive bisognerebbe concentrare gli sforzi sul tentativo di reperire e intervistare un sub-campione casuale di quelli che non rispondono (cioè un sub-campione di quello che ho chiamato snr) al fine di poter stimare l’entità delle differenze sistematiche fra sr e snr sulle proprietà più rilevanti per la ricerca in corso, e così avere almeno un’idea delle distorsioni introdotte, rispetto a cce, dal processo di reperimento e intervista.

Ma anche questa procedura particolarmente faticosa e dispendiosa non costituisce in realtà una soluzione soddisfacente, perché nulla garantisce che il sub-campione dei soggetti che sono stati reperiti e/o intervistati con uno sforzo supplementare siano a loro volta un campione casuale di snr, cioè di tutti quelli che non erano stati reperiti e/o intervistati al primo tentativo. Si può anzi ragionevolmente pensare che questo gruppo (che chiamerò srs, sub-campione di rispondenti in seconda battuta) abbia caratteristiche in qualche modo intermedie fra quelle degli intervistati in prima battuta (sr) e quelle degli irriducibilmente irreperibili e/o non intervistabili (snr — srs). Di conseguenza, è abbastanza illusorio pensare di stimare attendibilmente le distorsioni, anche se ogni tentativo di farlo è comunque meritorio perché mostra e induce sensibilità al problema. Bisogna poi considerare che l’entità relativa di tutti questi gruppi (sr, snr ed eventualmente srs) varia a seconda del tipo di ambito, della forma di contatto (questionario postale, intervista personale, telefonica o telematica), dell’oggetto della ricerca27 e di imprevedibili fattori

26 Tra questi, oltre a Castellano e Herzel (1971, 302), Mosteller (1968, 120); Chiari e Corbetta (1973, 646-9); Henkel (1976, 25 e 76-80); Perry (1979, 314). 27 Un ricercatore che voglia ottenere risposte sincere, significative e approfondite dovrebbe dichiarare e/o far dichiarare ai suoi intervistatori che l’oggetto della ricerca è meramente cognitivo anziché sostenere che essa potrà avere conseguenze benefiche in qualche modo rilevanti per l’intervistato; descrivere fedelmente tale oggetto invece di rappresentarlo nel

contingenti. Pertanto, pensare di poter stimare ex ante gli effetti delle varie distorsioni è ancora più illusorio che pensare di poterli stimare ex post.

2. Rappresentatività, cioè rapporto proporzionale fra distribuzioni nel campione e nella

popolazione Esaminiamo ora il significato dell’altro termine-feticcio: rappresentatività. Nei manuali di metodologia delle scienze umane non se ne trovano molte definizioni. In quella che ne dà Statera, “un campione è rappresentativo dell’universo di cui fa parte se ne riproduce, in piccolo, le caratteristiche, con scarti non significativi imputabili al caso” (1982, 124). La scelgo perché ha il pregio di rispecchiare sinteticamente il punto di vista della grande maggioranza degli scienziati sociali, riproducendo in forma indiretta anche il rituale nesso fra rappresentatività e casualità. Mettiamo da parte per il momento questo nesso (cui sarà dedicata la sez. 3), e analizziamo attentamente il resto. Si dice che un campione rappresentativo deve riprodurre in piccolo le caratteristiche della popolazione. Per giudicare se e in che misura A riproduce effettivamente certe caratteristiche di B, dobbiamo poter confrontare A e B per quanto riguarda tali caratteristiche. Ne consegue che per poter stabilire se un campione rappresenta (certe caratteristiche del)la popolazione, è necessario conoscere empiricamente (almeno rispetto a tali caratteristiche) sia il campione sia la popolazione. Primo corollario: visto che (almeno per certe caratteristiche) la popolazione deve essere conosciuta, si può parlare di rappresentatività solo rispetto a una popolazione, non rispetto a un universo.28

Secondo corollario: visto che il campione deve essere noto, non si può parlare di rappresentatività se non dopo che il campione è stato estratto. A differenza della casualità, che è una proprietà del procedimento di estrazione, la rappresentatività è una proprietà dell’esito di tale procedimento. Il giudizio sul grado di rappresentatività di un campione rispetto a una popolazione dipende solo da tale confronto di distribuzioni ed è pertanto completamente indipendente da ogni informazione sulla procedura di estrazione. Una data distribuzione potrà quindi esser giudicata rappresentativa (o meno) qualunque sia la procedura con cui è stata ottenuta. 2.1. Si è parlato sinora di “riprodurre, in piccolo, le caratteristiche della popolazione”. Ma cosa sono queste caratteristiche? Non possono essere che le proprietà (dette anche attributi) alcune delle quali sono trasformate in variabili attraverso una definizione operativa. E cosa vuol dire “riprodurre in piccolo”? Ecco una domanda che nessuno si pone, fra gli autori che ho consultato. Ma se si vuole chiarire il concetto di rappresentatività non si può evitare di porsela, e — una volta postala — evitare di giungere a una certa risposta, che comporta alcune conseguenze spiacevoli (il che probabilmente spiega anche il fatto che si eviti di porsi la domanda). Alla risposta spiacevole ma inevitabile si giunge mediante una serie di argomentazioni che sviluppo qui di seguito. a) Ciò che deve essere riprodotto in piccolo è una “caratteristica”, cioè — abbiamo visto — una proprietà.

modo più gradevole possibile; premettere che l’intervista è impegnativa e dura 90 minuti anziché promettere al malcapitato che se la caverà in mezz’oretta. Tutto questo però aumenta le probabilità che gli intervistandi meno interessati a quell’oggetto, più occupati, meno sensibili a interessi puramente cognitivi, etc. rifiutino l’intervista, e quindi aumenta il tasso di distorsione di sr rispetto a cce. Il modello idealtipico dell’estrazione casuale è congruente — non per caso — con il modello idealtipico dell’intervistato nell’epistemologia behaviorista (una specie di banca-di-dati, fornito di un’opinione su tutto e pronto a manifestarla sinceramente: vedi i rilievi di Pitrone 1984, 121-9); si concilia assai meno con le situazioni reali e con un approccio alla ricerca che prenda atto e rispetti le specificità dei soggetti — per dovere etico oltre che per ottenere informazioni più attendibili. 28 Da Fisher (1922, prima parte) in poi la statistica distingue correttamente fra universo (infinito, e puramente ipotetico) e popolazione (finita e concreta): vedi anche Hagood (1941); Hogben (1957); Bakan (1966); Morrison e Henkel (1970); Henkel (1976). Da quanto osservato consegue che il concetto di universo è a stretto rigore rilevante solo per la casualità dell’estrazione: infatti alcuni fondamentali principi statistici (legge dei grandi numeri, teorema del limite centrale, etc.) valgono solo per un universo (cioè un numero infinito) di estrazioni.

b) Se tale proprietà fosse una costante, basterebbe rilevare il suo stato in un caso qualunque per sapere quale stato essa abbia in tutti i casi della popolazione (esattamente come il fisico rileva lo spettro, la conduttività elettrica e le altre proprietà di un composto servendosi di un campione qualunque di tale composto, certo che quanto egli rileva varrà per tutti gli altri possibili campioni dello stesso composto). Quindi, affinché l’intera procedura del campionamento abbia un senso, bisogna dare per scontato che la proprietà in questione assuma almeno due stati diversi nella popolazione. c) Ogni volta che gli stati di una proprietà sono almeno due, diventa importante la distribuzione dei casi fra i vari stati possibili. La proprietà in questione presenterà una certa distribuzione (chiamiamola D) fra i casi della popolazione, e una certa distribuzione (chiamiamola d) fra i casi del campione. Nel confronto fra campione e popolazione di cui si parlava poco sopra, ciò che viene confrontato è appunto (per ciascuna delle proprietà che interessano — su questo punto tornerò) la distribuzione d con la distribuzione D. d) Stabilito questo, comincia a farsi più chiaro il significato dell’espressione ‘riprodurre in piccolo le caratteristiche’. In senso stretto, ‘riprodurre’ vorrebbe dire fare in modo che, per ciascuna proprietà, la distribuzione d sia uguale alla distribuzione D. Ma ciò non è possibile perché per definizione i casi del campione sono meno numerosi dei casi della popolazione. Aggiungendo l’espressione ‘in piccolo’ si intende tener conto di questo fatto: visto che non può essere uguale alla distribuzione D, la distribuzione d deve essere proporzionale ad essa; questo per ciascuna delle proprietà considerate, e per ciascuna loro combinazione. Per chiarire cosa intendo per distribuzione proporzionale a un’altra, nella fig. 2 presento due istogrammi: in quello a sinistra (d) la distribuzione degli stati su una proprietà (poniamo il titolo di studio) nel campione; in quello a destra (D) la stessa distribuzione nella popolazione. L’altezza delle colonne (che corrispondono alle frequenze dei vari titoli di studio) è naturalmente molto differente nel campione e nella popolazione, ma le percentuali di casi che cadono in due colonne corrispondenti (ad es., la colonna e e la colonna E) è la stessa. Se noi rendessimo l’altezza di ciascuna colonnina proporzionale non alla frequenza nella categoria che essa rappresenta, ma alla sua percentuale sul totale dei casi, i due istogrammi sarebbero identici.

e) Naturalmente una perfetta corrispondenza bi-univoca fra le percentuali di casi nella stessa categoria del campione e della popolazione è un requisito troppo restrittivo. Anni fa Mannheimer propose una definizione così rigida (“la rappresentatività del campione è condizionata dal fatto che la

distribuzione di una serie di attributi... degli intervistati sia esattamente proporzionale a quella dell’universo che si vuole rappresentare”: 1985, 149; corsivi miei). Ma non credo che ora la sottoscriverebbe. Allora, quale scostamento siamo disposti a tollerare in pratica? Quanti punti di percentuale in più o in meno, e per quali e quante delle categorie? Non mi risulta che alcuno abbia dato risposta a questa domanda, cioè abbia proposto un qualche criterio per l’attribuzione o meno del crisma della rappresentatività. Si osserverà che è ridicolo pretendere di dare un taglio netto chiamando ‘rappresentativo’ tutto ciò che si trova appena al di qua del taglio e ‘non-rappresentativo’ tutto ciò che si trova appena al di là. Dopo aver osservato, per inciso, che proprio su tagli netti come questo si fonda tutto quel settore portante della statistica classica detto “test delle ipotesi” 29, ammetterò senza difficoltà che la soluzione del taglio netto è in effetti ridicola. Ma se le cose stanno così, si dovrebbe prenderne atto, concependo ‘rappresentatività’ come un concetto di grado, che può assumere cioè innumerevoli stati intermedi fra l’assenza e la pienezza. Invece il termine è usato quasi sempre in forma dicotomica, come se si riferisse a qualcosa che o c’è o non c’è (nelle auto-valutazioni delle agenzie di sondaggi, c’è sempre).30

Nella scienza come nella vita quotidiana, un concetto di grado è semplificato in una dicotomia quando si preferisce non problematizzarlo per non doversene preoccupare. Nel nostro caso, non solo non sono state proposte precise soglie demarcanti l’uso legittimo del termine, ma è mancata qualsiasi forma di dibattito sul tema ; anzi — a quanto mi consta — il tema non è stato mai sollevato in forma problematica. Tutto ciò fa dubitare che sia stato proprio il senso del ridicolo a trattenere statistici e scienziati sociali dal fissare delle soglie-limite per l’uso del termine ‘rappresentativo’; si può sospettare che giochi una diversa motivazione : non essendo stato stabilito alcun limite, ciascuno usa il termine come più gli aggrada, dichiarando ‘rappresentativa’ una distribuzione nel campione quali che siano i suoi rapporti con la corrispondente distribuzione nella popolazione — ammesso che quest’ultima sia nota, cosa tutto sommato piuttosto rara.

2.2. Ma il punto più grave non sta ancora qui. L’esplorazione dei possibili significati del termine ‘rappresentativo’ deve ancora investire alcuni aspetti specifici, e assai rilevanti per il nostro discorso, della situazione epistemologica delle scienze sociali. Il filo dell’argomentazione riparte pertanto dalla considerazione che: f) La teoria degli errori del ‘700/’800, la statistica pre-inferenziale dell’800 e quella inferenziale del ‘900 hanno in comune la caratteristica di essere essenzialmente monovariate, cioè di interessarsi alla distribuzione degli stati di una proprietà per volta, o di più proprietà solo se indipendenti tra loro31.

A tutt’oggi, uno dei più autorevoli trattati sul campionamento dedica al caso di obiettivi di ricerca multi-variati solo una notazione rapida e indiretta: “quando l’inchiesta ha più oggetti si deve aver riguardo, naturalmente, a tutti gli oggetti del campionamento, mediante una stratificazione per classi combinate di tutti i caratteri che interessano le rilevazioni” (Castellano e Herzel 1971, 237). Un più recente manuale di statistica dedica alle distribuzioni multi-variate solo 20 pagine su un totale di 450 (Orsi 1985).

29 Il “test delle ipotesi” consiste nello stabilire una “ipotesi nulla” che si respinge o meno a seconda che certi valori sintetici (ad esempio la media) del campione siano al di sotto o al di sopra di una certa soglia, stabilita facendo riferimento alle speciali proprietà della “curva normale”. 30 Per documentare questa affermazione (che ho formulato sulla base dei rapporti ricevuti da varie agenzie cui avevo commissionato sondaggi) devo far riferimento al Bollettino della Doxa, come ho già fatto e continuerò a fare in questo articolo. Il Bollettino è infatti l’unica pubblicazione periodica da parte di un’agenzia di sondaggi che abbia avuto lunga durata (fondata nel 1947 con periodicità quindicinale, e mai interrotta). La Demoskopea ha pubblicato in tutto una ventina di numeri di “Ricerche Demoscopiche” fra il 1969 e il 1975. Da un’analisi sistematica di 42 annate (Siboni e Marradi 1989) è risultato che nella maggior parte dei casi la Doxa afferma che i suoi campioni sono rappresentativi senza addurre alcuna prova o indizio. In alcuni casi, essa basa tale affermazione sulla procedura di estrazione; più raramente la basa su un confronto (peraltro non sempre ben documentato) delle distribuzioni di alcune proprietà elementari con quelle rilevate dal precedente censimento; ancor più di rado combina queste due giustificazioni. 31 Vedi sul punto le ricostruzioni di Lazerwitz (1968), Capecchi (1972), McKenzie (1981).

Al contrario, praticamente tutte le ricerche empiriche in sociologia, scienza politica, psicologia sociale sono multi-variate, nel duplice senso che: 1) il disegno della ricerca è multi-variato, cioè contempla la raccolta di informazioni su molte proprietà contemporaneamente. Limitandoci ai sondaggi per campione, che sono oggetto specifico di questo saggio, metterne in moto tutta la complessa macchina organizzativa al fine di raccogliere informazioni solo su una o due variabili sarebbe una follia — e infatti non accade mai, malgrado gli ossequi rituali alla vigente ortodossia epistemologica popperiana, che prevede il controllo empirico di ipotesi isolate. 2) non solo il disegno globale è multi-variato, ma lo sono anche gran parte dei modelli che stanno dietro ad ogni singola applicazione delle tecniche di analisi. Questi modelli, entro i limiti che le difficoltà tecniche pongono a una loro eccessiva articolazione, cercano tuttavia di riprodurre la complessa rete di interrelazioni esistente fra le proprietà osservate nelle situazioni reali. g) Il fatto che il campionamento sia operato nel quadro di un disegno di ricerca multi-variato ha conseguenze non trascurabili sui possibili significati del termine ‘rappresentativo’. Le esaminerò in questo paragrafo, per passare poi alle conseguenze della natura multi-variata dei modelli. Si è visto come della rappresentatività si debba giudicare in base a un confronto fra le distribuzioni della stessa proprietà nel campione e nella popolazione, e come tale confronto si possa operare solo se entrambe le distribuzioni ci sono note. Quando estraggono un campione di italiani, le agenzie di sondaggi usano come termine di confronto i dati dell’ultimo censimento pubblicato. E questo è naturale: come osservava un anonimo estensore del Bollettino Doxa32, “come si può conoscere perfettamente, prima di iniziare il sondaggio, la struttura economica e sociale di una certa zona?” Peraltro, contro questa procedura si sentono muovere delle obiezioni: — i dati censuali sono inattendibili, in quanto raccolti da operatori improvvisati, poco pagati e motivati, ancor meno addestrati, e niente affatto controllati33; — data la cadenza decennale dei nostri censimenti, il termine di confronto è già abbastanza lontano nel tempo quando i dati censuali vengono pubblicati, e continua ad allontanarsi fino alla successiva pubblicazione. Per cui i sondaggi svolti nel 1992 e magari anche nel 1993 sono stati confrontati con il censimento del 1981 perché quello del 1991 era ancora inedito. Entrambe le obiezioni sono fondate, e in sé importanti. Il loro effetto sul concetto di rappresentatività è tuttavia marginale rispetto all’effetto di un’altra obiezione, sollevata finora da pochissimi e con insufficiente rilievo. Questa obiezione si basa sul fatto, poco sopra richiamato, che il confronto è possibile solo fra due distribuzioni entrambe note. Pertanto, nel caso che le informazioni sulla popolazione derivino da un censimento, il confronto dovrà limitarsi alle proprietà che nel censimento sono rilevate (di fatto, il confronto avviene sempre sulle stesse due o tre proprietà elementari: residenza, età, sesso; vedi Siboni e Marradi 1989). A parte questo, il rilievo veramente cruciale è che dalla (eventuale) corrispondenza fra le distribuzioni di una o più proprietà nel campione e nella popolazione non si potrà inferire analoga corrispondenza relativa alle distribuzioni di altre proprietà.

La rappresentatività — anche ammesso che sia stata accertata — non si trasmette da una proprietà all’altra : “un campione può essere rappresentativo di una popolazione relativamente ad un carattere e non esserlo relativamente ad un altro” (Castellano e Herzel 1971, 16. Una dichiarazione identica si legge sul “Bollettino Doxa” n. 56 del marzo 1950, p. 41). Di diverso avviso è invece l’estensore di un altro brano, di poco precedente34, dello stesso Bollettino, che afferma : “l’esperienza ha dimostrato che quando il campione è rappresentativo riguardo ai principali caratteri demografico-sociali della popolazione considerata, è rappresentativo anche rispetto alle sue caratteristiche psicologiche e alle opinioni politiche”. Non si vede in che modo possa essersi accumulata tale esperienza, visto che la distribuzione delle caratteristiche psicologiche e delle opinioni politiche nella popolazione è sempre ignota.

32 (n. 24 del 30 dicembre 1958, p. 219). 33 Si veda il preziosoo libretto di Marco Pasquali(1992), che rivela tutte le difficoltà del lavoro del rilevatore censuario, e tutte le invenzioni e gli accomodamenti che stanno dietro i pretesi “dati duri” di un censimento, e li rendono possibili. 34 N. 8 del maggio l949, p.46.

L’unica esperienza cui può legittimamente riferirsi l’estensore è il fatto che nessun committente abbia protestato, il che permette alle agenzie di sondaggi di fare appello al fondamentale principio scientifico detto “fin che la barca va”35. Del resto, qualche anno dopo lo stesso bollettino ospitava i rilievi critici sul punto dell’economista e statistico Guglielmo Tagliacarne: “L’istituto Doxa afferma che il campionamento che esso ha adottato risponde alle regole della rappresentatività... Ma se la rappresentatività è sicura riguardo alla proporzione delle classi di età, delle condizioni sociali, delle regioni di appartenenza, etc. delle donne comprese nel campione, essa non è altrettanto certa riguardo alle esatte proporzioni fra donne di diverso peso”.36

In realtà, sin dal 1929 i due statistici italiani Gini e Galvani, lavorando sui dati del censimento del 1921, hanno dimostrato che la scelta “ragionata”37 di un campione in modo che sia rappresentativo su alcune proprietà (raccomandata da Kiaer sin dal 1903) non comporta affatto una garanzia di rappresentatività su altre proprietà che non sono state considerate in tale scelta. Come era da attendersi, tanto meno una proprietà è correlata con le proprietà considerate nella scelta del campione, tanto più divergono le distribuzioni dei suoi stati nel campione e nella popolazione (vedi Castellano e Herzel 1971, 7). Quindi, se abbiamo accertato che il campione è rappresentativo (nei limiti descritti sopra, al punto e) rispetto a una proprietà X, abbiamo una ragionevole aspettativa che esso sia passabilmente rappresentativo rispetto alle proprietà più strettamente correlate con la proprietà X, ma non possiamo affermare nulla rispetto alle altre. In particolare, dalla (eventuale) rappresentatività su alcune proprietà socio-demografiche non si può assolutamente inferire una rappresentatività sulle caratteristiche psicologiche, le opinioni, i valori, a meno di voler dare per scontata un’influenza determinante della “struttura” sulla “sovrastruttura” — tesi ormai passata di moda, e che comunque pochi responsabili di agenzie sottoscriverebbero, pur servendosene ogni volta che dichiarano ‘rappresentativo’ il loro campione in un sondaggio di opinione. Le considerazioni svolte fin qui ci conducono a percepire quello che potremmo definire il paradosso della rappresentatività : possiamo stabilirla solo quando abbiamo le necessarie informazioni relative alla popolazione (e in tal caso le corrispondenti informazioni sul campione sono un duplicato); quando invece le informazioni sul campione non sono un duplicato, in quanto non abbiamo le corrispondenti informazioni sulla popolazione, allora non possiamo affermare niente circa la rappresentatività. Questo fatto paradossale — e le sue conseguenze per il concetto di rappresentatività — non è sfuggito a due statistici avvertiti come Castellano e Herzel: “Se rispetto ad un certo carattere una popolazione P di N unità è ripartita in k classi tali che ciascuna unità appartiene a una sola di esse, una rilevazione rappresentativa di n unità dovrebbe porre in ogni classe n = n(N /N) unità se N è il numero delle unità della classe i-esima in P. La rappresentatività di una rilevazione parziale non è 35 Definire “fin che la barca va” un fondamentale principio scientifico è provocatorio, ma non assurdo. Quanto meno nelle scienze sociali, infatti, solo una minima parte della produzione “scientifica” viene sottoposta a una qualche forma di controllo. La gran parte di ciò che viene pubblicato (e presentato ai vari concorsi accademici) non viene attentamente letto da alcuno che abbia la competenza epistemologica e/o tecnica per criticarlo adeguatamente. Se è abbastanza raro che il lettore abbia la competenza, è ancor più raro che egli abbia il tempo e la voglia di approfondire le singole critiche, nonché il tempo, la voglia e la convenienza di renderle pubbliche. Anche ammettendo che in qualche caso l’ethos scientifico imponga di trovare il tempo per scrivere una critica, il breve spazio di una recensione o di una “nota” impedisce di argomentare adeguatamente più di una o due critiche: le altre devono per forza venir tralasciate, o accennate sommariamente. Da notare che quanto detto sinora si riferisce ovviamente soltanto alle critiche che possono essere apportate sulla base della lettura del rapporto di ricerca. Molti altri difetti verrebbero probabilmente a galla se si disponesse dei dati sui quali si è svolta la ricerca. Ma questi sono raramente a disposizione del pubblico; ed è comunque estremamente improbabile che qualche studioso competente investa il tempo necessario a rifare passo per passo una ricerca di un collega al fine di sottoporre a controllo le sue conclusioni. Quanto detto finora è basato su una lunga esperienza personale nella ricerca sociale. Ma anche i fisici intervistati da Collins (1975) ammettono che non c’è alcuna convenienza a replicare le ricerche degli altri. Gli studi che passano in rassegna e classificano il materiale pubblicato confermano che le ricerche intese a controllare empiricamente risultati ottenuti da altri studiosi sono rarissime, o quanto meno non vengono mai pubblicate (Sterling 1959; Barnes 1972, 279; Hyman 1972, 3; Somers 1972, 372). 36 (il sondaggio aveva per oggetto diete e problemi di peso; il brano è tratto dal “Bollettino Doxa” n. 12/13 del 15 luglio 1953, p. 91). 37 Sulla scelta ragionata torneremo nella sez. 3.

che un concetto teorico. Se non si conoscono le N non si potrà mai controllare se una rilevazione ha il diritto di essere chiamata rappresentativa, e se si conoscessero le N non si farebbe nessuna rilevazione” (1971, 8; corsivo mio).

h) Analizzando il concetto di rappresentatività alla luce della natura multi-variata dei disegni della ricerca nelle scienze sociali siamo pervenuti a un paradosso. Se poi si prende in considerazione la natura multi-variata della maggior parte dei modelli di relazioni fra variabili si ha una percezione ancora più piena dell’inadeguatezza pratica di quel concetto rispetto al taumaturgico potere che gli viene attribuito da produttori e utenti di sondaggi — e anche nel quadro della ricerca sociale.

Capecchi ha già messo in rilievo le conseguenze della natura multi-variata dei modelli sulla comune pretesa di stabilire con una formula monovariata le dimensioni ottimali di un campione a fini di inferenza alla popolazione : “La dimensione di un campione non può essere determinata relativamente a una sola variabile... inoltre — e questo è veramente decisivo — quando si effettua una ricerca sociologica si pensa di poter fare ovviamente degli incroci a due o più variabili ; a questo punto la stima di n dovrebbe essere effettuata tenendo conto del campo di variabilità non delle variabili considerate isolatamente, ma delle variabili a due o più dimensioni che ne risultano” (l972, 5l).

Per le stesse ragioni, di queste “variabili a due o più dimensioni” — cioè della distribuzione congiunta di tutte le variabili considerate nei vari modelli — si dovrebbe tener conto prima di poter parlare di ‘rappresentativo’38. E a quali condizioni se ne dovrebbe parlare? Affinché il campione sia rappresentativo della popolazione rispetto a quel modello, è necessario che non solo la proporzione dei casi in ciascuno stato di ciascuna variabile implicata sia (approssimativamente: vedi sopra, punto e) la stessa nel campione e nella popolazione, ma che lo sia anche la proporzione dei casi in ciascuna delle (ideali) celle formate dal prodotto logico degli stati delle variabili implicate39. Anche un’eventuale proporzionalità delle distribuzioni di due o più variabili nel campione rispetto alle loro distribuzioni nella popolazione non garantisce nulla circa la proporzionalità delle loro distribuzioni congiunte; ed è questo il tipo di distribuzione che interessa allorché vogliamo stabilire delle relazioni fra variabili.

Come già osservato al punto e), il requisito della proporzionalità è certamente troppo restrittivo, ma è quanto meno assai arduo stabilire, con un minimo di criterio e di accettabilità intersoggettiva, fino a che punto esso possa essere liberalizzato. Certo che, per quanto si allenti, si vorrà almeno lasciare in piedi il criterio di un confronto fra le distribuzioni congiunte che le variabili dei vari modelli hanno nel campione e nella popolazione. Si propone quindi con maggiore evidenza il paradosso di cui si diceva al punto g: se conosciamo tanto bene la nostra popolazione da conoscere le distribuzioni congiunte relative a una serie di modelli multi-variati, non si vede davvero a che scopo dovremmo estrarre un campione e porci dei problemi di inferenza che possiamo evitare.

A parte il paradosso, la questione si complica ulteriormente se pensiamo che un disegno di ricerca che preveda p variabili rende possibili innumerevoli modelli, di complessità crescente dal livello diadico a quello p-adico. Solo un piccolo sotto-insieme di questi modelli viene effettivamente sottoposto ad analisi ; ciò non toglie che ciascuno di loro è potenzialmente analizzabile in ogni momento, una volta che i dati sono stati raccolti ; a stretto rigore, un campione dovrebbe essere dichiarato ‘rappresentativo’ solo dopo che la proporzionalità delle distribuzioni congiunte nel campione (rispetto alle corrispondenti distribuzioni congiunte nella popolazione) sia stata controllata empiricamente per tutti i modelli concepibili all’interno del disegno della ricerca (cioè tutti i modelli componibili con le variabili sulle quali si sono raccolti i dati).

38 Anche Mannheimer avverte che “la rappresentatività si riferisce al grado in cui una relazione esistente nel campione esiste anche nella popolazione nella medesima proporzione” (1985, 148; corsivo mio). 39 Qualcuno potrà osservare che si può parlare di celle solo nel caso di una tabella di contingenza. Ma anche quando si attribuisce valore cardinale ai codici numerici attribuiti agli stati, e quindi si analizzano le relazioni fra le variabili mediante diagrammi, si può sempre concepire come una cella il punto sul diagramma individuato da ciascuna combinazione di coordinate (e questo a fortiori nel caso di variabili cardinali tratte da sondaggi, che hanno sempre un numero limitato di valori). Parlando di celle ideali, quindi, il discorso non perde affatto di generalità.

2.3. La catena di argomentazioni sviluppate fin qui dovrebbe aver chiarito i motivi per cui si dovrebbero ritenere scorrette, in quanto prive di possibile riscontro empirico, espressioni come ‘campione rappresentativo’, ‘rappresentatività del campione’, usate in assoluto, cioè prive di alcuna qualificazione. Ciò non comporta che l’aggettivo ‘rappresentativo’ e il sostantivo derivato debbano essere banditi; solo che il loro uso dovrebbe essere limitato a proposizioni che abbiano un qualche riscontro empirico, effettivo o possibile. Si può ammettere una frase come “il nostro campione è rappresentativo della popolazione rispetto all’età”; molto meglio se è confortata da una tabella in cui le due distribuzioni (campione e popolazione) per classi di età sono messe a confronto. Certo che in quest’uso sorvegliato il termine perde tutta la sua carica suggestiva. Una cosa è dire, al cliente o al lettore: “Il mio campione è rappresentativo”, sottintendendo “quindi tu, con pochi milioni di lire, hai scoperto quello che consumano — o pensano, o voteranno — quaranta milioni di italiani adulti” (oppure sottintendendo “quindi le teorie che questi dati suggeriscono o corroborano sono la verità scientifica”). Un’altra cosa è dire: “la distribuzione per sessi nel nostro campione si discosta dalla distribuzione nazionale, accertata dal censimento del 1981, del 2,2%; la distribuzione per titolo di studio... etc. etc.; per tutte le altre proprietà rilevate nel nostro sondaggio non possiamo affermare niente, perché le loro distribuzioni non sono confrontabili con le corrispondenti distribuzioni rilevate da un censimento”. Una frase del secondo tipo non è fatta per sollevare gli entusiasmi del lettore, né per allentare i cordoni della borsa del cliente. Essa li rende cauti e sospettosi, dando loro una prima e pur vaga idea degli strettissimi limiti epistemologici in cui si muovono le scienze umane e della limitata affidabilità delle loro affermazioni. Si tratta di vedere se la scienza vada più d’accordo con gli entusiasmi e con i cordoni della borsa oppure con la consapevolezza dei propri limiti. E’ proprio questa la conseguenza spiacevole che (come si rilevava all’inizio del par. 2.1) si è voluto esorcizzare evitando di sottoporre ad analisi i possibili significati del termine ‘rappresentativo’: da una simile analisi, infatti, non poteva che emergere la natura ideologica (nel senso dell’ideologia scientista) dell’uso che di tale termine si è fatto finora, e certamente si continuerà a fare, da parte di accademici e agenzie di sondaggi. 3. Casualità dell’estrazione e rappresentatività del campione 3.1. Veniamo ora al rapporto fra il concetto di casualità e il concetto di rappresentatività. Come si è già ricordato, la visione corrente è che la casualità del procedimento di estrazione comporti la rappresentatività del campione. Questo nesso è ripetutamente esplicitato, ad esempio, sul Bollettino della Doxa40. Tra gli autori accademici, Perrone mette in luce le ragioni per cui il nesso fra casualità e rappresentatività doveva essere stabilito e dato per scontato: “la rappresentatività non può essere empiricamente controllabile, e quindi deve essere per così dire dedotta a priori all’interno del campione, e più precisamente dal metodo (o modello matematico) con cui il campione è stato costruito” (1977, 76-7; corsivo mio). Sull’assunto che l’estrazione casuale generi campioni rappresentativi riposa tutto il castello dottrinale dell’inferenza statistica. Ma tale assunto è palesemente falso: non è difficile dimostrare, infatti, che tra casualità del procedimento di estrazione e rappresentatività dell’esito non esiste alcuna forma di implicazione logica, nel senso che la prima non è affatto una condizione necessaria, e neppure una condizione sufficiente della seconda. Come ha rilevato Schumpeter (1942) a proposito della democrazia, la procedura non garantisce necessariamente la qualità dell’esito. Anche il rispetto più scrupoloso del criterio di casualità nell’estrazione non garantisce affatto che il campione estratto sia rappresentativo rispetto a una qualsiasi variabile o combinazione di variabili, e meno che mai garantisce che esso sia rappresentativo tout-court (la rappresentatività senza qualificazioni è un concetto privo di riscontro empirico: vedi sopra, par. 2.3). Come ricordano Castellano e Herzel, “se vogliamo 40 Inizialmente con qualche prudenza (“poiché si operò con un campione casuale... si può ritenere che esso sia sufficientemente rappresentativo”: n. 10-11 del giugno 1951, p. 66); in seguito con assoluta tranquillità (cfr. Siboni e Marradi 1989, sez.4).

determinare per campione il rapporto dei sessi in una popolazione scegliendo a caso 1.000 individui, è teoricamente possibile che la scelta cada su 1.000 individui dello stesso sesso, anche se avremo correttamente evitato ogni procedimento difettoso” (1971, 11).

Questo problema non si pone soltanto per le estrazioni da popolazioni umane ; esso si pone in modo identico qualunque sia la popolazione dalla quale si estrae casualmente. Torniamo all’esempio delle palline nell’urna, e supponiamo di avere 100 palline bianche e 100 palline nere, di estrarne una per volta, registrarne il colore, rimettere dentro la pallina estratta, agitare e tornare ad estrarre41. In questa situazione, ogni estrazione è un evento totalmente indipendente dal precedente : la probabilità di avere una pallina bianca resta la stessa (1/2) qualunque esito abbia avuto l’estrazione precedente, e qualunque serie di esiti abbia avuto la serie di estrazioni precedenti. Se estraiamo un campione di 2 palline, abbiamo una probabilità su 4 di estrarle entrambe bianche, una su 4 di estrarle entrambe nere, e 2 su 4 di estrarne una bianca e una nera, cioè di avere un campione rappresentativo rispetto alla proprietà ‘colore’. Se estraiamo 3 palline, così come con ogni numero dispari di palline estratte, non è possibile, a rigore, avere un campione perfettamente rappresentativo rispetto al colore, visto che le palline sono indivisibili. Costruendo un triangolo di Tartaglia o applicando la formula appropriata del calcolo combinatorio42, il lettore può constatare da sé che la probabilità di avere un campione perfettamente rappresentativo rispetto al colore decresce con l’aumentare del numero delle palline estratte : su due palline è la metà ; su 6 è già meno di un terzo (20 su 64) ; su 12 è meno di un quarto (924 su 4096) ; su 16 è meno di un quinto (12.870 su 65.536) ; e così via.

Non solo un esito perfettamente rappresentativo è sempre meno probabile aumentando le dimensioni del campione, ma esiti assai lontani da quello rappresentativo sono tutt’altro che esclusi43: “non si può mai escludere la possibilità di estrarre un campione che dà un’immagine completamente deformata della popolazione” (Castellano e Herzel 1971, 59). Naturalmente un nesso causale semplicistico fra casualità e rappresentatività è ancora meno sostenibile se si richiamano tutte le complicazioni ricordate nella sez. 2: le proprietà che interessano sono più di una e hanno assai spesso più di due categorie; interessano le loro relazioni e quindi le distribuzioni congiunte; etc. Tuttavia anche una situazione iper-semplificata come 41 Reimmettere la pallina estratta è un passo necessario per evitare di complicare gravemente i calcoli, e quindi le formule. Si osserverà che nelle scienze sociali il campionamento è un’estrazione senza reimmissione, perché un nome non può venire estratto due volte. Ma per popolazioni delle dimensioni abituali nelle ricerche campionarie delle scienze sociali, la differenza fra estrazione con re-immissione ed estrazione senza re-immissione ha effetti del tutto trascurabili sulle probabilità dei vari esiti, e quindi anche dell’esito pienamente rappresentativo. 42 Il numero di combinazioni (equiprobabili) in cui si possono presentare r palline dello stesso colore su n estratte (da un’urna con palline di due soli colori) è Errore.. Il simbolo n! sta per n fattoriale, cioè n *

(n — 1) * (n — 2) * .... * 2 * 1. Il totale delle combinazioni equiprobabili (con due colori) è 2n. 43 Anche questo si può facilmente riscontrare con un triangolo di Tartaglia ; vedine un esempio in Marradi (1989, 81). Il lettore attento potrà aver colto una contraddizione fra quanto sostenuto nel par. 1.2 e quanto sostenuto in questa sezione. Nel par. 1.2 si è detto che le minori probabilità che gli appartenenti a certe categorie hanno di essere reperiti e di accettare un’intervista rende non-casuale anche un campione casuale al momento dell’estrazione. Ora si dice che un’estrazione casuale può produrre (quindi è compatibile con) esiti anche lontanissimi dalla rappresentatività su un numero illimitato di proprietà. Quindi, se l’estrazione casuale è compatibile anche con esiti gravemente non-rappresentativi, come si fa a sostenere che distribuzioni non rappresentative su qualche proprietà rendono non-casuale un’estrazione? Sembra davvero una contraddizione. Ma non è così. Infatti l’estrazione casuale è, sì, compatibile con qualsiasi distribuzione degli stati su qualsiasi proprietà nel campione da essa prodotto. Ma è compatibile con una sola distribuzione delle probabilità di entrare nel campione prima che esso sia estratto, e cioè con quella distribuzione che dà probabilità esattamente uguali a tutti i membri della popolazione. Se tale condizione è soddisfatta, un’estrazione resterà casuale anche se nel campione non è entrato alcun professionista, o lavoratore autonomo, o anziano, o membro di una qualsiasi altra categoria su qualsiasi proprietà. Ma se un professionista, o un anziano, o chiunque altro, a causa della natura del processo di reperimento e di intervista, hanno a priori meno probabilità di entrare nel campione di soggetti effettivamente intervistati, allora quel campione non si può considerare casuale anche se tutte le procedure formali che garantiscono la casualità dell’estrazione sono state scrupolosamente rispettate. In altre parole, è rilevante in questo caso la fondamentale distinzione fra i concetti statistico-matematici di probabilità (a priori) e frequenza (a posteriori).

quella di una sola proprietà (colore) con due soli stati (bianco e nero) basta a dimostrare che la casualità dell’estrazione non è una condizione sufficiente di rappresentatività, cioè non basta a produrla. Si può aggiungere che anche in questo caso le concezioni correnti conducono a un paradosso: infatti, se un’estrazione casuale dovesse produrre un campione rappresentativo (tout-court), allora tutte le possibili estrazioni casuali dalla stessa popolazione dovrebbero produrre campioni in cui tutte le variabili hanno la stessa distribuzione, le stesse relazioni bivariate e multi-variate fra loro, etc. Dovrebbero cioè produrre campioni identici sotto ogni possibile aspetto, quindi — in pratica — campioni composti dagli stessi individui. Questa conseguenza, logicamente ineccepibile, dell’assunto criticato in questo paragrafo è peraltro clamorosamente lontana da quanto accade effettivamente. Tanto lontana che la statistica classica ha formulato il concetto di distribuzione campionaria, che si riferisce alle distribuzioni dei valori assunti da un qualsiasi parametro44 in ciascuna delle estrazioni casuali da una stessa popolazione. Sembra evidente che, se l’estrazione casuale (e quindi ciascuna estrazione casuale) generasse automaticamente campioni rappresentativi, il concetto di distribuzione campionaria sarebbe inutile, in quanto non ci sarebbe alcuna distribuzione: dato un qualsiasi parametro, il suo valore dovrebbe essere lo stesso in tutti i campioni estratti o estraibili — anche in campioni di dimensioni diversissime. Qualche lettore potrà a questo punto osservare che tutte le argomentazioni esposte in questo paragrafo sono ben note, e si possono trovare, in forma magari meno esplicita, in molti manuali di statistica. Resta da spiegare perché gli statistici non abbiano mai — almeno a quanto mi risulta — stigmatizzato la concezione corrente nelle scienze sociali (non soltanto presso le agenzie di sondaggi) secondo la quale la casualità dell’estrazione genera rappresentatività dell’esito. 3.2. Stabilito che l’estrazione casuale non è una condizione sufficiente di rappresentatività del campione, cioè non basta a garantirla, vediamo se ne è una condizione necessaria, cioè se si possono ottenere campioni rappresentativi (con tutti i limiti posti a questa espressione nella sez. 2) solo mediante un’estrazione casuale. Cominciamo anche stavolta da una situazione iper-semplificata: un’urna con 100 palline bianche e 100 nere. Supponiamo di voler estrarre un campione di 10 palline perfettamente rappresentativo del contenuto dell’urna rispetto alla proprietà ‘colore’ (cioè composto di 5 palline bianche e 5 nere). Se procediamo a un’estrazione casuale, abbiamo meno di 1 probabilità su 4 di ottenere tale campione45. L’unica maniera di essere sicuri di ottenerlo è... guardare dentro l’urna mentre si estraggono le palline, ed estrarle in modo che le proporzioni dei colori siano rispettate. Ma questa estrazione è tutto fuorché casuale: dopo che è stata estratta la quinta pallina di un colore (bianco o nero), tutte le altre di quel colore non hanno alcuna probabilità di entrare nel campione, perché verranno scartate a favore delle palline del colore ancora da completare. Veniamo ora a una situazione ricorrente nelle scienze sociali, il campionamento “per quote”: si vuole riprodurre esattamente nel nostro campione la distribuzione congiunta per sesso e classi di età di una data popolazione (quale risulta dalle pubblicazioni censuali). In questi casi si costruisce una griglia che stabilisca quanti maschi e quante femmine tra i 18 e i 25 anni, tra i 25 e i 30, e così via, devono essere intervistati. Man mano che le interviste vengono eseguite, si registrano nelle varie celle della griglia; se — come accade di solito, data la diversa reperibilità e propensione a lasciarsi intervistare delle varie categorie, cui si accennava nel par. 1.2 — il ritmo di riempimento delle varie celle è diseguale, in alcune celle si raggiungerà il numero di intervistati previsto quando in altre ne mancano ancora alcuni. Si cesserà quindi di intervistare individui dei tipi già completati, ed ulteriori interviste eventualmente fatte a loro verranno escluse dal campione.

44 Monovariato, bivariato o multivariato: quindi la frequenza percentuale di una certa categoria, la mediana, la media, la varianza, la covarianza, etc. 45 Basta applicare la formula di calcolo combinatorio data poco sopra in nota per riscontrare che con 100 palline e 10 estrazioni le possibili combinazioni sono 210 (cioè 1024), e che solo in 252 di queste avremo 5 palline bianche e 5 nere.

Anche in questo caso, quindi, come quando guardiamo dentro l’urna quali palline estrarre, non ci affidiamo al caso, ma pilotiamo l’estrazione. Un’estrazione casuale è del tutto incompatibile con l’obiettivo di assicurare la rappresentatività su alcune variabili. Siamo agli antipodi dell’assunto che l’estrazione casuale genera automaticamente dei campioni rappresentativi, e ci si propone una sgradevole scelta: o ci affidiamo al caso, e allora non siamo affatto certi delle caratteristiche che avrà il campione, o vogliamo determinare qualcuna di tali caratteristiche, e allora dobbiamo pilotare l’estrazione. Da questa alternativa non si esce: frasi come “n persone scelte a caso entro i vari strati della popolazione in modo da rappresentare proporzionalmente i due sessi, le varie classi di età, i diversi gruppi economico-sociali e i distretti della città”46 contengono una contraddizione in termini che ho evidenziato con il corsivo. Del resto, questa alternativa fra casualità e garanzia della rappresentatività su alcune variabili è chiaramente presente nella storia dei sondaggi. Fino agli anni cinquanta si tendeva a privilegiare la rappresentatività, e la maggior parte dei campionamenti si eseguivano “per quote”, cioè con lo strumento della griglia schematicamente illustrato sopra47. Anche fra gli statistici teorici, il criterio della “scelta ragionata” (cioè tale da garantire rappresentatività su alcune variabili) proposto da Kiaer nel 1903 non venne contestato prima del 1925.48

Questa relativa lentezza nel passare dalla “scelta ragionata” alla scelta casuale è dovuta assai probabilmente al fatto che ci si rendeva conto di che cosa si perdeva (la garanzia di rappresentatività su alcune variabili) mentre non erano affatto chiari i vantaggi arrecati dal caso. Prima di esaminare tali vantaggi (sez. 4), è il caso di precisare che la scelta ragionata (e quindi il campionamento per quote) è metodologicamente più opportuna dell’estrazione casuale ogniqualvolta ci siano buone ragioni per concentrare l’attenzione su un numero limitatissimo di proprietà: ad esempio nei disegni quasi-sperimentali detti factorial designs 49. Anche in un normale sondaggio il campionamento per quote è la soluzione inevitabile quando non si dispone di un elenco dei membri della popolazione, e può essere difendibile anche in altre situazioni particolari. 4. Si possono conciliare casualità e rappresentatività? Restano due domande: a) Visto che l’estrazione casuale non garantisce la rappresentatività su alcuna variabile, perché preoccuparsene tanto? Perché non tornare alla scelta ragionata, che almeno la garantisce rispetto alle variabili sulla cui base si stabiliscono le quote? b) Stabilito che l’estrazione casuale non è una condizione necessaria né una condizione sufficiente di esiti rappresentativi, non esiste proprio alcun rapporto fra casualità e rappresentatività? Si possono in qualche modo conciliare i due criteri?

Alla prima domanda la statistica induttiva risponde che solo se un campione è estratto casualmente si può ritenere che esso faccia parte di un’ideale serie infinita (un universo) di campioni, universo per il quale si dà per valida la cosiddetta “Legge dei Grandi Numeri”. Secondo tale legge, la distribuzione campionaria (vedi sopra, par. 3.1) di un qualsiasi parametro tende, al crescere di n (le dimensioni del campione), alla normalità attorno al valore del parametro stesso nella

46 Questa frase è tratta dal “Bollettino Doxa” n. 8 del maggio 1949, p. 46; frasi analoghe sono riportate nella sezione seguente. 47 Dalle scarsissime indicazioni ricavabili dai Bollettini, sembra che il sistema “per quote” sia stato prevalentemente utilizzato anche dalla Doxa fino alla fine degli anni cinquanta. Nel “Bollettino” n. 13-14 del luglio 1950, p. 177, si legge “Di solito l’Istituto usa il metodo del campione stratificato, o quota sample”. Nel Bollettino n. 19-20 del 31 ottobre 1958, p. 177, si legge: “Nei sondaggi precedenti gli intervistatori sceglievano essi stessi le persone da intervistare sulla base delle caratteristiche loro indicate (sesso, età, professione).” 48 In tale data gli statistici inglesi A.L. Bowley e D. Jensen presentarono all’Istituto Internazionale di Statistica un rapporto che proponeva l’estrazione pienamente casuale. 49 Sui quali vedi l’eccellente trattazione di Chiari e Corbetta (1973, 656-666). Per la distinzione fra ‘sperimentale’ e ‘quasi-sperimentale’ vedi Campbell e Stanley (1963).

popolazione50. Bertoldo potrebbe obiettare che una legge del genere gli serve a poco, visto che lui deve estrarre un solo campione, non infiniti campioni. Ma gli statistici gli obietterebbero che ha torto, perché proprio sull’assunto di normalità delle distribuzioni campionarie, stabilito dalla “Legge”, si fonda la dottrina dei tests di significatività, essenziale per generalizzare induttivamente alla popolazione le conclusioni cui si è giunti analizzando i dati del campione. Ad ogni modo, anche adottando il punto di vista di Bertoldo (che diffida di una serie infinita di estrazioni e consimili diavolerie, e vuole semplicemente evitare di introdurre distorsioni nel suo specifico campione) si deve convenire che il lento e graduale spostamento dell’accento — almeno in sede di teoria statistica — dalla rappresentatività garantita su poche proprietà alla casualità dell’estrazione è stato opportuno, in quanto risponde a una più corretta percezione della natura articolata e diramata della rete di relazioni fra le proprietà di cui si occupano le scienze sociali. L’estrazione casuale fornisce una garanzia solo negativa, ma importantissima: la garanzia di non introdurre alcuna distorsione prevedibile nella rappresentatività del campione rispetto ad alcuna proprietà della popolazione. Ogni altra forma di estrazione introduce distorsioni in direzioni prevedibili, anche se di entità ignota. In questa sezione esaminerò appunto le distorsioni al principio di causalità introdotte da criteri di estrazione che cercano di garantire la rappresentatività su una o più proprietà. 4.1. Di gran lunga il più diffuso di questi criteri è il cosiddetto campionamento “a più stadi” (multi-stage) cui ricorrono le agenzie di sondaggi per estrarre campioni dell’intera popolazione italiana, e comunque quando la popolazione da studiare è dispersa sul territorio e si effettuano interviste “faccia-a-faccia”. Per la verità, lo scopo principale delle agenzie nel ricorrere al campionamento a più stadi non è garantire rappresentatività ma ridurre i costi. Immaginate infatti un elenco di 2.000 italiani51 estratti a caso. A parte i residenti nelle grandi città, sarebbe piuttosto improbabile che due o più estratti abitassero proprio nello stesso centro (città, cittadina, paese, villaggio). Il campione sarebbe con ogni probabilità disperso in mille o più luoghi diversi, in ognuno dei quali le agenzie di sondaggi dovrebbero spedire un intervistatore, quasi sempre per fargli effettuare una sola intervista. Un sondaggio del genere avrebbe quindi costi (e tempi) proibitivi. Per questi motivi le agenzie non estraggono campioni nazionali con un campionamento casuale semplice52, ma approfittano con disinvoltura di un’accezione estensiva del termine ‘casuale’, quale compare in affermazioni come questa, dovuta a un influente statistico: “...il campione probabilistico o campione casuale, in base al quale ogni elemento della popolazione ha una probabilità nota e non nulla di entrare a far parte del campione. I campioni casuali semplici sono quelli per cui la probabilità di estrazione è la stessa per ogni elemento” (Orsi 1985, 198-99).53

50 Gli statistici induttivi chiamano ‘statistica’ un qualsiasi parametro riferito alla popolazione, ma non credo che tale scelta terminologica sia particolarmente felice. Ho riportato la “legge dei Grandi Numeri” nella versione “forte”, che Orsi (1985, 242) attribuisce al matematico francese E. Borel. Aggiungo di aver riscontrato sorprendenti divergenze nel modo in cui vari manuali di statistica presentato la “Legge dei Grandi Numeri” e i suoi rapporti con il “Teorema del Limite Centrale”: si confrontino ad esempio Blalock (1960/1970, 224-8), Swoboda (1972, 160-7), Sadocchi (1984, 46-7), Orsi (1985, 240-50), Castellano e Herzel (1971, 141-2). Questi ultimi dichiarano — manifestando l’atteggiamento critico che li distingue dalla manualistica corrente — che “la cosiddetta ‘legge’ o ‘principio’ dei ‘grandi numeri’... non è dimostrabile teoricamente, né verificabile sperimentalmente, in quanto a nessuno è dato di fare infinite esperienze. Non si tratta perciò di una ‘legge’ vera e propria, ma piuttosto di un postulato... Vi è... chi afferma che tutto sarebbe basato su un grosso equivoco: i matematici accetterebbero la ‘legge empirica del caso’ ritenendola una legge statistica, viceversa gli statistici l’accetterebbero ritenendola una legge matematica” (1971, 142). 51 Dico 2.000 perché questa è stata per decenni la dimensione abituale di un campione nazionale, anche se da qualche anno si tende al ribasso. 52 Anche la Doxa ammette sin dai suoi primi anni che “nell’esecuzione dei sondaggi statistici si ricorre solo eccezionalmente a questo metodo, i cui vantaggi non sempre compensano gli inconvenienti” (Bollettino n. 5-6, marzo 1950, p. 41; analogamente sul Bollettino n.20, 15 ottobre 1951, p. 55). Gli inconvenienti sono appunto i maggiori costi di trasferimento degli intervistati. 53 Fra le numerose dichiarazioni analoghe, Lazerwitz (1968); Chiari e Corbetta (1973, 481 e 645).

Definizioni del genere rispondono alla preoccupazione di molti statistici di offrire un fondamento rigoroso alle pratiche di campionamento “stratificato non proporzionale” largamente usate in molte discipline.

La popolazione viene suddivisa in un certo numero di sotto-insiemi di ampiezza nota, e da ciascuno di essi (visto che ogni membro della popolazione deve avere una probabilità non-nulla di essere estratto) si estrae almeno un membro del campione. Avremo così un campione suddiviso in k sub-campioni, ognuno tratto da uno dei k sotto-insiemi della popolazione. Dopodiché si potrà ripristinare artificialmente la pari probabilità ponderando i dati di ciascun sub-campione con un coefficiente inversamente proporzionale alla corrispondente “frazione campionata”, cioè al rapporto fra la numerosità di quel sub-campione e la numerosità della sub-popolazione corrispondente.54

Questa idea della ponderazione diversificata mette particolarmente bene in luce i presupposti ontologici di tipo atomista della dottrina dell’inferenza statistica, nonché — a monte — i presupposti ontologici di tipo meccanicista non solo dell’inferenza, ma di tutto l’orientamento di ricerca (principi e conseguenti tecniche) che fa riferimento alla matrice dei dati.55

Ammettendo infatti che anche un solo individuo (qui sta il punto) possa rappresentare un numero infinito di altri individui, si trasferisce il concetto di rappresentatività da un rapporto fra distribuzioni (nel qual caso l’ontologia atomista può restare fra le quinte) a un rapporto fra individui globalmente intesi : in tal modo essa si manifesta in primo piano. In altre parole, mentre è in qualche modo tollerabile — salvo l’accusa di meccanicismo di cui si diceva sopra — l’idea che una distribuzione di stati su una proprietà ne rappresenti un’altra più numerosa, è assai meno accettabile l’idea che un individuo considerato globalmente (cioè in tutte le innumerevoli proprietà) ne rappresenti un altro, o un numero qualunque di altri.

Peraltro, anche un’estensione del concetto di casualità come quella operata dalla definizione sopra riportata è assolutamente insufficiente a legittimare il campionamento “a più stadi” usato dalle agenzie di sondaggi — che descriverò subito56. Questo procedimento pone problemi assai più

54 Per chiarire con un esempio: supponiamo di avere una popolazione di 300.000 occupati, di cui 50.000 agricoltori, e di voler estrarre un campione di 300 persone (uno su mille). Visto che gli agricoltori sono costosi da raggiungere e difficili da intervistare, un’agenzia di sondaggi ha tutto l’interesse a decidere di considerarli un sotto-insieme a parte, e di intervistarne solo 5 anziché 50 come proporzionalità vorrebbe. Dopodiché ciascuna risposta data da un agricoltore verrà fatta valere, nel computo totale, come dieci risposte date da un non-agricoltore. 55 L’ontologia meccanicista si manifesta nel fatto che i valori su una variabile (che rappresentano, in modo più o meno fedele, gli stati su una proprietà) vengono, nell’inferenza, separati dagli individui cui appartengono tali stati e proiettati su individui non conosciuti né indagati (in questo caso, gli agricoltori non interrogati); così come nelle tecniche di associazione statistica due o più vettori di tali valori, completamente separati dai portatori dei relativi stati, vengono posti in relazione fra loro per produrre i vari coefficienti di associazione. Questi procedimenti presuppongono che uno stato sia totalmente indipendente dall’oggetto cui appartiene, cioè non debba essere considerato alla luce degli stati delle altre proprietà (le poche eventualmente rilevate, e le innumerevoli non rilevate) di quello stesso oggetto. Ciò è plausibile se l’oggetto è inanimato o è un automa meccanico; lo è assai meno se l’oggetto è un organismo, e ancora meno se esso ha un’organicità non solo biologica, ma anche psicologica e culturale. L’ontologia atomista si manifesta nel fatto che gli individui vengono ritenuti fungibili come gli atomi di uno stesso elemento chimico, dal momento che uno qualunque di loro può “stare per” un numero di altri indefinitamente ampio. Questa ontologia, se adottata integralmente, renderebbe inutile tutto il castello dottrinale della statistica inferenziale, in quanto renderebbe impossibile la presenza di distribuzioni. Infatti, se tutti gli elementi sono uguali, allora anche i loro stati su una qualsiasi proprietà sono uguali; se gli stati sono tutti uguali, non c’è distribuzione: basta far ricerca su un solo individuo per estendere automaticamente ciò che scopriamo a tutti i suoi simili. La statistica inferenziale è, quindi, auto-contraddittoria. Parte dalla constatazione che gli stati degli individui sulle proprietà sono diversi, il che comporta l’inapplicabilità di un’ontologia atomista. Tuttavia, proprio a un’ontologia atomista essa fa appello, in modo più o meno palese (molto palese, come si è rilevato, nel caso del campionamento “stratificato non proporzionale”) ogni volta che deve sostenere un’inferenza dal campione alla popolazione. L’ontologia atomista viene usata — diremo, adottando la nota immagine di Weber a proposito del materialismo dialettico — come un taxi dal quale salire e scendere a seconda delle convenienze. 56 La descrizione deriva dalla mia esperienza diretta in quanto membro di vari istituti universitari committenti di sondaggi nazionali. Essa peraltro non presenta sostanziali differenze — a parte i rilievi critici — con le descrizioni apparse (con vari livelli di dettaglio) sul “Bollettino della Doxa” nei numeri: 5-6 del marzo 1950, p. 41; 20-21 del 9 dicembre 1966, p. 155; 14-15 del 28 giugno 1972, p. 175; 8-10 del 20 giugno 1973, p. 92; 10-11 del 20 giugno 1978, p. 102; 8-9 del 31 marzo 1979, p. 76.

delicati di quelli del campionamento “stratificato”, e “si oppone a una trattazione teorica esauriente” (Castellano e Herzel1971, 286).

L’abuso compiuto da chi applica a campioni multi-stage formule calcolate per campioni casuali è concordemente denunciato da metodologi e statistici. Si fa notare che i margini di errore attorno alle stime aumentano (Kish 1957 ; Kish 1959 ; Blalock 1970, 646) o diventano ignoti (Kish 1965, 576 ; Henkel 1976, 76) ; che l’idea stessa di applicare delle formule per la stima non ha senso (Henkel 1976, 25 e 76-80 ; Sadocchi 1984, 115). Da notare che questi rilievi si applicano a un campionamento nel quale in tutti gli stadi si procede a estrazioni veramente casuali. Se poi nelle varie estrazioni le agenzie e/o gli intervistatori applicano quel genere di “correzioni” alla casualità che ricostruirò nelle pagine che seguono, allora l’applicazione delle formule diviene qualcosa di diverso che meramente priva di senso ; essa acquista anzi pienamente senso nell’ambito di una generale strategia di mistificazione “scientifica” della reale natura dei procedimenti con cui vengono estratti questi campioni.

Il primo stadio è la scelta dei comuni in cui effettuare le interviste, detti “punti di campionamento” o p.s.u. (primary sampling units). Come si accennava, le agenzie ricorrono a questo passo per ridurre il numero di comuni in cui devono far trasferire i loro intervistatori; ma si può concepirlo anche come un tentativo di garantire la rappresentatività del campione rispetto alla proprietà ‘dimensione del comune di residenza’. Le agenzie raggruppano infatti i comuni italiani in cinque o sei fasce dimensionali (dette anche “strati”)57; da ognuna di queste fasce viene estratto un certo numero di comuni nel cui territorio si effettueranno le interviste, e che sono quindi chiamati a “rappresentare” tutti gli altri comuni della stessa fascia.58

Se ci si limitasse a questo, potrebbe capitare che in una data fascia non fosse estratto alcun comune dell’Italia centrale, oppure delle Tre Venezie. Date le differenze culturali che millenni di storia hanno introdotto fra le varie regioni, e il loro prevedibile effetto sui comportamenti e gli atteggiamenti, sarebbe difficile sostenere che i comuni di una certa area geografica sono pienamente intercambiabili con i comuni di altre aree. Anche di questo le agenzie sono costrette a tenere un qualche conto59, e lo fanno dividendo il paese in quattro o cinque zone geografiche (di solito il Nord-Ovest o Triangolo Industriale, con Piemonte, Liguria e Lombardia; il Nord-Est, con le tre Venezie e l’Emilia-Romagna; il Centro; il Sud, spesso distinto in Sud continentale e Isole). Combinando queste zone con le fasce dimensionali si ottiene un certo numero di celle60, da un minimo di 20 (5 fasce per 4 zone) a un massimo di 30 (6 fasce per 5 zone). I comuni sono considerati pienamente fungibili se appartengono alla stessa cella, non fungibili se appartengono a celle diverse. 57 Ad esempio, nella prima fascia sono posti i comuni con oltre 500.000 abitanti, nella seconda quelli tra i 100 e i 500 mila, nella terza quelli tra i 30.000 e i 100.000, e così via. La popolazione dei vari comuni è desunta dall’ultimo censimento pubblicato. 58 Si può osservare che cinque o sei fasce non sono sufficienti a render conto di tutti i livelli dimensionali che intercorrono fra Roma e Roccacannuccia. Inoltre, anche un criterio solamente dimensionale è insoddisfacente: ad esempio, nella fascia fra 30.000 e 100.000 abitanti si trovano comuni con solide e antiche tradizioni urbane come Varese, Savona, Lucca, Siena, Benevento, accanto a molti comuni “di cintura”, antichi borghi rurali ora gonfiatisi di pendolari che lavorano in una vicina metropoli, e molti centri meridionali — in particolare pugliesi — che fino a poco tempo fa erano solo dei grandi dormitori di contadini senza una vera qualità urbana. Naturalmente, le disomogeneità socio-economiche, culturali e politiche fra i comuni della stessa cella non sono eliminabili; ma esse potrebbero essere significativamente ridotte utilizzando strumenti facilmente accessibili, come le classificazioni dei comuni secondo le caratteristiche urbano/rurali, più volte pubblicate dall’ISTAT (1963; 1986) e in effetti usate in alcune ricerche accademiche (ad es. Tullio-Altan 1974). 59 Questo è uno dei casi in cui l’ontologia atomista che legittima molti aspetti della statistica induttiva rivela più chiaramente la sua inadeguatezza: se i comuni fossero fungibili come gli atomi dello stesso elemento, un comune qualunque potrebbe stare per tutti gli altri, senza distinzioni di aree geografiche, e neppure di nazionalità. Ma questo è insostenibile, e quindi le agenzie scendono dal taxi dell’ontologia atomista e adottano una procedura che ne riconosce implicitamente l’inadeguatezza. 60 Queste celle sono impropriamente dette ‘strati’ dalle agenzie di sondaggi, riecheggiando l’accezione del termine nella teoria statistica: ma a rigore il termine ‘strato’ presuppone un solo fundamentum divisionis, e non la combinazione di due (zona e dimensioni); esso inoltre implica — ad esempio in geologia — un certo ordine fra strato e strato. Pertanto esso è correttamente applicabile alle fasce dimensionali ma non alle celle.

Questo tentativo di garantire la rappresentatività del campione rispetto alla proprietà ‘area di residenza’ è piuttosto grossolano. Consideriamo ad esempio la fascia dimensionale più bassa (comuni fino a 5.000 o fino a 10.000 abitanti) della zona detta “Nord-Est”, che comprende Trentino, Alto Adige, Veneto, Friuli, Venezia Giulia, Emilia e Romagna. Fra i comuni di questa cella possono essere individuati almeno quattro tipi significativamente differenti : — comuni alpini e prealpini, con un’economia agro-pastorale, alta osservanza religiosa, alte percentuali di voti alla Lega o a partiti analoghi ; — comuni della Bassa Padana, con forti residue divisioni di classe fra possidenti e borghesi da un lato, braccianti o discendenti di braccianti dall’altro ; completa scristianizzazione della classe operaia, alte percentuali di voti alla sinistra ; — comuni alla periferia di città come Trieste e Padova o sulla riviera del Garda e dell’Adriatico, con una forte presenza di piccola e media borghesia sia dipendente sia indipendente e di pensionati ; notevole secolarizzazione ed esposizione a influssi culturali internazionali ; buoni risultati elettorali del centro laico e della destra ; — comuni delle cinture industriali attorno a Bologna o a Venezia, con forte presenza di borghesia impiegatizia e di élites operaie, parziale secolarizzazione, voto al Pds attorno al 40%. Dato che in un sondaggio nazionale con circa 2.000 intervistati, i punti di campionamento attribuiti a questa cella non saranno più di una dozzina, e dato che — almeno a quanto dichiarano le agenzie — i comuni entro le varie celle sono estratti casualmente61, può benissimo capitare che i comuni di un certo tipo siano fortemente sovra— o sotto-rappresentati fra quelli estratti. Se questo si verifica, automaticamente si riducono o accrescono a priori le probabilità che gli individui appartenenti a certe categorie siano estratti nel campione, e quindi si genera un campione non casuale. Naturalmente, nulla esclude che i comuni estratti siano una miscela equilibrata dei quattro tipi sopra descritti, e di altri ; ma — questo è il punto essenziale — nulla garantisce che lo siano. La situazione potrebbe migliorare se il numero delle zone fosse aumentato e soprattutto se i loro confini fossero disegnati tenendo conto della storia e delle tradizioni culturali62. Ma questo richiederebbe un impegno che i dirigenti di agenzia non hanno motivo di profondere nei comuni sondaggi, almeno fino a quando i committenti non ve li costringeranno — una data che non pare imminente.

Una volta costituite, nel modo visto, le celle, l’operazione immediatamente successiva è stabilire quanti individui devono essere intervistati in ogni cella. La cosa è semplice: stabilito il totale di individui da intervistare, si tratta di assegnare ad ogni cella un numero di interviste proporzionale alla quota della sua popolazione sulla popolazione italiana.63

61 Come vedremo presto, ci sono eccellenti motivi per sospettare che invece i punti di campionamento entro ogni cella vengano scelti con criteri ben lontani da un’estrazione casuale; ma questo non migliora affatto la situazione, per i motivi che vedremo. 62 Ad esempio, il Veneto e il Trentino dovrebbero essere uniti, anziché con l’Emilia-Romagna, con le cinque province della Lombardia (Bergamo, Brescia, Como, Lecco, Sondrio) che presentano tradizioni religiose e politiche simili; il “Centro” dovrebbe essere diviso in due separando le regioni e province con bassa osservanza religiosa e alto voto di sinistra (Toscana, Umbria, Pesaro e Ancona) dalle altre; la Sardegna dovrebbe essere separata dalla Sicilia con cui ha in comune solo il fatto di essere un’isola, e se mai riunita con Lazio, Abruzzi e Piceno (Marche meridionali). L’opportunità di separare le due isole maggiori venne riconosciuta anche sul Bollettino Doxa n. 20 del 10 novembre 1955, p. 121: “Soprattutto discutibile si presenta la riunione della Sicilia e della Sardegna sotto l’unica denominazione ‘Isole’: infatti queste due entità geografiche presentano fortissime diversità dal punto di vista etnico ed economico, e dato che la popolazione della Sicilia è quasi il quadruplo della Sardegna, ogniqualvolta si leggono risultati riguardanti le Isole si tratta in sostanza di dati per la Sicilia un po’ deformati”. Ma la Doxa ha sempre tranquillamente usato il raggruppamento ‘Isole’, con pochissime eccezioni legate a ragioni molto specifiche (inchieste sulla popolarità di Segni, e simili). Sociologi e politologi hanno avanzato molte proposte di divisione del paese in zone che tenevano conto delle tradizioni culturali e politiche: fra le altre, Capecchi et al. (1968); Bartolini (1976); Mannheimer e Zajczyk (1982); Arculeo e Marradi (1985); Cartocci (1988). Naturalmente, le agenzie di sondaggi ignorano queste pubblicazioni, come quelle dell’ISTAT di cui si è detto in una nota precedente. 63 Un esempio: se gli italiani sono 60 milioni, e 1.200.000 risiedono nella cella costituita dalla 2° fascia dimensionale della zona Nord-Ovest, in un campione di 2.000 persone a quella cella dovrebbero toccare 40 interviste (il 2% di 2.000, così come 1.200.000 è il 2% di 60 milioni).

Subito dopo, si deve stabilire in quanti e quali comuni queste interviste saranno effettuate (cioè quanti e quali comuni diventeranno p.s.u.), e come suddividere le interviste attribuite a quella cella fra le p.s.u. della cella. Per le fascia dimensionale più alta pare naturale che tutti i comuni diventino punti di campionamento, perché è impensabile un campione nazionale di italiani privo, ad esempio, di romani o di milanesi64. Per le fasce dimensionali medie e basse, le agenzie di sondaggi con le quali ho avuto contatti seguivano, con minime variazioni fra loro, questa regola pratica: un solo punto di campionamento per le celle cui toccavano 15 interviste o meno; un altro per ogni 10 (o frazione di 10) ulteriori interviste. Questo significa che, in un campione nazionale di 2.000 persone, tutti i comuni con meno di 5.000 abitanti della zona “Centro” vengono rappresentati da 5 o 6 comuni, e tutti quelli della zona “Sud” da 10-12 comuni.

Una volta stabilito quanti punti di campionamento toccano a una cella, per decidere quali essi siano si ricorre (ufficialmente) a un’estrazione casuale. Un Bollettino Doxa del 1963 (n. 17-18 del 1° ottobre, p.223) è esplicito sul punto: “si è seguito il metodo del campione stratificato a tre stadi, con estrazione completamente casuale delle unità di campionamento in ciascuno dei tre stadi”65. Ma pochi anni dopo, sullo stesso Bollettino compare una dichiarazione in conflitto con la precedente: “i comuni vennero scelti fra quelli costituenti la rete dei ‘punti di campionamento’ dell’Istituto Doxa” (n. 20-21 del 9 dicembre 1966, p.155). Dichiarazioni che parlano di una scelta fra i “comuni costituenti la rete dei punti di campionamento della Doxa” compaiono anche su vari altri bollettini successivi. Altre agenzie con cui ho avuto contatti non menzionavano questa “rete”, ma nei progetti che mi hanno sottoposto dichiaravano — ad esempio — che i punti di campionamento “saranno estratti casualmente in modo da essere rappresentativi della loro regione per quanto riguarda la percentuale di diffusione della radio e della televisione”. Questa dichiarazione è contraddittoria: come visto nella sez. 3, non si può estrarre un campione in modo che sia casuale e contemporaneamente rappresentativo. A fortiori, se si scelgono dei comuni da una “rete” precostituita non si può sostenere di averli estratti casualmente dall’insieme dei comuni della cella. Per valutare almeno approssimativamente l’entità della distorsione rispetto al principio di casualità bisognerebbe sapere da quanti comuni è costituita la rete, con quali criteri è stata formata, per quanto tempo resta immutata, e — soprattutto — con quali criteri sono scelti di volta in volta i comuni. Ma queste informazioni non sono, ovviamente, a disposizione del pubblico : persino l’elenco dei punti di campionamento di un sondaggio viene comunicato al committente solo dietro sua esplicita richiesta. Posso quindi solo avanzare delle congetture, basate in parte su esperienze dirette, in parte su fonti pubblicate. Le esperienze dirette qui rilevanti sono di tre tipi : — tutte le (numerose) volte che, durante un briefing o per ragioni di controllo66, sono venuto a conoscenza del comune in cui risiedeva un intervistatore, è risultato che quel comune, piccolo o grande che fosse, era stato “estratto casualmente” fra i punti di campionamento del sondaggio in questione ; — ogni volta che, ottenuta la lista dei punti di campionamento di un sondaggio nazionale, li ho individuati uno per uno sulla carta geografica, ho riscontrato che tutti o quasi tutti i piccoli comuni “estratti casualmente” si trovavano nelle adiacenze di grandi o medie città o lungo grandi vie di comunicazione ;

64 Inoltre, le ditte di sondaggi hanno tutto l’interesse a includere nel loro campione le grandi città, dove certamente dispongono di intervistatori professionisti, e quindi possono risparmiare sulle spese di trasferimento. 65 Il primo dei tre stadi cui allude il testo è l’estrazione dei punti di campionamento; il secondo è l’estrazione delle sezioni elettorali; il terzo è l’estrazione dei singoli intervistati (vedi oltre, parr. 4.3 e 4.4). 66 Il briefing è una riunione in cui le caratteristiche del questionario usato per un sondaggio importante vengono illustrate agli intervistatori professionisti di cui un’agenzia dispone in una certa area geografica, che allo scopo confluiscono in una città logisticamente opportuna (se il sondaggio è meno importante si provvede per telefono). Di solito un sondaggio nazionale prevede briefings in 5 o 6 sedi, tenuti da rappresentanti dell’agenzia. Può capitare che il committente invii un proprio rappresentante (in genere un esperto di statistica o di metodologia) ad assistere al briefing o a tenerlo; a questo titolo ho assistito, o tenuto personalmente, vari briefings . Mentre il briefing è una procedura normale, è più raro che le prestazioni degli intervistatori siano controllate in sede di codifica. Ma a me è capitato più volte di ottenere da un’agenzia che alcuni intervistatori rifacessero interviste troppo mal eseguite, e in tali occasioni sono entrato in contatto diretto con gli intervistatori stessi.

— dopo ripetute esperienze come quelle sopra descritte, mi sono convinto che non era il caso di affidare alle agenzie la scelta dei punti di campionamento. Quindi, in occasione di un sondaggio che Tullio-Altan stava per compiere in Lombardia (Tullio-Altan e Cartocci 1979), preparai, insieme con Cartocci, una lista dei punti di campionamento in cui comparivano vari comuni delle valli alpine e prealpine. Ma le agenzie che consultammo rifiutarono di usare la nostra lista, anche di fronte alla nostra offerta di pagare il doppio le interviste effettuate in quei comuni ; dovemmo quindi spedire nelle valli alpine intervistatori da noi direttamente reclutati, addestrati e retribuiti. Fin qui le esperienze dirette. Da fonti pubblicate possiamo apprendere che sono stati estratti campioni nazionali di 2.000 intervistati senza alcun addetto all’agricoltura (lo denuncia Capecchi 1972, 53), il che fa pensare che nessun comune rurale, collinare o montano fosse stato “estratto” fra i punti di campionamento. Possiamo poi confrontare i due elenchi delle p.s.u. di importanti ricerche dirette da Calvi, pubblicati con grande scrupolo in appendice ai relativi volumi (Calvi 1977 e Calvi 1980) insieme a molte altre informazioni preziose per valutare la fedeltà dei suoi dati. Da questo confronto risulta che più della metà (71 su 138) dei punti di campionamento usati nel secondo sondaggio erano stati usati anche nel primo sondaggio. Questo è un fortissimo indizio dell’esistenza di una ristretta “rete” di punti di campionamento : infatti, visto che i comuni italiani sono oltre 8.000, la probabilità che due liste di 138 comuni estratti casualmente abbiano 71 elementi in comune è piccola al di là di ogni immaginazione.67

Sembra difficile evitare di concludere, sia pure in via congetturale, sulla base di indizi forti e convergenti, che: a) le agenzie estraggono i comuni che diventano i loro punti di campionamento da una “rete” che costituisce un piccolo sotto-insieme della totalità dei comuni; b) tale rete è tendenzialmente permanente, o quanto meno viene modificata di rado e probabilmente solo in piccola parte; c) entrano di preferenza a far parte della “rete” i comuni raggiungibili dagli intervistatori con un minimo di costi per l’agenzia (che rimborsa le spese di trasferimento), e cioè nell’ordine: — quelli in cui risiedono gli intervistatori che lavorano per quella data agenzia (nessun costo di

trasferimento); — quelli vicini ai precedenti (bassi costi di trasferimento), e quindi di preferenza i comuni situati

alla periferia di grandi e medie città;68

— quelli situati lungo grandi vie di comunicazione (trasferimenti un po’ più costosi ma quanto meno non disagevoli e quindi non sgraditi agli intervistatori);

d) un comune di montagna, o comunque costoso e faticoso da raggiungere, non ha alcuna probabilità di entrare a far parte della “rete”, a meno che qualche intervistatore non vi risieda. Se tutto ciò è vero, allora ci pare assai inopportuno parlare di campione ‘casuale’; un’espressione che descrive assai meglio i fatti ci sembra essere ‘campione razionale’; più esattamente, usando le categorie weberiane, campione zweckrational, razionale rispetto ai mezzi (economici dell’azienda), anziché wertrational, razionale rispetto al valore (della correttezza scientifica).

D’altra parte, non si vede come ci si potrebbe attendere qualcosa di diverso da un’agenzia commerciale, che come tale persegue fini di profitto, e quindi riduce i costi ovunque le è consentito, altrimenti finisce fuori mercato. Naturalmente deve sperare che i committenti non pretendano di controllare davvero le sue procedure. Per evitarlo un’agenzia fornisce su tali procedure solo informazioni ridotte e generiche, e le sostituisce con un continuo ricorso69 a

67 Queste osservazioni non implicano minimamente una critica all’operato del prof. Calvi, che al contrario merita ogni apprezzamento sia perché è uno dei pochissimi autori a fornire queste informazioni sulla propria ricerca, sia perché è perfettamente consapevole dei limiti che esigenze organizzative ed economiche pongono alla fedeltà dei suoi dati e — a differenza di molti responsabili di agenzia — dichiara esplicitamente tali limiti (vedi ad es. 1977, 25 e 135). 68 La tendenza a privilegiare, per mere ragioni di economia, i comuni vicini a grandi e medie città, o comunque non isolati, produce dei campioni di sentimenti più secolarizzati e progressisti della generalità del paese, a meno che sia bilanciata da tendenze contrarie nella scelta delle sezioni elettorali e degli individui da intervistare. Di questa eventualità diremo nei paragrafi che seguono. 69 Limitatamente ai Bollettini della Doxa — che, come detto, sono praticamente l’unica fonte del genere accessibile al pubblico — il continuo ricorso a questi termini è documentato in Siboni e Marradi (1989). Nelle parole di un’intervistatrice, i committenti ricevono “molti paroloni su carta dorata che incarta un prodotto scadente” (Toller 1994,

termini che suonano bene e non costano niente, come ‘rappresentativo’, ‘casuale’, ‘scientifico’, etc. Esattamente come Tartufo, che tanto più ricorreva a “devozioni” e giaculatorie quante più magagne doveva coprire.

4.2. Se è ragionevole attendersi che nella maggior parte dei casi la scelta dei comuni in cui effettuare le interviste si ispiri a criteri di razionalità economica immediata (massimo risparmio sulle spese), nulla esclude che essa possa rispondere anche ai criteri di una razionalità economica di più ampio respiro.

Supponiamo ad esempio che, per soddisfare gli interessi politici di un committente, si desideri intervistare un campione di persone nel quale gli orientamenti conservatori in fatto di costume sono particolarmente pronunciati. Basta orientarsi, in tutte le celle delle fasce dimensionali medio-basse (nelle quali i comuni sono numerosi e spesso molto differenziati ; vedi l’esempio portato nel paragrafo precedente) verso i comuni più spiccatamente rurali e isolati, evitando invece i comuni periferici delle grandi città. Questo comporterà certamente maggiori costi e problemi logistici, ma il sacrificio può essere giustificato dalla prospettiva di altre commesse da quella parte politica. Di converso, l’agenzia che desideri estrarre un campione particolarmente secolarizzato non ha che accentuare la tendenza ad inserire nel campione i comuni delle “cinture” metropolitane, privilegiando quelli dove il voto alla sinistra è più elevato.

In quasi tutte le celle in cui le agenzie di sondaggi suddividono il paese, coesistono comuni con tradizioni politiche di sinistra, di centro o di destra; comuni rurali, urbani o periferici; comuni di orientamento tradizionalista o secolarizzato. Una scelta oculata offre amplissime possibilità di manovra a un’agenzia. Scegliendo ad hoc due o tre punti di campionamento per ogni cella nelle fasce dimensionali medio-basse70, si può mutare profondamente la natura di un campione. E si tratta di un delitto quasi perfetto, che lascia pochissime tracce, in quanto assai raramente la lista dei punti di campionamento viene pubblicata, e ancor più raramente viene controllata da qualcuno attento alle possibili distorsioni intenzionali.

Si obietterà che una forza politica non ha molto interesse ad alterare a suo favore i risultati dei sondaggi pre-elettorali, perché non sono mai prevedibili le reazioni che una sua avanzata può provocare sull’elettorato. Può darsi che si attraggano gli incerti o quelli che amano saltare sul carro del vincitore ; può anche darsi però che i simpatizzanti più tiepidi, rassicurati dai sondaggi, stiano a casa o facciano un picnic anziché andare a votare. E, specularmente, una manovra al ribasso ha prospettive altrettanto incerte : può provocare una mobilitazione di tutti i fedeli, ma anche la fuga delle frange opportuniste. Questi possibili effetti contrastanti dei sondaggi pre-elettorali sono stati descritti dai politologi americani, che vantano mezzo secolo di esperienza in materia, e sono noti anche a noi.

Ci sono tuttavia situazioni, diverse da un’elezione, in cui quanto detto sopra non vale affatto: situazioni in cui, cioè, i partiti sono ragionevolmente certi di avere tutto da guadagnare da un determinato esito dei sondaggi da loro commissionati.

Ricostruiamo ad esempio la situazione precedente al referendum sul divorzio del 1974. L’istituto del divorzio venne introdotto nell’ordinamento giuridico italiano dalla legge Fortuna-Baslini del 1° dicembre 1970. Contestualmente, per permettere al paese di esprimersi sulla questione, venne introdotto anche l’istituto del referendum, dando soddisfazione alle forze cattoliche, che sostenevano l’estraneità del divorzio alla coscienza dell’italiano medio. Venne infatti presentata una richiesta di referendum, e subito dopo una proposta di modifica della legge Fortuna-Baslini

90). 70 Negli strati più alti i comuni sono assai meno numerosi, e quindi la possibilità di manovra si riduce. In questi casi sarebbe possibile operare lo stesso genere di distorsione “politica” a livello più basso, cioè intervenendo nel secondo stadio, cioè sulla scelta delle sezioni elettorali (vedi oltre, par. 4.3): in ogni grande città ci sono sezioni elettorali di destra e di sinistra, tradizionaliste e modernizzate, etc. Tuttavia dare le necessarie istruzioni alla rete di intervistatori è più faticoso e rischioso (perché la notizia diffondendosi può arrivare ad orecchie indiscrete). Tenderei pertanto, sempre su base puramente congetturale, a ritenere improbabile che questo genere di interventi sia operato sui comuni più grandi.

per renderla meno sgradita ai cattolici e così “disinnescare la mina vagante del referendum”. I partiti formarono una commissione che discusse e contrattò a lungo sulle modifiche da approvare.71

E’ evidente che durante la contrattazione sulle modifiche, i partiti antidivorzisti (Dc e Msi) avevano tutto da guadagnare e niente da perdere dalla pubblicazione di sondaggi che mostravano una maggioranza del paese ostile al divorzio ; tale notizia infatti rafforzava immediatamente la loro posizione contrattuale entro la commissione, senza alcuna possibile conseguenza negativa72. E’ altrettanto evidente che i partiti divorzisti avevano un interesse uguale e contrario a sfruttare nelle trattative notizie di sondaggi che rivelassero una maggioranza favorevole al divorzio.

Richiamato il “quadro politico”, vediamo ora come si comportarono quelle che al tempo erano le due maggiori agenzie italiane di sondaggi. Durante la discussione sulla legge, la Doxa chiese tre volte (giugno ’70, febbraio ’71, febbraio ’72) a campioni nazionali di italiani se erano pro o contro il principio del divorzio (vedi fig. 3); la Demoskopea chiese loro la stessa cosa due volte (aprile ’70 e novembre ’71)73. Entrambe le agenzie posero anche due volte (febbraio ’72 e dicembre ’73 la Doxa; novembre ’71 e gennaio ’74 la Demoskopea) una domanda sulla propensione a votare pro o contro l’abrogazione della legge sul divorzio nel referendum74. Sulla base dei dati pubblicati nei rispettivi bollettini75, si possono facilmente calcolare le cifre relative allo scarto fra intervistati adulti contrari all’abrogazione (segno + ) e favorevoli all’abrogazione (segno — ) che si vedono riportate nella tab. 1.

Tab. 1: Differenza fra % di favorevoli al divorzio (segno + ) e % di contrari al divorzio (segno — )

tema

periodo sondaggio

Doxa sondaggio Demoskop.

scarto

scarto corretto per sfasamento

principio primavera ’70

—30,9% (giu.’70)

—4,6% (apr.’70)

26,3%

27,3% principio inverno ’71-72

—12,4% (febb.’72)

+14,3% (nov.’71)

26,7%

28,2%

legge inverno ’71-72

—O,3% (febb.’72)

+24,3% (nov.’71)

24,6%

26,1% legge inverno ’73-74

+5,6% (dic.’73)

+33,4% (genn.’74)

27,8%

27,3% legge primavera ’74

+14,6% (mar ’74)

+19,6% (apr. ’74)

5%

4,5% Il fatto che Doxa e Demoskopea abbiano compiuto quattro rilevazioni a brevissima distanza di tempo l’una dall’altra consente di apprezzare più nitidamente l’entità e la stabilità dello scarto che divide i due risultati: da uno scarto minimo poco inferiore ai 25 punti di percentuale a uno scarto massimo vicino ai 28 punti di percentuale (prime quattro righe della tab. 1; della quinta riga dirò dopo)76.

71 I partiti di governo non vedevano infatti di buon occhio il referendum per l’ovvia ragione che esso spaccava in due la maggioranza (Dc per l’abrogazione della legge, Psi e partiti laici minori contro). Ancora più ostile era il Pci, che non voleva essere costretto a questo spiacevole dilemma: o prendere posizione contro la gerarchia cattolica su una questione di coscienza apertamente, direttamente e davanti alle grandi masse elettorali, oppure defezionare dallo schieramento laico come nel voto sull’art. 7 della Costituzione (riconoscimento del concordato fascista con la S. Sede). 72 Infatti, se poi si fosse effettivamente andati al referendum, un eventuale esito diverso da quello del sondaggio avrebbe sempre potuto essere presentato come frutto di un mutamento di opinione intervenuto nel frattempo — come in effetti fu fatto: vedi oltre. 73 Vedi il confronto fra i risultati di due coppie di sondaggi vicini nel tempo nelle due prime righe della tab. 1 (etichettate ‘principio’). 74 Vedi il confronto fra i risultati di queste due coppie di sondaggi nella terza e nella quarta riga della tab. 1 (etichettate ‘legge’). 75 “Bollettino Doxa” XXIV, n 17-18 (1970); XXV, n. 8-9 (1971); XXVI, n. 5-6 (1972); XXVIII, nn. 9 e 10 (1974); “Panorama” 7 febbraio 1974 (per il sondaggio Doxa del dicembre 1973); “Ricerche Demoscopiche” III, n. 4 (1970); IV, n. 2 (1972); VI, nn. 1 e 2 (1974). 76 Nella fig. 2 ho riportato le cifre dello scarto fra percentuali di risposte favorevoli e contrarie al divorzio sulle ordinate di

Sarebbe in ogni caso difficile attribuire una differenza di tale entità a redazioni diverse delle domande ; peraltro le domande usate dalle due agenzie erano uguali. Sembrano poco plausibili anche due spiegazioni alternative del divario, e cioè: a) istruzioni, date alle rispettive reti di intervistatori, di influenzare o addirittura alterare le riposte nella direzione auspicata da ciascuna agenzia (tali istruzioni, oltre che di esito incontrollabile, avrebbe presentato un alto rischio di essere rivelate a un giornalista in cerca di scoops); b) una mera alterazione diretta delle cifre totali prima della loro pubblicazione (essa sarebbe andata troppo platealmente contro l’etica professionale). Visto che la fantasia non ci soccorre oltre nel trovare plausibili spiegazioni alternative, non resta che attribuire una differenza così vistosa fra i risultati delle due agenzie a una diversa politica di scelta dei punti di campionamento77 entro le diverse celle della griglia che divide i comuni italiani per zona e dimensioni (vedi paragrafo precedente).

un diagramma cartesiano la cui ascissa è il tempo. Ciò rende più evidente il fatto che nel paese era in atto un rapido spostamento di opinioni a favore del divorzio, la cui portata può essere stimata in mezzo punto di percentuale al mese. Possiamo quindi correggere gli scarti fra i risultati di sondaggi vicini nel tempo in modo da renderli perfettamente sincronici. Per farlo, basta togliere 0,5 allo scarto per ogni mese di differenza se il sondaggio della Doxa precede quello della Demoskopea; aggiungere la stessa cifra se invece il sondaggio della Doxa segue quello della Demoskopea. Se si esegue questa semplice operazione, la differenza in punti di percentuale tende a stabilizzarsi, cioè diventa ancora più simile fra un sondaggio e l’altro (cifre date nell’ultima colonna della tabella, come “scarto corretto per sfasamento”): con i dati grezzi la differenza varia fra un minimo di 24,6 e un massimo di 27,8; con quelli corretti per sfasamento essa varia fra 26,3 e 28,2. Vedi i dettagli di queste stime e di questi calcoli in Marradi (1974, 591-601) 77 L’importanza della “rete dei punti di campionamento” (sampling frame) agli effetti dei risultati dei sondaggi è stata

Questa vicenda — che ho ricostruito in dettaglio per il suo valore emblematico — ha un seguito non meno interessante. Nel febbraio ’74, fallito ogni tentativo di concordare una modifica alla legge sul divorzio, venne indetto il referendum per il 12 maggio seguente. A questo punto, le agenzie non avevano più l’esigenza di fornire “dati” che rafforzassero le posizioni dei rispettivi committenti nelle trattative sulla modifica della legge. Diventava invece preminente l’esigenza di tutelare la propria immagine “scientifica”, fornendo risultati quanto più vicini possibile a quello che sarebbe stato il responso delle urne. La Doxa condusse un ultimo sondaggio nel marzo ’74, la Demoskopea nell’aprile: i risultati, sempre sotto forma di scarto fra favorevoli e contrari, sono riportati nell’ultima riga della tab. 1. Come mostrano le cifre, la Doxa registrò un’impetuosa crescita del favore per il divorzio rispetto al suo precedente sondaggio: 9 punti di percentuale in più in tre mesi (dal dicembre al marzo). Contemporaneamente, la Demoskopea registrò un drammatico crollo dello stesso favore: 14 punti di percentuale in meno, sempre in tre mesi (gennaio-aprile). Di conseguenza, il divario fra le due stime si ridusse da un abissale 27,8% a un più accettabile 5%.

Naturalmente, i bollettini delle due agenzie attribuirono all’elettorato (e più esattamente, alla mobilitazione dello schieramento avverso) i due vistosi mutamenti uguali e contrari. Ma, visto che lo stesso elettorato non può contemporaneamente divenire più secolarizzato e meno secolarizzato, è difficile resistere alla tentazione di avanzare una spiegazione alternativa: nell’imminenza del voto, ciascuna delle due agenzie, forse tenendo anche conto del divario fra i rispettivi risultati precedentemente pubblicati, operò una serie di aggiustamenti al proprio elenco dei punti di campionamento. Chi aveva un’eccedenza di comuni rurali, montani, o comunque tradizionalisti, ne avrà sostituiti alcuni con altri appartenenti alla stessa cella ma presumibilmente più secolarizzati, perché industrializzati e/o situati nelle cinture peri-urbane o su grandi vie di comunicazione. Chi aveva un’eccedenza inversa avrà compiuto la sostituzione inversa. Entrambe le mosse nel tentativo di equilibrare meglio la propria rete di punti di campionamento, rendendola un’immagine un po’ più fedele del paese, e quindi accrescendo le probabilità che i risultati del proprio sondaggio si avvicinassero all’esito effettivo del referendum.

4.3. Torniamo alla procedura a più stadi. Il secondo stadio è la scelta di alcune sezioni elettorali nei comuni estratti al primo stadio; tali sezioni vengono denominate “punti di campionamento secondario” (secondary sampling units, s.s.u.). Solo nei comuni molto piccoli78, l’intervistatore è tenuto ad estrarre i nominativi degli intervistandi direttamente dalle liste elettorali dell’intero comune; negli altri comuni l’intervistatore può estrarre un certo numero di sezioni elettorali, e poi estrarre i nominativi dalle liste relative alle sole sezioni estratte. Questo secondo stadio è stato introdotto dalle agenzie di sondaggi unicamente per minimizzare tempi e costi di trasferimento dei loro intervistatori (e quindi le loro pretese economiche). Infatti, dato che le sezioni elettorali sono ritagliate dai comuni con criteri di contiguità territoriale, le persone estratte dalla stessa sezione abiteranno tutte a poca distanza l’una dall’altra. In tal modo l’intervistatore, risparmiando molto sui tempi di trasferimento, potrà eseguire molte più interviste nella stessa giornata; visto che inoltre risparmia anche sui costi di trasferimento, l’agenzia potrà permettersi di pagare molto meno la singola intervista. Si potrebbe fare appello all’esigenza di garantire la rappresentatività del campione per tipi di quartiere di residenza solo se la scelta delle sezioni fosse “ragionata” anziché affidata ufficialmente alla sorte — e in effetti all’arbitrio degli intervistatori (vedi oltre).

segnalata, fra gli altri, anche da Brislin, Lonner e Thorndike (1973, 74-75), che rilevavano come le previsioni elettorali delle due maggiori agenzie inglesi differissero sistematicamente appunto per le differenti “reti” utilizzate. 78 Nel “Bollettino Doxa” n. 20-21 del 9 dicembre 1966, p. 155, si legge che “nei comuni più piccoli, in cui le sezioni elettorali sono meno di 5, queste vennero considerate tutte”. Considerato che una sezione elettorale comprende abitualmente fra i 600 e i 700 elettori, questo significa che la Doxa istruisce i propri intervistatori ad estrarre i nominativi direttamente dalle liste relative a tutto il comune solo se il comune è inferiore ai 3.000 elettori, cioè circa 5.000 abitanti. Altre agenzie stabiliscono il limite dei 10.000 abitanti.

Anche in questo caso, quindi, il criterio effettivamente dominante è la razionalità economica (zweckrationalität ; vedi sopra, par. 4.1) dell’azienda, e non la wertrationalität, razionalità rispetto al valore (di avere un campione di buona qualità). Infatti, “l’indipendenza reciproca dei singoli soggetti campionati... è... requisito fondamentale per un campionamento casuale” (Corbetta 1972, 350). “Per gli scienziati sociali, il requisito dell’indipendenza statistica significa che le possibilità di interazione fra i soggetti devono essere ridotte al minimo” (Lazerwitz 1968, 279). Ma è un po’ difficile dare per scontato che non ci sia alcuna interazione fra numerosi abitanti dello stesso isolato, o dello stesso vicinato. Di conseguenza, gli statistici sono concordi nel dichiarare che ogni procedura definibile come clustering (raggruppamento, con qualsiasi criterio, dei membri di un campione) ha come conseguenza “un errore medio di campionamento più alto che nel campionamento semplice” (Sadocchi 1984, 115; analogamente Lazerwitz 1968, 300). Stephenson definisce “perniciosi” gli effetti del clustering sulla precisione delle stime (1979, 481). Si capisce come mai la teoria statistica sia così sospettosa del campionamento a più stadi — anche se la legittimazione del campionamento “stratificato” gli ha fornito una copertura di fatto.

Questo sia detto relativamente al semplice principio dell’estrazione dei nominativi dalle liste di sezione anziché da quelle comunali. Va aggiunto che, come spesso accade, il modo in cui il principio è attuato può aggravare molto la situazione. Le agenzie proclamano concordemente che la scelta delle sezioni elettorali (s.s.u.) all’interno di ciascun comune è — come dubitarne? — casuale. D’altra parte, in un “Bollettino Doxa” si legge, ad esempio: “In un secondo stadio venne estratto, in ogni comune, un adeguato numero di sezioni elettorali in modo che tutti i diversi tipi di aree abitate del comune (le zone centrali e periferiche, le frazioni e le case isolate) risultassero rappresentate nelle giuste proporzioni” (n. 14-15 del 28 giugno 1972, p. 175 (corsivo mio). Come si è mostrato nella sez. 3, il concetto di estrazione casuale e il concetto di estrazione “fatta in modo che...” sono incompatibili. Ma, a parte i resoconti delle agenzie, si può sospettare che la tensione fra principio di casualità e principio di rappresentatività (che sta a monte dell’estrazione “in modo che”: vedi sopra, par. 3.2) venga tranquillamente risolta, nei fatti, a favore di un terzo principio, estraneo a entrambi: ancora il principio di razionalità rispetto ai mezzi, ma questa volta applicato dall’intervistatore nel suo proprio interesse. Che è, naturalmente, quello di “estrarre” sezioni vicine fra loro e vicine alla propria abitazione (se abita nel punto di campionamento, come accade spesso), e/o al proprio luogo di lavoro o di studio, oppure al proprio luogo di accesso (stazione, parcheggio comodo, etc.) al territorio del comune dove deve fare interviste79. Visto che l’intervistatore opera talvolta per decenni in una ristretta zona attorno al suo luogo di residenza, non gli sarà certo difficile farsi un quadro delle sezioni da “estrarre casualmente” nei pochi comuni dove gli capita abitualmente di intervistare.80

Un altro aspetto del tutto, ma inopportunamente, trascurato è il numero di interviste assegnate a ciascuna sezione (s.s.u.). E’ ovvio che maggiore è tale numero, più comoda è la vita per l’intervistatore, ma più alto è il clustering bias (distorsione dovuta alla violazione del requisito di indipendenza dei membri). In letteratura si raccomanda di non superare le 5 interviste per s.s.u. (Stephenson 1979, 490) o al massimo le 10 (Perry 1979, 315). Questo argomento non è trattato nel Bollettino della Doxa, o nei rapporti sottopostimi in quanto committente dalle agenzie: forse l’ampiezza delle s.s.u. è di fatto considerata materia di competenza esclusiva degli intervistatori.

79 Anche quando i punti di campionamento secondari sono assegnati dalle agenzie, sotto forma di incroci o numeri civici dai quali partire nel “campionamento per spot” (city-block sampling ; vedi sopra, nota 17), gli intervistatori tendono a manipolarli per ridurre i propri spostamenti (lo ammette la Toller 1994, 86-7). 80 Naturalmente, non voglio affatto escludere l’esistenza di intervistatori scrupolosi che ogni volta estraggono casualmente le loro brave sezioni. Voglio solo far presente la banale considerazione che, data l’alta incidenza dei tempi (e costi) di trasferimento, e dato che nessuno esercita un controllo sulla scelta delle sezioni (l’agenzia non ha alcun interesse a farlo se il committente non lo richiede, e il committente medio non ha la competenza necessaria per richiederlo), estrarre davvero casualmente le proprie sezioni quando è così facile andare nei quartieri vicino casa, è un comportamento che richiede una dose notevole di abnegazione. Una dose che, sia pure in questo paese di navigatori, di eroi e di santi, non è il caso di dare per scontata. E, visto il livello generalmente basso delle retribuzioni per intervista, neppure di richiedere. Non si deve mai scordare, infatti, che l’intervistatore è “mal addestrato, mal pagato, peggio seguito e tanto meno controllato” (Toller 1994, 90).

Stando così le cose, è difficile escludere che qualche intervistatore “se ne approfitti”, magari senza neppure cercare di salvare le apparenze (tanto, questo aspetto non è mai oggetto di controllo : cfr. Boccuzzi 1985 ; Toller 1994). Mi è infatti capitato di trovare, a un controllo del tutto occasionale, trenta intervistati milanesi che risiedevano tutti nella stessa strada, nell’arco di pochi numeri civici ; altri dieci risiedevano in una piazza limitrofa. Insieme, essi costituivano quasi la metà delle interviste assegnate al comune di Milano in un sondaggio nazionale81: mezza Milano racchiusa in un fazzoletto.

4.4. Siamo arrivati così al terzo stadio della procedura di estrazione, con la quale i nomi degli individui sono estratti dalle liste delle sezioni elettorali (per i comuni molto piccoli, come si è visto, i nomi sono estratti direttamente dalle liste generali; si salta il secondo stadio). In questo stadio, com’è ovvio, la libertà dell’intervistatore è massima, e quindi l’aneddotica a disposizione di chi abbia una certa esperienza di lavoro con le agenzie è vastissima82. Accennerò rapidamente ad alcune delle forme di distorsione che emergono, per poi concentrarmi su quelle più direttamente pertinenti alla casualità dell’estrazione.

La distorsione che il profano tende a immaginare come la più frequente (interviste inventate di sana pianta), è relativamente rara. Lo dichiara un’ex intervistatrice (Toller 1994, 87-8) e me lo hanno confermato tutti gli intervistatori con cui ho avuto occasione di parlare in confidenza83. Le giustificazioni addotte da chi ammette di aver inventato interviste sono sempre le stesse: “sfuggire alla persecuzione telefonica di una capo-zona che insiste perché i tempi di consegna siano rispettati” (ibi) e sfuggire alla noia di somministrare “tutti quei cartellini”84. Le batterie di scale Likert o domande simili — che fanno la felicità dei metodologi perché possono trattarle con tecniche quantitative di analisi — sono vittime pre-destinate degli intervistatori, che per ridurre i tempi le compilano spesso di testa loro sulla base dell’idea che si sono fatti dell’intervistato.85

Veniamo infine ai problemi legati all’estrazione casuale dei nominativi. E’ previsto che ogni intervistatore la effettui applicando una tavola di numeri casuali, fornita dall’agenzia, alle liste elettorali delle sezioni scelte — o, per i piccoli comuni, dell’intero comune. Anche in questo stadio, ci saranno senz’altro intervistatori scrupolosi che procedono effettivamente così; ma lascio valutare al lettore quanto sia probabile che un intervistatore che opera magari da dieci anni nello stesso comune (e quindi vi ha intervistato centinaia o migliaia di persone) ricorra davvero alla tavola dei numeri casuali anziché rivolgersi a persone di cui ha già più volte constatato la disponibilità ad essere intervistate. A sentire la Toller, “ogni intervistatrice con un po’ di esperienza si costruisce una fitta rete di amici e conoscenti che a loro volta indicano altri amici e conoscenti. Tra gli intervistatori questo si chiama effetto capannello“ (1994, 88). Anche il 81 Il sondaggio, che prevedeva 2.500 interviste, era stato commissionato ad un’agenzia milanese dall’Istituto universitario presso il quale ero assistente negli anni ’70. 82 Chi non abbia esperienza diretta può leggere i classici saggi di Roth (1965) e Peneff (1988). Vedrà così che i problemi non riguardano solo l’Italia, né solo i tempi recenti. 83 Mi è capitato assai più spesso di sentire degli studenti che confessavano di aver riempito di sana pianta o completato — naturalmente a casaccio — dei moduli di rilevazione di censimenti o di altre indagini periodiche dell’ISTAT, dopo aver vanamente tentato di farli compilare o completare dagli interessati, spesso irrintracciabili (cfr. il già ricordato tascabile con le rivelazioni di un rilevatore censuale: Pasquali 1992). E dire che i dati censuali sono ritenuti dati “duri”, cioè particolarmente attendibili. 84 I cartellini (gadgets) sono usati per attrarre l’attenzione dell’intervistato. Amati dai metodologi e dalle agenzie, sono aborriti dagli intervistatori, che vedono in essi “il motivo principale dello scadimento di interesse e dell’affaticamento da parte degli intervistati” (Toller 1994, 89). Ritengo significativo il fatto che nessun intervistatore mi abbia addotto come motivazione il desiderio di evitare una trasferta disagevole (neanche la Toller lo menziona). Evidentemente, i vari accorgimenti che ho provato a ricostruire nei paragrafi precedenti sembrano efficaci nel ridurre al minimo l’incidenza delle trasferte disagevoli. 85 “Il salto di parte dell’intervista e la successiva invenzione da parte dell’intervistatore è ancora più probabile nel caso di tabelle macchinose... In breve tempo si diviene convinti di essere perfetti conoscitori del genere umano” (Toller 1994, 88-9). Sui risultati di controlli sul campo circa il modo in cui alcuni intervistatori sottopongono le domande in forma di batteria, vedi una documentazione in Marradi (1989, 112-3).

Bollettino Doxa ha riconosciuto “la tendenza degli intervistatori di avvicinare prevalentemente conoscenti o amici di conoscenti” ammettendo che essa “poteva [sic] introdurre nel processo di scelta un elemento deformante”.86

E’ molto difficile aver prove dirette di questo genere di distorsioni (anche se mi sono capitate intervistatrici che ammettevano di aver intervistato gruppetti di amiche, separatamente o persino tutte insieme). Un attento lavoro di controllo sui questionari inoltrati dall’agenzia può far emergere, peraltro, situazioni gravemente sospette. Sfogliando un pacco di questionari provenienti da Roma in una ricerca degli anni ’70 notai una lunga sequenza di persone con idee di estrema sinistra. Incuriosito, controllai a tappeto tutti i questionari degli intervistati romani : su 127, 92 avevano meno di 25 anni (circa otto volte tanto il numero che doveva toccare in proporzione a quella fascia di età). Quasi tutti questi giovani intervistati professavano idee di estrema sinistra. Visto che i recapiti non risultavano concentrati in particolari vie o quartieri, pensai che gli intervistatori romani dell’agenzia fossero quasi tutti giovani che interrogavano esclusivamente o quasi dei loro compagni di università e/o ex compagni di medie superiori, scegliendoli con un criterio di affinità politica. L’effetto aggregato di tutte queste micro-scelte, parzialmente ideologiche, parzialmente comode (intervistare amici, magari in gruppo), era che la tranquilla Roma ministeriale di allora appariva una ribollente Shanghai in piena rivoluzione culturale. La cosa può far sorridere il lettore ; un po’ meno chi ha investito anni di lavoro in un progetto di ricerca di ambito nazionale e scopre che le informazioni relative alla capitale sono troppo distorte per essere utilizzabili. Conseguenze meno gravi hanno le distorsioni che riguardano città più piccole : scoprii per es. che in un sondaggio il 90% delle persone intervistate a Brescia (una delle città più “bianche” d’Italia) si dichiarava iscritto al Pci, e che in un altro quasi tutti gli intervistati a Ravenna (roccaforte delle sinistre da oltre un secolo) dichiaravano di votare per il Partito Liberale.

Pur nella diversa gravità delle conseguenze, episodi come questi recano però tutti lo stesso avvertimento: non esistono praticamente limiti alle libertà che si può prendere un intervistatore se sa di non essere controllato. L’incidenza numerica di episodi del genere potrebbe anche esser considerata non preoccupante, se fossero gli unici emersi in una serie di controlli sistematici. Ma non sono stati fatti controlli sistematici — almeno, non da me. Gli episodi ricordati in questo paragrafo, come in tutto il saggio, sono invece emersi per caso, quando ho approfondito qualche stranezza che mi aveva colpito in sede di codifica o in sede di analisi. Può darsi che fossero gli unici casi di distorsione grave nei sondaggi con cui ho avuto a che fare; può darsi che essi fossero soltanto la punta di un iceberg. 4.5. Ho dedicato molto tempo al campionamento “a più stadi” data la sua diffusione e la sua importanza. Una conclusione mi sembra imporsi: ridurre le distorsioni che esso comporta al principio dell’estrazione causale è possibile solo a patto di straordinari investimenti (di impegno e di risorse). Bisognerebbe costituire un numero maggiore di celle definite meglio (par. 4.1), ed estrarre davvero casualmente i comuni entro le celle, le sezioni elettorali entro i comuni, gli intervistandi entro ciascuna sezione elettorale (parr. 4.1, 4.3, 4.4). Se il committente volesse avere la garanzia che tutto ciò sia fatto dovrebbe intervenire in ognuna di queste fasi (quindi in centinaia di comuni sparsi sul territorio), con una mobilitazione di risorse non realisticamente proponibile. Nei sondaggi di ambito più limitato, il criterio usato abitualmente per garantire la rappresentatività del campione su alcune proprietà che si ritengono essenziali è l’assegnazione di quote (vedi sopra, par. 3.2). Ad ogni intervistatore viene consegnata una griglia (sul tipo di quella riprodotta nella fig. 4) con il numero di persone da intervistare nelle

86 N. 5-6 del 30 gennaio 1978, p. 34.

varie categorie. E’ prevedibile che ciascun intervistatore, per minimizzare la fatica e il rischio di rifiuti, si rivolga a persone che conosce, magari a familiari, parenti e amici87: è probabile che fra questi le persone del suo stesso livello di istruzione, status sociale e ambiente, quartiere, opinione politica etc., siano presenti in proporzione assai maggiore (anche se è ignoto quanto maggiore) che nell’intera popolazione. Se ci proponiamo di evitare queste distorsioni, preparando una griglia che tenga conto anche di quelle variabili, ci troviamo di fronte a una serie di ulteriori problemi:

a) Non è detto che si conosca la distribuzione nella popolazione di tutte le proprietà sulle quali vorremmo garantire la rappresentatività del campione; di molte conosceremo magari la distribuzione monovariata, ma non quella congiunta con le altre proprietà della griglia. Se non conosciamo la distribuzione congiunta di una proprietà con tutte le altre della griglia, non possiamo inserirla nella griglia stessa, e quindi non possiamo garantirci la rappresentatività rispetto ad essa. b) Di alcune proprietà è teoricamente possibile conoscere la distribuzione nella popolazione, con alcune distorsioni (si pensi al reddito) e/o limitazioni (si pensi alle opinioni politiche), ma può essere ancora più arduo, e talvolta impossibile, all’intervistatore accertare attendibilmente lo stato nei singoli casi. Anche rispetto a queste proprietà la griglia risulta inutilizzabile. c) Il numero di celle della griglia cresce esponenzialmente all’aumentare del numero delle proprietà e dei singoli stati presi in considerazione: una griglia come quella della fig. 4, con tre sole proprietà e poche categorie, è già complessa da maneggiare. Gli intervistatori incontrano assai spesso difficoltà a riempire alcune delle celle, cioè a trovare il numero richiesto di persone con i requisiti desiderati e disposte a farsi intervistare. Ma anche se risolvessimo tutte queste difficoltà e trovassimo intervistatori così abili e pazienti da gestire la mostruosa complessità di una griglia che garantisca un campione rappresentativo rispetto a 5-6 proprietà anziché le solite 2 o 3, tutto questo sforzo servirebbe solo a spostare il problema delle distorsioni qualche spanna più in là: le proprietà la cui distribuzione può essere attivamente distorta da una “scelta ragionata” del campione sono innumerevoli, e sarebbe follia illudersi di poterle controllare tutte. Sono stati proposti vari criteri per ridurre il principale fattore di distorsione della casualità, cioè la discrezionalità degli intervistatori nella scelta degli intervistandi entro le varie celle della griglia; dei criteri a me noti, il più efficace sembra essere il cosiddetto probability sampling with quotas, proposto da Sudman (1966). Confrontando i dati di vari sondaggi, Stephenson ha dimostrato (1979) che esso presenta svantaggi non gravi, e anche qualche vantaggio, rispetto alle tecniche “a più stadi” di cui si è detto lungamente.

87 E’ questo “l’effetto capannello” di cui parla la Toller (1994, 88).

Ad ogni modo, sarebbe il caso di essere tutti più consapevoli dell’incompatibilità fra l’obiettivo della rappresentatività garantita su tutte le proprietà e la casualità dell’estrazione. Solo se ci si contenta di garantire la rappresentatività su un numero ridottissimo di proprietà (una, due o, in condizioni molto favorevoli, tre) si potrà soddisfare il requisito di un’estrazione veramente casuale (pari probabilità a priori di essere estratto per ciascun membro della popolazione). Il criterio da seguire è il campionamento sistematico (vedi sopra, par. 1.1), con un semplice accorgimento. Vediamo come fare, partendo dal caso più semplice: si vuole estrarre un campione casuale degli adulti residenti nella provincia X, garantendo la sua rappresentatività sulla proprietà ‘comune di residenza’. Si deve allora predisporre un elenco di tutti gli adulti della provincia, ordinati per comune (prima tutti i residenti nel comune a, poi tutti i residenti nel comune b, e così via). Dopodiché si stabilisce il passo (il numero di nomi in ciascuno dei segmenti uguali in cui si divide l’elenco), si estrae casualmente un numero pari o inferiore al passo, e tutti gli individui che hanno quella posizione entro i vari segmenti entrano nel campione. In questo modo si garantisce sia la pari probabilità a priori di tutti gli individui di entrare nel campione, sia la rappresentatività del campione sulla proprietà ‘comune di residenza’. Ogni comune avrà infatti un numero di estratti pari alla sua quota, più o meno una frazione di unità.88

Se si vuole garantire la rappresentatività del campione rispetto alla distribuzione congiunta del sesso e del comune di residenza basterà elencare entro ogni comune prima gli adulti di un sesso e poi quelli dell’altro sesso; la procedura resterà poi quella appena descritta. Dovrebbe essere evidente che essa darà ad ogni gruppo (composto ad esempio dai maschi adulti residenti nel comune X) la stessa garanzia di cui sopra: un numero di estratti pari alla sua quota, più o meno una frazione di unità. Dovrebbe essere altrettanto evidente che se introduciamo altre proprietà, il numero dei gruppi cresce esponenzialmente col numero delle proprietà e delle loro categorie (sono infatti come celle di una griglia: vedi sopra), e di conseguenza i gruppi divengono così piccoli che anche una frazione di unità diventa significativa nel sovra- o sotto-rappresentarli. Il secondo limite del criterio qui proposto è che esso — se si vuole ricorrere a interviste faccia-a-faccia — si può applicare solo in ambiti territoriali limitati, altrimenti si ripropone il problema dei costi di trasferimento degli intervistatori. Potrebbe peraltro essere applicato, in un sondaggio telefonico, a un campione nazionale di utenze telefoniche89 garantendone la rappresentatività per distretto — naturalmente a condizione di potere ordinare per distretto le utenze telefoniche.

Bibliografia ARCULEO, Antonella (1985) Relazione fra elezioni e referenda negli MARRADI, Alberto anni settanta, in "Rivista Italiana di Scienza Politica" XV, 1

(aprile): 99-141. BAKAN, David (1966) The Test of Significance in Psychological Research, in

"Psychological Bullettin" LXVI, 6 (dicembre): 423-37. BARNES, S. Barry (1972) Introduction, in S. B. Barnes (ed.), Sociology of Science.

Harmondsworth: Penguin. BARTOLINI, Barbara (1976) Insediamento subculturale e distribuzione dei suffragi in

Italia, in "Rivista Italiana di Scienza Politica" VI, 3 (dicembre): 481-514.

88 Vediamo perché con un esempio. Supponiamo che si voglia inserire nel campione un adulto su 100, e che il comune più piccolo abbia 572 residenti adulti. La sua quota è quindi 5,72 membri del campione. Con il criterio che sto proponendo, gliene toccheranno 5 o 6 a seconda di quale sarà il numero estratto casualmente. Ci sono 72 probabilità su 100 che gliene tocchino 6: quindi la sua quota sarà in effetti riprodotta dentro il campione come meglio non si potrebbe da un punto di vista matematico. 89 Sul perché dico ‘utenze’ anziché ‘utenti’ o ‘individui’ vedi sopra, par. 1.1.

BECKENBACH, Andreas (1995) Computer-Assisted Questioning: the New Survey Methods in

the Perception of the Respondents, in “Bulletin de Méthodologie Sociologique” XLVIII, 9: 82-100.

BLALOCK, Hubert M. (1960) Social Statistics. New York: McGraw-Hill.

Citazioni dalla trad. it. Statistica per la ricerca sociale. Bologna: Il Mulino, 1970.

BOCCUZZI, Ermelinda (1985) Parcellizzazioni e reificazioni nelle ricerche sociologiche: il

punto di vista di un'intervistatrice, in "Rassegna Italiana di Sociologia" XXVI, 2: 239-260.

BOSIO, Albino Claudio (1996) “Grazie no!”; il fenomeno dei non rispondenti, in “Quaderni di

Sociologia” XL, 10: 31-44. BRICK, J. Michael (1995) Bias in List-Assisted Telephone Samples, in WAKSBERG, Joseph “Public Opinion Quarterly” LIX: 218-235. CALVI, Gabriele (1977) Valori e stili di vita degli italiani. Indagine psicografica

nazionale 1976. Milano: ISEDI. CALVI, Gabriele (1980) La classe fortezza. Scelte degli elettori e responsabilit{ della

classe politica in Italia. Milano: Angeli. CAMPBELL, Donald T. (1963) Experimental and Quasi-Experimental STANLEY, Julian C. Designs for Research. Chicago: Rand-McNally. CAPECCHI, Vittorio (1972) Struttura e tecniche della ricerca, in Pietro Rossi (cur.),

Ricerca sociologica e ruolo del sociologo. Bologna: Il Mulino, pp. 23-120.

CAPECCHI, Vittorio (1968) Il comportamento elettorale in Italia. et al. Bologna: Il Mulino. CARTOCCI, Roberto (1988) Otto risposte a un problema: la divisione dell'Italia in zone

politicamente omogenee, in "Rivista Italiana di Scienza Politica" XXX, 1 (gennaio): 69-101.

CASTELLANO, Vittorio (1971) Elementi di teoria dei campioni. Roma: Ilardi. HERZEL, Amato CERI, Paolo (1994) A che cosa servono i sondaggi, in “il Mulino” XLIII, 355

(settembre): 885-901. CHIARI, Giorgio (1973) Il problema del campionamento nella CORBETTA, Piergiorgio ricerca sociologica, in "Rassegna Italiana di Sociologia" XIV, 3

(giugno): 473-513 e 4 (ottobre): 643-667. CORBETTA, Pergiorgio (1972) Sulla utilizzazione nella ricerca sociologica dei tests statistici di

significatività, in "Rassegna Italiana di Sociologia" XII, 2 (aprile): 341-64.

DONALD, Marjorie (1960) Implications of Nonresponse for the Interpretation of Mail Questionnaire Data, in "Public Opinion Quarterly" XXIV, 1 (spring): 99-114.

DRAGHI, Stefano (1982) Le proiezioni dei risultati elettorali, in “Quaderni di

Sociologia” XXX, n. 2: 437-455. DRAGHI, Stefano (1996) L’anticipazione dei risultati elettorali. Exit polls e proiezioni,

in AA.VV., Cento anni di indagini campionarie. Roma: Società Italiana di Statistica, 129-149.

FERBER, Robert (1952) Detection and Correction of Interviewer WALES, Hugh G. Bias, in "Public Opinion Quarterly" XVI, 1 (spring): 107-

127. FISHER, Ronald Aylmer (1922) On the Mathematical Foundations of Theoretical Statistics, in

"Philos. Transactions of the Royal Society", serie A, CCXXII: 3O9-368.

GOYDER, John (1982) Factors Affecting Response Rates to Mailed Questionnaires,

in "American Sociological Review" XLVII, 4 (summer): 550-53.

GROVES, Robert M. (1989) Survey Errors and Survey Costs. New York: Wiley. GROVES, Robert M. (1979) Surveys by Telephone. A National Comparison KAHN, Robert L. with Personal Interviews. NY: Academic Press. HAGOOD, Margaret Jarman (1941) Statistics for Sociologists. New York: Reynal & Hitchcock. HEBERLEIN, Thomas A. (1978) Factors Affecting Response Rates to Mailed BAUMGARTNER, Robert Questionnaires: A Quantitative Analysis of the Published

Literature, in "American Sociological Review" XLIII, 4 (august): 447-62.

HENKEL, Ramon E. (1976) Tests of Significance. London: Sage. HERZOG, A. Regula (1983) Interviewing Older Adults: A Comparison of RODGERS, Willard L. Telephone and Face-to-Face Modalities, in “Public Opinion

Quarterly” XLVIII: 356-69. HOGBEN, Lancelot T. (1957) Statistical Theory. The Relationship of Probability,

Credibility, and Error. New York: Norton. HYMAN, Herbert H. (1972) Secondary Analysis of Sample Surveys. New York: Wiley. I.S.T.A.T. (1963) Classificazione dei comuni secondo le loro caratteristiche

urbane e rurali, in “Metodi e norme”, 5 (luglio). I.S.T.A.T. (1986) Classificazione dei comuni secondo le loro caratteristiche

urbane e rurali, in “Note e relazioni”, n. 2. KEETER, Scott (1995) Estimating Telephone Noncoverage Bias with a Telephone

Survey, in “Public Opinion Quarterly” LIX: 196-217.

KIESLER, Sara (1986) Response Effects in the Electronic Survey, in “Public

Opinion Quarterly” L: 402-13. KISH, Leslie (1957) Confidence Intervals for Clustered Samples, in "American

Sociological Review" XXII (april): 154-65. KISH, Leslie (1959) Some Statistical Problems in Research Design, in "American

Sociological Review" XXIV, 3 (june): 328-38. KISH, Leslie (1965) Survey Sampling. New York: Wiley. LAZERWITZ, Bernard (1968) Sampling Theory and Procedures, in Hubert M. Blalock and

Ann B. Blalock (eds.), Methodology in Social Research. New York: McGraw-Hill, pp. 278-328.

MANNHEIMER, Renato (1985) Metodologia sociologica e rilevamento delle tendenze

dell'opinione pubblica, in Vincenzo Zeno-Zencovich (cur.), I sondaggi di opinione ed elettorali. Napoli: Jovene, pp. 146-56.

MANNHEIMER, Renato (1996) Sull’affidabilità dei dati, in “Quaderni di Sociologia” XL,

10: 5-30. MANNHEIMER, Renato (1982) L'astensionismo elettorale. Elementi di ZAJCZYK, Francesca analisi a partire dai risultati del referendum 1981, in

"Quaderni di Sociologia" XXX, nn. 2-3-4: 399-436. MARQUIS, Kent H. (1977) Survey Response Rates: Some Trends, Causes and

Correlates. Santa Monica: Rand Paper Series. MARRADI, Alberto (1974) Analisi del referendum sul divorzio , in "Rivista Italiana di

Scienza Politica" IV, 3 (dicembre): 589-644. MARRADI, Alberto (1989) Casualità e rappresentatività di un campione nelle scienze

sociali: contributo a una sociologia del linguaggio scientifico, in Renato Mannheimer (cur.), I sondaggi elettorali e le scienze politiche: Problemi metodologici. Milano: Angeli, pp. 51-134.

MACKENZIE, Donald A. (1981) Statistics in Britain, 1865-1930. The Social Construction of

Scientific Knowledge. Edinburgh: University Press. MORRISON, Denton (eds., 1970) The Significance Test Controversy: A HENKEL, Ramon E. Reader. Chicago: Aldine. NATALE, Paolo (1996) Quanto valgono gli exit-polls? in “Quaderni di Sociologia”

XL, 10: 45-69. ORSI, Renzo (1985) Probabilità e inferenza statistica. Bologna: Il Mulino. PARISI, Arturo (1977) Relazioni partiti-elettori e tipi di voto, in PASQUINO, Gianfranco Parisi e Pasquino (curr.), Continuità e mutamento elettorale in Italia.

Bologna: Il Mulino, pp. 215-249.

PASQUALI, Marco (1992) Ho fatto il Censimento. Roma: Millelire. PAVSIC, Rita (1996) Electronic Surveys, in Ezio Marra e Tullio Romita (curr.),

L’officina dei dati. Strumenti per la ricerca sociale nella società dell’informazione. Firenze: Arnaud.

PENEFF, Jean (1988) The Observer Observed: French Survey Researchers at

Work, in "Social Problems" XXXV, 5 (december): 520-35. PITRONE, Maria Concetta (1984) Il sondaggio. Milano: Angeli. REID, S. (1942) Respondents and Non-Respondents to Mail Questionnaires,

in "Educational Research Bulletin" XXI: 87-96. ROSITI, Franco (1995) Ideologia del sondaggio: considerazioni impolitiche,

relazione al convegno “Ragione democratica e qualità dei sondaggi”. Milano, 7 aprile.

ROTH, Julius (1965) Hired Hand Research, in "American Sociologist" I, 1

(november): 190-6. SADOCCHI, Sandro (1984) Introduzione al campionamento statistico. Firenze: Alfani. SARIS, Willem E. (1989) A Technological Revolution in Data Collection, in “Quality

and Quantity” XXIII, 3-4: 333-49. SCHUMPETER, Joseph A. (1942) Capitalism, Socialism, and Democracy. New York: Harper &

Row. SELVIN, Hanan C. (1957) A Critique of Tests of Significance in Survey Research, in

"American Sociological Review" XXII, 5 (october): 519-527.

SIBONI, Mariangela (1989) Casualità e rappresentatività nei Bollettini MARRADI, Alnerto della Doxa, in “Quaderni dell’osservatorio elettorale” n. 22

(gennaio) : 95-113. SOMERS, Robert H. (1972) Applications of an Expanded Survey Research Model to

Comparative Institutional Studies, in Ivan Vallier (ed.), Comparative Methods in Sociology. Berkeley: University of California Press, 357-420 .

STANTON, F. (1939) Notes on Validity of Mail Questionnaire Returns, in "Journal

of Applied Psychology": 95-104. STATERA, Gianni (1982) Metodologia e tecniche della ricerca sociale. Una

introduzione sistematica. Palermo: Palumbo. STEPHENSON, C. Bruce (1979) Probability Sampling with Quotas: An Experiment, in "Public

Opinion Quarterly" XLIII, 4 (winter): 477-96. STERLING, Theodore D. (1959) Publication Decisions and Their Possible Effects on Inferences

Drawn from Tests of Significance — Or Vice Versa, in

"Journal of the American Statistical Association" LIV, 1 (march): 30-34.

SUDMAN, Seymour (1966) Probability Sampling With Quotas, in "Journal of the

American Statistical Association" LXI: 749-771. SWOBODA, Helmut (1972) La statistica moderna illustrata. Milano: Rizzoli. TOLLER, Cinzia (1994) Memorie di un’intervistatrice pentita, in “Politica ed

economia” XXV, 5-6 (settembre): 85-90. TULLIO-ALTAN, Carlo (1974) I valori difficili. Milano: Bompiani. TULLIO-ALTAN, Carlo (1979) Modi di produzione e lotta di classe in CARTOCCI, Roberto Italia. Milano: ISEDI. WALSH, John P. (1992) Self-Slected and Randomly Selected KIESLER, Sara Respondents in a Computer Network Survey, SPROULL, Lee S. “Public Opinion Quarterly” LVI: 241-44. HESSE, Bradford W. WEBER, Max (1904) Die Objektivität sozialwissenschaftlicher und

sozialpolitischer Erkenntnis, in "Archiv für Sozialwissenschaft und Sozialpolitik" XIX,1: 22-87.

Casuale e rappresentativo: ma cosa vuole dire? · Casuale e rappresentativo: ma cosa vuole dire?*...

Documents

Transcript of Casuale e rappresentativo: ma cosa vuole dire? · Casuale e rappresentativo: ma cosa vuole dire?*...