Statistica inferenziale - Campionamento

29
Statistica Inferenziale CAMPIONAMENTO immagine tratta da girapagina.blogspot.it eBook assemblato da Monica Terenghi esercitazione svolta nell’ambito del DOL-MOOC Editoria elettronica: eBook per la scuola italiana dicembre 2013

description

esercitazione per il DOL-MOOC "Editoria elettronica: eBook per la scuola italiana"

Transcript of Statistica inferenziale - Campionamento

Page 1: Statistica inferenziale - Campionamento

Statistica Inferenziale

CAMPIONAMENTO

immagine tratta da girapagina.blogspot.it

eBook assemblato da Monica Terenghi

esercitazione svolta nell’ambito del DOL-MOOC

Editoria elettronica: eBook per la scuola italiana

dicembre 2013

Page 2: Statistica inferenziale - Campionamento

Archive All • Download Newest

Statistica inferenziale: campionamento

Campionamento statistico - Wikipediait.wikipedia.org

statistica inferenziale: scopi del campionamentogalenotech.org

statistica inferenziale: metodi di campionamentogalenotech.org

statistica inferenziale: errori di campionamentogalenotech.org

Campionamentoquadernodiepidemiologia.it

Caratteri del campionequadernodiepidemiologia.it

Errore di campionamentoquadernodiepidemiologia.it

Metodi di campionamentoquadernodiepidemiologia.it

Page 3: Statistica inferenziale - Campionamento

Archive All • Download Newest

Campionamento statistico - Wikipedia

it.wikipedia.org

In statistica il campionamento statistico (che si appoggia alla teoria dei campioni o teoria delcampionamento), sta alla base dell'inferenza statistica, la quale si divide in due grandicapitoli: la teoria della stima e la verifica d'ipotesi.

In particolare una rilevazione si dice campionaria quando è utile per fare inferenza ossia perdesumere dal campione stesso un'informazione relativa all'intera popolazione.

Le indagini censuarie, al contrario, riguardano l'intera popolazione e pur essendo più affidabiliriguardo al parametro oggetto d'indagine soffrono di:

Maggiori costiTempi più lunghiMinore accuratezza e minori risorse concentrate sul controllo della qualità dellarilevazione (quello che si guadagna in estensione si perde in profondità)

Quindi mentre l'indagine censuaria fornisce il valore vero dei parametri di interesse(proporzioni, percentuali, medie, totali,...) quella campionaria restituisce una sua stima alquale è associato un certo grado di fiducia (ovvero un'incertezza) quantificabile quando laformazione del campione risponde a determinati criteri di tipo probabilistico.

Il campionamento si usa quando si vuole conoscere uno o più parametri di una popolazione,senza doverne analizzare ogni elemento: questo per motivi di costi intesi in termini monetari,di tempo, di qualità o di disagio o perché analizzare un elemento lo distrugge rendendoinutilizzabile l'informazione ottenuta.

Modalità di selezione del campione sono:

Nella pratica quotidiana dei sondaggi di opinione e delle ricerche di mercato vengono usatitutti e quattro gli approcci.

La scelta di un tipo di campionamento avviene in base alle proprietà degli stimatori di alcuniparametri oppure per tener conto di problemi di costo, mobilità o altro.

Concetti chiave sono:

Benché già nel Settecento si sia notato il vantaggio nell'esaminare un sottinsieme dellapopolazione per generalizzare i risultati alla popolazione complessiva, è solo dalla finedell'Ottocento che la discussione sulla "scientificità" del campionamento viene posta in modo

Page 4: Statistica inferenziale - Campionamento

esplicito alla comunità statistica.

Già agli inizi del Novecento si vanno delineando le caratteristiche che un campione deveavere, ovvero che deve essere scelto in maniera casuale, e nell'arco di pochi anni compaiono iprimi studi che mettono in evidenza che il campione non deve essere necessariamente uncampione semplice ma può essere più complesso, per esempio stratificando.

Importanti autori che hanno fatto la storia della teoria dei campioni sono stati tra gli altri:

Pierre-Simon de Laplace (che fece uso dei moltiplicatori per stimare il totale di unapopolazione);Adolphe Quételet (che accetta di generalizzare alla popolazione complessiva il tasso dianalfabetismo osservato tra i delinquenti, ma rifiuta di generalizzare la percentuale dimaschi tra i neonati);Anders Nicolai Kiaer che nel 1895 avvia la discussione di merito in seno all'IstitutoInternazionale di Statistica;Ladislaus Bortkiewicz che con un suo intervento introduce seriamente la teoria dellaprobabilità nella discussione sul campionamento;Arthur Bowley che sviluppa il campionamento casuale, la stratificazione, e formula lavarianza della stima del totale nel caso del campionamento semplice e nel caso delcampionamento stratificato;Aleksandr A. Čuprov, suo padre Aleksandr I. Čuprov, A. G. Kovalevskij e Jerzy Neymanche descrivono il campionamento stratificato, e, per quanto riguarda A. A. Čuprov e J.Neyman, anche scoprendo in modo indipendente l'allocazione ottima.

Nel 1925, durante il congresso di Roma, l'Istituto Internazionale di Statistica accettadefinitivamente come scientifico il metodo campionario, distinguendo il campionamentocasuale dal campionamento ragionato.

Altri autori importanti nella ricerca teorica ed applicata sul campionamento furono GeorgeGallup e William G. Cochran.

S. Brasini, M. Freo, F. Tassinari, G. Tassinari, Statistica aziendale e analisi di mercato,2002, Manuali, Il Mulino, BolognaM. Barisone, R. Mannheimer, I sondaggi, 1999, Il Mulino, BolognaM. Chiaro, I sondaggi telefonici, 1996, CISU, Roma

it.wikipedia.org

Page 5: Statistica inferenziale - Campionamento

statistica inferenziale: scopi del campionamento

galenotech.org

L'esame di un campione piuttosto che dell'intera popolazione, consente di superare questiproblemi. Scegliere un campione da una popolazione significa effettuare un "campionamento".Esaminare ogni singolo individuo della popolazione significa effettuare un censimento;esaminare gli individui di un campione significa effettuare una indagine (o inchiesta osondaggio, in inglese survey).

Il principale obiettivo di un campionamento è quello di raccogliere dati che consentiranno digeneralizzare all'intera popolazione i risultati ottenuti dal campione. Questo processo digeneralizzazione è detto inferenza.

campionamento

In qualsiasi studio basato su un campione, si deve tener presente che non si otterranno mairisultati completamente certi. Per valutare la validità di uno studio campionario èindispensabile tener conto di vari fattori, principalmente: i criteri di scelta della popolazionein studio, il metodo con cui si è selezionato il campione, il periodo di osservazione, i metodiadottati per identificare i casi di malattia, le tecniche di analisi, la precisione delle misureeffettuate.

Supponiamo di aver eseguito un'indagine campionaria; esaminando i dati forniti dal campioneal fine di trarne delle conclusioni, occorre formulare due domande fondamentali:

validità interna: misura quanto i risultati di uno studio sono corretti per il campione diindividui che sono stati studiati. Viene appunto detta "interna" in quanto si applica allecondizioni del particolare gruppo di individui studiati, e non necessariamente agli altri.Per esempio, negli studi clinici, la validità interna dipende dalla correttezza diimpostazione dello studio stesso, dalla scelta di buone tecniche diagnostiche e da un lorocorretto utilizzo, da una buona elaborazione dei dati, ecc. La validità interna vienedifettata sia dalla variazione casuale che da ogni elemento di disturbo (bias).

Page 6: Statistica inferenziale - Campionamento

La validità interna rappresenta una condizione necessaria ma non sufficiente perchéuno studio sia utile.validità esterna: è il grado di generalizzabilità delle conclusioni tratte da uno studio. Peresempio, nel caso di uno studio epidemiologico clinico, essa risponde alla domanda"Supponendo che i risultati di un determinato studio siano veri, essi si applicano anche aimiei pazienti?". In altre parole, la validità esterna misura il grado di verità dell'assuntosecondo cui gli individui studiati con il campione sono "uguali" ad altri pazienti affettidalla stessa condizione.

flow chart campionamentoPer semplicità, supponiamo che un certostudio sia provvisto di eccellente validitàinterna: conosciamo con accuratezza lecaratteristiche del campione che abbiamoesaminato. Questo significa che leconclusioni che ne abbiamo derivate sonocertamente valide per gli individui delcampione, ma non possiamo dire se e quantotali conclusioni siano generalizzabili allapopolazione da cui il campione è statoestratto (la soluzione a questo problema verràdiscussa avanti).esempio 1: si vuole conoscere l'età media diun gruppo di 600 persone che frequentano unvillaggio vacanze. Poiché non abbiamo lapossibilità di accedere ai documenti di tuttigli ospiti, estraiamo un campione di 6soggetti e offrendogli un omaggio per ladisponibilità gli poniamo la domanda ecalcoliamo la loro media. É evidente che,con questo metodo, avremo un valore che sipotrà scostare anche di parecchi anni dallamedia della popolazione da cui essiprovengono (cioè il gruppo di 600). Ma seintervistiamo altre persone e le aggiungiamoalle prime, la nuova media ottenuta sarà piùvicina a quella vera; cioè, l'accuratezza dellanostra stima aumenterà con il numero dipersone intervistate, però non otterremo unamisura perfetta finché non avremointervistato tutti gli ospiti.esempio 2:

si vuole effettuare un'indagine sui rapporti fra allergia e polline. Nel territorio d'indagine è

Page 7: Statistica inferenziale - Campionamento

presente un paese che conta 20.000 abitanti e 180 ville abitate da 500 persone. La popolazionedi interesse è costituita da tutte le persone presenti nel territorio; l'unità di analisi è il singoloindividuo. Se il campione fosse selezionate tra i soli abitanti del paese, non sarebberappresentativo; lo stesso si avrebbe se considerassimo tutti gli abitanti esterni al paese. Uncampione più rappresentativo, composto da 100 persone, sarà invece rappresentato dallesingole frazioni di popolazione:

frazione abitanti di paese = 100 · 20.000/(20.000 + 500) = 97 persone

frazione esterna al paese = 100 · 500/(20.000 + 500)= 3 persone

E' evidente che un campione di 100 persone è piuttosto ridotto; tuttavia, anche seesaminassimo il più ampio campione possibile, per esempio costituito dal 90% degliindividui, questo non sarebbe perfettamente rappresentativo della popolazione, in quanto trale circa 19.900 persone non esaminate potrebbero riscontrarsi le più evidenti manifestazioniallergiche.

In sostanza, con qualunque metodo si effettui il campionamento, si otterranno dal campionedei risultati che quasi certamente si discostano (poco o tanto) dalla "vera" misura dellapopolazione. Questo perché non possiamo mai essere sicuri che il campione rappresentiperfettamente la popolazione da cui è stato estratto.

L'errore di campionamento è rappresentato dalla differenza tra i risultati ottenuti dalcampione e la vera caratteristica della popolazione che vogliamo stimare.L'errore di campionamento non può mai essere determinato con esattezza, in quanto la"vera" caratteristica della popolazione è (per definizione) ignota. Esso tuttavia puòessere contenuto entro limiti più o meno ristretti adottando appropriati metodi dicampionamento; inoltre, esso può essere stimato: ciò significa che, con adatti metodistatistici, si possono determinare i limiti probabili della sua entità. Marcello Guidotti,copyright 2003questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte el'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore).Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purchéutilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamentevalenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi èalcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alleautorità regolamentatorie.

galenotech.org

Page 8: Statistica inferenziale - Campionamento

statistica inferenziale: metodi di campionamento

galenotech.org

Ogni anno, per conoscere i gusti e le abitudini delle persone, si investono in Europa 8 miliardidi euro. Negli Stati uniti, la cifra è ancóra più elevata. Il numero di aziende (ma anche partitipolitici, opinionionisti, programmatori televisivi, ecc.) che per prendere decisioni si affidanoall'opinione delle persone - o a quella che sembra essere l'opinione delle persone - crescecontinuamente. Così, quasi tutto può essere oggetto di un sondaggio e, secondo una stima perdifetto, nel mondo viene condotto un sondaggio ogni due minuti: le statistiche, sono quasicostantemente presenti nei quotidiani, nei periodici, nella televisione, nella radio e,ovviamente, in Internet.

I sondaggi sono nati - negli Stati Uniti prima e sùbito dopo in Europa - con lo sviluppo delmercato di massa tanto dal punto di vista politico che da quello economico. Da quando, cioè, iconsumatori divennero un soggetto fondamentale nel mercato ed era quindi importanteconoscere i loro gusti, i loro interessi ed il loro comportamento. Il primo a manifestareinteresse nei sondaggi - negli Usa - è stato il mondo politico. Con il diffondersi del suffragiouniversale era aumentata l'esigenza di scoprire come influenzare l'opinione pubblica e isondaggi fornirono la risposta e lo strumento necessario.

Il primo sondaggio realizzato con criteri scientifici venne condotto negli Stati Uniti da GorgeHorace Gallup (1901-1984), che fondò nel 1935 l'American Institute of Public Opinion. Galluppensò di "misurare" l'opinione pubblica a partire da un questionario indirizzato ad uncampione rappresentativo di qualche migliaio di americani. In occasione delle elezionipresidenziali del 1936, la maggior parte dei giornali americani, condotti dal Literary Digest,che aveva intervistato telefonicamente più di due milioni di persone, preannunciava la nettavittoria del candidato repubblicano Alf Landon, contro Franklin D. Roosevelt. Per contro,l'Istituto Gallup, sulla base di poche migliaia di questionari, previde la vittoria di Roosevelt(54% secondo gli ultimi pronostici di Gallup). Roosevelt vinse con il 61% dei suffragi. Eranata la mistica dei sondaggi, la cui diffusione continuò ad aumentare anche quando - inoccasione dell'elezione presidenziale del 1948 - Gallup preannunciò, sbagliando, la vittoria delrepubblicano Dewey contro Truman.

Un paragone spesso citato è che i risultati di un sondaggio sono una fotografia della realtà.Questo è vero, però con i limiti e i difetti di una fotografia.

fotografiaLa fotografia (v. riassunto nel riquadro) è un'approssimazione della realtà e, per parte loro, isondaggi sono basati sull'assunto che un numero ridotto di persone possa riprodurre il pensierodell'intera popolazione (detta universo) Questo assunto si è dimostrato spesso vero ma in altricasi (come il secondo sondaggio Dewey vs. Truman) no. Per riprendere l'analogia con lafotografia, il risultato sbagliato può dipendere da cattiva scelta del campione (messa a fuocosul soggetto sbagliato), inadeguadezza numerica del campione rispetto all'universo (eccessiva

Page 9: Statistica inferenziale - Campionamento

grana della pellicola o scarsa definizione del sensore).Nella composizione a destra: in alto a sinistra unprimo piano della foto originale, che però è statamodificata aggiungendo un riflesso sul casco e unprodotto nella mano dell'astronauta.

La procedura standard parte da dati Istat, facendo inmodo che all'interno del campione siano rappresentatenei corretti rapporti tutte le fasce sociali edemografiche: sesso, età, grado di istruzione,residenza, lavoro, reddito. Se il sondaggio lo richiede,si possono considerare altri elementi (statura, peso, sport praticato, alimentazione). Ilcampione può essere rappresentativo non solo di chi vive in una Regione o uno Stato, maanche di una categoria: lavoratori dipendenti, avvocati, gelatai, ecc.

formazione di un sondaggioesempio: posto che in Italia, il 5% della popolazione è laureato, allora un campione di 100persone dovrà comprendere 5 laureati; le altre classi costitutive saranno presenti seguendo lostesso criterio.

La dimensione del campione può variare, ma l'esperienza suggerisce che un sondaggiocondotto su meno di 500 persone è poco affidabile (1000 è senz'altro un campione migliore), esorprendentemente - se il campione è scelto con criterio - la sua consistenza numerica èindipendente dall'universo di riferimento.

Il criterio guida di un buon campionamento, in linea teorica e a prescindere dai costi, prevedeche ciascun membro della popolazione abbia la stessa probabilità di essere scelto. In tal caso ilcampione viene detto "randomizzato" o "casuale". Un campionamento randomizzato offre ilvantaggio di essere privo di errori sistematici (bias = distorsione) e consente di accertarerigorosamente l'attendibilità dei risultati o, per meglio dire, i rapporti fra i risultati forniti dalcampione e la vera caratteristica della popolazione.

Page 10: Statistica inferenziale - Campionamento

In realtà, nella pratica dei sondaggi di opinione e delle ricerche di mercato l'attuale normativaprevede che vengano usati anche gli approcci non probabilistici. E la preferenza ai vari tipi dicampionamento avviene in base alle proprietà degli stimatori di alcuni parametri oppure pertener conto di problemi di costo, mobilità o altro.

Due fattori sono determinanti: la formulazione delle domande e delle risposte (che possonoindirizzare le opinioni di chi risponde al questionario) e la modalità con cui vengono svolte leinterviste. Esistono delle tecniche relative all'uso del linguaggio che studiano la composizionedelle frasi in modo da renderle il più possibile neutre, oppure accentuare più o meno unelemento.Per esempio, una domanda del tipo: "è d'accordo per un aumento delle piscine comunali?"potrebbe riscuotere un certo consenso in mancanza di alternative, ma il consenso sarebbeprobabilmente minore se la domanda fosse formulata così: "è d'accordo ad un aumento dellatassa sui rifiuti urbani se aumenta il numero delle piscine comunali?"

Il campionamento non probabilistico non fornisce a ciascuna unità della popolazione la stessaoccasione di essere scelta a far parte del campione, ma alcuni gruppi o individui hannomaggiore probabilità di essere scelti, pertanto il campionamento non probabilistico è daconsiderare un metodo abbastanza critico a meno di giustificazioni ragionevoli.

Questo metodo, infatti, prevede la selezione del campione in base a criteri di comodo o dipraticità: per esempio perché gli elementi da campionare sono più facilmente accessibili, o perragioni di costo, o perché in una certa zona sono disponibili volontari ecc. Un campioneselezionato con questi criteri di comodo, sebbene abbia il vantaggio della rapidità, essendosoggetto ad un forte bias, può fornire dati poco affidabili e può essere facilmente viziato daerrori sistematici.

esempio 1: in un sondaggio di opinioni all'interno di una piccola azienda con 200 impiegati sivuole studiare la valutazione attribuita alla qualità della mensa. A questo scopo si decide diesaminare un campione composto da 20 persone. Per motivi di convenienza, si intervistano leprime 20 persone che si presentano in sala mensa. Questo criterio é molto pratico, in quantonon bisogna attendere l'arrivo di tutti i dipendenti; tuttavia, si esamineranno impiegati dilivello più basso: i dipendenti più impegnati o comunque meno "affamati" non entreranno afar parte del campione. Questo campione, è dunque viziato da un errore sistematico. D'altraparte, l'errore si sarebbe evitato scegliendo una persona ogni 8 - 10 fra quelle che varcano laporta d'uscita.esempio 2: un classico esempio di cattivo uso del campionamento si presentò durante leelezioni presidenziali Usa del 1936. La rivista Literary Digest studiò un sondaggio elettoralenel 1932, con un risultato molto accurato; così, ripropose il sondaggio per le elezioni del 1936utilizzando la stessa metodologia. I loro risultati davano Alf Landon vincente contro FranklinRoosevelt con un margine elettorale di 370 voti contro 161. I risultati reali furono un pòdifferenti... 523 contro 8!

Cos'era accaduto? Il sondaggio era stato fatto utilizzando un campione di utenti telefonici. Un

Page 11: Statistica inferenziale - Campionamento

campionamento che non avrebbe dovuto dare problemi. Tuttavia, nel 1929 il mercatoazionario era crollato dando inizio alla depressione. Dal 1932, le cose iniziarono ad andaremale, ma non troppo male. Dal 1936, le cose andarono realmente male. La popolazione avevarinunciato alla cose non necessarie come gli abbonamenti alle riviste e l'uso del telefono.Solo i ricchi potevano permettersi simili lussi. Però, negli anni '30 i ricchi votavanotendenzialmente per i Repubblicani e quindi era naturale che un sondaggio vedesse vincenteun candidato repubblicano.

esempio 3: nel 1948 l'Istituto Gallup sbagliò la previsione pronosticando la sconfitta di HarryTruman. In questo caso Gallup attribuì l'errore al fatto di aver concluso le interviste 3settimane prima del voto supponendo che dato il consistente margine di vantaggio di Deweynon potessero esserci cambiamenti significativi. Nelle poche settimane precedenti al voto,però, una parte degli indecisi si schierò a sostegno di Truman, mentre una parte deisostenitori di Dewey decise di non recarsi al voto dando per certa la vittoria del propriocandidato in base al risultato dei sondaggi: per questo che la previsione di Gallup fu smentitadai fatti.

Il campionamento per randomizzazione semplice si effettua estraendo una certa quota di unitàdalla popolazione attraverso un metodo che garantisce la casualità delle estrazioni. Questaviene ottenuta, ad esempio, con il classico sistema dell'estrazione di un numero, come avvienenel gioco del bingo, oppure - più comunemente - si utilizza un computer con un generatore dinumeri casuali.

Occorre prestare attenzione al fatto che anche un campione casuale, particolarmentenella sperimentazioni clinica, non può essere considerato esente da errori: le persone nonsono oggetti e la loro variabilità biologica rende il campione intrinsecamente affetto dabias (basti pensare a come è definita la DE50 e alla necessità di farmacovigilanza)

La randomizzazione semplice (come, d'altra parte, altri metodi di campionamento) è unmetodo valido per il campionamento in medicina; essa offre due vantaggi:

Ovviamente vi sono situazioni in cui il campionamento per randomizzazione semplice risultapoco pratico se non addirittura inapplicabile. Infatti, il principale svantaggio è quello dirichiedere la preventiva numerazione di tutti i soggetti; successivamente è necessarioindividuare nella popolazione quelli corrispondenti ai numeri estratti. La scarsa applicabilitàdi questo metodo può essere ben evidenziata con un esempio.

Page 12: Statistica inferenziale - Campionamento

esempio: supponiamo di voler controllare il tempo di disaggregazione di un campione di 100compresse da estrarre con randomizzazione semplice da un lotto di 4000 compresse. Laprocedura richiederà la numerazione da 1 a 4000 di tutte le compresse (per esempio con unamatita), l'estrazione dei 100 numeri casuali e la selezione delle 100 compresse corrispondenti.Queste operazioni necessitano di risorse preziose e costose quali tempo e mano d'opera enella pratica non sono applicabili.

Il campionamento per randomizzazione semplice è di facile applicazione quando si dispone diuna popolazione già numerata e composta di un numero non elevato di unità.

Nel campionamento per randomizzazione sistematica le n unità che costituiranno il campionesono scelte dalla popolazione ad intervalli regolari: per esempio, in un reparto ospedaliero sipotrà scegliere un soggetto ogni 4 degenti. Questo metodo è più pratico rispetto allarandomizzazione semplice, ed assicura anche che le singole unità del campione sianodistribuite uniformemente all'interno della popolazione.Occorre tuttavia porre attenzione che l'intervallo di campionamento prescelto non siainfluenzato da qualche variabile esterna che agisce con la stessa ciclicità del campionamento.

esempio: si vuole stimare il livello di contaminazione batterica di un reparto diinflaconamento, ed in particolare osservare se esso subisce variazioni nel tempo. Procediamoquindi al prelievo di materiali diversi (tamponi da filtri dell'aria, dai pavimenti, dallemacchine, ecc.) attraverso randomizzazione sistematica effettuata per due settimane in baseal giorno della settimana: i prelievi vengono fatti i giorni dispari: lunedì, mercoledì e venerdì.Tuttavia, nel reparto ogni sabato viene effettuata un'operazione di pulizia e disinfezioneparticolarmente energica. Pertanto, il campione costituito dai «tamponi del lunedì» non èrappresentativo.campionamento per randomizzazione stratificata

Il campionamento per randomizzazione stratificata trova applicazione quando si studia uncarattere che, presumibilmente o notoriamente, è influenzato da un certo fattore presente nellapopolazione.In pratica, prima di effettuare l'estrazione del campione la popolazione viene suddivisa instrati basati sul fattore che influenza il livello del carattere da studiare. Quindi, all'interno diciascuno strato si sceglie un campione con il metodo della randomizzazione semplice osistematica.

Il campionamento con randomizzazione stratificata è più flessibile di quello eseguito con

Page 13: Statistica inferenziale - Campionamento

randomizzazione semplice in quanto nei diversi strati può essere scelta una percentualedifferente (es. 10% in uno strato, 5% in un altro ecc.). Lo svantaggio del campionamentostratificato è che lo stato di tutte le unità di campionamento, rispetto ai fattori su cui è basatala stratificazione, deve essere noto prima di scegliere il campione.

esempio: supponiamo di voler studiare, dopo un anno dal suo inserimento nel mercatofarmaceutico, la penetrazione presso la classe medica di un farmaco A concorrente di un notofarmaco B. Lo studio, effettuato in una grande città, mostra che la diffusione di B (da piùtempo sul mercato e di buona efficacia) è superiore rispetto ad A.Supponiamo inoltre di conoscere che il rapporto numerico fra le farmacie "di quartiere" (dovela clientela è quasi sempre la stessa) e "di passaggio" (situate in zone centrali o viediscretamente trafficate, dove il fruitore è anche occasionale) sia 9/1 ; allora, dovremoscegliere un campione di farmacie in due "strati" che rispettino la proporzione esistente nelmercato: un campione di 50 farmacie composto da 45 farmacie di quartiere e 5 farmacie dipassaggio.

Il campionamento dovrebbe essere effettuato direttamente presso i grossisti, in quantopossono fornire il rendiconto della consistenza degli ordini effettuati dalle 50 farmacie scelte.Il dato ricavato dovrebbe permettere una prima risposta al problema: cosa hanno diparticolare le farmacie dove si concentra la maggior parte delle prescrizioni di A? Sono"farmacie di quartiere", oppure "farmacie di passaggio"?

primo caso: la maggior parte delle prescrizioni si concentra in farmacie di quartiere. Questosignifica che l'informazione presso la classe medica per il nuovo farmaco, A, non è capillare(l'informazione è stata recepita da pochi medici) ed occorre aumentare il numero diinformatori o la frequenza delle interviste.secondo caso: le prescrizioni sono equamente distribuite fra le due tipologie di farmacie.Questo significa che gli informatori intervistano medici omogeneamente distribuiti nellevarie parti della città. D'altra parte, poiché le prescrizioni di A sono minori di quelle di B, il"problema" dovrà essere affrontato con una diversa impostazione: per esempio, associare laprescrizione di A ad una specifica indicazione terapeutica meno ricordata dal farmaco B;verificare il numero di informatori e la ciclicità delle interviste al medico rispetto allaconcorrenza.

Marcello Guidotti, copyright 2003-2005-2007questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte el'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore).Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purchéutilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamentevalenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi èalcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alleautorità regolamentatorie.

galenotech.org

Page 14: Statistica inferenziale - Campionamento

statistica inferenziale: errori di campionamento

galenotech.org

In sintesi, i fattori responsabili della generazione di un errore di campionamento sonoriconducibili a

La variazione casuale è dovuta al caso, cioè ad un insieme di cause, piccole o grandi, cheagiscono imprevedibilmente su un fenomeno senza che noi possiamo contrastarne l'azione. Lavariazione casuale ha sottoposto alla nostra osservazione gli individui che costituiscono ilcampione, per il quale la misura che vogliamo studiare assume un valore più alto o più basso,senza una regola precisa.

Tutti noi ricorriamo al "caso" per giustificare, ad esempio, il motivo per cui su 100 lanci diuna stessa moneta non sempre esce per 50 volte "testa" e per le restanti 50 "croce". Questostesso motivo (la variazione casuale) vale a giustificare il seguente esempio.Supponiamo di avere a disposizione due farmaci, A e B, ugualmente efficaci per unadeterminata sintomatologia, nel senso che guariscono il 50% dei pazienti trattati. Ciproponiamo di fare una nuova sperimentazione per confermare l'efficacia dei due farmaci.Ammettiamo che, in questo esperimento, non sia presente alcun bias (distorsione: differenza,causata da un errore sistematico, tra la stima ottenuta da un campione e la vera caratteristicadella popolazione, e quindi che i dati ottenuti siano assolutamente affidabili). Tuttavia, sel'esperimento prevede di esaminare un numero limitato di soggetti per ciascuno dei duetrattamenti, può facilmente capitare di osservare che il farmaco A induce guarigione conmaggior frequenza rispetto al farmaco B (o viceversa). Questo effetto è dovuto, appunto, allavariazione casuale.

osservazione

Ovviamente, l'errore di campionamento è condizionato dall'esistenza divariabilità tra gli individui che compongono la popolazione di partenza; setutti - per assurdo - avessero lo stesso carattere in egual misura, l'esame di

qualsiasi numero di individui fornirebbe lo stesso valore, e quindi l'errore dicampionamento sarebbe nullo.

La selezione viziata è quella che viene effettuata su un segmento non rappresentativo dellapopolazione. Questo avviene quando la scelta delle unità che costituiranno il campione vieneeffettuata con regole non rigorosamente causali. Talvolta, è lo stesso sperimentatore che,definendo delle regole estemporanee volte a neutralizzare - nelle intenzioni - gli effetti delcaso e di ottenere un campione più aderente alla popolazione, commette un errore che rende idati inutilizzabili. Infatti, un campione che non è stato ottenuto correttamente forniscemisurazioni e risultati per i quali è impossibile calcolare il cosiddetto "errore dicampionamento".

Page 15: Statistica inferenziale - Campionamento

esempio 1: vogliamo accertare la proporzione di persone che si curano con preparatiomeopatici in una determinata città. Non potendo esaminare tutti gli individui della cittàconsiderata, decidiamo di esaminare un campione di persone. Per comodità, scegliamo lepersone che si servono presso le farmacie provviste anche di prodotti omeopatici. Il campionecosì ottenuto sarà sicuramente composto proprio da molte di quelle persone che assumonopreparati omeopatici. Il nostro campione sarà biassato perché (1) ha selezionato persone che preferiscono lamedicina omeopatica, e (2) ha selezionato persone che si servono in Farmacie omeopatiche.Presumibilmente, una maggior quantità di individui del nostro campione risulterà privilegiareil trattamento omeopatico e dunque potremmo erroneamente concludere che "moltissimepersone non ricorrono alle terapie tradizionali".esempio 2: il campione prelevato con una biopsia epatica rappresenta circa 1/50.000dell'organo. Essendo il campione così piccolo rispetto all'intero organo, esiste la possibilità diampie variazioni da un campione all'altro. Inoltre, poichè il campione viene esaminato, ingenere, allo scopo di diagnosticare una malattia dell'intero fegato, è possibile che il processodi inferenza sia viziato. Ad esempio, si preleva un campione di tessuto sano in un organoammalato.

osservazioneIn conclusione, si può affermare che soltanto quando la scelta degli individuiche compongono il campione è stata dettata dal puro e semplice caso, èpossibile prevedere e calcolare l'entità della differenza tra campione epopolazione. In caso contrario, il campione si dice "distorto" o "biassato".

Con un campione distorto, non è possibile calcolare l'errore di campionamento ed i datiottenuti saranno difficilmente utilizzabili.

Più precisamente, per "bias" si intende un processo, effettuato in qualsiasi stadio dellainferenza, che tende a fornire risultati che si discostano sistematicamente dai valori veri.A differenza del bias (che influenza i dati sistematicamente in una direzione o nell'altra), lavariazione casuale fornisce dati che possono essere parimenti al di sopra o al di sotto delvalore vero. Di conseguenza, la media di molte osservazioni non-biassate si avvicina al valorevero della popolazione, anche se i singoli dati utilizzati per ottenere la media possonodiscostarsi di molto dal valore vero.

esampio: nel disegno in basso, sono raffigurati due bersagli:

colpi sparati da due revolver differenti

bersaglio a sinistra: mostra la rosata dei fori prodotti da 10 proiettili sparati da unesperto tiratore che ha usato un revolver con il mirino ben regolato. L'insieme dei fori sipuò considerare come un campione delle infinite possibili combinazioni di 10 colpi che

Page 16: Statistica inferenziale - Campionamento

quel tiratore può ottenere sparando con il suo revolver. Come si vede, i fori hanno unadisposizione casuale (dovuta alle piccole differenze esistenti tra i proiettili ed a piccoleoscillazioni del braccio) ma tendono a disporsi attorno al centro del bersaglio.bersaglio a destra: mostra la rosata dei fori prodotti da 10 proiettili sparati dallo stessotiratore che però ha usato un revolver con il mirino non ben regolato. Anche in questocaso, i fori hanno una disposizione casuale, ma tendono ugualmente a disporsi attorno adun punto che non corrisponde al centro del bersaglio.

Supponiamo (figura sotto) di non conoscere la posizione del centro bersaglio (che, fuor dimetafora, corrisponde alla VERA caratteristica della popolazione in studio, la quale in effettinon è mai nota).

colpi sparati da due fucili differentiCon un buon campionamento (che equivale ad un revolver ben regolato) otterremo ilcampione raffigurato a sinistra; se, invece, il campione sarà affetto da bias, otterremo uncampione come quello a destra.

Ora, in base ai dati ottenuti dalla figura sopra, proviamo a fare una inferenza sulla veracaratteristica della popolazione (figura in basso).

colpi sparati da due fucili differenti

E' facile convincersi che, se utilizzeremo il campione di sinistra (cioé quello del revolver benregolato) l'inferenza sarà ragionevolmente accurata, mentre con il campione affetto da bias (adestra), saremo indotti a ritenere che il centro del bersaglio sia spostato rispetto al reale. Inquest'ultimo caso, fuor di metafora, non riusciremo a stimare correttamente la veracaratteristica della popolazione: commetteremo un errore.Marcello Guidotti, copyright 2003questa pagina può essere riprodotta su qualsiasi supporto o rivista purché sia citata la fonte el'indirizzo di questo sito (ai sensi degli artt. 2575 e 2576 cc. Legislazione sul diritto d'autore).Le fotografie sono tratte da siti web e sono, o possono ritenersi, di pubblico dominio purchéutilizzate senza fini di lucro. Le immagini di prodotti presenti nel sito hanno unicamentevalenza esemplificativa oltre che, eventualmente, illustrare messaggi fuorvianti e non vi èalcun richiamo diretto o indiretto alla loro qualità e/o efficacia il cui controllo è affidato alle

Page 17: Statistica inferenziale - Campionamento

Campionamento

quadernodiepidemiologia.it

specificare i motivi che inducono - od obbligano - ad esaminare un campione piuttosto che lapopolazione in toto

individuare i principali obiettivi di un campionamento

Raramente in uno studio epidemiologico è possibile esaminare ogni singolo animale dellapopolazione. Infatti spesso si è limitati dalle risorse disponibili (economiche, di personale, dilaboratori, di tempo ecc.); in altre occasioni, anche supponendo di disporre di risorseillimitate, l'intera popolazione da studiare non è fisicamente raggiungibile oppure non è deltutto nota . Pensa, ad esempio, ad una indagine epidemiologica da effettuare su animaliselvatici di una certa specie (es. camosci) in un parco: probabilmente non sarà conosciuto conesattezza il numero degli animali presenti, né il rapporto maschi/femmine né la distribuzioneper età ecc..In altri casi, il numero di individui che compongono la popolazione da studiare è talmenteelevato che lo studio di ognuno di essi è fattibile solo teoricamente. Pensa, ad esempio, alleapi di un alveare o ai pesci presenti un laghetto di allevamento. Infine, è possibile trovarsi difronte ad una combinazione delle suddette difficoltà, come ad esempio nel caso si volesserostudiare gli insetti vettori di una determinata malattia in una determinata zona.Talvolta, soprattutto nel lavoro di ricerca medica, la popolazione è addirittura infinita o,meglio, indeterminata in quanto non è conoscibile in modo esaustivo, neppure virtualmente.

ESEMPIO. Una popolazione indeterminata è rappresentata da tutti gli animali che, oggi e infuturo, necessiteranno di una particolare terapia, oppure dall'insieme delle concentrazioni dimercurio misurabili in tempi diversi in un lago).

L'esame di un campione, ossia di un numero ridotto di osservazioni, invece dell'interapopolazione consente di superare i problemi ora accennati. Un campione non è altro che uninsieme di elementi tratti da una popolazione (o "universo"). Un universo consiste dellatotalità degli elementi che hanno certe caratteristiche. Il campione è soltanto una parte deltutto.

Epidemiologia veterinaria: campionamento

Page 18: Statistica inferenziale - Campionamento

Scegliere un campione da una popolazione significa effettuare un «campionamento».Esaminare ogni singolo individuo della popolazione significa effettuare un censimento;esaminare gli animali di un campione significa effettuare una indagine (o inchiesta osondaggio, in inglese «survey»).

Epidemiologia veterinaria: campionamento

Per una serie di motivi, raramente possono essere studiate tutte le unità che compongono unapopolazione. Pertanto, si studia soltanto una parte più o meno grande della popolazione, perpoi generalizzare all'intera popolazione i risultati ottenuti. Questo processo digeneralizzazione dei risultati ottenuti studiando un campione è detto «inferenza»:

Epidemiologia veterinaria: campionamento

ESEMPIO. Un farmacologo somministra un farmaco a 30 cani con una certa malattia, mentresomministra semplice soluzione fisiologica ad altri 30 cani (i «controlli»). Dopo unasettimana è guarito il 25% degli animali trattati con il farmaco ed il 19% dei controlli. Questorisultato è stato ottenuto su un campione di animali, e non implica necessariamente che ilfarmaco sia efficace; infatti, lo stesso esperimento condotto su altri animali potrebbe portare arisultati diversi. Non c'è dubbio che sugli animali del campione il farmaco ha funzionatomeglio del placebo. Però non puoi essere sicuro che il farmaco funzionerà anche sullapopolazione di tutti i cani affetti da quella malattia. Le ipotesi sono due: il farmaco funziona oppure il farmaco non funziona. Quale ipotesiscegliere? Qui viene in aiuto la statistica: attraverso un processo di inferenza basato su metodistatistici (statistica inferenziale) si può stimare con obiettività l'efficacia del farmaco sullapopolazione in generale, a partire dai risultati ottenuti studiando un campione. Alcuni principi di base della statistica inferenziale sono stati trattati nel Capitolo 5; altriverranno trattati più avanti in questo stesso capitolo.

Page 19: Statistica inferenziale - Campionamento

NELLA PROSSIMA UNITÀ:si spiega perché non è possibile ottenere un campione «perfetto» e si introduce il concetto di«errore di campionamento».

quadernodiepidemiologia.it

Page 20: Statistica inferenziale - Campionamento

Caratteri del campione

quadernodiepidemiologia.it

analizzare i caratteri del campione e spiegare perché non esiste il «campione perfetto»

È intuitivo che da una popolazione possono essere estratti moltissimi campioni, cheprobabilmente saranno tutti diversi fra loro:

Epidemiologia veterinaria: caratteri del campione

È altrettanto intuitivo che le caratteristiche di un campione non saranno mai perfettamenteidentiche a quelle della popolazione. Il campione non sarà mai la «fotocopia» precisa dellapopolazione di origine. Quindi, se studi un campione allo scopo di effettuare una inferenzasulla popolazione, giungerai inevitabilmente a conclusioni non del tutto veritiere. In questaunità, e nelle successive, imparerai come ovviare a questo inconveniente.

Immagina di aver effettuato una indagine su un campione; in pratica, hai misurato un certocarattere in ciascuna delle unità del campione. Ora vuoi utilizzarev i tuoi dati per trarre delleconclusioni. Ti devi porre due domande fondamentali:

Epidemiologia veterinaria: caratteri del campione

La risposta a queste due domande genera i concetti di validità interna e di validità esterna diuno studio epidemiologico eseguito su un campione (studio campionario).

Page 21: Statistica inferenziale - Campionamento

La validità interna misura quanto i risultati di uno studio sono corretti per il campione diindividui che sono stati studiati. Essa viene detta «interna» perché si applica al campione, enon necessariamente agli altri individui della popolazione. Forse questo concetto ti potràsembrare una sottigliezza inutile. Però devi pensare che non sempre si tratta di faremisurazioni facili, semplici ed affidabili (come ad esempio pesare ratti da laboratorio). Inmolti casi, le cose sono più complicate: negli studi clinici, la validità interna dipende dallacorrettezza di impostazione dello studio stesso, dalla scelta di buone tecniche diagnostiche eda un loro corretto utilizzo, da una buona elaborazione dei dati ecc. Nel caso dei dati ottenutiattraverso questionari, un fattore che contribuisce ad abbassare la validità interna èrappresentato dalla propensione degli intervistati a mentire sistematicamente su determinatedomande, come illustrato nell'esempio che segue.

ESEMPIO. Effettui un sondaggio per conoscere la percentuale di cani che vengono sottopostia vaccinazione periodica nei confronti della leptospirosi; a questo scopo, sottoponi aiproprietari dei cani la seguente domanda: «Lei fa vaccinare annualmente il suo cane per laleptospirosi?». Prevedibilmente i proprietari che hanno cura del loro cane (e che lo vaccinano regolarmente)saranno ben felici di rivelare il loro comportamento virtuoso e quindi risponderannocorrettamente con un "sì". Al contrario, molti di coloro che omettono di vaccinare il cane nonsaranno disposti ad ammetterlo, per non apparire egoisti o avari, e quindi tenderanno amentire, rispondendo anch'essi con un "sì". Ciò evidentemente farà diminuire la validitàinterna del campione.

La validità esterna è il grado di «generalizzabilità» delle conclusioni tratte da uno studio. Adesempio, nel caso di uno studio epidemiologico clinico, essa risponde alla domanda"Supponendo che i risultati dello studio siano veri, essi si applicano anche ai miei pazienti?".In altre parole, la validità esterna misura il grado di verità dell'assunto secondo cui gli animalistudiati sono "uguali" ad altri animali affetti dalla stessa condizione.

Per semplicità, assumiamo ora che lo studio sia provvisto di ottima validità interna; ciòsignifica che conosciamo con esattezza le caratteristiche del campione che abbiamoesaminato. Le conclusioni che ne abbiamo tratto sono certamente valide per gli individui delcampione, ma non possiamo dire se e quanto tali conclusioni siano generalizzabili allapopolazione da cui il campione è stato estratto. La soluzione a questo problema verràaccennata nelle unità successive (metodi di campionamento, limiti fiduciali, ecc.).

Ovviamente, le conclusioni ottenute attraverso uno studio campionario sono valide soltanto seesiste una buona validità interna ed esterna. Nella figura seguente viene schematizzato ilflusso del ragionamento riguardo alla validità interna ed esterna di un campione, al fine digiungere a conclusioni affidabili.

Page 22: Statistica inferenziale - Campionamento

Epidemiologia veterinaria: validità di un campione

ESEMPIO 1. Vogliamo conoscere il peso di un gruppo di 600 suini pronti per la macellazione.Non abbiamo la possibilità di pesare tutti i 600 animali; quindi, estraiamo un campione di 6soggetti, li pesiamo e calcoliamo la media. È evidente che, con questo metodo, avremo unvalore che si potrà scostare anche di parecchi chili dalla media della 'popolazione' da cui essiprovengono (cioè il gruppo di 600). Ma se misuriamo altri individui e li aggiungiamo ai primi,la nuova media ottenuta sarà più vicina a quella vera; cioè, la precisione della nostra misuraaumenterà parallelamente all'aumento del numero di animali pesati. Tuttavia, non otterremouna misura perfetta finché non avremo pesato tutti i suini.

ESEMPIO 2. Abbiamo il compito di effettuare un'indagine sui rapporti fra mastite dellabovina e produzione di latte. Nel territorio sono presenti, in pianura, 14 grandi allevamenti,per un totale di 2900 bovine adulte da latte; nella zona montagnosa, vi sono invece 36 piccoliallevamenti (300 animali in totale). La popolazione di interesse è: tutte le bovine da latte. L'unità di analisi è la singola bovina da latte. Le nostre risorse ci consentono di esaminare uncampione di 300 animali. Se tutti gli animali verranno selezionati dagli allevamenti dellapianura, avremo un campione non rappresentativo. Un campione più rappresentativo saràinvece rappresentato dal 90% circa di bovine degli allevamenti di pianura e dal 10% di vacchedi montagna.

Page 23: Statistica inferenziale - Campionamento

In sostanza, con qualunque metodo si effettui il campionamento, si otterranno dal campionedei risultati che quasi certamente si discostano (poco o tanto) dalla «vera» misura dellapopolazione. È ben vero che il campione dovrebbe rappresentare una immagine dellapopolazione ridotta dal punto di vista numerico ma fedele dal punto di vista qualitativo.Tuttavia, non possiamo mai essere sicuri che il campione rappresenti una copia perfetta dellapopolazione da cui esso è stato estratto, a meno di non esaminare... l'intera popolazione!

L'errore di campionamento è rappresentato dalla differenza tra i risultati ottenuti dalcampione e la vera caratteristica della popolazione che vogliamo stimare.

L'errore di campionamento non può mai essere determinato con esattezza, in quanto la «vera»caratteristica della popolazione è (e resterà!) ignota. Esso tuttavia può essere contenuto entrolimiti più o meno ristretti adottando appropriati metodi di campionamento. Inoltre, esso puòessere stimato; ciò significa che, con adatti metodi statistici, si possono determinare i limitiprobabili della sua entità.

NELLA PROSSIMA UNITÀ:si prendono in considerazione i fattori che contribuiscono all'errore di campionamento; siparla anche della selezione viziata e dell'effetto del caso.

quadernodiepidemiologia.it

Page 24: Statistica inferenziale - Campionamento

Errore di campionamento

quadernodiepidemiologia.it

Quaderno di Epidemiologia

Abbiamo già visto che un campione non è mai perfettamente rappresentativo dellapopolazione da cui è stato estratto. Ciò implica che, ogni qual volta studiamo un campione,otteniamo dati che non rispecchiano la realtà: dobbiamo tener conto di un errore dicampionamento.

I fattori responsabili dell'errore di campionamento sono sostanzialmente due: la variazionecasuale e la selezione viziata.

Errore di campionamento

La variazione casuale è dovuta al caso, cioè a quell'«insieme di fattori o cause, piccole ograndi, che agiscono su un fenomeno senza che noi possiamo o vogliamo controllarliesattamente e prevederne quindi l'azione» (Cavalli-Sforza). La variazione casuale ha portatoalla nostra osservazione proprio quegli individui che costituiscono quel campione, nei quali lamisura che vogliamo studiare assume un valore più alto o più basso, senza una regola precisa. La variazione casuale fa sì che una misura effettuata su un campione non fornisca un valoreidentico a quello ottenibile misurando l'intera popolazione: c'è sempre - un certo errore, cheviene detto errore campionario. Questo errore deriva semplicemente dal fatto che stiamoosservando soltanto una parte della popolazione.

Ovviamente, l'errore di campionamento è condizionato dall'esistenza di variabilità tra gliindividui che compongono la popolazione di partenza; se tutti - per assurdo - avessero lostesso carattere in egual misura, l'esame di qualsiasi numero di individui fornirebbe lo stesso

Page 25: Statistica inferenziale - Campionamento

valore, e quindi l'errore di campionamento sarebbe nullo.

La selezione viziata è quella che viene effettuata su un segmento non rappresentativo dellapopolazione. Questo avviene quando la scelta delle unità che costituiranno il campione vieneeffettuata con regole non rigorosamente causali. Talvolta, è lo stesso sperimentatore che,definendo delle regole estemporanee volte a neutralizzare - nelle intenzioni - gli effetti delcaso e di ottenere un campione più aderente alla popolazione, commette un errore che rende idati inutilizzabili. Infatti, un campione che non è stato ottenuto correttamente fornisce misurazioni e risultati peri quali è impossibile calcolare il cosiddetto «errore di campionamento». La selezione viziatafa sì che all'errore campionario si sommi un altro tipo di errore, detto errore noncampionario o bias.

Errore di campionamento

ESEMPIO 1. Vogliamo accertare la proporzione di cani vaccinati contro il cimurro in unaprovincia. Non potendo esaminare tutti i cani dell'area considerata, decidi di esaminare uncampione di animali. Per comodità, scegli i cani che vengono presentati presso alcuniambulatori del capoluogo. Il campione così ottenuto sarà sicuramente distorto (affetto da"bias"), in quanto composto quasi esclusivamente da cani "cittadini" che, notoriamente, sonooggetto di maggiori cure da parte del proprietario rispetto a quelli che risiedono in campagna.Inoltre, anche il fatto stesso che il cane venga portato in ambulatorio testimonia l'attenzioneda parte del proprietario verso la salute del suo animale, ed è probabile che questa attenzionesi sia tradotta in una corretta profilassi vaccinale. Infatti, è ovvio che i cani trascurati nonvengono vaccinati né vengono portati dal veterinario! Quindi, il tuo campione sarà distorto perché (1) hai selezionato cani cittadini e (2) haiselezionato cani portati in ambulatorio. Presumibilmente, tutti i cani del tuo campione(distorto!) risulteranno vaccinati per il cimurro e quindi sarai portato a concludereerroneamente che "tutti i cani della provincia sono vaccinati per il cimurro".

ESEMPIO 2. Il frammento prelevato con una biopsia epatica rappresenta circa 1/50000dell'organo. Essendo il campione così piccolo rispetto all'intero organo, esiste la possibilità diampie variazioni da un campione all'altro. Inoltre, poiché il frammento viene esaminato, ingenere, allo scopo di diagnosticare una malattia dell'intero fegato, esiste la possibilità che ilprocesso di inferenza sia viziato. Ad esempio, si preleva un campione di tessuto sano in unorgano ammalato.

In conclusione, si può affermare che soltanto quando la scelta degli individui che compongonoil campione è stata dettata dal puro e semplice caso, è possibile prevedere e calcolare l'entitàdella differenza tra campione e popolazione. In caso contrario, il campione si dice «distorto»». Con un campione distorto, non è possibile

Page 26: Statistica inferenziale - Campionamento

calcolare l'errore di campionamento ed i dati ottenuti saranno difficilmente utilizzabili.

Errore di campionamento

Più precisamente, per «bias» si intende "un processo, effettuato in qualsiasi stadio dellainferenza, che tende a fornire risultati che si discostano sistematicamente (ossia sempre nellastessa direzione) dai valori veri".

Epidemiologia veterinaria: errore di campionamentoESEMPIO. Nello schema A (a lato) sono raffiguratidue bersagli. Quello a sinistra (A1) è il risultato di 17tiri effettuati da un buon tiratore che ha sparato conun buon fucile. L'insieme dei fori si può considerarecome un campione delle infinite possibili

combinazioni di 17 tiri che quel tiratore può ottenere sparando con quel fucile. Come vedi, ifori hanno una disposizione casuale, ma tendono a disporsi attorno al centro del bersaglio. Il bersaglio di destra (A2) è stato utilizzato dallo stesso tiratore, ma con un fucile con ilmirino disallineato. Anche in questo caso, i fori hanno una disposizione casuale, ma tendono adisporsi attorno ad un punto che NON corrisponde al centro del bersaglio. Epidemiologia veterinaria: errore di campionamentoOra supponi (schema B) di non conoscere la veraposizione del centro bersaglio (la quale, fuor dimetafora, equivale alla VERA caratteristica dellapopolazione in studio, la quale in effetti non è mainota).Supponi anche di estrarre a caso un campione di 17 colpi dagli infiniti campioni possibili. Conun buon campionamento (che equivale ad un buon fucile) otterrai il campione raffigurato asinistra (B1); se, invece, il campione sarà affetto da bias, otterrai un campione come quello adestra (B2). Ora, sempre in base ai dati dello schema B, prova ad "inferire" (ossia adindovinare) la posizione del centro del bersaglio.

Epidemiologia veterinaria: errore di campionamentoRagionevolmente collocherai i bersagli come indicatonello schema C: con il campione di colpi di sinistra(C1) (cioè quello del fucile preciso) l'inferenza saràattendibile, come dimostra la corretta collocazionedel centro del bersaglio rispetto alla realtà (così comeraffigurato in A1). Al contrario, utilizzando il

campione distorto (C2), sarai indotto a ritenere che il centro del bersaglio sia spostato rispettoal reale e non riuscirai a posizionarlo correttamente. In quest'ultimo caso, fuor di metafora,

Page 27: Statistica inferenziale - Campionamento

non sarai in grado di stimare correttamente la vera caratteristica della popolazione.

NELLA PROSSIMA UNITÀ:si elencano cinque fra i metodi di campionamento più comunemente impiegati nelle indaginiepidemiologiche; si fornisce anche una definizione generale di «buon campione».

quadernodiepidemiologia.it

Page 28: Statistica inferenziale - Campionamento

Metodi di campionamento

quadernodiepidemiologia.it

descrivere la logica di un buon campionamento ed elencare alcuni dei più comuni metodi dicampionamento

Il principio informatore generale di un buon campionamento prevede di utilizzare lo stessoprincipio dell'estrazione a sorte, ossia quello della casualità assoluta, in modo tale checiascuna unità della popolazione abbia la stessa probabilità di entrare a far parte delcampione. In tal caso il campione viene detto «randomizzato» o «casuale».Affidandosi al caso si ottiene, in una qualche misura, la garanzia che il campione saràrappresentativo della popolazione stessa, ossia ne rifletterà le caratteristiche con una certaapprossimazione.

Epidemiologia veterinaria: metodi di campionamento

Immagina di avere una lista di 100000 animali, e che una metà di questi siano maschi e l'altrametà siano femmine. La teoria statistica delle probabilità dice in anticipo che, se estrarrai inmodo casuale mille soggetti dalla lista, otterrai un campione composto per metà da maschi eper metà da femmine, con un livello di approssimazione prevedibile a priori.Analogamente, supponi di ripetere molte volte il lancio di una moneta. L'evento "testa" o"croce" è condizionato soltanto dal caso: le prime volte potrà uscire sempre "testa" (oppuresempre "croce"), ma alla lunga la proporzione di teste e croci nella "popolazione" di lancitenderà ad equilibrarsi.

Un campionamento randomizzato offre il vantaggio di fornire un campione privo di errorisistematici (bias) e consente di accertare l'attendibilità dei risultati o, per meglio dire, irapporti fra i risultati forniti dal campione e la vera caratteristica della popolazione.

Nelle unità successive verranno illustrati brevemente cinque fra i più comuni metodi dicampionamento. Di essi, uno è un metodo non probabilistico, mentre i restanti 4 sono basatisulla randomizzazione: