Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso...

54
Analisi dei Dati Domenico De Stefano a.a. 2020/2021 Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 1 / 54

Transcript of Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso...

Page 1: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Analisi dei Dati

Domenico De Stefano

a.a. 2020/2021

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 1 / 54

Page 2: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Obiettivi dell’indagine

Indice

1 Obiettivi dell’indagine

2 La frame population (Lista di campionamento)

3 Il campionamento

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 2 / 54

Page 3: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Obiettivi dell’indagine

Definizione degli obiettivi dell’indagine

Nella fase di progettazione (o di ristrutturazione) di un’indagine statisticagli obiettivi conoscitivi devono essere chiaramente specificati in formascritta.Devono essere esplicitamente descritti in un documento i seguentielementi:

lo scopo dell’indagine (la domanda di ricerca)le esigenze informative che si intendono soddisfarei requisiti specifici in termini di contenuti, concetti, periodicita (ades., indagine ripetuta nel tempo) e livelli di qualitagli usi attesi dei risultati dell’indagine.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 3 / 54

Page 4: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Obiettivi dell’indagine

Definizione degli obiettivi dell’indagine (2)

non dimentichiamo gli utenti!Le esigenze informative da soddisfare sono determinate dagli utentidei risultati dell’indagine, siano essi effettivi o potenziali.I principali utenti devono essere chiaramente identificati e coinvoltinella definizione degli obiettivi e nella progettazione di un’indagine.gli utenti sono molteplici e spesso portatori di interessi contrastanti,per questo e importante non solo conoscerne le diverse tipologie, maanche essere in grado di associare loro un diverso grado di importanzarispetto ai risultati dell’indagine.

Ad esempio, recentemente l’ISTAT, in accordo con il Comitato di indirizzoe coordinamento dell’informazione statistica (Comstat), ha costituito laCommissione degli utenti dell’informazione statistica (Cuis), al fine divalorizzare il coinvolgimento degli utilizzatori nella fase di raccolta,elaborazione e armonizzazione della domanda di informazione statistica

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 4 / 54

Page 5: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

La frame population (Lista di campionamento)

Indice

1 Obiettivi dell’indagine

2 La frame population (Lista di campionamento)

3 Il campionamento

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 5 / 54

Page 6: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

La frame population (Lista di campionamento)

Definizione target population

Le attivita relative alla progettazione dell’indagine (facendo riferimentoall’approccio da disegno ci riferiamo al ramo “rappresentazione”) partonodalla definizione della target populationQuando definiamo la target population dobbiamo individuare conprecisione l’insieme di unita statistiche alle quali si intende estendere irisultati dell’indagine.In questa fase occorre:

specificare le condizioni di eleggibilita, ovvero le caratteristiche chedeterminano l’inclusione (o l’esclusione) delle unita statistiche dellapopolazionediscutere la possibilita reale di verificare le condizioni di eleggibilitasulle unita statistiche e giungere a condizioni che rappresentino uncompromesso tra correttezza teorica ed effettiva praticabilita

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 6 / 54

Page 7: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

La frame population (Lista di campionamento)

Definizione target population (2)

Operativamente ci si concentrera sulla frame population, ossia sulla listadisponibile di unita statitiche da includere nel campione(non e escluso infatti che la target population, compatibilmente conl’obiettivo d’indagine, possa essere aggiustata sulla base della listadisponibile)

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 7 / 54

Page 8: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

La frame population (Lista di campionamento)

Definizione della frame population e disegno dicampionamento

La realizzazione concreta della target population e data dall’insieme dioperazioni che consistono in:

costruzione della lista di selezione relativa alla target population econtenente, per ciascuna unita della popolazione, le informazioniidentificative e necessarie per il contatto, eventuali variabili ausiliarieutili per la definizione del campione (variabili di stratificazione,variabili identificative degli eventuali stadi di selezione, ecc.)progettazione del disegno di campionamento che, sulla base degliobiettivi di ricerca e dei vincoli operativi e di costo, consenta diottenere stime il piu possibile precise.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 8 / 54

Page 9: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

La frame population (Lista di campionamento)

Progettazione della lista di campionamento

Le caratteristiche della lista di campionamento sono rilevanti per lacorretta definizione del disegno di campionamento.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 9 / 54

Page 10: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

La frame population (Lista di campionamento)

Progettazione della lista di campionamento (2)

E’ necessario che la lista risponda a criteri di qualita in termini diaggiornamento, copertura e accuratezza delle informazioni in essariportate.teoricamente la lista di selezione ideale dovrebbe possedere i seguentirequisiti:

I essere costituita dalle sole unita appartenenti alla popolazione diinteresse al momento di riferimento dell’indagine;

I includere ogni unita della popolazione una sola volta;I contenere dati aggiornati e corretti relativamente alle informazioni

identificative (nome e indirizzo) e alle eventuali informazioni descrittive(altri dati strutturali importanti) delle unita.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 10 / 54

Page 11: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

La frame population (Lista di campionamento)

Progettazione della lista di campionamento (3)

Le possibili situazioni di allontanamento dalla lista ideale sono:I sottocopertura, nel caso in cui alcuni elementi della target population

non sono contenuti nella lista e non devono, pertanto, essere inclusi nelcampione;

I sovracopertura, quando alcuni elementi della lista sono inesistenti e/onon appartengono alla target population;

I duplicazione di alcune unita, se alcuni elementi della popolazione sonopresenti piu volte nella lista;

I grappoli di unita, quando alcuni elementi della lista contengono piuelementi della target population

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 11 / 54

Page 12: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Indice

1 Obiettivi dell’indagine

2 La frame population (Lista di campionamento)

3 Il campionamentoCampionamento probabilistico

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 12 / 54

Page 13: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Dalla definizione della popolazione al campionamento

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 13 / 54

Page 14: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Concetti chiave

I concetti chiave del campionamento sono i seguenti:

con popolazione finita P (la target population) indichiamo un insiemedi N unita statistiche Ui , con i = 1, 2, ,NOggetto del campionamento da una popolazione finita e la selezionedi un sottoinsieme S ⊂ P, detto campione, la cui ampiezza n (dettanumerosita campionaria o sample size) e molto minore di N.Scopo del campionamento e di esaminare le unita statistiche di S perstudiare una (o piu) variabile X la quale nella popolazioneP = (U1,U2, . . . ,UN) assume valori X1,X2, . . . ,XN in corrispondenzadi ciascuna unita statistica U1,U2, . . . ,UN

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 14 / 54

Page 15: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Concetti chiave (2)

Il rapporto tra numerosita campionaria e numerosita della popolazionenN e detto frazione di campionamento (o tasso di sondaggio)Il campione S e un sottoinsieme di unita statistiche di P per il qualesono note le etichette i1, i2, . . . , in ossia codici numerici (oalfanumerici) che consento di identificare univocamente ciascunaunita statistica “campionata”Definiamo spazio campionario Ωn(S) l’insieme di tutti i possibilicampioni di numerosita n derivabili mediante un prescelto disegno dicampionamentoLo studio della popolazione P avviene riassumendo gli aspetti piuimportanti delle variabili X , Y , ecc. mediante parametri, ad es.:

I media: µX = 1N

∑Ni=1 Xi

I varianza σ2X = 1

N∑N

i=1(Xi − µX )2

I covarianza σXY = 1N

∑Ni=1(Xi − µX )(Yi − µY ) e correlazione r = σXY

σX σY

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 15 / 54

Page 16: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Concetti chiave (3)

Disegno di campionamento: e la definizione di una procedura diselezione di n unita statistiche per formare il campione SSchema di campionamento: e la procedura operativa (il modoconcreto) con cui si perviene alla effettiva estrazione delle n unitastatistiche di S

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 16 / 54

Page 17: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Modalita di campionamento

Con riferimento alle modalita di campionamento si distingue tra:

Campionamento con ripetizione (o campionamento Bernoulliano)I la modalita piu semplice e con le proprieta statistiche piu “desiderabili”I le unita statistiche nella popolazione P una volta estratte vengono

reintrodotte nella popolazione e possono essere riestratteI si immagini un’urna in cui le palline (che rappresentano le unita

statistiche): Una pallina, dopo essere stata estratta, entra a far partedel campione e viene re-immessa nuovamente nell’urna

Campionamento senza ripetizione (o campionamento in blocco):I Le unita statistiche nella popolazione P una volta estratte non

vengono reintrodotte nella popolazione e possono essere riestratteI Una pallina, dopo essere stata estratta, entra a far parte del campione

e non viene re-immessa nell’urna

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 17 / 54

Page 18: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Probabilita di inclusione e probabilita di selezione

In relazione alle unita statistiche si definiscono:

Probabilita di inclusioneI La probabilita di inclusione (del primo ordine) indica la probabilita che

una generica unita statistica Ui , appartenente ad una popolazione P dinumerosita sia inclusa nel campione estratto sulla base di uno specificodisegno di campionamento

Probabilita di selezione (o estrazione)I La probabilita di selezione indica la probabilita che una generica unita

statistica Ui entri nel campione all’j-esima estrazione

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 18 / 54

Page 19: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento

Tipi di campionamento

Campionamento probabilisticoI Campionamento casuale semplice (CCS)

• con ripetizione (CCSCR)• senza ripetizione (CCSSR)

I Campionamento casuale sistematico (STM)I Campionamento casuale stratificato (STR)I Campionamento casuale a (due) stadi (STA)I Campionamento casuale a grappoli (GRA)

Campionamento non probabilisticoI Campionamento per quoteI Campionamento a scelta ragionataI Campionamento a valanga

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 19 / 54

Page 20: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Indice

1 Obiettivi dell’indagine

2 La frame population (Lista di campionamento)

3 Il campionamentoCampionamento probabilistico

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 20 / 54

Page 21: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale semplice con ripetizione (CCSCR)

Il CCSCR e il disegno piu semplice ed equivale all’estrazione di un campioneS di n palline da un’urna P che contiene le N palline Ui , i = 1, . . . ,N tutteidentiche per forma, peso, dimensione, ecc. tranne che per le modalita diuna variabile X “impressa” su di esse (che e la caratteristica che vogliamostudiare)Pertanto, la probabilita di estrarre una unita statistica e costante... inparticolare si dimostra che:

I La probabilita di inclusione e uguale alla frazione di campionamento nN

per ogni unitaI La probabilita di selezione e 1

N per ogni unitaIl Campionamento casuale semplice (sia con, che senza ripetizione) presentanumerosi vantaggi concettuali e formali (e sicuramente rappresentativo dellapopolazione) ma ha l’inconveniente di richiedere una lista completa edaggiornata delle unita statistiche per cui diventa ingestibile in caso di unitamancanti, estranee, o erroneamente riportate

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 21 / 54

Page 22: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

CCSCR: come funziona

La selezione di un campione di questo tipo si effettua molto semplicemente.Immaginiamo di avere la lista degli studenti iscritti alla corso di laurea inScienze Politiche e dell’Amministrazione (ipoteticamente, N = 3000)Supponiamo di volere un campione di n = 300 soggettiIn teoria si tratta di assegnare a ciascuno studente dei numeri da 1 a 3000,inserire in un’urna i numeri da 1 a 3000 ed estrarne 300. I possessori dei 300numeri estratti entreranno a far parte del campione.

I Se la numerazione dei soggetti e un’operazione sempre necessaria, ilricorso all’urna non lo e. Esistono programmi di computer checonsentono la generazione di numeri casuali (o, meglio, pseudocasuali)analoghi a quelli che si estrarrebbero da un’urna.

I In alternativa, si ricorre ad apposite tavole dei numeri casuali, prodotteda programmi come quelli citati, riportate in genere nei (vecchi)manuali di statistica

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 22 / 54

Page 23: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

CCSCR: come funziona (2)

nel caso specifico la frazione di campionamento e 3003000 = 1/10 = 0.1

la probabilita di selezione di ciascuno studente e 13000 = 3.333e − 4 = 0.0003

dimostriamo che la probabilita di inclusione e uguale alla frazione dicampionamento.ragioniamo cosı: ogni unita ha probabilita 1/3000 di essere estratto ad ogniestrazione. Le estrazioni sono 300. dunque la probabilita di tale inclusione e300× 1

3000 = 1/10

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 23 / 54

Page 24: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale semplice senza ripetizione (CCSSR)

E il campionamento piu usato nelle scienze sociali (non intervisteremomai due volte la medesima persona nella stessa indagine)L’unica differenza con il CCSCR e che qui l’estrazione deve avveniresenza reimmettere la “pallina” estratta nell’urnadal punto di vista operativo non cambia nulla. Se si usano programmiper la generazione di numeri casuali ovviamente si operera impedendola ripetizione del numero casuale gia estratto tra gli ninfatti si parla anche di campionamento a blocco, perche e come se siestraessero interi blocchi di n unita statistiche dalla popolazione

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 24 / 54

Page 25: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale semplice senza ripetizione (CCSSR) (2)

Non cambia nulla nemmeno rispetto alla probabilita di selezione.Infatti, una unita statistica alla seconda estrazione ha sı unaprobabilita di 1/2999 di essere estratta ma ha contemporaneamenteanche un probabilita di 2999/3000 di essere ancora nell’urna (avrebbepotuto infatti essere selezionata come prima). Per cui la prob. diselezione e ancora: 1/2999× 2999/3000 = 1/3000 = 1/Ne nemmeno per la probabilita di inclusione, che e ancora uguale allafrazione di campionamento.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 25 / 54

Page 26: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale semplice senza ripetizione (CCSSR) (3)

Lista di campionamento nel CCSL’unico problema nel CCS su cui bisogna porre attenzione e quello dellalista di campionamento (la frame population). Essa deve contenere(possibilmente) tutti i membri della popolazione (la target population) esoltanto loro. Inoltre ogni unita statistica deve figurare una sola volta,altrimenti la probabilita di selezione sarebbe variabile da caso a caso.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 26 / 54

Page 27: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale semplice senza ripetizione (CCSSR) (4)

Applicazione reale del CCSCCS con o senza ripetizione non e il disegno piu usato per la difficolta nelreperire le liste di campionamento soprattutto nei casi in cui lapopolazione e distribuita in un territorio esteso: ad es., l’anagrafe delcomune di Trieste ha la lista di tutti i cittadini, ma nessuno ha la lista deicittadini della provincia di Trieste. Per avere quest’ultima occorrerebbeassemblare le liste dei cittadini di tutti i comuni della provincia e cio ha deicosti non indifferenti (oltre ad ovvi problemi di accessibilita delle listelegati alla privacy). In casi come questi si preferisce il successivo tipo dicampionamento...

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 27 / 54

Page 28: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale sistematico (STM)

Il campionamento sistematico si considera equivalente a quellocasuale semplice e si puo usare tutte le volte che si usa quest’ultimo.Differisce dal casuale semplice solo per la tecnica di estrazioneDi solito si usa quando la popolazione consiste di unita statisticheorganizzate in “elenchi” predisposti secondo un ordine logico,cronologico o di altro tipo indipendente rispetto alle variabili X che siintendono studiare.E il caso dei dati anagrafici, amministrativi, fiscali, commerciali. Peres. i residenti di un comune, coloro che hanno presentato ladichiarazione dei redditi, gli utenti delle concessionarie dei serivizipubblici (luce, acqua, gas), i possessori di patenti, gli abbonati inclusinegli elenchi telefonici

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 28 / 54

Page 29: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale sistematico (STM) (2)

Affinche il campionamento STM conservi la natura di“campionamento statistico” (probabilistico) ci si deve assicurare chel’ordinamento delle unita nelle liste non dipenda da alcuna dellevariabili X che si vogliono studiare (ad es., negli elenchi telefonicil’ordinamento e alfabetico per cui si puo supporre indipendenza tralettera del proprio cognome ed una caratteristica da studiare)L’importanza dell’indipendenza tra ordinamento e caratteristicheoggetto di studio e data dal fatto che di solito il campionamentoSTM si basa sull’ordine delle unita statistiche nelle liste

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 29 / 54

Page 30: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STM: come funziona

Si scorre la lista di campionamento (nel suo ordine “naturale”, ossiacosı come ci viene fornita) e si seleziona un’unita statistica ogni kdove k e un numero intero che si chiama passo di campionamento (ointervallo di campionamento)Il valore di k e pari a N/n, dove come al solito N e l’ampiezza dellapopolazione e n l’ampiezza desiderata del campione.Nell’esempio degli studenti di Scienze politiche e dell’amministrazionen = 300 e N = 3000, percio k = 3000/300 = 10.Si seleziona pertanto uno studente ogni 10, ad esempio il primo,l’undicesimo, il ventunesimo, ecc.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 30 / 54

Page 31: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STM: come funziona (2)

Non si deve partire per forza dal primo (altrimenti tutti i campionisistematici estratti da questa lista sarebbero uguali tra loro). Perottenere un campione esattamente di 300 casi e sufficiente partire dauno qualunque degli studenti compresi tra il primo e il decimo.Di solito si estrae casualmente un numero compreso tra 1 e k (10) esi inizia dal soggetto corrispondente al numero estratto.NB: E evidente che l’estrazione di questo tipo di campionamento eindipendente dal supporto su cui si trova la lista (vanno bene ancheschedari con una scheda per unita) e non e strettamente necessarionumerare le unita

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 31 / 54

Page 32: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STM: come funziona (3)

Lista di campionamento nel STMRispetto al CCS nel STM c’e un problema aggiuntivo. Oltre allaindipendenza dell’ordinamento con le variabili X da studiare, la lista nondeve contenere delle ricorrenze che abbiano lo stesso passo delcampionamento. Ad es., se k = 10 e la lista comprende militari elencatiper squadra, prima il sergente, poi invariabilmente 10 militari semplici, echiaro che si selezionano soltanto i sergenti, oppure soltanto militarisemplici, secondo il punto di partenza dell’estrazione. Di solito, l’elencoalfabetico esclude periodicita di questo tipo.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 32 / 54

Page 33: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STM: come funziona (4)

Applicazione reale del STMLa particolarita di questo tipo di campionamento e che puo essere usatoanche senza una preventiva lista di campionamento. Viene usato ad es.negli exit-polls, i sondaggi effettuati all’uscita dal seggio elettorale. Siintervista un elettore ogni k tra quelli che escono dal seggio tra l’aperturae la chiusura del seggio. La stessa cosa si puo fare per campionare i clientidi un supermercato, magari estraendo casualmente anche i giorni delleinterviste (non andando solo il sabato ad esempio)

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 33 / 54

Page 34: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento casuale stratificato (STR)

Il campionamento si dice stratificato tutte le volte che la popolazioneP di numerosita N puo essere suddivisa in L strati, P1,P2, . . . ,PL,ciascuno di numerosita N1,N2, . . . ,NL, dove

∑Li=1 Ni = N

quindi, mediante estrazione senza ripetizione, da ciascuno strato siestraggono casualmente i campioni S1,S2, . . . ,SL di numerositan1, n2, . . . , nL, dove

∑Li=1 ni = n

Il campionamento da ciascuno strato Pi e equivalente ad un CSSR.Per cui all’interno dello strato sono costanti le probabilita diinclusione e di selezioneil disegno STR e ottimale tutte le volte che, per ragioni “strutturali”la popolazione e divisa in strati tali che in “media” il fenomeno diinteresse e molto diverso tra gli strati e la “varianza” in ciascunostrato e piu piccola di quella della popolazione (omogeneita neglistrati)

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 34 / 54

Page 35: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: esempio

Supponiamo di avere una popolazione di N = 9 soggetti distribuita inquesto modo secondo eta e reddito (in euro):

Le medie e le deviazioni standard relative alla popolazione complessiva e aitre gruppi di eta sarebbero le seguenti:

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 35 / 54

Page 36: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: esempio

Come si vede, la variabilita nella popolazione e assai superiore aquella nei singoli strati di etaNella popolazione ci sono due tipi di variabilita: quella interna aisingoli strati di eta e quella esterna tra gli stratiIn altri termini, i trentenni hanno stipendi diversi tra loro, cosı come iquarantenni e i cinquantenni (variabilita interna agli strati)D’altra parte i trentenni hanno stupendi molto differenti rispetto aiquarantenni e ai cinquantenni (variabilita esterna, tra gli strati)Se si guarda alla distribuzione dei valori nella popolazione, si vedeanche a colpo d’occhio che la variabilita interna e assai inferiore aquella esterna: le differenze tra i trentenni sono molto inferiori alledifferenze tra questi e i quarantenni/cinquantenni.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 36 / 54

Page 37: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: esempio

Cosa accade quando campioniamo da questa popolazione (n = 3).Possiamo procedere in due modi:

1 CCSSR o STM: Selezioniamo tre casi dai nove complessivi concampionamento casuale semplice o sistematico.

2 STR: Selezioniamo un caso su tre entro ciascuno strato di eta (untrentenne tra i trentenni, un quarantenne tra i quarantenni, ecc.) conun separato campionamento casuale semplice (o sistematico, ma quinon utilizzabile dato che estraiamo un solo caso)

Si dimostra che in casi come questo l’errore campionario e maggiore seusiamo un disegno del tipo CCS o STM rispetto al campionamento STR(vedremo nelle prossime lezioni)

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 37 / 54

Page 38: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: come funziona

Si tratta di sfruttare le informazioni disponibili sulla popolazione. Sedisponiamo nella lista di campionamento delle informazioni circa unavariabile correlata a quelle oggetto di studio (es.: l’eta correlata alreddito) possiamo suddividere la popolazione in strati secondo i valoridi questa variabile.In altri termini, dividiamo la lista di campionamento in liste separateper ciascuno strato.Effettueremo campioni casuali semplici (senza ripetizione) osistematici separati per ciascuna di queste liste

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 38 / 54

Page 39: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: come funziona (2)

Torniamo all’esempio degli studenti di Scienze politiche edell’amministrazione. Nella lista, ad es., compare implicitamente oesplicitamente il sesso dello studente.Supponiamo di avere 2000 femmine e 1000 maschiSepariamo le due liste poi stabiliamo quante femmine dobbiamoestrarre dalla lista delle femmine e quanti maschi da quella dei maschiIl campione complessivo deve essere formato da 300 studenti, cioe da1/10 della popolazione.Estraiamo pertanto 1/10 delle femmine (200) e 1/10 dei maschi(100). In questo modo il nostro campione e stratificato eproporzionale (allocazione proporzionale negli strati): nel senso chefemmine e maschi vi compaiono nelle identiche proporzioni in cuicompaiono nella popolazione (femmine 200:300 nel campione,2000:3000 nella popolazione).

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 39 / 54

Page 40: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: allocazione non proporzionale

Se in una popolazione uno strato e di dimensioni ridotte seguire ilcriterio della proporzionalita potrebbe portare alla formazione di unostrato campionario di ampiezza troppo ridotta per stime affidabili alsuo internoNB: ricordatevi che piu e bassa la numerosita su cui si calcolano lestatistiche (media, percentuali, ecc.) piu aumenta l’incertezza dellastima!

I Esempio: se in una popolazione di 10000 soggetti stratificata perconfessione religiosa, i musulmani sono 300 (3%) e il campione daestrarre e n = 500, in esso i musulmani dovrebbero essere 15(500× 3/100)

I La distribuzione di qualunque variabile entro lo strato dei musulmanisarebbe calcolata su un totale di 15 e ci potrebbero essere problemicome ad es. sottorappresentazione delle donne

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 40 / 54

Page 41: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: allocazione non proporzionale (2)

In questi casi come questi si ricorre ad un campionamento stratificatonon proporzionale con numero uguale di unita per ogni strato: ad es.,se le confessioni religiose sono 4 si selezioneranno 125 casi daciascuno strato cioe...

I ni = n/L per ogni strato i-mo (dove: L = numero di strati)

ovviamente in questo caso si risolve il problema della numerosita neglistrati, ma rende il campione non rappresentativo (non e piu una“copia in miniatura della popolazione”)Nell’esempio i musulmani sarebbero sovrarappresentati, mentre glialtri strati sarebbero di conseguenza sottorappresentati.Per ovviare al problema della rappresentativita, si procede adaggiustamenti post-rilevazione in particolare all’uso di pesi perristabilire l’equilibrio tra gli strati (vedi slide n.12 lezione suidisegni d’indagine)

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 41 / 54

Page 42: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: allocazione ottimale

L’allocazione non proporzionale descritta in precedenza non e l’unicaDall’inferenza statistica sappiamo che l’ampiezza ottimale di uncampione e direttamente proporzionale alla variabilita dellapopolazione (ricordate la formula dell’intervallo di confidenza per lamedia?)

I n = ( zα/2σ

δ )2

perche?

al contrario tanto piu omogenea la popolazione (bassa varianza) tantopiu piccolo potra essere il campione

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 42 / 54

Page 43: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: allocazione ottimale (2)

Nel caso del campionamento stratificato... Se1 possiamo dividere la popolazione in strati,2 di tali strati conosciamo la varianza o la deviazione standard (cioe la

variabilita) e3 gli strati hanno variabilita diverse, possiamo effettuare un

campionamento in cui selezioniamo da ogni strato un numero di casiproporzionale alla variabilita dello strato: piu casi dagli strati piueterogenei

Questo tipo di campionamento e noto come campionamento stratificatoottimale (o con allocazione ottimale).Questo tipo di campionamento e ancora piu efficiente di quello stratificatoproporzionale (meno casi per ottenere la stessa precisione) e ancor di piudel precedente non proporzionale.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 43 / 54

Page 44: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: allocazione ottimale / Esempio

Prendiamo di nuovo il caso delle confessioni religiose...

Dobbiamo estrarre un campione di 500 unitaInnanzitutto si calcola la proporzione (p) di casi che appartengono aciascuno strato nella popolazioneI musulmani sono 300 su 10000 (N), quindi la proporzione e di 0,03(3%)Supponiamo che la deviazione standard (sd) della variabile oggetto distudio sia pari a 83,3 nello strato dei musulmaniMoltiplichiamo la proporzione delle unita statistiche appartenenti allostrato per la deviazione standard di questo stesso strato(sd × p = 83, 3× 0, 03 = 2, 49), allo stesso modo procediamo per irestanti strati

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 44 / 54

Page 45: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STR: allocazione ottimale / Esempio (2)

Alla fine sommiamo tra loro tutti i prodotto ottenuti. Supponiamo diavere ottenuto come totale 15Calcoliamo la proporzione di ciascun prodotto rispetto a quest’ultimototale: per i musulmani 2,49/15=0,166.Applichiamo questa proporzione all’ampiezza dei campione e per ognistrato otteniamo il numero delle unita da selezionare: per i musulmaniavremo 0, 166× 500 = 83cioe dovremo selezionare 83 unita da questo strato

NB: Ovviamente anche questo campionamento richiedera degliaggiustamenti post-rilevazione per correggere il sovra- osotto-dimensionamento dei singoli strati

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 45 / 54

Page 46: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento a grappoli (GRA)

Il campionamento a grappoli assomiglia vagamente al campionamentostratificato ma possiede proprieta statistiche molto differentiPrima tra tutte a la sostanziale perdita di precisione anche rispettoal CCS (quello stratificato e invece piu efficiente del CCS)Si usa questo metodo quando vi sono vantaggi compensativi nel costodelle operazioni che sovrastano la perdita accennataL’unita statistica da campionare e ora un gruppo o grappolo (ocluster) di unita della popolazione

I un grappolo e un raggruppamento naturale della popolazione,essenzialmente legato alla contiguita spaziale o istituzionale

I In sostanza per contenere i costi si sfrutta l’esistenza di taliraggruppamenti naturali della popolazione

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 46 / 54

Page 47: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento a grappoli (GRA) (2)

Nel campionamento a grappolo quindi si seleziona un campionecasuale di G grappoli e tutte le unita elementari ad essoappartenenti sono oggetto di rilevazione

La differenza con il campionamento stratificato e quello a grappoli e chenello stratificato si prendono tutti gli strati mentre qui si selezionanocasualmente solo alcuni grappoli

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 47 / 54

Page 48: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento a (2 o piu) stadi (STA)

Il Campionamento a due o piu stadi e un disegno di campionamentocomplesso dove l’estrazione di una unita avviene mediante sceltesuccessivela popolazione viene suddivisa in grappoli o strati (es. divisa percomune di residenza), solo alcuni dei quali vengono estratti a casoI grappoli (o gli strati) sono detti unita primarie o complesse. Leunita elementari al loro interno sono dette unita secondarie.

Campionamento a due stadiI stadio si scelgono casualmente un certo numero di grappoli (o strati)

II stadio dentro ogni grappolo si scelgono casualmente un certo numero di unitaelementari (secondo un ulteriore disegno di campionamento)

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 48 / 54

Page 49: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento a (2 o piu) stadi (STA) (2)

Si ricorre a questo tipo di campionamento per una o entrambe le seguentiragioni:

1 quando manca la lista della popolazione2 quando la popolazione e distribuita su un territorio ampio e quindi

l’indagine comporterebbe consistenti costi (es. quelli di trasferimentoper gli intervistatori)

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 49 / 54

Page 50: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STA: esempio

Immaginiamo di voler condurre un sondaggio tra gli elettori ricorrendo adun campione di 2000 unita.Ovviamente nella pratica non sarebbe una buona idea effettuare un CCSdalla lista degli italiani iscritti nelle liste elettorali, che comunque nonesiste (troppo costoso raggiungerli ad esempio ma anche poco efficiente).Possiamo pero procedere in questo modo seguendo un campionamento apiu stadi:

estrarre casualmente 25 province dalle 110 totali.Costruire la lista dei comuni di ciascuna delle venti province estratte.Da ciascuna di queste liste estrarre casualmente 5 comuni, in ciascuncomune estrarre 4 seggi elettorali (i seggi come sapete sono numerati).

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 50 / 54

Page 51: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STA: esempio (2)

Dalle liste elettorali di ciascuno dei 4 seggi, disponibili nell’ufficioelettorale di ciascun comune, estrarre 4 elettori. L’ampiezza delcampione sara quindi pari a n = 25× 5× 4× 4 = 2000 comedesideratoSi possono usare dunque 25 intervistatori, ognuno dei quali copre unaprovincia (cioe i 5 comuni estratti) si incarica di reperire le liste deiseggi e degli elettori dei seggi estratti e infine effettua 80 interviste.Con un CCS avremmo avuto bisogno di piu intervistatori o di farspostare molto gli intervistatori: non si sarebbe certo potutoassegnare a ciascuno 80 intervistati abitanti in soli 5 comuni di unastessa provincia!

A quanti stadi e il campionamento appena descritto?

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 51 / 54

Page 52: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STA: precisazioni

Perche e a stadi?Non si tratta di un unico campionamento ma di piu campionamenti a cascata

C’e un primo stadio in cui le unita da selezionare sono le province: dalla listadi queste si estraggono 25 unita con campionamento casuale semplice,sistematico o stratificato

C’e un secondo stadio, quello dei comuni, anche qui puo essere usata unadelle tecniche di campionamento che abbiamo visto in precedenza.

C’e un terzo stadio, quello dei seggi elettorali.

C’e infine un quarto e ultimo stadio in cui si selezionano i soggetti daintervistare (le unita elementari), sempre con una delle tecniche precedenti.

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 52 / 54

Page 53: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento STA: precisazioni (2)

Si noti che ad ogni stadio le singole unita complesse da estrarre(province, comuni, ecc.) in termini della variabile oggetto d’indaginedovrebbero essere simili tra loro e mantenere il massimo dieterogeneita al loro internoNel linguaggio usato in precedenza, la variabilita esterna dovrebbeessere pressoche nulla, dovrebbe essere elevata la variabilita interna(diversamente da quanto richiesto nel campionamentostratificato!).Se cosı non fosse, escludendo una provincia in cui gli elettori sonomolto diversi da quelli delle altre, escluderemmo in via definitiva dalcampione questo tipo di elettori. Lo stesso rischio possiamo correrload ogni stadio successivo.Per questo motivo il campionamento a piu stadi e a volte menoefficiente degli altri. Spesso inoltre questo tipo di campione richiedeaggiustamenti post-rilevazione (ponderazione) assai complessi

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 53 / 54

Page 54: Analisi dei Dati...sulle unit`a statistiche e giungere a condizioni che rappresentino un compromesso tra correttezza teorica ed effettiva praticabilit`a Domenico De Stefano Analisi

Il campionamento Campionamento probabilistico

Campionamento a Grappoli vs a (due) Stadi

Domenico De Stefano Analisi dei dati:campionamento a.a. 2020/2021 54 / 54