il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro...

30
Il campionamento

Transcript of il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro...

Page 1: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Il campionamento

Page 2: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Il campionamento

n  Insieme delle operazioni che consistono nella selezione, nelle intenzioni rappresentativa, degli appartenenti ad una popolazione, allo scopo di studiare una porzione della popolazione stessa

n  Se il campione è scelto adeguatamente, i risultati ottenuti sul campione sono generalizzabili alla popolazione da cui è stato estratto

n  Ulteriori vantaggi: economicità (costi e tempi limitati)

Page 3: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Il campionamento: fasi

n  Individuazione della popolazione di riferimento

n  Specificazione dell’unità di campionamento n  Definizione della lista di campionamento n  Determinazione della numerosità campionaria n  Scelta del metodo di campionamento n  Selezione del campione n  Stima dei parametri della popolazione a

partire dai dati del campione

Page 4: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

TIPI DI CAMPIONAMENTO n  Probabilistici -  costituiti da unità la cui

probabilità di estrazione è nota

-  più soddisfacenti perché godono di 2 proprietà:

-  Rappresentatività; -  Stima dell’errore di

campionamento.

n  Non probabilistici costituiti da unità la cui probabilità di estrazione è ignota

-  Vantaggi: -  più facili da usare -  minore investimento -  Svantaggi: -  Non generalizzabilità -  Non quantificazione

dell’errore di camp.ento.

Page 5: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Tipi di campionamento

Probabilistici n  Casuale semplice n  Sistematico n  Stratificato n  …

Non probabilistici n  Di comodo n  Per quote n  A valanga n  …

Page 6: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

L’ampiezza del campione

n  Quattro variabili da tenere in considerazione

n  Eterogeneità del fenomeno studiato n  Grado di disaggregazione dei dati in sede di analisi n  Grado di affidabilità desiderata delle stime n  Risorse economiche e temporali

Page 7: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Campione casuale semplice n  Senza ripetizione: quando ogni unità statistica estratta viene

esclusa dalla lista in modo che non possa essere estratta più di una volta. In questo caso, la probabilità di estrazione di un unità statistica in un campione di unità è n/N.

n  Con ripetizione: quando ogni unità statistica può essere estratta più di una volta. Se la probabilità di selezione al primo tentativo è 1/N, al secondo tentativo è 1/(N-1), al terzo 1/(N-2), e così via. In un campione di numerosità n, la probabilità di includere un’unità è sempre n/N.

Page 8: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

La curva normale

Page 9: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

L’ampiezza del campione (variabili cardinali) quando si usa il C.nto casuale semplice

2

⎟⎠⎞

⎜⎝⎛=ezn σ

Per campioni >5% della popolazione: ….. . 1 – n N n = ampiezza del campione z = livello di fiducia riposta nella stima (1,96 = affidabilità della stima del 95%; 2,58 = 99%) σ  = deviazione standard del parametro nella popolazione e = ampiezza accettata dell’errore di camp.to

Per campioni <5% della popolazione:

Page 10: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

L’ampiezza del campione (variabili cardinali)

n  Per arrivare a n bisogna: n  Acquisire un’informazione: Qual è la variabilità che

la variabile di interesse assume nella popolazione della ricerca (quanto è grande σ) ?

n  Prendere due decisioni: n  Qual è il grado di fiducia che intendiamo riporre nelle

nostre stime (qual è i valore di z) ? n  Qual è l’ampiezza dell’errore che accettiamo di

commettere (quanto è grande e) ?

Page 11: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

ESEMPIO Vogliamo stimare l’età media degli studenti di Tor Vergata con un

livello di fiducia del 95%, con un errore di stima di 2 anni. Supponiamo che da una precedente indagine la deviazione standard sia risultata pari a 6 anni.

n =(zσ )2

e2=1,96× 6( )2

22= 34,6

Se, invece, volessimo aumentare la fiducia al 99%, la numerosità campionaria sarebbe pari a:

n =(zσ )2

e2=2,58× 6( )2

22= 59,9

Page 12: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Problemi di rappresentatività del campione

CAUSE n  Impossibilità di

trovare la persona scelta

n  Impossibilità di rispondere (es. durata)

n  Rifiuto dell’intervista

n  RIMEDI n  Costruire più liste di

camp.to e sostituire i soggetti con criteri stabiliti a priori

n  Rendere il questionario più breve e agevole

n  Attenzione alle caratteristiche degli intervistatori

n  Tenere conto di un insieme di variabili psicosociali (segue)

Page 13: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Rimedi alle mancate partecipazioni: variabili psicosociali

n  Reciprocità: sentirsi obbligati quando si riceve gratis

n  Coerenza: bisogno di essere coerenti n  Confronto sociale: utilizzo degli altri come

termine di paragone per valutare se stessi n  Autorità: accondiscendenza alle richieste

provenienti da autorità legittime n  Scarsità: valorizzazione delle risorse scarse n  Gradevolezza: maggiore benevolenza verso

persone che ci piacciono o percepite simili a noi

Page 14: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

La ponderazione del campione

n  Serve a rendere rappresentativo un campione che non lo è stato, per varie ragioni

n  Impossibilità di trovare la persona scelta n  Rifiuto dell’intervista n  Impossibilità di rispondere

Page 15: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Ponderazione matematico-statistica dei dati rilevati

1. E’ necessario ponderare per le principali variabili sociodemografiche (es. sesso, età..) e talvolta anche per le caratteristiche politiche (es. comportamenti elettorali) degli intervistati

2. Confronto tra la distribuzione delle variabili sociodemografiche nella popolazione e nel campione

3. Verificare l’esistenza di sovra o sottorappresentazioni 4. Calcolo del fattore di ponderazione tramite programmi di

elaborazione dati 5. Riproporzionare il numero dei soggetti del campione a

quello della popolazione

Page 16: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

ESTRAZIONE DI UN NUMERO CASUALE

CON IL SOFTWARE EXCEL

CAMPIONE CASUALE SEMPLICE CON RIPETIZIONE: Supponiamo di voler estrarre, con modalità casuale, cinque studenti da una classe di dieci individui. Gli studenti identificati con un nome ed un cognome, sono riportati nel registro di classe con un numero, che simbolicamente li rappresenta

Page 17: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Attivazione di una funzione in Excel

Page 18: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Le funzioni per l’estrazione di un campione casuale

Le funzioni che consentono di estrarre casualmente da una lista di elementi numeri sono: 1) la funzione =CASUALE.TRA(minimo; massimo) estrae un numero casuale un numero da una lista con modalità con ripetizione.

2) la funzione =CASUALE() che restituisce un numero decimale casuale compreso fra 0 e 1.

Page 19: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

La maschera della funzione CASUALE.TRA Inserire il valore “1”, che

rappresenta il codice più piccolo, in questo caso il valore individua lo studente Francesco Aureli

Inserire il valore “10”, identificativo dell’individuo che presenta il valore massimo della lista, ossia Sonia Vizzarri.

Page 20: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

La maschera della funzione CASUALE.TRA compilata

Page 21: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Il campionamento sistematico

In questo tipo di campione si estrae a sorte soltanto la prima unità da intervistare e poi, dopo aver fissato un intervallo k, preventivamente stabilito, si intervista un individuo ogni k. Il campionamento sistematico si utilizza quando le unità che compongono l'universo sono numerabili progressivamente e si possono estrarre delle unità di campionamento distanziate da un intervallo costante. Anche in questo caso la popolazione considerata è finita, quindi, si deve disporre di una lista di campionamento. ESEMPIO: N=840 HOTEL A ROMA (POPOLAZIONE) n=60 k=N/n=840/50=14 quindi, una volta selezionato il primo hotel da fare entrare nel campione, gli altri 59 hotel saranno selezionati dalla lista, con un passo pari a 14.

Page 22: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Casuale tra… Per usare la funzione =CASUALE() e selezionare un numero intero dalla lista, è opportuno digitare: =1+INT(CASUALE()*(10-1), che restituisce un numero casuale compreso fra 1 e 10.

Page 23: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Esempio di campionamento per quote Totale della Popolazione residente in Italia al 1 Gennaio

2008 per sesso e per ripartizione geografica

Ripartizioni Maschi Femmine Totale

Italia Nord-Occidentale 7.671.983 8.107.490 15.779.473

Italia Nord-Orientale 5.534.422 5.803.048 11.337.470

Italia Centrale 5.628.728 6.046.850 11.675.578

Italia Meridionale 6.867.019 7.264.450 14.131.469

Italia Insulare 3.247.595 3.447.705 6.695.300

TOTALE 28.949.747 30.669.543 59.619.290

Fonte: ISTAT, 2008

Page 24: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Ripartizioni Maschi Femmine Totale

Italia Nord-Occidentale 12,87 13,60 26,47

Italia Nord-Orientale 9,28 9,73 19,02

Italia Centrale 9,44 10,14 19,58

Italia Meridionale 11,52 12,18 23,70

Italia Insulare 5,45 5,78 11,23

TOTALE 48,56 51,44 100,00

Supponiamo di voler effettuare 5000 interviste Popolazione residente in Italia al 1 Gennaio 2008 per sesso e per ripartizione geografica (valori in %)

Page 25: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

N=59.619.290 POPOLAZIONE n= 5.000 CAMPIONE

Ripartizioni Maschi Femmine Totale

Italia Nord-Occidentale 643 680 1323 Italia Nord-Orientale 464 487 951 Italia Centrale 472 507 979 Italia Meridionale 576 609 1185 Italia Insulare 272 289 562

TOTALE 2428 2572 5000

Page 26: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Aggiustamenti a posteriori del campione

I metodi che consentono di intervenire a posteriori, con strumenti correttivi per ridurre gli effetti, ad esempio, delle mancate risposte possono dividersi in due grandi categorie: -  metodi di imputazione; -  metodi di riponderazione.

Page 27: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Metodi di imputazione I principali metodi di imputazione si basano sull’idea che è possibile stimare le probabilità di risposta delle unità. Per questi metodi è, quindi, necessario avere informazioni ausiliare che consentano di ricostruire le unità mancati. Per ricostruire le mancate risposte, spesso vengono utilizzate variabili strutturali, quali sesso, età, stato civile ed altro. Nel calcolo dei coefficienti di riporto all'universo (pesi) le stime campionarie della popolazione, in linea di massima, per sesso e classi di età, sono vincolate a totali noti provenienti da fonti demografiche esterne all'indagine. Il peso attribuito ad ogni individuo rispondente, è calcolato come prodotto dell'inverso della probabilità di inclusione per un fattore di correzione per mancata risposta e un fattore di correzione per sesso ed età.

Page 28: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

Alcuni metodi di imputazione

Il metodo della media: il valore della variabile di interesse viene stimato con la media aritmetica dei valori dei rispondenti. Il metodo della mediana: il valore della variabile di interesse viene stimato con la mediana dei valori dei rispondenti. Il metodo delle classi di imputazione: il campione viene suddiviso preliminarmente in sottoinsiemi di unità, detti “classi di imputazione”. Il valore della variabile di interesse per un non rispondente di una classe di imputazione è stimato con la media di aritmetica per i rispondenti della stessa classe di imputazione. I metodi hot e cold deck: per stimare il valore della variabile di interesse per un non rispondente si utilizza un valore relativo ad un rispondente della stessa indagine (hot deck) o di una indagine diversa (cold deck). Il metodo hot deck dà risultati migliori.

Page 29: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

La post-stratificazione SESSO S T U D E N T I

I S C R I T T I (N=10.000 )

PERCENTUALE STUDENTI ISCRITTI IN BASE AL

GENERE

CAMPIONE (n=100)

PERCENTUALE CAMPIONE

MASCHI 5.000 = ( 5 . 0 0 0 / 1 0 . 0 0 0 )*100=50%

60 FALSO

FEMMINE 5.000 = ( 5 . 0 0 0 / 1 0 . 0 0 0 )*100=50%

40 FALSO

Totale 10.000 100% 100

SESSO PESO

MASCHI =50/60=0,83

FEMMINE =50/40=1,25

Totale

Page 30: il campionamento - DidatticaWEBdidattica.uniroma2.it/assets/uploads/corsi/39156/Lez2.pdf · Quattro variabili da tenere in considerazione ! ... CON IL SOFTWARE EXCEL CAMPIONE CASUALE

CREAZIONE DI PESI PER UNA POST-STRAFICIAZIONE IN EXCEL

TEST: A2=1 SE_VERO: 0,83 SE_FALSO: 1,25

FORMULE - FUNZIONE

FUNZIONE SE