E-mail: [email protected]@unich.it Ricevimento: Lunedì 11:00 – 12:00 Materiale...
-
Upload
vitale-basile -
Category
Documents
-
view
218 -
download
5
Transcript of E-mail: [email protected]@unich.it Ricevimento: Lunedì 11:00 – 12:00 Materiale...
E-mail: [email protected]: Lunedì 11:00 – 12:00
Materiale didattico su: http://www.psicometria.unich.it
Le distribuzioni di probabilità teoriche permettono di associare ad un singolo evento/caso la sua probabilità di verificarsi
vs
Per determinare con quale probabilità è possibile estrarre casualmente da una popolazione un campione con media superiore o inferiore ad un certo punteggio usiamo le DISTRIBUZIONI CAMPIONARIE
• È una distribuzione di probabilità relativa ad una STATISTICA specifica che viene calcolata su tutti i possibili campioni di ampiezza n estraibili dalla popolazione di interesse.
• Per costruire una distribuzione campionaria è necessario:1. Individuare tutti i possibili campioni di ampiezza
n estraibili dalla popolazione2. Calcolare per ogni campione la statistica di cui
ci interessa determinare la distribuzione3. Determinare la frequenza per ogni valore
osservabile della statistica
DISTRIBUZIONE CAMPIONARIANELLA POPOLAZIONE PARLIAMO INVECE DI PARAMETRO
• È una distribuzione di probabilità relativa ad una STATISTICA specifica che viene calcolata su tutti i possibili campioni di ampiezza n estraibili dalla popolazione di interesse.
• Per costruire una distribuzione campionaria è necessario:1. Individuare tutti i possibili campioni di ampiezza
n estraibili dalla popolazione2. Calcolare per ogni campione la statistica di cui
ci interessa determinare la distribuzione3. Determinare la frequenza per ogni valore
osservabile della statistica
DISTRIBUZIONE CAMPIONARIANELLA POPOLAZIONE PARLIAMO INVECE DI PARAMETRO
• Variabile: superamento di un esame
• Distribuzione teorica: distribuzione binomiale del numero di successi/persone che hanno superato l’esame
• Distribuzione campionaria: distribuzione del numero medio di successi/di persone che hanno superato l’esame in ogni campione estratto
Nel caso di probabilità…
Media del numero di
successi nella popolazione
Ampiezza della popolazione
Probabilità di successo nella popolazione
Deviazione standard nella popolazione
PER OTTENERE LA DISTRIBUZIONE CAMPIONARIA DIVIDIAMO LA MEDIA E LA
DEVIAZIONE STANDARD DELLA POPOLAZIONE PER N
• La media delle medie dei campioni coincide con la media della popolazione dalla quale i campioni sono stati estratti
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà
Media della popolazione
Media delle medie dei campioni
Anche se la media della distribuzione campionaria è uguale alla media della popolazione, le due distribuzioni non coincidono perché la loro forma dipende dall’ampiezza n dei campioni
• La VARIANZA della funzione campionaria delle medie per campioni di ampiezza n è uguale alla varianza della popolazione diviso l’ampiezza del campione
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà
Varianza della popolazione
Varianza della funzione campionaria
Ampiezza del campione
• Quando la deviazione standard della popolazione NON E’ NOTA per calcolare l’errore standard è necessario stimarlo a partire da quello campionario
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà
• Quando la deviazione standard della popolazione NON E’ NOTA per calcolare l’errore standard è necessario stimarlo a partire da quello campionario
FUNZIONE CAMPIONARIA DELLA MEDIA: proprietà
La varianza di una popolazione
è
La varianza di un campione è
• Se n>30, anche se la variabile è su scala nominale/dicotomica, la distribuzione si approssima alla normale ed usiamo i PUNTI Z
• La classica procedura di standardizzazione implica
Se il campione è numeroso….
Quando i campioni sono indipendenti e le varianze sono uguali
Quando i campioni sono indipendenti e le varianze sono diverse
ESEMPIO
Qual è la probabilità che in un campione di 600 studenti, un gruppo fra i 330 e i 370 studenti superino l’esame alla prima prova, sapendo che la proporzione nella popolazione è del 53%?
• Poiché vogliamo conoscere la probabilità che un campione di studenti dai 330 ai 370 superi l’esame dobbiamo calcolare due valori dei punti z.
ESEMPIO
• Poiché vogliamo conoscere la probabilità che un campione di studenti dai 330 ai 370 superi l’esame dobbiamo calcolare due valori dei punti z.
ESEMPIO
Area compresa per z=1 è
0,3413
Area compresa per z=4,5 è
0,500
• Per conoscere la probabilità è necessario fare la differenza tra i due valori ottenuti
Nel caso di variabili su scala a intervalli
In questo caso usiamo la media e la deviazione standard della distribuzione campionaria
Attraverso le distribuzioni campionarie, partendo dai dati rilevati su un campione,è possibile determinare un intervallo di valori all’interno del quale ricade con una certa probabilità la media della popolazione INTERVALLO DI
FIDUCIA O INTERVALLO DI CONFIDENZA
1. Stabilire la probabilità che il nostro intervallo contenga la media della popolazione (90%, 95%, 99%)
2. Stabilire l’ampiezza del campione
Intervallo di fiducia
Costruire un intervallo di confidenza al 95% intorno alle statistiche di un
campione SIGNIFICA individuare i due punteggi che racchiudono il 95% delle medie della distribuzione delle medie
campionarie.
Si individuano i punti z che lasciano al di là di sè il 5% della distribuzione
• Se non conosciamo la deviazione standard
… in sintesi
E-mail: [email protected]: Lunedì 11:00 – 12:00
Materiale didattico su: http://www.psicometria.unich.it
INFERENZA STATISTICA
• Teoria della verifica dell’ipotesi :si verifica , in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei DATI CAMPIONARI
• Teoria della stima dei parametri:si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai DATI CAMPIONARI
• POPOLAZIONE: insieme di individui/item/osservazioni o più genericamente di elementi a cui il ricercatore fa riferimento nel generalizzare ed interpretare i risultati di un’indagine o di un esperimento.
… alcune definizioni
Può essere FINITA se l’ampiezza della popolazione è determinabile.
Es: punteggi in un test di intelligenza ottenuti da un gruppo di aspiranti ad un posto di lavoro.
Può essere INFINITA se l’ampiezza della popolazione non è determinabile.
• PARAMETRO della popolazione: è una caratteristica della popolazione espressa con un simbolo o con un numero. Un esempio è rappresentato dalla media e/o dalla varianza.
… alcune definizioni
• CAMPIONE: un sottoinsieme di n elementi della popolazione/universo di interesse.
Definisce l’ampiezza, cioè il numero di elementi di cui è costituito
• STATISTICA: è un’espressione formale o un valore che descrive una caratteristica di un campione di ampiezza n.
PRESUPPOSTI DELLA VERIFICA DELLE IPOTESI
• Formulazione Ipotesi Statistiche
Raccolta dati sul Campione
verifica delle Ipotesi e Decisione
(in base alla Teoria della Probabilità)
sempre soggetta ad errore
si assume a priori il rischio di errore che accettiamo di assumere nel prenderla
Individuazione del Campione
• È una fase molto delicata in quanto il campione DEVE avere la caratteristica della rappresentativitàrappresentatività rispetto alla popolazione
Campionamento
Un campione rappresentativo è un campione che presenta tutte le più
importanti caratteristiche della popolazione da cui proviene
• Campionamento arbitrariouso di metodi arbitrari per il reclutamento delle persone
• Campionamento finalizzato ad uno scopocampione scelto per qualche ragione particolare (es: opinioni dei rettori di differenti università sui cambiamenti desiderabili)notevole influenza della soggettività del ricercatore
• Campionamento di convenienzasi seleziona un gruppo desiderabile in quanto non è possibile effettuare il campionamento dell’intera popolazione (es: ricerche condotte su studenti universitari)
Differenti tipi di campionamento
• Campionamento probabilistico e selezione casuale
ogni membro della popolazione ha la stessa probabilità di essere scelto. La selezione di ogni membro è indipendente da quello di ogni altro membro.
E’ necessario stabilire la popolazione di riferimento in base a quali sono gli scopi della nostra ricerca (Quadro di riferimento del campione). Ogni soggetto che cade nel quadro di riferimento entrerà a far parte del campione
• Campionamento sistematico
è un campionamento probabilistico ma NON casuale.
si stabilisce un criterio (es: selezionare il primo di un gruppo di 4 nomi) ed i soggetti vengono selezionati in base a tale criterio.
• Campionamento casuale semplice
si usa quando si ritiene che la popolazione sia relativamente omogenea rispetto allo scopo della nostra ricerca.
Come metodo si usa la tavola dei numeri random
• Campionamento casuale stratificatoTratta la popolazione come due o più sottopopolazioni separate in modo da effettuare un campionamento casuale separato in ogni sottopopolazione.Viene usato quando si effettua una ricerca su una popolazione con sottogruppi identificabili che potrebbero dare delle risposte significativamente diverse.
• Campionamento a gruppi
In ogni tipo di campionamento è comunque fondamentale
stabilire il QUADRO DI RIFERIMENTO DEL
CAMPIONE!!!!!!!!!!!!
• 2 campioni si dicono DIPENDENTI se ogni dato presente in una serie può essere abbinato ad un dato nell’altra serie.– È il caso delle rilevazioni che vengono effettuate sugli
stessi soggetti Prima e Dopo un certo trattamento
• 2 campioni si dicono INDIPENDENTI se un dato presente in una serie NON può essere abbinato ad un dato nell’altra serie. – È il caso di gruppo sperimentale vs gruppo di
controllo
• Il ricercatore deve verificare se l’ipotesi formulata può essere considerata vera.
La verifica delle ipotesi:principi generali
IL VALORE OTTENUTO SUL CAMPIONE E’ SUFFICIENTEMENTE VICINO AL VALORE ATTESO IN FUNZIONE DELL’IPOTESI?
Necessità di formulare delle IPOTESI STATISTICHE, cioè delle ipotesi che
possono essere verificate con il metodo statistico
• È l’ipotesi che si vorrebbe rifiutare
• Afferma che gli effetti osservati nei campioni sono dovuti a fluttuazioni casuali
• Deve essere rifiutata solo se l’evidenza la contraddice
• Non è mai provata o verificata ma è SOLO POSSIBILE NEGARLA o DISAPPROVARLA sulla base dei dati sperimentali
L’Ipotesi Nulla
ipotesi in cui un certo parametro della popolazione è posto essere uguale ad un certo valore
L’Ipotesi Alternativa
• si indica con H1 • È detta anche sostantiva o sperimentale• È l’ipotesi in cui si assume che il valore del parametro sia
diverso dal valore indicato nella ipotesi nulla.
• H1 può essere:
– bidirezionale (≠)– monodirezionale destra/sinistra (>/<)
• Verificare se esiste una differenza nell’esecuzione di una prova tra soggetti maschi e soggetti femmine
H0 (ipotesi nulla): non esiste una differenza tra Maschi e Femmine
H1 (ipotesi alternativa): esiste una differenza tra Maschi e Femmine
Verificare se una moneta è truccata
H0 (ipotesi nulla): la probabilità di Testa è uguale alla probabilità di Croce
H1 (ipotesi alternativa): la probabilità di Testa è diversa dalla probabilità di Croce
• Si indica con α• è un valore di probabilità che funge da linea di
demarcazione tra l’Ipotesi Nulla e quella Alternativa• Rappresenta la REGOLA DECISIONALE• Definisce una REGIONE DI ACCETTAZIONE ed una
REGIONE DI RIFIUTO della Ipotesi Nulla• Il valore di α dipende dal tipo di Ipotesi Alternativa H1:
– Se è monodirezionale destra, il valore di α verrà preso tutto nella coda di destra della distribuzione
– Se è monodirezionale sinistra il valore di α verrà preso tutto nella coda di sinistra della distribuzione
IL LIVELLO DI SIGNIFICATIVITA’
Ipotesi Alternativa monodirezionale destra
H0
Regione di rifiuto
Regione di accettazione
(1- )
Ipotesi Alternativa monodirezionale sinistra
H0
Regione di rifiuto
Regione di accettazione
(1- )
Ipotesi Alternativa Bidirezionale
(1- )
/2/2
H0
Regione di rifiutoRegione
di rifiuto
Regione di accettazione
• Stabilire il livello di
Stabilire il rischio che siamo disposti a correre di commettere l’errore di respingere H0 quando è vera
(Errore di I° tipo)
Si tende a stabilire un valore di basso (α=.05; α=.01; α=.001) perché è preferibile non affermare l’esistenza di un fenomeno se non se ne è più che certi
Cosa significano i valori di α
= .05 rischio di sbagliare rifiutando H0 quando è vera = 5 volte su 100
= .01 rischio di sbagliare rifiutando H0 quando è vera = 1 volte su 100
= .001 rischio di sbagliare rifiutando H0 quando è vera = 1 volte su 1000
REGOLE DI DECISIONE
Regole di decisione su base probabilistica
La decisione non è mai certa
La decisione è sempre soggetta ad errore
Ho E’ VERA
SI ACCETTA L’IPOTESI NULLA H0
SI RIFIUTA L’IPOTESI NULLA H0
DECISIONE CORRETTA
DECISIONE SCORRETTA
ERRORE DI I° TIPO
Ho E’ FALSA
SI ACCETTA L’IPOTESI NULLA H0
SI RIFIUTA L’IPOTESI NULLA H0
DECISIONE CORRETTA
DECISIONE SCORRETTA
ERRORE DI II° TIPO
REGOLE DI DECISIONEI potesi
Decisione H0 è vera H0 è falsa
Accetto H0 Decisione Corretta
(1- )
Decisione Errata Errore di I I ° tipo
( )
Rifiuto H0 Decisione Errata Errore di I ° tipo
( )
Decisione Corretta (1 - )
α
1-α
β
1-β
Decisione corretta
Accetto HO quando è vera
Rifiuto HO quando è falsa
Decisione corretta
1-α 1-β
Zona di rifiuto di H1 in comune con H0
Zona di rifiuto di H0 in cui è vera anche H1
Zona di rifiuto di H1 non in comune con HO
Probabilità di prendere la decisione corretta, cioè ACCETTARE L’IPOTESI ALTERNATIVA QUANDO E’ CORRETTA
1 - β
POTENZA DEL TEST STATISTICO
È una misura dell’importanza dell’effetto individuato statisticamente indipendente dal numero di soggetti utilizzati.
Relazione tra α e β
α β 1 - β
.10 .37 .63
.05 .52 .48
.01 .78 .22
Diminuendo alfa diminuisce il potere statistico del test
Fattori che incidono sulla potenza del testLivello di α (rischio di commettere un errore di I° Tipo) scelto dal ricercatore
Numerosità del campione
Grandezza dell’effetto che si vuole evidenziare
Attendibilità delle misure
n (per gruppo)
1 - β (potenza)
10 .18
20 .33
50 .70
100 .94
Il p-value nella procedura decisionale
In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value
Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del
valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera.
È anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata.
La regola decisionale per Rifiutare HO è:
Se p ≥
Accetto H0 e Rifiuto H1
se p ≤
Rifiuto H0 e Accetto H1
p