Parte 1 : InferenzaParte 1 : Inferenza
! Test d'ipotesi
! Intervalli di confidenza
! Test parametrici
! Calcoli di potenza
! Test non parametrici
Inferenza statisticaInferenza statistica
! Negli studi sperimentali generalmente operiamo con campioni e non con intere popolazioni.
! La non conoscenza delle caratteristiche della popolazione ci obbliga a dover prendere delle decisioni.
! Prendere delle decisioni prevede correre dei rischi.
Processo di INDUZIONE
MONDO
campione
Uso la “statistica” per verificare
le mie ipotesi.
Generalizzo le
conclusioni.
! Problemi di scelta tra due (o più) ipotesi, in statistica, vengono chiamati:
problemi di verifica d’ipotesi
! Le ipotesi sono generalmente chiamate:
ipotesi nulla H0
ipotesi alternativa H1 [HA]
! Lo strumento utilizzato per affrontare problemi di verifica d’ipotesi viene chiamato:
TEST statistico
Verifica d’ipotesiVerifica d’ipotesi
! A che cosa serve un test statisticoA che cosa serve un test statistico ?
È il mezzo utile per verificare quanto i dati a disposizione siano o meno a favore delle mie ipotesi.
A livello teorico alcuni test sono più adatti di altri in certe condizioni per il loro comportamento asintotico.
Test statisticoTest statistico
Supponiamo di avere a disposizione un campione di 10 galline. Per ognuna di queste 10 galline contiamo il numero di uova prodotte in una settimana.
Formalizziamo il problema:
n = 10Xi = numero di uova per gallina i-ma
Troviamo che il numero medio di uova in una settimana è di 5.8.
EsempioEsempio
Il valore medio che troviamo è significativamente diverso da 5 o no ?
Quello scostamento di 0.8 è dovuto al caso (perché per esempio la numerosità campionaria è bassa) oppure aumentando n mantengo uno scostamento di 0.8 ?
Posso generalizzare questa mia conclusione all’intera popolazione delle galline ? E se sì, con quale margine di errore ?
Cosa vogliamo sapere ?Cosa vogliamo sapere ? Vari tipi di test statisticiVari tipi di test statistici
I test statistici si dividono in:
! Test parametrici: assumono che i nostri dati si distri-buiscano con delle distribuzioni note (eg. Gaussiana).
! Test non parametrici: non fanno nessuna assunzione sul tipo di distribuzione dei dati originali.
Sono delle curve di frequenza teoriche.
Cos’è una distribuzione ?Cos’è una distribuzione ?
Possiamo ipotizzare che le nostre variabili all’aumentare della dimensione del campione (per n che tende all’infinito) si avvicini sempre più ad una certa
distribuzione teorica.
Distribuzioni più comuniDistribuzioni più comuniGaussiana/Normale Chi quadrato Binomiale
t di Student F di Snedecor Poisson
Test parametriciTest parametriciConsidero la mia variabile di interesse.
Ipotizzo una ragionevole distribuzione asintotica per la mia variabile nella intera popolazione.
Formulo un corretto sistema di ipotesi.
Utilizzo un appropriato test statistico che grazie alla distribuzione ipotizzata precedentemente e alla assunzione di indipendenza avrà una certa
distribuzione asintotica.
Confronto il valore del test con la distribuzione sotto l’ipotesi H0.
EsempioEsempio
n = 10Xi = numero di uova per gallina i-ma
Troviamo che il numero medio di uova in una settimana è di 5.8.
Domanda: il valore medio di uova per settimana è significativamente maggiore di 5 ?
Formalizzo la verifica d’ipotesiFormalizzo la verifica d’ipotesi
H0 : la vera media del no. di uova = 5
H1 : la vera media del no. di uova ! 5
Che cos’è la vera media ?
La vera media è la media dell’intera popolazione di galline che ci interessa. La vera media (µ) non è nota ed è il parametro su cui noi facciamo inferenza.
H0 : µ = 5
H1 : µ ! 5
Sistema di ipotesi correttoSistema di ipotesi correttoDato un problema, definire un sistema di ipotesi corretto non è banale.
H0 : µ = 5
H1 : µ " 5
H0 : µ ! 5
H1 : µ > 5
Sistema di ipotesi semplice
Sistema di ipotesi composto
Generalmente si sceglie come H0 l’ipotesi che si vuole
rifiutare.
Test parametriciTest parametriciConsidero la mia variabile di interesse.
Ipotizzo una ragionevole distribuzione asintotica per la mia variabile nella intera popolazione.
Formulo un corretto sistema di ipotesi.
Utilizzo un appropriato test statistico che grazie alla distribuzione ipotizzata precedentemente e alla assunzione di indipendenza avrà una certa
distribuzione asintotica.
Confronto il valore del test con la distribuzione sotto l’ipotesi H0.
Analisi graficaAnalisi graficaSupponiamo di avere un certo sistema di ipotesi sulla media di una certa variabile X che chiamiamo µ.
H0 : µ = 5
H1 : µ ! 5
Allora sotto H0 i miei dati avranno una certa distribuzione:
Sembra improbabile che i nostri dati siano stati generati
dalla distribuzione disegnata.
! Non è proponibile andare a controllare dove cadono i valori osservati sulla distribuzione sotto H0.
! Il test statistico (TX) ci deve restituire un valore numerico attraverso il quale siamo in grado di prendere una decisione.
! Se il test, in valore assoluto, ha valori piccoli allora i dati sembrano soddisfare H0, se ha valori grandiallora i dati sembrano non soddisfare H0.
Test statisticoTest statistico EsempioEsempio
n = 10Xi = numero di uova per gallina i-ma
Troviamo che il numero medio di uova in una settimana è di 5.8.
Domanda: il valore medio di uova per settimana è significativamente maggiore di 5 ?
Test statisticoTest statistico
Dato il sistema d’ipotesi:
H0 : µ = 5
H1 : µ " 5
Il test appropriato è del tipo:
o H0 : µ ! 5
H1 : µ > 5
dove nel nostro caso µ0 = 5.
Tx=#n $x%m0 &#varianza
Distribuzione di un test statisticoDistribuzione di un test statistico
Distribuzione sotto H0 di un test:
l’insieme di valori che il test può assumere se H0 è vera nella
ipotetica replicazione all’infinito dell’esperimento svolto.
(impostazione frequentista)
Distribuzione di un test statisticoDistribuzione di un test statistico
Mondo
Campione 1 Test 1
Campione 2 Test 2
Campione 3 Test 3
Campione 4 Test 4
Campione n Test n
… …
Test parametriciTest parametriciConsidero la mia variabile di interesse.
Ipotizzo una ragionevole distribuzione asintotica per la mia variabile nella intera popolazione.
Formulo un corretto sistema di ipotesi.
Utilizzo un appropriato test statistico che grazie alla distribuzione ipotizzata precedentemente e alla assunzione di indipendenza avrà una certa
distribuzione asintotica.
Confronto il valore del test con la distribuzione sotto l’ipotesi H0.
Errori del I e del II tipoErrori del I e del II tipo
Prendere una decisione prevede correre dei rischi.
Il rischio che corriamo è di prendere una decisione sbagliata: scegliere l’ipotesi sbagliata.
Teoricamente la condizione ideale sarebbe ridurre al minimo le probabilità di errore.
Domanda: quanti tipi di errori posso fare ? E come faccio a minimizzarli ?
Errori del I tipoErrori del I tipo
! = probabilità di rifiutare H0 quando è vera
" = probabilità di accettare H0 quando è falsa
Errori del II tipoErrori del II tipo
Come minimizzarli ?Come minimizzarli ?
È stato dimostrato che non è possibile minimizzarli entrambi.
• Fisso il livello dell’errore del primo tipo (!). Valore più comune: 5%
• Minimizzo il livello dell’altro (").
Motivo per cui le due ipotesi, H0 e H1,
non sono simmetriche.
Regione di rifiuto e di accettazioneRegione di rifiuto e di accettazione
Abbiamo visto che i valori di Tx ci servono per verificare se i nostri dati sono a favore o meno dell’ipotesi nulla:
• valori nelle code portano ad un rifiuto di H0.
• valori centrali portano ad accettare H0.
Regione di rifiuto e di accettazioneRegione di rifiuto e di accettazione
" Fissiamo ! : prob. di rifiutare quando H0 è vera.
" Se il sistema di ipotesi è del tipo:
siamo interessati a scostamenti da 5 in entrambe le direzioni.
" La probabilità ! deve essere divisa in due per scosta-menti a destra e per scostamenti a sinistra: !/2.
H0 : µ = 5
H1 : µ " 5
Regione di rifiuto e di accettazioneRegione di rifiuto e di accettazione
!/2 !/21- !
Accettazione RifiutoRifiuto
Regione di rifiuto e di accettazioneRegione di rifiuto e di accettazione
Accettazione RifiutoRifiuto
Toss
Se Toss cade nella regione di accettazione, allora accetto H0.
Toss
Se Toss cade nella regione di rifiuto, allora rifiuto H0.
Regione di rifiuto e di accettazioneRegione di rifiuto e di accettazione
Le regioni di accettazione e di rifiuto dipendono però dal tipo di
ipotesi scelte.
# Nel caso di ipotesi:
H0 : µ = 5
H1 : µ " 5
la regione di rifiuto sarà bilaterale.
! Nel caso di ipotesi:
H0 : µ = 5 H0 : µ = 5
H1 : µ < 5 H1 : µ > 5
la regione di rifiuto dipenderà dall’ipotesi alternativa.
H0 : µ = 5
H1 : µ < 5
Regione di rifiuto e di accettazioneRegione di rifiuto e di accettazione
Rifiuto
! 1- !Accettazione
H0 : µ = 5
H1 : µ > 5
Rifiuto!1- !
Accettazione
EsempioEsempio
n = 10, ! = 0.05 (5%) ' valore critico = 1.83Xi = numero di uova per gallina i-ma ' x = 5.8
Sistema d’ipotesi:
H0 : µ ! 5 contro H1 : µ > 5
Toss = (n (x - µ0)
(varianza=
(10 (5.8 - 5)
1.9= 1.3
1.3
RAIl test cade nella regione A quindi non rifiutiamo l’ipotesi H0.
1.83
pp-value – Livello di significatività-value – Livello di significatività
osservatoosservato
Accettazione Rifiuto Rifiuto
Toss
Se Toss cade nella regione di accettaz., allora accetto H0.
Toss
Se Toss cade nella regione di rifiuto, allora rifiuto H0.
Toss
p-value
p-value: probabilità di ottenere un valore sotto H0 più estremo di quello osservato:
P( T > Toss | H0)
pp-value – Livello di significatività osservato-value – Livello di significatività osservato
Toss
p-value
P( T > Toss | H0) ' unilaterale destro
È chiaro che il valore del p-value dipende dal sistema di ipotesi che abbiamo:
Unilaterale destro/sinistro
P( T < Toss | H0) ' unilaterale sinistro
Toss
p-value/2
2 x P( T > Toss | H0) ' bilaterale
Bilaterale
-Toss
p-value/2
Parte 1 : InferenzaParte 1 : Inferenza
! Test d'ipotesi
! Intervalli di confidenza
! Test parametrici
! Calcoli di potenza
! Test non parametrici
Dualità tra verifica d’ipotesi e Dualità tra verifica d’ipotesi e intervalli di confidenzaintervalli di confidenza
Gli intervalli di confidenza si costruiscono utilizzando lo stesso ragionamento della verifica d’ipotesi.
Non vengono però definite le ipotesi H0 e H1.
La stima intervallare ci dice di più rispetto alla semplice stima puntuale: ci dà delle informazioni importanti
riguardo alla precisione della nostra stima.
Che cos’è una stima ?
Il MONDO : la mia popolazione di riferimento
Abbiamo assunto che sia una Normale di media µ e varianza #2.
L’unico modo che abbiamo per stimare µ è attraverso la media campionaria dei miei dati.
Intervallo di confidenza per Intervallo di confidenza per µµ
X
s
68% : x ± s/(n
95% : x ± 2 s /(n
99% : x ± 3 s /(n
Intervallo di confidenza per Intervallo di confidenza per µµ
Dato l’intervallo 1 – ! per µ :
Dato il sistema d’ipotesi :
H0 : µ = µ0
H1 : µ " µ0
µ0 µ0
Accetto a livello !.
Rifiuto a livello !.
Parte 1 : InferenzaParte 1 : Inferenza
! Test d'ipotesi
! Intervalli di confidenza
! Test parametrici
! Calcoli di potenza
! Test non parametrici
Distribuzioni asintotiche dei testDistribuzioni asintotiche dei test
A seconda dei casi il nostro test può convergere a diverse distribuzioni teoriche.
Tutto dipende dalla varianza.
Nota #2 NON nota #2 ' s2
Gaussiana t di Student
Tx = (n (x - µ0)
#
Varianza nota Varianza nota –– test Ztest Z
) N(0,1)
Variabile X su un unico campione di dimensione n e unità statistiche indipendenti e identicamente distribuite (come una Normale) di media µ ignota e varianza #2 nota. Allora:
• si determina la regione di rifiuto
• si calcola il Toss
• si accetta o rifiuta
H0
Tx = (n (x - µ0)
s
Varianza ignota Varianza ignota – – test t ad un campionetest t ad un campione – –
) tn-1
Variabile X su un unico campione di dimensione n e unità statistiche indipendenti e identicamente distribuite(come una Normale) di media µ e varianza #2 entrambe non note. Allora:
• si determina la regione di rifiuto
• si calcola il Toss
• si accetta o rifiuta
H0
Varianza ignota Varianza ignota – – test t a due campioni indipendentitest t a due campioni indipendenti ––
Rilevo la variabile X su due campioni indipendenti di numerosità rispettivamente n1 e n2. Le n1 osservazioni sono i.i.d. (come una Normale) con media µ1 e varianza #2 ignote; le n2 osservazioni sono i.i.d. (come una Normale) con media µ2 e varianza #2 ignote.
H0 : µ1 = µ2
H1 : µ1 " µ2
Tx = x1 – x2
sp(1/n1+1/n2
) tn1+n2-2
H0
s2p =
(n1-1) s21 + (n2-1) s2
2
(n1+ n2 - 1)
Verifica d’ipotesi sulle varianzeVerifica d’ipotesi sulle varianze
Rilevo la variabile X su due campioni indipendenti di numerosità rispettivamente n1 e n2. Le n1 osservazioni sono i.i.d. (come una Normale) con media µ1 e varianza #2
1 ignote; le n2 osservazioni sono i.i.d. (come una Normale) con media µ2 e varianza #2
2
ignote.
H0 : #1 = #2
H1 : #1 " #2 Tx =
s21
s22
) Fn1-1,n2-1
H0
Varianza ignota Varianza ignota – – test t per dati appaiatitest t per dati appaiati – –
Che cosa sono i dati appaiati ?
ynxnn
………
y1x11
YXsoggetto
Prima del trattamento Dopo il trattamento
H0 : µx = µy
H1 : µx " µy
xn – yn
…
x1 – y1
X – Y
H0 : µx - µy = 0
H1 : µx - µy " 0test t ad un campione
Analisi della varianzaAnalisi della varianza
H0 : µ1 = µ2 = µ3
H1 : almeno un valore diverso
Abbiamo visto come poter confrontare le medie di due campioni indipendenti.
… e se i campioni sono più di due ?
Potrei fare un test t a due campioni per tutte le possibili coppie ….
Analisi della varianzaAnalisi della varianza
Potrei fare un test t a due campioni per tutte le possibili coppie ….
• Se il numero di campioni è elevato il numero di coppie diventa ingestibile.
• I risultati possono diventare poco credibili. (I test non sono indipendenti !).
Abbiamo bisogno di un test globale con una probabilità complessiva di errore fissato.
# confronti
3 0,01696 0,0085
10 0,005115 0,003021 0,002428 0,001836 0,001445 0,001155 0,0009
alphai
!g = 1 - (1 - !i)c
Confronti MultipliConfronti Multipli
3 6 10 15 21 28 36 45 550
0
0
0
0
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,02
0,02
0,02
Analisi della varianza ad una viaAnalisi della varianza ad una via
Analisi della varianza ad una viaAnalisi della varianza ad una via
Assumendo:
• indipendenza dei campioni e delle osservazioni
• normalità dei dati
• varianze all’interno dei k gruppi uguali (test F/test di Levene)
Varianza entro gruppi
#2w
Varianza tra gruppi
#2B
F = #2B / #2
w ~ Fk-1, n-k
Analisi della varianzaAnalisi della varianza
Perché ad una via?
yi = µ + !i + $i
fattore
1 variabile dipendente e 1 variabile indipendente
A due vie
yij = µ + !i + "j + (!i * "j) + $ij
fattori
1 variabile dipendente e 2 variabili indipendenti
interazione
L’interazione tra i fattori indica se l’effetto di un fattore sulla variabile dipende dagli altri fattori, o meglio, dai livelli degli altri fattori.
Cos’è l’interazione?Cos’è l’interazione?
M33
M23
M13
"3
M32
M22
M12
"2
M31!3
M21!2
M11!1
"1
Column J Column K Column L0
0,25
0,5
0,75
1
1,25
1,5
1,75
2
2,25
2,5
2,75
3
3,25
3,5
3,75
4
Row 11 Row 12 Row 13
Assenza di interazione
Esiste un effetto separato di ! e di " ma non esiste
un effetto incrociato dei due fattori.
Column J Column K Column L0
0,25
0,5
0,75
1
1,25
1,5
1,75
2
2,25
2,5
2,75
3
3,25
3,5
3,75
4
4,25
4,5
4,75
5
Row 11 Row 12 Row 13
Presenza di interazione
Le conclusioni in questo caso sono molto più articolate:$ il livello 3 del fattore " sembra sfavorire il livello 2 di ! e favorire invece il
livello 1 di !;
$ il livello 1 del fattore " sembra favorire invece il livello 2 di !.
Analisi della varianzaAnalisi della varianza
A due vie
yij = µ + !i + "j + (!i * "j) + $ij
$ Per analizzare l’effetto dei due fattori potremmo fare 2 ANOVA unifattoriali, una per ciascun fattore …
$ … oppure, potremo fare tante ANOVA con un singolo fattore !, una per ciascun livello di " …
$ … oppure, potremo fare tante ANOVA con il singolo fattore ", una per ogni ! …
Questa scelta di fare molte ANOVA non è conveniente:
$ il numero di analisi aumenta di molto se aumentano i fattori; $ facendo molte analisi aumenta l’errore complessivo di primo tipo; $ sarebbe molto difficile capire se esiste interazione tra i fattori.
Parte 1 : InferenzaParte 1 : Inferenza
! Test d'ipotesi
! Intervalli di confidenza
! Test parametrici
! Calcoli di potenza
! Test non parametrici
Errori del I e del II tipoErrori del I e del II tipo
Prendere una decisione prevede correre dei rischi.
Il rischio che corriamo è di prendere una decisione sbagliata: scegliere l’ipotesi sbagliata.
Teoricamente la condizione ideale sarebbe ridurre al minimo le probabilità di errore.
Domanda: quanti tipi di errori posso fare ? E come faccio a minimizzarli ?
Errori del I tipoErrori del I tipo
! = probabilità di rifiutare H0 quando è vera
" = probabilità di accettare H0 quando è falsa
Errori del II tipoErrori del II tipo
Come minimizzarli ?Come minimizzarli ?
È stato dimostrato che non è possibile minimizzarli entrambi.
• Fisso il livello dell’errore del primo tipo (!). Valore più comune: 5%
• Minimizzo il livello dell’altro (").
Motivo per cui le due ipotesi, H0 e H1,
non sono simmetriche.
… … quindi …quindi …
Generalmente si sceglie come H0 l’ipotesi che si vuole
rifiutare.
% Se rifiuto H0, conosco l’errore che sto commettendo, o meglio, la sua probabilità: !.
% Se non la rifiuto, è più difficile determinare la proba-bilità dell’errore che commetto: ".
Potenza di un testPotenza di un test
H0 vera H0 falsa
Accetto H0 1 - ! "
Rifiuto H0 ! 1 - "
! : errore del I tipo
" : errore del II tipo
1 - " : potenza
Potenza di un test : probabilità di rifiutare H0 quando H0 effettivamente è falsa
Ovvero: la potenza di un test è una misura della confidenza di aver identificato un effetto se questo esiste.
… Il calcolo della potenza però prevede la conoscenza della distribuzione della statistica test sotto H1 …
P(T )
T
! = 0.05
Distribuzione sotto H1 del test
Distribuzione sotto H0 del test
" !
POWER = 1 - "
caso classico
effect size = effetto
(differenza tra medie)
P(T )
T
… con un ! meno conservativo …
" !
Distribuzione sotto H0 del test
Distribuzione sotto H1 del test
POWER = 1 - "
! = 0.1
effect size = effetto
(differenza tra medie)
P(T )
T
… con un ! più conservativo …
" !
Distribuzione sotto H0 del test
Distribuzione sotto H1 del test ! = 0.01
POWER = 1 - "
effect size = effetto
(differenza tra medie)
P(T )
T" !
… aumentando l’effetto …
Distribuzione sotto H0 del test
Distribuzione sotto H1 del test
! = 0.05
POWER = 1 - "
effect size = effetto
(differenza tra medie)
P(T )
T" !
… aumentando la dimensione del campione …
Distribuzione sotto H0 del test
Distribuzione sotto H1 del test
! = 0.05
POWER = 1 - "
Ricapitolando
Da cosa dipende la potenza del test:
• numerosità campionaria
• variabilità dei dati
• effetto atteso
• soglia usata (!)
Aumentano i falsi positivi
Falsi positivi : casi in cui si rifiuta con H0 vera
Falsi negativi : casi in cui si accetta con H1 vera
… e il cerchio si chiude
Per quale motivo per il confronto di medie tra gruppi viene usato
il test t ad uno o due campioni oppure una ANOVA ?
Ci potrebbero essere molti altri test, basati su formule diverse, per verificare
l’uguaglianza di medie …
Si può dimostrare che il test t ad uno e due campioni indipendenti, il test per dati appaiati e
l’ANOVA sono i test parametrici PIÙ POTENTI tra tutti quelli possibili.
Cosa dobbiamo conoscere per calcolare N ?
• Il metodo di analisi
• Il livello dell’errore del I tipo ! (i.e. 5%)
• La potenza richiesta (di solito 80%)
• La variabilità delle misure rilevate – Se necessario condurre uno studio pilota !
• Il più piccolo effetto (i.e. differenza di medie) che abbia un senso biologico
Calcolare la numerosità del campione a priori
Di solito si cerca di determinare la dimensione campionaria necessaria per avere un test con una certa potenza.
Calcolare N …
Per semplicità assumiamo: test t per due campioni indipendenti con disegno bilanciato (N1=N2), 1-" = 0.8, ! = 0.05.
% = effetto che si vuole identificare
Varianze uguali
Varianze differenti
Più complesso è il test più complesso è il calcolo di N.
1-" = 0.8, ! = 0.05
Calcolare N …
!1!
2$ z
1%"
2
+z1%# &
2
$2=
N1
N2
N1+N
2
Disegno non bilanciato
0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7
0
100
200
300
400
500
600
700
800
Sample size for T-test
effect size (difference in standard deviation units)
sam
ple
siz
e p
er
treatm
en
t arm
Sample size and effect size
! = 5%
1-" = 80%
Sample size and effect size
0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 0,55 0,6 0,65 0,7
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
power & difference by # subjects per treatment arm
effect size
% p
ow
er
Power and effect size
! = 5%
n = 80
Power and effect size
Parte 1 : InferenzaParte 1 : Inferenza
! Test d'ipotesi
! Intervalli di confidenza
! Test parametrici
! Calcoli di potenza
! Test non parametrici
Parametrico o non parametrico ?Parametrico o non parametrico ?
I test parametrici si applicano a dati con modalità quantitative, utilizzando indici statistici quali:
% la media;
% la varianza;% la deviazione standard.
Per utilizzarli, è necessario che alcune condizioni siano soddisfatte:
% indipendenza delle osservazioni;% normalità delle distribuzioni campionarie;% omogeneità delle varianze campionarie.
In particolare sono tanto più sensibili a deviazioni da tali assunzioni quanto maggiori sono le differenze di numerosità tra i campioni !
I test non parametrici:
% prescindono dalle assunzioni sulle distribuzioni campionarie;
% possono essere applicati anche a dati con caratteri qualitativi.
Noi vedremo:
% test X2 di Pearson (o del chi-quadro)% test U di Mann-Whitney% test di Kruskall-Wallis% test di Kolmogorov-Smirnov
Parametrico o non parametrico ?Parametrico o non parametrico ?
Tabelle di contingenza e test del chi-quadroTabelle di contingenza e test del chi-quadro
f.NA
fNB,NA
fB,NA
NA
fNB.fNB,ANB
nf.Atot
fB.fB,AB
totA
fB,A = numero osservato di soggetti che hanno congiuntamente i
caratteri A e B
I soggetti devono assolutamente essere indipendenti.
Domanda: I caratteri A e B sono indipendenti ?
Dobbiamo capire qual è la situazione di indipendenza.
Tabelle di contingenza e test del chi-quadroTabelle di contingenza e test del chi-quadro
f.NA
f*NB,NA
f*B,NA
NA
fNB.f*NB,ANB
nf.Atot
fB.f*B,AB
totA
f*B,A = numero atteso di soggetti che hanno congiuntamente i caratteri A e B, in condizione di indipendenza
f*B,A = fB. * f.A / n
prodotto delle frequenze marginali diviso il no. totale dei soggetti
Tabelle di contingenza e test del chi-quadroTabelle di contingenza e test del chi-quadro
Il test adatto in questo caso è :
&
Domanda: I caratteri A e B sono indipendenti ?
(a – o)2
aX2 = ) '2
(r-1)(c-1)
La regione di rifiuto R è sempre unilaterale destra.
RA
o = freq. oss.a = freq. attesa
r = no. righe, c = no. colonne
Tabelle di contingenza e test del chi-quadroTabelle di contingenza e test del chi-quadro– – osservazioneosservazione – –
Il test del chi-quadro consente di misurare la dipendenza di due variabili, ma i risultati sono molto influenzati dai gradi di libertà.
Inoltre, differenti valori del test del chi-quadro sono confrontabili solo se derivano da esperimenti o inchieste compiute sullo stesso numero di soggetti.
Indici:
Un valore pari allo zero indica mancanza di associazione, mentre un valore tendente all'unità (+/-) indica la presenza di associazione.
chi-quadrochi-quadro– – indici di associazione –indici di associazione –
Coefficiente (
Coefficiente di contingenza
Coefficiente )
Coefficiente V di Cramér
* di Kendall
D di Somers
nominali ordinali
…
Test U di Mann-Whitney Test U di Mann-Whitney
È il corrispondente non parametrico del test t per il confronto delle medie di 2 campioni normali e indipendenti.
Molti test non parametrici non si avvalgono dei dati originali ma dei ranghi.
Trasformazione dei dati: una volta ordinati i dati, ad ognuno
di essi viene assegnato un numero relativo alla sua
posizione nella scala ordinata.
0,7 6-1,6 1-0,2 3-1,2 2-0,1 43,4 93,7 100,8 7
0 52 8
dati ranghi
Test U di Mann-Whitney Test U di Mann-Whitney
% Riunisco i dati come se fossero provenienti da un unico campione.
% Ordino tutti i dati dal più piccolo al più grande.% Assegno dei ranghi ad ogni dato.% Sommo i ranghi del campione 1 e del campione 2.
Se i due campioni provengono dalla stessa distribuzione, ci si aspetta che la somma dei ranghi dei due campioni siano
più o meno simili.
I valori del test sono stati tabulati e il valore risultante va confrontato con apposite tavole.
Test di Kruskall-Wallis Test di Kruskall-Wallis
È il corrispondente non parametrico del test F per l’analisi della varianza (ANOVA).
% Assegna i ranghi alle osservazioni indipendentemente dalla classe di appartenenza.
% Calcola i ranghi totali e medi di ogni classe.% Si valuta attraverso un indice apposito la variabilità
dei ranghi tra e intra classi.
I valori del test sono stati tabulati e il valore risultante va confrontato con apposite tavole.
Test di Kolmogorov-Smirnov Test di Kolmogorov-Smirnov
Permette di verificare se:
% due insiemi di dati (data set ) provengono dalla stessa distribuzione,
oppure se:
% la distribuzione di un certo campione è significativa-mente diversa da una certa distribuzione nota.
?
=
?
=
Test di Kolmogorov-Smirnov Test di Kolmogorov-Smirnov
Test di Kolmogorov-SmirnovTest di Kolmogorov-Smirnov Test di Kolmogorov-SmirnovTest di Kolmogorov-Smirnov
Top Related