Corso di Statistica Medica
Inferenza Statistica:Stima & Test
Corso di Statistica Medica
La 'statistica inferenziale‘ risponde a questa domanda. I risultati ottenuti dalle misure effettuate sul campione vengono estrapolati e riferiti alla popolazione. Le caratteristiche di interesse della popolazione, ad esempio la media e la varianza per un fenomeno oggetto di studio,i ‘parametri’della popolazione, hanno un valore vero che sarebbe noto solo analizzandone tutte le unità. Gli indici calcolati sul campione rappresentano una ‘stima’ di tali parametri ignoti.
I risultati descritti su un campione possano essere generalizzati alla popolazione da cui il campione proviene?
Corso di Statistica Medica
Tramite l'inferenza statistica si determina se i risultati che abbiamoosservato sul campione valgano anche per la popolazione globale
ad un soddisfacente 'livello di probabilità'
Concetti Base
Per passare dal campione a conclusioni sulla popolazione i metodi dell’ inferenza statistica si basano sul calcolo delle probabilità.
Si tratta di ‘stimare’ sul campione il valore di parametri ignoti per la popolazione, e di ‘verificare delle ipotesi’ sui fenomeni in studio,
tramite dei ‘test’ .
Corso di Statistica Medica
(1) In generale il campione viene estratto in modo casuale affinchè sia rappresentativo della variabilità della popolazione;
(2) L'inferenza statistica ha a disposizione due strumenti principali che permettono di evitare con una certa probabilità, di commettere errori: la STIMA ed il TEST statistico. Entrambi questi metodi si basano sul calcolo delle probabilità, ed in particolare sulle proprietà di alcune distribuzioni di probabilità, tra cui la principale è la distribuzione gaussiana.
«STIMA»: ci interessa per es. conoscere il valore medio di un fenomeno in una popolazione; ne estraiamo un campione casuale e…
Corso di Statistica Medica
(I) Stima di una media
Se si considera una variabile che segue la distribuzione gaussiana, ad esempio l'altezza di una popolazione, scegliendo a caso un individuo della popolazione si puo' ragionevolmente affermare che con il 95% di probabilità la sua altezza cade nell'intervallo compreso tra i valori:µ ± 2σ (parametri ).
Se i parametri della variabile nella popolazione fossero noti, per es: µ=174 cm e σ=11 cm, l'altezza dell'individuo al 95% di probabilità sarebbe compresa tra:
174 ± 2*11 cm, cioè tra: 152 e 196 cm.
A che livello di probabilità la ‘media campionaria’ rappresenta la media della popolazione?
In generale, tali parametri sono ignoti (a meno di un censimento); estraiamo quindi un campione di individui e ne calcoliamo l’altezza media…
Corso di Statistica Medica
C1C2
C3
1y
2y
3y
Se il campionamento viene ripetuto n volte, si ottengono n stime della media: le n ‘medie campionarie’ si distribuiscono in modo gaussiano, con media pari a quella della popolazione e deviazione standard che tende a zero al crescere di n.
Teorema del limite centrale
ymedia )( µ=
Distribuzione della v.c Media Campionaria
y
Cn
Cn-1
C4
…
4y
1−ny
ny
nY2σ “Errore di stima per
la media”
ny
ymedia
Y
Y
2
)var(
)(
σµ
=
=
Corso di Statistica Medica
Usando quindi le proprietà della distribuzione gaussiana, si puo' affermare che la media ignota µ della popolazione sia compresa con una probabilità del 95%nell'intervallo definito dai valori campionari:
Ny
σ96.1±
Ovviamente, poiché anche il valore della deviazione standard della popolazione (σ)è ignoto, occorre usare la sua stima campionaria:
( )N
yys
N
ii∑
=
−= 1
2
N
sy 96.1±La media µ della popolazione è quindi compresa nell’intervallo:
…ad un “livello di confidenza” del 95%.
Corso di Statistica Medica
“Confidenza” = livello di fiducia probabilistico che si attribuisce alla stima campionaria.‘Intervalli di confidenza’ (IC)=definiscono entro quali valori sia localizzata la media ‘vera’ ignota, in base alle stime campionarie, per N ‘sufficientemente grande ’:
sN
sxIC 96.1%95
±=
±=
Per N<30 unità, lo scostamento della media campionaria dalla gaussiana è notevole, per cui si modificano le ripartizioni delle aree sottostanti la distribuzione: ad esempio, per comprendere il 95% dell’area intorno alla media con un campione di N=10 misure occorre considerare 2.26 volte l’errore standard anziché 1.96. A questo scopo c’è una famiglia di distribuzioni di probabilità, ognuna identificata dai propri gradi di libertà (N-1) che nel loro insieme prendono il nome di distribuzione del t di Student . ..
N
sxIC 58.2%99 ±=
Corso di Statistica Medica
La distribuzione t di Student è simmetrica intorno alla media ed è molto simile alla gaussiana. Ma cambia di forma in relazione alla numerosità n del campione; tende ad avvicinarsi alla distribuzione normale standard N(0,1), al crescere di n. Per n>30 le due distribuzioni si equivalgono.
William Gosset, detto “Student”William Gosset, detto “Student”
Corso di Statistica Medica
La t di Student è una distribuzione di probabilità teorica, della quale esistono tabelle predisposte con i valori critici da sostituire a 1.96 e 2.58 - valori cosiddetti ‘critici’ in N(0,1)- per un piu’ corretto calcolo degli intervalli di confidenza per piccoli campioni .
Da qui in poi si possono utilizzare i valori della gaussiana
Corso di Statistica Medica
Esempio di stima di una media:Campione casuale di 100 studenti maschi dell'Università; nella seguente tabella di frequenze si riportano i valori di peso rilevati sul campione, divisi in 5 classi di frequenze. Sapendo che il peso si distribuisce come una gaussiana, stimare il peso medio degli studenti universitari ad un livello di confidenza del 95%.
Classi di Peso (kg) Frequenze
60-62 5
63-65 18
66-68 42
69-71 27
( )
kg 45,67100
8*7327*7042*6718*645*61
=
++++=pesoµ
69-71 27
72-74 8
Tot 100
( ) ( ) ( ) ( ) ( )
92,252,8
52,8100
75,852
100
45.677345.677045.676745.676445.6761 222222
==
==−+−+−+−+−=
peso
peso
σ
σ
[ ]02.68;88.6610
92,2*96,145,67*96,1 =±=±
N
pesopeso
σµ
Corso di Statistica Medica
Il concetto di test
Esempio: indagine sul peso corporeo maschile e femminile.
Sono stati estratti 2 campioni dalla popolazione, uno di uomini ed uno di donne, l’ipotesi da verificare è se la differenza di peso medio campionario osservata:
µ(peso uomini)=68 kgµ(peso donne)= 60 kg
è probabilisticamente compatibile con l’errore di campionamento, oppure è cosi’ improbabile da supporre che i due campioni provengano proprio da due popolazioni diverse, con caratteristiche di media diverse.
Si formula una ipotesi di base sul fenomeno oggetto di studio, IPOTESI NULLAnella quale si afferma che il peso maschile medio è uguale al peso femminile medio:
H0: µ(peso uomini)=µ(peso donne)
Corso di Statistica Medica
Il test è una regola per decidere, basandosi sul campione osservato,se si puo' confermare nella popolazione l'ipotesi nulla H0 o se la si deve rigettare, per esempio in favore di un'ipotesi alternativa che si indica con H1: i due gruppi presentano valori medi diversi in quanto effettivamente provenienti da due popolazioni diverse.
H0: µ(peso uomini) = µ(peso donne)
H1: µ(peso uomini) ≠ µ(peso donne)
50 60 70 80 900
50
100
150
200
250
40 50 60 70 800
50
100
150
200
250
300
40 45 50 55 60 65 70 75 80 850
100
200
300
400
500
600
Distribuzione del peso corporeo di uomini e donne sotto H0
Distribuzione del peso corporeo di uomini e donne sotto H1
Corso di Statistica Medica
100
150
200
250
100
150
200
250
300
Campione dei pesi uomini Campione dei pesi donne
50 60 70 80 900
50
40 50 60 70 800
50
µuomini µdonne
Derivano da una sola popolazione o da due popolazioni diverse?
Corso di Statistica Medica
Per determinare l'opportuna regola di decisione del test si presuppone che il fenomeno oggetto di studio segua una certa "distribuzione" nella popolazione; nella quasi totalità dei casi, soprattutto per cio' che concerne le variabili biologiche, la distribuzione di probabilità a cui ci si riferisce è quella gaussiana.
Corso di Statistica Medica
Quando si conduce un test, 2 tipi di errore sono possibili rispetto all'ipotesi nullache abbiamo formulato:
Decisione / Popolazione
H0 vera H0 falsa
Rigetto H0 Errore di 1°tipo : α OK
Accetto H0 OK Errore di 2°tipo : β
Errore di primo tipo, con probabilità α di commetterlo:Rigettare l'ipotesi nulla mentre invece essa è vera nella popolazione (detto anche'falso positivo');
Errore di secondo tipo, con probabilità β di commetterlo:Accettare l'ipotesi nulla mentre invece essa è falsa nella popolazione (detto anche'falso negativo').
Corso di Statistica Medica
Grazie al fatto che il campione si estrae in modo casuale, è possibile fissare a priori la probabilità αααα di commettere un errore del 1°tipo , ad una soglia predefinita, generalmente posta al 5%.
-> nell'eseguire il test si ha una probabilità del 5% di fare un errore del 1°tipo, cioè rifiutare l'ipotesi nulla (essendo invece essa vera nella popolazione).
Non è possibile in generale fissare a priori la probabilità β; quello che si puo’ fare, in base ad alcune ipotesi sulla variabilità del fenomeno oggetto di studio e sulla numerosità del campione utilizzato, è calcolare la 'potenza ' del test: 1-β
-> la potenza del test è la probabilità di rifiutare l'ipotesi nulla essendo in effetti essa falsa nella popolazione.
Corso di Statistica Medica
21 XX −
“Regola di decisione" del test statistico z-test che confronta le medie campionarie:
Variabile aleatoria “differenza di medie
campionarie”
21
22
21
21 NN
σσσ +=−
Deviazione standard della v.a. differenza di
medie
21
21
21
−
−=σ
XXz
Statistica di test
2121 NNσ +=−
(per campioni grandi )
Corso di Statistica Medica
<<−
<
>
accetto 96,196,1
rifiuto 96,1
rifiuto 96,1
0
0
0
Hz
Hz
Hz
campione
campione
campione
z~N(0;1) Regola di decisione:
Per campioni grandi (N>30)
Corso di Statistica Medica
50 60 70 80 900
50
100
150
200
250
40 50 60 70 800
50
100
150
200
250
300
40 45 50 55 60 65 70 75 80 850
100
200
300
400
500
600
Distribuzione del peso corporeo di uomini e donne sotto H
Distribuzione del peso corporeo di uomini e donne sotto Hdonne sotto H0 donne sotto H1
kg 821 =− XX
321
22
21
21 =+=− NN
σσσ
67,23
8
21
21 ==−=−σXX
z
<<−
<
>
accetto 96,196,1
rifiuto 96,1
rifiuto 96,1
0
0
0
Hz
Hz
Hz
campione
campione
campione
Conclusione: rifiuto H0
…i campioni provengono da popolazioni diverse
Corso di Statistica Medica
Il test del Chi-quadrato: 2χ
E’ il test piu' usato per investigare l'associazione tra due fenomeni A e B, che possono essere caratteri di qualsiasi tipo (qualitativi o quantitativi) che siano stati rilevati su un campione:
A/B Presente Assente Totale
Presente n11 n12 n1.
nij=frequenza assoluta di Ai e Bj(qui: 1=presenza/2=assenza)
Assente n21 n22 n2.
Totale n.1 n.2 n
Ipotesi nulla:
A e B sono 'indipendenti' nella popolazione: la presenza del carattere A non implicala presenza del carattere B e viceversa. Se tale ipotesi nulla è rigettata dal test, significa che A e B sono invece 'dipendenti' cioè associati in qualche modo.
Corso di Statistica Medica
A/B Presente Assente Totale
Presente n11 n12 n1.
Assente n21 n22 n2.
Totale n.1 n.2 n
Tende a zero se A e B sono indipendenti
2.1..2.1
2
2112221121
2
nnnn
nnnnnn
−⋅−⋅=χ
Statistica di test:
Chi-quadrato con 1 “grado di libertà” :
gradi di libertà = prodotto tra il numero delle modalità delle variabili considerate a cui si sottrae 1. 2 modalità: presenza e assenza del carattere: gradi di libertà=(2-1)*(2-1)=1).
Corso di Statistica Medica
E’ nota la legge di probabilità secondo cui si distribuisce il test Chi-quadrato sotto l’ipotesi nulla di non associazione.
La distribuzione di probabilità del Chi-quadrato cambia al variare dei gradi di libertà:
2campioneχ 2
,νχcritico
REGOLA DI DECISIONE:
Accetta H0 se:
<campione ,νcritico
2campioneχ 2
,νχcritico
Rifiuta H0 se:
>
;
Corso di Statistica Medica
Esempio: valore critico del Chi-quadro con 4 gdl ad un livello α=0.95: 9.49
Quando si esegue il test al PC, si haIl valore del Chi-quadro ed il corrispondente valore di 1-α o p:Es: Chi-quadro=11.14p=1-α=1-0.975=0.025
Corso di Statistica Medica
I software forniscono come risultato il valore del test con la relativa probabilità: il valore di “p” del test= la probabilità di ottenere la differenza osservata o una
differenza maggiore, se l’ipotesi nulla è vera (pari a 1-α). Se p è piccolo l’ipotesi nulla è rifiutata perché poco probabile.
Accetta H0 se p > 0.05; Rifiuta H0 se p < 0.05;
Ex: supponiamo di aver rilevato due caratteri A e B: A= occhi azzurri ; B= miopia.Ex: supponiamo di aver rilevato due caratteri A e B: A= occhi azzurri ; B= miopia.
A/B presente assente totale
presente 15 135 150
assente 10 40 50
totale 25 175 200
58.21752550150
2002
1101354015200
2
2 =⋅⋅⋅
−⋅−⋅=campioneχ
84.32 =criticoχ2campioneχ 2
,νχcritico<
Occhi azzurri e miopia sono due eventi indipendenti (ad un livello di probabilità del 95%).
Corso di Statistica Medica
La verifica di ipotesi sulla media di una variabile quantitativa: t-test
Siano x1, x2, ..., xn le nostre n osservazioni di una variabile quantitativa Xche stiamo studiando su un campione di dimensione n.Supponiamo che, in generale, X si distribuisca nella popolazione come una variabile casuale gaussiana: X~N(µX; σX).
H0 : µX = µ0H1 : µX ≠≠≠≠ µ0H1 : µX ≠≠≠≠ µ0
I passi da seguire per effettuare il t-test sono i seguenti:
∑=
=n
iix
nx
1
1
1: calcolare media
n
s
xT 0µ−
=
3: calcolare statistica di test
( )
11
2
−
−=∑
=
n
xxs
n
ii
2: calcolare dev std
&
Corso di Statistica Medica
La variabile casuale T che si ottiene segue la distribuzione di probabilità t di Student con n-1 gradi di libertà:
campionet 1, −ntα
1,1, −− <<− ncampionen ttt αα
Accetta H0 se
<
cioè se
− t
campionet 1, −ntα
1,
1,
−
−
−<
>
ncampione
ncampione
tt
tt
α
α
Rifiuta H0 se
>
cioè se
Regione di accettazionerifiuto rifiuto
1, −ntα1, −− ntα
(1-α)/2=p/2 (1-α)/2=p/2
α=1-p
Corso di Statistica Medica
Ex: Supponiamo di aver rilevato su 10 unità statistiche la misura di un parametro X:
Unità X
1 8
2 -5
3 4
4 4
5 0
6 -3
La media del parametro X nella popolazione è pari a zero?
H0 : µX =0H1 : µX ≠≠≠≠ 0
1.01 == ∑ xn
xn
i7 1
8 -2
9 -6
10 0
( )
072.0
10
35.41.0
10
35.4
35.41
1
1.0
0
1
2
1
==−
=
=−−
=
==
∑
∑
=
=
µxt
xxn
s
xn
x
n
ii
ii
262.29, =αt<
Accettiamo l'ipotesi nulla: la media della popolazione non è significativamente diversa da 0.
Corso di Statistica Medica
Studio della relazione tra due variabili:
la regressione lineare semplice
Corso di Statistica Medica
LA RETTA DI REGRESSIONE:
Quando si studia l'associazione tra due variabili quantitative, è utile definire:- una variabile "esplicativa“o 'CAUSA‘-una variabile "dipendente" o "risposta" cioè un 'EFFETTO'
Ex: consideriamo le seguenti coppie di variabili:
- X= Peso; Y= Tasso di colesterolo;- X= età (nei bambini tra 0 e 12 anni); Y= statura (nei bambini tra 0 e 12 anni)- X= dose di un farmaco; Y= "livello" di malattia/ tempo di guarigione.
Quali sono le cause e quali gli effetti ?
Si cerca di stimare la relazione tra X e Y tramite una funzione matematica:
Y=f(X)
In matematica, una funzione è una relazione tra due insiemi, che ad ogni elemento del primo insieme fa corrispondere uno e un solo elemento del secondoinsieme.
Corso di Statistica Medica
A differenza però del concetto matematico di funzione (dove il legame tra X e Y è deterministico cioè privo di errore casuale), in statistica tale legame viene stimatousando dei dati campionari, quindi aleatori o stocastici o casuali.
deterministica
stocastica
-> per ogni valore assunto dalla variabile X esiste un'intera distribuzione di probabilità
i=1,…,n
-> per ogni valore assunto dalla variabile X esiste un'intera distribuzione di probabilità di valori della Y e ciò significa che per ogni X non sarà possibile conoscere con certezza il valore di Y.
-> quindi Y è una variabile casuale la cui distribuzione di probabilità è determinata dai valori della X e dalla distribuzione di probabilità della u.
-> la completa specificazione del modello di regressione include, oltre l'equazione della regressione, anche la specificazione della distribuzione di probabilità della componente stocastica.
Corso di Statistica Medica
In altri termini, la retta di regressione è un'equazione lineare che associa ad ogni valore di X (variabile esplicativa) un valore atteso di Y (variabile dipendente):
E(Y)=α+β*X
αααα= "intercetta" della retta; ββββ= "pendenza" o "coefficiente angolare" della retta di regressione di Y su X.
Corso di Statistica Medica
Il problema statistico è quello di calcolare (stimare) i valori di αααα e ββββ, detti 'coefficienti diregressione', dati i valori di X e di Y osservati su un campione.
Il metodo piu' comunemente usato per stimare i coefficienti di regressione è definito:"metodo dei minimi quadrati" …(least squares)…
..minimizzare rispetto alle incognite αααα e ββββ gli scarti al quadrato tra i valori osservati di Y e ivalori 'teorici' di Y, cioè quelli che ci aspetteremmo di ottenere calcolandoli dai valoriassunti da X, tramite l'equazione di regressione...
( )n
yy −∑ ˆmin 2( )
ii
iii
ba
xy
yy
βα +=
−∑=
ˆ
ˆmin1
2
,
Si ottiene cosi’ l'equazione di una retta che "interpola" (=passa attraverso) la nuvola di punti osservati, in modo tale che la distanza media dei punti da questa retta sia minima.
Corso di Statistica Medica
Corso di Statistica Medica
-Test di significatività sui coefficienti di regressione;
-Ipotesi alla base dei test sulla regressione
Corso di Statistica Medica
I coefficienti della retta di regressione si stimano dal campione che abbiamo raccoltodi valori (xi,yi) , per i=1,..n, mediante il metodo dei minimi quadrati:
( )
ii
n
iii
xy
yy
βαβα
+=
−∑=
ˆ
ˆmin1
2
,
Si presume che stimando i parametri della retta sulla base del campione si commettaun errore u (cioè la stima della parte stocastica o i residui)che segue una distribuzione gaussiana standard:
( )σ,0
ˆ
Nu
yyu
≈−= ! Se la retta di regressione è un
modello soddisfacente dei dati osservati, allora la variabilità residua è gaussiana ed ha media zero!
Corso di Statistica Medica
Esempio: valori di emoglobina ed età in 20 donne:
Soggetto
Hb
(g/dl) età
1 11.1 20
2 10.7 22
3 12.4 25
4 14 28
5 13.1 28
6 10.5 31
7 9.6 32
8 12.5 35
10
12
14
16
18Hb
9 13.5 38
10 13.9 40
11 15.1 45
12 13.9 49
13 16.2 54
14 16.3 55
15 16.8 57
16 17.1 60
17 16.6 62
18 16.9 63
19 15.7 65
20 16.5 67
8
18 28 38 48 58 68 78
età
H0: non c’è associazione tra l’età ed i valori di Hb.
Retta di regressione:
E(Hb)=α+β*Età
Corso di Statistica Medica
Retta di regressione:
E(Hb)=α+β*Età=
=8.28+0.14*Età
2)( −≈ ntES ββ
ES(β) =errore standard del coefficiente di regressione
Coefficientsa
8.283 .684 12.101 .000
.136 .015 .909 9.236 .000
(Constant)
età
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Hba.
Output di SPSS della regressione lineare di Hb su Età
Valore di p=1-α
Corso di Statistica Medica
Retta di regressione:
E(Hb)=α+β*Età=
=8.28+0.14*Età
L’emoglobina aumenta in media di 0.14 g/dl ad ognianno di incremento dell’età.
Test di significatività:
2203.9015.0
14.0
)( −≈== tES β
β
9.3 > 2.10 : rifiuto l’ipotesi nulla
L’aumento dell’età è significativo sull’aumento medio di Hb.
Corso di Statistica Medica
Presupposti alla base del test di significatività
1. La relazione tra Y ed X è approssimativamente lineare. La verifica più sempliceconsiste nell’esaminare lo scatter plot dei dati. Un’altra verifica è quella di esaminare lo scatter plot tra i residui della regressione e la variabile indipendente X.
Non rimane alcuna evidente relazione tra i residui e l’età; quindi la regressione lineare fornisce un modello adeguato per descrivere i dati.
Corso di Statistica Medica
2. L’errore nella previsione non ha alcuna relazione con il valore previsto.La verifica più semplice consiste nell’esaminare lo scatter plot tra i residui della regressione e la variabile dipendente Y. Se i residui crescono al crescere di Y allorail modello di regressione lineare non è del tutto soddisfacente. - A volte può essere utile trasformare la scala di Y (per es. tramite logaritmo). -
I residui tendono a diminuire al cresceredei valori di Hb. Ciò suggerisce che l’età dei valori di Hb. Ciò suggerisce che l’età non sia la sola variabile ad influenzare Hb.
aggiungere altre variabili indipendenti-> modello di regressione multipla
Corso di Statistica Medica
3. I residui sono distribuiti in modo gaussiano.La verifica più semplice consiste nell’esaminare l’istogramma dei residui.
Soggetto età Hb (g/dl)
Hb
pred
1 20 11 11
2 22 11 11
3 25 12 12
4 28 14 12
5 28 13 12
6 31 11 13
7 32 10 13
8 35 13 138 35 13 13
9 38 14 13
10 40 14 14
11 45 15 14
12 49 14 15
13 54 16 16
14 55 16 16
15 57 17 16
16 60 17 16
17 62 17 17
18 63 17 17
19 65 16 17
20 67 17 17
Corso di Statistica Medica
4. I residui sono reciprocamente indipendenti.Nel caso in cui le misure che analizziamo provengono da differenti individui, ciò è assunto sempre vero. Ma, se le misure sono per esempio serie storiche (dati osservati più volte nel tempo) o misure ripetute sugli stessi individui ciò può non essere valido.In tali casi bisogna “complicare” il modello di regressione per tenere conto della correlazione esistente nelle misure della variabile dipendente…
autocorrelazione dei residui
Negli studi con misure ripetute sulle stesse unità statistiche non è corretto applicare il metodo della regressione a causa della autocorrelazione delle osservazioni (=non indipendenza)
Esistono modelli specifici di analisi per gli studi longitudinali (GLM=Generalized Linear Models)…
Top Related