L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...
-
Upload
giachetta-zamboni -
Category
Documents
-
view
215 -
download
1
Transcript of L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...
L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.
Due forme di inferenza statistica sono: la stima il test di ipotesi
La popolazione statistica è definita
come l’insieme di tutte le possibili
unità statistiche, sulle quali possiamo
eseguire delle misure. Essa può
perciò essere infinita.
Concetto (frequentista)Concetto (frequentista) di probabilitàdi probabilità
Se un esperimento casuale è ripetuto un numero infinito di volte, la frequenza relativa di un certo risultato converge, con probabilità = 1, ad un unico limite fisso. (Legge dei grandi numeri) Si potrebbe allora dire che la probabilità di quel certo risultato è tale limite, se questa definizione non fosse circolare.
Legge dei grandi numeri: in generale stabilisce che più il campione è grande, più è probabile che la media aritmetica campionaria approssimi la media della popolazione.
Concetto (Bayesiano) di probabilitàConcetto (Bayesiano) di probabilità
Secondo alcuni statistici, è possibile assegnare una probabilità ad un evento, anche quando non si dispone di una frequenza relativa che ce ne possa suggerire il valore. In questo caso la probabilità è desunta dall’esperienza di chi l’assegna, anche se tale esperienza non è formalmente costituita da una sequenza di esperimenti casuali.
Assiomi di probabilitàAssiomi di probabilità
A AP 10
][]Ø[ BPAPBAPBA
ABPAPBAP |
1.
2.
3.
Legge della somma
Legge del prodotto
Infezione da H.pylori
Madre affetta
Sì No
Sì No
6
16
112
729
Totale 22 841
Prevalenza di infezione da Helicobacter pylori in bambini di età Prevalenza di infezione da Helicobacter pylori in bambini di età pre-scolare, a seconda della presenza di ulcera nella madrepre-scolare, a seconda della presenza di ulcera nella madre
Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and prevalence of Helycobacter pylori infection in preschool children: population based study .BMJ 1998; 316:665.
P(HB) = P( HB madre affetta) + P( HB madre non affetta)
P (HB madre affetta) = P( HB | madre affetta) • P(madre affetta)
118/863 = 6/ 863 + 112/863
6/863 = 6/22 • 22/ 863
Verifica della validità degli assiomi, sui dati di Brenner et al.Verifica della validità degli assiomi, sui dati di Brenner et al.
Legge della somma
Legge del prodotto
Le variabili casuali (o stocastiche o aleatorie) sono variabili numeriche, che assumono valori diversi a caso.
Variabili casualiVariabili casuali
Variabili casuali discreteVariabili casuali discrete
Non possono assumere tutti i valori in alcun intervallo. Per esempio, il numero di " teste " osservato dopo il lancio di due monete, assumerà valore 0, 1, o 2 ma non 1,75.
Variabili casuali continueVariabili casuali continue
Possono assumere tutti i valori in un certo intervallo. Perciò, hanno un’infinità di valori possibili tra due valori qualunque.
Una prova di Bernouilliprova di Bernouilli è un esperimento casuale con due soli esiti possibili, denominati “successo” e “insuccesso”. Non è importante quale di questi esiti sia considerato "successo "- questo è arbitrario – ma, una volta fatta la scelta, essa deve essere mantenuta per tutto il corso dei calcoli.La probabilità di successo è costante
Il numero totale di successi X osservato in una serie di n prove di Bernouilli indipendenti è una variabile casuale variabile casuale binomialebinomiale.
Le probabilità associate con tutti i possibili valori di una variabile casuale binomiale formano una distribuzione binomiale.
Distribuzione BinomialeDistribuzione Binomiale
La distribuzione binomialedistribuzione binomiale descrive una famiglia di variabili casuali, ogni membro della quale è identificato dai valori dei parametri della distribuzione stessa:
nn il numero di prove indipendenti
ππ la probabilità di successo in ciacuna prova La notazione usata per indicare che una variabile casuale X è binomiale è la seguente:
X ~ B(n, π)
(si legge: " X è una variabile casuale binomiale con parametri n e π“).
Il valore attesovalore atteso di una variabile binomiale casuale è la media d’infinite sue realizzazioni. Può essere calcolato con la formula:
E(X) nπ La varianzavarianza (²) di una variabile binomiale casuale quantifica la dispersione d’infinite sue realizzazioni . La formula per la varianza di una variabili binomiale è:
2 nπ(1-π)
Diagramma a barre della distribuzione binomiale di Diagramma a barre della distribuzione binomiale di probabilità con parametri n = 4 e probabilità con parametri n = 4 e = 0,75 = 0,75
Numero di "successi"
Pro
babilità
0.0040.047
0.211
0.422
0.316
0 1 2 3 4
0.0
00
.15
0.3
00
.45
Diagramma della funzione Diagramma della funzione FFXX((xx) = P(X ) = P(X xx),),
X è una variabileX è una variabile binomiale con parametri n = 4 e binomiale con parametri n = 4 e = 0,75. = 0,75.
FFXX((xx)) si chiama funzione di distribuzione di probabilità cumulata.si chiama funzione di distribuzione di probabilità cumulata.
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
Numero di "successi"
Probabilità c
um
ula
ta
Distribuzione di campionamento della Distribuzione di campionamento della media aritmeticamedia aritmetica::
È la distribuzione di frequenza delle medie campionarie, che si otterrebbero da ripetuti campioni indipendenti ciascuno di dimensione n, estratti a caso dalla popolazione .
Stimatore non distortoStimatore non distorto
Produce una stima, il cui valore atteso è uguale al
parametro che si vuole stimare.
Per esempio,x (media campionaria) è uno stimatore
non distorto di (media dell’intera popolazione),
perché il valore atteso della media campionaria è uguale
alla media della popolazione.
Aumentando la dimensione del campione, la
distribuzione di campionamento tende a restringersi
intorno alla media della popolazione. Questo è un aspetto
della legge dei grandi numeri, che afferma che la media
campionaria tende con probabilità 1 al valore atteso della
variabile casuale (media della popolazione), quando la
dimensione campionaria tende ad infinito.
LL’errore standard della media’errore standard della media (ESM o ES o x) è:
rappresenta la deviazione standard della popolazione e n la dimensione campionaria. ESM tende a 0 al crescere di n, perciòx è una stima consistente di .
nESM
La media aritmetica campionaria è una stima
non distorta
consistente
la più efficiente (con la minore varianza, a parità di n)
della media aritmetica della popolazione
Intervallo di confidenzaIntervallo di confidenza::
è un intervallo, all’interno del quale si trova il parametro, che si desidera stimare, con probabilità uguale al livello di confidenza dell’intervallo stesso.
•IV.A.6.c. Statistics
•Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as the use of P values, which fails to convey important information about effect size. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the computer software used.
Problemi respirarori
gruppo di trattamento
Terbinafine placebo
presenti assenti
5
51
0
29
Totale 56 29
Numero di pazienti con problemi respiratori tra i trattati Numero di pazienti con problemi respiratori tra i trattati con Terbinafine o placebocon Terbinafine o placebo
Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with terbinafine,.BMJ 1992; 304:1151-4.
Intervallo di confidenza al 95%95% per la differenza fra le proporzioni di disturbi respiratori fra i pazienti trattati con terbinafine e placebo
-0,012 ; 0,190
Nota bene: la stima puntuale della differnza di proporzioni vale 0,09
(Calcolo eseguito con )R 2.0.1.lnk
I più semplici intervalli di confidenza sono simmetrici I più semplici intervalli di confidenza sono simmetrici intorno alla stima puntuale del parametro da stimareintorno alla stima puntuale del parametro da stimare
Caso particolare:Caso particolare:
Intervallo di confidenza per Intervallo di confidenza per quando quando è è conosciutoconosciuto
P[ x -- 1.96 1.96 ESM < µ < x 1.961.96 ESM]
= 0,95
L’origine dei valori 1,96 diventerà chiara, dopo avere fatto conoscenza con il modello gaussiano
La distribuzione gaussianadistribuzione gaussiana (chiamata anche normale) è una distribuzione di probabilità continua, simmetrica, unimodale e caratterizzata da una forma a campana.
Si indica con X N( ) una qualunque variabile casuale, che segue la distribuzione gaussiana con media e deviazione standard .
Questa particolare gaussiana (denominata standard) ha media = 0 e deviazione standard = 1
Le curve di densità di probabilità hanno le proprietà seguenti: L’L’area totalearea totale sotto la curva di densità è uguale a 1 L’L’area sotto la curva (AUC)area sotto la curva (AUC) tra 2 punti qualunque, x1
ed x2, è la probabilità che la variabile casuale assuma
un valore nell’intervallo tra essi compreso. Da questo si deduce che la probabilità di un intervallo di larghezza 0, coincidente con un singolo valore, è uguale a 0
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Densità gaussiana standard
Area = 0,025
Area = 0,025
-1,96 1,96
Area = 0,95
Origine dei valori 1,96 usati per il calcolo dell’intervallo di confidenza
Quando la deviazione standard della popolazione non è conosciuta una stima dell’errore standard della media (SESM) è:
Dove s rappresenta la deviazione standard campionaria e n la
dimensione campionaria
n
ssSESM x
Un altro caso particolare:Un altro caso particolare:
Intervallo di confidenza per Intervallo di confidenza per quando quando è è sconosciutosconosciuto
si utilizza la deviazione standard campionaria, s, come stima
di e si calcola un intervallo di confidenza al (1 ) 100%
per con:
x tn-1, 1-/2 SESM
dove tn-1, 1-/2 è il quantile, definito dalla frazione (1 – ),
della distribuzione t con n -1 gradi di libertà;
SESM vale: s /n.
-6 -4 -2 0 2 4 6
0.0
0.1
0.2
0.3
Origine del valore tn-1, 1-/2 (in questo esempio n-1= 3 e
-t3, 1- /2= -3.18
Area 0.95 Area
0,025 Area 0,025
t3, 1- /2= 3.18
Alcuni possibili usi degli Alcuni possibili usi degli intervalli di confidenza: intervalli di confidenza: Stima diStima di
Medie e loro differenze
Proporzioni e loro differenze
Indici “non parametrici” (mediane, quantili, ecc.)
Rischi relativi, rischi attribuibili e odds ratio
Tassi di incidenza e tassi standardizzati
Parametri di modelli lineari e regressione logistica
Azzardi e rapporti di azzardi (studi di sopravvivenza)
A : Ipotesi nulle ed alternativeA : Ipotesi nulle ed alternative
Utilizziamo la notazione HH00 per indicare l’ipotesi
nulla ed HH11 (o Ha) per indicare l’ipotesi alternativa.
H0 corrisponde a “nessuna differenza” diversa da
quella che sarebbe ottenuta per puro caso. È l’ipotesi
che il ricercatore spera di poter rifiutare.
H1 è l’ipotesi che il ricercatore spera di poter
dimostrare, solitamente è l’esatto contrario di H0.
La statistica teststatistica test è una quantità che
rispecchia i dati campionari, che, quando H0 è
vera, ha una distribuzione (o densità) di
probabilità completamente nota.
Essa è perciò lo strumento per determinare il
P-value.
P-valueP-value
E’ la probabilità di ottenere dati
campionari altrettanto o meno probabili
di quelli ottenuti, allorché H0 è vera.
P-value può perciò essere considerato una misura delle
prove fornite dai dati contro l’ipotesi nulla, infatti esso
risponde alla domanda seguente:
“Se l’ipotesi nulla fosse vera, quale sarebbe la
probabilità di osservare questo campione od uno
ancora più improbabile?”
Più P-value è piccolo, migliore è l’evidenza contro H0
Livello di significativitàLivello di significatività
Prima di fare il test, stabiliamo il valore massimo
accettabile della probabilità di rifiutare erroneamente H0,
indicato con alfa ().
è solitamente posto uguale a 0,05 o 0,01.
Conclusione della procedura di testConclusione della procedura di test
Per trarre delle conclusioni si calcola, tramite la statistica
test, il P-value.
Se P è inferiore o uguale a α, H0 è rifiutata
Se P è superiore a , H0 non è rifiutata
per mancanza di prove contrarie
Questa procedura assicura che la probabilità di rifiutare erroneamente H0 sia .
Il P-valueP-value può essere interpretato come il
valore minimo di α che si deve scegliere
per potere rifiutare H0, in presenza dei
dati campionari ottenuti.
Ipotesi nullaIpotesi nulla
Condizioni dei Condizioni dei datidati
Test statistico Test statistico consigliatoconsigliato
Uguaglianza della media Uguaglianza della media di una popolazione ad un di una popolazione ad un valore prefissatovalore prefissato
Osservazioni Osservazioni indipendenti indipendenti Variabili Variabili approssimativamente approssimativamente gaussianegaussiane
Test “t” per un solo Test “t” per un solo campionecampione
Uguaglianza delle medie Uguaglianza delle medie di due variabili misurate di due variabili misurate sugli stessi soggetti o sugli stessi soggetti o ciascuna su uno dei due ciascuna su uno dei due elementi di una coppia elementi di una coppia
I soggetti misurati due I soggetti misurati due volte oppure le coppie di volte oppure le coppie di osservazioni sono osservazioni sono indipendenti fra loroindipendenti fra loroDifferenza fra le due variabili Differenza fra le due variabili approssimativamente approssimativamente gaussianagaussiana
Test “t” per dati appaiatiTest “t” per dati appaiati
Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni
Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno la stessa varianzala stessa varianzaVariabili Variabili approssimativamente approssimativamente gaussianegaussiane
Test “t” per campioni Test “t” per campioni indipendentiindipendenti
Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni
Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni Le due popolazioni nonnon hanno la stessa varianzahanno la stessa varianza Variabili approssimativa-Variabili approssimativa-mente gaussianemente gaussiane
Test “t” per campioni Test “t” per campioni indipendenti con correzione indipendenti con correzione dei gradi di libertàdei gradi di libertà (Attenzione: se le popolazioni non (Attenzione: se le popolazioni non hanno la stessa varianza, può non hanno la stessa varianza, può non essere sensato testare se le essere sensato testare se le medie sono uguali)medie sono uguali)
Ipotesi nullaIpotesi nulla
Condizioni dei datiCondizioni dei dati Test statistico Test statistico consigliatoconsigliato
La distribuzione delle differenze fra La distribuzione delle differenze fra le osservazioni rilevate sul le osservazioni rilevate sul medesimo soggetto o su soggetti medesimo soggetto o su soggetti appartenenti alla stessa coppia, è appartenenti alla stessa coppia, è simmetrica.simmetrica.
- - I soggetti misurati due volte, o le I soggetti misurati due volte, o le coppie di osservazioni sono coppie di osservazioni sono indipendenti fra loroindipendenti fra loro- Differenza fra le due variabili - Differenza fra le due variabili molto lontana dalla distribuzione molto lontana dalla distribuzione gaussianagaussiana
Test non parametrico Test non parametrico per dati appaiati per dati appaiati (wilcox.test)(wilcox.test)
Uguaglianza delle Uguaglianza delle distribuzioni di probabilità distribuzioni di probabilità di due popolazionidi due popolazioni
Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno distribuzioni approssimativamente distribuzioni approssimativamente sovrapponibili salvo per la sovrapponibili salvo per la posizione.posizione. Variabili molto lontane dalla Variabili molto lontane dalla distribuzione gaussianadistribuzione gaussiana
Test non parametrico Test non parametrico per campioni per campioni indipendenti. indipendenti. (wilcox.test)(wilcox.test)
Uguaglianza di una Uguaglianza di una proporzione proporzione ad un valore prefissato ad un valore prefissato
Osservazioni Osservazioni indipendentiindipendenti
Test esatto per una Test esatto per una proporzione basato su proporzione basato su modello binomialemodello binomiale(binom.test)(binom.test)
Uguaglianza di due Uguaglianza di due proporzioni rilevate in proporzioni rilevate in campioni provenienti da campioni provenienti da due popolazioni, od due popolazioni, od indipendenza di due indipendenza di due variabili categorichevariabili categoriche
Osservazioni Osservazioni indipendentiindipendenti
Test chi Test chi quadratoquadrato
l’ipotesi nulla e l’ipotesi alternativa possono prendere
una di queste 3 forme:
“una coda a destra”, “una coda a sinistra, e “due code”.
H0: 0 contro H1: >0
H0: 0 contro H1: < 0
H0: = 0 contro H1: 0
Test a una e a due codeTest a una e a due code
Errori di tipo I (rifiuto di una ipotesi nulla vera)Errori di tipo II (non rifiuto di una ipotesi nulla falsa) Le conseguenze dell’esecuzione di un test statistico d’ipotesi possono essere riassunte come segue:
VERITA’ H0 vera H0 falsa
DECISIONE
Non rifiutare H0
Corretta accettazione di H0
Rifiutare H0
Errore di tipo Errore di tipo IIII
Errore di tipo IErrore di tipo I Corretto rifiuto di H0
P (errore di tipo I) =
P (errore di tipo II) =
Pr (evitare un errore di tipo I) = 1-
Pr (evitare un errore di tipo II)= 1- “potenza”
Probabilità di errori di I e II tipoProbabilità di errori di I e II tipo
p1 e p2
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Diagramma di pressione diastolica e sistolica in una popolazione
Pressione diastolica (mmHg)
Pre
ssio
ne s
isto
lica
(mm
Hg)
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Modello di regressione lineare di pressione sistolica rispetto alla pressione diastolica
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Stima e bande di confidenza (in blu scuro) della retta di regressione
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Banda di “tolleranza” stimata del modello di regressione (in fucsia)
Fattore studiato Variabile dipendente
confondente
y = a + bx + e
• Modello di regressione lineare semplice:
• Modello di regressione lineare multipla:
y = a + b1x1+ b2x2 + e
• Il modello permette di studiare l’effetto della variabile x1 sulla y, al netto dell’azione di x2
y – b2x2= a+ b1x1 + e
Se desideriamo aggiungere alla previsione di y
(per esempio la glicemia delle nostre pazienti), una quantità b solo per le obese, ma non per le altre pazienti, possiamo
aggiungere alla formula della previsione un termine bx,
dove x vale 1 quando la formula si applica alle obese,
e vale 0 per le altre pazienti.
Questo equivale ad inserire la variabile x nel data-base e nel modello di previsione
Per rendere una variabile qualitativa in un modello lineare, possiamo usare tante variabili indicatore quante sono le classi della variabile meno una.
Per esempio per codificare il gruppo ematico di classi 0, A, B, AB, possiamo usare tre variabili xA, xB, xAB, che hanno le seguenti caratteristiche:
xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri
xB=1 per i soggetti con gruppo ematico B, e xB= 0 per tutti gli altri
xAB=1 per i soggetti con gruppo ematico AB, e xAB= 0 per tutti gli altri
Le variabili indicatore sono quantitative: forniscono il conteggio (0 od 1) dei rispettivi gruppi ematici in ogni soggetto
Visti i valori delle variabili indicatore, per i soggetti appartenenti ai quattro gruppi ematici, l’equazione si riduce alle seguenti quattro espressioni:
La parte sistematica del modello è data dalla seguente equazione
E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB
E(y | gruppo A) = a + bA
E(y | gruppo B) = a + bB
E(y | gruppo AB) = a + bAB
E(y | gruppo 0) = a
Dalle equazioni precedenti risulta chiaro il significato
dei parametri bA, bB e bAB :
bA = E(y | gruppo A) - E(y | gruppo 0)
bB = E(y | gruppo B) - E(y | gruppo 0)
bAB = E(y | gruppo AB) - E(y | gruppo 0)
religione
sesso
got
musulmana
cristiana
altro
F
M
Modello di analisi della varianza per la “got” con variabili esplicative religione e sesso
40
65
Scatterplot e retta di regressione e banda di confidenza
Pulsazioni 1
Pul
sazi
oni 2
Rappresentazione grafica di un modello di analisi della covarianza, comprensivo delle bande di confidenza delle rette di regressioneP
ulsa
zion
i (se
cond
a ri
leva
zion
e)
Pulsazioni (prima rilevazione)
Riposo
Corsa
0 1000 2000 3000 4000 5000 6000
0.0
0.2
0.4
0.6
0.8
1.0
dose
fraz
ione
di b
atte
ri uc
cisi
Diagramma della frazione di batteri uccisi in relazione alla dose usata di farmaco, osservata in numerosi esperimenti
Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)] (ascissa del flesso = -1, pendenza nel flesso= 0,5)
0 5 10 15
0.0
0.2
0.4
0.6
0.8
1.0
anni
sopr
avvi
venz
aStima di Kaplan-Meyer della curva di sopravvivenza