L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...

L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Due forme di inferenza statistica sono: la stima il test di ipotesi

La popolazione statistica è definita

come l’insieme di tutte le possibili

unità statistiche, sulle quali possiamo

eseguire delle misure. Essa può

perciò essere infinita.

Concetto (frequentista)Concetto (frequentista) di probabilitàdi probabilità

Se un esperimento casuale è ripetuto un numero infinito di volte, la frequenza relativa di un certo risultato converge, con probabilità = 1, ad un unico limite fisso. (Legge dei grandi numeri) Si potrebbe allora dire che la probabilità di quel certo risultato è tale limite, se questa definizione non fosse circolare.

Legge dei grandi numeri: in generale stabilisce che più il campione è grande, più è probabile che la media aritmetica campionaria approssimi la media della popolazione.

Concetto (Bayesiano) di probabilitàConcetto (Bayesiano) di probabilità

Secondo alcuni statistici, è possibile assegnare una probabilità ad un evento, anche quando non si dispone di una frequenza relativa che ce ne possa suggerire il valore. In questo caso la probabilità è desunta dall’esperienza di chi l’assegna, anche se tale esperienza non è formalmente costituita da una sequenza di esperimenti casuali.

Assiomi di probabilitàAssiomi di probabilità

A AP 10

][]Ø[ BPAPBAPBA

ABPAPBAP |

1.

2.

3.

Legge della somma

Legge del prodotto

Infezione da H.pylori

Madre affetta

Sì No

Sì No

6

16

112

729

Totale 22 841

Prevalenza di infezione da Helicobacter pylori in bambini di età Prevalenza di infezione da Helicobacter pylori in bambini di età pre-scolare, a seconda della presenza di ulcera nella madrepre-scolare, a seconda della presenza di ulcera nella madre

Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and prevalence of Helycobacter pylori infection in preschool children: population based study .BMJ 1998; 316:665.

P(HB) = P( HB madre affetta) + P( HB madre non affetta)

P (HB madre affetta) = P( HB | madre affetta) • P(madre affetta)

118/863 = 6/ 863 + 112/863

6/863 = 6/22 • 22/ 863

Verifica della validità degli assiomi, sui dati di Brenner et al.Verifica della validità degli assiomi, sui dati di Brenner et al.

Legge della somma

Legge del prodotto

Le variabili casuali (o stocastiche o aleatorie) sono variabili numeriche, che assumono valori diversi a caso.

Variabili casualiVariabili casuali

Variabili casuali discreteVariabili casuali discrete

Non possono assumere tutti i valori in alcun intervallo. Per esempio, il numero di " teste " osservato dopo il lancio di due monete, assumerà valore 0, 1, o 2 ma non 1,75.

Variabili casuali continueVariabili casuali continue

Possono assumere tutti i valori in un certo intervallo. Perciò, hanno un’infinità di valori possibili tra due valori qualunque.

Una prova di Bernouilliprova di Bernouilli è un esperimento casuale con due soli esiti possibili, denominati “successo” e “insuccesso”. Non è importante quale di questi esiti sia considerato "successo "- questo è arbitrario – ma, una volta fatta la scelta, essa deve essere mantenuta per tutto il corso dei calcoli.La probabilità di successo è costante

Il numero totale di successi X osservato in una serie di n prove di Bernouilli indipendenti è una variabile casuale variabile casuale binomialebinomiale.

Le probabilità associate con tutti i possibili valori di una variabile casuale binomiale formano una distribuzione binomiale.

Distribuzione BinomialeDistribuzione Binomiale

La distribuzione binomialedistribuzione binomiale descrive una famiglia di variabili casuali, ogni membro della quale è identificato dai valori dei parametri della distribuzione stessa:

nn il numero di prove indipendenti

ππ la probabilità di successo in ciacuna prova La notazione usata per indicare che una variabile casuale X è binomiale è la seguente:

X ~ B(n, π)

(si legge: " X è una variabile casuale binomiale con parametri n e π“).

Il valore attesovalore atteso di una variabile binomiale casuale è la media d’infinite sue realizzazioni. Può essere calcolato con la formula:

E(X) nπ La varianzavarianza (²) di una variabile binomiale casuale quantifica la dispersione d’infinite sue realizzazioni . La formula per la varianza di una variabili binomiale è:

2 nπ(1-π)

Diagramma a barre della distribuzione binomiale di Diagramma a barre della distribuzione binomiale di probabilità con parametri n = 4 e probabilità con parametri n = 4 e = 0,75 = 0,75

Numero di "successi"

Pro

babilità

0.0040.047

0.211

0.422

0.316

0 1 2 3 4

0.0

00

.15

0.3

00

.45

Diagramma della funzione Diagramma della funzione FFXX((xx) = P(X ) = P(X xx),),

X è una variabileX è una variabile binomiale con parametri n = 4 e binomiale con parametri n = 4 e = 0,75. = 0,75.

FFXX((xx)) si chiama funzione di distribuzione di probabilità cumulata.si chiama funzione di distribuzione di probabilità cumulata.

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

Numero di "successi"

Probabilità c

um

ula

ta

Distribuzione di campionamento della Distribuzione di campionamento della media aritmeticamedia aritmetica::

È la distribuzione di frequenza delle medie campionarie, che si otterrebbero da ripetuti campioni indipendenti ciascuno di dimensione n, estratti a caso dalla popolazione .

Stimatore non distortoStimatore non distorto

Produce una stima, il cui valore atteso è uguale al

parametro che si vuole stimare.

Per esempio,x (media campionaria) è uno stimatore

non distorto di (media dell’intera popolazione),

perché il valore atteso della media campionaria è uguale

alla media della popolazione.

Aumentando la dimensione del campione, la

distribuzione di campionamento tende a restringersi

intorno alla media della popolazione. Questo è un aspetto

della legge dei grandi numeri, che afferma che la media

campionaria tende con probabilità 1 al valore atteso della

variabile casuale (media della popolazione), quando la

dimensione campionaria tende ad infinito.

LL’errore standard della media’errore standard della media (ESM o ES o x) è:

rappresenta la deviazione standard della popolazione e n la dimensione campionaria. ESM tende a 0 al crescere di n, perciòx è una stima consistente di .

nESM

La media aritmetica campionaria è una stima

non distorta

consistente

la più efficiente (con la minore varianza, a parità di n)

della media aritmetica della popolazione

Intervallo di confidenzaIntervallo di confidenza::

è un intervallo, all’interno del quale si trova il parametro, che si desidera stimare, con probabilità uguale al livello di confidenza dell’intervallo stesso.

•IV.A.6.c. Statistics

•Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as the use of P values, which fails to convey important information about effect size. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the computer software used.

Problemi respirarori

gruppo di trattamento

Terbinafine placebo

presenti assenti

5

51

0

29

Totale 56 29

Numero di pazienti con problemi respiratori tra i trattati Numero di pazienti con problemi respiratori tra i trattati con Terbinafine o placebocon Terbinafine o placebo

Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with terbinafine,.BMJ 1992; 304:1151-4.

Intervallo di confidenza al 95%95% per la differenza fra le proporzioni di disturbi respiratori fra i pazienti trattati con terbinafine e placebo

-0,012 ; 0,190

Nota bene: la stima puntuale della differnza di proporzioni vale 0,09

(Calcolo eseguito con )R 2.0.1.lnk

I più semplici intervalli di confidenza sono simmetrici I più semplici intervalli di confidenza sono simmetrici intorno alla stima puntuale del parametro da stimareintorno alla stima puntuale del parametro da stimare

Caso particolare:Caso particolare:

Intervallo di confidenza per Intervallo di confidenza per quando quando è è conosciutoconosciuto

P[ x -- 1.96 1.96 ESM < µ < x 1.961.96 ESM]

= 0,95

L’origine dei valori 1,96 diventerà chiara, dopo avere fatto conoscenza con il modello gaussiano

La distribuzione gaussianadistribuzione gaussiana (chiamata anche normale) è una distribuzione di probabilità continua, simmetrica, unimodale e caratterizzata da una forma a campana.

Si indica con X N( ) una qualunque variabile casuale, che segue la distribuzione gaussiana con media e deviazione standard .

Questa particolare gaussiana (denominata standard) ha media = 0 e deviazione standard = 1

Le curve di densità di probabilità hanno le proprietà seguenti: L’L’area totalearea totale sotto la curva di densità è uguale a 1 L’L’area sotto la curva (AUC)area sotto la curva (AUC) tra 2 punti qualunque, x1

ed x2, è la probabilità che la variabile casuale assuma

un valore nell’intervallo tra essi compreso. Da questo si deduce che la probabilità di un intervallo di larghezza 0, coincidente con un singolo valore, è uguale a 0

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Densità gaussiana standard

Area = 0,025

Area = 0,025

-1,96 1,96

Area = 0,95

Origine dei valori 1,96 usati per il calcolo dell’intervallo di confidenza

Quando la deviazione standard della popolazione non è conosciuta una stima dell’errore standard della media (SESM) è:

Dove s rappresenta la deviazione standard campionaria e n la

dimensione campionaria

n

ssSESM x

Un altro caso particolare:Un altro caso particolare:

Intervallo di confidenza per Intervallo di confidenza per quando quando è è sconosciutosconosciuto

si utilizza la deviazione standard campionaria, s, come stima

di e si calcola un intervallo di confidenza al (1 ) 100%

per con:

x tn-1, 1-/2 SESM

dove tn-1, 1-/2 è il quantile, definito dalla frazione (1 – ),

della distribuzione t con n -1 gradi di libertà;

SESM vale: s /n.

-6 -4 -2 0 2 4 6

0.0

0.1

0.2

0.3

Origine del valore tn-1, 1-/2 (in questo esempio n-1= 3 e

-t3, 1- /2= -3.18

Area 0.95 Area

0,025 Area 0,025

t3, 1- /2= 3.18

Alcuni possibili usi degli Alcuni possibili usi degli intervalli di confidenza: intervalli di confidenza: Stima diStima di

Medie e loro differenze

Proporzioni e loro differenze

Indici “non parametrici” (mediane, quantili, ecc.)

Rischi relativi, rischi attribuibili e odds ratio

Tassi di incidenza e tassi standardizzati

Parametri di modelli lineari e regressione logistica

Azzardi e rapporti di azzardi (studi di sopravvivenza)

A : Ipotesi nulle ed alternativeA : Ipotesi nulle ed alternative

Utilizziamo la notazione HH00 per indicare l’ipotesi

nulla ed HH11 (o Ha) per indicare l’ipotesi alternativa.

H0 corrisponde a “nessuna differenza” diversa da

quella che sarebbe ottenuta per puro caso. È l’ipotesi

che il ricercatore spera di poter rifiutare.

H1 è l’ipotesi che il ricercatore spera di poter

dimostrare, solitamente è l’esatto contrario di H0.

La statistica teststatistica test è una quantità che

rispecchia i dati campionari, che, quando H0 è

vera, ha una distribuzione (o densità) di

probabilità completamente nota.

Essa è perciò lo strumento per determinare il

P-value.

P-valueP-value

E’ la probabilità di ottenere dati

campionari altrettanto o meno probabili

di quelli ottenuti, allorché H0 è vera.

P-value può perciò essere considerato una misura delle

prove fornite dai dati contro l’ipotesi nulla, infatti esso

risponde alla domanda seguente:

“Se l’ipotesi nulla fosse vera, quale sarebbe la

probabilità di osservare questo campione od uno

ancora più improbabile?”

Più P-value è piccolo, migliore è l’evidenza contro H0

Livello di significativitàLivello di significatività

Prima di fare il test, stabiliamo il valore massimo

accettabile della probabilità di rifiutare erroneamente H0,

indicato con alfa ().

è solitamente posto uguale a 0,05 o 0,01.

Conclusione della procedura di testConclusione della procedura di test

Per trarre delle conclusioni si calcola, tramite la statistica

test, il P-value.

Se P è inferiore o uguale a α, H0 è rifiutata

Se P è superiore a , H0 non è rifiutata

per mancanza di prove contrarie

Questa procedura assicura che la probabilità di rifiutare erroneamente H0 sia .

Il P-valueP-value può essere interpretato come il

valore minimo di α che si deve scegliere

per potere rifiutare H0, in presenza dei

dati campionari ottenuti.

Ipotesi nullaIpotesi nulla

Condizioni dei Condizioni dei datidati

Test statistico Test statistico consigliatoconsigliato

Uguaglianza della media Uguaglianza della media di una popolazione ad un di una popolazione ad un valore prefissatovalore prefissato

Osservazioni Osservazioni indipendenti indipendenti Variabili Variabili approssimativamente approssimativamente gaussianegaussiane

Test “t” per un solo Test “t” per un solo campionecampione

Uguaglianza delle medie Uguaglianza delle medie di due variabili misurate di due variabili misurate sugli stessi soggetti o sugli stessi soggetti o ciascuna su uno dei due ciascuna su uno dei due elementi di una coppia elementi di una coppia

I soggetti misurati due I soggetti misurati due volte oppure le coppie di volte oppure le coppie di osservazioni sono osservazioni sono indipendenti fra loroindipendenti fra loroDifferenza fra le due variabili Differenza fra le due variabili approssimativamente approssimativamente gaussianagaussiana

Test “t” per dati appaiatiTest “t” per dati appaiati

Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni

Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno la stessa varianzala stessa varianzaVariabili Variabili approssimativamente approssimativamente gaussianegaussiane

Test “t” per campioni Test “t” per campioni indipendentiindipendenti

Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni

Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni Le due popolazioni nonnon hanno la stessa varianzahanno la stessa varianza Variabili approssimativa-Variabili approssimativa-mente gaussianemente gaussiane

Test “t” per campioni Test “t” per campioni indipendenti con correzione indipendenti con correzione dei gradi di libertàdei gradi di libertà (Attenzione: se le popolazioni non (Attenzione: se le popolazioni non hanno la stessa varianza, può non hanno la stessa varianza, può non essere sensato testare se le essere sensato testare se le medie sono uguali)medie sono uguali)

Ipotesi nullaIpotesi nulla

Condizioni dei datiCondizioni dei dati Test statistico Test statistico consigliatoconsigliato

La distribuzione delle differenze fra La distribuzione delle differenze fra le osservazioni rilevate sul le osservazioni rilevate sul medesimo soggetto o su soggetti medesimo soggetto o su soggetti appartenenti alla stessa coppia, è appartenenti alla stessa coppia, è simmetrica.simmetrica.

- - I soggetti misurati due volte, o le I soggetti misurati due volte, o le coppie di osservazioni sono coppie di osservazioni sono indipendenti fra loroindipendenti fra loro- Differenza fra le due variabili - Differenza fra le due variabili molto lontana dalla distribuzione molto lontana dalla distribuzione gaussianagaussiana

Test non parametrico Test non parametrico per dati appaiati per dati appaiati (wilcox.test)(wilcox.test)

Uguaglianza delle Uguaglianza delle distribuzioni di probabilità distribuzioni di probabilità di due popolazionidi due popolazioni

Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno distribuzioni approssimativamente distribuzioni approssimativamente sovrapponibili salvo per la sovrapponibili salvo per la posizione.posizione. Variabili molto lontane dalla Variabili molto lontane dalla distribuzione gaussianadistribuzione gaussiana

Test non parametrico Test non parametrico per campioni per campioni indipendenti. indipendenti. (wilcox.test)(wilcox.test)

Uguaglianza di una Uguaglianza di una proporzione proporzione ad un valore prefissato ad un valore prefissato

Osservazioni Osservazioni indipendentiindipendenti

Test esatto per una Test esatto per una proporzione basato su proporzione basato su modello binomialemodello binomiale(binom.test)(binom.test)

Uguaglianza di due Uguaglianza di due proporzioni rilevate in proporzioni rilevate in campioni provenienti da campioni provenienti da due popolazioni, od due popolazioni, od indipendenza di due indipendenza di due variabili categorichevariabili categoriche

Osservazioni Osservazioni indipendentiindipendenti

Test chi Test chi quadratoquadrato

l’ipotesi nulla e l’ipotesi alternativa possono prendere

una di queste 3 forme:

“una coda a destra”, “una coda a sinistra, e “due code”.

H0: 0 contro H1: >0

H0: 0 contro H1: < 0

H0: = 0 contro H1: 0

Test a una e a due codeTest a una e a due code

Errori di tipo I (rifiuto di una ipotesi nulla vera)Errori di tipo II (non rifiuto di una ipotesi nulla falsa) Le conseguenze dell’esecuzione di un test statistico d’ipotesi possono essere riassunte come segue:

VERITA’ H0 vera H0 falsa

DECISIONE

Non rifiutare H0

Corretta accettazione di H0

Rifiutare H0

Errore di tipo Errore di tipo IIII

Errore di tipo IErrore di tipo I Corretto rifiuto di H0

P (errore di tipo I) =

P (errore di tipo II) =

Pr (evitare un errore di tipo I) = 1-

Pr (evitare un errore di tipo II)= 1- “potenza”

Probabilità di errori di I e II tipoProbabilità di errori di I e II tipo

p1 e p2

60 70 80 90 100 110

7080

9010

011

012

013

0

pressione diastolica (mmHg)

pres

sion

e si

stol

ica

(mm

Hg)

Diagramma di pressione diastolica e sistolica in una popolazione

Pressione diastolica (mmHg)

Pre

ssio

ne s

isto

lica

(mm

Hg)

60 70 80 90 100 110

7080

9010

011

012

013

0


pres

sion

e si

stol

ica

(mm

Hg)

Modello di regressione lineare di pressione sistolica rispetto alla pressione diastolica

60 70 80 90 100 110

7080

9010

011

012

013

0


pres

sion

e si

stol

ica

(mm

Hg)

Stima e bande di confidenza (in blu scuro) della retta di regressione

60 70 80 90 100 110

7080

9010

011

012

013

0


pres

sion

e si

stol

ica

(mm

Hg)

Banda di “tolleranza” stimata del modello di regressione (in fucsia)

Fattore studiato Variabile dipendente

confondente

y = a + bx + e

• Modello di regressione lineare semplice:

• Modello di regressione lineare multipla:

y = a + b1x1+ b2x2 + e

• Il modello permette di studiare l’effetto della variabile x1 sulla y, al netto dell’azione di x2

y – b2x2= a+ b1x1 + e

Se desideriamo aggiungere alla previsione di y

(per esempio la glicemia delle nostre pazienti), una quantità b solo per le obese, ma non per le altre pazienti, possiamo

aggiungere alla formula della previsione un termine bx,

dove x vale 1 quando la formula si applica alle obese,

e vale 0 per le altre pazienti.

Questo equivale ad inserire la variabile x nel data-base e nel modello di previsione

Per rendere una variabile qualitativa in un modello lineare, possiamo usare tante variabili indicatore quante sono le classi della variabile meno una.

Per esempio per codificare il gruppo ematico di classi 0, A, B, AB, possiamo usare tre variabili xA, xB, xAB, che hanno le seguenti caratteristiche:

xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri

xB=1 per i soggetti con gruppo ematico B, e xB= 0 per tutti gli altri

xAB=1 per i soggetti con gruppo ematico AB, e xAB= 0 per tutti gli altri

Le variabili indicatore sono quantitative: forniscono il conteggio (0 od 1) dei rispettivi gruppi ematici in ogni soggetto

Visti i valori delle variabili indicatore, per i soggetti appartenenti ai quattro gruppi ematici, l’equazione si riduce alle seguenti quattro espressioni:

La parte sistematica del modello è data dalla seguente equazione

E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB

E(y | gruppo A) = a + bA

E(y | gruppo B) = a + bB

E(y | gruppo AB) = a + bAB

E(y | gruppo 0) = a

religione

sesso

got

musulmana

cristiana

altro

F

M

Modello di analisi della varianza per la “got” con variabili esplicative religione e sesso

40

65

Scatterplot e retta di regressione e banda di confidenza

Pulsazioni 1

Pul

sazi

oni 2

Rappresentazione grafica di un modello di analisi della covarianza, comprensivo delle bande di confidenza delle rette di regressioneP

ulsa

zion

i (se

cond

a ri

leva

zion

e)

Pulsazioni (prima rilevazione)

Riposo

Corsa

0 1000 2000 3000 4000 5000 6000

0.0

0.2

0.4

0.6

0.8

1.0

dose

fraz

ione

di b

atte

ri uc

cisi

Diagramma della frazione di batteri uccisi in relazione alla dose usata di farmaco, osservata in numerosi esperimenti

Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)] (ascissa del flesso = -1, pendenza nel flesso= 0,5)

0 5 10 15

0.0

0.2

0.4

0.6

0.8

1.0

anni

sopr

avvi

venz

aStima di Kaplan-Meyer della curva di sopravvivenza

L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...

Documents

Transcript of L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...