MtpMolti p-value nella stessa analisi: necessità e metodi di correzione (Livio Finos)

Post on 03-Jul-2015

416 views 0 download

description

Slides settimo intervento giornata 24 Maggio 2013 : "Una Statistica più consapevole per decisioni migliori. Giornata di Metodologia e Statistica per le Scienze Umane." Pomeriggio: La Statistica nelle Ricerche in Psicologia. Università degli studi di Cagliari. Dipartimento di Pedagogia, Psicologia e Filosofia. Università di Cagliari. TITOLO: Molti p-value nella stessa analisi: necessità e metodi di correzione. (L. Finos) Università di Padova ABSTRACT: Durante l'analisi di un dataset è uso comune postulare molteplici ipotesi sperimentali. Per rispondere a tali ipotesi si fa uso di altrettanti test e p-value ad essi associati. Questo è il caso tipico, ad esempio, di due gruppi sperimentali che vengano confrontati su più di scale o il caso di più di due gruppi confrontati a due a due su una medesima scala. In questi casi risulta necessario estendere il concetto di errore di primo tipo al caso multidimensionale. Le definizioni largamente più accettate sono il FamilyWise Error Rate e il False Discovery Rate. Le ultime tre decadi hanno visto il fiorire di un gran numero di metodi per il controllo di questi due errori di primo tipo (in ambito multidimensionale). In questo seminario verranno presentati e discussi in modo critico i metodi sopracitati e presentati i principali metodi per il controllo della molteplicità. Si faranno anche alcuni brevi accenni alle prospettive future.

Transcript of MtpMolti p-value nella stessa analisi: necessità e metodi di correzione (Livio Finos)

Molti p-value nella stessa analisi:

necessita e metodi di correzione

Livio Finos

Una statistica piu consapevole per decisioni migliori

Dipartimento di Pedagogia, Psicologia e Filosofia

Universita degli Studi di Cagliari

24 Maggio 2013

Outline

1 Introduzione

Alcuni Esempi

Alcune considerazioni

2 FamilyWise Error Rate (FWER)

Definizione

Holm (step-wise)

Altri Metodi

3 False Discovery Rate (FDR)

Definizione

Metodi

Santona et al. (2010)

Ad un campione di 221 coppie sono stati somministrati i seguenti

questionari self-report

• Experiences in Close Relationships Scale (ECRR) (Brennan e

Shaver, 1998)

• Dyadic Adjustment Scale (DAS) (Spanier, 1976, 2000)

76 di queste coppie si sono rese disponibili ad effettuare due

interviste semistrutturate:

• Adult Attachment Interview (AAI) (George, Kaplan e Main,

1985)

• Current Relationship Interview (CRI) (Treboux, Crowell,

Waters, 2003)

Experiences in Close Relationships Scale

(ECRR) 1

• Indaga i sentimenti e i comportamenti correlati

all’attaccamento

• 36 item su scala likert 1-5.

• suddivisi in 2 dimensioni:

• ansia: (18 item) Fattore correlato ad intensa preoccupazione

per le relazioni sentimentali, timore di essere abbandonati e

frequenti richieste al partner di maggior coinvolgimento.

• evitamento: (18 item) Fattore collegato a difficolta e disagio

ad avvicinarsi emotivamente e ad affidarsi al partner.

1Brennan e Shaver (1998), Fraley, Waller e Brennan (2000)

Dyadic Adjustment Scale (DAS) 2

• valuta l’adattamento di coppia sulla base della

rappresentazione che ciascun membro ha del proprio

rapporto, 42 item su scala likert 1-6.

• 4 dimensioni:

• consenso diadico: (13 item) grado di accordo dei partner su:

finanze, tempo libero, religione, amicizie, gestione della casa,

gestione del tempo condiviso.

• soddisfazione diadica: (10 item) felicita percepite dai

coniugi nel rapporto. Valutati la frequenza delle liti, il piacere

provato nello stare insieme, l’aver considerato o meno il

divorzio e/o la separazione.

• coesione diadica: (5 item) quantita di tempo che i partner

dedicano ad attivita comuni di piacere, quali interessi sociali,

dialogo, lavoro condiviso su un obiettivo comune.

• espressione affettiva: (4 item) modalita in cui i partner

comunicano i propri sentimenti, l’amore e la sessualita.

2Spanier (1976, 2000)

Adult Attachment Interview (AAI) 4

• Intervista semi-strutturata, valuta lo stato della mente

attuale rispetto alle esperienze di attaccamento.

• scale a 9 punti, articolate in due gruppi 3:

• 5 scale dell’esperienza soggettiva

• 11 scale dello stato della mente

• Sulla base di queste scale, al soggetto assegnata una

categoria: 3 Classificazioni

3Simonelli, Calvo (2005)4George, Kaplan e Main (1985)

Current Relationship Interview (CRI) 6

• Intervista semi-strutturata che consta di 15 domande, valuta

lo stato della mente adulto rispetto alle esperienze

sentimentali.

• 18 scale di valutazione (punteggi 1-9), che sono utilizzateper definire 5:

• il comportamento del partecipante ed i suoi pensieri nei

confronti di argomenti correlati con l’attaccamento,

• il comportamento del partner,

• lo stile narrativo del soggetto.

• Sulla base di queste scale, al soggetto assegnata una

categoria: 3 Classificazioni

5Santona, Zavattini (2007)6Treboux, Crowell, Waters (2003)

La domanda scientifica

La domanda: Donne e Uomini rispondono in modo differente?

Il metodo statistico: Confrontiamo i due generi su tutte le scale

e le classificazioni dello strumento

(test sui ranghi e dei segni, campioni appaiati).

• ipotesi nulla H0: i due generi sono UGUALI rispetto alla

specifica scala/classificazione

• ipotesi alternativa H1: i due generi sono DIVERSI rispetto

alla specifica scala/classificazione

• avremo quindi 2 (scale dell ECRR) + 4 (scale del DAS) + 3

(classificazioni del AAI) + 3 (classificazioni del CRI) =

=12 test complessivi.

Dubbio: necessario controllo della molteplicita?

Ulteriore Esempio: studi fMRI

Una mappa di attivita per ogni

soggetto

Ogni voxel (punto) produce un

p-value

L’output e solitamente una lista

dei voxel piu attivi

(sui migliaia testati)

Dubbio: necessario controllo della molteplicita?

Ulteriore Esempio: studi fMRI

Una mappa di attivita per ogni

soggetto

Ogni voxel (punto) produce un

p-value

L’output e solitamente una lista

dei voxel piu attivi

(sui migliaia testati)

Dubbio: necessario controllo della molteplicita?

Ulteriore Esempio: studi fMRI

Una mappa di attivita per ogni

soggetto

Ogni voxel (punto) produce un

p-value

L’output e solitamente una lista

dei voxel piu attivi

(sui migliaia testati)

Dubbio: necessario controllo della molteplicita?

Altri esempi

Cinematica

un Test per Ogni Parametro

Modelli di Regressione (LM e GLM)

Un t-test per ogni Coefficiente di Regressione

Anova

Tutti i Confronti a Coppie (post-hoc)

Ogni volta in cui l’analisi produce piu di un p-value

Dubbio: necessario controllo della molteplicita?

Outline

1 Introduzione

Alcuni Esempi

Alcune considerazioni

2 FamilyWise Error Rate (FWER)

Definizione

Holm (step-wise)

Altri Metodi

3 False Discovery Rate (FDR)

Definizione

Metodi

Verifica di Ipotesi, Un solo test

Due Ipotesi a confronto

• H0: due gruppi sono Uguali, nessuna relazione tra X e Y ,

nulla da pubblicare :(

• H1: due gruppi sono Diversi, c’e relazione tra X e Y ,

pubblicabile :)

Ogni test produce un p-value p,

se p ≤ .05 (α = .05) rifiuto H0 (e propendo per H1)

Errori

• Tipo I (falso positivo): Rifiuto H0 quando e Vera

P(Errore Tipo I ) = P(p ≤ .05|H0) = .05

• Tipo II (falso negativo): Non Rifiuto H0 quando e Falsa

P(Errore Tipo II ) = P(p > .05|H1)Potenza:

P(p ≤ .05|H1) = 1− P(p > .05|H1)= 1− P(Errore tipo II )

Importanza asimmetrica degli errori

Controlliamo la P(Errore tipo I ) (es ≤ .05)

e cerchiamo il test con massima Potenza (minimo Errore tipo II )

Errori di Tipo I:

P(p ≤ .05|H0 = 2 gruppi Uguali) =?

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xxx

t= −0.886 , p= 0.426

Errori di Tipo I:

P(p ≤ .05|H0 = 2 gruppi Uguali) =?

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xxx

t= −0.886 , p= 0.426

x xxx xx

t= 1.301 , p= 0.263

Errori di Tipo I:

P(p ≤ .05|H0 = 2 gruppi Uguali) =?

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xxx

t= −0.886 , p= 0.426

x xxx xx

t= 1.301 , p= 0.263

xx xxx x

t= 0.565 , p= 0.602

xx xxxx

t= 0.867 , p= 0.435

xxxx x x

t= 0.558 , p= 0.607

xx xxx x

t= 0.388 , p= 0.718

x x xxxx

t= 0.054 , p= 0.959

xxxx x x

t= −0.131 , p= 0.902

x xxx xx

t= 0.794 , p= 0.471

x xxx xx

t= 0.268 , p= 0.802

xx xxx x

t= 0.794 , p= 0.472

x xx xxx

t= −1.219 , p= 0.29

xxx xx x

t= −0.227 , p= 0.832

xxx x xx

t= 1.495 , p= 0.209

xx xx xx

t= 2.008 , p= 0.115

x xxx xx

t= −0.128 , p= 0.904

x xx xx x

t= −2.484 , p= 0.068

Errori di Tipo I:

P(p ≤ .05|H0 = 2 gruppi Uguali) =?

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xxx

t= −0.886 , p= 0.426

x xxx xx

t= 1.301 , p= 0.263

xx xxx x

t= 0.565 , p= 0.602

xx xxxx

t= 0.867 , p= 0.435

xxxx x x

t= 0.558 , p= 0.607

xx xxx x

t= 0.388 , p= 0.718

x x xxxx

t= 0.054 , p= 0.959

xxxx x x

t= −0.131 , p= 0.902

x xxx xx

t= 0.794 , p= 0.471

x xxx xx

t= 0.268 , p= 0.802

xx xxx x

t= 0.794 , p= 0.472

x xx xxx

t= −1.219 , p= 0.29

xxx xx x

t= −0.227 , p= 0.832

xxx x xx

t= 1.495 , p= 0.209

xx xx xx

t= 2.008 , p= 0.115

x xxx xx

t= −0.128 , p= 0.904

x xx xx x

t= −2.484 , p= 0.068

x xx xxx

t= −1.789 , p= 0.148

x xxx xx

t= 0.213 , p= 0.842

xxxx xx

t= 1.037 , p= 0.358

x xxxx x

t= −1.963 , p= 0.121

xxx x xx

t= 0.306 , p= 0.775

xx xx xx

t= 3.304 , p= 0.03

x xx xx x

t= −2.602 , p= 0.06

Errori di Tipo I:

P(p ≤ .05|H0 = 2 gruppi Uguali) = 0.05

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xxx

t= −0.886 , p= 0.426

x xxx xx

t= 1.301 , p= 0.263

xx xxx x

t= 0.565 , p= 0.602

xx xxxx

t= 0.867 , p= 0.435

xxxx x x

t= 0.558 , p= 0.607

xx xxx x

t= 0.388 , p= 0.718

x x xxxx

t= 0.054 , p= 0.959

xxxx x x

t= −0.131 , p= 0.902

x xxx xx

t= 0.794 , p= 0.471

x xxx xx

t= 0.268 , p= 0.802

xx xxx x

t= 0.794 , p= 0.472

x xx xxx

t= −1.219 , p= 0.29

xxx xx x

t= −0.227 , p= 0.832

xxx x xx

t= 1.495 , p= 0.209

xx xx xx

t= 2.008 , p= 0.115

x xxx xx

t= −0.128 , p= 0.904

x xx xx x

t= −2.484 , p= 0.068

x xx xxx

t= −1.789 , p= 0.148

x xxx xx

t= 0.213 , p= 0.842

xxxx xx

t= 1.037 , p= 0.358

x xxxx x

t= −1.963 , p= 0.121

xxx x xx

t= 0.306 , p= 0.775

xx xx xx

t= 3.304 , p= 0.03

x xx xx x

t= −2.602 , p= 0.06

x x xxxx

t= 0.573 , p= 0.597

xxxxx x

t= 0.341 , p= 0.75

xxx xxx

t= −0.306 , p= 0.775

xxx xxx

t= −0.42 , p= 0.696

x x xx xx

t= 1.07 , p= 0.345

x x x xxx

t= −0.794 , p= 0.472

x xxx xx

t= 0.057 , p= 0.957

xx xx x x

t= 0.985 , p= 0.38

x xxx xx

t= 0.239 , p= 0.823

xx x xxx

t= 0.607 , p= 0.577

x xxxx x

t= −1.558 , p= 0.194

x xxx x x

t= −0.052 , p= 0.961

xx xxx x

t= −0.043 , p= 0.968

x xx xxx

t= −0.643 , p= 0.555

xxxx x x

t= 0.18 , p= 0.866

xx xx xx

t= 1.905 , p= 0.13

x xxx xx

t= 1.417 , p= 0.229

x xx xx x

t= −1.393 , p= 0.236

xx x xx x

t= −1.066 , p= 0.347

xx xxx x

t= 0.602 , p= 0.579

xxxx xx

t= 1.132 , p= 0.321

x xx xx x

t= −2.357 , p= 0.078

x xx xxx

t= −1.673 , p= 0.17

xxxx x x

t= 0.313 , p= 0.77

x xx xxx

t= 0.144 , p= 0.893

xx xxxx

t= 0.883 , p= 0.427

xx xx xx

t= 1.78 , p= 0.15

x xx x xx

t= −0.483 , p= 0.654

xx x xx x

t= −0.797 , p= 0.47

x x xxxx

t= 0.184 , p= 0.863

xxx xx x

t= −1.624 , p= 0.18

xx x xx x

t= −0.582 , p= 0.592

xxxx xx

t= 1.92 , p= 0.127

xxx x xx

t= 0.251 , p= 0.814

x xxxxx

t= 0.139 , p= 0.896

xxx xx x

t= −0.536 , p= 0.62

x xx x x x

t= −1.815 , p= 0.144

xxxx x x

t= 0.109 , p= 0.918

x xx xxx

t= −1.402 , p= 0.234

x xx xx x

t= −1.666 , p= 0.171

xxx xx x

t= −0.706 , p= 0.519

xx xxxx

t= 1.189 , p= 0.3

xxx x x x

t= −0.323 , p= 0.763

x xxxxx

t= −1.387 , p= 0.238

xx x x xx

t= 1.368 , p= 0.243

x x xxx x

t= −1.059 , p= 0.349

xx xx x x

t= 0.858 , p= 0.439

x xxxx x

t= −1.914 , p= 0.128

x x xx xx

t= 0.088 , p= 0.934

x xx xx x

t= −3.713 , p= 0.021

xx x x xx

t= 1.724 , p= 0.16

xxxxx x

t= 0.334 , p= 0.755

xx x xx x

t= −0.392 , p= 0.715

xxx xx x

t= −0.55 , p= 0.612

xxxx x x

t= 0.205 , p= 0.848

xx xx xx

t= 2.356 , p= 0.078

xx xx xx

t= 0.125 , p= 0.906

xxx xx x

t= −1.519 , p= 0.203

x x xx xx

t= 1.213 , p= 0.292

xx xxx x

t= 0.248 , p= 0.816

x xx x xx

t= 0.16 , p= 0.881

x xx xx x

t= −1.477 , p= 0.214

x xx xx x

t= −3.643 , p= 0.022

x xxx x x

t= −0.295 , p= 0.783

xxx xxx

t= −0.592 , p= 0.586

xx x xxx

t= 1.052 , p= 0.352

x xxx xx

t= 0.711 , p= 0.516

x xx xxx

t= −1.272 , p= 0.272

x x xxx x

t= −0.423 , p= 0.694

xxx x xx

t= 0.06 , p= 0.955

x xxxx x

t= −2.702 , p= 0.054

x xxx xx

t= −0.309 , p= 0.773

x xx xx x

t= −1.051 , p= 0.352

xxx xx x

t= −0.592 , p= 0.585

xx xx xx

t= 2.035 , p= 0.112

x xx x xx

t= −0.537 , p= 0.62

x xxxxx

t= −0.351 , p= 0.743

x x xxxx

t= 0.11 , p= 0.918

xx xxxx

t= 1.722 , p= 0.16

xxxx xx

t= 0.42 , p= 0.696

xx xxx x

t= 0.446 , p= 0.679

x xx xx x

t= −2.388 , p= 0.075

xxx xx x

t= −1.18 , p= 0.303

xx xx xx

t= 4.126 , p= 0.015

xx xx xx

t= 1.824 , p= 0.142

xx x xx x

t= 0.239 , p= 0.823

x xxxx x

t= −0.785 , p= 0.476

x xx xx x

t= −3.455 , p= 0.026

xx xx x x

t= 1.628 , p= 0.179

xx xx xx

t= 2.338 , p= 0.08

x xx x xx

t= 0.114 , p= 0.915

Potenza:

P(p ≤ .05|H1 = 2 gruppi Diversi)

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xx x

t= −3.426 , p= 0.027

Potenza:

P(p ≤ .05|H1 = 2 gruppi Diversi)

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xx x

t= −3.426 , p= 0.027

x xx xx x

t= −3.154 , p= 0.034

Potenza:

P(p ≤ .05|H1 = 2 gruppi Diversi)

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xx x

t= −3.426 , p= 0.027

x xx xx x

t= −3.154 , p= 0.034

x x x xx x

t= −1.315 , p= 0.259

Potenza:

P(p ≤ .05|H1 = 2 gruppi Diversi)

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xx x

t= −3.426 , p= 0.027

x xx xx x

t= −3.154 , p= 0.034

x x x xx x

t= −1.315 , p= 0.259

x xx xxx

t= −1.276 , p= 0.271

x xx xx x

t= −2.499 , p= 0.067

x xx xx x

t= −2.085 , p= 0.105

x xx xx x

t= −3.521 , p= 0.024

x xx xx x

t= −3.347 , p= 0.029

x xx xx x

t= −2.411 , p= 0.073

x xx xx x

t= −1.662 , p= 0.172

xxx xx x

t= −1.4 , p= 0.234

Potenza:

P(p ≤ .05|H1 = 2 gruppi Diversi)

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xx x

t= −3.426 , p= 0.027

x xx xx x

t= −3.154 , p= 0.034

x x x xx x

t= −1.315 , p= 0.259

x xx xxx

t= −1.276 , p= 0.271

x xx xx x

t= −2.499 , p= 0.067

x xx xx x

t= −2.085 , p= 0.105

x xx xx x

t= −3.521 , p= 0.024

x xx xx x

t= −3.347 , p= 0.029

x xx xx x

t= −2.411 , p= 0.073

x xx xx x

t= −1.662 , p= 0.172

xxx xx x

t= −1.4 , p= 0.234

x xx xx x

t= −3.001 , p= 0.04

x xx xx x

t= −3.284 , p= 0.03

x xx xxx

t= −1.565 , p= 0.193

x xx xx x

t= −4.95 , p= 0.008

x xx xx x

t= −3.071 , p= 0.037

x xx xx x

t= −9.524 , p= 0.001

x xx xx x

t= −4.702 , p= 0.009

x xx xxx

t= −1.877 , p= 0.134

x xx xx x

t= −6.59 , p= 0.003

x xx xx x

t= −6.331 , p= 0.003

Potenza:

P(p ≤ .05|H1 = 2 gruppi Diversi)ad es: Potenza : P(p ≤ 0.05|H1) = 0.75

p−values

0.0 0.2 0.4 0.6 0.8 1.0

x xx xx x

t= −3.426 , p= 0.027

x xx xx x

t= −3.154 , p= 0.034

x x x xx x

t= −1.315 , p= 0.259

x xx xxx

t= −1.276 , p= 0.271

x xx xx x

t= −2.499 , p= 0.067

x xx xx x

t= −2.085 , p= 0.105

x xx xx x

t= −3.521 , p= 0.024

x xx xx x

t= −3.347 , p= 0.029

x xx xx x

t= −2.411 , p= 0.073

x xx xx x

t= −1.662 , p= 0.172

xxx xx x

t= −1.4 , p= 0.234

x xx xx x

t= −3.001 , p= 0.04

x xx xx x

t= −3.284 , p= 0.03

x xx xxx

t= −1.565 , p= 0.193

x xx xx x

t= −4.95 , p= 0.008

x xx xx x

t= −3.071 , p= 0.037

x xx xx x

t= −9.524 , p= 0.001

x xx xx x

t= −4.702 , p= 0.009

x xx xxx

t= −1.877 , p= 0.134

x xx xx x

t= −6.59 , p= 0.003

x xx xx x

t= −6.331 , p= 0.003

x xx xx x

t= −6.88 , p= 0.002

xxxxx x

t= −1.508 , p= 0.206

x xx xx x

t= −5.796 , p= 0.004

x x xxx x

t= −1.097 , p= 0.334

x xx xx x

t= −2.721 , p= 0.053

x xx xx x

t= −2.199 , p= 0.093

x xx xx x

t= −2.119 , p= 0.101

x xxxx x

t= −1.623 , p= 0.18

x xx xx x

t= −3.488 , p= 0.025

x xx xx x

t= −2.188 , p= 0.094

xxx xx x

t= −1.767 , p= 0.152

x xx x xx

t= −1.713 , p= 0.162

x xx xxx

t= −1.937 , p= 0.125

x xx xx x

t= −3.362 , p= 0.028

x xx x x x

t= −2.168 , p= 0.096

x xx xx x

t= −2.533 , p= 0.064

x xx xx x

t= −2.597 , p= 0.06

x xxx x x

t= −1.544 , p= 0.197

x xx x x x

t= −2.053 , p= 0.109

x xx xxx

t= −0.742 , p= 0.499

x xx xx x

t= −6.18 , p= 0.003

x xx xx x

t= −3.035 , p= 0.039

x xx xx x

t= −3.018 , p= 0.039

x xx xx x

t= −1.272 , p= 0.272

x xx xx x

t= −5.114 , p= 0.007

x xx xx x

t= −3.923 , p= 0.017

xxx xx x

t= −1.94 , p= 0.124

x xx xx x

t= −2.453 , p= 0.07

x xx xx x

t= −2.216 , p= 0.091

xx xxx x

t= −0.627 , p= 0.565

x xx xx x

t= −3.747 , p= 0.02

x xx xx x

t= −4.571 , p= 0.01

x xx xxx

t= −1.381 , p= 0.239

x xx xx x

t= −6.397 , p= 0.003

x xx xx x

t= −2.826 , p= 0.048

x xx xxx

t= −2.022 , p= 0.113

x xx x x x

t= −1.664 , p= 0.171

x xx xx x

t= −2.793 , p= 0.049

x xx xx x

t= −2.364 , p= 0.077

x xx xx x

t= −4.04 , p= 0.016

x xx xx x

t= −2.682 , p= 0.055

x xx xx x

t= −6.533 , p= 0.003

x xx xx x

t= −4.637 , p= 0.01

x xx xx x

t= −2.505 , p= 0.066

x xx xx x

t= −1.902 , p= 0.13

x xx xx x

t= −2.594 , p= 0.06

x xx xx x

t= −27.1 , p= 0

xxx xxx

t= −1.372 , p= 0.242

x xx xx x

t= −3.249 , p= 0.031

xxx x x x

t= −0.982 , p= 0.382

x xx xx x

t= −5.34 , p= 0.006

x xx xx x

t= −2.526 , p= 0.065

x xx xx x

t= −8.81 , p= 0.001

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

p−values test 1

p−va

lues

test

2

0.0 0.3 0.6 0.9

0.0

0.3

0.6

0.9

Errori di Tipo I, Due TestPropabilita di ALMENO un (falso) rifiuto?

= .10 + .10− (.10 ∗ .10) = 1− (1− .10)2 = .19 = 1− (1− α)2

densità congiunta

p−values test 1

p−va

lues

test

2

0.2

0.6

11.

4

Probabilita di falsi rifiuti

m p-value indipendenti

Se rifiuto l’ipotesi quando p ≤ α

Probabilita ALMENO un falso rifiuto

P = 1− (1− α)m

Nel nostro caso (se i p-value fossero indipendenti!)

P = 1− (1− α)12 = 0.4596

Errori di Tipo I per numero di test

0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

1.0

number of hypothesis tests at level 0.05

prob

abili

ty o

f a fa

lse

reje

ctio

n

P-values Dipendenti

Quasi sempre nei dati reali

densità congiunta

p−values test 1

p−va

lues

test

2

0.2

0.6

11.

4

P-values DipendentiQuasi sempre nei dati reali

P(Almeno un Falso Rifiuto)> (!)1− (1− α)2

densità congiunta

p−values test 1

p−va

lues

test

2

0.2

0.6

11.

4

Type I errors

Come definire l’errore di tipo I quando ci sono molte ipotesi?

Quali procedure controllano questo errore?

Outline

1 Introduzione

Alcuni Esempi

Alcune considerazioni

2 FamilyWise Error Rate (FWER)

Definizione

Holm (step-wise)

Altri Metodi

3 False Discovery Rate (FDR)

Definizione

Metodi

FamilyWise Error Rate (FWER)

Probabilita di fare ALMENO un falso rifiuto

Diseguaglianza di Bonferroni

Riduce α

Rifiuta Hi se pi ≤ α/m (m = numero di ipotesi)

Controllo del FWER

FWER = P(

pi ≤ α/m per almeno una ipotesi i nulla vera)

≤∑

i∈{ipotesi nulle vere}

P(pi ≤ α/m)

≤ #{ipotesi nulle vere}α

m≤ α

Procedura di Bonferroni

Adjusted p-value = p-value· · · (# ipotesi nulle vere)

Rifiuta se adjusted p-value ≤ α

Vantaggi

• Molto facile

• Controlla il FWER sotto ogni dipendenza

Svantaggi

Conservativo (Adj. p-value molto alti, pochi rifiuti)

Outline

1 Introduzione

Alcuni Esempi

Alcune considerazioni

2 FamilyWise Error Rate (FWER)

Definizione

Holm (step-wise)

Altri Metodi

3 False Discovery Rate (FDR)

Definizione

Metodi

Holm’s procedure7

1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)

3 Stop appena non rifiuti nulla

Bonferroni

H \R :

R :

Adj. p-value: ≤?αpA5 pB 5 pC 5 pD5 pE 5

A B C D E

7Holm S. (1979) A simple sequentially rejective multiple test procedure.

Scandinavian Journal of Statistics; 6(2):65–70.

Holm’s procedure7

1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)

3 Stop appena non rifiuti nulla

Supponiamo pA e pC significativi

H \R :

R :

Adj. p-value: ≤?αpA5 pB 5 pC 5 pD5 pE 5

A B C D E

7Holm S. (1979) A simple sequentially rejective multiple test procedure.

Scandinavian Journal of Statistics; 6(2):65–70.

Holm’s procedure7

1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)

3 Stop appena non rifiuti nulla

Adjusted p-value: p · 3

H \R :

R :

Adj. p-value: ≤?α- pB 3 - pD3 pE 3

A

B

C

D E

7Holm S. (1979) A simple sequentially rejective multiple test procedure.

Scandinavian Journal of Statistics; 6(2):65–70.

Holm’s procedure7

1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)

3 Stop appena non rifiuti nulla

Supponamo pD significativo

H \R :

R :

Adj. p-value: ≤?α- pB 3 - pD3 pE 3

A

B

C

D E

7Holm S. (1979) A simple sequentially rejective multiple test procedure.

Scandinavian Journal of Statistics; 6(2):65–70.

Holm’s procedure7

1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)

3 Stop appena non rifiuti nulla

Adjusted p-value: p · 2

H \R :

R :

Adj. p-value: ≤?α- pB 2 - - pE 2

A

B

C D

E

7Holm S. (1979) A simple sequentially rejective multiple test procedure.

Scandinavian Journal of Statistics; 6(2):65–70.

Holm’s procedure7

1 Primo passo: adjusted p-value: p ·m; rifiuta se ≤ α2 Dopo r rifiuti, adjusted p-value: p · (m − r)

3 Stop appena non rifiuti nulla

Nessun rifuto. Stop

H \R :

R :

Adj. p-value: ≤?α- pB 2 - - pE 2

A

B

C D

E

7Holm S. (1979) A simple sequentially rejective multiple test procedure.

Scandinavian Journal of Statistics; 6(2):65–70.

Risultati Holm

p-value Adjusted p-value

ECRR: Ansia .217 1.000

ECRR: Evitamento .0015 .0165 *

DAS: Consenso .0072 .0648

DAS: Soddisfazione .0001 .0012 *

DAS: Coesione .0415 .2905

DAS: Espr.Affetti .0025 .0250 *

AAI: Sicuro .3545 1.000

AAI: Distanziante .0189 .1512

AAI: Preoccupato .1264 .7584

CRI: Sicuro .5856 1.000

CRI: Distanziante .5536 1.000

CRI: Preoccupato 1.000 1.000

Outline

1 Introduzione

Alcuni Esempi

Alcune considerazioni

2 FamilyWise Error Rate (FWER)

Definizione

Holm (step-wise)

Altri Metodi

3 False Discovery Rate (FDR)

Definizione

Metodi

Closed Testing

Insieme Chiusura delle ipotesi (tutte le possibili intersezioni)

Ipotesi iniziali

A

A B C

Closed Testing

Test nodo superiore (es MANOVA)

Insieme chiusura

ABC

AB AC BC

A B C

Closed Testing

Test il nodo principale a livello α

αABC

AB AC BC

A B C

Closed Testing

Supponiamo sia significativo

-ABC

AB AC BC

A B C

Closed Testing

Avanti

-

αα α

ABC

AB AC BC

A B C

Closed Testing

Verifica i successivi a livello α

-

α- -

ABC

AB AC BC

A B C

Closed Testing

Avanti

-

α- -

α

ABC

AB AC BC

A B C

Closed Testing

Identifica i significativi

-

α- -

-

ABC

AB AC BC

A B C

Closed Testing

Svantaggio: ipotesi testate diventano sono spesso troppe:

= 2#ipotesi − 1

Identifica i significativi

-

α- -

-

ABC

AB AC BC

A B C

Inheritance Procedure per ipotesi

strutturate (Goeman & Finos, 2012)

ECRR

[.0011]

AN

SIA

[1.0

00

]E

VIT

AM

EN

TO

[.0

18

0]

DAS

[.0003]

CO

NS

EN

SO

[.0

43

2]

SO

DD

ISF

AZ

ION

E[.

00

09

]C

OE

SIO

NE

[.1

24

5]

ES

PR

.A

FF

ET

TO

[.0

22

5]

AAI

[.0696]

Sic

uro

[1.0

00

]D

ista

nzi

an

te[.

07

56

]P

reo

ccu

pa

to[.

50

56

]

CRI

[1.000]

Sic

uro

[1.0

00

]D

ista

nzi

an

te[1

.00

0]

Pre

occ

up

ato

[1.0

00

]

global

[.0001]

Permutazioni

Westfall & Young min-P: simile a Holm, ma via permutazione

Vantaggi dei test di permutazione

• Meno assunzioni sulla distribuzione dei dati

• Gestisce le dipendenze tra test (e quindi p-values)

Svantaggi

Meno flessibile (applicabile) dei metodi di Massima

Verosimiglianza.

Gestire le dipendenze:

adjusted p-value piu bassi (piu rifiuti)

Quando?

correlazione Negativa: generalmente nessun guadagno

p-value Indipendenti: guadagno minimo o nullo

correlazione Positiva: guadagno usualmente alto

Come?

in R: library(flip); flip(); flip.adjust()

Dati Reali

Neuroscienza e psicometria solitamente producono correlazioni

positive tra p-value (significativo in un voxel/parametro/scala

implica significativo in un altro)

quindi . . .

Permutare (spesso) Conviene

Gestire le dipendenze:

adjusted p-value piu bassi (piu rifiuti)

Quando?

correlazione Negativa: generalmente nessun guadagno

p-value Indipendenti: guadagno minimo o nullo

correlazione Positiva: guadagno usualmente alto

Come?

in R: library(flip); flip(); flip.adjust()

Dati Reali

Neuroscienza e psicometria solitamente producono correlazioni

positive tra p-value (significativo in un voxel/parametro/scala

implica significativo in un altro)

quindi . . . Permutare (spesso) Conviene

Summary

FamilyWise Error

• Generalizza gli errori di Tipo I al caso di ipotesi multiple

• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti

• corregge i p-value (adjusted p-value sempre uguale o

peggiore dei p-value non aggiustati)

Software R

• Bonferroni e Holm library(stats); p.adjust()

• Closed Testing library(cherry); closed()

• Ipotesi Strutturate library(globaltest); inheritance()

• Permutazioni - Westfall & Young

library(flip); flip.adjust()

Summary

FamilyWise Error

• Generalizza gli errori di Tipo I al caso di ipotesi multiple

• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti

• corregge i p-value (adjusted p-value sempre uguale o

peggiore dei p-value non aggiustati)

Software R

• Bonferroni e Holm library(stats); p.adjust()

• Closed Testing library(cherry); closed()

• Ipotesi Strutturate library(globaltest); inheritance()

• Permutazioni - Westfall & Young

library(flip); flip.adjust()

Summary

FamilyWise Error

• Generalizza gli errori di Tipo I al caso di ipotesi multiple

• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti

• corregge i p-value (adjusted p-value sempre uguale o

peggiore dei p-value non aggiustati)

Software R

• Bonferroni e Holm library(stats); p.adjust()

• Closed Testing library(cherry); closed()

• Ipotesi Strutturate library(globaltest); inheritance()

• Permutazioni - Westfall & Young

library(flip); flip.adjust()

Summary

FamilyWise Error

• Generalizza gli errori di Tipo I al caso di ipotesi multiple

• Controlla la probabilita di ALMENO un falso tra tutti i rifiuti

• corregge i p-value (adjusted p-value sempre uguale o

peggiore dei p-value non aggiustati)

Software R

• Bonferroni e Holm library(stats); p.adjust()

• Closed Testing library(cherry); closed()

• Ipotesi Strutturate library(globaltest); inheritance()

• Permutazioni - Westfall & Young

library(flip); flip.adjust()

Outline

1 Introduzione

Alcuni Esempi

Alcune considerazioni

2 FamilyWise Error Rate (FWER)

Definizione

Holm (step-wise)

Altri Metodi

3 False Discovery Rate (FDR)

Definizione

Metodi

False Discovery Rate 8

# Non Rifiutate # Rifiutate Totale

# H0 A0 R0 m0# H1 A1 R1 m1

A R m

Controllare il False Discovery Rate (FDR)

significa definire una procedura:

Media(#Falsi Rifiuti

#Rifiuti) = Media(

R0R

) ≤ q

solitamente q = .05 (analogo α)

8Benjamini and Hochberg (1995). Journal of the Royal Statistical Society,

Series B (Methodological) 57 (1): 289–300.

Outline

1 Introduzione

Alcuni Esempi

Alcune considerazioni

2 FamilyWise Error Rate (FWER)

Definizione

Holm (step-wise)

Altri Metodi

3 False Discovery Rate (FDR)

Definizione

Metodi

Benjamini and Hochberg (BH)

p(10) m

10 = 0.753 1010 = 0.753

?≤ q = .10 : No

p(10)=.753p(10)=.753

p(9) =.731p(9) =.731

p(8) =.503p(8) =.503

p(7) =.314p(7) =.314

p(6) =.153p(6) =.153

p(5) =.075p(5) =.075

p(4) =.050p(4) =.050

p(3) =.038p(3) =.038

p(2) =.016

p(1) =.005

Benjamini and Hochberg (BH)

p(9) m

9 = 0.731 109 = 0.812

?≤ q = .10 : No

p(10)=.753p(10)=.753

p(9) =.731p(9) =.731

p(8) =.503p(8) =.503

p(7) =.314p(7) =.314

p(6) =.153p(6) =.153

p(5) =.075p(5) =.075

p(4) =.050p(4) =.050

p(3) =.038p(3) =.038

p(2) =.016

p(1) =.005

Benjamini and Hochberg (BH)

p(8) m

8 = 0.503 108 = 0.629

?≤ q = .10 : No

p(10)=.753p(10)=.753

p(9) =.731p(9) =.731

p(8) =.503p(8) =.503

p(7) =.314p(7) =.314

p(6) =.153p(6) =.153

p(5) =.075p(5) =.075

p(4) =.050p(4) =.050

p(3) =.038p(3) =.038

p(2) =.016

p(1) =.005

Benjamini and Hochberg (BH)

p(7) m

7 = 0.314 107 = 0.449

?≤ q = .10 : No

p(10)=.753p(10)=.753

p(9) =.731p(9) =.731

p(8) =.503p(8) =.503

p(7) =.314p(7) =.314

p(6) =.153p(6) =.153

p(5) =.075p(5) =.075

p(4) =.050p(4) =.050

p(3) =.038p(3) =.038

p(2) =.016

p(1) =.005

Benjamini and Hochberg (BH)

p(6) m

6 = 0.153 106 = 0.255

?≤ q = .10 : No

p(10)=.753p(10)=.753

p(9) =.731p(9) =.731

p(8) =.503p(8) =.503

p(7) =.314p(7) =.314

p(6) =.153p(6) =.153

p(5) =.075p(5) =.075

p(4) =.050p(4) =.050

p(3) =.038p(3) =.038

p(2) =.016

p(1) =.005

Benjamini and Hochberg (BH)

ecc.

p(10)=.753p(10)=.753

p(9) =.731p(9) =.731

p(8) =.503p(8) =.503

p(7) =.314p(7) =.314

p(6) =.153p(6) =.153

p(5) =.075p(5) =.075

p(4) =.050p(4) =.050

p(3) =.038p(3) =.038

p(2) =.016

p(1) =.005

Benjamini and Hochberg (BH)

p(1) m

2 = 0.016 102 = 0.080

?≤ q = .10 : sı, STOP

p(10)=.753p(10)=.753

p(9) =.731p(9) =.731

p(8) =.503p(8) =.503

p(7) =.314p(7) =.314

p(6) =.153p(6) =.153

p(5) =.075p(5) =.075

p(4) =.050p(4) =.050

p(3) =.038p(3) =.038

p(2) =.016

p(1) =.005

Altro

Dipendenza

BH e valido sotto assunzione di indipendenza tra i p-value e

Positive Dependence through Stochastic ordering

(es normali con correlazione positiva)

Usualmente valido nei dati reali

Dipendenza qualsiasi: BY 9

Come BH map(i) m

i L =?≤ q = .10

con L =∑i

j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )

Sotware

BH e BY: library(stats); p.adjust()

9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in

multiple testing under dependency. Annals of statistics 29(4):1165–1188

Altro

Dipendenza

BH e valido sotto assunzione di indipendenza tra i p-value e

Positive Dependence through Stochastic ordering

(es normali con correlazione positiva)

Usualmente valido nei dati reali

Dipendenza qualsiasi: BY 9

Come BH map(i) m

i L =?≤ q = .10

con L =∑i

j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )

Sotware

BH e BY: library(stats); p.adjust()

9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in

multiple testing under dependency. Annals of statistics 29(4):1165–1188

Altro

Dipendenza

BH e valido sotto assunzione di indipendenza tra i p-value e

Positive Dependence through Stochastic ordering

(es normali con correlazione positiva)

Usualmente valido nei dati reali

Dipendenza qualsiasi: BY 9

Come BH map(i) m

i L =?≤ q = .10

con L =∑i

j=1 1/j (es i = 3: L = 1/1 + 1/2 + 1/3 )

Sotware

BH e BY: library(stats); p.adjust()

9Benjamini Y, Yekutieli D. (2001) The control of the false discovery rate in

multiple testing under dependency. Annals of statistics 29(4):1165–1188

Risultati (BH & BY)

p-value BH BY

ECRR: Ansia .2165 .325 1.000

ECRR: Evitamento .0015 .009 * .028 *

DAS: Consenso .0072 .022 * .067

DAS: Soddisfazione .0001 .001 * .004 *

DAS: Coesione .0415 .083 .258

DAS: Espr.Affetti .0025 .010 .031

AAI: Sicuro .3545 .473 1.000

AAI: Distanziante .0189 .045 * .141

AAI: Preoccupato .1264 .217 .673

CRI: Sicuro .5856 .639 1.000

CRI: Distanziante .5536 .639 1.000

CRI: Preoccupato 1.000 1.000 1.000

FWER or FDR?

Assunzioni implicite FDR

Le ipotesi sono scambiabili:

Falsi Rifiuti possono essere compensati da Veri Rifiuti

Problemi

• Cheating

• Subsets

FWER or FDR?

Assunzioni implicite FDR

Le ipotesi sono scambiabili:

Falsi Rifiuti possono essere compensati da Veri Rifiuti

Problemi

• Cheating

• Subsets

FWER or FDR?

Assunzioni implicite FDR

Le ipotesi sono scambiabili:

Falsi Rifiuti possono essere compensati da Veri Rifiuti

Problemi

• Cheating

• Subsets

Cheating

Posso aggiungere ipotesi non interessanti ma con p-value

significativi per permettermi piu falsi rifiuti.

Subsets

Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi

es: Correggo tutti i test, ma discuto solo quelli che so spiegare

meglio o piu interessanti.

Finner and Roters10

• FDR control on all subsets = FWER control

• FWER control on all subsets = FWER control

10Finner H, Roters M. (2001) On the false discovery rate and expected type

I errors. Biometrical Journal; 43(8):985–1005

Cheating

Posso aggiungere ipotesi non interessanti ma con p-value

significativi per permettermi piu falsi rifiuti.

Subsets

Controllo FDR NON implica controllo FDR in tutti i sottoinsiemi

es: Correggo tutti i test, ma discuto solo quelli che so spiegare

meglio o piu interessanti.

Finner and Roters10

• FDR control on all subsets = FWER control

• FWER control on all subsets = FWER control

10Finner H, Roters M. (2001) On the false discovery rate and expected type

I errors. Biometrical Journal; 43(8):985–1005

Sottoinsiemi di Rifiuti

Tutte le Ipotesi

Rifiuti

Falsi Rifiuti

# Falsi Rifiuti# Rifiuti circa 0.10

ma nel sottoinsieme??

Sottoinsieme

Sottoinsiemi di Rifiuti

Tutte le Ipotesi

Rifiuti

Falsi Rifiuti

# Falsi Rifiuti# Rifiuti circa 0.10

ma nel sottoinsieme??

Sottoinsieme

Sottoinsiemi di Rifiuti

Tutte le Ipotesi

Rifiuti

Falsi Rifiuti

# Falsi Rifiuti# Rifiuti circa 0.10

ma nel sottoinsieme??

Sottoinsieme

Take-home message

• Spesso necessario e spesso non sentito

• FWER controllo della probabilita di errore

• FDR controllo della proporzione MEDIA di falsi rifiuti

• FWER e

• un controllo piu forte

• generalmente preferibile

• e con piu possibili estensioni (e piu flessibile)

• (FWER e FDR) facile in R