Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è...

46
Test statistici

Transcript of Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è...

Page 1: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Test statistici

Page 2: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

il chi quadrato

•  Valutare la differenza tra due percentuali o proporzioni

•  L'ipotesi zero (o ipotesi nulla) afferma che la differenza osservata - di qualsiasi entità essa sia - è dovuta al caso.

•  Il metodo del chi-quadrato è utilizzabile quando il valore contenuto in ogni cella (vedi tabelle successive: celle a, b, c, d) è >5 e il numero totale di osservazioni è >30; in caso contrario, occorre usare altri test (ad esempio, il test di Fisher, detto anche test esatto di Fisher o test delle probabilità esatte di Fisher).

Page 3: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  In una tabella 2 x 2 il valore del chi-quadrato, che quantifica la differenza fra i numero osservati e quelli attesi, è la somma delle quattro celle a, b, c e d, per ciascuna delle quali si calcola il valore della frazione:

Page 4: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Nel caso di tabelle 2 x 2 si deve applicare un piccolo correttivo, detto di Yates, che consiste nel sottrarre 1/2 (cioè 0.5) ad ogni valore di O-A.

•  I dati usati nel chi quadro debbono avere scala nominale.

Page 5: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Perché si possa utilizzare il chi quadro è indispensabile:

•  a) che i dati siano indipendenti, cioè nessun soggetto può apparire in più di una cella della tabella;

•  b) che non più del 20 % delle frequenze attese nella tabella può essere < 5 (altrimenti si deve usare il test esatto di Fisher);

•  c) nessuna cella deve avere una frequenza attesa < 1 (altrimenti si deve usare il test esatto di Fisher).

Page 6: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Il valore ottenuto con questa somma viene confrontato con quello riportato dalle tabelle del chi quadro, in corrispondenza dei gradi di libertà

•  Attualmente il calcolo viene eseguito dal pc, che fornisce i valori della significatività e calcola automaticamente il test di Fisher

Page 7: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Tabelle con pochi casi

•  oltre al chi quadro di Pearson, in caso di scale nominali, si possono usare alcuni test simili come il PHI, il coefficiente di contingenza C e la V di Cramer: tali test correggono il chi per il numero dei casi; ad es. PHI= (CHI2/N).

Page 8: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Scale nominali

•  In caso di scale nominali si devono calcolare altri test capaci di valutare l'associazione tra variabili, per es. Lambda.

•  Se non c’è associazione, Lambda è 0 (cioè la variabile non è in grado di prevedere nulla dell'altra);

•  se invece l'associazione è massima, Lambda è 1 (cioè la prima variabile spiega interamente la seconda).

Page 9: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Scale ordinali •  Si basa sul confronto dei valori delle variabili di un caso

con le stesse variabili in tutti gli altri casi. •  Due variabili in base a questo confronto possono essere

"pari" (cioè identiche), concordanti (cioè simili) o discordanti.

•  Tra le statistiche ordinali ricordiamo le Tau di Kendall (Tau a, Tau b e Tau c); la Tau c dà valori compresi fra -1 e +1.

•  Simile alle Tau di Kendall sono la Gamma di Goodman e Kruskal che può andare da 0 (le variabili sono indipendenti) a 1 (forte concordanza), e la "d" di Somers.

•  E' importante il segno della relazione: se negativo indica che le due variabili sono inversamente correlate.

Page 10: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Correlazione dei dati in tabella •  è possibile calcolare il coefficiente di

correlazione r di Pearson (scale a intervallo), il coefficiente di correlazione rho di Spearman (dati ordinali) e il coefficiente "eta".

•  Eta va usato quando la variabile dipendente è ad intervalli e la variabile indipendente è invece ordinale o nominale.

•  Il quadrato di "eta" rappresenta la proporzione di variabilità totale nella variabile dipendente che puo' essere spiegata dalla variabile ndipendente.

Page 11: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Rischio relativo

•  Le tabelle 2 x 2 consentono anche di calcolare il rischio relativo

Page 12: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

T di Student

•  Una circostanza comune è quella in cui si sono esaminati due campioni di animali, in ciascuno dei quali è stata misurata una variabile numerica (es. l'altezza, il peso ecc.) di cui è stata poi calcolata la media.

•  Ci si chiede se la differenza fra le due medie sia significativa, ossia se si possa affermare che la differenza non sia dovuta al caso ma esista invece una reale diversità tra le medie delle due popolazioni da cui i campioni stessi derivano.

Page 13: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Il calcolo

•  Il t si ottiene dalla differenza tra le medie, divisa per la deviazione standard media delle deviazioni standard dei due campioni, moltiplicata per un fattore di dimensione (radice quadrata del prodotto delle numerosità diviso la somma delle numerosità)

•  Ovviamente oggi il test t si esegue al computer con l'aiuto di apposito software.

Page 14: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Analisi della varianza

•  L'analisi della varianza è una potente tecnica analitica statistica che analizza il modo in cui il valore medio di una variabile è influenzato da classificazioni di vario tipo dei dati.

•  Se esiste un solo tipo di classificazione si parla di ANOVA ad una via;

•  se le classificazioni sono diverse si parla di ANOVA a più vie (a due, tre, quattro... vie).

Page 15: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Il test non è altro che una generalizzazione del t-test di Student per dati non appaiati,

•  È adatto ad un numero qualsiasi di gruppi •  Se i gruppi sono due il test equivale al t di

Student e il valore di F equivale al quadrato del valore di t).

Page 16: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Una deviazione di ogni osservazione dalla media generale può essere ripartita in 2 parti:

•  una deviazione di ogni osservazione dalla media di gruppo (I tipo)

•  una deviazione della media di gruppo dalla media generale (II tipo);

•  cioè esiste una devianza (o somma degli scarti elevati al quadrato) sia del I tipo (EntroGruppi) che del II tipo (FraGruppi):

SSq TOT= SSq EntroGruppi (Within groups) + SSq FraGruppi (Between groups)

Page 17: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Il rapporto fra le 2 varianze fra ed entro i gruppi si chiama F;

s2 fra i gruppi F = --------------------- s2 entro i gruppi

•  più F è alto e più ci si allontana dall'ipotesi nulla, cioè più sono diversi i gruppi.

Page 18: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Anche il test F nell'analisi della varianza è basato su 2 importanti assunti:

•  a) la normalità della distribuzione delle osservazioni (variabili con scala a intervalli);

•  b) la costanza della varianza nei diversi gruppi (omogeneità della varianza), soprattutto se questi hanno numerosità diversa.

Con gruppi di grandi dimensioni si possono usare i test parametrici fino a quando la varianza di un gruppo è il doppio di quella di un altro gruppo.

Page 19: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Se non esistono confronti fra gruppi che abbiano "a priori" un particolare interesse, l'ulteriore esame delle differenze tra le medie dipende largamente dai risultati del test F dell'analisi della varianza.

•  Se F non è significativo è inutile procedere all'esame delle differenze tra medie particolari, perchè vi è il rischio reale che un certo numero di confronti sia dato come significativo mentre la maggior parte di essi è dovuto solo alla variabilità casuale.

•  Se F è significativo si può procedere ai test per confronti multipli come il test di Student-Neuman-Keuls o quello di Scheffe.

Page 20: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Analisi della covarianza

•  Se una variabile anziché di tipo classificatorio è di tipo continuo (es. età, peso, altezza, ecc), con questo metodo se ne può eliminare l’effetto sulla variabile classificatoria

Page 21: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  L'SPSS mostra nell'ordine per primo l'effetto dovuto alle covariate, poi il "main effect", cioè la variazione dovuta ai fattori, singolarmente presi,

•  quindi il "2-way interactions", cioè la varianza legata all'interazione fra le due o più variabili

•  infine la variazione che non si riesce a spiegare (residua).

Ogni effetto è corretto rispetto a tutti gli effetti precedenti che sono stati calcolati.

Page 22: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

ANOVA per misure ripetute •  Quando la stessa variabile è misurata in varie

occasioni per ogni soggetto si ha la c.d. "analisi della varianza per misure ripetute" (l'esempio più semplice è quello di un pre e post trattamento in cui si usa il paired t test).

•  Se le osservazioni sono più di 2, ad es. 3, il paired t test non è più utilizzabile, sia perchè i 3 tests (nel caso di 3 variabili ripetute) non sono statisticamente indipendenti, sia perchè non si ha un singolo test che dimostri le differenze tra le 3 variabili.

Page 23: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Per eseguire un'analisi su misure ripetute bisogna che le originali 3 o più variabili siano "trasformate" cioè si analizzano combinazioni lineari di queste differenze chiamate "contrasti" (nel caso del paired t test il contrasto è la differenza fra le 2 variabili).

Page 24: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Quando si esegue l'ANOVA per misure ripetute sono automaticamente testate diverse ipotesi.

•  Le variabili trasformate corrispondenti all'effetto "tempo" sono esaminate sia con test multivariati che univariati

•  I tests multivariati sono simili (Pillais, Hotellings, Wilks, Roys) e saggiano l'ipotesi che le medie di queste variabili siano 0;

•  se significativi, quindi, indicano che il fattore "tempo" incide sulle variabili originali.

Page 25: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  I test univariati saggiano una a una le due variabili trasformate (dif12 e dif12v3), anche se la significatività non è corretta per il fatto che diversi confronti sono stati eseguiti (quindi usare i risultati con criterio!).

•  L'SPSS infine dà anche un F medio come se fossero considerate insieme le due variabili trasformate (media dei due F).

Page 26: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Se i test multivariati e quelli univariati differiscono nei risultati quelli univariati sono considerati più potenti (cioé più in grado di trovare differenze se queste esistono), purchè certi assunti siano raggiunti (varianza di tutte le variabili uguale e covarianza 0).

•  Per saggiare questi assunti si effettua il test della sfericità di Mauchly valido soprattutto per campioni numerosi, che deve risultare non significativo

•  Se gli assunti sono violati ci sono alcuni test di correzione chiamati "epsilon".

Page 27: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Correlazione

•  E' una procedura statistica parametrica (e quindi usa variabili ad intervalli con distribuzione "normale") che studia le relazioni che intercorrono tra 2 variabili.

Page 28: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Se vogliamo descrivere la forza della relazione fra le due variabili si calcola il c.d. coefficiente di correlazione "r" di Pearson, che è un numero compreso fra -1 e +1.

•  Tanto più è stretta la relazione tanto più "r“ è prossimo a 1 (in valore assoluto); se è vicino a 0 la relazione è inesistente.

Page 29: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  E' importante ricordare che "r" non misura un rapporto di causa-effetto tra le variabili, ma solo la forza della dipendenza lineare l'una dall'altra.

•  Il segno di "r" indica il verso di tale associazione: positivo quando le 2 variabili variano nello stesso senso, negativo quando al crescere dell'una corrisponde il calare dell'altra.

•  Il coefficiente "r" è simmetrico, cioè il legame che collega X e Y e' lo stesso che c‘è tra Y e X.

Page 30: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Coefficiente di determinazione

•  Il quadrato del coefficiente di correlazione (R quadro) è detto anche coefficiente di determinazione.

•  Esso rappresenta quella parte della varianza totale della variabile dipendente che può essere "spiegata" dall'equazione di regressione;

•  in altre parole esso ci dà una valida indicazione su quanto una retta sia adatta a descrivere la relazione fra le 2 variabili.

Page 31: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Regressione •  Con la retta di regressione si stima in quale misura una

variabile tende, mediamente, a crescere (o a diminuire) al modificarsi di un'altra variabile.

•  Invece con la correlazione si quantifica la forza di tale associazione mediante il cd coefficiente di correlazione "r" di Pearson.

•  Trattandosi di un test parametrico è necessario che siano soddisfatti alcuni assunti come la distribuzione normale delle variabili (soprattutto della variabile dipendente), l'uguale varianza e infine una reale indipendenza fra le variabili indipendenti.

Page 32: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Con la regressione è possibile vedere il tipo di funzione matematica che meglio spiega il modello: lineare, parabolico, polinomiale, trigonometrico, ecc. (naturalmente si può cercare di trasformare in lineare una curva non tale). L'equazione della linea retta è:

y=B0 + B1x1

•  dove B1 e' detto slope (o pendenza o coeff. angolare della retta) e B0 intercetta

Page 33: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Il coefficiente beta, cioè il coeff. di regressione standardizzato (beta=B * DSx/DSy) è un coefficiente indipendente dalle unità di x e y (è adimensionale) in quanto le variabili indipendenti sono espresse in forma standardizzata (Z-score) e corrisponde all' "r" di Pearson quando esiste una sola variabile indipendente;

•  se le variabili indipendenti sono diverse è quindi possibile (ma entro certi limiti!) comparare fra di loro i coeff. delle varie var. indipendenti alla ricerca di quelli più importanti

Page 34: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Si calcola il "t" e la sua significatività sia per lo slope che per l'intercetta

•  la significatività indica che lo slope (o l'intercetta) sono diversi da 0 e quindi che esiste una correlazione lineare fra X e Y.

Page 35: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Anche per i valori dello slope e dell'intercetta esiste tutta una popolazione di possibili valori corrispondenti a tutti i possibili campioni di numerosità data

•  tale distribuzione è gaussiana e ha quindi una DS e uno SE.

•  Quindi possono essere usati sia per creare ipotesi di confronto (t di Student, analisi della varianza) sia per calcolare intervalli di confidenza.

Page 36: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Regressione multipla con più variabili indipendenti

•  Serve per valutare il coefficiente di determinazione, cioè l’importanza, di ciascuna variabile

•  Un primo passo consiste nel calcolare la matrice di correlazione delle variabili: più è alto il valore assoluto del coefficiente di correlazione, più è alta l'associazione lineare.

Page 37: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Collinearità

•  Quando possibile, vanno evitate due variabili fortemente intercorrelate (forte "collinearità") in quanto tali variabili contengono informazioni simili ed è quindi difficile distinguere gli effetti dovuti ad ognuna di esse singolarmente.

Page 38: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Modelli

•  Inserire molte variabili non è in genere una buona strategia, anche perchè i risultati sono difficili da interpretare;

•  del resto è bene non escludere a priori variabili potenzialmente rilevanti.

•  Lo scopo è quello di costruire un modello conciso, ma che renda possibili buone predizioni.

Page 39: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

•  Si possono costruire una varietà di modelli di regressione con lo stesso set di variabili.

•  Per ridurre le variabili solo a quelle che possono essere delle buone predittrici della var. dipendente si usano tre procedure:

•  FORWARD selection •  BACKWARD elimination •  STEPWISE (nessuna e' "la migliore" in senso assoluto).

Page 40: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Regressione logistica

•  La regressione logistica è un'analisi statistica usata per studiare la relazione fra una variabile dipendente dicotomica e un set di fattori o variabili che si pensa possano essere responsabili della "dicotomicità" della variabile dipendente.

Page 41: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Statistiche non parametriche

•  I metodi statistici non parametrici sono test statistici basati sui ranghi delle osservazioni, cioè sul loro numero d'ordine, invece che sulle osservazioni in sé.

Page 42: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Quando si usano

•  1) le variabili hanno evidenti scostamenti dalla normalità (o sono fortemente asimmetriche o presentano più di un picco);

•  2) il campione è troppo piccolo per comprendere se esiste una distribuzione normale dei dati;

•  3) le osservazioni sono rappresentate da classifiche ordinali (es. gravità di una malattia da 1 a 4).

Page 43: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Esempi •  Test di Mann-

Whitney (o della somma dei ranghi):

•  è l'equivalente del test di Student .

•  Test di Wilcoxon (o test del segno):

•  è l'equivalente del paired t test .

Page 44: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Esempi •  Test di Kruskal-

Wallis: •  è l'equivalente

dell'analisi della varianza a una via.

•  Test di Friedman: •  equivale all'analisi

della varianza per misure ripetute

Page 45: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Esempi •  Test di McNemar: •  si usa quando la

variabile che si studia è dicotomica.

•  il test di Cochran •  si usa con variabili

dicotomiche quando i campioni sono più di 2.

Page 46: Test statistici - Medicina del lavoro · Perché si possa utilizzare il chi quadro è indispensabile: • a) che i dati siano indipendenti, cioè nessun ... confronti multipli come

Esempi •  Test di Kolmogorov-

Smirnov: •  è simile al test di

Mann-Whitney nella variante a due campioni

•  Test di concordanza di Kendall:

•  valuta il coefficiente di concordanza W fra 2 o più variabili