2015 Galli TEST STATISTICI PER DATI...

65
Guido Galli TEST STATISTICI PER DATI NOMINALI APPUNTI Per gli specializzandi e per i partecipanti ai Corsi AIRM

Transcript of 2015 Galli TEST STATISTICI PER DATI...

Page 1: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli

TEST STATISTICI PER DATI NOMINALI

APPUNTI Per gli specializzandi e per i partecipanti ai Corsi AIRM

Page 2: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 2

INDICE

INTRODUZIONE   4  LE  VARIABILI  CHE  PIÙ  CI  INTERESSANO   4  LA  STATISTICA  NON  PARAMETRICA   5  QUESTI  APPUNTI   6  

CAPITOLO  I  -­‐  FREQUENZA  E  PROBABILITÀ   7  DISTRIBUZIONE  BINOMIALE   7  

CAPITOLO  II  -­‐  STATISTICA  DELLE  FREQUENZE  RELATIVE  (PROPORZIONI)   9  A)   LIMITI  FIDUCIALI  DI  UNA  PROPORZIONE   9  

- Metodo   10  - Insegnamenti  dell’esempio   11  

B)   CONFRONTO  FRA  DUE  PROPORZIONI   12  - Premessa  generale  da  leggere  assolutamente   12  

Quattro  importanti  punti  sui  confronti  statistici   12  C)   QUANTI  CASI  RACCOGLIERE  PER  UN  CONFRONTO  FRA  PROPORZIONI?   16  

CAPITOLO    III  -­‐  TABELLE  DI  CONTINGENZA  E  CONFRONTI  DI  FREQUENZE   17  A)   ORDINAMENTO  DELLE  FREQUENZE   17  B)   TEST  PER  I  CONFRONTI   17  

1)   TABELLE  2  X  2:  CONFRONTO  FRA    DATI  INDIPENDENTI   17  

- Metodo  del  chi  quadrato  (2χ )   17  

- Correzione  per  la  continuità  di  Yates   18  Programma  in  Basic  per  il  calcolo  del  Chi  Quadrato  per  Tab.  2x2  con  vari  metodi   20  

- Il  test    esatto  di  Fisher   21  - Importanti  consigli  pratici    per  i  confronti  in  Tab.  2  x  2   22  

2)   TABELLE  2  X  2:    CONFRONTO  FRA  DATI  APPAIATI   23  - Test  di  Mc  Nemar   23  - Test    esatto  per  il  confronto  di  dati  appaiati  in  Tab.  2  x  2   24  

C)   TABELLE  M  X  N   25  1)   CONFRONTO  FRA  DATI  INDIPENDENTI   25  

- Estensione  del  test  del  Chi  Quadrato   25  Programma  in  Basic  ESTENCHI  Chi  Quadrato  per  confronti  multipli   27  

2)   CONFRONTO  FRA  DATI  ASSOCIATI   27  - Test  Q  di  Cochran   27  

CAPITOLO  IV  -­‐  REGRESSIONE  E  ODDS  RATIO  (OR)   30  ODDS  E  ODDS  RATIO  (OR)   30  APPLICAZIONI  DI  OR   31  

- Un  problema  per  i  confronti:  la  standardizzazione   34  FATTORI  SECONDARI  E  DI  CONFONDIMENTO.  STRATIFICAZIONE.   36  

- Test  di    Mantel-­‐Haenszel   37  Programma  in  Basic  MH  per  il  test  di  Mantel-­‐Haenzsel   38  

CAPITOLO  V  -­‐  COMBINAZIONE  DI  RISULTATI  E  TABELLE.    META-­‐ANALISI.   40  Programma  in  Basic  AGGREG  per  aggregare  tabelle  2  x  2   43  

Page 3: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 3

CAPITOLO  VI  -­‐  ALTRI  IMPORTANTI  TIPI  DI  REGRESSIONE   44  A)   REGRESSIONE  DI  VARIABILE  NOMINALE  BINARIA  CON  VARIABILE  ORDINALE:  TABELLA  M  X  2.   44  

Programma  in  Basic  REGM2  per  regressione  variab.  binaria/var.  ordinale   46  B)   REGRESSIONE  DI  VARIABILE  NOMINALE  BINARIA  CON  VARIABILE  NUMERICA  CONTINUA   46  C)   REGRESSIONE  DI  VARIABILE  NOMINALE  BINARIA  CON  VARIABILI  MULTIPLE  DI  OGNI  TIPO   48  

-­‐  REGRESSIONE  LOGISTICA   48  

CAPITOLO  VII  -­‐  INDICI  DI  ASSOCIAZIONE  E  CONCORDANZA   52  1)   ASSOCIAZIONE  IN  TABELLE  2  X  2   52  

COEFFICIENTE  DI  ASSOCIAZIONE  Rϕ   52  2)   ASSOCIAZIONE  IN  TABELLE  M  X  N   53  

COEFFICIENTE  DI  CRAMÉR   53  3)   CONCORDANZA  FRA  OSSERVATORI  ED  AFFIDABILITÀ  DELLE  OSSERVAZIONI   54  

A)   DUE  OSSERVATORI,  DUE  CATEGORIE  DI  GIUDIZIO   54  B)   DUE    OSSERVATORI  E  PIÙ  CATEGORIE   56  

- Statistica  K  di  Cohen   56  Programma  in  Basic  K  -­‐  per  statistica  K  di  Cohen   58  

C)   DUE  OSSERVATORI,    PIÙ    CATEGORIE  “ORDINATE”   59  - Il  K    di  Cohen  “pesato”   59  

Programma  in  Basic  KW  -­‐  per  il  K  di  Cohen  “pesato”  (Kw)   61  D)   PIÙ  OSSERVATORI  E  PIÙ  CATEGORIE   61  

- La  statistica  K  di  Fleiss   61  Programma  in  Basic  KF  -­‐  per  il  K  di  Fleiss   63  

RACCOMANDAZIONE  FINALE   64  

APPENDICE   65  TAVOLA  DEI  VALORI  CRITICI  DI  CHI  QUADRO  (FINO  A  20  GRADI  DI  LIBERTÀ)   65  

Page 4: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 4

Introduzione Le variabili che più ci interessano

Per variabile si intende, nell’accezione più ampia, tutto ciò che può essere osservato, misurato, classificato dando così luogo a dati trattabili con metodi statistici. Le variabili possono essere quantitative o qualitative.

Le variabili quantitative sono quelle che danno luogo a dati di tipo numerico, frutto di misurazioni (non accennerò qui al problema delle scale di misura). I metodi statistici più noti anche ai medici d’area radiologica, come il t di Student o l’analisi della varianza, riguardano le variabili quantitative ed in particolare i dati che si suppone abbiano una distribuzione normale (gaussiana). Il trattamento dei dati di questo tipo è oggetto della cosiddetta Statistica parametrica, alla quale è riservato lo spazio di gran lunga maggiore nei libri di statistica, anche quando dedicati alla Medicina. La Statistica parametrica è quella che, storicamente, è stata sviluppata per prima; è quella nella quale Statistici e Biometristi sono più ferrati e che quindi preferenzialmente trattano quando chiamati ad insegnare nelle nostre scuole di specialità. Tuttavia dati di questo tipo non sono molto frequenti in Diagnostica per Immagini. Lo sono di più nel settore della Medicina Nucleare (risultati di prove funzionali, di dosaggi, ecc.); in campo nucleare è impiegato anche un tipo particolare di statistica dei dati numerici: la statistica dei conteggi (basata sulla distribuzione di Poisson).

In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si è più spesso di fronte a variabili qualitative, dal momento che si ha a che fare con l’interpretazione “qualitativa” di immagini. I dati di queste variabili non sono caratterizzati da quantità numeriche, ma risultano da una identificazione (classificazione) in categorie di particolari oggetti o particolari caratteristiche (aspetti) di un oggetto. In rapporto alla variabile “colore” una cosa può essere identificata come bianca, rossa, verde, ecc. In rapporto alla sua morfologia, una opacità polmonare può essere identificata come “tumore”, “processo flogistico” od altro. In rapporto alla sua evoluzione un tumore può essere classificato come appartenente al I, II, III o IV stadio.

Già questi esempi ci mostrano che vi sono due tipi di variabili qualitativei: - Nominali, per le quali tutto quello che si può fare è identificare la categoria, o il carattere, con un

nome, senza che ciò corrisponda ad un ordine naturale delle categorie o stabilisca fra loro particolari rapporti. Le variabili nominali possono essere multicategoriali (come nell’esempio del “colore”, per il quale vi sono varie categorie: giallo, verde, azzurro, ecc.), ma un tipo particolarmente importante nella nostra area professionale è quello in cui una certa caratteristica è presente od assente, per cui l’osservazione cade soltanto in una di due possibili categorie: ad esempio deceduto/sopravvivente, positivo/negativo, patologico/non patologico ecc. Queste variabili nominali sono dette anche quantali, binarie o dicotomiche. Si noti che possono essere ricondotte a variabili dicotomiche, trattabili con test statistici ad hoc, anche variabili qualitative multicategoriali (per es. se si decide di classificare i vari colori soltanto come bianco o non bianco) e perfino variabili numeriche continue: per es. se si decide di classificare come “positivo” il risultato di un dosaggio quando supera una certa soglia e “negativo” se rimane al di sotto. Si noti anche che una variabile nominale può essere costituita da numeri, che in questo caso hanno solo funzione di “nome” od “etichetta”: una targa automobilistica numerica non è altro che il “nome” assegnato dal Registro alla automobile di un particolare Tizio; altro esempio sono i codici numerici che contraddistinguono le patologie nelle classificazioni sanitarie e nei tariffari.

Page 5: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 5

- Ordinali: in queste le categorie hanno un ordine naturale non ambiguo, che stabilisce “precedenze” o “priorità”: prendendo come esempio la stadiazione di un tumore, l’ordine di precedenza è stabilito dall’evoluzione della neoplasia; al II stadio è più avanzata che al I, al III più avanzata che al secondo e così via. Sovente, come in questo caso, i nomi sono numeri (ordinali, appunto): si pensi, come altro esempio, all’ordine di arrivo dei partecipanti ad una corsa: primo, secondo, terzo,ecc. Anche se vi è un ordine, non è detto che le “distanze”, od “intervalli” fra le categorie siano uniformi e costanti (per lo più non lo sono: il distacco fra il primo e il secondo arrivato in una corsa può essere minimo, ed invece grande il distacco fra il secondo e il terzo).

La statistica non parametrica

Le variabili qualitative non sono in genere trattabili con i metodi della statistica classica cosiddetta “parametrica”, perché basata sui parametri della distribuzione normale . Occorrono i test della “Statistica non parametrica”, che, da un punto di vista pratico, hanno alcuni svantaggi:

- sono per lo più meno efficienti dei test parametrici; - sono poco conosciuti dai medici e quindi poco o male applicati; - non è facile trovarli ampiamente e bene descritti in libri di base di Statistica. A proposito: a chi

volesse approfondire a notevole livello parte degli argomenti trattati in questi appunti posso consigliare: Peter Armitage, Geoffrey Berry Statistica medica: metodi statistici per la ricerca in medicina McGraw-Hill Libri Italia srl e, per la Statistica non parametrica prevalente in questi Appunti, Sidney Siegel, N. John Castellan Statistica non parametrica (Ed. italiana a cura di Ettore Caracciolo) McGraw-Hill Libri Italia srl. Per chi ama l’inglese, un buon libro è: Douglas G. Altman Practical statistics for medical research Chapman & Hall/CRC. Alcuni degli argomenti qui trattati sono approfonditi ad alto livello nel libro di Stephen C. Newman Biostatistical methods in epidemiology John Wiley &Sons.Inc.

- Alcuni test, anche utili, non sono disponibili nei consueti packages statistici per personal computer. Si trova invece anche troppo materiale se ne digitiamo il nome in Google: così da confondere chi non è già pratico dell’argomento. Anche per questo ho ritenuto utile semplificare l’argomento scegliendo i test più importanti e chiarendone l’impiego pratico con questi Appunti.

Per contro i test non parametrici hanno il vantaggio di essere sovente di esecuzione piuttosto semplice e di non presentare particolari difficoltà di calcolo: serve una calcolatrice tascabile solo perché ci siamo dimenticati come si fanno a mano le quattro operazioni aritmetiche e come si estrae una radice quadrata. E non è neppure necessario comprarla. Tutti hanno un PC con Windows, ma forse pochi si siano accorti che seguendo il percorso Start-Programmi-Accessori compare, fra gli Accessori, anche la scritta “Calcolatrice”. Cliccando su di essa compare sul display una calcolatrice della quale con l’opzione “Visualizza” si può avere una versione standard (simile alle macchinette tascabili da quattro soldi) o una versione scientifica: quest’ultima consente, con poca fatica di effettuare quasi tutti i calcoli presenti in questi Appunti, anche quelli con fattoriali, logaritmi, esponenziali, ecc. Inoltre, avendo Office di Windows, molte funzioni statistiche utili in pratica si trovano nel programma Excel e verrà mostrato, nel corso degli Appunti, come far uso di alcune di esse. A questo proposito va installato, prendendolo dal disco di Office o dalla rete, anche il modulo aggiuntivo “Analisi dati” che contiene molte importanti funzioni, come, ad esempio, i vari tipi di ANOVA. Da Internet potete anche scaricare un ottimo testo di Maria Garetto, dell’Università di Torino, “Laboratorio di Statistica con Excel”, con 78 Esercizi ben spiegati che vi renderanno facilmente padroni della materia. Il che è utile, perché il problema dei software professionali statistici in commercio (tipo SPPS, BMPD, STATA ecc.) non è tanto il prezzo, quanto la difficoltà per un medico ad imparare ad usarli per la dimensione dei manuali d’uso e l’impegno necessario a comprenderli. Excel è ubiquitario e facile: perché non usarlo? A

Page 6: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 6

mio parere l’unica difficoltà dell’impiego di Excel per la statistica sta nel fatto che la descrizione delle funzioni nella Guida in Linea dell’edizione italiana è scritta in un gergo totalmente incomprensibile. Questi Appunti

Questi Appunti riguardano i test per il trattamento statistico dei dati nominali – con qualche necessaria incursione in quelli ordinali . Illustreremo quanto verremo dicendo con esempi tratti da Riviste o, se di fantasia, pertinenti al nostro ambito di attività professionale e di ricerca. Preghiamo chi legge di seguire attentamente gli esempi (è attraverso quelli che spesso imparerà quanto ad una prima lettura gli apparirà oscuro) e di ripercorrerli, dopo averli letti, provvedendo personalmente ai calcoli. E’ utile e comodo usare il computer ed i relativi programmi statistici: ma i test statistici si imparano veramente soltanto facendoli, almeno una volta. Se poi, dopo averli imparati, si dovessero usare nella pratica sarebbe assurdo fare i calcoli a mano: è molto utile il computer. Vi sono in commercio molti programmi statistici per PC a prezzo accessibile ed altri si possono scaricare anche gratuitamente da Internet. Alcuni importanti test trattati in questi appunti (dal 2χ alla regressione logistica) sono presenti in quasi tutti i programmi. Altri invece, importanti per la nostra specifica area di attività professionale, sono di difficile reperibilità, oppure la loro esecuzione non dà tutte le informazioni che potrebbe dare. Per questi ultimi ho ritenuto opportuno redigere, ed inserire nel testo perché siano a disposizione dei lettori, semplici e brevi programmi scritti in GW-Basic 3.23. Per i numeri che compaiono in questo testo sarà usato il punto, anziché la virgola, per separare l’intero dai decimali. Nella scia del costume anglosassone, questo è ormai l’uso comune. Ma ricordiamoci che Excel, edizione italiana, vuole la virgola.

Page 7: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 7

CAPITOLO I - Frequenza e probabilità

Distribuzione binomiale Un evento classificabile con un nome dà luogo ad un dato nominale e tutto quel che possiamo fare, come già si è detto, è contare -e registrare- la frequenza di questi eventi. Ma quale è la probabilità del singolo evento? Dipende dall’attesa che di esso abbiamo e questa, a sua volta, dipende dalla nostra conoscenza della distribuzione degli eventi di quel tipo nel mondo reale. Se sappiamo che quel tipo di evento è comune, ci sembra verosimile che esso giunga alla nostra osservazione; cosa che riteniamo invece improbabile se sappiamo che è raro. Non penso che sia probabile che la prima ragazza che incontro abbia gli occhi verdi proprio perché so che quelli castani sono molto più frequenti nella realtà e mi sembra quindi più verosimile che la ragazza debba avere gli occhi di quel colore. Se sapessi che nella popolazione italiana il 6 % delle giovani donne ha gli occhi verdi, riterrei di avere un 6 % di probabilità di incontrare una giovane con gli occhi di quell’affascinante colore. Quel che è frequenza nella popolazione diviene probabilità per il singolo caso. Supponiamo ora che io conosca esattamente come è la distribuzione del carattere “nominale” nella popolazione. So, per esempio (avendo consultato le Tavole Geigy) che nella popolazione europea il 44.42 % delle persone hanno sangue di gruppo A (A1 36.7%, A2 7.72%), il 40.4 % ha sangue del gruppo 0, il 10.65 % del gruppo B, il 4.65% del gruppo AB (A1B 3.58 %, A2B 0.92 %).

10% vuol dire 1 su 10: posso perciò attendermi che se prelevo il sangue a 10 persone ve ne sia una del gruppo B. Ma l’attesa può andare delusa: può non esserci nessuno, o magari, per caso, essercene due o perfino più di due. Diviene allora importante la domanda: quale è la probabilità di avere 0, 1, 2, 3, 4…10 risultati (campioni di sangue) di tipo B su 10 prove (prelievi)? La soluzione è stata data da J.Bernouilli nel diciassettesimo secolo (ed è incredibile quel che sapessero già fare in quei tempi antichi) con la teoria della distribuzione binomiale.

La formula matematica che governa la distribuzione permette di rispondere alla domanda: se conosco che nella popolazione un evento (o caratteristica, ecc.) di tipo A si presenta con probabilità P (chiamiamo con P maiuscolo la frequenza relativa, conosciuta, che l’evento ha nella realtà), quale probabilità p (minuscolo) ho di trovarlo X volte in un campione di dimensione N? Espresso con questo gergo –che è quello familiare ai libri di statistica- il concetto è quasi incomprensibile, ma diviene solare con questo esempio: se so che lanciando una moneta la probabilità che venga testa è, come è ovvio, P = 0,5 (cioè il 50%, ed identica è la probabilità che venga croce), quale probabilità p vi è che su 7 (N) lanci si ottenga 5 (X) volte il risultato “testa”? Applicando la formula della distribuzione binomiale so che la probabilità di ottenere 5 teste su 7 lanci è il 16,4%. Ecco la formula:

)(Xp = XNX PPXNX

N −−⋅⋅−

)1()!(!

!

Dove p = probabilità da determinare; X = previsione ( o speranza) di un certo risultato numerico ( nel nostro caso 5 “teste”); N numero delle prove ( nel nostro caso 7 lanci della moneta); P = frequenza del risultato atteso nella realtà ( nel nostro caso 0.5 cioè 50 %). Questo risultato è di modesto interesse per un medico, ma se uno fosse il responsabile di un centro emotrasfusionale che ha esaurito il sangue di gruppo A1B e per rifarne una scorta gli servissero al minimo tre donatori di quel gruppo, potrebbe chiedersi con una certa ansia: che probabilità ho che tra i prossimi 10 donatori che si presenteranno ve ne siano 3 del gruppo A1B? Egli sa che il gruppo A1B è presente all’incirca nel 3% della popolazione e può quindi applicare la formula:

Page 8: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 8

p(3) = 73 97.003.0!7!3!10 xxx

Cioè: (3628800 / 30240) x 0,000027 x 0,808 = 0.0026 (0.26%)

Ahimè1 Egli constata con sconforto che la probabilità di trovare tre persone del gruppo A1B nei 10 donatori che si presenteranno è solo del 0.26 %. Era meglio non lasciare esaurire la scorta.

Lo stesso risultato viene ottenuto se, per risparmiare fatica, si utilizza DISTRIB.BINOM delle Funzioni Statistiche di Excel (VEDI Nota). A voi, freschi di liceo, è inutile ricordare che il punto esclamativo indica il fattoriale di un numero: 5! è uguale a 1x2x3x4x5 = 120. 3! = 1x2x3 = 6. Per convenzione 0! = 1. Però, se volete applicare la formula, non illudetevi di facilmente calcolare a mano i fattoriali. Per fortuna troverete una funzione “FATTORIALE” fra quelle Matematiche di Excel: introducendovi, ad es., il numero 36 apprenderete con terrore che il suo fattoriale è 3.72 x1041.

Lasciatemi dire che quel responsabile del Centro Trasfusionale, pur commendevole per il fatto che conosce la distribuzione binomiale, poteva fare meglio dal punto di vista statistico. Se invece che tre donatori di tipo A1B se ne presentassero quattro (evento che ovviamente ha una probabilità minore di 0.26%) sarebbe dispiaciuto? No, sarebbe felice! E anche nel caso fossero 5 o più. Forse solamente se tutti i 10 prossimi donatori fossero A1B, evento estremamente improbabile ma teoricamente non impossibile, direbbe “Troppa grazia Sant’Antonio!” senza peraltro rifiutare il Suo dono.

Quindi la probabilità che realmente gli interessa non è solo quella dell’evento sperato (3 donatori A1B), ma quella di almeno 3 : cioè la probabilità di 3 donatori più quella di eventi ancor più estremi (4 donatori, 5 donatori…10 donatori); deve quindi calcolarle e farne la somma (o risparmiarsi la fatica usando Excel). Ricordiamoci che così viene applicata, di solito, la formula della distribuzione binomiale.

Nota per l’uso di Excel. La funzione statistica DISTRIB.BINOM chiede il numero dei successi (cioè, nel ns. esempio, il numero dei donatori del gruppo A1B), il numero delle prove (10, nel nostro caso), la probabilità nota del singolo evento (0,03 per noi; attenti alla virgola!) e se la probabilità calcolata è cumulativa (VERO) o no (FALSO). Per calcolare la probabilità che vengano 3 donatori del gruppo A1B su 10 prossimi venturi la cosa più semplice è scrivere in una casella del foglio di lavoro (per esempio la A1) il numero delle prove (10), e in un’altra (A2) la probabilità nota (0,03). Poi in una terza casella (supponiamo l’A3) scriviamo: =DISTRIB.BINOM(3;A1;A2;FALSO). Premendo “Invio” nella casella A3 comparirà il risultato: 0,002618. Se scrivessimo =DISTRIB.BINOM(3;A1;A2;VERO) avremmo la probabilità –cumulativa- che vengano più di tre soggetti del gruppo A1B (cioè che ne vengano 4, o 5, o 6 ecc.). E’ molto piccola: 0,000147. Quindi la probabilità che ne vengano 3 o più di 3 è 0,002618 + 0.000147 = 0,001765. Non è un risultato che conforti molto il responsabile del Centro.

Page 9: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 9

CAPITOLO II - Statistica delle frequenze relative (proporzioni)

Siccome quel che si può fare con i dati nominali è contarli, rilevando quindi delle frequenze, la logica vorrebbe che cominciassimo con la statistica delle frequenze, raccolte in Tabelle di contingenza. Ma noi siamo troppo abituati, nella nostra pratica, ad utilizzare frequenze relative, ovvero proporzioni, spesso espresse come percentuali. Voglio quindi iniziare con queste: il lettore si accorgerà, nel successivo Capitolo, che molte delle cose imparate si possono fare, ed anche meglio, lavorando direttamente sulle frequenze. Cosa faccio contando le osservazioni? Stabilisco la frequenza della caratteristica che interessa. Se dico: “In questo gruppo di oggetti 15 sono bianchi” è perché ho rilevato con un conteggio che il carattere denominato “bianco” è 15 volte frequente nella mia osservazione. Le frequenze possono venire utilizzate tal quali in molti test statistici; ma un passo che spesso viene compiuto è rapportare la frequenza al totale delle osservazioni, trasformandola così in proporzione o frequenza relativa. Come esempio di proporzioni ne riportiamo due usatissime nella letteratura radiologica. La sensibilità è la proporzione che deriva dal rapportare il numero (frequenza) dei risultati “veri positivi” al numero dei malati esaminati; la specificità deriva dal rapporto fra la frequenza dei “veri negativi” e il numero dei soggetti non malati. Se una indagine diagnostica, mettiamo la TC, correttamente identifica una particolare patologia in 20 soggetti su 25 che ne sono affetti, noi diciamo che quella indagine ha una sensibilità: 20 / 25 = 0.8 = 80% e diciamo che ha una specificità del 90% se esclude la malattia in 27 su 30 soggetti non patologici esaminati (27 / 30 = 0.9 = 90%). Si noti che i rapporti danno luogo a frazioni dell’unità, spesso trasformate in percentuali per miglior comprensione. Ai fini statistici è bene che le proporzioni rimangano espresse in frazioni dell’unità.

In simbologia matematica la proporzione è perciò: p = na

, dove p (minuscolo) è la proporzione nel

campione studiato, a la frequenza osservata del carattere e n la numerosità del campione. Con la lettera q si usa designare la quantità 1 – p; perciò se p (la sensibilità, nel precedente esempio) è 0.8 , q sarà: 1 – 0.8 = 0.2 .

A) Limiti fiduciali di una proporzione Raramente qualcuno osserva un campione per affermare qualcosa che riguarda soltanto il campione stesso. Quello che in realtà si vuol fare è inferire dal campione qualcosa che riguarda, più generalmente, la popolazione da cui il campione è tratto. Quando il radiologo che ha usato la TC nel precedente esempio, afferma: “La specificità della TC è del 90%” in realtà non sta pensando: “E’ del 90% in questi trenta soggetti, ma potrebbe avere un valore completamente diverso in un altro gruppo”; egli invece, in base alla sua osservazione, si attende che l’impiego generalizzato della TC per quella indicazione dia una specificità se non proprio del 90%, almeno nell’attorno del 90%.

Quando però si vuole inferire da p = na

(cioè la proporzione osservata nel campione) qualcosa che

riguarda P = NA (dove le lettere maiuscole indicano che si tratta della proporzione nella popolazione e non

nel campione) una cosa è molto importante e viene spesso trascurata: stabilire i limiti fiduciali della proporzione osservata nel campione studiato. I limiti fiduciali sono quei due valori entro i quali si può ritenere che stia, con il 95% (o 99%) di confidenza (si usa dire “di probabilità”, ma non è correttissimo), il valore “vero” della proporzione P nella popolazione.

Page 10: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 10

Purtroppo per avere i limiti esatti o si deve effettuare un laborioso calcolo (proprio basato sulla distribuzione binomiale di cui abbiamo parlato) o bisogna consultare tabelle reperibili nella letteratura statistica specialistica. Tabelle ottime e complete per i limiti fiduciali si trovano a pag. 89-102 delle Tavole Geigy 1982, Volume II. Diamo tuttavia qui un semplicissimo metodo di calcolo che fornisce un risultato approssimato, ma sufficiente: - a renderci conto subito della bontà, o meno, dei nostri risultati; - a confrontare i nostri risultati con dati della letteratura. Metodo

- Si determina l’Errore Standard di p che è: ES = nqp ⋅

- I limiti di confidenza (al 95%) sono: L.C. = p ± 1.96 x ES Attenzione! Questo metodo è buono se moltiplicando n sia per p che per q (e ricordiamo che q è 1-p) si ha, in entrambi i casi, un risultato maggiore di 10; non si può usare se uno dei due è minore di 5. Esempio operativo n. 1 In una pubblicazione di qualche anno fa (Torricelli et al. La RM con bobina endorettale nel Ca. del retto Radiol.Med 1, 74-83, 2002) vi sono dati che permettono di stimare l’efficacia della RM endorettale per la rilevazione delle metastasi linfonodali da Ca. rettale. Su 11 pazienti con metastasi linfonodali istologicamente accertate (Linfonodi+), il reperto RM fu positivo in 9 (“veri positivi”), mentre fu negativo (“veri negativi”) in 15 su 27 pazienti con linfonodi indenni (Linfonodi -). Possiamo ordinare i dati in una tabella e procedere al calcolo (per la sensibilità e la specificità abbiamo già visto come si fa; l’accuratezza è la somma dei risultati “veri” fratta il totale dei casi, cioè (9 + 15) / (11 + 27) = 0.63):

Linfonodi + Linfonodi – Sensibilità = 0.82 (82%)

RM + 9 12 Specificità = 0.55 (55%) RM - 2 15 Totale 11 27 Accuratezza = 0.63 (63%) Domanda: potremmo dedurre da questi dati che la RM endorettale ha, quando estesamente applicata per la ricerca delle metastasi linfonodali, una sensibilità nell’attorno dell’ 80% ? Applichiamo il semplice metodo che abbiamo imparato per trovare i limiti di confidenza:

ES della proporzione: nqp ⋅ =

1118.082.0 ⋅ = 0.116

Quindi la proporzione nel campione è: Sensibilità = 0.82± 0.116 L.C. = 0.82± 1.96 x 0.116 Limite superiore = 0.82 + 0.227 = 1.047 (104.7%) Limite inferiore = 0.82 - 0.227 = 0.593 (59.3%) Il risultato 104.7 % è assurdo (va oltre il 100% !) perché non avevamo controllato se il metodo è applicabile. Ma non è correttamente applicabile: infatti 0.82 x 11 (p x n) dà 9.02 e va bene; però 0.18 x 11 (q x n) dà 1.98 (<5: non accettabile).

Page 11: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 11

Qualcuno afferma che in casi come questo non sia illecito troncare l’eccedenza: si potrebbe perciò dire che i limiti di confidenza vadano dal 59.3 % al 100%. Ma è certamente più appropriato accertare nelle Tavole Geigy il risultato esatto: Limite inferiore = 0.482 (48.2 %) Limite superiore = 0.977 (97.7%) Insegnamenti dell’esempio 1) L’intervallo di confidenza è troppo ampio: i casi studiati sono pochi per trarre attendibili

indicazioni;

2) Nella discussione riportata nella pubblicazione citata, gli Autori sembrano sorpresi che un altro autore, Chan, abbia trovato una sensibilità solo del 57%, apparentemente lontana dall’82 % da loro determinato. In realtà il dato di Chan non è affatto incompatibile con i loro (abbiamo visto che la sensibilità “vera” può infatti stare fra il 48.2 e il 97.7 %);

3) Se si considera l’ampiezza dell’intervallo di confidenza è molto dubbio che la presenza di metastasi linfonodali sia efficacemente rivelata dalla RM endorettale (o, per lo meno, la pubblicazione citata non lo dimostra)

Uno degli errori che ho visto più frequentemente commettere in relazioni e comunicazioni a Congressi e Raduni è il riportare in diapositive i valori di Sensibilità, Specificità ed Accuratezza senza i rispettivi limiti di confidenza. Se dovete pubblicare dati di vostre ricerche è doveroso che forniate i limiti di confidenza esatti. E’ opportuno ricordare che quelli forniti da parecchi programmi statistici per PC sono proprio basati sul metodo approssimato che abbiamo descritto: è bene quindi non fidarsi e controllare sulle Tavole. Non sempre è facile trovarle: ma in tal caso…

Pochi sanno che… …. se si dispone di Windows Office si possono calcolare con non molta fatica i limiti esatti. Fra le funzioni statistiche preprogrammate di Excel vi è infatti INV.F che può essere utilizzata allo scopo nel modo che qui illustriamo, calcolando il limite inferiore per il nostro esempio (e ricordando, beninteso, che

p = na

):

Limite inferiore (LI) = Fana

a⋅+−+ )1(

Cioè: LI = F⋅+ 39

9

A questo punto aprite Excel e, senza stare a digitare nulla nel foglio di lavoro, cercate le funzioni preprogrammate (freccetta vicino al simbolo ∑ ); nel menù selezionate Altre funzioni e cercate nella

categoria Statistiche cliccando poi su INV.F Apparirà una finestra che vi chiede: Probabilità e qui dovete inserire 0,025 se volete l’intervallo di confidenza al 95 % come è usuale. La seconda domanda è: Grado di libertà 1. Per il limite inferiore GL1 = 2n – 2a +2 il che, per il nostro esempio, è pari a 6, che inserite. Terza domanda: Grado di libertà 2 ; esso è GL2 = 2a, cioè nel nostro caso 18. Inseritelo e già nella finestra, in basso, apparirà il risultato F = 3,2209. Se cliccate su OK, verrà trasportato sul foglio di lavoro..

Completiamo quindi la formula: LI = )2209.33(9

9⋅+

= 0. 4822 (48.22%)

Ci vuol molto più tempo a descrivere l’operazione che a farla ed è certamente più comodo che andare in Biblioteca a cercare le Tavole Geigy.

Page 12: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 12

Divertitevi (!) a calcolare il limite superiore tenendo conto che per esso è :

LS = Fana

a/1)(1

1⋅−++

+ con GL1 = 2a + 2 e GL2 = 2n – a

B) Confronto fra due proporzioni

Premessa generale da leggere assolutamente

Quattro importanti punti sui confronti statistici

1. Ricordiamo, anche se noto, che quando si procede ad un confronto statistico per testare una differenza – e questo vale non solo per i dati categoriali, ma sempre- si parte dall’ipotesi H0 (detta anche “ipotesi nulla”): cioè quella che una differenza in realtà non vi sia e che quella osservata sia soltanto casuale, dal momento che i campioni che si confrontano si presumono tratti dalla stessa popolazione. Quando diciamo: “Il risultato di questo test ci indica che vi è una differenza significativa con p<0.05” vogliamo semplicemente dire che rimangono meno del 5% di probabilità a favore dell’ipotesi nulla; il che ci consente di respingerla e affermare che vi è una differenza significativa . La respingiamo con ancor maggior fiducia se il risultato del test ci indica p<0.01: a favore dell’ipotesi nulla rimane meno dell’1% di probabilità). Ovviamente se nella realtà la differenza non c’è, noi abbiamo sbagliato nel respingere l’ipotesi nulla: e la probabilità di commettere un errore di questo genere (detto errore di I tipo o “falso positivo”: affermare una differenza che non c’è) è appunto del 5 % per p=0.05 e dell’1% per p=0.01. Il valore che assumiamo come limite per la significatività (per es. 0.05) viene chiamato Alfa. 2. Facendo dei confronti molti curano la significatività scegliendo appropriati valori di alfa, ma non molti si preoccupano della potenza (P), che è quasi altrettanto importante. All’errore di I tipo si contrappone infatti l’ errore di tipo II o “falso negativo”: negare una differenza che in realtà c’è. Se al termine di una nostra indagine troviamo un valore di p = 0.12 ciò indica che l’ipotesi nulla ha per sé il dodici per cento di probabilità: questo è troppo (è molto di più del fatidico 5%) e ci costringe ad ammettere con molta delusione che “ i risultati non sono statisticamente significativi” e ad attribuire al caso il risultato osservato. Tuttavia questo atteggiamento può essere erroneo, se una differenza esiste realmente. La probabilità di un errore di questo genere è definita dal valore Beta. Beta = 0.2 significa che c’è il 20 % di probabilità di compiere un errore del II tipo. Per evitare il rischio di incorrere nell’errore occorre avere una idea della potenza del test che è stato impiegato per la elaborazione dello studio. La potenza è la probabilità di identificare una differenza, se realmente c’è: P = 0.8 significa che con un dato livello di significatività (p. es. 0.05) c’è, usando un particolare test su un determinato campione, l’80 % di probabilità di identificare una differenza reale. Ovviamente la potenza (che nei testi è indicata come P maiuscola) è legata a Beta: infatti è

P = 1 – Beta. La potenza dipende da vari fattori, il principale dei quali è la numerosità del campione: tanto più numeroso è il campione tanto minore è il rischio di incorrere in un errore di tipo II mentre con campioni piccoli l'errore di II tipo è in agguato. Aumentare la numerosità del campione è abbastanza facile se si sperimenta su animali; lo è meno in medicina quando si ha a che fare con esseri umani e con le conseguenti valutazioni etiche; a maggior ragione se si tratta di ricerche condotte impiegando mezzi potenzialmente dannosi come le radiazioni od i farmaci citotossici. Quindi le casistiche mediche peccano quasi sempre di esiguità numerica. C'è da chiedersi quante nuove metodologie o trattamenti non sono entrati nell'uso, pur essendo efficaci, solo perché una sperimentazione di necessità limitata non ha potuto

Page 13: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 13

dimostrarne in via statistica l'utilità a causa di errori del II tipo: per la ridotta potenza non sono emerse differenze che in realtà c’erano. Per la potenza si è meno esigenti che per la significatività: ci si accontenta in genere di potenze nell’attorno di 0.8 (80 % invece di 95 %). 3. Una domanda che è sempre necessario porsi allorché ci si accinge ad un confronto è: i dati sono stati raccolti in individui differenti o negli stessi soggetti? Per fare un esempio: voglio verificare se la glicemia di 10 soggetti abituali consumatori di dolciumi è diversa, in media, da quella di 10 vegetariani. I due campioni sono composti da individui differenti: siamo di fronte, in tal caso, a dati indipendenti. Ma quando voglio verificare se la glicemia misurata in 10 soggetti si modifica a seguito di un certo trattamento farmacologico, determinerò la glicemia in ciascun soggetto prima e dopo il trattamento: ottenendo così due campioni, ciascuno di 10 osservazioni raccolte negli stessi individui. Si parla, in tal caso, di dati appaiati, perché per ogni soggetto al dato “prima” corrisponde uno, ed uno soltanto, dei dati “dopo”. Lo schema “prima e dopo” rappresenta la più frequente occasione, in medicina, di avere dati appaiati; ma vi sono anche altre circostanze. Per esempio se voglio confrontare, utilizzando i soliti 10 soggetti, i risultati della misurazione della glicemia ottenibili con il metodo A, con quelli ottenibili con il metodo B. Anche in questo caso i dati delle 10 osservazioni compiute con il metodo A saranno di necessità appaiati con quelli delle 10 misurazioni effettuate con B sugli stessi campioni di sangue. Gli studi con “dati appaiati” sono frequenti nell’area radiologica, perché spesso si vuole esaminare la resa di una metodica in confronto con altre metodiche applicate agli stessi soggetti per le stesse patologie. I test per dati indipendenti sono diversi da quelli per i dati appaiati: ed uno dei più frequenti errori nella pratica è di utilizzare i test per dati indipendenti (che sono più conosciuti), quando si dovrebbero utilizzare test per dati appaiati. I quali sono più efficaci: e quindi adatti a mettere in evidenza come significative differenze che verrebbero ignorate dai test per dati indipendenti. Dal fatto che i dati siano indipendenti od associati dipende quindi la scelta del test adatto; e anticipiamo qui che nel Capitolo che seguirà, dedicato al confronto di dati nominali raccolti in tabelle di contingenza, saranno illustrati i seguenti test: - Chi quadro e test di Fisher per i dati raccolti in due gruppi di soggetti diversi (è il caso, nella pratica, più frequente); - Test di McNemar e Test esatto per dati appaiati per il confronto di due gruppi di dati raccolti negli stessi soggetti ; - Estensione del Chi quadro per l’analisi di più di due gruppi di dati raccolti in soggetti diversi; - Test di Cochran per il confronto di più di due gruppi di dati affiancati negli stessi soggetti. 4. Effettuando un test per confronti ci si dovrebbe infine chiedere: intendo effettuare un test “a due code” o un test “a una coda” ? Si effettua un test “a due code” se si vuole esaminare che sia significativa una differenza comunque orientata (e cioè, allorché si confronta A con B, tanto nel senso che A sia maggiore di B, quanto nel senso che B sia maggiore di A). Si effettua un test a “una coda” se si hanno buone ragioni per pensare che la differenza, se c’è, sia orientata in un particolare modo: per es. che A debba essere maggiore di B e si vuole la prova che ciò sia vero. Per affermare una differenza a “una coda” bastano risultati dei test per il confronto che non sarebbero significativi “a due code”. Ciò è allettante (soprattutto quando si testano dati propri e la differenza la si vuol proprio vedere!), ma pericoloso per la correttezza della ricerca: perciò i risultati di test a una coda vanno valutati con prudenza, ed è in genere consigliabile utilizzare come significativi i valori del test “a due code”. E’ la ragione per cui d’ora in poi forniremo solo questi (come del resto per lo più è nelle tavole dei testi di statistica).

Page 14: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 14

Metodo per il confronto di due proporzioni Capita spesso di chiedersi: ma la differenza fra queste due proporzioni (osservate, per esempio, in soggetti diversi) è significativa oppure no? In genere si preferisce confrontare, con i metodi che vedremo nel Capitolo II, le frequenze dalle quali le proporzioni sono tratte, ma può essere praticamente utile disporre di un semplice metodo (anche se subisce qualche critica nella letteratura statistica) per confrontare direttamente due proporzioni fra loro. Consideriamo la proporzione p1, determinata su un primo gruppo di N1 individui (q1 è il complemento ad 1 di p1) per confrontarla con la proporzione p2 ( q2 sarà 1 – p2 ) determinata su un secondo gruppo di N2 individui. Si calcola Z:

Z =

21

21

11NN

pq

pp

+

Z è significativo con p<0.05 se supera 1.96 e significativo con p<0.01 se supera 2.58 Nella formula di cui sopra, p è la proporzione che si ottiene combinando e considerando unitariamente gli individui di entrambi i gruppi. Ciò è logico: il confronto serve a verificare l’accettabilità dell’ipotesi nulla, quella che i due campioni siano tratti da una stessa popolazione, che avrà un’unica p, di cui p1 e p2 sono stime separate. E’ chiaro che una stima migliore di p (in quanto il campione diviene più numeroso) si avrà riunendo i due campioni ed osservando quale è, in quest’unico gruppo, la proporzione degli individui con la caratteristica che ci interessa. Il tutto apparirà più chiaro nell’esempio che segue. Esempio operativo n. 2 Abbiamo effettuato la scintigrafia ossea in un gruppo di 15 pazienti con accertate metastasi scheletriche da carcinoma tiroideo ottenendo un reperto positivo in 8 ( 8 / 15 = 0.533 = 53.3% ) e in un secondo gruppo di 20 pazienti con metastasi ossee di carcinoma polmonare ottenendo un reperto positivo in 15 (15 / 20 = 0.75 = 75%). Possiamo affermare, in base alla nostra osservazione, che la proporzione di reperti positivi che si ottengono quando la scintigrafia è applicata allo studio delle metastasi ossee da Ca. polmonare è significativamente superiore a quanto si ottiene se le metastasi sono da tumore tiroideo?

Troviamo la proporzione unitaria p: p = 2015158+

+ = 3523 = 0.657 Quindi q = 1-0.657 = 0.343

Calcoliamo Z: Z =

⎟⎠

⎞⎜⎝

⎛+⋅⋅

201

151343.0657.0

75.0533.0 = 1.34

La differenza al numeratore della formula darebbe un numero negativo, ma si prende il valore assoluto. Il risultato non è superiore a 1.96 e quindi concludiamo che, nonostante le apparenze (una proporzione del 75% contro una del 53.3%) non risulta dal nostro studio una significativa differenza di risultati positivi per i due tipi di tumore (può anche darsi che vi sia, ma lo studio, del resto condotto su troppo pochi casi, non la dimostra). Nota I: Questo metodo può essere usato solo se N1 x p1 , N1 x q1 , N2 x p2 e N2 x q2 sono tutti maggiori di 5. Questa è una verifica da fare prima di applicarlo. Nel nostro caso uno solo dei quattro, N2 x q2 , è 20 x 0.25 = 5, ma ciò può essere tollerato.

Page 15: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 15

Nota II: Il metodo tende a sopravalutare le differenze. Perciò se Z calcolato è inferiore a 1.96, come nell’esempio, possiamo tranquillamente affermare che “la differenza non è significativa”. Ma se Z supera 1.96 solo di poco la significatività della differenza dovrebbe venire verificata, per esempio con la formula riportata nella Nota a pag. 23. La differenza fra proporzioni: importanza dell’intervallo di confidenza

Nelle applicazioni mediche quello che di solito interessa è la entità della differenza fra due proporzioni. Supponiamo, ad esempio, che un nuovo farmaco A abbia dato una risposta soddisfacente in 30 su 40 pazienti (il 75%; p =0.75) mentre il tradizionale farmaco B è risultato efficace in 12 su 30 (p = 0.4, 40%) soggetti affetti dalla stessa malattia. Il medico che ha osservato questi risultati si chiede: “Che il farmaco A sembri più efficace si vede ad occhio, ma la differenza d’effetto a favore di A (cioè 75 – 40 = 35%) è realmente significativa o no? Perché se non lo fosse, nonostante l’apparenza, non prescriverei A, che è più costoso, e mi atterrei ancora a B”. A questa e ad altre consimili domande si può rispondere determinando l’Intervallo di confidenza (IC) della differenza: che stabilisce i due limiti entro i quali può stare la differenza “vera” fra le due proporzioni. L’intervallo è dato da:

IC = (p1 – p2 ) ± 1.96 x 2

22

1

11 )1()1(npp

npp −

+−

Dove p1 e p2 sono le proporzioni determinate sui gruppi di cui n1 e rispettivamente n2 indicano la numerosità dei campioni. Applichiamola al caso di cui sopra:

IC = (0.75 – 0.40) ± 1.96 x 306.04.0

4025.075.0 xx

+ =

0.35 ± 1.96 x 008.00047.0 + = = 0.35 ± 1.96 x 0.113 =

0.35 ± 0.22.

Il limite inferiore dell’intervallo sarà quindi: 0.35 -0.22 = 0.129 (12.9 %). Il limite superiore sarà: 0.35 + 0.22 = 0.57 (57 %). Possiamo quindi ritenere che la differenza, indicata come 35 % dalle osservazioni compiute, possa in realtà stare fra 13% (arrotondiamo) e 57 %. E nutriamo una fiducia (confidenza) del 95 % che questo sia vero. Al 95 % perché nella formula c’è 1.96: se ci servisse una fiducia maggiore (al 99 %) metteremmo 2.58 al posto di 1.96; se ci accontentassimo di una minore (al 90 %: sufficiente in parecchi studi clinici) useremmo 1.645. Perché la differenza sia significativa, l’IC non deve comprendere lo 0 (come è ovvio: differenza 0 significa che non c’è differenza). L’intervallo calcolato dal medico è lontano da 0 anche con il suo limite inferiore. Il nostro medico si persuade quindi che vi è una differenza significativa e che vale la pena di prescrivere A, nonostante il costo (facendo felice la Ditta produttrice). La semplice formula qui presentata funziona bene se ogni gruppo è composto da 20 o più soggetti; meno bene per gruppi più piccoli. Applichiamo ora la formula ai dati dell’esempio operativo 2. I calcoli li farà, per esercizio, il lettore: troverà che l’intervallo di confidenza (al 95 %) della differenza può andare da -0.099 (-9.9 %) a 0.533 (53.3 %). La differenza fra le proporzioni non è significativa in quanto comprende lo 0, come è testimoniato dal segno negativo apposto al limite di confidenza inferiore. Che non fosse significativa già lo sapevamo avendo effettuato il test Z, ma ora sappiamo una cosa in più: vi sono meno di 10 punti (9.9)

Page 16: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 16

percentuali a favore dell’ipotesi che la scintigrafia sia più efficace nel rilevare le metastasi da Ca. tiroideo, contro più di 53 (53.3) punti percentuali a favore dell’ipotesi che essa sia più efficace nelle metastasi da ca. polmonare. Diventa quindi probabile che la maggior efficacia non sia stata dimostrata solo perché i casi studiati erano pochi, e siamo indotti a continuare la ricerca, raccogliendo un maggior numero di pazienti. L’importanza di non limitarsi ai test di significatività quando si fanno dei confronti, ma di considerare anche attentamente gli intervalli di confidenza delle differenze è sottolineata da molti Autori: e la cosa non vale solo per le proporzioni, ma per ogni confronto statistico.

C) Quanti casi raccogliere per un confronto fra proporzioni? Abbiamo visto, nell’esempio 2, che la proporzione di reperti positivi ottenuti con la scintigrafia nelle metastasi ossee da ca, tiroideo (0.533 cioè 53.3%) e quella nelle metastasi da ca. polmonare (0.75, il 75%) non era statisticamente significativa. Però la considerazione dell’intervallo di confidenza della differenza ci aveva incoraggiato a proseguire, raccogliendo più casi. Sì, ma quanti pazienti dovrò esaminare per dimostrare bene quella differenza? Per rispondere a questa domanda (che rientra nel problema, più generale, del dimensionamento del campione) vi sono formule abbastanza complesse e tavole reperibili in letteratura. Ma siccome di solito si assume una significatività con p = 0.05 e una Potenza dell’80% c’è una semplicissima formula chiamata “regola del 16” (di Lehr) che ci risparmia di dover scartabellare:

n. casi = 221 )()1(16

pppp

−⋅⋅

dove p1 è la proporzione nel I gruppo (0.533 per l’esempio), p2 quella del secondo gruppo (0.75). Quanto a p, se i due gruppi hanno lo stesso numero di casi è semplicemente la media fra p1 e p2. Questo però non è vero per l’esempio perché in un gruppo ci sono 15 casi e nell’altro 20. Quando i due gruppi hanno diversa numerosità, bisogna sommare le frequenze e rapportarle alla somma dei casi dei due gruppi. Quindi p = (8+15)/(15+20) = 23/35 = 0.657. Proprio la stessa cosa che abbiamo fatto per trovare p da applicare nella formula per il test Z. Di conseguenza la regola del 16 ci dice.

n. casi = ⋅16 2)75.0533.0(343.0657.0

⋅ = 76

Il programma di statistica che ho nel mio PC (oltre Excel uso Statistix 9, più completo e molto “friendly”) dà esattamente lo stesso numero. Dovremo quindi raccogliere 76 pazienti per ciascuno dei due gruppi. Non è certo poco, anche se già abbiamo 15 casi in un gruppo e 20 nell’altro: dobbiamo riflettere se convenga, o no, proseguire la ricerca.

Page 17: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 17

CAPITOLO III - Tabelle di contingenza e confronti di frequenze

A) Ordinamento delle frequenze La tabellina riportata nell’esempio operativo n.1 è un esempio di tabella di contingenza. Le tabelle di contingenza sono un modo di ordinare le frequenze quando vi sono più gruppi (di soggetti o di osservazioni) e gli elementi che compongono tali gruppi vengono classificati in rapporto a più categorie di appartenenza. Il caso più semplice e più frequente nella pratica è quello di due gruppi e due categorie (tabelle 2 x 2 , con due colonne e due righe). Nell’esempio n. 1 il I gruppo è quello dei pazienti con linfonodi metastatici (risultati tali all’accertamento istologico); il II gruppo è quello dei pazienti con linfonodi esenti da metastasi; i soggetti appartenenti ai due gruppi sono suddivisi a seconda che la RM endorettale abbia evidenziato un quadro “positivo” o “negativo” per la metastatizzazione. Ovviamente se i gruppi sono parecchi e/o sono parecchie le categorie, la tabella non sarà 2 x 2 , ma comprenderà più righe e più colonne: sarà cioè una tabella cosiddetta m x n , dove m sono le righe e n le colonne. Per evitare confusioni ed un uso improprio dei test, quando si costruisce una tabella di contingenza bisogna porre cura a riportare nelle colonne la variabile indipendente e nelle righe la variabile dipendente (come nell’esempio n.1, nel quale la caratteristica indipendente è che i linfonodi siano, o no, sede di metastasi, mentre il risultato RM è quello che dipende dalle condizioni dei linfonodi). Sulle frequenze raccolte in tabelle di contingenza si possono effettuare test di confronto (per evidenziare differenze significative) e test di associazione (per studiare correlazioni fra le variabili). Nelle formule che si usano per effettuare i test statistici, gli elementi della tabella di contingenza sono indicati con lettere. Una tabella 2 x 2 assume di conseguenza l’aspetto che segue (al quale fare riferimento per interpretare le formule; le lettere nelle formule possono essere anche maiuscole): GRUPPO Variabile I II Totali + a b a+b - c d c+d Totali a+c b+d n

I totali vengono chiamati totali marginali. Per la tabella dell’esempio n. 1: a = 9; b = 12; c = 2; d = 15 con i totali marginali a+b = 21; c+d = 17; a+c = 11; b+d = 27; n = 38 .

B) Test per i confronti 1) Tabelle 2 x 2: confronto fra dati indipendenti

Il test più impiegato nella pratica è il test del Chi Quadrato: lo esamineremo pertanto in dettaglio. Vi sono però casi (campioni di piccole dimensioni ) nei quali questo test non è correttamente applicabile e bisogna ricorrere al test di Fisher (che è in ogni caso il più esatto, ma ha il difetto di rendere indispensabile l’uso del computer).

Metodo del chi quadrato (2χ )

Principio: si confrontano le frequenze osservate nei due campioni con quelle che ci potremmo attendere se fosse vera l’ipotesi H0; maggiore è la divergenza fra valori osservati e valori attesi (attesi nell’ipotesi

Page 18: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 18

che differenze non ci siano), maggiore è la significatività della differenza. Per capire il principio e il procedimento, applichiamo il metodo allo: Esempio operativo n. 3 Riprendiamo i dati che ci servirono per l’esempio operativo n. 1. Questa volta ci chiederemo: la proporzione di reperti “veri” (cioè confermati come positivi o come negativi dall’esame istologico) è significativamente diversa nello studio con RM endorettale dei linfonodi patologici da quel che è nello studio dei linfonodi esenti da metastasi ? Ciò equivale a chiedersi: la frazione dei “veri positivi” è significativamente diversa dalla frazione dei “veri negativi” ovvero: la sensibilità è significativamente diversa dalla specificità? Poniamo (in grassetto) le frequenze osservate (O) in questo modo: I gruppo (metastasi) II gruppo (linf. indenni) Totali Veri 9 ( a ) 15 ( b ) 24 Falsi 2 ( c ) 12 ( d ) 14 Totali 11 27 38 Quindi ora ci proponiamo di vedere se è significativa la differenza fra 9 risultati “veri positivi” su 11 malati (linfonodi metastatici), con una proporzione di 9/11 = 0.818 (81.8%), e 15 “veri negativi” su 27 soggetti senza metastasi linfonodali, con una proporzione di 0.555 (55.5%). Cioè di esaminare se la sensibilità è significativamente differente dalla specificità. Se si assume che non vi siano differenze fra i due gruppi (ipotesi H0 ), i due campioni possono venire considerati come uno solo e la proporzione di risultati “veri” attesa nell’ipotesi H0 è: 24/38, cioè p = 0.63 (q = 0.37). Questa proporzione ci permette di calcolare le frequenze “attese” se non ci fosse differenza fra i due gruppi. Infatti: a = 0.63 x 11 = 6.95 b = 0.63 x 27 = 17 c = 0.37 x 11 = 4.07 d = 0.37 x 27 = 10 Più semplicemente e praticamente: le frequenze “attese” (E) si trovano per ogni casella moltiplicando i due totali marginali corrispondenti alla casella e dividendoli per N totale. Ad es. per la casella a, E = 24 x 11 /38 = 6.95. Vedremo che questo servirà anche per tabelle più complesse della 2x2 (Tabelle m x n). Scriviamole fra parentesi le frequenze attese E, accanto a quelle osservate O: Veri 9 ( 6.95 ) 15 ( 17 ) Falsi 2 ( 4.07 ) 12 ( 10 ) Il 2χ (di Pearson) si calcola:

- facendo la differenza fra il valore osservato e quello atteso per ogni elemento della tabella; - mettendo la differenza al quadrato (serve a eliminare i segni negativi); - dividendola per il valore “atteso. Perciò:

2χ = 10

)1012(07.4)07.42(

17)1715(

95.6)95.69( 2222 −

+−

+−

+− = 0.695 +0.235+1.053+0.4 = 2.3

(arrotondando il risultato)

Correzione per la continuità di Yates

Per le tabelle 2x2 è stato consigliato da Yates (e ormai da quasi tutti adottato) una correzione al metodo sopradescritto consistente nell’aggiustare i valori osservati di 0.5 punti più vicino ai valori “attesi” (ciò ovviamente diminuisce le differenze e quindi la significatività del valore calcolato di 2χ ).

Page 19: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 19

2χ (corretto) = 10

)105.11(07.4

)07.45.2(17

)175.15(93.6

)93.65.8( 2222 −+

−+

−+

− = 1.32

Importante: il 2χ corretto secondo Yates può essere calcolato dalle frequenze originali di una tabella 2 x 2 con questa formula che rende il calcolo molto facile (ed è quella di solito usata anche nei programmi per PC ), dove le barre verticali indicano “prendi il valore assoluto”:

2χ = ))()()((

)2

( 2

dbcadcba

NNbcad

++++

−− Per l’esempio: 2χ =

2711142438)19215129( 2

xxxxxx −−

= 1.32

Quasi tutti i programmi statistici per PC forniscono sia il risultato non corretto che quello corretto. E’ bene quindi ricordare che il valore trovato senza la correzione di Yates è quello che fornisce il p meglio adatto a valutare la significatività della differenza quando si intenda usare “ad una coda” il test. Questo uso “ad una coda” non è infrequente nella ricerca medica. Mettiamo che si voglia valutare l’effetto di un agente presumibilmente oncogeno (radiazioni, fumo, chemiotossici, ecc.). E’ difficile pensare che negli esposti a questi fattori di rischio si verifichi una significativa diminuzione di tumori rispetto ai non esposti! Quel che si vuol sapere è se l’aumento di neoplasie che probabilmente si osserverà sia significativo o no; e per questo basta un test “a una coda”. Ciò avviene anche per altre applicazioni. Se sperimento un trattamento dimagrante, quello che voglio vedere è se esso provoca una significativa diminuzione di peso: non mi attendo (soprattutto dopo che è stato studiato su animali) che esso faccia ingrassare! Nota.- E’ interessante il calcolo del 2χ a partire non dalle frequenze, ma dalla proporzione del carattere che interessa :

( )( )PP

Ppn ii

−⋅

−⋅= ∑

1

22χ

In essa pi indica la proporzione, in ogni gruppo i, dell’evento che interessa; ni il numero dei casi del gruppo; P la proporzione generale che si ottiene riunendo i casi dei gruppi in un gruppo soltanto. Per miglior chiarezza, ricalcoliamo con questa formula l’esempio di cui sopra, nel quale, ovviamente, l’evento che interessa è il risultato “vero”:

n1 = 11; p1 = 9/11 = 0.818 n2 = 27; p2 = 15/27 = 0.555 P = (9+15)/(11+27) = 0.3675; 1-P = 0.3625

( ) ( )3625.06375.0

6375.0555.0276375.0818.011 222

−⋅+−⋅=χ =

2311.01838.03584.0 + = 2.3

Questa formula torna utile quando si trovano, magari in qualche pubblicazione, risultati espressi come proporzioni, o percentuali, e non come frequenze. Proviamo a calcolare il 2χ per l’ Esempio operativo n. 2.

2χ = ( ) ( )343.0657.0

657.075.020657.0533.015 22

−⋅+−⋅ = 2254.0

00965.0200154.015 ⋅+⋅ = 1.79

Che non è significativo per una differenza.

Page 20: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 20

Programma in Basic per il calcolo del Chi Quadrato per Tab. 2x2 con vari metodi 1 REM CHI QUADRO per tabella 2 x 2 con vari metodi 3 CLS:PRINT:PRINT " Dai, letti per righe, i valori nelle quattro caselle della tabella":PRINT 5 INPUT " a,b,c,d";A1,A2,B1,B2:M1=A1+A2:M2=B1+B2:R1=A1+B1:R2=A2+B2:R=R1+R2 10 E1=M1*R1/R:E2=M1*R2/R:F1=M2*R1/R:F2=M2*R2/R 15 ORU=A1*B2/(A2*B1):LORU=LOG(ORU):VALP=1/A1+1/A2+1/B1+1/B2 20 CP=(A1-E1)^2/E1+(A2-E2)^2/E2+(B1-F1)^2/F1+(B2-F2)^2/F2 25 VALW=1/E1+1/E2+1/F1+1/F2:CW=LORU^2*VALW^-1 30 NU=ABS(A1*B2-A2*B1)-R/2:NUM=NU^2*R:DE=M1*M2*R1*R2:CY=NUM/DE 35 CLR=A1*LOG(A1/E1)+A2*LOG(A2/E2)+B1*LOG(B1/F1)+B2*LOG(B2/F2):CLR=2*CLR 40 CLS:PRINT:PRINT:PRINT " Stime di Chi Quadro con vari metodi:":PRINT 45 PRINT " Chi Quadro di Pearson =";CP 50 PRINT " Chi Quadro di Yates =";CY 55 PRINT " Chi Quadro di Wald =";CW 60 PRINT " Chi Quadro da LR = ";CLR 65 PRINT:END

Il programma chiede i 4 numeri della tabella che bisogna inserire separati da virgole: quindi dopo aver dato il RUN per l’esempio risponderemo alla domanda iniziale scrivendo: 9,15,2,12. La risposta sarà: Chi quadro di Pearson = 2.318 Chi quadro di Yates = 1.325 Chi quadro di Wald = 2.984 Chi quadro da LR = 2.49 Ma perché complicarci la vita –direte voi- quando il test è facilmente disponibile? Perché è praticamente utile avere i risultati anche dei due metodi che non abbiamo descritto in dettaglio, quello di Wald (basato su OR, di cui parleremo nel Capitolo IV) e quello basato sulla “Likelihood Ratio” (LR) della quale parleremo in una prossima dispensa dedicata ai “Test diagnostici”. Infatti: -Notate quanto sia basso il valore del 2χ con correzione di Yates, che è il più comunemente adoperato rispetto agli altri tre. Questo riduce la significatività dei risultati che si ottengono e potrebbe indurvi a buttar via, con un sospiro, i risultati di un vostro studio: “Peccato, non sono significativi!”. Prima di farlo controllate con gli altri metodi usando il programmino in Basic; magari salvate il vostro lavoro. - Con grandi campioni i valori di Pearson, Wald e LR coincidono o sono molto simili. Tendono a divergere con campioni di dimensione minore e se sono molto dissimili non si può fare il 2χ e bisogna ricorrere al test di Fisher (vedi oltre). Se sono differenti, ma non molto (come nell’esempio), Kalbfleidch e Prentice consigliano di dare la preferenza al 2χ da LR, seguito da quello di Pearson. Valutazione della significatività del risultato trovato E’ inutile andare a consultare grafici e Tavole: basta ricordare –ed è facile- che le Tabelle 2x2 hanno 1 Grado di libertà e per 1 GL il 2χ è significativo con p<0.05 se è maggiore di 3.84 e con p<0.01 se maggiore di 6.635. Ma c’è un modo ancor più semplice, che ci evita di ricordare anche questi numeri. Abbiamo visto che Z è significativo con p<0.05 se maggiore di 1.96 e con p <0.01 se maggiore di 2.58. Per 1 GL, Z non è altro che la radice quadrata di 2χ . Quindi basta fare la radice quadrata (è sufficiente

la macchinetta tascabile!) del valore di 2χ ottenuto e vedere se supera 1.96 o 2.58. Per l’esempio, sia il

valore di 2χ trovato senza correzione (2.3) che quello con la correzione di Yates (1.32) sono inferiori

Page 21: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 21

a 3.84; perciò, nonostante le apparenze, la sensibilità della RM per le metastasi linfonodali da ca. rettale non è significativamente maggiore della specificità. Il test esatto di Fisher E’ uno strumento poderoso ed il miglior metodo per il confronto di frequenze in Tabelle 2 x 2; inoltre il test di Fisher è quello che deve essere usato quando si lavora su campioni piccoli. Ma la complessità dei calcoli lo rende poco agevole (solitamente si usa un programma ad hoc per computer). Il test si basa sul fatto che è possibile, per una tabella 2 x 2, calcolare la probabilità esatta di avere una particolare distribuzione osservata. Essa è data dalla formula:

p =

Il punto esclamativo significa, come sappiamo, fattoriale del numero in oggetto. Non è difficile, anche se inutile, ricordare la formula se si pensa che il numeratore è il prodotto dei fattoriali dei totali marginali e il denominatore il prodotto dei fattoriali delle singole caselle, moltiplicato per il fattoriale di N. Esempio operativo n. 4 Serve a capire meglio il principio del metodo. Supponiamo d’aver studiato un piccolo campione con questi risultati:

Malattia A Malattia B Totale Scinti. Pos. 5 (a) 1 (b) 6 Scinti. Neg. 2 (c) 7 (d) 9

Totale 7 8 N = 15 Stiamo esaminando se c’è una differenza significativa fra le proporzioni 5/7 = 0.714 (71.4%) e la proporzione 1/8 = 0.125 (12.5%): sembrerebbe, ad occhio, di sì. Il calcolo della formula:

p =

dà p = 0.034. Un tempo occorreva avere la pazienza di calcolare i fattoriali o di cercarli su apposite tavole; ora vi sarà estremamente facile avere da Excel il fattoriale, anche di grandi numeri, aprendo la funzione FATTORIALE nel menù Funzioni matematiche di Altre Funzioni. Purtroppo fra le funzioni statistiche di Excel non c’è una funzione che esegua il test di Fisher: ve ne è una intitolata ”FISHER” ma restituisce la trasformata di Fisher che non ha a che fare con l’argomento qui trattato. Ciò mi costringe a dilungarmi ulteriormente rendendomi noioso; se vuole, il lettore può saltare al paragrafo “Consigli pratici per i confronti in Tab. 2 x 2”. Il risultato ottenuto (p = 0.034), basta, essendo inferiore a p = 0.05, per respingere l’ipotesi H0 ed affermare che la differenza fra le due proporzioni sia significativa? No, perché non si è verificato se il risultato cade in una “zona critica”. Potrebbe infatti succedere che la probabilità complessiva di avere o il risultato osservato o quello di una o più distribuzioni ancor più sbilanciate superi 0.05 e quindi non sia significativa. Per capire ciò proviamo a calcolare p per tutte le tabelle di contingenza che è possibile ipotizzare, rispettando i totali di riga (6 e 9) e di colonna (7 e 8).

Page 22: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 22

Ecco le tabelle: 1) A B 2) A B 3) A B 4) A B 5) A B + 6 0 6 + 5 1 + 4 2 + 3 3 + 2 4 - 1 8 9 - 2 7 - 3 6 - 4 5 - 5 4 7 8

6) A B 7) A B + 1 5 + 0 6 6 - 6 3 - 7 2 9 7 8

Nonostante le apparenze, costruire queste tabelle non è difficile: basta mettere inizialmente il numero più alto possibile, nel rispetto dei totali marginali, nella casella a (quella in alto a sinistra) e farlo decrescere di una unità alla volta: tutti gli altri tre numeri, rispettando i totali marginali, vengono modificati di conseguenza. Si noti che la distribuzione 2) è quella osservata nella nostra sperimentazione scintigrafica. Calcoliamo ora, con la formula di Fisher, il p di ogni distribuzione. Trovo: Combinazione 1) p = 0.0014 Combinazione 2) p = 0.034 Quella osservata nel nostro esempio Combinazione 3) p = 0.1958 Combinazione 4) p = 0.3916 Combinazione 5) p = 0.2937 Combinazione 6) p = 0.0783 Combinazione 7) p = 0.0056 Esaminando questa tavola si vede subito che le combinazioni 1) e 2) con le probabilità 0.0014 + 0.0336 = 0.035 costituiscono una regione critica (cioè con p <0.05) a una estremità (coda) della distribuzione e la combinazione 7 con p = 0.0056 costituisce la regione critica all’altra estremità (coda). Siccome il risultato osservato (quello della combinazione 2) cade in una zona critica, posso respingere l’ipotesi H0 ed affermare: la differenza fra le due proporzioni di scintigrafie positive nella malattia A e nella malattia B è statisticamente significativa, con p = 0.035 se si usa il test a una coda e p = 0.0406 (0.035 + 0.0056) se si usa a due code.. Importanti consigli pratici per i confronti in Tab. 2 x 2

Sono stato piuttosto dettagliato nel descrivere i due metodi, 2χ e test di Fisher, perché sono fondamentali nella statistica della nostra area professionale. Dal punto di vista pratico può interessare sapere: quando è meglio usare ciascuno di essi? Ecco alcune classiche indicazioni:

1) Quando N è minore di 20 si usi sempre il test esatto di Fisher;

2) Quando N è compreso fra 20 e 40 si può usare il test del 2χ (con la correzione di Yates) se tutte le frequenze attese sono uguali o maggiori di 5.

3) Se, in una qualsiasi delle quattro caselle la frequenza attesa è minore di 5 è sicuramente meglio usare il test di Fisher;

4) Quando N è maggiore di 40 si può tranquillamente usare il 2χ con la correzione di Yates; la correzione non è necessaria se N e i valori attesi nelle singole caselle sono grandi.

Page 23: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 23

In realtà con l’odierna disponibilità dei PC e di programmi statistici per essi, quando si tratta di confrontare due gruppi di dati il test esatto di Fisher può essere usato quasi sempre, perché lo si trova facilmente e può venir effettuato anche con campioni piuttosto grandi (con Statistix 9 fino a 500 casi complessivi nella tabella). Inoltre l’uso del computer è indispensabile perché, se i numeri della Tabella non sono molto piccoli, calcolare “a mano” un test di Fisher, come abbiamo fatto a scopo didattico, è impresa da insano di mente. Infine: quanti casi dobbiamo raccogliere per un confronto valido? Nessun problema; se si vuole significatività con almeno p = 0.05 e potenza dell’80 % (quella da quasi tutti impiegata) si può applicare la semplice “regola del 16” (di Lehr) già vista parlando delle proporzioni. Naturalmente dopo aver trasformato in proporzioni le frequenze della tabella 2 x 2, come ormai sappiamo fare. 2) Tabelle 2 x 2: confronto fra dati appaiati

Talvolta si vogliono confrontare frequenze e proporzioni osservate negli stessi soggetti. In medicina ciò avviene per lo più nei disegni “prima-dopo” nei quali si vuol verificare come una caratteristica, osservata prima di un certo trattamento, viene modificata dal trattamento stesso. In radiologia e medicina nucleare il caso più frequente (anzi è un caso molto comune) è che si vogliono confrontare i risultati di due metodi diversi applicati agli stessi pazienti. Test di Mc Nemar Diamo spazio a questo test perché molto valorizzato nei testi di statistica; in realtà la diffusione di Excel (Windows Office) rende preferibile il test esatto descritto più sotto, stranamente poco citato e assai poco utilizzato. Il test di Mc Nemar per dati appaiati può essere utilizzato per variabili nominali dicotomiche esprimendo un risultato come “positivo” (+) e il risultato alternativo come “negativo” (-). Si dispongono i risultati in una tabella 2x2 -proprio come vedete qui sotto, in modo che i risultati positivi si affaccino sulla stessa casella a- mettendo nelle righe quelli (positivi e negativi) ottenuti con un metodo (oppure “prima”) e nelle colonne i risultati ottenuti con l’altro metodo (o “dopo”). + - + a b - c d Per il test si tiene conto solo dei risultati che divergono fra loro, cioè b e c, e si calcola:

2χ = cb

cb+

−− 2)1(

Le due barre verticali al numeratore significano “prendi il valore assoluto della differenza” (togliere quindi il segno negativo – se compare). Esempio operativo n. 5 Frank J. et al. hanno applicato sia l’Ecografia che la TC allo studio dei tumori pancreatici. In 38 casi i risultati furono concordemente positivi per tumore e in 18 concordemente negativi. Due casi negativi alla TC risultarono positivi all’ecografia; per contro la TC risultò positiva in ben 12 casi negativi all’ecografia. Tabella:

Page 24: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 24

Ecografia + - + 38 12 TC - 2 18

Applichiamo la formula:

2χ = 14

)1212( 2−− = 5.78

Il risultato, essendo maggiore di 3.84 ( con GL = 1: è una tabella 2 x 2) depone per una differenza significativa fra i due metodi diagnostici, indicando una superiorità della TC. Questo test è di esecuzione abbastanza facile, ma non è da applicare se il totale dei risultati discordanti (b + c) è minore di 10. Purtroppo siamo vicini a 10, nel nostro esempio. In tal caso bisognerebbe effettuare il test esatto (vedi sotto) per avere una miglior significatività.. Nota. Chi non conosce il test di Mc Nemar avrebbe probabilmente effettuato così un 2χ : Ecografia TC Positivi 40 50 Negativi 18 2

Trovando un 2χ (corretto secondo Yates) = 2.52 erroneamente non significativo! Test esatto per il confronto di dati appaiati in Tab. 2 x 2 Si basa sul valore di F, trovato, con riferimento alle caselle della Tabella 2x2, in questo modo:

F = 1+cb Quindi per il nostro esempio avremmo: F =

1212+

= 4

Se b fosse minore di c, bisogna scambiarli : mettere b al posto di c e viceversa. La significatività di F = 4 va cercata nelle Tavole della distribuzione di F, che di solito si usano per l’ANOVA, entrandovi con 2c + 1 Gradi di libertà al numeratore (quindi 6 per il nostro esempio) e 2b Gradi di libertà al denominatore (nel nostro caso: 24). Ma cercare nelle Tavole è inutile se si dispone di Excel, perché la funzione DISTRIB.F vi è preprogrammata. Cercandola (il lettore ormai sa farlo) e rispondendo con 4, 6, 24 alle tre domande poste dalla relativa finestra, si otterrà la probabilità esatta (dell’ipotesi nulla): p = 0.00647. Quindi la differenza è altissimamente significativa a favore della TC. In realtà, disponendo di un PC con Windows Office, non vi è ragione di continuare ad usare il test di McNemar: il Test esatto è più accurato ed informativo e può essere eseguito praticamente sempre e con tutta facilità.

Page 25: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

C) Tabelle m x n 1) Confronto fra dati indipendenti

Estensione del test del Chi Quadrato

Il test che abbiamo studiato per le tabelle 2 x 2 può essere esteso a confronti multipli di frequenze raccolte in una tabella m x n seguendo esattamente lo stesso procedimento già illustrato per il 2χ di Pearson. E cioè, ripetiamo: 1) si trova, per ogni casella, il valore atteso E moltiplicando fra loro i totali marginali pertinenti alla casella e dividendo il risultato per in numero totale N dei dati; 2) si fa la differenza fra il valore atteso E ed il valore osservato O e la si pone al quadrato; 3) si divide il quadrato per il valore atteso per quella casella; 4) si sommano i risultati ottenuti per ciascuna casella e la somma su tutte le caselle è 2χ .

Due avvertenze: - non si applica la correzione di Yates

- i Gradi di Libertà (GL) per i quali verificare nella Tavola del Chi Quadrato la significatività del risultato sono: GL = (m – 1) x (n – 1). Per comodità del lettore ho messa una tavola semplificata al termine di questi Appunti. Nel caso delle Tabelle 2 x 2 GL = 1 e, quando ne abbiamo parlato, abbiamo preferito evitare l’uso della Tavola, citando direttamente i due valori critici per p = 0.05 e p = 0.01 (cioè 3.841 e 6.635). Ma per un confronto multiplo la consultazione della Tavola sarebbe indispensabile, cercando i valori “critici” nella riga corrispondente ai G.L. definiti con la formula sopra riportata.

Possiamo però farne a meno, come vedremo nell’esempio, disponendo delle funzioni statistiche di Excel. Sia lode a Bill Gates! In ogni caso c’è una regola molto empirica e grossolana, ma facile da ricordare: il risultato è significativo con p<0.05 se 2χ supera il numero delle caselle della tabella. Nell’esempio che

segue le caselle sono 9 e il valore critico, per p = 0.05, di 2χ con 4 GL è 9.48. Questa regola è tanto più precisa quanto maggiore è il numero dei gruppi e delle caselle.

A questo punto se riscontriamo che il valore trovato non è significativo, tutto finisce: entro la tabella m x n, per quanto estesa sia, non vi sono differenze. Invece se il valore è significativo (perché corrisponde a un p<0.05) è segno che vi è una o più differenze e il problema diviene quello di localizzarle: dove sono?

Illustriamo il 2χ per confronti multipli e la localizzazione delle differenze con un esempio riguardante una tabella 3 x 3.

Esempio operativo n. 6 In una ricerca (non realmente effettuata: i dati sono di fantasia, a scopo didattico) su 273 pazienti affetti da tumori polmonari (suddivisi in tre categorie: metastasi, non-small cell carcinoma e microcitoma) è stata studiata la captazione del Gallio radioattivo, definita in tre gradi: I (bassa: uguale o minore di quella delle parti molli); II (discreta: più delle parti molli, ma meno del fegato); III (elevata: più del fegato). Nella tabella sono riportati i risultati, con accanto fra parentesi i valori attesi, calcolati come si è detto. Con R è indicato il totale di riga e con C il totale di colonna. Metastasi Non-small cell Microcitoma R

Page 26: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 26

I grado 56 (50.41) 30 (23.93) 13 (24.66) 99 II grado 46 (42.77) 18 (20.31) 20 (20.92) 84

III grado 37 (45.82) 18 (21.76) 35 (22.42) 90 C 139 66 68 N = 273

Con questi valori posso calcolare il Chi Quadrato:

(56-50.41)2/50.41 + (30-23.93)2/23.93 + … + (35-22.42)2/22.42 = 17.62

In base alla regola empirica sopracitata sappiamo già che il risultato è significativo (le caselle sono 9) ma vogliamo avere il valore esatto di p. Apriamo le funzioni statistiche di Excel e clicchiamo su quella indicata come DISTRIB.CHI. Appare una finestra che chiede il valore X e noi introduciamo 17,62 (ricordiamo che ci vuole la virgola, non il punto!) e i Gradi di Libertà e noi introduciamo 4 cioè (3 - 1) x (3 – 1). Apparirà, in basso a sinistra nella stessa finestra, la risposta: p = 0,00146. E’ un risultato altissimamente significativo!

Quindi ci sono realmente, nella tabella, una o più differenze. Ma dove? Per localizzare le differenze è riportato nei libri di statistica un metodo piuttosto complicato che si chiama scomposizione in tabelle di partizione. Un metodo più semplice (basta una calcolatrice tascabile!) è l’analisi dei residui standardizzati (RS). Chiamiamo O il valore osservato ed A quello atteso, riportati nella tabella.

Il residuo è, per ogni casella, il valore: AAO − che viene standardizzato moltiplicandolo per

RNCN

− (dove C ed R sono i totali marginali della colonna e della riga alla quale la casella

appartiene).

Facciamo il calcolo per la prima casella: RS = 41.5041.5056 − x

99273139273−

− = 0.69

Ripetendo questa operazione per tutte le caselle, possiamo costruire una tabella dei RS:

Metastasi Non-small cell Microcitoma I grado 0.69 1.353 -2.55* II grado 0.416 -0.536 0.21 III grado -1.112 -0.86 2.81**

Questi valori seguono la statistica Z, quindi la differenza è significativa con p<0.05 (* in tabella) se RS è maggiore di 1.96 e con p<0.01 (** in tabella) se RS è maggiore di 2.58. Considerando la tabella dei residui standardizzati possiamo concludere che l’unica differenza significativa riguarda il microcitoma, per il quale rispetto agli altri istotipi è meno (segno negativo!) frequente (p<0.05) una bassa captazione e per contro assai più frequente (p<0.01) una captazione elevata, di III grado.

Poiché i calcoli sono laboriosi ed i programmi per PC che danno il 2χ per confronti multipli in genere omettono l’analisi dei residui standardizzati, ritengo opportuno inserire qui il secondo dei programmi in GW-Basic 3.23 di questo testo. Il suo impiego è molto semplice: una volta caricato il programma, bisogna creare la linea 70 DATA… per inserirvi, separati da virgole, i dati della tabella letti per colonna (nel listato sono già posti, a titolo dimostrativo, i dati dell’esempio). Dato il RUN, si deve rispondere alle due domande del computer circa il numero delle righe e delle colonne (per il

Page 27: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 27

nostro esempio, digitando 3 in entrambi i casi); il programma presenterà il valore di 2χ e se esso è inferiore al valore critico per i GL segnalerà che nella tabella non vi sono differenze significative; in caso opposto fornirà il valore di Z precisando in quali caselle è significativa la differenza fra il valore osservato e quello atteso nell’ipotesi nulla e se la significatività è con p<0.05 o con p<0.01.

Programma in Basic ESTENCHI Chi Quadrato per confronti multipli 10 REM "ESTENCHI" Chi Quadro per confronti multipli con analisi dei residui standardizzati 20 REM Inserire per colonne i valori della tabella in 70 DATA... 30 INPUT "QUANTE RIGHE";R:INPUT "QUANTE COLONNE";C:DIM L(20),D(R,C),E(R,C),C(C),R(R),RS(R,C):GL=(R-1)*(C=1) 40 FOR J=1 TO 20:READ L(J):NEXT 50 FOR J=1 TO C:FOR I=1 TO R:READ D(I,J):C(J)=C(J)+D(I,J):R(I)=R(I)+D(I,J):NEXT:N=N+C(J):NEXT 60 FOR I=1 TO R:FOR J=1 TO C:E(I,J)=R(I)*C(J)/N:NEXT:NEXT 70 FOR J=1 TO C:FOR I=1 TO R:CHI=CHI+(D(I,J)-E(I,J))^2/E(I,J):NEXT:NEXT 80 CLS:PRINT:PRINT " CHI QUADRO =";CHI;"con";(R-1)*(C-1);"GL":IF CHI<L(GL) THEN PRINT " Differenze non significative":GOTO 140 90 PRINT:FOR I=1 TO R:FOR J=1 TO C 100 RS(I,J)=(D(I,J)-E(I,J))/SQR(E(I,J))*SQR((N-C(J))/(N-R(I))) 110 IF ABS(RS(I,J))>1.96 AND ABS(RS(I,J))<2.58 THEN PRINT " Z =";INT(RS(I,J)*1000)/1000;" Differen. significat. alla casella: riga";I;"colonna";J;"con p <";.05 120 IF ABS(RS(I,J))>2.58 THEN PRINT " Z =";INT(RS(I,J)*1000)/1000;" Differen. significat. alla casella: riga";I;"colonna";J;"con p <";.01 130 NEXT:NEXT 140 PRINT:END 150 DATA 3.84,5.99,7.815,9.49,11.07,12.59,14.067,15.51,16.92,18.307,19.675, 21.03,22.36,23.685,25,26.3,27.59,28.87,30.14,31.41 160 DATA 56,46,37,30,18,18,13,20,35

2) Confronto fra dati associati

Rimane da considerare il caso di più gruppi di dati associati: non raro nell’area radiologica e in medicina nucleare, perché spesso si vogliono confrontare i risultati di più metodiche applicate agli stessi soggetti. In questi casi si può usare il test Q di Cochran. Test Q di Cochran

E’ un test adatto per dati nominali dicotomici (o dicotomizzabili): positivo/negativo, successo/insuccesso ecc. Si assegna il valore 1 ad uno dei due risultati possibili (in genere quello in qualche modo “vantaggioso”) e 0 all’altro e si dispongono gli 0 ed 1 in una tabella di n righe (n è il numero dei casi) per k colonne (k è il numero dei gruppi). Ma la metodologia del test (che non è facile trovare in programmi per computer) sarà meglio spiegata con lo sviluppo di un esempio.

Page 28: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 28

Esempio operativo n. 7 L’esempio riguarda quattro metodi diagnostici ( k = 4) applicati a 20 soggetti ( n = 20) affetti da metastasi epatiche da tumore della mammella. Ecco la Tabella (nella quale 1 = reperto di metastasi):

Pazienti ECO PET RM TC L L2

1 1 1 1 1 4 16 2 1 1 0 1 3 9 3 0 1 0 0 1 1 4 0 1 1 1 3 9 5 0 0 1 1 2 4 6 0 1 0 0 1 1 7 1 0 1 1 3 9 8 0 1 0 1 2 4 9 0 1 1 1 3 9 10 1 1 0 1 3 9 11 1 1 1 1 4 16 12 0 0 1 1 2 4 13 1 1 1 1 4 16 14 0 1 0 1 2 4 15 1 0 1 1 3 9 16 0 0 1 0 1 1 17 0 1 1 1 3 9 18 1 1 0 0 2 4 19 0 1 0 1 2 4 20 0 0 0 1 1 1 G 7 14 12 16 (somma = 49)

G2 49 196 144 256 (somma = 645)

In calce alla tabella segniamo G, il numero degli 1 presenti in ogni colonna (è il numero dei casi che ogni metodica segnala come metastatici) e, sotto, G2: i quadrati di G. Gli L a margine sono il numero degli 1 presenti in ogni riga; gli L2 gli stessi posti al quadrato. Calcoliamo ora: somma dei G = 49; somma dei G2 = 645; somma degli L = 49; somma degli L2 = 139. La formula del Q di Cochran è:

Q = (k-1) ∑ ∑∑ ∑

−2

22 )(LLkGGk

Applichiamo la formula del Q di Cochran al nostro esempio:

Q = 3 x 139494496454 2

xx = 93.6

Per testare la significatività di Q vi sono apposite tabelle (si veda il libro di Siegel e Castellan citato nell’Introduzione), ma se il numero dei casi non è troppo piccolo (k x n deve essere maggiore di 24) Q è bene approssimato da 2χ con k-1 GL.

Page 29: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 29

Un 2χ di 93.6 corrisponde nella Tavola in calce alla dispensa , per 3 GL, a una p <0.01. Possiamo quindi ritenere che vi sono differenze significative (con p<0.01) fra le metodiche (o almeno fra qualcuna di esse) nel rilevare le metastasi epatiche. In realtà, guardando i dati, la differenza più evidente è fra la TC (con tecnica trifase) che dà 16 risultati positivi e l’Eco, che ne dà solo 7. E’ statisticamente significativa questa differenza? Si tratta di dati associati, quindi il controllo lo possiamo fare con il test di McNemar, che già conosciamo. Nel nostro caso troviamo, per il confronto TC-ECO,

101)19( 2

2

+

−=χ = 5.82

Il valore trovato conferma la significatività della differenza (con p<0.05). Se si fa la stessa operazione con TC e RM (16 risultati positivi contro 12) si ha un risultato di 1.78, che non è significativo (e diviene inutile una verifica per la PET che con 14 risultati positivi non differirà né dai 16 della TC né dai 12 della RM). La conclusione è che tre metodiche su quattro danno risultati praticamente equivalenti e solo l’Ecografia scarta significativamente dalle altre, nel senso che è meno efficace.

Page 30: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 30

CAPITOLO IV - Regressione e Odds Ratio (OR)

Sono sicuro che la maggior parte degli specializzandi sa che, in statistica, la regressione serve a valutare quanto e in che modo (lineare, non lineare) una variabile vari con il variare di una o più altre. Lo sa perché l’ha vista applicare su dati numerici; inoltre quasi tutti conoscono la rappresentazione grafica di una retta di regressione lineare. Ma sono altrettanto sicuro –per esperienza- che la maggior parte degli specializzandi che leggeranno questi Appunti rimarrà sorpresa nell’apprendere che il concetto di regressione vale anche per dati categoriali e trova, anzi, importanti applicazioni pratiche.

Per affrontare l’argomento in questo lungo ma importantissimo Capitolo, chiariamoci il significato di un termine un po’ esoterico: Odds Ratio, cominciando dal caso più semplice, quello della Regressione in tabella 2 x 2.

Odds e Odds Ratio (OR) In molte delle formule fin qui riportate abbiamo visto comparire un prodotto di probabilità (o proporzioni) designato pq: poiché q è 1 – p è chiaro che si tratta del prodotto di una probabilità, espressa in termine di frequenza relativa, con il suo complemento ad 1. Esiste però, ed è di frequente impiego nella letteratura statistica anche il rapporto fra queste due probabilità: cioè p/(1-p). Esso è chiamato Odds nella letteratura anglosassone e spesso anche in quella italiana, perché mal traducibile. Una traduzione consigliata da qualcuno è “termine di scommessa” perché ne chiarisce il significato: quello di indicare il “vantaggio” che ha una possibilità rispetto a quella opposta. Se per esempio, ritengo (implausibilmente, di solito) che fra le squadre milanesi l’Inter abbia l’80% di probabilità di vincere lo scudetto e il Milan solo il 20% otteniamo Odds = 0.8 / 0.2 = 4. Questo è come scommettere 4 a 1 che l’Inter vincerà il campionato. La Maledetta (io sono milanista) ha una probabilità quattro volte maggiore. Ci accorgiamo così che nel vivere comune spesso ragioniamo o parliamo in termini di Odds, senza neanche saperlo. Naturalmente avendo l’Odds si può ricavare la probabilità: p = Odds / (1 + Odds). Nel caso nostro p = 4 / (1+4) = 0.8 (80%): che è appunto la probabilità che ha l’Inter di appuntare sulla maglia un nuovo scudetto, insieme a quelli precedentemente rubati.

Il più frequente e importante impiego degli Odds in medicina riguarda proprio le tabelle 2 x 2 per la valutazione del rischio.

E’ infatti frequente dover verificare quanto la probabilità di un evento venga modificata da un certo fattore (è una regressione, se ci pensate): per esempio un fattore di rischio, che aumenta la probabilità di un evento nocivo, oppure il risultato di un trattamento, che la diminuisce. In questi casi vi sono, ovviamente, due gruppi di soggetti: uno nel quale il fattore non è presente – si chiama gruppo di controllo- che consente di stimare la probabilità (frequenza relativa) p1 dell’evento quando non è influenzato dal fattore; l’altro che permette di stimare p2, la probabilità che ha l’evento di verificarsi quando è presente il fattore modificante (gruppo esposto al fattore di rischio). Il rapporto degli Odds del secondo gruppo (se questo è quello nel quale il fattore è presente) rispetto a quelli del primo è una quantità chiamata in letteratura Odds ratio per solito indicata con la sigla OR. Essa è un indice del rischio relativo, cioè di come incrementa il rischio nel gruppo esposto rispetto a quello di controllo. Se il gruppo esposto è il secondo, OR si può calcolare come:

OR = 1

1

2

2

1/

1 pp

pp

−−

Page 31: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 31

In italiano OR è designato spesso come “rapporto crociato”: opportunamente, perché indica che vi è un modo per ottenerlo molto più semplice che la formula sopra riportata. Supponiamo la solita tabellina 2 x 2: per costruirla avremo però cura di assumere come I gruppo quello ove è presente il fattore di rischio che interessa. I gruppo II gruppo a b c d

OR è, semplicemente, (a x d) / (b x c) Poiché OR è un rapporto fra gli Odds dei due gruppi, se p1 è uguale a p2 ovviamente è OR = 1; il che è come dire che il fattore preso in considerazione non ha alcun effetto né nell’aumentare né nel diminuire la frequenza dell’evento come osservata nel gruppo di controllo. Il logaritmo naturale di OR è il cosiddetto coefficiente di regressione b

b = ln Odds Si chiama coefficiente di regressione perché pone in rapporto il fattore con l’effetto: se il coefficiente di regressione non è significativamente diverso da 0, il fattore preso in considerazione non ha alcuna influenza sul risultato. Avendo il coefficiente di regressione si possono calcolare l’Errore standard di OR ed i suoi Limiti di confidenza, nel modo che sarà illustrato nell’esempio operativo n. 8 , che è importante per rendere più chiaro quanto qui si è detto. Ma prima è opportuna una breve digressione su quali tipi di studio solitamente conducono alla necessità di una valutazione del rischio e quindi all’impiego di OR.

Applicazioni di OR Elaborazioni basate su OR sono frequentissime, quasi la regola, nella ricerca medica ed epidemiologica. I tipi di studio sono diversi (studi sperimentali e studi osservazionali: di coorte, caso-controllo, studi trasversali), ma solitamente si concludono con un confronto fra due gruppi. Il primo è composto dai soggetti esposti ad un fattore di rischio (del quale si vuole vedere l’effetto patogeno) oppure sottoposti ad un particolare trattamento (del quale si vuole vedere il vantaggio) . Il secondo gruppo (chiamato gruppo di controllo) è composto da soggetti simili a quelli del I gruppo tranne per il fatto di non essere esposti al fattore di rischio (oppure non ricevere il trattamento che si sta studiando: negli studi sperimentali essi continuano nel trattamento tradizionale o ricevono un placebo). Scopo del confronto è vedere la significatività del risultato ottenuto e quale sia il rischio indotto (o ridotto) dal fattore: e siccome i risultati, se consistono in dati categoriali, sono per lo più raccolti in tabelline 2 x 2, ecco che si possono applicare i metodi fin qui studiati. Non ritengo di dover entrare in dettagli sugli studi sperimentali. Nella nostra Area sono rarissimi, per ragioni etiche (noi operiamo con un mezzo, le RI, potenzialmente lesivo). Vale invece la pena di aggiungere qualche dettaglio sui due principali studi osservazionali che si usano in epidemiologia e che interessano anche la nostra Area: gli studi di coorte e gli studi caso-controllo.

* Negli studi di coorte si identifica un gruppo di soggetti (più sono, meglio è) esposti ad un fattore di rischio; lo si affianca con un altro gruppo numericamente equiparabile (o anche più numeroso) di soggetti aventi caratteristiche simili ai precedenti, ma non esposti; si stabilisce un periodo di follow-up e si va a vedere e registrare, prospetticamente, quale è l’incidenza in tale periodo dell’evento che interessa in ciascun gruppo, onde procedere ad un confronto statistico. L’esempio n. 8, che seguirà, è uno studio di coorte, su un follow-up di quattro anni, ed in esso calcoleremo un importante parametro

Page 32: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 32

per il confronto fra i due gruppi, il rischio relativo, cioè il rischio osservabile nel gruppo esposto rispetto al gruppo di controllo.

* Negli studi caso –controllo si raccoglie un certo numero di casi di una particolare patologia; lo si affianca con un numero equiparabile, se maggiore ancor meglio, di soggetti simili, ma privi della patologia e poi si va a vedere retrospettivamente mediante anamnesi, interviste, documentazione storica, se un fattore che pensiamo possa essere all’origine della patologia sia effettivamente, ed in misura significativa, maggiormente presente nel gruppo dei “casi” che in quello dei “controlli”. E’ da sottolineare che in questo tipo di studio non è possibile calcolare il rischio relativo come faremo nel nostro esempio, perché non sappiamo quante persone, nel gruppo dei casi, si siano ammalate proprio a causa di quel fattore e neanche sappiamo quanti furono esposti a rischio per giungere a quel numero. E’ però possibile stimare questo rischio tramite OR con il procedimento che abbiamo indicato, perché anche OR è una stima del rischio relativo; esso quindi trova indicazione elettiva proprio negli studi caso-controllo. Sovente, in letteratura, OR viene applicato anche a studi di coorte, ma la cosa non è correttissima e vedremo il perché nello esempio che segue: che chiarirà bene dei concetti che possono essere sembrati, fin qui, piuttosto oscuri. Lo specializzando non si scoraggi.

Esempio operativo n. 8: uno studio di coorte. Un antico assioma dei medici suonava così : “ olim tromboticus, semper tromboticus” significando in lingua dotta la constatazione che le trombosi arteriose tendono inevitabilmente a ripetersi. La presenza di una ischemia residua dopo infarto miocardico incide sulla frequenza del reinfarto? Sono stati studiati con miocardioscintigrafia allo scopo di accertare la presenza, o meno, di una ischemia residua 268 infermi sopravvissuti ad infarto miocardico ed i pazienti sono stati seguiti per quattro anni allo scopo di osservare la eventuale comparsa di un secondo infarto. I risultati sono riportati nella seguente tabella 2 x 2, nella quale le colonne rappresentano i due gruppi nei quali sono stati suddivisi i pazienti a seconda che manifestassero, o no, ischemia residua all’esame scintigrafico.

Ischem. Residua sì Ischem. Residua no Reinfarto si 20 (a) 6 (b) Reinfarto no 116 (c) 126 (d) Totale 136 132

E’ evidente che il reinfarto colpisce 20 dei 136 infermi con ischemia residua e solo 6 dei 132 che non hanno ischemia residua; le probabilità (rischio) sono perciò, nel gruppo esposto:

20/136 = 0.147 ( 14.7 %) e rispettivamente , nel gruppo di controllo:

6/132 = 0.045 ( 4.5 %). I rischi così calcolati (cioè frequenza dell’evento che interessa / totale del gruppo) si chiamano rischi assoluti. Il rapporto fra i rischi assoluti dei due gruppi, nel nostro caso 0.147 / 0.045 = 3.27 si chiama rischio relativo (RR) e ci indica che gli esposti al fattore di rischio (aventi cioè una ischemia residua svelata dall’esame scintigrafico) hanno una probabilità più di tre volte maggiore degli altri di andare incontro ad un nuovo infarto. Un test al χ2 ci mostra che nella tabella la differenza fra i due gruppi è altamente significativa ( p = 0.009) e non è dovuta al caso: la ischemia postinfartuale residua favorisce la comparsa di un nuovo infarto.

Page 33: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 33

Dalla stessa tabella 2 x 2 si possono ricavare parecchie altre misure di rischio utili in epidemiologia o nella clinica: Eccesso di rischio assoluto, Eccesso di rischio relativo, Sopravvivenza, Rischio attribuibile, Rischio evitabile e Numero di pazienti da trattare (questi due ultimi sono utili quando l’esposizione, per es. a un nuovo farmaco, riduce il rischio osservato nei controlli). Ma l’argomento ci porterebbe troppo lontano; lo specializzando, se vuole, può approfondirlo nei testi di statistica o di epidemiologia (molto semplice e chiaro, fra questi ultimi, il libretto di Alfredo Morabia L’epidemiologia clinica Il Pensiero Scientifico Editore). Vediamo piuttosto quale è la stima del rischio relativo che ci dà, per la stessa tabella, il rapporto crociato OR:

OR = (a x d) / (b x c) = (20 x 126) / (6 x 116) = 3.62

Quindi nel nostro esempio RR è 3.27 con il calcolo diretto e 3.62 con OR: valore vicino ma non identico. I due valori tanto più differiscono quanto più piccolo è il campione e più elevata in esso la proporzione dell’evento che interessa. Ripetiamo che ogniqualvolta sia possibile la valutazione diretta del rischio (e negli studi sperimentali e negli studi di coorte lo è) essa è preferibile. Comunque, o con l’uno o con l’altro metodo, la presenza alla miocardioscintigrafia di ischemia residua dopo un infarto segnala un rischio di reinfarto aumentato, in media, di circa tre volte e mezza. Questo è un pressante invito a ricorrere a tutti i mezzi possibili per ristabilire una corretta irrorazione miocardica. Perfezioniamo il calcolo di OR

Vediamo come perfezionare il calcolo di OR per ricavare altri interessanti parametri statistici. Abbiamo già detto che il logaritmo naturale di OR è il cosiddetto coefficiente di regressione b b = ln Odds Questo coefficiente pone in rapporto il fattore (ischemia miocardica) con l’effetto (reinfarto): se b fosse 0 , o non significativamente diverso da 0, l’ischemia residua non sarebbe causa di reinfarto. Cercando il logaritmo naturale di 3.62 nelle solite funzioni matematiche di Excel troviamo b = 1.2865. Verifichiamo: prendendo l’esponenziale di b si ottiene OR: e1.2865 = 3.62 come già sappiamo. Il tutto richiede meno di un minuto; ma qual è lo scopo? E’ che si può calcolare l’errore standard di b:

ES(b) = dcba1111

+++

verifichi il lettore che con questa formula per l’esempio si ottiene ES(b) = 0.482 e quindi b = 1.2865± 0.482.

E a cosa serve avere l’errore standard del coefficiente di regressione? In primo luogo a verificare se b è significativamente diverso da 0. Questo è molto importante perché se non lo fosse, vuol dire che il fattore preso in considerazione non ha un effetto reale (nel caso nostro: che l’ischemia residua non incide sulla probabilità del reinfarto). Questa verifica si fa dividendo il coefficiente per il suo errore:

Z = b / Es(b) Come il lettore ricorderà, Z è significativo con p<0.05 se supera 1.96 e con p<0.01 se supera 2.58. Nel caso nostro è:

Z = 1.2865 / 0.482 = 2.67

quindi sappiamo che con alta probabilità (p<0.01) l’ischemia residua predispone al reinfarto. In secondo luogo, si possono determinare i limiti di confidenza (al 95%) di b, che saranno:

Page 34: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 34

Limite inferiore = b – 1.96 ES Limite superiore = b + 1.96 ES

Per l’esempio, ove 1.96 volte 0.482 è 0.944, sarà:

Limite inferiore = 1.2865 – 0.944 = 0.342 e Limite superiore = 1.2865 + 0.944 = 2.231 Il coefficiente b, che nel nostro campione è 1.2865, può quindi nella realtà trovarsi (con il 95% di confidenza) entro un intervallo che va da 0.342 a 2.231. Se prendiamo l’esponenziale di questi due valori (Excel!) abbiamo i limiti fiduciali di OR, che potrà variare da e0.342 = 1.41 a e2.231 = 9.31. Quindi in realtà il rischio di reinfarto, mediamente stimato in tre volte e mezza, può andare, con una fiducia del 95 %, da una volta e mezza circa a quasi dieci volte. Anche per il RR valutato direttamente, come negli studi sperimentali o in quelli di coorte, si può calcolare un coefficiente b (logaritmo naturale di RR) e il suo errore standard con la formula:

ES(b) = fbea1111

−+−

Dove e è il totale del I gruppo (esposti) e f è il totale del II gruppo (controlli). Poi si procede come già illustrato per OR onde ottenere l’ES e l’intervallo di confidenza di RR.

Un problema per i confronti: la standardizzazione

Nello studio di coorte che abbiamo appena esaminato gli esposti ed i non esposti al fattore di rischio, rappresentato dall’ischemia, sono tratti dalla stessa popolazione: i sopravvissuti all’infarto miocardico. I due gruppi hanno quindi caratteristiche omogenee, salvo per l’ischemia residua. Ma quando la popolazione esposta ha caratteristiche particolari e la si deve confrontare con una popolazione non esposta di diverse caratteristiche cosa bisogna fare? E’necessario standardizzare i risultati raccolti negli esposti come se fossero stati raccolti nei non esposti. In genere questo problema non riguarda gli studi caso-controllo, perché per ogni caso si sceglie appositamente un controllo che gli somigli. E’invece un’evenienza abbastanza frequente per gli studi di coorte, soprattutto in certi campi. Uno, tipico, è quello radio epidemiologico. Mettiamo, per fare un esempio, che io voglia studiare se in una popolazione cronicamente esposta a radiazioni, come i lavoratori di una centrale nucleare o di un gruppo di centrali, si verifichi una mortalità maggiore del normale. E’evidente che questa popolazione ha caratteristiche diverse dalla popolazione normale con la quale devo confrontarla: gli uomini prevalgono sulle donne e, soprattutto, completamente diversa è la distribuzione dell’età. Gli esposti appartengono tutti all’”età lavorativa” dai 20 ai 65 anni ed anche entro questo range la distribuzione delle varie fasce di età non è quella della popolazione normale che va da 20 a 65 anni: tendono infatti a prevalere i più giovani. Per la standardizzazione ci sono metodi diretti e metodi indiretti. Un metodo indiretto semplice e spesso usato per calcolare la SMR (Standardized Mortality Ratio) o la SIR (Standardized Incidence Ratio) si basa sul confronto fra frequenze attese e frequenze osservate. Per stabilire le frequenze “attese” si prendono le frequenze di una certa caratteristica così come sono note per la popolazione normale e si trasportano alla popolazione esposta, calibrandole però sulla effettiva, particolare distribuzione di frequenza che la caratteristica ha nella popolazione esposta. Detto così, il concetto non è del tutto chiaro, ma lo diventa se lo esemplifichiamo standardizzando per età la mortalità dei lavoratori dell’industria nucleare cui poc’anzi accennavamo. L’esempio è di fantasia, perché i dati che utilizzo riguardano uno studio inglese su altra categoria professionale, esposta ad un diverso fattore di rischio. Supponiamo dunque che nelle centrali nucleari inglesi lavorino 255512 maschi fra i 20 e i 65 anni suddivisi per fasce di età come nella seconda colonna della sottostante tabella.

Page 35: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 35

Età Lavoratori Morti osserv. Tasso p. n. Morti attesi

20- 8481 87 129.8 55 25- 39729 433 152.5 303 35- 65700 1099 280.4 921 45- 73376 2997 816.2 2994 55-64 58226 6856 2312.4 6732 Totale 11472 11005

Nella terza colonna è riportato il n. dei morti osservati in 5 anni (dal 2001 al 2005) fra quei lavoratori, ripartiti nelle varie fasce di età. Nella quarta colonna (titolata Tasso p. n.. dove p. n. sta per “popolazione normale”) è riportato il tasso annuo di mortalità della popolazione inglese, cioè il numero di morti all’anno su 100000 persone come riportato nelle Life-tables epidemiologiche per il 2003, considerato rappresentativo del periodo 2001-2005. L’ultima colonna rappresenta il numero di morti che possiamo attenderci per ogni fascia della popolazione esposta se alla sua consistenza numerica si applica il tasso di mortalità osservato nella popolazione normale della stessa età. Si calcola moltiplicando il tasso p.n. per 5 (perché il tasso è annuo, ma i morti della colonna 3 sono stati osservati in 5 anni; se il follow-up fosse durato 8 anni, bisognava moltiplicare per 8) e moltiplicando il risultato per il n. dei lavoratori riportato nella colonna 2; il risultato viene poi diviso per 100000, perché il tasso riportato nelle tavole epidemiologiche è –convenzionalmente- espresso per 100000 persone. Ad esempio, per la prima riga: Morti attesi = (129.8 x 5 x 8481) / 100000 = 5504169 / 100000 = 55.0417 (arrotondato a 55) Si fa la somma dei morti osservati e la si divide per i morti attesi; il loro rapporto è la SMR cercata:

SMR = 11472 / 11005 = 1.0424

La SMR indica di quante volte maggiore (o minore, se invece che ad un fattore di rischio gli esposti lo fossero stati ad un fattore di protezione, come, ad es. un trattamento con un farmaco) è la mortalità negli esposti rispetto a quelli che nella stessa categoria si potevano attendere sulla base dei dati, normalizzati, tratti dalla popolazione non esposta. Per dirla con un gergo più tecnico e generale, è una media ponderata, su classi di età distinte, dei rapporti tra tassi di mortalità osservati nella popolazione speciale (gli esposti a radiazioni, per il nostro esempio) con quelli della popolazione standard, con pesi che dipendono dalla distribuzione dell’età della popolazione speciale. La SMR esprime un rischio relativo. Se il rapporto fosse uguale a 1, vuol dire che le morti negli esposti sono pari a quelle attese e che non c’è una variazione di rischio attribuibile al fattore studiato (le radiazioni, nell’esempio). Quindi, per essere significativo, il rapporto dovrebbe essere consistentemente al di sopra di 1 (o al di sotto, se si sta studiando un fattore di protezione). Ma la SMR che abbiamo trovato non è lontana da 1: possiamo arguire che le radiazioni abbiano davvero provocato un aumento di mortalità? Ci sono test particolari per saggiare la significatività del risultato, ma la cosa più semplice è calcolare l’errore standard di SMR:

ES = 211005

11472 = 0.0097

Si può così vedere che il risultato, 1.0424, è lontano da 1 più di 4 volte l’ES: la mortalità negli esposti è significativamente maggiore di quanto potremmo attenderci. Allo stesso modo può essere calcolata la SIR, se invece della morte studiassimo la comparsa di un evento (come, ad esempio, un tumore) che potrebbe essere radio indotto.

Page 36: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 36

Fattori secondari e di confondimento. Stratificazione. Negli studi che abbiamo descritto, frequentemente capita di dover prendere in considerazione altri fattori, oltre quello che è stato l’oggetto principale dello studio; per esempio, fattori che si pensa, o si teme, possano anche essi influire sul risultato, modificando o alterando o mascherando l’effetto di quello che è stato principalmente preso in considerazione. Molti pensano che se si sta studiando una certa malattia in rapporto ad un certo “fattore di rischio” (ad es. radiazioni) possa essere “fattore di confondimento” qualsiasi altro fattore capace di produrre quella malattia. Ma non è così: questi fattori si distribuiscono casualmente nei due gruppi e, se il campione è sufficientemente numeroso, in proporzioni pressoché uguali. Quindi non inficiano il confronto per quanto riguarda l’effetto della radiazione. Il fattore di confondimento è, in senso proprio, quello legato sia alla causa che all’effetto. Per chiarire questo concetto serviamoci di un esempio di fantasia. Un sogno notturno mi suggerisce l’idea che il ca. polmonare possa essere causato anche dall’alcolismo. Guardo in letteratura: la cosa non è stata studiata. Organizzo allora uno studio caso-controllo arruolando 200 persone con Ca. polmonare affiancate da 200 adatti controlli sani e vado a vedere quale è la frequenza degli alcolisti (coloro che bevono più di ½ litro di vino, o l’equivalente in alcool, al giorno) nei due gruppi. Dispongo i risultati in una tabella 2 x 2:

Ca. polmonare Controlli

Alcolisti 50 10 Non alcolisti 150 190

Totale 200 200

La differenza fra i due gruppi è significativa con p<0.005 al test 2χ . Nel gruppo di persone che hanno il tumore polmonare gli alcolisti sono il 25%, mentre sono solo il 5% nei sani. Il rischio relativo è significativo: OR = 6,33 con IC da 3,11 a 12,5. Questi risultati mi fanno esultare: è evidente che l’alcolismo è associato al tumore polmonare! Mi accingo a pubblicarli, ma mi viene in mente una cosa: che spesso i forti bevitori sono anche forti fumatori e viceversa, Ahi! Non è che qui il fumo sia un vero “fattore di confondi mento”? Quel che si deve fare in contingenze come queste è “stratificare” i casi dividendoli: prendo quindi dai due gruppi i fumatori e costruisco con questi una tabella:

Ca. polmonare Controlli Alcolisti 46 4 Non alcolisti 74 76

Totale 120 80 Per questa tabella OR = 11,8 con IC da 4,05 a 34,4. Costruisco un’altra tabella con le rimanenti persone, cioè con i non fumatori:

Ca. polmonare Controlli Alcolisti 4 6 Non alcolisti 76 114

Totale 80 120

Qui è OR = 1 con IC da 0,273 a 3,65

E la verità appare chiara, con mio dispiacere. Perché se per i fumatori il rischio di Ca. aumenta di molto: OR è, in pratica, raddoppiato. Mentre se non ci sono fumatori il rischio relativo si annulla anche se ci

Page 37: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 37

sono alcolisti: OR = 1 significa che il rischio è uguale nei casi come nei controlli. E’ il fumo, non l’alcool, la causa dei tumori. La stratificazione è un metodo potente di analisi dei risultati; purtroppo stratificando si arriva presto ad avere – come nella terza tabella - un numero troppo esiguo di casi in qualche casella. Nell’esempio fatto la stratificazione è servita a chiarire che l’effetto, evidente nella tabella originale, non era dovuto alla causa che supponevamo. Ancor più importante per la ricerca è la situazione opposta: che nella tabella originale non appaia evidente l’effetto che andiamo cercando (il che ci indurrebbe a scartare lo studio), mentre esso può essere dimostrato con la stratificazione. Quando si stratifica, dal punto di vista statistico le domande che ci si pongono sono: l’effetto del fattore

principale è significativo prendendo in considerazione i fattori secondari, cioè calcolando un 2χaggregato per l’insieme delle sottotabelle? E qual è l’OR combinato che ci informa sull’entità del rischio relativo tenendo conto dei fattori presi in considerazione? C’è un particolare utile test adatto allo scopo, il 2χ MH di Mantel-Haenszel e, come al solito, ne illustreremo l’applicazione con un esempio. Test di Mantel-Haenszel Esempio operativo n. 9 Questo esempio può interessare in particolare i radioterapisti, che non infrequentemente si trovano a studiare l’effetto della radioterapia nei tumori della mammella. Si tratta di una ricerca svolta in Canada, con dati tratti dal Northen Alberta Breast Cancer Registry, votla ad esaminare l’effetto del livello dei recettori agli estrogeni sulla mortalità. La letteratura sembra indicare,ma non in modo univoco, che un basso livello aumenta il rischio di morte. Furono selezionate a caso 200 donne affette da tumore al I, II, III stadio (scartando il IV, quello della disseminazione) e si registrò la mortalità a 5 anni dalla diagnosi (mortalità per il tumore: 8 casi vennero tolti dall’analisi perché le pazienti erano morte per altra causa). Sulla base della presenza di un livello alto o di un livello basso di recettori (suddivisione fatta in base ad un convenzionale cut-off, perché la misurazione è in scala continua) si è costruita per le rimanenti 192 la seguente tabella 2 x 2: Recettori Bassi Alti Morte 23 31 Vive 25 113 Totale 48 144 La tabella mostra che la proporzione delle morti a 5 anni nelle donne con basso livello di recettori è 23 / 48 = 0.479 (47.9%) e nelle donne con livello alto 31 / 144 = 0.215 (21.5%). Meno della metà! Si diverta (!) il lettore ad applicare i metodi che ha imparato per il confronto delle proporzioni e/o il programmino a pag.24 e vedrà che la differenza è statisticamente molto significativa. Sembra quindi chiaramente confermato quanto sembra emergere dalla letteratura. Ma viene un dubbio: è ben noto che la mortalità è influenzata dallo stadio del tumore, il principale elemento predittivo. Non è che lo stadio sia un “fattore di confondimento” e che i risultati siano stati condizionati dall’aver mescolato pazienti in stadi duversi? Gli Autori hanno quindi stratificato la tabella in base allo stadio, ottenendo le seguenti tre tabelle:

Page 38: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 38

STADIO I Recettori Bassi Alti Morte 2 5 Vive 10 50 Totale 12 55 STADIO II Recettori

Bassi Alti Morte 9 17 Vive 15 57

Totale 22 74 STADIO III Recettori Bassi Alti Morte 12 9 Vive 2 6 Totale 14 15

Esaminando le tabelle si nota che le proporzioni di morte sono: al I stadio 2 / 12 = 0.167 (16.7%) ; al II stadio 9 / 22 = 0.409 (40.9%) e al III stadio 12 /14 = 0.857 (85.7%). Sembra evidente che la mortalità aumenti, e notevolmente, in base allo stadio e che ciò possa mascherare e confondere l’effetto del livello dei recettori. Lo stadio è un notevole fattore di confondimento. Ma le proporzioni trovate sono significative ? Per saperlo le tabelle vanno pesate in rapporto alla numerosità : una proporzione di 2 / 12 è affetta da ampio errore. Ed è possibile trovare un indice aggregato che ci informi sul “vero” effetto del livello recettoriale, indipendentemente dalla presenza del fattore di confondi mento? Risponde ad entrambe le domande il test di Mantel-Hanszel che nella varietà qui presentata fornisce un Odds Ratio aggregata e pesata ed il suo intervallo di confidenza al 95%.

La formula per l’ORmh è semplice: ORmh = ∑∑SR

, cioè il rapporto della sommatoria, su tutte le tabelle,

di R che per ogni tabella è Nda ⋅ (N è il numero totale dei casi nella particolare tabella) e di S che è

Ncb ⋅

Molto complicate sono invece le formule per la stima della varianza e dell’intervallo di confidenza di ORmh e vi sono varie tecniche. Ve le risparmio. Basta applicare il sottostante programmino (nel quale ho adottato la tecnica di Robins-Breslow- Greenland). Programma in Basic MH per il test di Mantel-Haenzsel 1 REM MH programma per il test di Mantel-Haenszel. 5 INPUT "QUANTE TABELLE";J:PRINT 10 FOR I=1 TO J 15 PRINT " TABELLA";I:INPUT " a,b,c,d";A1,A2,B1,B2:N=A1+A2+B1+B2 20 R(I)=A1*B2/N:SR=SR+R(I):S(I)=A2*B1/N:SS=SS+S(I) 22 U(I)=A2*B1*(A1+B2)/N^2:SU=SU+U(I):W(I)=A1*B2*(A2+B1)/N^2:SW=SW+W(I):Y(I)=A2*B1*(A2+B1)/N^2:SY=SY+Y(I):T(I)=A1*B2*(A1+B2)/N^2:ST=ST+T(I)

Page 39: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 39

25 NEXT 30 CLS:DOR=SR/SS:PRINT:PRINT " ORmh =";DOR:D=LOG(DOR) 35 VA=ST/(2*SR^2)+(SU+SW)/(2*SR*SS)+SY/(2*SS^2):L=1.96*SQR(VA):LI=D=L:LS=D+L 40 PRINT " Intervallo di confidenza di OR: LI=";EXP(LI);"LS=";EXP(LS) 100 PRINT:END

L’uso è semplice. Dato il RUN, il programma chiede il numero delle tabelle (3, per l’esempio) e per ogni tabella i valori delle caselle a, b, c, d che bisogna inserire separati da virgole. In uscita fornisce il valore di ORmh ed i suoi limiti di confidenza, inferiore e superiore. Per l’esempio ORmh = 2.54 con intervallo di confidenza che va da 1 a 5.55. Sembra quindi che se il livello dei recettori è basso il rischio di morte aumenti di 2.54 volte; ma, considerando che il limite inferiore del’intervallo di confidenza è 1 e che OR = 1 significa che non v’è aumento di rischio, dobbiamo concludere che l’effetto del livello recettoriale è modesto e statisticamente insicuro: sono necessarie ulteriori ricerche. Nota.- I nomi di Mantel-Haenszel danno luogo a confusione nella letteratura statistica. Quei due hanno fatto troppo. C’è un indice di associazione di Mantel-Haenszel. C’è un test per Odds ratio (quello qui presentato), ma anche un test di Mantel-Haenszel per il rischio relativo ed uno per stimare le differenze di rischio. Nello studio della sopravvivenza (non trattato in questi appunti) viene chiamato Test di Mantel-Haenszel il log-rank test, da alcuni diversamente designato. Non entreremo in queste particolarità, ma è interessante ricordare che il test può essere esteso anche tabelle plurime 2 x M, ciascuna formata da due righe e da molte (più di due) colonne. Fatevi aiutare, se del caso, da uno statistico.

Page 40: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 40

CAPITOLO V - Combinazione di risultati e tabelle. Meta-analisi.

Capita spesso che si leggano più lavori sullo stesso argomento e che si voglia ottenerne una informazione riassuntiva e significativa. Per esempio: nella diagnosi di malignità del nodulo solitario polmonare mediante TAC l’Autore A indica una sensibilità del 78 %, B indica 93 %, C riporta 84 % e D si limita al 69%. Quale è la sensibilità della TAC? Sarebbe del tutto sbagliato fare la media dei valori e dire che la sensibilità è dell’81 %. Questo va ben capito perché purtroppo a volte la media viene fatta: quindi approfondiamo il concetto. Mettiamo, per esempio, che un Autore riporti una sensibilità del 90% e un altro, per la stessa metodica, una del 60%. Possiamo dire che, in base ai due autori, la sensibilità è, in media, (90 + 60) / 2 = 75% ? No; bisogna considerare la frequenza dei risultati e il numero dei malati studiati. Se, ad es., il primo ha trovato 90 risultati positivi su 100 malati (sensibilità = 90%) e il secondo 6 positivi su 10 malati (sensibilità = 60%), i due ricercatori, assieme, hanno trovato una sensibilità = (90+6)/(100+10)=96/110 = 0.87: l’87% quindi e non il 75% ! Quindi un procedimento migliore (se si può essere sicuri che i ricercatori abbiano lavorato con uguale metodologia e quindi i dati siano comparabili ) è quello di cumulare le frequenze e calcolare la proporzione sulle frequenze cumulate.

Ma se si vogliono combinare nel modo migliore casistiche e risultati, occorre assicurare due condizioni preliminari: - che i risultati dei vari autori siano fra loro omogenei (non si possono combinare pere con pomi!) e

l’omogeneità va verificata con un test statistico; - che i risultati siano ponderati in rapporto alla rilevanza statistica delle casistiche. E’ ovvio che un

risultato ottenuto su pochi casi deve “pesare” meno, nella combinazione, di uno ricavato da un’ampia casistica.

L’argomento trova il suo sviluppo elettivo nella cosiddetta meta-analisi. Ma è importante dal punto di vista pratico anche al di fuori di una formale meta-analisi. Per esempio negli studi multicentrici i risultati provenienti da ogni Centro vengono posti in una tabella e valutati statisticamente. Ma bisogna poi combinare le tabelle per avere il risultato finale e globale dello studio e quindi assicurarci della omogeneità dei risultati forniti dai vari Centri e ponderarli in rapporto alla numerosità delle casistiche. Indichiamo qui un semplice metodo adatto a tabelle 2 x 2 che soddisfa entrambe le condizioni e fa capo a OR.

Esempio operativo n. 10 L’esempio si riferisce all’aggregazione dei risultati di tre pubblicazioni (diciamo tre per semplificare: il metodo è applicabile a qualsiasi numero K di lavori) nei quali è stata indagata l’associazione di una particolare malattia con l’esposizione ad un determinato fattore di rischio. Potrebbero per esempio essere tre pubblicazioni nelle quali venga studiata l’incidenza di tumori maligni a seguito di esposizione a radiazioni ionizzanti. Se volete, potete anche immaginare che i numeri siano i risultati ottenuti in tre Centri che si sono associati per compiere il particolare studio. Riportiamo in tabelle 2 x 2 i risultati presentati dai tre Autori, cominciando dal primo:

Esposti Non esposti Totale Malati 18 6 24 Non malati 102 114 216 Totale 120 120 240 N

Per questa tabellina e per le due che successivamente presenteremo, le quantità che servono per il metodo che stiamo illustrando si ottengono tutte a partire da una sola casella, quella contenente l’evento che più

Page 41: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 41

interessa (cioè la presenza di malattia negli esposti); quindi quella in alto a sinistra (casella a). Le quantità che occorreranno sono:

O: il numero dei casi osservati posti in quella casella; nell’esempio, O = 18. E: il numero di casi attesi (attesi nell’ipotesi nulla, cioè che la malattia non incida diversamente negli esposti e nei non esposti). E si calcola, come già sappiamo, moltiplicando fra loro i totali marginali della riga e della colonna contenenti la casella e dividendo il prodotto per il totale dei casi, N. Quindi E = 24 x 120 / 240 = 12. D è la differenza fra O ed E: D = 18 - 12 = 6. V, la varianza, si ottiene moltiplicando fra loro i quattro totali marginali e dividendo il risultato per N2 x (N -1).

Quindi: V = 23924021624120120

2 xxxx = 5.42

Avendo D e V si può ricavare: 2χ = VD 2

. Perciò: =2χ 42.562 = 6.64. Questo valore è una stretta

approssimazione, a meno di un fattore N / (N – 1), del vero 2χ (senza la correzione di Yates). Ecco la tabella 2 x 2 del secondo Autore:

Esposti Non esposti Totale Malati 24 4 28 Non malati 126 71 197 Totale 150 75 225 N

Ripetendo il procedimento descritto sopra, si ottiene: O = 24; E = 18.67; D = 5.33; V = 5.47; 2χ = 5.19. Ecco infine la terza tabellina: Esposti Non esposti Totale Malati 32 17 49 Non malati 204 223 427 Totale 236 240 476 N Dalla quale: O = 32; E = 24.3; D = 7.7; V = 6.51; 2χ = 9.1.

Avendo queste quantità possiamo procedere al calcolo di G, che serve per testare l’omogeneità:

G = ( )

∑ ∑∑−VD 2

2χ Per noi: G = (6.64 + 5.19 +9.1) - ( )51.647.542.57.733.56 2

++

++ = 0.23

G si distribuisce come 2χ con K – 1 Gradi di Libertà. Perciò se, controllando nella Tavola di 2χ , osservassimo che G supera il valore critico per p < 0.05, potremmo affermare che i lavori sono disomogenei e che i risultati non sono aggregabili (in questo caso si può vedere se, scartando il lavoro i cui risultati sembrano più dissimili dagli altri, l’omogeneità può venire conseguita). Ma qui il controllo è inutile, perché tanto più omogenei sono i risultati, tanto più G è vicino a 0; e qui vediamo subito che l’omogeneità è notevole e che possiamo perciò combinare i risultati dei tre Autori. Come?

Il logaritmo naturale di OR (cioè il coefficiente di regressione b) è dato da: Y = VD .

La media ponderata degli Y dei gruppi è: ∑∑=VD

Y .

Per il nostro esempio: Y = 4.1704.19

5.647.542.57.733.56

=++

++ = 1.0937

Page 42: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 42

Quindi l’Odds Ratio pesata e combinata che si ricava dai tre lavori è: OR = e 1,0937 = 2.985 .

Studiamone la varianza. La varianza di Y è ∑V1 : quindi, per l’esempio,

4.171 = 0.0574 e, di

conseguenza, ES = 0574.0 = 0.239. L’intervallo di confidenza del logaritmo naturale di OR andrà perciò da 1.0937 – 1.96 x 0.239 = 0.625 a 1.0937 + 1.96 x 0.239 = 1.562. Prendendo gli esponenziali, giungiamo a sapere che OR combinato può andare, con il 95 % di confidenza, da e0.625 = 1.87 a e1.562 = 4.77 .

Nota.- A scopo didattico, abbiamo utilizzato un metodo molto semplice e generale per aggregare i risultati di più lavori o esaminare i risultati ottenuti in più Centri. Ma il problema statistico della meta-analisi diagnostica vera e propria è più complesso. Bisognerebbe controllare se le tabelle differiscono non solo per peso ed omogeneità, ma anche perché vi è un “effetto soglia”. Questo succede quando i vari Autori usano criteri di giudizio diversi per definire “positivo” o “negativo” un risultato. Se emerge un “effetto soglia” ad un apposito test, i risultati non possono essere aggregati come illustrato, ma bisogna fittarvi una curva ROC, con una procedura piuttosto complicata. Bisogna saggiare l’omogeneità dei vari contributi con appositi test. L’aggregazione ”ponderata” può utilizzare pesi a “effetto fisso”, come quelli di Mantel-Haenszel (ancora loro!) se si può supporre che nei vari Centri si sia lavorato in condizioni tecnico- metodologiche similari,e così abbiamo fatto nel programma Basic che segue. Altrimenti sarebbe meglio utilizzare pesi a effetto variabile come ad es. quelli di DerSimonian Laird. L’impiego di questo metodo, o di analoghi, conduce ad un tipo di rappresentazione grafica non infrequente nelle reviews e ne portiamo un esempio che si riferisce ad una revisione di 6 lavori riguardanti la somministrazione di dietilstilbestrolo a donne gravide. Ciascuno dei lavori presi in considerazione non è significativo (salvo che per il primo lavoro, negli altri l’intervallo di confidenza di OR comprende l’1 anche ampiamente), ma l’OR complessivo, riportato nell’ultima riga (con la dizione “Typical odds ratio”) con il suo intervallo di confidenza, sembra –a detta degli Autori- segnalare un effetto, sebbene modesto: ma va sottolineato che anche per il dato riassuntivo il limite inferiore dell’ IC è lievemente al di sotto di 1 (0.89), quindi la significatività è assai dubbia. Non sono meta-analisi come questa che dovrebbero avvalorare l’impiego di un farmaco.

Se i calcoli per il test vi sembrano faticosi, utilizzate questo breve programma in GW-Basic 3.23. Dopo aver caricato il programma e dato il RUN, alla domanda iniziale “QUANTI STUDI?” digitate il numero delle tabelle che volete combinare. Il computer chiederà, tabella per tabella, i valori delle 4 caselle che digiterete di seguito, separati da virgole, con RETURN alla fine. Saranno presentati i risultati parziali per ogni tabella e, alla fine, il Chi Quadro per il controllo dell’omogeneità e OR combinato e pesato, con limiti di confidenza al 95%.

Page 43: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 43

Programma in Basic AGGREG per aggregare tabelle 2 x 2 1 REM "AGGREG": Programma per la aggregazione dei risultati (posti in Tab. 2 x 2) di vari studi 5 INPUT"QUANTI STUDI";K 10 FOR J=1 TO K 12 PRINT:PRINT "Dai i valori delle 4 caselle della tabella n.";J 15 INPUT"a,b,c,d";A,B,C,D:N1=A+C:N2=B+D 20 N=N1+N2:N3=A+B:N4=C+D:E=N3*N1/N:DI=A-E 25 V=(N1*N2*N3*N4)/(N^2*(N-1)):CHI=DI^2/V:SUD=SUD+DI:SUV=SUV+V:SUC=SUC+CHI 30 ODD=(A*D)/(B*C):COB=LOG(ODD):ESB=SQR(1/A+1/B+1/C+1/D) 35 LI=EXP(COB-1.96*ESB):LS=EXP(COB+1.96*ESB) 40 PRINT"OR";ODD;"IC 95%: DA";LI;"A";LS;"V";V;"CHI";CHI 45 NEXT 50 YMED=SUD/SUV:VAR=1/SUV:ESYMED=SQR(VAR) 55 PRINT:PRINT"OMOGENEITA': CHI =";SUC-SUD^2/SUV;"GL";K-1 60 LIA=EXP(YMED-1.96*ESYMED):LSA=EXP(YMED+1.96*ESYMED) 65 PRINT"OR aggreg.";EXP(YMED);"IC 95%: DA";LIA;"A";LSA 100 END Per maggiori dettagli sul problema particolare della Meta-analisi diagnostica, si vedano in Google le voci “Meta-analisi” e °Cochrane° (quest’ultima essenziale per una corretta metodologia). A chi voglia approfondire praticamente il problema -importante in tutti i campi della medicina- consigliamo di digitare Meta-DiSc in Google: potrà scaricare gratuitamente un buon programma spagnolo (Meta-Disc 1.4 di Zamora J, Muriel A, Abraira V) per effettuare la meta-analisi lege artis, nonché un documento che ne illustra principi, metodi e formule.

Page 44: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 44

CAPITOLO VI - Altri importanti tipi di regressione

A) Regressione di variabile nominale binaria con variabile ordinale: tabella m x 2.

Non raramente in Medicina, ed anche nella nostra Area professionale, le frequenze di una variabile nominale dicotomica (del tipo: presente-assente, morto-vivo; malato-non malato, ecc.) vengono raccolte in gruppi, o strati, in rapporto alla suddivisione operata da una variabile ordinale. Così avviene, ad esempio, quando si studiano le frequenze di una malattia stratificate in rapporto a varie fasce di età; o la frequenza di un particolare sintomo in rapporto allo stadio (0; I; II; III; ecc.) evolutivo di un tumore: o la frequenza di comparsa di radiolesioni a seconda della fascia di dose di radiazione ricevuta, ecc., ecc. In questi casi i dati possono venir raccolti in una tabella di m righe x 2 colonne: ciascuna riga corrisponde ad uno strato della variabile ordinata, mentre nelle due colonne sono riportate le frequenze (della presenza e dell’assenza) del carattere che interessa.. In casi come questi in genere si pongono due domande: - la frequenza dell’evento è associata significativamente con la graduazione della variabile ordinata? Vi è, cioè, una regressione? - questa relazione, se vi è, è lineare? Vi è cioè una proporzionalità diretta fra frequenza dell’evento e l’incremento per strato della variabile ordinatrice? Abbiamo visto, per il caso delle Tabelle 2 x 2, che è possibile calcolare un coefficiente di regressione b (logaritmo naturale di OR). Questo può essere fatto anche per le Tabelle m x 2: ma preferisco esporre un altro metodo, più semplice, che si basa sul 2χ e che consente di rispondere ad entrambe le domande. Operativamente, è bene procedere, se in base alla variabile ordinale sono stati definiti k strati, nel modo che segue. Si costruisce una tabella come quella dell’esempio che segue, nella quale k sono i gruppi; le x rappresentano i vari valori della variabile ordinale; r la frequenza, per ogni gruppo, delle risposte positive; n-r la frequenze delle risposte negative; n è il numero totale delle risposte (positive più negative) per ogni gruppo. I totali generali (per tutti i gruppi) sono posti in calce (simboli in carattere maiuscolo). Ciò fatto si determina il solito 2χ - nel modo che abbiamo già appreso- sulla tabella k x 2 delle frequenze; il valore ottenuto, controllato per k-1 gradi di libertà, ci dirà se esistono o no differenze significative fra le due condizioni descritte dalla variabile nominale dicotomica. Ciò fatto si cerca un altro 2χ , che chiameremo 2

1χ con questa formula, un po’ complessa:

( )( ) ( )[ ]∑ ∑

∑ ∑−⋅−⋅

⋅−⋅⋅= 22

221

nxnxNRNR

nxRrxNNχ

Dove –non ci si confonda e si veda l’esempio- R, N – R e N sono i valori (somme) in calce alle colonne della tabella. Il valore trovato va controllato per 1 GL e se è significativo indica che vi è una regressione, cioè che la frequenza di risposte positive è correlata con gli incrementi della variabile ordinale. Un altro 2χ ancora, che chiameremo 2

2χ , viene ora ricavato dalla differenza dei due precedenti: 22χ = 2χ - 2

1χ Quest’ultimo è indicativo di scostamenti dalla linearità.. Va controllato per k - 2 GL: se è significativo l’ipotesi di una regressione lineare deve essere scartata. Il tutto sembra molto complesso, ma è più semplice eseguirlo che descriverlo. E, poiché l’argomento è importante, cercheremo di meglio chiarirlo nell’esempio.

Page 45: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 45

Esempio operativo n. 11

Si tratta di verificare se un determinato sintomo, non necessariamente associato ad un tumore, aumenta significativamente di frequenza con la progressione della malattia. Per quel tipo di tumore la stadiazione internazionale prevede quattro gradi (0, 1, 2, 3) che suddividono in quattro gruppi le osservazioni compiute su 278 pazienti. Poniamo in tabella gli stadi e, accanto ad essi, sia il numero dei pazienti presentanti il sintomo (frequenza della risposta positiva) sia il numero di coloro che non lo presentano (frequenza della risposta negativa).

Gruppo Stadio Sintomatici Non sintomatici Totale ( k ) ( x ) ( r ) ( n – r ) ( n ) I 0 5 28 33 II 1 12 36 48 III 2 10 31 41 IV 3 59 97 156 86 (R) 192 (N – R) 278 (N)

Per prima cosa calcoliamo 2χ per le due colonne (sintomatici e non sintomatici) nel modo consueto: 2χ = 8.92 (p < 0.05 con 3 GL). La differenza fra soggetti sintomatici e non sintomatici è significativa.

Facciamo ora le sommatorie da porre nella formula:

∑rx = (5x0) + (12x1) + (10x2) + (59x3) = 12 + 20 + 177 = 209

∑nx = (33x0) + (48x1) + (41x2) + (156x3) = 48 + 82 + 468 = 578

∑ 2nx = (33x02) + (48x12) + (41x22) + 8156x32) = 48 + 164 + 1404 = 1616

( )2∑nx = 5782 = 357604

Applichiamo la formula:

21χ = ( )

( )35760416162781928659886209278278 2

−⋅⋅⋅

⋅−⋅⋅ = ( )91644165125142858102278 2

−⋅ = 8.18

Il valore è altamente significativo; possiamo quindi ritenere che vi è una regressione: la frequenza del sintomo aumenta con il progredire della malattia, come rappresentata dalla stadi azione.

Sarà infine: 22χ = 2χ - 2

1χ = 8.92 – 8.18 = 0.74

Essendo il valore chiaramente non significativo (e 22χ indica lo scostamento dalla linearità; l’ipotesi nulla

H0 che non possiamo in questo caso respingere, è infatti che la relazione sia lineare) possiamo ritenere che la relazione fra stadiazione e frequenza del sintomo sia lineare. I calcoli per questo importante test, poco presente nei programmi statistici per PC, sono, se fatti a mano, lunghi e fastidiosi e quindi preferisco anche qui semplificare la vita con un programmino in GW-Basic 3.23:

Caricato il programma, bisogna inserire per riga in 70 DATA… le frequenze delle due categorie (sono i dati in grassetto nella tabella e per mostrare come si fa, nel listato ci sono già i dati dell’esempio). Dato il RUN il programma chiede il numero delle righe (digiteremo 4, per l’esempio) e presenta il valore di Chi Quadro, con i GL necessari per controllarne la significatività nella Tavola in calce a questi appunti. Poi chiede i valori della variabile ordinata –quelli nella colonna titolata (x) nella tabella- che vanno inseriti uno alla volta in risposta ai punti interrogativi scritti dal computer, facendo RETURN dopo ogni

Page 46: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 46

inserimento. Il programma fornisce quindi i valori di CHI1 e di CHI2 con Note per chiarirne l’interpretazione.

Programma in Basic REGM2 per regressione variab. binaria/var. ordinale 1 REM "REGM2" Regressione di variabile nominale binaria con var. ordinata 2 REM Inserire per righe i valori in 70 DATA... 5 INPUT " Quante righe";R:C=2:DIM D(R,C),E(R,C),R(R) 10 FOR I=1 TO R:FOR J=1 TO C 15 READ D(I,J):R(I)=R(I)+D(I,J):NEXT:NEXT 20 FOR J=1 TO C:FOR I=1 TO R:C(J)=C(J)+D(I,J):NEXT:NEXT 25 FOR A=1 TO R:N=N+R(A):NEXT 30 FOR I=1 TO R:FOR J=1 TO C:E(I,J)=R(I)*C(J)/N:NEXT:NEXT 35 FOR J=1 TO C:FOR I=1 TO R 40 CHI=CHI+(D(I,J)-E(I,J))^2/E(I,J):NEXT:NEXT 45 PRINT " Valori variabile ordinata" 50 FOR J=1 TO R:INPUT X(J):NEXT 55 FOR I=1 TO R 60 S1=S1+X(I)*D(I,1):S2=S2+X(I)*R(I):S3=S3+X(I)^2*R(I):NEXT 65 SNX=S2^2:NUM=N*((N*S1-C(1)*S2))^2:DEN=C(1)*C(2)*(N*S3-SNX) 70 CHI1=NUM/DEN:CLS:PRINT:PRINT 75 PRINT " CHI QUADRO =";CHI;"con";(R-1)*(C-1);"GL" 80 PRINT:PRINT " CHI1 =";CHI1;" Regress. significativa se > di 3.84 85 CHI2=CHI-CHI1:PRINT:PRINT " Per linearita: CHI2 =";CHI2 100 PRINT " Regressione lineare se CHI2 non significativo" 105 PRINT:END 110 DATA 5,28,12,36,10,31,59,97

B) Regressione di variabile nominale binaria con variabile numerica continua Un tempo le apparecchiature radiologiche fornivano soltanto immagini. Oggi, e sempre più frequentemente, anche informazioni classificabili come variabili numeriche continue. Si pensi, ad es. ai valori densitometrici della TC, ai tempi di rilassamento della RM, ai valori di SUV della PET, ecc. E’ quindi frequente ed importante chiederci se c’è una regressione fra una variabile binaria ed una numerica. Ad esempio: vi è una regressione (correlazione ) fra la malignità/benignità di un certo tipo tumorale giudicata sull’immagine e i valori densitometrici? O il SUV? O il T1 della RM? A questa domanda si può rispondere applicando il coefficiente di correlazione punto-biseriale, d’uso antico soprattutto in psicologia sperimentale. La formula è:

pqsXX

R qppb ⋅

−=

Al numeratore della frazione vi è la differenza fra le medie dei valori della variabile numerica nei due gruppi classificati come 1 o 0 dalla variabile binaria categorica, al denominatore la DS di tutti i valori numerici; p è la proporzione dei soggetti nel gruppo 1 e q quella nel gruppo 0. Ma non state a perdere tempo con questa formula perché lo stesso risultato si può ottenere immediatamente e semplicemente facendosi dare da Excel, che tutti avete, il coefficiente di correlazione r di Pearson. Questo pochi lo sanno e nessuno lo fa, perché si è abituati a pensare che r di Pearson sia utilizzabile solo per correlare due variabili continue a distribuzione normale. Invece può servire anche per sostituire il coefficiente punto-biseriale.

Page 47: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 47

Vediamo un esempio con dati realmente ottenuti a Roma nella sezione PET del Gemelli che è inutile riportare perché l’esempio serve soprattutto a mostrare una inconsueta applicazione del coefficiente r di Pearson. Esempio operativo n. 12

E’ stato effettuato esame PET a 43 casi di ca. rettale, successivamente sottoposti a radiochemioterapia; i colleghi oncologi hanno potuto classificare come “respoders” 20 dei casi e “non responders” i 23 rimanenti. Ci hanno chiesto i colleghi: “Siete in grado di prevedere, in base all’esame PET fatto prima del trattamento, se il soggetto sarà un responder o un non responder? Questo sarebbe molto importante per orientarci nella condotta del trattamento”. Dopo aver visto che le immagini PET non ci consentivano di differenziare le due categorie, abbiamo voluto osservare se vi fosse una regressione fra le categorie (responders/non responders) e i valori numerici di uptake (SUV: Standardized Uptake Values) del 18-F-FDG. In 43 caselle della colonna A del foglio di lavoro di Excel fu posto il numero 1 per i casi indicatici come responders e il numero 0 per i non responders, Accanto, nella colonna B del foglio di lavoro, furono scritti i corrispondenti valori numerici di SUV. Aprendo il percorso: Freccetta (quella accanto al simbolo

∑ ), Altre funzioni, Statistiche, Correlazione, appare un riquadro e, nella finestra intestata Matrice I si

digita A1:A43 mentre nella finestra intestata Matrice II viene scritto B1:B43. Già nel riquadro compare il valore di r, cioè -0.20968, che possiamo trasferire nel foglio di lavoro cliccando su OK. Il risultato indica che vi è una tendenza alla regressione e il segno negativo che essa è inversa : i responders (categoria 1) tendono ad essere più frequenti quando il SUV è basso, quindi nei tumori con minore attività metabolica. Se fosse vero il SUV raccolto con l’esame PET alla diagnosi potrebbe aiutare ad identificare per tempo i respoders. Siccome però il coefficiente va da 0 a 1, un valore di 0.21 potrebbe non raggiungere la significatività. Questo va controllato in apposite tavole e qui ne semplifico una, con i valori critici per p = 0.05 e p = 0.01:

Significatività del coefficiente di correlazione N. casi (meno due) 0.05 0.01 N. casi (meno due) 0.05 0.01 5 0.754 0.874 25 0.381 0.487 6 0.706 0.834 30 0.349 0.449 7 0.666 0.797 35 0.325 0.418 8 0.632 0.765 40 0.304 0.393 9 0.602 0.734 45 0.287 0.372 10 0.576 0.708 50 0.273 0.354 11 0.553 0.683 60 0.250 0.324 12 0.532 0.661 70 0.232 0.302 13 0.514 0.641 80 0.217 0.283 14 0.497 0.623 90 0.205 0.267 15 0.482 0.605 100 0.195 0.254 16 0.468 0.590 17 0.455 0.575 18 0.444 0.561 19 0.433 0.549 20 0.423 0.537

Page 48: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 48

I casi sono 43: meno due fanno 41. Approssimiamo con N = 40 e vediamo che il risultato trovato, 0.21, non è significativo, essendo inferiore anche al valore critico per p = 0.05, che è 0.304. Abbiamo dovuto dire ai Clinici, con dispiacere, che non siamo riusciti a soddisfare la loro richiesta.

C) Regressione di variabile nominale binaria con variabili multiple di ogni tipo - Regressione logistica

Nella statistica classica “parametrica” esistono metodi, come la correlazione multipla o l'analisi discriminante , con i quali si studia il rapporto di una variabile con altre che valgono, in associazione, a determinarla. In quanto tale, la variabile in studio (solitamente designata con la lettera Y) può essere considerata una variabile "risultato” i cui valori risultano dipendenti da quelli di altre variabili designate come Xi. Perché questi modelli funzionino è necessario però che le Xi ed anche la variabile "risultato" Y siano numeriche, con distribuzione normale.

E' evidente che il rispetto di questo presupposto rende questi metodi poco frequentemente applicabili in campo medico e radiologico. Difficilmente una variabile "risultato" ha distribuzione normale; sovente anzi ha forma binaria poiché sono ammessi solo due tipi di risultati, simboleggiabili con i numeri 1 e 0. Un trattamento può avere come risultato un "successo" (1) o l'insuccesso (0); un esame diagnostico può dare un risultato "positivo" (1) o negativo (0); un paziente può avere una particolare malattia (1) o non averla (0).

Naturalmente diviene molto interessante porre in rapporto il risultato binario con le variabili (Xi) che possono determinarlo: quali sono i fattori che assicurano successo a un trattamento? Da cosa dipende il risultato positivo o negativo di una indagine? Quali sono gli elementi (semeiologici, diagnostici) che permettono di affermare, o negare, quella particolare malattia? Queste variabili (Xi) possono essere numeriche e distribuite normalmente; ma, nella maggior parte dei casi, non lo sono. Ad esempio, per affermare la presenza di una determinata malattia può essere importante il valore di pressione arteriosa (variabile distribuita normalmente) ma anche, o di più, il risultato di una TC, positivo o negativo (variabile binaria).

Il problema che si pone la regressione logistica è il seguente: dato un risultato in forma binaria, quale è in un particolare caso la probabilità che esso sia di un tipo (y = 1) oppure dell'altro tipo (y = 0), posti certi valori di variabili che si ritengono influenti?

Non è necessario, nel modello della regressione logistica, che le variabili "influenti" abbiano distribuzione normale; possono anche essere ordinali o nominali; al limite possono anch'esse avere forma binaria. Questa flessibilità fa di questa tecnica uno strumento davvero poderoso.

Per rispondere alla domanda riprendiamo il concetto di "Odds" (guarda chi si rivede!). Già sappiamo che gli "Odds" sono il rapporto fra la probabilità dell'evento e la probabilità del non evento, cioè

Odds = pp−1

. Per esempio se in una certa condizione la positività di un esame diagnostico ha p=0.75

(c'è cioè il 75% di probabilità che il risultato sia positivo), 1-p = 0.25 (cioè c'è, come è ovvio, il 25% di

probabilità che il risultato sia negativo) e gli Odds sono 325.075.0

= (è come scommettere 3 contro 1 "a

favore" del risultato positivo).

Page 49: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 49

Se gli Odds sono pp−1

, ne deriva che p = OddsOdds+1

. Così se sappiamo che gli Odds "a favore"

dell'evento sono 3, ne desumiamo che la probabilità dell'evento è 75.043

313

==+

(75%).

Orbene, l'equazione di regressione logistica ha la seguente forma, nella quale il primo membro è rappresentato, appunto, dal logaritmo naturale degli Odds:

nn xbxbxbaypypnl ...

0()1( 2211 +++=⎟⎟⎠

⎞⎜⎜⎝

=

=

Ovvero: avendo, per un nuovo individuo i valori di alcune variabili predittive Xi si può, dopo aver determinato una volta per tutte i coefficienti b e l'intercetta a (utilizzando un congruo numero di casi nei quali i risultati di tipo 1 e 0 siano certi) ottenere, per quel caso, il logaritmo degli Odds "a favore" dell'evento binario y = 1. Prendendo l'esponenziale del risultato si hanno gli Odds e da quelli, come sopra si è visto, la probabilità che il risultato y sia uguale ad 1. In tal modo la funzione contribuisce alla classificazione dei risultati. Nota. Il perché di un modello siffatto è abbastanza semplice. Una combinazione lineare come quella del secondo membro dell'equazione può dare, in teoria, qualsiasi risultato compreso fra + ∞ e - ∞. Ma p, il

risultato che ci interessa, può variare solo fra 0 e 1 . Si può dimostrare che p

p

−1 appartiene

all'intervallo (0, ∞) e che è il logaritmo di p

p

−1 a cadere nell'intervallo (+ ∞, - ∞); intervallo

caratteristico del membro di destra dell'equazione. Il logaritmo degli Odds è detto anche "logit". Non darò i particolari del calcolo dei coefficienti b e dell'intercetta a. Occorre il computer che si avvale di programmi, per lo più basati sul principio di "massima verosimiglianza", che raggiungono il risultato con tecniche iterative di calcolo assolutamente impercorribili "a mano". E comunque il metodo è talmente importante che è presente in quasi tutti i programmi statistici per PC. Diamo invece qualche nozione per interpretare i risultati, che saranno anche utili allo specializzando per meglio capire in quali circostanze sia opportuno ricorrere a questa brillante, ma complessa tecnica di indagine statistica. Un consiglio però: se vuole applicarla è bene che si faccia aiutare da uno statistico!

Supponiamo, per ipotesi, che per affermare la presenza di una determinata malattia siano ritenute utili tre variabili: una binaria (il risultato positivo = 1, o negativo = 0 di un certo esame radiografico, ad esempio) e due numeriche e cioè l’ematocrito (ne esprimeremo il risultato in punti decimali anziché percentuali) e la pressione arteriosa diastolica (che riporteremo in decine di mm/Hg).

Avendo studiato un consistente numero di soggetti nei quali si sapeva con certezza se la malattia era presente o no abbiamo potuto determinare con il computer la seguente equazione di regressione logistica: ln(Odds) = -0.6 + 1.02 Rx + 0.05 Ht + 0.041 Pa (diast.) In base ad essa qualora si presenti,ad esempio, un paziente con Rx positivo, 60% di ematocrito e 110 mm di pressione diastolica, otterremmo, sviluppando il membro di destra dell’equazione:

1.02 x 1 + 0.05 x 6 + 0.041 x 11 – 0.6 = 1.171

Quindi 1.171 è il logaritmo naturale degli Odds. Perciò Odds = e 1.171 = 3.225. Quindi p, cioè la probabilità che in quel paziente vi sia la malattia, sarà: Odds/1+Odds =3.225/4.225 = 0.764 = 76.4%. Vediamo ora il significato dei coefficienti b dell’equazione.

Page 50: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 50

In caso di variabile X binaria eb esprime il “rischio relativo” connesso a un risultato positivo: se, nel nostro esempio, l’esame radiologico desse un risultato positivo, il rischio relativo di avere la malattia è e1.02 = 2.8, quindi quasi triplicato rispetto a un caso nel quale, a parità di altre condizioni, l’esame fosse negativo. Nel caso di variabile numerica eb esprime di quanto incrementa il rischio per ogni incremento unitario della variabile. Per il nostro esempio, nel quale la Pa è riportata in decine di mm/Hg, avremmo: e0.041 = 1.04; un aumento di rischio del 4% per ogni 10 mm in più di pressione arteriosa.

Quando un esponente è negativo l’incremento del rischio è negativo, cioè il rischio diminuisce. Se nell’equazione di regressione il coefficiente b per la Pa fosse stato, ad es., -0.05, essendo e-0.05 = 0.95 il rischio di avere la malattia diminuirebbe del 5% per un aumento di 10 mm della pressione arteriosa. E’ inutile appesantire la mente con il calcolo dell’ES e della significatività dei coefficienti, valori del resto forniti dal computer. Sappiate che se il coefficiente di una variabile non è significativo, quella variabile può essere tolta dalla regressione, perché inutile. Esempio applicativo n. 13

Vediamo ora un esempio applicativo, con dati raccolti nel nostro Istituto concernenti il risultato (positivo/negativo) della scintigrafia ossea con leucociti marcati con Tecnezio eseguita in 34 pazienti, su richiesta degli Ortopedici, per la diagnosi di flogosi infettiva osteo-articolare, complicanza non infrequente degli interventi di protesi. La scintigrafia con leucociti marcati (qui designata come WBC) è una tecnica di effettuazione complessa e delicata, ma molto efficace per l’individuazione di focolai flogistici. Nei 34 pazienti erano disponibili varie altre informazioni: VES, PCR (Proteina C reattiva), i valori della frazione dei neutrofili nel sangue e il risultato (positivo o negativo) della Diagnostica per Immagini (consistente in Rx + TC o RM). In base al complesso dei dati clinico-laboratoristici, al follow-up, alla risposta alla terapia antibiotica e, in vari casi, anche alla biopsia o al reintervento si è potuto valutare che 18 pazienti avessero effettivamente in atto la flogosi ossea, assente invece nei rimanenti 16. Abbiamo dapprima voluto valutare la “resa” diagnostica della sola scintigrafia. Assumendo quindi come variabile dipendente la presenza (= 1) o assenza (= 0) del processo flogistico l’equazione di regressione logistica per la sola scintigrafia WBC è risultata:

ln(Odds) = -3.29 + 6.51 WBC

con intercetta (-3.29) e coefficiente b (6.51) estremamente significativi (rispettivamente Z =3.3 e Z =4.6). Perciò in un caso con scintigrafia WBC positiva ( =1 ) l’equazione dà:

ln(Odds) = -3.29 + 6.5 x 1 = 3.22

Quindi: Odds = e3.22 = 25.03. Di conseguenza la probabilità che vi sia la flogosi ossea è:

p = 25.03/26.03 = 0.964 ( 96.4% ).

Altissima! L’indagine scintigrafica assicura una diagnosi praticamente sicura. Se il risultato della scintigrafia fosse negativo ( = 0 ) l’equazione si riduce all’intercetta. Quindi:

Odds = e-3.29 = 0.037; p = 0.037/1.037 = 0.036 ( 3.6% ).

Perciò la probabilità che vi sia un processo flogistico osseo quando la scintigrafia con leucociti marcati è negativa è minore del 5%. Tuttavia, poiché la scintigrafia WBC, indagine laboriosa e delicata, non è disponibile in tutti i centri ospedalieri, si è ritenuto opportuno valutare quale potesse essere il valore delle indagini radiologiche ( DpI ) da sole, o in associazione con i risultati laboratoristici. I casi erano classificati DpI = 1 quando era il complesso delle indagini (Rx + TC e/o RM) a far ritenere presente la flogosi.

Page 51: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 51

Per la DpI, l’equazione: ln(Odds) = -0.69 + 2.398 DpI

ha consentito la corretta classificazione del 61% dei casi patologici e dell’ 87.2% di quelli senza processo flogistico: la predizione positiva è risultata dell’84.6%. Peraltro questi risultati appaiono inficiati dal fatto che mentre il coefficiente b è risultato significativo con p<0.0075, non è apparsa significativa l’intercetta (-0.69). La considerazione di molte variabili, comprese quelle numeriche come VES, PCR e neutrofili, nell’equazione:

ln(Odds) = -264 + 18.5 DpI + 3.9 PCR +3.7 VES + 1.6 Neut. ha permesso la corretta classificazione, in positivo o negativo, di tutti i casi (100%). Bello! Purtroppo nessun coefficiente ha raggiunto la significatività statistica e l’eccessiva ampiezza dei relativi intervalli di confidenza toglie valore al risultato e rende inutilizzabile l’equazione. E’ invece risultata significativa l’equazione che abbina la DpI al dosaggio della Proteina C Reattiva:

ln(Odds) = -3.17 + 2.38 DpI + 0.265 PCR Per essa riportiamo più in dettaglio i risultati forniti dal computer, che dà anche una tabella di come risultino classificati i vari casi):

Variabile Coeffic. E.S. Coeff./E.S. p Costante -3.17 1.21 -2.62 0.009 DpI 2.38 1.2 1.98 0.05 PCR 0.265 0.125 2.12 0.034

Percentuale dei casi con flogosi correttamente classificati : 88.9% Percentuale dei casi senza flogosi correttamente classificati: 93.8% Accuratezza globale della classificazione: 91.6%.

Quindi associare la determinazione della proteina C reattiva alla diagnostica per immagini potrebbe rivestire reale interesse nella pratica clinica ed evitare il ricorso alla poco disponibile WBC. Parecchie volte, nella ricerca clinica, le informazioni disponibili sono molte e la tentazione di introdurle tutte nella regressione è forte. Si pone quindi un problema: quante variabili introdurre e come? Il computer è in grado di valutare automaticamente se un coefficiente non è significativo e togliere, se non lo è, la relativa variabile dal modello di regressione. E’anche in grado di valutare se l’aggiunta, o la sottrazione, di una variabile migliora o peggiore l’aderenza (fitting) del modello ai dati, servendosi di adatti test (analisi della devianza, 2χ , ecc.). Ciò posto, sembrerebbe vantaggioso introdurre nel computer molti fattori (tutti quali per i quali vi sia un sospetto, anche vago, che possano influire sul risultato) e lasciare al computer il compito di selezionarli e a porgerci la combinazione di fattori/variabili che assicura il miglior “fitting” del modello ai dati. Molti fanno però osservare che con questo sistema, spesso usato, si corre il rischio di introdurre degli errori, per motivi sui quali non ci soffermiamo. Viene invece suggerito di usare il sistema in modo esattamente opposto. E cioè di partire con la regressione usando un'unica variabile e cioè il fattore di rischio che conoscenze fisiopatologiche e cliniche fanno supporre essere il più importante. Si osserva se il coefficiente è significativo e quanto bene il modello sia congruo con i dati. Poi si introduce, come ulteriore variabile, il fattore ritenuto il secondo in ordine di importanza e si ripete il controllo. E così via, procedendo in ordine gerarchico, finché i coefficienti perdano significatività e/o non vi siano più variazioni di rilievo nell’adattamento del modello ai dati. A noi sembra che questo secondo metodo sia anche più adatto ad un operatore medico che, pur usando il computer, non perde di vista il proprio senso clinico. Così si è fatto nell’esempio –ma non ripercorro l’iter- per aggiungere alla D.p.I le variabili laboratoristiche di cui si è detto.

Page 52: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 52

CAPITOLO VII - Indici di associazione e concordanza

1) Associazione in tabelle 2 x 2

Coefficiente di associazione Rϕ

Per saggiare l’associazione fra due gruppi di dati nominali (espressi in frequenze poste in una tabella 2 x 2: la tabella viene costruita esattamente come abbiamo visto per il test di McNemar, in modo da evidenziare le concordanze e discordanze dei risultati) si può usare il coefficiente Rϕ che è semplice da calcolare con la seguente formula:

))()()(( DBCADCBA

BCADR

++++

−=ϕ

Dove le barre verticali al numeratore significano, al solito, “prendi il valore assoluto”.

E’ facile ricordare la formula considerando che al numeratore vi è la differenza fra i prodotti degli elementi nelle diagonali e al denominatore la radice quadrata del prodotto dei totali marginali. Il coefficiente va da 0 a 1 ed è tanto più vicino a 1 quanto più è stretta l’associazione (correlazione) fra le due variabili considerate. Il valore trovato è significativo se è significativo il 2χ (con correzione di Yates) calcolato sulla stessa tabellina 2 x 2. Esempio operativo n. 14 Riguarda uno studio su 66 pazienti sulla associazione fra positività per embolia della scintigrafia perfusoria polmonare e la presenza di dolore toracico. Ecco la tabella: Dolore No (0) Si (1) Positiva (1) 12 25 Scintigrafia Negativa (0) 18 11

( )363029371825()1112xxxxx

R−

=ϕ = 0.295

Il coefficiente 0.295 non sembra elevato, ma se si calcola 2χ con la correzione di Yates troviamo 2χ = 4.62 che per una tabella 2 x 2 è superiore al valore critico per p = 0.05 (che è 3.841, come si ricorderà). Possiamo concludere che negli embolici vi è una significativa associazione fra dolore toracico e positività scintigrafica. Nota.- Di indici di associazione ce ne sono parecchi, anche ripetitivi e poco utili. G.L. Norman e D.L.Streiner in un loro divertente libro di statistica (Biostatistics. The Bare essentials; B.C. Decker Inc., Hamilton, Canada, 1998) ironizzano: “Chi può dimenticare il Gamma di Goodman e il Lambda e il d di Somer? Noi ci siamo riusciti benissimo e potete farcela anche voi”.

Page 53: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 53

E ciò può valere anche per il Q e l’Y di Yule, il coefficiente di contingenza di Pearson, ecc. Lo stesso Rϕ in fondo è superfluo perché la statistica K (importante e che vedremo) dà esattamente lo stesso risultato quando applicata a tabelle 2 x 2.

2) Associazione in Tabelle m x n Coefficiente di Cramér

Può capitare di dover studiare la correlazione fra più variabili nominali, con dati (frequenze) raccolti in tabelle di contingenza di r righe per k colonne. In questo caso si può usare il coefficiente C di Cramér (da qualcuno indicato anche come coefficiente V) che è una particolare applicazione del 2χ . Questo coefficiente ha il vantaggio che può essere applicato anche all’associazione fra dati nominali ed una variabile ordinale, come è nell’esempio (la graduatoria:lenta-normale-rapida). Prima si calcola il Chi Quadro con le modalità che abbiamo imparato parlando della estensione del 2χ ai confronti multipli. Poi il coefficiente C viene determinato con la seguente formula:

C = )1(

2

−LNχ

Dove N è il totale generale e L è il numero minore fra quello delle righe e quello delle colonne.

E’ da notare che quando il test è applicato non a una tabella m x n, ma ad una tabella 2 x 2 (usando 2χsenza la correzione di Yates) il risultato è identico a Rϕ . Potrebbe quindi essere considerato una estensione a più gruppi di Rϕ .

Il coefficiente è significativo se è significativo il valore di 2χ contenuto nella formula, verificandolo per (r – 1) x (k – 1) GL. I calcoli sono semplici e possono essere eseguiti anche senza ricorrere ad un programma ad hoc. Esempio operativo n. 15

Il Responsabile della Radiodiagnostica vuole accertare se vi sia una associazione fra la rapidità nell’effettuare le indagini richieste dai Reparti e alcuni dei settori nei quali le prestazioni vengono effettuate. Decide di considerare “rapida” l’effettuazione entro 24 ore dalla richiesta, “normale” se fra 24 e 48 ore e “lenta” se oltre le 48 ore. Rivedendo i registri di un certo periodo di attività si può costruire la seguente tabella 3 x 4 comprendente 260 indagini:

Scheletro Digerente Torace TC Totali Lenta 13 11 18 25 67 Normale 38 15 26 12 91 Rapida 26 10 52 14 102 Totali 77 36 96 51 N = 260

Abbiamo posto a margine della tabella i totali di riga e di colonna per facilitare allo studente il calcolo del Chi Quadro per confronti multipli con il metodo già imparato. Questo calcolo dà per risultato 2χ = 32.9. Con tre righe e quattro colonne: L = 3.

Per conseguenza il coefficiente di Cramér è: C = )13(260

9.32−

= 0.25

Page 54: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 54

Il coefficiente non è elevato, ma è probabile che sia significativo considerando che il campione contiene un numero considerevole di dati. Se andiamo a vedere nella tavola di 2χ , o nelle funzioni statistiche di Excel, troviamo che 32.9 è superiore, per (3 – 1) x (4 – 1) = 6 GL, anche al valore tabulato per p = 0.005. Si può quindi concludere che C è oltremodo significativo: la velocità d’espletamento delle richieste non è casuale, ma è correlata con i settori ove le indagini vengono eseguite.

Ma, se è così, il Direttore (persona di non facile contentatura) vuole anche sapere in quale settore l’espletamento è significativamente più lento (reprimenda) e in quale settore più rapido (elogio). Conviene quindi localizzare le differenze significative presenti nella tabella con il metodo dell’analisi dei residui standardizzati, che già conosciamo. Ne viene la tabella:

Scheletro Digerente Torace TC Lenta - 1.52 0.57 - 1.25 3.4** Normale 2.21* 0.77 - 1.3 - 1.54 Rapida - 0.83 - 1.31 2.38* -1.55

In base ad essa il Responsabile sa, per i provvedimenti del caso, che il settore TC è di gran lunga (** = p<0.01) il più lento nel soddisfare le richieste e il settore Torace il più rapido (* = p<0.05). Nel settore Scheletro prevale un espletamento fra 24 e 48 ore.

3) Concordanza fra osservatori ed affidabilità delle osservazioni E’ evidente che un dato nominale nasce dal fatto che viene indicato con un nome particolare un certo oggetto (viene cioè operata una classificazione). Un radiologo, ad es., può indicare (giudicare, classificare) un addensamento polmonare come “tumore” o “processo flogistico” od altro. Oppure, più genericamente ed in rapporto alla patologia che va cercando, può giudicare “positivo” o “negativo” il risultato.

In rapporto a tale operazione si devono distinguere e controllare due cose: 1) L’accuratezza: cioè la capacità di risposte esatte, corrispondenti al vero. Questo si controlla

verificando quanto i giudizi dati corrispondano alla realtà delle cose, come indicata da un “metodo di riferimento” considerato privo di errore (golden standard): per lo più un esame istologico e/o anatomopatologico. I risultati della verifica sono espressi in termini di sensibilità, specificità, ecc.

2) L’affidabilità, detta anche precisione, che si identifica con la ripetibilità: capacità di dare le stesse risposte in osservazioni ripetute. La precisione ha, per rimanere nel campo radiologico, due aspetti:

- Precisione “tra osservazioni” (interobserver, interrater): due o più radiologi indipendenti concordano nel dare le stesse risposte (o giudizi) sugli stessi radiogrammi;

- Precisione “nell’osservazione” (intraobserver, intrarater): ogni osservatore è coerente nel mantenere le risposte date anche rivedendo i radiogrammi a distanza di tempo.

Non parleremo qui dell’accuratezza e di altri indici diagnostici, ma invece dei controlli di affidabilità , purtroppo spesso trascurati: lo faremo con esempi concreti. A) Due osservatori, due categorie di giudizio

Il Direttore della Radiodiagnostica vuole assegnare due radiologi, Tizio e Caio, al settore operativo “Torace”. Vuole però sapere, preliminarmente:

a) Tizio e Caio concordano (è importante che lo facciano) nel dare i propri giudizi di fronte agli stessi radiogrammi del torace? (è una valutazione di precisione interobserver);

Page 55: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 55

b) Chi dei due è il più capace di mantenere invariati nel tempo i propri criteri di valutazione? (è una valutazione di precisione intraobserver).

Vi sono vari metodi per affrontare questo problema, ma uno particolarmente semplice è impiegare il coefficiente Rϕ che già abbiamo studiato, oppure la statistica K (vedi oltre). Cento radiogrammi del torace con opacità da tumore polmonare, ma anche di differente origine e natura, vengono presentati ai due radiologi e si chiede loro di simboleggiare con il segno + il giudizio “c’è un tumore polmonare” e con il segno – il giudizio “no, non è un tumore polmonare”. Confrontando i giudizi dati nei singoli casi, chi organizza lo studio può costruire questa tabella: TIZIO + - + 35 7 CAIO - 10 48

Calcoliamo il coefficiente R)487()1035()4810()735(

)107()4835(+⋅+⋅+⋅+

−=

xxϕ = 0.66

Un coefficiente di 0.66 è, dato il numero elevato di casi con i quali è stato determinato, molto elevato ed indica una buona concordanza “tra osservatori”. Sappiamo comunque che la significatività può essere controllata calcolando 2χ sulla stessa tabellina: facendolo si trova

2χ = 40.36, significativo con p<0.001. Osservazione 1: Si osserverà che i due radiologi hanno dato 48 + 35 = 83 giudizi concordanti su 100 casi. Purtroppo v’è chi direbbe -e scriverebbe- che la concordanza fra i due è dell’83%. Questo è un errore, perché è 83% la concordanza non depurata da quanto dovuto al caso: se i giudizi “positivo” e “negativo” fossero stati espressi senza neppure vedere i radiogrammi, gli esaminatori si sarebbero comunque trovati casualmente d’accordo in un certo numero di casi. Osservazione 2: L’omogeneità . Si è potuto costruire la tabella per il calcolo di Rϕ perché lo studio è stato condotto in modo da poter confrontare caso per caso i giudizi dati dai due osservatori. Rivedendo casistiche o leggendo delle pubblicazioni, il caso più comune è però un altro: che si abbiano i risultati complessivi dei due osservatori, ma non quelli dati nei singoli casi. Non possiamo valutare la concordanza, ma possiamo sapere qualcosa circa la omogeneità. Possiamo infatti costruire la tabellina: TIZIO CAIO Positivi 45 42 Negativi 55 58 Possiamo così vedere che i due radiologi sono omogenei nelle loro valutazioni: entrambi trovano più o meno la stessa percentuale di tumori nella casistica esaminata (45% il primo e 42% il secondo). Perché vi sia omogeneità occorre che 2χ non sia significativo e l’omogeneità è tanto maggiore quanto più è

Page 56: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 56

piccolo Rϕ (o altri coefficienti analoghi, come il Q di Yule ecc.). Per la tabella sopraindicata è Rϕ = 0.03, indicante una forte omogeneità. A questo punto interessa valutare la concordanza “nell’osservazione” (intraobserver) per ciascuno dei due radiologi. Dopo un mese (in modo che siano dimenticati i giudizi precedentemente dati) le 100 radiografie, opportunamente rimescolate, vengono ripresentate a TIZIO. Da questa seconda lettura emerge: - che su 45 casi precedentemente considerati da lui positivi per tumore, il giudizio è mutato in 5, ora

ritenuti negativi; - che, per contro, viene dato giudizio di positività in 7 casi considerati negativi nella prima osservazione.

La tabella dei risultati è perciò la seguente: I OSSERVAZIONE + - + 40 7 II OSSERVAZIONE - 5 48

Il coefficiente di concordanza, calcolato su questa tabella, è Rϕ = 0.76 (76%) Si ripete la stessa procedura per CAIO, trovando Rϕ = 0.49 (49%)

Si conclude che vi è una buona concordanza fra i due radiologi, ma che TIZIO è più affidabile in quanto dotato di maggior precisione “intraobserver”. Sarebbe quindi da preferire TIZIO (ma il posto viene dato a CAIO, raccomandato da un Ministro). B) Due osservatori e più categorie Nel paragrafo precedente abbiamo considerato il caso di due radiologi che devono classificare dei radiogrammi in base a due categorie di giudizio: positivo e negativo ed abbiamo indicato un metodo per stimare la concordanza fra i due osservatori. Indichiamo ora cosa fare se le categorie di giudizio sono molte, o comunque più di due e come si stima la concordanza fra due osservatori che, ad es., debbano classificare i casi secondo cinque categorie: 1) Sicuramente negativo 2) Probabilmente negativo3) Dubbio (indeterminato) 4) Probabilmente positivo 5) Sicuramente positivo. Per 2 osservatori la risposta è nella Statistica K di Cohen . Il metodo ha anche una variante, il cosiddetto “K pesato”, particolarmente utile quando le categorie sono “gradi” o “stadi” di una variabile ordinata, come nell’esempio sopra indicato. Qui vogliamo notare, una volta per tutte, che con il termine “osservatori” non necessariamente dobbiamo limitarci agli esseri umani: anche due test possono essere considerati “osservatori” in quanto con i loro risultati classificano i casi. Il metodo trova quindi un’applicazione molto estesa. Statistica K di Cohen Sarebbe facile contare quante volte i due osservatori sono d’accordo nell’esprimere un certo giudizio e stabilire così una percentuale di concordanza rispetto al totale delle osservazioni. Ma facendo così non si tiene conto che i due osservatori possono trovarsi d’accordo anche per puro caso, magari senza neppure esaminare i radiogrammi. Lo scopo della statistica K è proprio quello di depurare la concordanza della quota dovuta al caso. Illustreremo il metodo e la sua variante “pesata” con due esempi, il n. 16 e 16 bis.

Page 57: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 57

Esempio operativo n.16

Si vuole esaminare il grado di concordanza fra due radiologi chiamati a giudicare, in base alla documentazione radiografica (o, per meglio dire, TC) la benignità o la malignità dei noduli solitari polmonari. Ad entrambi viene fornita la documentazione Rx di 100 casi: ciascuno di essi è, ovviamente, al’oscuro di quanto fa l’altro e dei giudizi che esprime. Sarebbe bene –ma non è indispensabile- che la casistica Ai due esaminatori viene chiesto di assegnare il proprio giudizio a ciascun caso classificandolo in una delle delle seguenti cinque categorie: 1) SB = sicuramente benigno; 2) Pb = probabilmente benigno; 3) D = dubbio; 4) PM = probabilmente maligno; SP = sicuramente maligno: I ESAMINATORE

SB PB D PM SM Tot. SB 7 6 2 2 1 18 PB 14 6 3 3 1 27

II ESAMIN. D 1 1 4 5 1 12 PM 5 3 2 5 8 23

SM 1 1 2 3 13 20 Tot. 28 17 13 18 24 N=100

Il primo numero della tabella, in alto a sinistra, indica che 7 casi sono stati giudicati sicuramente benigni da entrambi gli osservatori. Il numero subito sottostante evidenzia che altri 14 casi sono stati giudicati sicuramente benigni dal primo osservatore, mentre il secondo –più prudente o meno sicuro di sé- si è limitato a considerarli probabilmente benigni . E così via. Con la dizione Tot. (Totale) viene indicata nell’ultima colonna a destra la somma dei dati di ciascuna riga e, in calce alla tabella, la somma dei dati di ciascuna colonna.

Si noterà che in questa tabella la diagonale contiene il numero delle volte (frequenze) nel quale vi è un giudizio pienamente concorde dei due osservatori. Per cui la concordanza ( non depurata da quanto dovuto al caso) risulta : 7+6+4+5+13 = 35; 35/100 = 0.35 (35%). Come si calcola la concordanza dovuta al caso? Moltiplicando, per ciascuna categoria, il totale marginale della riga per quello della colonna e dividendo per il numero totale dei casi. Sarà quindi, per i SB, 18 x 28/100 = 5.04; per i PB 27 x 17/100 = 4.59; per i D 12 x 13/100 = 1.56; per i PM 23 x 18/100 = 4.16 e per i SM 20 x 24/100 = 4.8. Si sommano I risultati e si ottiene la quota totale delle concordanze dovute al caso: 5.04 + 5.4 + 1.56 + 4.14 + 4.8 = 20.13 %. Se non considerassimo la quota dovuta al caso, il coefficiente K sarebbe, come abbiamo già visto, K = 35 /100. Ma se sottraiamo la quota dovuta al caso sia al numeratore che al denominatore avremo K = (35 – 20.13) / (100 – 20.13) = 0.186 (18.6 %). Ed è questo il coefficiente di Cohen. Che è assai minore del 35 % di concordanza stimato prima: la presenza di una concordanza dovuta al caso fa sembrare l’accordo fra i due osservatori migliore di quanto esso realmente sia. Conviene stimare anche l’Errore Standard del coefficiente, con la semplice formula:

e

aa

NNTNNN

SE−

−⋅=

/)(..

Dove N è il numero totale dei casi (100 nel ns. esempio), Na la somma non depurata dei casi concordanti (35 nell’es.) e Ne la somma dei concordanti per caso (cioè, nell’es., 21). Quindi:

Page 58: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 58

13.20100100/)35100(35

.−

−⋅=SE =0.0597

Avendo l’ES possiamo stabilire i limiti di confidenza di K (lo faccia il letore, che ormai sa farlo: vedrà che l’intervallo di confidenza al 95% non comprende lo 0, anche se il limite inferiore ad esso si avvicina) ed un test Z di significatività: Z = K/ES = 0.186/0.0597 = 3.12, che è significativo con p<0.01. Attenzione: l’elevata significatività di Z non necessariamente indica che la concordanza sia forte. Indica che l’ipotesi H0 (cioè l’ipotesi che una concordanza NON vi sia) può essere respinta con quasi assoluta sicurezza, ma poco ci dice sulla forza della concordanza. Va bene, direte voi, ma dal punto di vista pratico è necessario sapere se i due radiologi concordano molto o poco! Certamente: per quello nel programma Basic che segue è stata inserita una scala quantitativa nota alla letteratura , articolata su sei classi, in base alla quale la risposta del programma, dopo aver fornito il K, il suo ES, i limiti di confidenza ed il valore di Z, definisce un valore di 0.186 come indice di “Scarsa concordanza”. E’ anche utile ricordare le indicazioni di Fleiss: i valori di K eccedenti 0,75 indicano concordanza eccellente, i valori fra 0.4 e 0.75 una concordanza da discreta a buona, mentre valori inferiori a 0.4 indicano una concordanza scarsa, da non utilizzare.

Come input, il programma chiede il numero delle categorie (cinque, nell’esempio) e il numero totale deicasi (100 per l’esempio). I dati della tabella (solo quelli in grassetto nelle colonne intestate alle categorie) vanno inseriti consecutivamente e per file nella proposizione 100 DATA…

Programma in Basic K - per statistica K di Cohen 1 REM Indice di concordanza K di Cohen (2 osservatori, n categorie). Scrivere i dati, di seguito per RIGHE in 100 Data... 3 DIM D(20,20) 5 INPUT "Quante categorie";N 10 INPUT "Quanti casi";T 15 FOR I=1 TO N 20 FOR J=1 TO N 25 READ D(I,J):SR(I)=SR(I)+D(I,J) 30 NEXT 35 NEXT 40 FOR J=1 TO N:FOR I=1 TO N:SC(J)=SC(J)+D(I,J):NEXT:NEXT 45 FOR J=1 TO N:EC=SR(J)*SC(J)/T:CC=CC+EC:CV=CV+D(J,J):NEXT 50 K=(CV-CC)/(T-CC):PRINT:ES=SQR(CV*(T-CV)/T)/(T-CC):PRINT " K=";K;" ES-";ES;" Z=";K/ES;" LS=";K+1.96*ES;"LI=";K-1.96*ES 55 IF K<0 THEN PRINT "Non concordanza":GOTO 60 IF K>0 AND K<.2 THEN PRINT " Concordanza scarsa":GOTO 90 65 IF K>.2 AND K<.4 THEN PRINT " Poca concordanza":GOTO 90 70 IF K>.4 AND K<.6 THEN PRINT " Concordanza discreta":GOTO 90 75 IF K>6 AND K<.8 THEN PRINT " Concordanza buonaa":GOTO 90 80 IF K>8 THEN PRINT " Concordanza ottima" 90 END 100 DATA 7,6,2,2,1,14,6,3,3,1,1,1,4,5,1,5,3,2,5,8,1,1,2,3,13

Page 59: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 59

C) Due osservatori, più categorie “ordinate”

Il K di Cohen “pesato”

Gli organizzatori dello studio riportato nel precedente Esempio avrebbero potuto far di meglio. Infatti le categorie: “sicuramente benigno”; “probabilmente benigno”; “dubbio”; “probabilmente maligno”, “sicuramente maligno” non sono indipendenti, ma rappresentano li “gradi” di una variabile ordinata (graduata). In questo caso il test più opportuno per valutare la concordanza non è K, ma KW cioè K “pesato” (W sta per “weight”). Il test Kw fornisce un coefficiente più elevato della statistica K applicata agli stessi casi ed anche concettualmente più valido, in quanto il test valorizza le concordanze parziali (cioè le vicinanze nei giudizi: è chiaro che un osservatore che classifica un caso come “probabilmente positivo” è molto più vicino a chi lo definisce “sicuramente positivo” che non a chi lo classificherebbe come “probabilmente negativo” o, peggio, “sicuramente negativo”. Di ciò viene tenuto conto, nel calcolo, valutando il disaccordo (che è un po’ “la distanza” fra due gradi di giudizio) e pesandolo tanto di più quanto esso è maggiore. Un esempio varrà a chiarire meglio il concetto, oltre che ad illustrare la tecnica del calcolo. Esempio operativo n. 17 Riprendiamo l’esempio precedente, riproducendone la tabella.

I ESAMINATORE SB PB D PM SM Tot.

SB 7 6 2 2 1 18 PB 14 6 3 3 1 27

II ESAMIN. D 1 1 4 5 1 12 PM 5 3 2 5 8 23

SM 1 1 2 3 13 20 Tot. 28 17 13 18 24 N=100

Ricordiamo che in questa tabella la diagonale contiene il numero delle volte (frequenze) nel quale vi è un giudizio pienamente concorde dei due osservatori. E abbiamo visto che la concordanza ( non depurata da quanto dovuto al caso ) sarebbe: 7+6+4+5+13 = 35/100 = 0.35 (35%).

Tutto ciò che si trova al di fuori della diagonale esprime disaccordo fra gli osservatori. Si noti che il disaccordo è tanto maggiore quanto più ci si allontana dalla diagonale. I numeri contenuti nella riga obliqua immediatamente parallela alla diagonale (a un passo da questa, da un lato e dall’altro) esprimono un disaccordo modesto: per esempio, un caso dichiarato “ sicuramente negativo” da un esaminatore, viene considerato “ probabilmente negativo” dall’altro. Per la riga obliqua posta a 2 passi dalla diagonale il disaccordo è maggiore : un caso “ sicuramente negativo” per l’uno, sarebbe “ dubbio” per l’altro; ancora aumenta per i giudizi posti nella obliqua a 3 passi dalla diagonale. Il massimo disaccordo si ha ovviamente per le caselle ai vertici della tabella più lontani dalla diagonale: quel che è “ sicuramente positivo” per uno , diviene “sicuramente negativo” per l’altro!

Un metodo frequentemente usato per assegnare dei “pesi” al disaccordo è quello di porre al quadrato la distanza ( i passi ) dalla diagonale. Nella obliqua attigua ( a 1 passo) alla diagonale il peso è 12 = 1: nella successiva, a 2 passi, è 22 = 4 e così via.

Page 60: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 60

Quindi la tabella dei pesi sarà:

SN PN D PP SP SN - 1 4 9 16 PN 1 - 1 4 9 D 4 1 - 1 4 PP 9 4 1 - 1 SP 16 9 4 1 -

Si possono però usare anche pesi lineari (nella progressione 1, 2, 3, 4,…) o altri tipi di pesi. Su cosa si basa la formula per il K pesato?. Essa si basa sulla proporzione di volte ( attesa, P(E) e osservata, P(O) ) che i valutatori si trovano in disaccordo. Quale sarà la proporzione di volte che si trovano in disaccordo? Sarà ( vedi il Capitolo sulle proporzioni): Q = 1 - P. Se scriviamo la formula in termini di disaccordo, cioè di Q, otteniamo:

K = )(

)()(

E

OE

QQQ −

= 1 - )(

)(

E

O

QQ

Q(O), cioè il “disaccordo osservato pesato” si ottiene per ogni casella ( non si tiene conto di quelle della diagonale, che non servono ) moltiplicando il “peso” per la frequenza contenuta nella casella divisa per N (onde avere la proporzione) e facendo la sommatoria dei valori ottenuti. Così, procedendo da sinistra a destra e dall’alto in basso: Q(O) = 1x6/100 + 4x2/100 + 9x2/100 + 16x1/100 + 1x14/100 + 1x3/100 + 4x3/100 + 9x1/100 + + 4x1/100 + 1x1/100 + 1x5/100 + 4x1/100 + 9x5/100 + 4x3/100 + 1x2/100 + 1x8/100 + 16x1/100 + + 9x1/100 + 4x2/100 + 3x1/100 = 2.03

Per calcolare Q(E) bisogna prima trovare la frequenza attesa per ogni casella. Questo viene fatto, esattamente come per il calcolo del 2χ per confronti multipli (vedi), moltiplicando per ogni casella i totali marginali della riga e colonna corrispondente e dividendo per N. Ad esempio, nella seconda casella della prima riga porremo 18x17/100 = 3.06; nella terza 18x13/100 = 2.34 e così via. La tabella delle frequenze attese risulta perciò essere: SN PN D PP SP SN - 3.06 2.34 3.24 4.32 PN 7.56 - 3.51 4.86 6.48 D 3.36 2.04 - 2.16 2.88 PP 6.44 3.91 2.99 - 5.52 SP 5.61 3.40 2.60 3.60 - A questo punto per il calcolo del “disaccordo atteso pesato” si procede esattamente come per il calcolo di Q(O): per ogni casella si moltiplica il “peso” per la frequenza “attesa” divisa per N e si sommano i risultati. Si troverà: Q(E) = 4.448.

Poniamo i valori trovati nella formula:

KW = 1 - 448.403.2 = 0.543 (54.3%)

Ricordando che con il K non pesato il coefficiente era 0.186 (18.6%) si noterà quale incremento di concordanza abbia apportato il tener conto anche delle concordanze parziali. Anche con questo metodo per la interpretazione qualitativa dei risultati valgono le indicazioni del precedente esempio, comprese quelle di Fleiss. Ed ecco il consueto programmino in GW-Basic

Page 61: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 61

Programma in Basic KW - per il K di Cohen “pesato” (Kw) 10 REM "KW" Programma per il K "pesato" 20 REM Inserire per colonna i dati della tabella in 80 DATA... 30 INPUT "QUANTE CATEGORIE";K 40 FOR J=1 TO K:FOR I=1 TO K:READ D(I,J):C(J)=C(J)+D(I,J):NEXT:NEXT 50 FOR J=1 TO K:N=N+C(J):NEXT:FOR I=1 TO K:FOR J=1 TO K:R(I)=R(I)+D(I,J):NEXT:NEXT 60 GOSUB 110 70 QO=SU:SU=0:FOR I=1 TO K:FOR J=1 TO K:D(I,J)=R(I)*C(J)/N:NEXT:NEXT 80 GOSUB 110 90 KW=1-(QO/SU):CLS:PRINT:PRINT " Kw =";INT(KW*1000)/1000 92 IF KW>0 AND KW<.2 THEN PRINT " Poca concordanza":GOTO 100 94 IF KW>.2 AND KW<.4 THEN PRINT " Modesta concordanza":GOTO 100 96 IF KW>.4 AND KW<.6 THEN PRINT " Discreta concordanza":GOTO 100 98 IF KW>.6 AND KW<.8 THEN PRINT " Buona concordanza":GOTO 100 99 IF KW>.8 THEN PRINT " Ottima concordanza" 100 PRINT:END 110 FOR I=1 TO K 120 FOR J=1 TO K 130 IF I=J THEN GOTO 150 140 SU=SU+(I-J)^2*D(I,J)/N 150 NEXT 160 NEXT 170 RETURN 180 DATA 7,14,1,5,1,6,6,1,3,1,2,3,4,2,2,2,3,5,5,3,1,1,1,8,13

L’uso è molto semplice. Caricato il programma, si crea la linea 80 DATA inserendovi, separati da virgole, i dati della tabella, questa volta letti per colonna da sinistra a destra. Dato il RUN il PC fa un’unica domanda “Quante categorie?”. Risponderemo digitando, per l’esempio, 5 ed immediatamente sarà fornito il valore di Kw.

D) Più osservatori e più categorie

La statistica K di Fleiss E’ la variante più estesa di statistica K. Mentre il K di Cohen e il K “pesato” vogliono due osservatori (o, nel caso di più osservatori, che questi vengano studiati ad una coppia per volta) il K di Fleiss può essere valutato con qualsiasi numero di osservatori e per qualsiasi numero di categorie. Per spiegare il metodo ricorriamo, al solito, ad un esempio concernente quattro osservatori e cinque categorie.

Esempio operativo n. 18 Si vuole valutare la concordanza di quattro radiologi nella diagnosi di alterazioni focali dell’osso di non patognomonico aspetto. Sono loro forniti i radiogrammi di 15 pazienti (pochini, per uno studio serio) e li si invita a classificare ogni caso in una delle seguenti categorie : 1) Neoplasia maligna (NM); 2) Processo flogistico (PF); 3) Tumore benigno (TB); 4) Postumo di trauma (PT); 5) Displasia (DP). Al termine della valutazione i risultati vengono raccolti in una tabella (quella in grassetto: ciò che è in calce e sul margine destro fa parte del processo di elaborazione dei dati):

Page 62: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 62

VALUTAZIONI

Paziente NM PF TB PT DP S 1 - - - - 4 1 2 2 - 2 - - 0.333 3 - - - - 4 1 4 2 - 2 - - 0.333 5 - - - 1 3 0.5 6 1 1 2 - - 0.167 7 3 - 1 - - 0.5 8 3 - 1 - - 0.5 9 - - 2 2 - 0.333 10 3 - 1 - - 0.5 11 - - - - 4 1 12 4 - - - - 1 13 4 - - - - 1 14 4 - - - - 1 15 - - 3 1 - 0.5 C 26 1 14 4 15 P 0.433 0.017 0.233 0.067 0.25 P2 0.187 0.0003 0.054 0.0045 0.0625

Si osservi come l’impostazione della tabella è diversa da quella che ci servì per gli esempi n. 16 e 17. Là ogni numero rappresentava il n. dei casi che avevano ricevuto un certo giudizio; qui invece il n. degli osservatori che esprimono un particolare giudizio. Ad es. tutti e 4 hanno ritenuto che i radiogrammi del paz. n.1 indicassero una displasia; per il secondo paziente, 2 osservatori hanno ritenuto trattarsi di una neoplasia maligna e due di un tumore benigno. E così via. E ciò fa sì che il totale di ogni riga sia quattro (il numero degli osservatori). I C posti in calce alla tabella sono il totale dei dati (osservazioni) contenuti in ogni colonna. Al di sotto vi è P, che è la proporzione di C rispetto al totale delle osservazioni (il totale è dato, ovviamente, dal numero degli osservatori per il numero dei casi: 4 x 15 = 60, nell’esempio). Perciò nella prima colonna è p = 26/60 = 0.433; così per le altre. Sotto ancora si pone P2, che non è altro che P posto al quadrato: P2 è la proporzione delle osservazioni che ci attenderemmo nella colonna se la concordanza fosse dovuta solo al caso. Le S poste al margine destro della tabella sono le stime della concordanza fra gli osservatori per ogni

singolo paziente: si ottengono con la formula S = )1()1(

−∑kknn

dove, essendo k il numero degli osservatori,

il denominatore è, per tutte le righe, 4 x (4-1) = 4 x 3 = 12. Per il numeratore si sommano i numeri che compaiono in ogni riga, dopo aver moltiplicato ciascuno di essi per se stesso meno una unità. Ad esempio, nella prima riga abbiamo un solo numero, il 4: perciò S = (4 x 3)/12 = 1; nella seconda riga abbiamo due 2: perciò S = ((2 x 1) + (2 x 1))/12 = 4/12 = 0.333; nella sesta riga abbiamo tre numeri che danno ((1 x 0) + (1 x 0) + (2 x 1))/12 = 2/12 = 0.167. Ottenute tutte le S se ne fa la somma e la media, che, nel caso nostro, è 9.666/15 = 0.644.

La formula che ci fornisce il coefficiente K è: K = )(1)()(

EPEPOP

Page 63: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 63

P(O) è la media delle S: quindi 0.644 P(E), la proporzione di concordanza dovuta al caso, si ottiene facendo la somma dei P2:

quindi P(E) = 0.187 + 0.0003 + 0.054 + 0.0045 + 0.0625 = 0.3083.

Possiamo quindi calcolare K = 3083.013083.0644.0

− = 6917.03357.0 = 0.485 (48.5%)

Si sarà notato che K stima la concordanza depurata da quanto dovuto al caso; è questo che rende il metodo interessante e vantaggioso. Al solito, il coefficiente varia fra 0 e 1 ed è tanto più alto quanto maggiore è la concordanza fra gli osservatori, che qui sembra modesta. La domanda che quindi sorge è: è significativa o no una concordanza con K = 0.485 (48.5%) ?

L’errore standard di K può venir calcolato allo scopo di effettuare un test di significatività, ma il calcolo è complesso e preferisco ometterne le formule, nella sicurezza che nessuno di voi lo farà mai. Tuttavia, se si vuole utilizzare il programmino che segue, otterrete anche l’ES di K e la sua significatività in termini di Z (e ricordiamo che se Z è maggiore di 2.58, K è significativo con p<0.01). Nel nostro caso Z è molto alto, circa 6, il che ci dice che possiamo con certezza pressoché assoluta respingere l’ipotesi nulla (H0), cioè quella che una concordanza non ci sia.

Per una valutazione empirica della forza della concordanza valgono le indicazioni già date parlando del K di Cohen e del K “pesato”.

Ed ecco un programmino in Basic, che si applica dopo aver costruita la tabella delle Valutazioni, senza ovviamente calcolare i marginali S, C, P e P2.

Programma in Basic KF - per il K di Fleiss 1 REM "K" Programma per statistica K di FLEISS (molteplici osservatori e categorie) 2 REM Inserire, PER COLONNA, tutti i dati in 70 DATA... 5 INPUT "QUANTI OSSERVATORI";K:DE=K*(K-1):INPUT "QUANTI CASI";N2 10 INPUT "QUANTE COLONNE (categorie)";CO:PRINT "Dai il n. dei dati presenti in ogni colonna" 15 FOR J=1 TO CO:PRINT "COLONNA";J 20 INPUT N:N1=N1+N:FOR I=1 TO N:READ D:C(J)=C(J)+D:NEXT 25 T=T+C(J):NEXT 30 FOR J=1 TO CO:P(J)=C(J)/T:P2(J)=P(J)^2:PE=PE+P2(J):S3=S3+P(J)^3:NEXT 35 RESTORE:FOR J=1 TO N1:READ D1:S1=S1+D1*(D1-1):NEXT:S1=S1/DE:PO=S1/N2 40 K1=(PO-PE)/(1-PE):NU=PE-(2*K-3)*PE^2+2*(K-2)*S3:DE=(1-PE)^2:VA=2/(N2*K*(K-1)):VA=VA*NU/DE:ES=SQR(VA):Z=K1/ES 45 CLS:PRINT:PRINT "K =";K1;"ES =";ES 50 PRINT "Per significativ. di K: Z =";Z 55 END 70 DATA 2,2,1,3,3,3,4,4,4,1,2,2,2,1,1,2,1,3,1,2,1,4,4,3,4

Nella riga 70 sono raccolti i dati, letti nella tabella per colonne. Il programma chiede il numero degli osservatori (4 , per l’esempio), il n. dei casi (15) e, per ogni colonna, il n. dei dati contenuti (9 per la prima colonna, 1 per la seconda, ecc.). In uscita si ha il K di Fleiss, il suo E.S. e il valore di Z.

Page 64: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 64

Raccomandazione finale

Vogliamo concludere questa dispensa con una raccomandazione: l’uso corretto di un test dipende dall’aver chiaro in testa che cosa si va cercando e dall’organizzare di conseguenza il test stesso. Il lettore avrà notato, per esempio, che i dati dell’esempio operativo n. 1 sono stati riportati, nel testo della dispensa, con due diverse disposizioni; la prima volta nella tabellina:

Meta. Linf. + Meta. Linf. – RM + 9 12 RM - 2 15

E la seconda volta come tabellina:

Meta. Linf. + Meta Linf. – RM “veri” 9 15 RM “falsi” 2 12 Calcolando il Chi Quadro si è ottenuto nel primo caso 3.03 e nel secondo 1.32. Ma come, potrà sorprendersi qualcuno, con gli stessi numeri (dati) si ottengono due risultati diversi?

Occorre riflettere che la risposta del test è diversa perché sono differenti i quesiti che gli sono stati posti.

Nel primo caso si chiede al test di informarci se la proporzione di risposte positive, rispetto alle negative, fornita dalla RM è significativamente diversa a seconda che vi siano o non vi siano metastasi linfonodali (quindi il confronto avviene in termini di previsione di malattia, data una risposta positiva, o previsione di assenza di malattia, data una risposta negativa).

Nel secondo caso si chiede al test di informarci se la proporzione di reperti RM positivi o negativi “veri” (cioè corrispondenti al reperto istologico) osservata nel gruppo di soggetti affetti da metastasi è significativamente diversa, oppure no, rispetto a quella osservata nei soggetti privi di metastasi (quindi viene confrontata la sensibilità econ la specificità della RM).

E’ sempre necessario formulare chiaramente un problema, prima di applicarvi un test statistico

Page 65: 2015 Galli TEST STATISTICI PER DATI NOMINALIaimn.meetingup.it/wp-content/uploads/2015/03/Test-statistici-per... · In Radiologia (ma, sempre di più, anche in Medicina Nucleare) si

Guido Galli – Test Statistici per dati nominali 65

APPENDICE

Tavola dei valori critici di Chi quadro (fino a 20 Gradi di Libertà)

G.L.

P= 0.10

P=0.05

P=0.01

P=0.005

1 2.705 3.841 6.635 7.879 2 4.605 5.991 9..210 10.597 3 6.251 7.815 11.345 12.838 4 7.779 9.488 11.277 14.860 5 9.236 11.07 15.086 16.749 6 10.645 12.592 16.812 18.547 7 12.017 14.067 18.475 20.278 8 13.362 15.507 20.090 21.955 9 14.684 16.919 21.666 23.589 10 15.987 18.307 23.209 25.188 11 17.275 19.675 24.725 26.757 12 18.549 21.026 26.217 28.299 13 19.812 22.362 27.688 29.819 14 21.064 23.685 29.141 31.319 15 22.307 24.996 30.578 32.801 16 23.542 26.296 31.999 34.267 17 24.769 27.587 33.409 35.718 18 25.989 28.869 34.805 37.156 19 27.204 30.143 36.191 38.582 20 28.412 31.410 37.566 39.997

Nota Un valore calcolato di 2χ superiore, per un determinato grado di libertà (G.L), al valore riportato nella tavola indica significatività con P minore del dato che intesta la corrispondente colonna (in grassetto la colonna che si riferisce al limite convenzionale per la significatività : P=0.05). I valori riportati sono arrotondati alla III° cifra decimale.