4. Statistica Medica 15 Novembre 2012

download 4. Statistica Medica 15 Novembre 2012

of 5

Transcript of 4. Statistica Medica 15 Novembre 2012

  • 8/13/2019 4. Statistica Medica 15 Novembre 2012

    1/5

    Statistica Medica 15 novembre 2012

    Dopo aver valutato, nella lezione precedente, lassociazione tra due variabili categoriali, constatandone ladipendenza o lindipendenza con il test del 2, si prende ora in esame lassociazione tra una variabilenumerica ed una categoriale.

    Per ragioni di tempo assumiamo che il valore numerico debba rientrare nella normalit e che la variabilecategoriale sia dicotomica; tali assunzioni non sono nella pratica necessarie poich la statistica forniscemetodi per adattare i dati. Per verificare la normalit i dati devono rientrare in un sistema probabilisticoche possa essere rappresentato tramite distribuzione a campana, o curva di Gauss, o che ad essa si avvicinicon buona approssimazione. Affinch listogramma sia soddisfacente si richiede un consistente numero diosservazioni. Nel caso in cui tale numero sia basso, nellordine di poche decine, si gioca sulla normalitintrinseca delle grandezze osservate: laltezza, per esempio, rientra comunemente nella normalit , mentrelo stesso discorso non vale per il salario.

    Nel caso in cui listogramma risultante sia evidentemente asimmetrico vi sono due strade per normalizzare idati: la trasformazione o le analisi non parametriche.

    Premesso che le analisi parametriche non assumono la normalit, si prende in considerazione, per il nostrocorso, solo la trasformazione.

    Trasformare significa trattare il dato X in modo da renderlo normale. In particolare se listogramma per X spostato verso sinistra, e ha dunque la coda a destra, si applica la funzione o finchsia possibile continuare a lavorare con valori Y normali. Nel caso in cui la coda sia spostata verso sinistra ei dati si concentrino a destra la trasformazione che si utilizza pi di frequente ; nel caso in cui non

    basti si pu elevare al cubo, alla quarta ed oltre fino ad ottenere una distribuzione soddisfacente.Limportante continuare a trasformare i dati fino ad ottenere una buona approssimazione della normalit,verificabile con listogra mma dei dati dopo la funzione, e trasformare TUTTI i dati perch si deve poicontinuare a valutare lassociazione con la variabile categoriale solo con i nuovi dati trasformati. Lapropriet caratteristica di queste trasformazioni livellare i dati: quelli pi grandi vengono ridimensionatimolto, i pi piccoli moderatamente.

    Test di Student

    Per esempio si vogliono confrontare i salari dei dipendenti della stessa banca ma di due filiali differenti.Dato che sono molto di pi quelli che guadagnano cifre medio-basse (coda a destra), e che il salario non una variabile intrinsecamente normale, si deve trasformare; in questo caso dovrebbe bastare fare illogaritmo. Dato che oggetto del nostro interesse la differenza tra i salari, reale o presunta, qualsiasitrasformazione modificher di certo i dati ma non la differenza tra gli stessi.

    Ottenuta la normalit dei dati si pu finalmente applicare il test di Student o T-test o test di confronto tradue medie che cos si presenta:

    | |

  • 8/13/2019 4. Statistica Medica 15 Novembre 2012

    2/5

    Dove:

    la deviazione standard dellintera variabile;

    la radice della numerosit;

    lerrore standard ;

    | | la differenza tra le medie delle due variabili categoriali;

    T, in definitiva, la differenza delle medie diviso lerrore standard.

    E cos si interpreta:

    Dovendo associare variabili numeriche a variabili categoriali, inizialmente il campione in esame sarcomposto da molte variabili numeriche e diverse variabili categoriali. Scegliendo due variabili categoriali ilcampione verr pi o meno ridotto e ad ogni variabile categoriale risulter associato un certo numero divariabili numeriche; i due numeri ovviamente difficilmente saranno uguali e si dovr calcolare se ladifferenza tra i due significativa. Sapendo che il caso non produce distanze maggiori di 1,96 volte lerrorestandard (deviazione standard diviso numerosit del campione, entrambe delle due variabili) basta dividerela distanza tra la media delle variabili numeriche delle due categoriali per lerrore standard delle duevariabili categoriali; se il risultato sopra 1,96 la differenza non dovuta al caso, mentre se pi piccolonon si pu escludere il caso.

    Il T-Test NON direzionale: pu dimostrare che vi una differenza non dovuta al caso ma la direzione deveessere v alutata analizzando lentit dei dati di partenza.

    Esempio:

    Possiedo molti dati riguardo il salario di un certo numero di dipendenti di una banca con un certo numerodi filiali con sede in citt diverse; dallistogramma noto che il salario non una variab ile normale: latrasformo, usando per esempio il logaritmo. Ottengo un istogramma che si approssima abbastanza bene aduna campana. Ora mi interessa sapere se i dipendenti di due diverse citt hanno una media di salari

    comparabile. Elimino tutte le variabili numeriche associate a variabili categoriali che non mi interessano,ovvero i dati che riguardano tutte le citt tranne le due che ho preso in considerazione. Ottengo un nuovocampione ridotto. Faccio la media delle variabili numeriche trasformate di entrambe le categorie: noto chevi una differenza ma significativa? Applico il t-test. Calcolo la deviazione standard del campione ridottoe la divido per la radice della numerosit del campione ridotto, ottenendo lerrore standard. Calcolodunque la diff erenza tra le medie e la divido per lerrore standard: ottengo il valore T; se maggiore di 1,96la differenza non casuale e potrei, per esempio, suggerire ai dipendenti della filiale che in mediaguadagna di meno di chiedere un aumento; se invece minore di 1,96 devo assumere che la differenza puessere attribuita al caso.

    Nota - Al contrario di T, il p-value deve essere piccolo, sotto 0,05, per escludere il caso. Tuttavia p-value e Tsaranno concordanti nellescludere o meno il caso.

  • 8/13/2019 4. Statistica Medica 15 Novembre 2012

    3/5

    T-test appaiato

    Il t-test, oltre ad essere utilizzato per valutare lassociazione tra una variabile numerica e una categoriale didue gruppi indipendenti, pu essere usato per valutare due interventi statistici sullo stesso gruppo. Sichiama Test di Student appaiato ed leggermente diverso.

    Si immagini di avere, per esempio, un campione di altezze relative ad un gruppo di persone; in particolare sipossiedono, per ogni persona, la misurazione per laltezza al mattino e alla sera. Ci equivale ad avere , suuno stesso soggetto, due misurazioni temporalmente differenziate. Nel t-test per gruppi indipendenti ilsoggetto appartiene ad un gruppo, escludendo logicamente lappartenenza agli altri presi inconsiderazione. Nel t-test appaiato, invece, chi si sottopone, in questo caso, alla misurazione del mattino, sisottopone anche a quella della sera; si parla dunque di misurazioni ripetute perch chi sta in un gruppo staanche nellaltro. Scopo dellosservazione non dunque valutare la differenza tra le medie dei due gruppi,ma ogni persona con se stessa, le misurazioni di ogni soggetto. il concetto che sta alla base degli studi difollow up*.

    Un modo pratico per discriminare tra test indipendente ed appaiato la posizione della variabilecategoriale; se essa figura nella matrice di dati significa che ogni soggetto appartiene ad un gruppo ed unosoltanto. Se le variabili, invece, identificano colonne di numeri, ogni soggetto avr una misurazione percolonna, dunque misurazioni ripetute, con variabili categoriali diverse, si riferiscono ad un solo soggetto.

    La formula del test appaiato :

    ( )

    Nel caso di T-test appaiato si lavora dunque con la media delle differenze e NON la differenza delle medie.

    La significativit del test non esprime comunque direzione, ma pu aiutarci la differenza in media. Inoltrepur essendo la differenza significativa, per parlare di significativit clinica si deve parlare di differenzesostanziali, che giustifichino un interesse medico: per questo pur essendo pi bassi alla sera, allortopedicointeressa solo UNA qualsiasi misurazione dellaltezza, dato che la differenza rimane comunque in unintervallo di pochissimi millimetri.

    *Studi statistici di follow up hanno, per esempio, dimostrato linefficacia, a pochi anni di distanza, diinterventi di paratiroidectomia per il trattamento dellinsufficienza renale. Rimuovendo le paratiroidi, oporzioni di esse, si vuole influenzare il livello di paratormone che agisce sui reni ed in particolare sulriassorbimento del calcio; mentre i livelli del calcio e fosforo rimangono in intervalli fisiologicamenteaccettabili a sei mesi dallintervento, gi dopo due, tre anni gli elettroliti si concentrano a livelli paragonabili

    a quelli pre-intervento. A seguito di questi studi la paratiroidectomia per linsufficienza renale stataabbandonata a favore di terapie farmacologiche.

  • 8/13/2019 4. Statistica Medica 15 Novembre 2012

    4/5

    Associazione tra due variabili numeriche

    Ipotizziamo di avere i valori tasso di mortalit e tasso di natalit per ogni provincia italiana e di voler saperese queste due tassi sono correlati (dove si nasce di pi si muore di pi o di meno? E dove si nasce dimeno?). Come procedere?

    Mi basta fare un diagramma a dispersione e studiandone landamento posso ricavarne d elle conclusioni.

    Quel che subito si nota che a natalit basse corrispondono mortalit alte e viceversa. Come regola

    generale, avvalorata dalla regolarit e andamento della dispersione, si pu affermare dunque che dove sinasce di pi si muore di meno. Il grafico stabilisce, dunque, che al nord si muore di pi e si nasce di meno,mentre al centro e poi al sud landamento si inverte progressivamente: questo perch loccupazione alNord, specialmente quella femminile, tende a favorire la carriera rispetto alla famiglia. Dato che la

    mortalit , se la natalit alta la popolazione aumenta, rendendo il denominatore

    dellequazione un numero alto. Let media rappresenta, di conseguenza, un buon indicatore parallelo.

    La regione con mortalit maggiore la Liguria; Campania, Puglia, Sicilia con mortalit minore.

  • 8/13/2019 4. Statistica Medica 15 Novembre 2012

    5/5

    Ad una analisi pi approfondita si notano delle eccezioni:

    Qui una provincia del sud/isole presenta, come le altre della stessa categoria, mortalit bassa ma anchebassa natalit, in forte controtendenza rispetto alle simili.

    Si tratta di una provincia della Sardegna. In questa isola, infatti, la natura ha selezionato per i suoi abitantiun patrimonio genetico particolarmente poco avvezzo a malattie cronico - degenerative, specie endocrine,

    rendendo gli abitanti pi longevi.

    Qui, invece, una provincia del Nord presenta eccezionalmente alta natalit e bassa mortalit.

    Si tratta della provincia di Bolzano, in Trentino-Alto Adige. Dato che il loro stile di vita, in particolare lerelazioni sociali, molto simile a quello dei Tedeschi e degli Austriaci, gli abitanti della provincia di Bolzanohanno figli mediamente prima rispetto alle altre province settentrionali.

    Rientrano tra i valori anomali, oltre ai due casi appena analizzati che esulano dallandamento, quelliestremi poich risultano poco significativi per stabilire relazioni.

    Ora per quantificare questa relazione si usa un indice, lindice di correlazione , un indice standardizzato(ovvero limitato) compreso tra -1 e 1. Se il valore alto, cio vicino a 1, la relazione forte e crescente: ivalori correlati sono legati da proporzionalit crescente; se lindice si avvicina a -1 la relazione forte madecrescente: la proporzionali t inversa; non vi associazione lineare se lindice vicino allo zero.

    (Lindice di correlazione viene affrontato pi approfonditamente nella lezione successiva)