STATISTICA MEDICA Didattico/Statisti… · verifica dopo la somministrazione. In dettaglio, vengono...

61
STATISTICA MEDICA Prof.ssa Donatella Siepi [email protected] tel: 075 5853525 UNIVERSITA’ DEGLI STUDI DI PERUGIA 01 dicembre 2014

Transcript of STATISTICA MEDICA Didattico/Statisti… · verifica dopo la somministrazione. In dettaglio, vengono...

  • STATISTICA MEDICA

    Prof.ssa Donatella Siepi

    [email protected]

    tel: 075 5853525

    UNIVERSITA’ DEGLI

    STUDI DI PERUGIA

    01 dicembre 2014

    mailto:[email protected]

  • 8° LEZIONE

  • Statistica inferenziale

    Popolazione Campione

    Statistica inferenziale

    Probabilità

  • Test non parametrici

  • LA REGRESSIONE

    LINEARE SEMPLICE

    E LA CORRELAZIONE

  • Regressione e correlazione

    • Esistono molti metodi di inferenza statistica che si riferiscono ad una sola variabile statistica.

    • Obiettivo : studio della relazione tra due variabili.

    • Tecniche oggetto di studio:

    • correlazione Studio della associazione tra variabili

    quantitative

    • regressione Costruire un modello attraverso cui prevedere i valori di una variabile dipendente o risposta (quantitativa) a partire dai valori di una o più variabili indipendenti o esplicative

  • La correlazione

    • Una tecnica per individuare una relazione

    fra due variabili

    • Nella maggior parte dei casi non vi è

    alcuna manipolazione delle variabili da

    parte dello sperimentatore

    • Osservazione in condizioni naturali

  • La correlazione: rappresentazione

    grafica

    • Le due variabili si rappresentano come X e Y – Ascisse: X

    – Ordinate: Y

    • Le osservazioni si rappresentano come punti sul piano cartesiano

    Età e velocità di reazione (dati

    ipotetici)

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0 10 20 30 40 50 60

    Eta (anni)

    Ve

    locità

    di re

    azio

    ne

  • La correlazione:

    caratteristiche /1 • Direzione della

    relazione:

    – Correlazione positiva

    – Correlazione

    negativa

    Età e capacità di richiamo (dati

    ipotetici)

    0

    0,2

    0,4

    0,6

    0,8

    1

    1,2

    0 10 20 30 40 50 60

    Eta

    Ca

    pa

    cit

    à r

    ich

    iam

    o

  • Grado di correlazione

    • Le relazioni si distinguono a secondo del grado di correlazione – Elevato grado di

    correlazione (punti vicini alla “linea di regressione”)

    – Basso grado di correlazione (punti lontani dalla “linea di regressione”)

    0

    0,2

    0,4

    0,6

    0,8

    1

    1,2

    0 10 20 30 40 50 60

    Eta

    Cap

    acit

    à r

    ich

    iam

    o

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    0 10 20 30 40 50 60

    Elevato grado di correlazione

    Basso grado di correlazione

  • • Per interpretare un diagramma a

    dispersione occorre valutarne l'aspetto

    globale, che rivela (1) la direzione, (2) la

    forma e (3) la forza della relazione che

    lega le due variabili. Vediamo brevemente

    queste tre caratteristiche.

  • DIREZIONE. L'aspetto del Diagramma dimostra l'esistenza di una associazione

    positiva. Infatti, due variabili (ti ricordo che nell'esempio le variabili sono: x= la

    dose del farmaco, y= l'aumento della pressione) si dicono associate

    positivamente quando i valori alti di una variabile tendono a presentarsi insieme

    ai valori alti dell'altra variabile, ed analogamente i valori bassi dell'una tendono

    a presentarsi insieme ai valori bassi dell'altra. Viceversa, due variabili sono

    associate negativamente quando ai valori alti dell'una tendono ad associarsi

    valori bassi dell'altra variabile. Nei casi in cui le variabili non sono associate, la

    direzione non può essere individuata.

  • • FORMA. La forma viene desunta dalla

    disposizione dei punti nel diagramma.

    Parleremo soltanto della regressione lineare,

    ossia del caso in cui i punti si dispongono

    approssimativamente su una linea retta.

    Esistono anche altri tipi di relazioni, non lineari e

    quindi più complesse, ma le relazioni lineari

    sono particolarmente importanti per un buon

    motivo: la linea retta è la forma (o "pattern") che

    si osserva più frequentemente.

  • FORZA. La forza si può desumere da quanto i punti sono

    disseminati nel diagramma. Se i punti sono molto disseminati,

    (ma sempre tendendo a disporsi su una retta), la relazione tra

    le due variabili è debole; se i punti sono raggruppati attorno

    ad una ideale retta, allora la relazione è forte. Anche

    l'inclinazione della retta è importante: tanto più la retta è

    inclinata, quanto più la relazione è forte.

  • Correlazione

    • Osservando la nuvola di punti possiamo valutare, direzione, forma e forza di una relazione lineare.

    • Abbiamo bisogno di una strategia di analisi dei dati oggettiva, svincolata dal giudizio personale dell'osservatore e possibilmente che ci fornisca una misura numerica. Questa misura è detta correlazione, e contiene informazioni sulla forza e sulla direzione di una relazione lineare tra due variabili.

    • la forma, non viene trattata.

  • La correlazione

    Per indicare la correlazione si usa di solito la

    lettera "r". r viene detto "coefficiente di

    correlazione" e si calcola con l'aiuto di un

    software statistico.

  • Esempio. Effetto collaterale di un farmaco

    • Supponiamo di sospettare che, fra gli effetti indesiderati

    di un certo farmaco, si annoveri quello di innalzare la

    pressione arteriosa. Verifichiamo questa ipotesi

    attraverso un esperimento: somministriamo dosi

    crescenti del farmaco ad alcuni ratti da esperimento, e

    misuriamo la variazione della pressione diastolica che si

    verifica dopo la somministrazione.

    In dettaglio, vengono utilizzati 16 ratti, suddivisi in 8

    gruppi di 2 animali ciascuno. Il primo gruppo è di

    controllo e non viene trattato; al secondo gruppo il

    farmaco viene somministrato in dose di 1 mg/kg, al terzo

    gruppo in dose di 2 mg/kg e così via. I risultati sono

    riassunti nella seguente tabella.

  • anche "a occhio" si nota che la variabile dipendente (ossia l'effetto:

    innalzamento della pressione) è correlata alla variabile

    indipendente (ossia la presunta causa: il farmaco). In altre parole:

    l'entità dell'aumento della pressione sembra essere associata alla

    dose.

  • • dall'esempio dei ratti trattati con un farmaco

    nell'unità precedente. Otteniamo il seguente

    diagramma:

  • • Immettendo i dati in un apposito software, otteniamo un valore di r di 0.862; questo valore è >0, e quindi la correlazione è positiva; inoltre, il coefficiente assume un valore abbastanza alto, e ciò dimostra che la correlazione è buona. In altri termini, le due variabili vanno di pari passo, nel senso che quando aumenta il valore dell'una aumenta generalmente (e proporzionalmente) anche il valore dell'altra. Quindi, dal valore della variabile indipendente può essere approssimativamente desunto quello della variabile dipendente.

  • Coefficiente di determinazione • Una volta ottenuto r, possiamo calcolare r2 (r-quadrato),

    semplicemente elevando r al quadrato.

    r2 viene detto anche coefficiente di determinazione ed è

    un indice ricco di significato, in quanto esprime la

    variabilità nella variabile dipendente spiegata dalla

    variabile indipendente. In parole più semplici, r2

    rappresenta la variazione nei valori di y che può essere

    giustificata dalla variazione di x.

  • • Nel nostro caso, r2 è

    pari a 0.743.

    Perciò, ammettendo che il farmaco sia causalmente legato

    alla variazione di pressione (ossia, più in generale,

    ammettendo che x sia causalmente legato a y), allora il

    75% circa di tale variazione è giustificata dall'effetto del

    farmaco.

  • Il “coefficiente di determinazione”

    • Il coefficiente di determinazione: r2

    • Il coefficiente di determinazione misura la percentuale della variabilità di Y spiegata dalla variabilità di X

    r = 0,862

    r2 = 0,743

  • La correlazione nella letteratura scientifica

    • Debbono essere specificati – La grandezza del

    campione – il valore di r – La presenza (o l’assenza)

    di una relazione statisticamente significativa)

    – Il valore di alfa – Il tipo di test utilizzato (test

    ad 1 o a 2 code)

    “La ricerca ha riscontrato

    la presenza di una

    correlazione

    statisticamente

    significativa fra l’età dei

    pazienti e la capacità di

    richiamo, r=-0,85, n=30,

    p

  • Utilizzo della correlazione

    • Previsione: previsione del valore di una variabile target in base al valore di una variabile predittore

    • Validazione: confronto fra i risultati di un test nuovo e i test già noti

    • Affidabilità: replicabilità degli esperimenti/test

    • Verifica di previsioni teoriche: verifica di un rapporto previsto fra due variabili

  • Quali COEFFICIENTI di

    CORRELAZIONE usare

    • quantitative: r di Pearson

    • ordinali: rs di Spearman t (tau) di Kendall

    • nominali dicotomiche: f (phi)

    • una nominale dicotomica,una continua: r

    punto biseriale

  • Rischi dell’interpretazione

    • Un rapporto di correlazione può essere “spuria”: esso non implica necessariamente un rapporto di causa e effetto

    • Esempio: correlazione fra il numero di sacerdoti e il numero di omicidi

    Sigarette

    Cancro

    Rapporto causa e effetto

    Urbanizzazione

    N. sacerdoti N. omicidi

    Correlazione spuria

  • r TRA VARIABILI QUALITATIVE:

    r DI SPEARMAN

    • Quando le variabili sono misurate almeno al livello di scala ad Ordinale, il coefficiente che si utilizza per l’analisi della relazione tra variabili è il coefficiente di Spearman: rs.

  • Esaminiamo, ora, uno dei metodi più usati come

    per studiare e descrivere una relazione

    quantitativa tra due variabili: la regressione lineare.

    • La regressione lineare serve per

    descrivere la relazione tra due variabili

    quantitative

  • La retta di regressione

  • • l'occhio non è un buono strumento a questo scopo;

    entrano in gioco fattori soggettivi, e a partire dallo stesso

    diagramma ciascuno di noi potrebbe individuare rette

    diverse rappresentative della nuvola di punti. Ad

    esempio, nel diagramma, qual è la retta "giusta"?.

    • Serve un sistema obiettivo e ben codificato che consenta

    di tracciare la retta che meglio rappresenta l'andamento

    della nuvola di punti.

  • • è ragionevole pensare che la retta migliore è quella che ha distanza minore, sull'asse delle ordinate, da tutti i punti del diagramma. Costruiamo, per ogni punto, un quadrato che ha come lato la distanza verticale (ordinata) del punto dalla retta Ripetiamo il procedimento per ogni punto del diagramma e sommiano le aree di tutti i quadrati. La retta che meglio rappresenta la nuvola di punti è quella che fa registrare la minor superficie dei quadrati. Per questo motivo, il metodo ora descritto si chiama "metodo dei minimi quadrati". Ovviamente questo procedimento non si fa più "a mano", ma si ricorre all'aiuto del calcolatore

  • • Infine, una volta trovata la retta di

    regressione, si può trovare l'equazione

    della retta medesima. Dai ricordi delle

    scuole superiori, sai che l'equazione di

    una retta ha la forma:

    dove x e y sono le due variabili da correlare.

  • • Anche in questo caso, per ricavare l'equazione partendo dai dati sperimentali si ricorre al computer, che con i dati del nostro esempio genera la seguente:

    y= 1.13 + 1.63x

    • L'equazione rappresenta un sistema semplice e molto elegante per descrivere il fenomeno che hai osservato; inoltre, rappresenta anche uno strumento per fare previsioni. Ad esempio, potresti domandarti quale sarà l'incremento di pressione somministrando 5.5 mg del farmaco. Basta sostituire, nell'equazione, il valore x con 5.5. Ottieni:

    y= 1.13 +(1.63 * 5.5) = 10.1

  • • L'esperimento che abbiamo simulato nell'esempio è stato effettuato in laboratorio e quindi in condizioni rigorosamente controllate, nel senso che non sono intervenute variabili estranee. – Sia i ratti di controllo (quelli che non hanno ricevuto il farmaco) che tutti

    gli altri erano uguali per sesso, età peso ecc.; l'alimentazione era la stessa;

    – le condizioni di allevamento erano identiche ecc.

    • Con i dati raccolti possiamo quindi concludere con ragionevole certezza che "il farmaco provoca un aumento della pressione diastolica nel ratto, e questo aumento è correlato alla dose".

    • In altre situazioni, sarebbe stato opportuno, prima di concludere per un rapporto dose-effetto, controllare la presenza di eventuali fattori di confondimento e poi verificare i criteri di causalità.

  • Puoi dedurre che:

    •esiste una correlazione fra la dose del farmaco e l'innalzamento della pressione

    diastolica;

    •la correlazione è positiva (ad un aumento del farmaco corrisponde un aumento

    della pressione) come dimostrato dal fatto che il coefficiente di correlazione r è >0;

    •la correlazione è abbastanza forte, come dimostrato (a) dal valore piuttosto

    elevato (0.862) raggiunto da r e (b) dal valore piuttosto elevato (1.63) del

    parametro che determina la pendenza della retta;

    •il 74% circa dell'innalzamento della pressione può essere spiegato dal farmaco;

    •in assenza del farmaco, la variazione di pressione è prossima a zero, come

    dimostrato dal valore dell'intercetta.

  • Limiti di validità dell’analisi di

    regressione • La linea di regressione

    non dev’essere utilizzata per prevedere valori di Y per valori di X inferiori o superiori a quelli compresi nel campione

    • La relazione fra le due variabili dev’essere lineare

    y = 1,9x + 0,3

    R2 = 0,9025

    y = 4,956Ln(x) + 1,2546

    R2 = 0,992

    0

    2

    4

    6

    8

    10

    12

    0 1 2 3 4 5 6

    X

    Y

  • questo punto possiamo chiarire meglio

    la differenza tra correlazione e

    regressione: la prima indica un

    semplice legame di interdipendenza tra

    variabili; la seconda una relazione di

    dipendenza di una variabile da

    un’altra con una precisa direzione di

    causalità.

  • In particolare, l’analisi della correlazione consentirà di studiare

    il grado di associazione fra due variabili,

    mentre

    l’analisi della regressione consentirà di stabilire quale relazione esiste fra le due.

  • Correlations

    1 ,439*

    ,032

    24 24

    ,439* 1

    ,032

    24 24

    Pearson Correlation

    Sig. (2-tailed)

    N

    Pearson Correlation

    Sig. (2-tailed)

    N

    deltadipodoppie

    deltaahdoppie

    deltadipo

    doppie

    deltaahdo

    ppie

    Correlat ion is signif icant at the 0.05 lev el (2-tailed).*.

    Correlations

    Nonparametric Correlations

    Correlations

    1,000 ,559**

    . ,005

    24 24

    ,559** 1,000

    ,005 .

    24 24

    Correlat ion Coef f icient

    Sig. (2-tailed)

    N

    Correlat ion Coef f icient

    Sig. (2-tailed)

    N

    deltadipodoppie

    deltaahdoppie

    Spearman's rho

    deltadipo

    doppie

    deltaahdo

    ppie

    Correlat ion is signif icant at the 0.01 lev el (2-tailed).**.

  • Regression

    Coefficientsa

    493,828 179,838 2,746 ,012

    365,602 159,540 ,439 2,292 ,032

    (Constant)

    deltadipodoppie

    Model

    1

    B Std. Error

    Unstandardized

    Coeff icients

    Beta

    Standardized

    Coeff icients

    t Sig.

    Dependent Variable: deltaahdoppiea.

    Model Summary

    ,439a ,193 ,156 771,56304

    Model

    1

    R R Square

    Adjusted

    R Square

    Std. Error of

    the Estimate

    Predictors: (Constant), deltadipodoppiea.