Analisi_statistica

download Analisi_statistica

of 100

Transcript of Analisi_statistica

  • 7/29/2019 Analisi_statistica

    1/100

    Un ramo della matematica applicata che si occupa della raccolta edellinterpretazione dei dati quantitativi e delluso della teoria delleprobabilit per la stima di parametri di una popolazione.

    Lo studio scientifico dei dati numerici basato sui fenomeni naturali.La procedura matematica per descrivere le probabilit e la distribuzionecasuale o non-casuale della materia o del verificarsi degli eventi.

    Una serie di teoremi matematici che aiuta ad analizzare i dati attribuendosignificativit ai risultati.

    Una raccolta di metodi per raccogliere, organizzare, riassumere,analizzare e interpretare i dati, e per trarre conclusioni basate su di essi.

    La scienza e larte di raccogliere, riassumere ed analizzare dati soggetti avariazione casuale (Biology Online)

    Alcune definizioni della statistica

  • 7/29/2019 Analisi_statistica

    2/100

    Tipi di statistica

    Statistica descrittiva: procedure per riassumere e

    presentare i dati e per descriverli attraverso

    strumenti matematici

    Statistica inferenziale: procedure per derivare

    dai dati gi noti, con laiuto di modellimatematici, affermazioni pi generali.

  • 7/29/2019 Analisi_statistica

    3/100

    Statistica descrittiva: riassunto e

    presentazione dei dati

    Riassume i dati per mezzo di tabelle e grafici:

    Tabelle di frequenza (numero assoluto di casi

    per categoria)

    Tabelle percentuali (% di casi per categoria)

    Tabelle crociate (matrici 2 x 2, 2 x 3, ecc.) Grafici (a barre, lineari, a torta, ecc.)

  • 7/29/2019 Analisi_statistica

    4/100

    Tipi di variabili

    I dati della statistica riguardano variabili, cio grandezze che possono

    assumere valori differenti. Le variabili possono essere di tipo diverso:

    Quantitative (i valori sono numeri)

    continue: altezza, peso, ecc (i valori sono numeri reali).

    discrete: risultati del lancio di un dado (possono

    assumere solo certi valori)

    Qualitative o categoriche(i valori sono rappresentati dallappartenenzaa categorie)

    nominali: maschio/femmina; remissione/recidiva/morte

    (le categorie non sono ordinate)NB: se le categorie sono solo due, mutuamenteesclusive, si parla di variabili binarie odicotomiche

    ordinali: 50 anni (lecategorie hanno un ordine)

  • 7/29/2019 Analisi_statistica

    5/100

    Tipi di variabili

    In una ricerca, si definisce variabile indipendente quella cheviene manipolata direttamente dallo sperimentatore, o inalternativa selezionata attraverso il metodo di campionamento.Per esempio, il fatto che i pazienti siano trattati con un farmaco ocon placebo un esempio di variabile indipendente manipolatadirettamente dallo sperimentatore. In alternativa, se vieneselezionato un campione di maschi da confrontare con uncampione di femmine, il sesso una variabile indipendentecontrollata indirettamente attraverso il sistema dicampionamento.

    Al contrario, la variabile dipendente quella che misuriamo perverificare la sua correlazione con la variabile indipendente. Neidue esempi precedenti, la variabile dipendente potrebbe essere larisposta alla terapia nel primo caso, e lincidenza di una certapatologia nei due sessi nel secondo caso.

  • 7/29/2019 Analisi_statistica

    6/100

    Statistica descrittiva: descrizione

    matematica dei dati

    Fornisce una descrizione sintetica dei dati

    utilizzando (per i dati quantitativi) metodi

    numerici:

    Valutazione del punto centrale dei dati

    Valutazione della distribuzione dei dati

  • 7/29/2019 Analisi_statistica

    7/100

    Valutazione del punto centrale dei dati

    Mediana:il punto centrale calcolato sulla base dellordinamentocrescente dei dati, e rappresenta la posizione centrale in questo

    ordinamento.

    Dati: 2, 5, 6, 13, 14, 45, 47 Mediana = 13

    Media aritmetica: il rapporto fra la somma dei valori e il numero

    dei valori

    Dati: 2, 5, 6, 13, 14, 45, 47 Media = 132/7 = 18,85

  • 7/29/2019 Analisi_statistica

    8/100

    Valutazione della distribuzione dei dati

    Attorno alla mediana: utilizzando lo stesso principiodellordinamento crescente dei dati e della loro posizione, possibile definire vari quantili (per esempio, dividendo in 4intervalli si ottengono i quartili, e cos via).

    Se si divide in 100 intervalli, si ottengono ipercentili. Peresempio, il 75 percentile il valore del dato che,nellordinamento crescente, ha un posizione tale che:

    il 75% dei dati ha un valore inferiore (cio rimane a

    sinistra nellordinamento) il 25% dei dati ha un valore superiore (cio rimane adestra nellordinamento)

    NB: la mediana il 50 percentile

  • 7/29/2019 Analisi_statistica

    9/100

    2, 5, 6, 9, .. 46, .. 157, 542, 3450, 6213, 6578, 12500

    Numero di dati = 121 Ordinamento crescente

    Mediana: dato n 61: 60 dati (50%) a sinistra, 60 dati (50%) a destra

    25 percentile: dato n 31: 30 dati (25%) a sinistra, 90 dati (75%) a destra

    25 percentile = 46

    Mediana (50 percentile) = 157

    75 percentile = 542

    La media invece la somma aritmetica dei 121

    valori divisa per 121. Pu essere molto diversa

    dalla mediana. Per esempio, in questo caso

    potrebbe essere molto pi alta, perch influenzata

    dai valori molto alti allestremo destro dei dati.

  • 7/29/2019 Analisi_statistica

    10/100

    Valutazione della distribuzione dei dati

    Attorno alla media: la deviazione standard () laradice quadrata della varianza, un indicatore di

    dispersione che si ottiene sommando tutti i singoli

    scarti dalla media, elevando al quadrato e dividendoper il numero di dati.

    2 = VAR

  • 7/29/2019 Analisi_statistica

    11/100

  • 7/29/2019 Analisi_statistica

    12/100

    La distribuzione normale

    Una distribuzione normale in una variabile

    Xcon media e varianza unadistribuzione statistica con funzione di

    probabilit:

    Sul dominio . Mentre statistici e

    matematici usano uniformemente il termine

    distribuzione normale, i fisici talvolta la chiamanodistribuzione Gaussiana e gli studiosi di scienzesociali si riferiscono ad essa come curva a

    campana.

  • 7/29/2019 Analisi_statistica

    13/100

    Lascissa rappresenta i valori. Lordinata rappresenta la densit di

    probabilit dei valori.

    Tutta larea sotto la curva rappresenta linsieme di tutti i casi possibili,

    cio la probabilit totale (1,0).

    Le probabilit non sono mai riferite a un punto, ma a un intervallo, e

    rappresentano il rapporto fra tutti i casi che rientrano in quellintervallo

    e il totale dei casi

  • 7/29/2019 Analisi_statistica

    14/100

    In una distribuzione normale perfetta:

    68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media95.46% dei casi sono compresi fra -2 e +2 DS attorno alla media

    99.74% dei casi sono compresi fra -3 e +3 DS attorno alla media

  • 7/29/2019 Analisi_statistica

    15/100

    Z score

    Lo z-score (chiamato anche standard score, o normal score) un

    modo di trasformare un singolo valore di una distribuzionenormale nel suo equivalente standardizzato.In altre parole, lo z-score ci dice di quante DS il valore dista dallamedia della popolazione.

  • 7/29/2019 Analisi_statistica

    16/100

  • 7/29/2019 Analisi_statistica

    17/100

    Statistica descrittiva per variabili categoriche

    I dati riguardanti variabili categoriche vengono spessoriportati in forma di tabella (2x2, 2x3, ecc.). La

    maniera pi semplice di descrivere matematicamente i

    dati di calcolare le proporzioni.

    Remissione Malattia Morte Totale

    Popolazione 28 12 10 50

    % 56 24 20 100

  • 7/29/2019 Analisi_statistica

    18/100

  • 7/29/2019 Analisi_statistica

    19/100

    Statistica inferenzialeIl concetto di verit delle affermazioni della statistica inferenziale deve essere bencompreso.

    Le affermazioni della statistica inferenziale sono matematicamente vere e

    rigorose(nellambito della validit del modello matematico che si adotta, epurch, naturalmente, i calcoli vengano condotti correttamente), ma riguardanoesclusivamente laprobabilit della verit di altre affermazioni.

    In altre parole, la statistica inferenziale non ci fornisce certezze sullargomentodella nostra ricerca, ma solo certezze sulla probabilit che le nostre asserzioni sutale argomento siano vere.

    Il gruppo A diverso dal gruppo B

    relativamente al parametro x

    Laffermazione N 2, sulla base dei dati noti, ha il

    95% di probabilit di essere vera.

    Affermazione N 1

    (calcolata dalla

    statistica inferenziale)

    Affermazione N 2

    (oggetto della ricerca)

    Affermazione vera (se il modello valido e i calcoli sono corretti)

    Affermazione probabile

  • 7/29/2019 Analisi_statistica

    20/100

    Statistica inferenziale

    I problemi che la statistica inferenziale cerca di risolvere sonoessenzialmente di due tipi:

    1) Problema della stima (per esempio stima di una media):

    fornisce informazioni sulla media di una popolazione quandosono note media e deviazione standard di un campione della

    stessa.

    2)Problema della verifica di ipotesi (per esempio confronto fra

    due o pi campioni):

    calcola la probabilit che due campioni, di cui siano note mediae deviazione standard, siano campioni derivati da una stessa

    popolazione oppure da due popolazioni diverse.

  • 7/29/2019 Analisi_statistica

    21/100

    Campionamento statistico

    Nellambito della statistica descrittiva abbiamo finora consideratostrumenti per descrivere unintera popolazione quando siano notitutti i dati ad essa relativi. Ma nella ricerca, in genere, non siconoscono i dati dellintera popolazione, ma solo quelli di uncampione.

    Il campionamento si usa quando si vuole conoscere uno o piparametri di una popolazione, senza doverli misurare in ogni suoelemento. Il campionamento consiste nel selezionare un numero pipiccolo di elementi fra tutti quelli che formano una popolazione. Puessere fatto in vari modi, ma deve sempre essere di tipoprobabilistico (cio garantire la casualit della selezione).

    Parleremo allora di numerosit, media e deviazione standard delcampione, e dobbiamo porci il problema di che rapporto esista fraquesti valori e la numerosit, la media e la deviazione standarddellintera popolazione.

  • 7/29/2019 Analisi_statistica

    22/100

    Media del campione e media della

    popolazione

    Immaginiamo di avere una popolazione

    rappresentata da mille persone (per esempio la

    popolazione degli abitanti maschi di un paese), edi volere conoscere la loro statura.

    Se conoscessimo la statura di ciascuno dei mille

    abitanti, potremmo descrivere la popolazione conassoluta precisione in termini di media e

    deviazione standard.

  • 7/29/2019 Analisi_statistica

    23/100

  • 7/29/2019 Analisi_statistica

    24/100

    Media del campione e media della

    popolazione

    Immaginiamo di ripetere loperazione di campionamento20 volte, ogni volta con un diverso campione casuale di30 abitanti. Otterremo 20 medie diverse, e 20 DS diverse.

    Un concetto importante che linsieme di queste mediedei campioni tende ad assumere una distribuzionenormale, anche se la popolazione di origine non distribuita normalmente.

    In altre parole, il processo di campionamento casuale diper s un fenomeno che si distribuisce normalmente.

  • 7/29/2019 Analisi_statistica

    25/100

    Teorema del limite centrale

    Il teorema del limite centrale afferma appunto che, data unacerta popolazione con media e DS , da cui si estrae unnumero infinito di campioni random e di numerosit N, manmano che N aumenta la distribuzione delle medie dei campionitende a una distribuzione normale, con media (uguale a

    quella della popolazione di origine) e DS = /N.Laspetto sorprendente e non intuitivo di questo teorema che,qualunque sia la forma della distribuzione della popolazioneoriginale, la distribuzione delle medie dei campioni tende alladistribuzione normale.

    Spesso la distribuzione normale viene raggiunta rapidamente,anche per valori non molto grandi di N.

    Ricordate che N la numerosit del singolo campione, e non ilnumero di campioni (questultimo si assume essere infinito).

  • 7/29/2019 Analisi_statistica

    26/100

    Teorema del limite centrale

    Qui sono mostrati i risultati di una simulazione al computer. Il computer ha

    eseguito un campionamento di numerosit N a partire da una popolazione con

    distribuzione uniforme (quindi assolutamente diversa da quella normale), e

    ha calcolato la media. Questa procedura stata ripetuta 500 volte per ciascuna

    di quattro numerosit del singolo campione: 1, 4, 7, e 10.

    http://davidmlane.com/hyperstat/A12237.htmlhttp://davidmlane.com/hyperstat/A14461.htmlhttp://davidmlane.com/hyperstat/A12237.html
  • 7/29/2019 Analisi_statistica

    27/100

    Campioni diversi di

    una popolazione.

    Le medie dei vari

    campioni

    tendono a distribuirsinormalmente.

    Distribution of Sample Means

  • 7/29/2019 Analisi_statistica

    28/100

    Errore standard della media (SEM)

    Lo Standard Error of the Mean (SEM)

    una valutazione della deviazionestandard di un insieme di medie dicampioni. Idealmente si dovrebbecalcolare dividendo la deviazionestandard dellintera popolazione () perla radice quadrata della numerosit delcampione:

    ________

    n

    SEM =

    Poich in genere la DS dellintera

    popolazione non nota, si pu ottenereuna stima del SEM utilizzando al posto

    di la deviazione standard del singolo

    campione (s)

    s________

    nSEM =

    (stimato)

    NOTA: il SEM sempre pi piccolo della DS della popolazione di origine, ed tanto pi piccolo quanto maggiore la numerosit del campione.

  • 7/29/2019 Analisi_statistica

    29/100

    Limportanza di n

    In termini pi semplici, quando valutiamo la media diun campione, la probabilit che questa media sia similea quella della popolazione di origine dipendeessenzialmente da due fattori:

    n (la numerosit del campione)

    s (la deviazione standard del campione

    Infatti, poich il SEM uguale a s /n, quanto pigrande n, e quanto pi piccolo s, tanto pi piccolo

    il SEM.Un SEM pi piccolo significa meno probabilit che lamedia del campione sia molto diversa da quella dellapopolazione.

  • 7/29/2019 Analisi_statistica

    30/100

    Confidence interval: definizioni

    Tabella per i Confidence Intervals

    Confidence level 0.8 0.9 0.95 0.99

    Z score 1.28 1.645 1.96 2.58

    Confidence interval = intervallo attorno alla media in cui si ha una certa probabilit

    che cada un valore

    Confidence limits = i due valori, superiore e inferiore, che delimitano il confidence

    interval

    Confidence level = la probabilit per cui si calcola il confidence interval (per esempio

    95% o 99%)

    Z score = il numero di deviazioni standard (moltiplicatore) necessario per ottenere ilconfidence interval per un certo confidence level

    Per esempio, per un

    confidence level del 95%

    Z score

    Deviazione standard

    CI = Media 1,96 x

  • 7/29/2019 Analisi_statistica

    31/100

    Un confidence interval del 95% un intervallo di valori, centrato sulla media, che contiene

    il 95% dei dati dellintera popolazione (ovvero, in cui c il 95% di probabilit che siacompreso un dato qualunque della popolazione). Corrisponde alla zona ombreggiata del

    diagramma. Viene in genere definito per mezzo dei due valori a sinistra e a destra della

    regione (confidence limits).

    Il valore del 95% il confidence level, e si ottiene utilizzando come moltiplicatore uno z-

    score di 1,96. Per ottenere livelli diversi, si usano z-scores appropriati (per esempio, per il

    99% si deve moltiplicare per 2,58.

    1.96 x

    Z score

  • 7/29/2019 Analisi_statistica

    32/100

    CI riferito alla media di un campione

    Se ci riferiamo a un campione di unapopolazione, si definisce il CI della media comelintervallo attorno alla media del campione

    entro cui c il 95% (o qualunque altro livello) diprobabilit che cada la vera media dellapopolazione

    Il CI della media si calcola a partire dallerrorestandard della media (SEM) del campione

  • 7/29/2019 Analisi_statistica

    33/100

  • 7/29/2019 Analisi_statistica

    34/100

    CI della media: come si calcola

    Partendo da un campione, il CI della media sipu calcolare in due modi diversi:

    Se nota la DSdella

    popolazione generale:

    CI = Media z x SEM

    Se non nota la DSdella

    popolazione generale:

    CI = Media t x SEM stimato

    Media del

    campione

    Z score

    appropriato

    SEM calcolato usando

    la DS della popolazione

    generale ()

    Media del

    campione

    t appropriato

    (sostituisce z)

    SEM calcolato

    usando la DS del

    campione (s)

  • 7/29/2019 Analisi_statistica

    35/100

    Distribuzione z e distribuzione t

    La z-distribution descrive la

    distribuzione dei dati in una

    popolazione normalmente distribuita.

    Intervallo attorno alla media = Media z x

    % di dati nellintervallo 80% 90% 95% 99%

    z 1.28 1.645 1.96 2.58

    La t-distribution (t di Student) simile allaz, ma tiene conto dei gradi di libert (cio

    della numerosit N del campione - 1). Per

    N che tende allinfinito, t tende a z.

    E opportuno usare la t-distribution in

    problemi come quello di calcolare il CIper la valutazione della media di una

    popolazione dalla media di un campione,

    problemi cio in cui lincertezza delrisultato dipende in modo critico dalla

    numerosit del campione.

    t distribution

    df Probability

    50% 90% 95% 98% 99% 99,9%

    1 l.000 6.314 12.706 3l.821 63.657 636.6l9

    2 0.816 2.920 4.303 6.965 9.925 31.598

    5 0.727 2.015 2.571 3.365 4.032 6.859

    40 0.681 l.684 2.021 2.423 2.704 3.551

    60 0.679 1.671 2.000 2.390 2.660 3.460

    120 0.677 1.658 l.980 2.358 2.617 3.373

    0.674 1.645 1.960 2.326 2.576 3.291

  • 7/29/2019 Analisi_statistica

    36/100

    Problema della stima della mediaRiassumendo, il problema della stima il primo dei due problemi oggetto dellastatistica inferenziale, e in genere si presenta in questa forma:

    Popolazione generale

    (di cui non si conosce n la media n la deviazione standard)

    Campione(di cui si conoscono N (numerosit),

    M (Media) e s (DS)

    Calcolo di un Confidence Inetrval attorno alla media del campione,

    per un certo Confidence Level, utilizzando N, s, e la tabella t

    Conclusione:Secondo i dati noti, c il X% (Confidence Level) di probabilit

    che la media della popolazione cada entro il CI calcolato

  • 7/29/2019 Analisi_statistica

    37/100

    Esempio di stima di una media

    Se la media del campione , per esempio, 25, e ilCI calcolato per un CL del 95% va da 22 a 28(media 3), allora si pu dire che:

    Secondo i dati a nostra disposizione, laffermazioneche

    la media della popolazione di origine compresa fra 22 e 28

    ha il 95% di probabilit di essere vera.

    NB: E assolutamente sbagliato, invece, dire che, con il95% di probabilit, la media della popolazione di origine

    uguale a 25

  • 7/29/2019 Analisi_statistica

    38/100

  • 7/29/2019 Analisi_statistica

    39/100

    Stima della % da un campione

    Per le variabili categoriche, in maniera assolutamente analoga, possibile stimare la percentuale di una variabile nella popolazionegenerale a partire da quella nel campione, calcolando un CI.Anche qui si calcola uno SE, di definisce un CL, e si calcolalintervallo.

    Per esempio, ammettiamo che in uno studio su 165 neonati di peso < 1000 g, 124 (0,7515, cio

    75,15%) abbiano avuto bisogno di ventilazione assistita. Se vogliamo stimare la proporzione nella

    popolazione generale dei neonati di quel peso che ha bisogno di ventilazione, calcoleremo lo SE

    (mettiamo che in questo caso sia 0,033). Fissato un CL, per esempio 95%, si sceglie un adatto

    moltiplicatore (1,96 se si usa la z distribution) e si calcola il CI:

    95% CI = 0,7515 1,96 x 0,033

    In altre parole, dal campione in esame si pu stimare che c il 95% di

    probabilit (CL) che la percentuale di neonati sotto il chilo di peso che ha

    bisogno di ventilazione assistita sia compresa fra 0,687 (cio il 68,7%) e 0,817

    (cio l81,7%) (CI)

    Si ifi t d l CI d l CL

  • 7/29/2019 Analisi_statistica

    40/100

    Riassumendo, il CI una misura del grado di imprecisione dellanostra stima. Pi ampio il CI, pi imprecisa la nostra stima.

    Al contrario, il CL una misura del livello di certezza chevogliamo raggiungere. Pi alto il CL, maggiore la probabilitche la nostra affermazione sia vera.

    Un CL alto fa aumentare la certezza, ma anche limprecisione

    Un CL basso fa diminuire la certezza, ma aumenta la precisione

    Significato del CI e del CL

    Esempio:

    La media del mio campione e 15. Quale sar la vera media della

    popolazione?

    A: Sar compresa fra 14 e 16 La probabilit che questo sia vero

    dell80% (CI stretto e CL basso: alta precisione, minore certezza)

    B: Sar compresa fra 12 e 18 La probabilit che questo sia vero del

    95% (CI ampio e CL alto: bassa precisione, maggiore certezza)

  • 7/29/2019 Analisi_statistica

    41/100

    Verifica di ipotesi

    La verifica di ipotesi il secondo tipo di

    problema affrontato dalla statistica inferenziale.

    Lipotesi da verificare in questo caso lacosiddetta ipotesi nulla (null hypothesis)

  • 7/29/2019 Analisi_statistica

    42/100

    Ipotesi nulla

    Lipotesi nulla (H0) unipotesi che il ricercatore fa riguardo a un

    parametro della popolazione oggetto della ricerca (in genere la media) eche viene confutata o non confutata dai dati sperimentali. Nel caso picomune, del confronto fra due campioni, la forma dellipotesi nulla laseguente:

    H0: 1 = 2

    Dove 1 e 2 sono le medie delle due popolazioni da cui sono stati trattii due campioni.

    Per esempio, se i due campioni si riferiscono a neonati a termineoppure a neonati pretermine, e la variabile misurata il valore dellaglicemia a unora di vita, allora lipotesi nulla dice che:non c differenza fra la media dei valori glicemia a unora di vita

    nelle due popolazioni.

    Lipotesi alternativa, cio che la differenza esiste, prende il nome di H1

  • 7/29/2019 Analisi_statistica

    43/100

    Ipotesi nulla

    Molto spesso lipotesi nulla lopposto di ci che si vorrebbedimostrare.

    Come vedremo, lipotesi nulla viene rigettata oppure no asecondo del suo livello di improbabilit.Se lipotesi nulla viene rigettata, questo un dato a favoredellipotesi alternativa. In senso stretto, per, il test statistico nondice nulla sullipotesi alternativa H1, ma solo sulla probabilitdellipotesi nulla.Riassumendo:

    Se H0 viene rigettata perch improbabile, questo un dato afavore di H1

    Se H0 non viene rigettata, questo non vuol dire che H0 debbaessere vera. Si pu solo dire che, sulla base dei dati raccolti, nonla si pu considerare abbastanza improbabile.

  • 7/29/2019 Analisi_statistica

    44/100

    Il p-value (probability value)

    Ma che vuol dire abbastanza improbabile? Anche nelcaso della verifica di ipotesi, necessario decidere unlivello di improbabilit che autorizzi a rigettare lipotesinulla.

    Questo valore si chiama p-value, o soltanto p, e si pudefinire come la probabilit che il risultato ottenuto (peresempio la differenza fra le medie dei due campioni) siadovuto al caso, se lipotesi nulla vera, cio se le mediedelle popolazioni da cui i campioni sono tratti sono uguali.

    Il p si esprime come frazione dellunit. Valori di p spessousati come livello sono:

  • 7/29/2019 Analisi_statistica

    45/100

    Il p-value

    Glicemia a unora in un

    campione di neonati a termine

    Media = M1

    IPOTESI NULLA: La media dei valori di glicemia a unora nella

    popolazione di tutti i neonati a termine (1) e nella popolazione

    di tutti i neonati pretermine (2) uguale (1 = 2)

    M1 > M2

    Glicemia a unora in un

    campione di neonati pretermine

    Media = M2

    SCELTA DEL LIVELLO: Sar considerato significativo un p < 0,01

    A questo punto si dovr scegliere un modello di analisi statistica

    appropriato per il tipo di problema (per esempio, in questo caso, il t di Student).

    Il risultato del calcolo statistico, alla fine, dovr essere espressosotto forma di p-value per lipotesi nulla.

    SE il p < a 0,01: lipotesi nulla viene rigettata, in favore di una possibile

    ipotesi alternativa.

    SE il p > a 0,01: lipotesi nulla non viene rigettata. Ci non dimostra che

    essa sia vera.

  • 7/29/2019 Analisi_statistica

    46/100

    Errori di tipo I e II

    SE il p < a 0,01: lipotesi nullaviene rigettata, in favore di una

    possibile ipotesi alternativa.

    (studio che ha successo)

    SE il p > a 0,01: lipotesi nullanon viene rigettata. Ci nondimostra che essa sia vera.

    (studio che non ha successo)

    Se per lipotesi nulla vera, si

    commette un errore di tipo I.

    La probabilit di commettere un

    errore di tipo I (detta ) ugualeal p-value.

    Se comunque lipotesi nulla falsa, si commette un errore di

    tipo II.

    La probabilit di commettere un

    errore di tipo II (detta ) spessonon calcolabile.

    La causa pi frequente di errore

    di tipo II la numerosit

    insufficiente dei campioni.

  • 7/29/2019 Analisi_statistica

    47/100

    Errore tipo II e potenza

    la probabilit di commettere un errore di tipo II,cio di non riuscire a rigettare unipotesi nulla che falsa (in altre parole, di non riuscire ad affermare la

    nostra ipotesi anche se vera 1- esprime la potenza di uno studio, cio laprobabilit di non commettere un errore di tipo II

    Se 0,20, la potenza dello studio sar 0,80, in altre

    parole lo studio avr l80% di probabilit di riuscire adimostrare la propria ipotesi, se questa vera

    di d l ?

  • 7/29/2019 Analisi_statistica

    48/100

    Da cosa dipende la potenza?

    1. Dalla dimensione reale delleffetto che si vuole dimostrare. In

    altre parole, quanto pi il segnale da rivelare grande, tantopi facile , per uno studio, rivelarlo.

    2. Dal livello di significativit prefissato (soglia di p). In altreparole, quanto pi bassa si pone la soglia di p, tanto pi facile che non si arrivi a quella soglia anche se lipotesi vera.Uno studio che vuole essere pi affidabile, sar anche menopotente.

    3. Dalla numerosit del campione. Pi grande N, pi potente lo studio.

    4. Dalla varianza (o DS) della popolazione di origine. Pigrande la varianza, meno potente lo studio

    5. Da altri fattori: normalit della popolazione, tipo di teststatistico adoperato

    i i d l i

  • 7/29/2019 Analisi_statistica

    49/100

    Dimensionamento del campione Un campione troppo piccolo porta pi facilmente ad errori

    di tipo II La numerosit del campione dipende per in modo criticodallentit della differenza esistente fra le due popolazionirelativamente al parametro oggetto dello studio

    In uno studio RCT, quindi, importante dimensionare inanticipo il campione, cio decidere prima quanti soggettidovranno essere arruolati per rispondere al quesito

    Il dimensionamento va fatto tenendo conto della differenzapi piccola che si ha interesse a cogliere (grandezza del

    segnale minimo che si considera utile), e del livello disignificativit statistica che si desidera raggiungere (cio,della soglia fissata per il p)

  • 7/29/2019 Analisi_statistica

    50/100

    Scelta del test appropriato

    A seconda della forma del problema, si sceglier

    un test diverso per la verifica delle ipotesi. E

    importante ricordare che, qualunque sia il teststatistico impiegato, alla fine il risultato dovr

    essere espresso sotto la forma di un p-value

    perch lo si possa interpretare.

    i h h bi ?

  • 7/29/2019 Analisi_statistica

    51/100

    Di che test ho bisogno?

    Variabili quantitative in gruppi categorici:

    confronto fra le medie di due campioni, anchedi numerosit diversa (between-subject)

    Variabili quantitative in un gruppo unico:confronto fra coppie di misurazioni nello stessosoggetto (within-subject)

    Variabili qualitative in gruppi categorici:confronto fra conteggi (numero dei casi chericadono in differenti categorie)

    Rapporto fra due variabili quantitative continuemisurate nello stesso gruppo di soggetti

    Variabili quantitative continue o in gruppicategorici: confronto fra le medie di tre o picampioni, e di pi variabili indipendenti(analisi covariata)

    Analisi contemporanea di pi variabilidipendenti

    t di Student, unpaired

    t di Student, paired

    ANOVA, ANCOVA

    Chi quadro

    Coefficiente di correlazione r

    e regressione

    MANOVA

    T t di St d t i d

  • 7/29/2019 Analisi_statistica

    52/100

    Test di Student unpaired

    (between-subject design)

    Due gruppi categorici

    Maschi Femmine

    In cui si misura una variabile

    dipendente quantitativa

    Bilirubinemia:

    media, DS

    Bilirubinemia:

    media, DS

    Due gruppi creati a partire da una variabile

    quantitativa secondo un valore arbitrario

    EG < 37 sett EG >= 37 sett

    In cui si misura una variabile

    dipendente quantitativa

    Bilirubinemia:

    media, DS

    Bilirubinemia:

    media, DS

    OP

    P

    U

    R

    E

    Test di student paired

  • 7/29/2019 Analisi_statistica

    53/100

    Test di student paired

    (within-subject design)

    Un solo gruppo

    Neonati a termine

    Bilirubina a 2 gg Bilirubina a 4 gg

    Due misurazioni per ciascun soggetto

    Ogni misurazione viene confrontata con quella corrispondente nello stesso soggetto

  • 7/29/2019 Analisi_statistica

    54/100

    Variet di t-test

    Nel t-test per campioni indipendenti (unpaired) i duecampioni si riferiscono a due gruppi di soggetti diversi(per esempio pazienti trattati o non trattati):

    between-subject design.

    Nel t-test per campioni appaiati (paired) i due campionisi riferiscono a due diverse misurazioni dello stessoparametro nello stesso gruppo di soggetti (per esempioglicemia prima e dopo un trattamento). In questo caso ci

    saranno due misurazioni per ogni soggetto, e quindi lanumerosit dei due campioni necessariamente uguale:

    within-subject design.

  • 7/29/2019 Analisi_statistica

    55/100

    Il test del t di Student

    Student lo pseudonimo con cui William Gosset, pubblic nel 1908un lavoro sulla distribuzione t nel caso in cui un campione piccolovenga utilizzato per stimare i parametri della popolazione di origine.

    La distribuzione t si avvicina a quella normale (distribuzione z) manmano che la numerosit del campione cresce.

  • 7/29/2019 Analisi_statistica

    56/100

    Il test del t di Student

    Il test del t di Studentapplica il concetto di distribuzione t al confronto fra duecampioni, in particolare alla distribuzione della differenza fra la media di due campioni

    derivati dalla stessa popolazione di origine (ipotesi nulla)

    Distribuzione ideale delle medie

    di due campioni

    Tre scenari per la differenza fra due medie

    Il t-test come esempio di valutazione del rapporto segnale-rumore

    La formula del t-test

    i di

  • 7/29/2019 Analisi_statistica

    57/100

    Variet di t-test

    Per campioni indipendenti, anche di numerosit diversa(unpaired):

    - campioni con varianza simile (omoschedastico)

    - campioni con varianza diversaPer campioni appaiati (paired)

    NB: In tutti i casi il test pu essere calcolato a una coda

    o a due code

  • 7/29/2019 Analisi_statistica

    58/100

    Variet di t-test

    nel test ad una coda, la zona di rifiuto solamente da una parte della distribuzione (asinistra quando il segno negativo, a destraquando positivo)

    nel test a due code, la zona di rifiuto distribuita dalle due parti

    Il test a due code pi conservativo (vi siricorre quando non si ha alcuna idea suipossibili risultati) mentre il test ad una coda pi potente

    T

  • 7/29/2019 Analisi_statistica

    59/100

    T-test

    Il t-test un test molto robusto. Questo significa che,se applicato bene, d risultati affidabili anche quando lepopolazioni di origine non hanno una distribuzionenormale, soprattutto se le dimensioni dei campioni non

    sono estremamente ridotte.

    In tutti i casi in cui non si abbia una comprensioneprecisa di quale variet applicare, pi opportuno

    ricorrere, conservativamente, al test unpaired, a duecode, per campioni con varianza differente

  • 7/29/2019 Analisi_statistica

    60/100

    Chi quadro

    Il chi quadro si applica quando la variabile dipendente espressacome conteggi in categorie. I risultati quindi sono espressi sottoforma di una tabella (2x2, 2x3, 3x3, ecc.)

    Per esempio, se vogliamo valutare il follow-up a 5 anni dei pazientiaffetti da una certa patologia a seconda del sesso, ed esprimiamo ilrisultato come conteggio del numero di pazienti guariti, ancora

    malati o morti, avremo una tabella 2x3:

    Guariti Malati Morti

    Maschi 20 12 4

    Femmine 15 9 6

  • 7/29/2019 Analisi_statistica

    61/100

    Come si calcola il chi quadro

    Il calcolo del chi quadro si basa sul confronto fra frequenze osservate efrequenze attese nelle singole sottocategorie.

    Le frequenze attese si calcolano a partire dalle frequenze osservate

    Guariti Malati

    Valori osservati M 20 8 28

    F 16 13 29

    36 21 57

    Guariti Malati

    Valori attesi M 17.68 10.32

    F 18.32 10.68

    chi (p) = 0.203

    17.68 = 36*28 / 57

    C d l hi d l

  • 7/29/2019 Analisi_statistica

    62/100

    Come passare dal chi quadro al p

    Il test del chi quadro calcola i valori

    attesi per ogni cella della tabella, e li

    confronta con quelli osservati. Il

    risultato ottenuto, detto appunto chi

    quadro, viene trasformato in p-value

    in maniera dipendente dai gradi di

    libert (il numero di gradi di libert di

    una tabella uguale al numero di

    righe meno 1 moltiplicato per ilnumero di colonne meno 1)

    df P = 0.05 P = 0.01 P = 0.001

    1 3.84 6.64 10.83

    2 5.99 9.21 13.82

    3 7.82 11.35 16.27

    4 9.49 13.28 18.475 11.07 15.09 20.52

    6 12.59 16.81 22.46

    7 14.07 18.48 24.32

    8 15.51 20.09 26.13

    9 16.92 21.67 27.88

    10 18.31 23.21 29.59

    11 19.68 24.73 31.26

    12 21.03 26.22 32.91

    Risk e Odds

  • 7/29/2019 Analisi_statistica

    63/100

    Risk e Odds

    Un modo semiquantitativo di esprimere la significativit nel caso di variabilicategoriche rappresentato dai concetti di risk, odds, risk ratio e odds ratio.

    Immaginiamo una tabella 2x2 che esprima lincidenza di handicap in funzionedel peso alla nascita

    Handicap Non handicap Totale

    A. < 1000 g 10 42 52

    B. 10001500g 8 88 96

    Si definisce rischio (risk) il rapporto fra i soggetti con outcome e il totale,

    mentre si definisce probabilit (odds) il rapporto fra soggetti con

    outcome e soggetti senza.

    Per A: Risk = 10/52 = 0,19 Odds = 10/42 = 0,24

    Per B: Risk = 8/96 = 0,08 Odds = 8/88 = 0,09

    Risk Ratio e Odds Ratio

  • 7/29/2019 Analisi_statistica

    64/100

    Risk Ratio e Odds Ratio

    Se invece confrontiamo i due gruppi fra di loro, otterremo il Risk Ratio (RR,detto anche Relative Risk) e lOdds Ratio (OR).

    Handicap Non handicap Totale

    A. < 1000 g 10 42 52

    B. 10001500g 8 88 96

    Per A: Risk = 10/52 = 0,19 Odds = 10/42 = 0,24

    Per B: Risk = 8/96 = 0,08 Odds = 8/88 = 0,09

    Confronto di A con B:

    RR = 0,19/0,08 = 2,3

    OR = 0,24/0,09 = 2,6

    Risk Ratio e Odds Ratio: significato

  • 7/29/2019 Analisi_statistica

    65/100

    Risk Ratio e Odds Ratio: significato

    Sia il RR che lOR possono essere riportati, in modo semiquantitativo, a un giudizio disignificativit nel rigettare lipotesi nulla. Ecco due tabelle orientative:

    Confronto di A con B:

    RR = 0,19/0,08 = 2,3

    OR = 0,24/0,09 = 2,6

    Table 1. Semiquantitative grading of the relative risk, odds ratio, or rate ratio

    Reported Relative Risk, Odds Ratio, or Rate Ratio Estimate

    3.0 +++

    1 Values 1 indicate increased risk.

    Risk Ratio e Odds Ratio: differenza

  • 7/29/2019 Analisi_statistica

    66/100

    Risk Ratio e Odds Ratio: differenza

    Per outcome rari rispetto allintera popolazione, RR e OR sonoquasi uguali.

    Quanto pi loutcome frequente, tanto pi il RR e lORdivergono, tenendo presente che lOR sempre pi grande,cio pi lontano dallunit, del RR.

    Confronto di A con B:

    RR = 0,19/0,08 = 2,3

    OR = 0,24/0,09 = 2,6

    ANOVA

  • 7/29/2019 Analisi_statistica

    67/100

    ANOVA

    Se si confrontano fra loro tre o pi gruppi, non pi correttoutilizzare il t-test ripetendolo per tutte le combinazioni. In questomodo la probabilit di avere risultati falsamente significativicresce al crescere del numero di gruppi.

    In questi casi si deve usare una metodologia di calcolo picomplessa, chiamata ANOVA (ANalysis OfVAriance).

    Questo metodo tiene conto non solo della devianza totale deivalori, ma anche della devianza tra (between) i gruppi e delladevianza entro (within) i gruppi.

    LANOVA un calcolo statistico complesso, e richiede in genereuna buona comprensione dei concetti teorici di base.

  • 7/29/2019 Analisi_statistica

    68/100

    Confronto fra due o pi variabili

    I test considerati finora misurano una variabile in

    pi gruppi. Quando invece si vuole confrontare

    landamento di due o pi variabili quantitativenello stesso gruppo si ricorre ai test di

    correlazione e di regressione.

    Coefficiente di correlazione

  • 7/29/2019 Analisi_statistica

    69/100

    Coefficiente di correlazione

    Il coefficiente di correlazioneesprime la probabilit che duevariabili siano correlate fra loro,anche se non sussiste necessariamenteun rapporto diretto di causalit. Lacorrelazione pu essere lineare o di

    altro tipo (quadratica, ecc.)Un coefficiente di correlazione va da-1 (correlazione negativa) a 1(correlazione positiva). I valoriintorni allo 0 esprimono lassenza dicorrelazione.

    Il pi semplice coefficiente dicorrelazione quello di Pearson,detto r, che misura la correlazionelineare fra due variabili in uncampione.

    r = -1

    r = +1

    r = 0

    Altri esempi di r

  • 7/29/2019 Analisi_statistica

    70/100

    Altri esempi di r

  • 7/29/2019 Analisi_statistica

    71/100

    Coefficiente di determinazione r2

    E il quadrato della correlazione, ed esprime lapercentuale della variazione dei valori di y che spiegata dal modello di regressione associato a x

    0 r2

    1.

    Quanto pi grande r2 , tanto pi forte la relazionelineare

    Quanto pi r2

    vicino a 1, tanto pi sicure sono le nostrepredizioni

  • 7/29/2019 Analisi_statistica

    72/100

    Coefficiente di determinazione

    Rapporto fra r e r2

    Come passare da r a p

  • 7/29/2019 Analisi_statistica

    73/100

  • 7/29/2019 Analisi_statistica

    74/100

    Una riflessione sul significato di p

    In questo esempio, abbiamo due casi in cui il p di

    0,05, ma il significato molto diverso

    In questo campione di 5 casi (N = 5), r molto alto

    (0,80), e quindi la correlazione fra le due variabili

    elevata. A causa del piccolo numero di rilevazioni, per,

    la probabilit che questo risultato sia casuale elevata, e

    il valore del p si attesta a 0,05.

    In altre parole, sembra che fra le due variabili ci sia una

    correlazione molto alta, ma non lo si pu dire con molta

    certezza perch il numero di dati piccolo

    In questaltro caso, invece, il numero di dati moltogrande (N = 1000), ma r piccolo (0,05). Anche qui, psi attesta a 0,05.

    In altre parole, fra le due variabili c probabilmenteuna correlazione, ma la correlazione di lieve entit

    Significato generale di un test

  • 7/29/2019 Analisi_statistica

    75/100

    In altre parole, possiamo considerare il risultato di un test statistico,

    come il t-test o r, come la misura di un rapporto segnale/rumore.Il segnale lentit della differenza fra due gruppi di dati nel confrontofra medie (t di Student), o lentit della correlazione fra due variabili(r).

    Il rumore la probabilit della generazione casuale di uno pseudo-segnale, e dipende in modo critico dalla numerosit dei dati.

    Significato generale di un test

    Segnaleentit della differenza fra lemedie, o della correlazione

    Rumorevariabilit casuale

  • 7/29/2019 Analisi_statistica

    76/100

    Regressione

    Se esiste correlazione fra due variabili,

    possibile calcolare una funzione che descriva

    il rapporto fra le due variabili e che permetta

    di predire altri valori. Se tale funzione unalinea, si parla di regressione lineare, altrimenti

    di regressione non lineare.

    Se le variabili sono pi di due, si parla di

    regressione multipla

    Un esempio di regressione lineare

  • 7/29/2019 Analisi_statistica

    77/100

    Un esempio di regressione lineare

    La formula generale di una linea di regressione :

    y = a + bx

    dove a il punto di intersezione dellasse Y, e b lapendenza della linea (angolo con lasse X)

    La linea di regressione viene calcolata in maniera da rendere

    minima la somma degli scarti quadratici dei singoli valori osservati

  • 7/29/2019 Analisi_statistica

    78/100

    Predizione

    Il calcolo di una linea di regressione pu permettere di farepredizioni riguardo a valori non osservati

  • 7/29/2019 Analisi_statistica

    79/100

    Regressione lineare e non lineare

  • 7/29/2019 Analisi_statistica

    80/100

    Regressione multipla

    I test di regressione multipla valutano

    la maniera in cui molte variabili

    indipendenti influenzano unasingola variabile dipendente: per

    esempio, come vari fattori prognostici

    influenzano la sopravvivenza in una

    patologia neoplastica.

    Regressione multipla lineare e non

  • 7/29/2019 Analisi_statistica

    81/100

    Regressione multipla lineare e non

    lineare

    Curve di Kaplan Meier

  • 7/29/2019 Analisi_statistica

    82/100

    Curve di Kaplan Meier

    La curva di Kaplan Meier permette di rappresentare i dati diuno studio in termini di time to event, cio del temponecessario perch i pazienti raggiungano un determinatoendpoint (per esempio la morte: in questo caso la curva unacurva di sopravvivenza).

    La curva rappresenra tutti i dati disponibili in termini dipercentuale dellevento rispetto al tempo trascorso

    dallarruolamento, e questo permette di valutare insieme i dati dipazienti arruolati in tempi diversi.

    Vengono inclusi anche i pazienti che non hanno presentatoancora lendpoint al momento della chiusura dello studio, e quellidei pazienti persi al follow-up. Tali dati vengono definiticensored e il tempo trascorso fra larruolamento e laconclusione dello studio, oppure fra larruolamento e luscitadallo studio per i persi al follow-up, rappresentato graficamentecon un segno verticale (tick mark).

  • 7/29/2019 Analisi_statistica

    83/100

    Un esempio di curva di Kaplan Meier

  • 7/29/2019 Analisi_statistica

    84/100

    Un esempio di curva di Kaplan Meier

    Example of a Censored Curve with Tick MarksThis Group of Patients Has a Minimum Follow-Up of a Little Over a Year

    Rappresentazione di due gruppi come curva di Kaplan Meier

  • 7/29/2019 Analisi_statistica

    85/100

    Gap verticale: differenza

    nellesito finale

    Gap orizzontale: differenza

    nel tempo di presentazione

    delloutcome

    V l i d i i d K l M i

  • 7/29/2019 Analisi_statistica

    86/100

    Valori derivati da una curva Kaplan Meier

    Mediana = tempo a cui il 50% dei pazienti ha

    presentato levento

    Media = tempo medio di presentazione

    dellevento

  • 7/29/2019 Analisi_statistica

    87/100

    Comparison of survival between two groups. Eyeballing the KM curves for the Placebo and 6-

    MP groups, we see that

    1. Median survival time is 22.5 m for 6-MP and 8 for placebo (14.5 month difference).

    2. The Kaplan-Meier curve for 6-MP group lies above that for the Placebo group and there is a

    big gap between the two curves: the survival of 6-MP seems to be superior.

    3. The gap seems to become bigger as time progresses.

    Valutazione statistica delle curve di Kaplan

  • 7/29/2019 Analisi_statistica

    88/100

    p

    Meier

    Lanalisi statistica basata sui principi del chi-quadro, che confronta le percentuali attese con

    quelle osservate.

    Test: Log rank test.

    H0: non c differenza fra le curve A e B

    H1: la differenza esiste

    Il risultato finale espresso come p.

  • 7/29/2019 Analisi_statistica

    89/100

    Confronto fra curve di Kaplan Meier

  • 7/29/2019 Analisi_statistica

    90/100

    p

    (Log Rank Test)

    Figure 2:Survival of patients in the low risk group treated by liverresection alone or liver resection plus adjuvant chemotherapy.(n=113; Kaplan-Meier estimate, log-rank test).

    Cox regression test

  • 7/29/2019 Analisi_statistica

    91/100

    Cox regression test

    E un modello complesso di analisi di regressione multivariata, che

    permette sia il confronto fra curve di sopravvivenza di tipo KaplanMeier che il calcolo del contributo di fattori prognostici

    indipendenti al rischio.

    Un esempio di valutazione del contributo di fattori diversi al rischio cumulativo

    Cox proportional hazards model e

  • 7/29/2019 Analisi_statistica

    92/100

    p p

    hazard ratio

    Il modello di Cox permette di valutare dueimportanti aspetti nellambito di unarappresentazione time to event di tipoKaplan Meier:

    1. Calcolo dell hazard ratio, un numero cheesprime il rischio relativo fra i due gruppi

    per unit di tempo2. Calcolo del contributo indipendente al

    rischio di pi variabili (analisi covariata)

    H d ti diff f i

  • 7/29/2019 Analisi_statistica

    93/100

    Hazard ratio e differenza fra gruppi

    Non sempre lhazard ratio esprime in modorealistico la differenza clinica fra due gruppi.

    Come molte misure complesse, il suo significato

    pu essere fuorviante, perch dipende in manieracritica dalla forma delle curve.

    Se si vuole sapere essenzialmente la rilevanzadel significato clinico finale, occorre semprevalutare anche la mediana e la media delle duecurve.

    Cox model

  • 7/29/2019 Analisi_statistica

    94/100

    Il modello di Cox permette di calcolare il

    contributo delle singole variabili alloutcome,stratificando in maniera complessa per le

    differenti variabili (analisi covariata)

  • 7/29/2019 Analisi_statistica

    95/100

  • 7/29/2019 Analisi_statistica

    96/100

  • 7/29/2019 Analisi_statistica

    97/100

  • 7/29/2019 Analisi_statistica

    98/100

  • 7/29/2019 Analisi_statistica

    99/100

  • 7/29/2019 Analisi_statistica

    100/100