Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta...

13
Inferenza statistica Inferenza statistica Marcella Montico e Lorenzo Monasta Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica Servizio di epidemiologia e biostatistica Inferenza statistica: Inferenza statistica: insieme di metodi che insieme di metodi che permette di generalizzare i risultati ottenuti dai permette di generalizzare i risultati ottenuti dai dati raccolti in un campione (a certe condizioni!) dati raccolti in un campione (a certe condizioni!) CAMPIONE POPOLAZIONE Statistica Statistica bivariata bivariata: rilevazione e analisi : rilevazione e analisi congiunta di due variabili congiunta di due variabili

Transcript of Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta...

Page 1: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

1

Inferenza statisticaInferenza statistica

Marcella Montico e Lorenzo MonastaMarcella Montico e Lorenzo MonastaServizio di epidemiologia e biostatisticaServizio di epidemiologia e biostatistica

Inferenza statistica: Inferenza statistica: insieme di metodi che insieme di metodi che permette di generalizzare i risultati ottenuti dai permette di generalizzare i risultati ottenuti dai dati raccolti in un campione (a certe condizioni!)dati raccolti in un campione (a certe condizioni!)

CAMPIONE POPOLAZIONE

Statistica Statistica bivariatabivariata: rilevazione e analisi: rilevazione e analisicongiunta di due variabilicongiunta di due variabili

Page 2: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

2

DefinizioniDefinizioni

Test statistico:Test statistico: èè un metodo che mi un metodo che mi permette di verificare se la relazione tra permette di verificare se la relazione tra due (o pidue (o piùù) variabili ) variabili èè ““VERAVERA”” o se o se èèdovuta al caso. dovuta al caso.

DefinizioniDefinizioni

Ipotesi nullaIpotesi nullaIpotesi statistica che si vuole verificare Ipotesi statistica che si vuole verificare Nei test Nei test èè definita come uguaglianza di due definita come uguaglianza di due quantitquantitàà o come assenza di relazione (le o come assenza di relazione (le medie di due gruppi sono uguali, la medie di due gruppi sono uguali, la distribuzione di un carattere distribuzione di un carattere èè lo stesso tra lo stesso tra maschi e femmine)maschi e femmine)

Page 3: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

3

DefinizioniDefinizioni

pp--valuevalue:: significativitsignificativitàà statisticastatistica ((““risultatorisultato”” del del test)test)

Misura il grado di Misura il grado di ““fiduciafiducia”” nel risultato nel risultato ottenutoottenutoProbabilitProbabilitàà di errore nelldi errore nell’’accettare come validi accettare come validi i risultati osservatii risultati osservatiLimiti inferiori accettabili:0.1, 0.05 o 0.01, pari Limiti inferiori accettabili:0.1, 0.05 o 0.01, pari a sicurezza al 90%, 95% o al 99%a sicurezza al 90%, 95% o al 99%

Definizioni Definizioni Variabile Variabile dipendentedipendente: : èè la variabile di la variabile di esito. Si modifica in funzione di unesito. Si modifica in funzione di un’’altra altra variabile (detta variabile variabile (detta variabile indipendenteindipendente))

EsEs: l: l’’allattamento al seno dipende dallallattamento al seno dipende dall’’aver aver ricevuto latte artificiale?ricevuto latte artificiale?

VDVD: : allattamenoallattameno al senoal senoVIVI: latte artificiale: latte artificiale

Page 4: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

4

Distribuzione normaleDistribuzione normale(o (o gaussianagaussiana))

Ha il tipico aspetto a Ha il tipico aspetto a campanacampana

0

5

1 0

1 5

2 0

2 5

3 0

3 5

4 0

4 5

5 0

0 2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 0

ÈÈ una distribuzione di frequenzauna distribuzione di frequenzaÈÈ simmetrica attorno alla mediasimmetrica attorno alla mediaMedia = mediana = modaMedia = mediana = moda

Esempio di distribuzioneEsempio di distribuzione““tendente alla normaletendente alla normale””: soggetti : soggetti

cardiopatici per etcardiopatici per etàà

0500

1.0001.5002.0002.5003.0003.5004.0004.5005.000

1 11 21 31 41 51 61 71 81 91 101

Page 5: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

5

La La scelta del metodo discelta del metodo di analisianalisi dipende daldipende daltipo di variabili prese in considerazione:tipo di variabili prese in considerazione:

QUALITATIVE (nominali o ordinali)QUALITATIVE (nominali o ordinali)QUANTITATIVEQUANTITATIVE•• Distribuite normalmenteDistribuite normalmente•• Altra distribuzioneAltra distribuzione

CASO 1CASO 1

Entrambe le variabili sono Entrambe le variabili sono QUALITATIVE QUALITATIVE

(caso pi(caso piùù semplice: entrambe binarie)semplice: entrambe binarie)

Page 6: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

6

ESEMPIO:ESEMPIO:Rilevare in contemporanea le Rilevare in contemporanea le due variabili FUMO e SESSO.due variabili FUMO e SESSO.

1148430TOTALE

826616Fumo NO

321814Fumo SI

TOTALEFEMMINAMASCHIO

Distribuzioni marginali:Distribuzioni marginali:distribuzione del distribuzione del fumofumo (senza considerare il sesso) (senza considerare il sesso) e del e del sessosesso (senza considerare il fumo)(senza considerare il fumo)

11411442421515TOTALETOTALE

4141333388Fumo NOFumo NO

16169977Fumo SIFumo SI

TOTALETOTALEFEMMINAFEMMINAMASCHIOMASCHIO

Page 7: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

7

Le distribuzioni interne alla tabella, sono Le distribuzioni interne alla tabella, sono dette dette ““subordinatesubordinate””. .

6616Fumo NO

1814Fumo SI

FEMMINAMASCHIO

6616Fumo NO

1814Fumo SI

FEMMINAMASCHIO

distribuzione del distribuzione del fumo allfumo all’’interno interno del del sesso sesso maschilemaschile e del e del sesso femminilesesso femminile

distribuzione dei distribuzione dei sessi allsessi all’’interno interno dei dei fumatorifumatori e dei e dei non fumatorinon fumatori

p ( Fumo SI | p ( Fumo SI | ♂♂ ) = 14/30 = 0,467) = 14/30 = 0,467

p ( Fumo SI | p ( Fumo SI | ♀♀ ) = 18/84 = 0,214) = 18/84 = 0,214

=

Page 8: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

8

Le due probabilitLe due probabilitàà coscosìì differenti differenti fanno supporre che fumo e fanno supporre che fumo e sesso sesso nonnon siano siano indipendentiindipendenti, , ciocioèè che vi sia una relazione tra che vi sia una relazione tra la la variabile SESSO e la variabile SESSO e la

variabile FUMOvariabile FUMO

Variabile dipendente: fumoVariabile dipendente: fumoVariabile indipendente: sessoVariabile indipendente: sesso

Ipotesi nulla: indipendenza delle due Ipotesi nulla: indipendenza delle due distribuzionedistribuzione

Page 9: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

9

In caso di indipendenza tra le due In caso di indipendenza tra le due variabili che frequenze dovrebbero variabili che frequenze dovrebbero esserci nella tabella?esserci nella tabella?

1148430TOTALE

82xdxcNO

32xbxaSI

TOTALEFEMMINAMASCHIO

xxaa : 30 = : 30 = xxbb: 84 = 32 : 114 : 84 = 32 : 114 (condizione di indipendenza) (condizione di indipendenza)

xxaa = (30 x 32) / 114 = 8,4 = (30 x 32) / 114 = 8,4 (le altre frequenza per differenza)(le altre frequenza per differenza)

NB 1 solo grado di libertNB 1 solo grado di libertàà((numnum gradi di libertgradi di libertàà = = ((numnum righe righe -- 1) x (1) x (numnum colonne colonne –– 1)1)

1148430TOTALE

82XdXcNO

32XbXaSI

TOTALEFEMMINAMASCHIO

Page 10: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

10

1148430TOTALE

8260,421,6Fumo NO

3223,68,4Fumo SI

TOTALEFEMMINAMASCHIO

vs frequenze attesevs frequenze attese

1148430TOTALE

826616Fumo NO

321814Fumo SI

TOTALEFEMMINAMASCHIO

frequenze osservatefrequenze osservate

Test statisticoTest statisticoServe a calcolare la probabilitServe a calcolare la probabilitàà che i che i risultati ottenuti possano essere risultati ottenuti possano essere considerati frutto del casoconsiderati frutto del caso

NOTA: resta da stabilire se i risultati NOTA: resta da stabilire se i risultati ottenuti possano essere considerati frutto ottenuti possano essere considerati frutto del caso, oppure frutto di un VERO del caso, oppure frutto di un VERO legame causale tra sesso e fumo legame causale tra sesso e fumo

Vedi test chi quadrato

Page 11: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

11

Differenza significativa: rifiuto lDifferenza significativa: rifiuto l’’ipotesi nulla ipotesi nulla di indipendenzadi indipendenza

Le due variabili sono in relazione una con Le due variabili sono in relazione una con ll’’altraaltra

Differenza non significativa: ?Differenza non significativa: ?

STATISTICA BIVARIATA STATISTICA BIVARIATA UnUn’’applicazioneapplicazione

Il latte artificiale influenza Il latte artificiale influenza ll’’allattamento al seno allattamento al seno

((esclusivo o predominante vs complementare o no esclusivo o predominante vs complementare o no asas))

((chichi22))

Page 12: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

12

Test di Test di FisherFisher

Il test delle probabilitIl test delle probabilitàà esatte di esatte di FisherFisher si si usa in alternativa al test del Chiusa in alternativa al test del Chi22 se nella se nella tabella ci sono frequenze nulle o se la tabella ci sono frequenze nulle o se la frequenza attesa frequenza attesa èè inferiore a 5 in una delle inferiore a 5 in una delle quattro celle della tavola.quattro celle della tavola.

Infatti, il ChiInfatti, il Chi22, pur essendo un test , pur essendo un test non non parametricoparametrico, , èè esatto solo esatto solo asintoticamenteasintoticamente..

Page 13: Inferenza statistica - Burlo Garofolo · Inferenza statistica Marcella Montico e Lorenzo Monasta Servizio di epidemiologia e biostatistica ¾Inferenza statistica: insieme di metodi

13

NN1N0TOTALE

M1XdXcFumo NO

M0XbXaFumo SI

TOTALEFEMMINAMASCHIO

FisherFisher dimostrò che questa distribuzione di dimostrò che questa distribuzione di numerettinumeretti nella tabella nella tabella ha una probabilitha una probabilitàà di uscire che segue la distribuzione di uscire che segue la distribuzione ipergeometricaipergeometrica…… tale probabilittale probabilitàà èè pari a:pari a:

p = ( N0!N1!M0!M1!) / ( N!p = ( N0!N1!M0!M1!) / ( N!XaXa!!XbXb!!XcXc!!XdXd!) !)

574215TOTALE

41338Fumo NO

1697Fumo SI

TOTALEFEMMINAMASCHIO