Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa...

23
Statistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante [email protected] Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari

Transcript of Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa...

Page 1: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

Statistica

Lezione 5

a.a 2011-2012

Dott.ssa Daniela [email protected]

Università degli Studi del Piemonte OrientaleCorso di Laurea in Infermieristica

Corso integrato in Scienze della Prevenzione e dei Serviz i sanitari

Page 2: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

2

Inferenza statistica

L’inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella popolazione.

Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi:

1. estrazione di un campione della popolazione

2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione

3. stima dei parametri nella popolazione in base ai risultati forniti dal campione

Page 3: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

3

Insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno.

Può essere finita (comunque molto grande) o infinita

Popolazione

Page 4: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

4

- Raccolta finita di elementi estratti da una popolazione

- Scopo dell’estrazione è quello di ottenere informazioni sulla popolazione

- Il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’)

- Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale.

Campione

Page 5: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

5

In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione.

individui nella popolazione = "unità di campionamento"

popolazione oggetto dello studio = "popolazione bersaglio"

popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) = "popolazione studio" o base di campionamento

Page 6: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

Consideriamo tutti i possibili campioni casuali di ampiezza n che possono essere estratti da una popolazione.

Per ciascun campione si può calcolare una statistica (es. la media) che varia da campione a campione.

Possiamo dunque considerare la statistica in questione come una variabile casuale e studiarne la distribuzione.

Se ad esempio la statistica usata è la media, la distribuzione è detta distribuzione della media campionaria.

Distribuzione della media campionaria

Page 7: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

7

Campionamento da popolazione distribuita normalment e

Se campioniamo da un popolazione normale allora:

• La distribuzione di (media campionaria) è normale

• La media delle medie campionarie corrisponde alla

media della popolazione (µ)

• La varianza della distribuzione della media campionaria è uguale alla varianza della popolazione diviso per la dimensione del campione

x

Page 8: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

8

• In questo caso introduciamo il teorema centrale limite:

Data una popolazione distribuita non normalmente, la distribuzione della media campionaria calcolata da campioni di dimensione n, avrà media µ e varianza σ2/n e, se la dimensione campionaria è grande (un campione di dimensione 30 è considerato soddisfacente), avràdistribuzione pressochè normale

Campionamento da popolazione distribuita non normalmente

Page 9: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

9

Esempio

Quale sarà la probabilità di osservare un soggetto con una statura inferiore a m 1,5928 data una popolazione con altezza media 1,730 e deviazione standard 0,07 (distribuzione di partenza assunta come normale)?

Si estragga un campione di ampiezza 10, calcolare la probabilitàche la media campionaria dell’altezza sia superiore a 1,65.

N.B Nel caso della media campionaria la standardizzazione avviene nel seguente modo:

n

xz σ

µ−=

Page 10: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

10

Esempio

σµ−= x

z 025,0)96,1()07,0

73,15928,1()5928,1( =−<=−<=< zPzPxP

n

xz σ

µ−= 1~)7,3()

10

07,073,165,1

()65,1( =−>=−>=> zPzPxP

0,0

0,2

0,4

0,6

-4 -3 -2 -1 0 1 2 3 4 5 6X

-3,7

Page 11: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

11

Stima puntuale e stima intervallare

Una stima puntuale è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ottiene come risultato un singolo valore numerico usato come stima del parametro dell’intera popolazione

Es. stima della media

Una stima intervallare è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ha come risultato un insieme di valori che con un certo grado di fiducia conterrà il parametro da stimare

n

xx i∑=

Page 12: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

12

– Campioni ripetuti dalla stessa popolazione forniscono medie campionarie diverse

– Ciascuna di queste medie campionarie costituisce una stima non distorta del parametro (media della popolazione) ma non può essere usata come stima del parametro da sola, senza tenere conto dell’incertezza causata dall’errore campionario

Page 13: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

13

Stima intervallare della media campionaria

)*;*( 2/12/1n

zxn

zxσσ

αα −− +−

2/1 α−z Coefficiente di attendibilità

Se α=0,050,95

0,0250,025

-1,96 +1,96

Page 14: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

14

Interpretazione dell’intervallo di confidenza

Estraendo tutti i possibili campioni da una popolazione distribuita normalmente, il 95% degli intervalli conterrà la media della popolazione ossia abbiamo un grado di fiducia del 95% che la media della popolazione si trovi tra i due valori estremi dell’intervallo

Page 15: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

15

Esempio

La media della distribuzione della pressione sistolica

delle donne diabetiche di età compresa tra 30 e 34 anni non è nota, tuttavia la deviazione standard è σ=11,8 mmHg. Un campione casuale di 10 donne è selezionato da questa popolazione: la pressione sistolica media del campione è pari a 130 mmHg.

Calcolare un intervallo di confidenza al 95% per la media della popolazione

Page 16: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

16

)*;*( 2/12/1n

zxn

zxσσ

αα −− +−

)10

8,11*96,1130;

10

8,11*96,1130( +−

)3,137;7,122(

Esempio

Page 17: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

17

La distribuzione t

William Sealey Gosset

Nel caso in cui non conosciamo la deviazione standard della popolazione, possiamo ricorrere alla deviazione standard campionaria. In questo caso facciamo riferimento alla distribuzione t di Student.

Il t di Student è un test di statistica parametrica . E’fondato sulle caratteristiche della distribuzione normale .

Page 18: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

18

– Ha media 0– E’ simmetrica intorno alla media– Rispetto alla distribuzione normale è meno appuntita

al centro e ha code più alte– Tende alla distribuzione normale quando n è

sufficientemente grande– E’ caratterizzata dai gradi di libertà che misurano la

quantità di informazione disponibile nei dati per stimare σ2. Per ogni valore dei gradi di libertà c’è una diversa distribuzione di t. All’aumentare dei gradi di libertà la distribuzione della t si avvicina alla distribuzione normale

La distribuzione t

Page 19: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

19

Distribuzione normale (curva blu) e t di student per 1, 2, 3, 5, 10, 30 gradi di libertà

Grafici tratti da: http://en.wikipedia.org/wiki/Stu dent's_t-distribution

Page 20: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

20

Il procedimento per il calcolo dell’intervallo di confidenza della media nel caso in cui sia necessario ricorrere alla distribuzione t di Student è analogo al caso precedente ma si sostituisce il valore di σ con il valore s

)*;*( 2/12/1n

stx

n

stx αα −− +−

1

)( 2

−−= ∑

n

xxs i Gradi di libertà = n-1

I gradi di libertà sono (n-1) poiché abbiamo perso 1 grado di libertà per stimare la media

Page 21: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

21

Esempio

• Riprendiamo l’esempio precedente supponendo di non conoscere σ.

La media e la deviazione standard della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota. Un campione casuale di 10 donne èselezionato da questa popolazione: la pressione sistolicamedia del campione è pari a 130 mmHg e la deviazione standard campionaria pari a 20.

Calcolare un intervallo di confidenza al 95% per la media della popolazione.

Page 22: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

22

Esempio

)*;*( 2/12/1n

stx

n

stx αα −− +−

)10

20*26,2130;

10

20*26,2130( +−

26,22/1 =−αt

g.d.l = n-1 = 9; α=0.05

0,0

0,1

0,2

0,3

0,4

0,5

-5 -4 -3 -2 -1 0 1 2 3 4 5T

0,95

)30,144;70,115(

Page 23: Statistica Lezione 5magnani/pdf/inf_2_anno_inferenza.pdfStatistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante daniela.ferrante@med.unipmn.it Università degli Studi del Piemonte

23

Distribuzione T 1 coda 2 code

Probabilità 0,005 0,010 0,025 0,050 0,010 0,020 0,050 0,100

gradi libertà 1 63,66 31,82 12,71 6,31 63,66 31,82 12,71 6,31 2 9,22 6,96 4,30 2,92 9,22 6,96 4,30 2,92 3 5,84 4,54 3,18 2,35 5,84 4,54 3,18 2,35 4 4,60 3,75 2,78 2,13 4,60 3,75 2,78 2,13 5 4,03 3,37 2,57 2,02 4,03 3,37 2,57 2,02 6 3,71 3,14 2,45 1,94 3,71 3,14 2,45 1,94 7 3,50 3,00 2,37 1,90 3,50 3,00 2,37 1,90 8 3,36 2,90 2,31 1,86 3,36 2,90 2,31 1,86 9 3,25 2,82 2,26 1,83 3,25 2,82 2,26 1,83 10 3,17 2,76 2,23 1,81 3,17 2,76 2,23 1,81 11 3,11 2,72 2,20 1,80 3,11 2,72 2,20 1,80 12 3,06 2,68 2,18 1,78 3,06 2,68 2,18 1,78 13 3,02 2,65 2,16 1,77 3,02 2,65 2,16 1,77 14 2,98 2,63 2,15 1,76 2,98 2,63 2,15 1,76 15 2,95 2,60 2,13 1,75 2,95 2,60 2,13 1,75 16 2,92 2,58 2,12 1,74 2,92 2,58 2,12 1,74 17 2,90 2,57 2,11 1,73 2,90 2,57 2,11 1,73 18 2,88 2,55 2,10 1,73 2,88 2,55 2,10 1,73 19 2,86 2,54 2,09 1,73 2,86 2,54 2,09 1,73 20 2,85 2,53 2,09 1,73 2,85 2,53 2,09 1,73

per numeri di g.l. superiori a 20 usate la riga corrispondente a 20