Statistica Lezione 5Statistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante...

Statistica

Lezione 5

a.a 2011-2012

Dott.ssa Daniela [email protected]

Università degli Studi del Piemonte OrientaleCorso di Laurea in Infermieristica

Corso integrato in Scienze della Prevenzione e dei Serviz i sanitari

2

Inferenza statistica

L’inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella popolazione.

Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi:

1. estrazione di un campione della popolazione

2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione

3. stima dei parametri nella popolazione in base ai risultati forniti dal campione

3

Insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno.

Può essere finita (comunque molto grande) o infinita

Popolazione

4

- Raccolta finita di elementi estratti da una popolazione

- Scopo dell’estrazione è quello di ottenere informazioni sulla popolazione

- Il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’)

- Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale.

Campione

5

In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione.

individui nella popolazione = "unità di campionamento"

popolazione oggetto dello studio = "popolazione bersaglio"

popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) = "popolazione studio" o base di campionamento

Consideriamo tutti i possibili campioni casuali di ampiezza n che possono essere estratti da una popolazione.

Per ciascun campione si può calcolare una statistica (es. la media) che varia da campione a campione.

Possiamo dunque considerare la statistica in questione come una variabile casuale e studiarne la distribuzione.

Se ad esempio la statistica usata è la media, la distribuzione è detta distribuzione della media campionaria.

Distribuzione della media campionaria

7

Campionamento da popolazione distribuita normalment e

Se campioniamo da un popolazione normale allora:

• La distribuzione di (media campionaria) è normale

• La media delle medie campionarie corrisponde alla

media della popolazione (µ)

• La varianza della distribuzione della media campionaria è uguale alla varianza della popolazione diviso per la dimensione del campione

x

8

• In questo caso introduciamo il teorema centrale limite:

Data una popolazione distribuita non normalmente, la distribuzione della media campionaria calcolata da campioni di dimensione n, avrà media µ e varianza σ2/n e, se la dimensione campionaria è grande (un campione di dimensione 30 è considerato soddisfacente), avràdistribuzione pressochè normale

Campionamento da popolazione distribuita non normalmente

9

Esempio

Quale sarà la probabilità di osservare un soggetto con una statura inferiore a m 1,5928 data una popolazione con altezza media 1,730 e deviazione standard 0,07 (distribuzione di partenza assunta come normale)?

Si estragga un campione di ampiezza 10, calcolare la probabilitàche la media campionaria dell’altezza sia superiore a 1,65.

N.B Nel caso della media campionaria la standardizzazione avviene nel seguente modo:

n

xz σ

µ−=

10

Esempio

σµ−= x

z 025,0)96,1()07,0

73,15928,1()5928,1( =−<=−<=< zPzPxP

n

xz σ

µ−= 1~)7,3()

10

07,073,165,1

()65,1( =−>=−>=> zPzPxP

0,0

0,2

0,4

0,6

-4 -3 -2 -1 0 1 2 3 4 5 6X

-3,7

11

Stima puntuale e stima intervallare

Una stima puntuale è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ottiene come risultato un singolo valore numerico usato come stima del parametro dell’intera popolazione

Es. stima della media

Una stima intervallare è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ha come risultato un insieme di valori che con un certo grado di fiducia conterrà il parametro da stimare

n

xx i∑=

12

– Campioni ripetuti dalla stessa popolazione forniscono medie campionarie diverse

– Ciascuna di queste medie campionarie costituisce una stima non distorta del parametro (media della popolazione) ma non può essere usata come stima del parametro da sola, senza tenere conto dell’incertezza causata dall’errore campionario

13

Stima intervallare della media campionaria

)*;*( 2/12/1n

zxn

zxσσ

αα −− +−

2/1 α−z Coefficiente di attendibilità

Se α=0,050,95

0,0250,025

-1,96 +1,96

14

Interpretazione dell’intervallo di confidenza

Estraendo tutti i possibili campioni da una popolazione distribuita normalmente, il 95% degli intervalli conterrà la media della popolazione ossia abbiamo un grado di fiducia del 95% che la media della popolazione si trovi tra i due valori estremi dell’intervallo

15

Esempio

La media della distribuzione della pressione sistolica

delle donne diabetiche di età compresa tra 30 e 34 anni non è nota, tuttavia la deviazione standard è σ=11,8 mmHg. Un campione casuale di 10 donne è selezionato da questa popolazione: la pressione sistolica media del campione è pari a 130 mmHg.

Calcolare un intervallo di confidenza al 95% per la media della popolazione

16

)*;*( 2/12/1n

zxn

zxσσ

αα −− +−

)10

8,11*96,1130;

10

8,11*96,1130( +−

)3,137;7,122(

Esempio

17

La distribuzione t

William Sealey Gosset

Nel caso in cui non conosciamo la deviazione standard della popolazione, possiamo ricorrere alla deviazione standard campionaria. In questo caso facciamo riferimento alla distribuzione t di Student.

Il t di Student è un test di statistica parametrica . E’fondato sulle caratteristiche della distribuzione normale .

18

– Ha media 0– E’ simmetrica intorno alla media– Rispetto alla distribuzione normale è meno appuntita

al centro e ha code più alte– Tende alla distribuzione normale quando n è

sufficientemente grande– E’ caratterizzata dai gradi di libertà che misurano la

quantità di informazione disponibile nei dati per stimare σ2. Per ogni valore dei gradi di libertà c’è una diversa distribuzione di t. All’aumentare dei gradi di libertà la distribuzione della t si avvicina alla distribuzione normale

La distribuzione t

19

Distribuzione normale (curva blu) e t di student per 1, 2, 3, 5, 10, 30 gradi di libertà

Grafici tratti da: http://en.wikipedia.org/wiki/Stu dent's_t-distribution

20

Il procedimento per il calcolo dell’intervallo di confidenza della media nel caso in cui sia necessario ricorrere alla distribuzione t di Student è analogo al caso precedente ma si sostituisce il valore di σ con il valore s

)*;*( 2/12/1n

stx

n

stx αα −− +−

1

)( 2

−−= ∑

n

xxs i Gradi di libertà = n-1

I gradi di libertà sono (n-1) poiché abbiamo perso 1 grado di libertà per stimare la media

21

Esempio

• Riprendiamo l’esempio precedente supponendo di non conoscere σ.

La media e la deviazione standard della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota. Un campione casuale di 10 donne èselezionato da questa popolazione: la pressione sistolicamedia del campione è pari a 130 mmHg e la deviazione standard campionaria pari a 20.

Calcolare un intervallo di confidenza al 95% per la media della popolazione.

22

Esempio

)*;*( 2/12/1n

stx

n

stx αα −− +−

)10

20*26,2130;

10

20*26,2130( +−

26,22/1 =−αt

g.d.l = n-1 = 9; α=0.05

0,0

0,1

0,2

0,3

0,4

0,5

-5 -4 -3 -2 -1 0 1 2 3 4 5T

0,95

)30,144;70,115(

23

Distribuzione T 1 coda 2 code

Probabilità 0,005 0,010 0,025 0,050 0,010 0,020 0,050 0,100

gradi libertà 1 63,66 31,82 12,71 6,31 63,66 31,82 12,71 6,31 2 9,22 6,96 4,30 2,92 9,22 6,96 4,30 2,92 3 5,84 4,54 3,18 2,35 5,84 4,54 3,18 2,35 4 4,60 3,75 2,78 2,13 4,60 3,75 2,78 2,13 5 4,03 3,37 2,57 2,02 4,03 3,37 2,57 2,02 6 3,71 3,14 2,45 1,94 3,71 3,14 2,45 1,94 7 3,50 3,00 2,37 1,90 3,50 3,00 2,37 1,90 8 3,36 2,90 2,31 1,86 3,36 2,90 2,31 1,86 9 3,25 2,82 2,26 1,83 3,25 2,82 2,26 1,83 10 3,17 2,76 2,23 1,81 3,17 2,76 2,23 1,81 11 3,11 2,72 2,20 1,80 3,11 2,72 2,20 1,80 12 3,06 2,68 2,18 1,78 3,06 2,68 2,18 1,78 13 3,02 2,65 2,16 1,77 3,02 2,65 2,16 1,77 14 2,98 2,63 2,15 1,76 2,98 2,63 2,15 1,76 15 2,95 2,60 2,13 1,75 2,95 2,60 2,13 1,75 16 2,92 2,58 2,12 1,74 2,92 2,58 2,12 1,74 17 2,90 2,57 2,11 1,73 2,90 2,57 2,11 1,73 18 2,88 2,55 2,10 1,73 2,88 2,55 2,10 1,73 19 2,86 2,54 2,09 1,73 2,86 2,54 2,09 1,73 20 2,85 2,53 2,09 1,73 2,85 2,53 2,09 1,73

per numeri di g.l. superiori a 20 usate la riga corrispondente a 20

Statistica Lezione 5Statistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante...

Documents

Transcript of Statistica Lezione 5Statistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante...