Statistica Lezione 5Statistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante...
Transcript of Statistica Lezione 5Statistica Lezione 5 a.a 2011-2012 Dott.ssa Daniela Ferrante...
Statistica
Lezione 5
a.a 2011-2012
Dott.ssa Daniela [email protected]
Università degli Studi del Piemonte OrientaleCorso di Laurea in Infermieristica
Corso integrato in Scienze della Prevenzione e dei Serviz i sanitari
2
Inferenza statistica
L’inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella popolazione.
Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi:
1. estrazione di un campione della popolazione
2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione
3. stima dei parametri nella popolazione in base ai risultati forniti dal campione
3
Insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno.
Può essere finita (comunque molto grande) o infinita
Popolazione
4
- Raccolta finita di elementi estratti da una popolazione
- Scopo dell’estrazione è quello di ottenere informazioni sulla popolazione
- Il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’)
- Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale.
Campione
5
In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione.
individui nella popolazione = "unità di campionamento"
popolazione oggetto dello studio = "popolazione bersaglio"
popolazione effettivamente campionabile (al netto dell'effetto di fattori di selezione) = "popolazione studio" o base di campionamento
Consideriamo tutti i possibili campioni casuali di ampiezza n che possono essere estratti da una popolazione.
Per ciascun campione si può calcolare una statistica (es. la media) che varia da campione a campione.
Possiamo dunque considerare la statistica in questione come una variabile casuale e studiarne la distribuzione.
Se ad esempio la statistica usata è la media, la distribuzione è detta distribuzione della media campionaria.
Distribuzione della media campionaria
7
Campionamento da popolazione distribuita normalment e
Se campioniamo da un popolazione normale allora:
• La distribuzione di (media campionaria) è normale
• La media delle medie campionarie corrisponde alla
media della popolazione (µ)
• La varianza della distribuzione della media campionaria è uguale alla varianza della popolazione diviso per la dimensione del campione
x
8
• In questo caso introduciamo il teorema centrale limite:
Data una popolazione distribuita non normalmente, la distribuzione della media campionaria calcolata da campioni di dimensione n, avrà media µ e varianza σ2/n e, se la dimensione campionaria è grande (un campione di dimensione 30 è considerato soddisfacente), avràdistribuzione pressochè normale
Campionamento da popolazione distribuita non normalmente
9
Esempio
Quale sarà la probabilità di osservare un soggetto con una statura inferiore a m 1,5928 data una popolazione con altezza media 1,730 e deviazione standard 0,07 (distribuzione di partenza assunta come normale)?
Si estragga un campione di ampiezza 10, calcolare la probabilitàche la media campionaria dell’altezza sia superiore a 1,65.
N.B Nel caso della media campionaria la standardizzazione avviene nel seguente modo:
n
xz σ
µ−=
10
Esempio
σµ−= x
z 025,0)96,1()07,0
73,15928,1()5928,1( =−<=−<=< zPzPxP
n
xz σ
µ−= 1~)7,3()
10
07,073,165,1
()65,1( =−>=−>=> zPzPxP
0,0
0,2
0,4
0,6
-4 -3 -2 -1 0 1 2 3 4 5 6X
-3,7
11
Stima puntuale e stima intervallare
Una stima puntuale è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ottiene come risultato un singolo valore numerico usato come stima del parametro dell’intera popolazione
Es. stima della media
Una stima intervallare è un procedimento attraverso il quale a partire dalle informazioni tratte da un campione si ha come risultato un insieme di valori che con un certo grado di fiducia conterrà il parametro da stimare
n
xx i∑=
12
– Campioni ripetuti dalla stessa popolazione forniscono medie campionarie diverse
– Ciascuna di queste medie campionarie costituisce una stima non distorta del parametro (media della popolazione) ma non può essere usata come stima del parametro da sola, senza tenere conto dell’incertezza causata dall’errore campionario
13
Stima intervallare della media campionaria
)*;*( 2/12/1n
zxn
zxσσ
αα −− +−
2/1 α−z Coefficiente di attendibilità
Se α=0,050,95
0,0250,025
-1,96 +1,96
14
Interpretazione dell’intervallo di confidenza
Estraendo tutti i possibili campioni da una popolazione distribuita normalmente, il 95% degli intervalli conterrà la media della popolazione ossia abbiamo un grado di fiducia del 95% che la media della popolazione si trovi tra i due valori estremi dell’intervallo
15
Esempio
La media della distribuzione della pressione sistolica
delle donne diabetiche di età compresa tra 30 e 34 anni non è nota, tuttavia la deviazione standard è σ=11,8 mmHg. Un campione casuale di 10 donne è selezionato da questa popolazione: la pressione sistolica media del campione è pari a 130 mmHg.
Calcolare un intervallo di confidenza al 95% per la media della popolazione
16
)*;*( 2/12/1n
zxn
zxσσ
αα −− +−
)10
8,11*96,1130;
10
8,11*96,1130( +−
)3,137;7,122(
Esempio
17
La distribuzione t
William Sealey Gosset
Nel caso in cui non conosciamo la deviazione standard della popolazione, possiamo ricorrere alla deviazione standard campionaria. In questo caso facciamo riferimento alla distribuzione t di Student.
Il t di Student è un test di statistica parametrica . E’fondato sulle caratteristiche della distribuzione normale .
18
– Ha media 0– E’ simmetrica intorno alla media– Rispetto alla distribuzione normale è meno appuntita
al centro e ha code più alte– Tende alla distribuzione normale quando n è
sufficientemente grande– E’ caratterizzata dai gradi di libertà che misurano la
quantità di informazione disponibile nei dati per stimare σ2. Per ogni valore dei gradi di libertà c’è una diversa distribuzione di t. All’aumentare dei gradi di libertà la distribuzione della t si avvicina alla distribuzione normale
La distribuzione t
19
Distribuzione normale (curva blu) e t di student per 1, 2, 3, 5, 10, 30 gradi di libertà
Grafici tratti da: http://en.wikipedia.org/wiki/Stu dent's_t-distribution
20
Il procedimento per il calcolo dell’intervallo di confidenza della media nel caso in cui sia necessario ricorrere alla distribuzione t di Student è analogo al caso precedente ma si sostituisce il valore di σ con il valore s
)*;*( 2/12/1n
stx
n
stx αα −− +−
1
)( 2
−−= ∑
n
xxs i Gradi di libertà = n-1
I gradi di libertà sono (n-1) poiché abbiamo perso 1 grado di libertà per stimare la media
21
Esempio
• Riprendiamo l’esempio precedente supponendo di non conoscere σ.
La media e la deviazione standard della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota. Un campione casuale di 10 donne èselezionato da questa popolazione: la pressione sistolicamedia del campione è pari a 130 mmHg e la deviazione standard campionaria pari a 20.
Calcolare un intervallo di confidenza al 95% per la media della popolazione.
22
Esempio
)*;*( 2/12/1n
stx
n
stx αα −− +−
)10
20*26,2130;
10
20*26,2130( +−
26,22/1 =−αt
g.d.l = n-1 = 9; α=0.05
0,0
0,1
0,2
0,3
0,4
0,5
-5 -4 -3 -2 -1 0 1 2 3 4 5T
0,95
)30,144;70,115(
23
Distribuzione T 1 coda 2 code
Probabilità 0,005 0,010 0,025 0,050 0,010 0,020 0,050 0,100
gradi libertà 1 63,66 31,82 12,71 6,31 63,66 31,82 12,71 6,31 2 9,22 6,96 4,30 2,92 9,22 6,96 4,30 2,92 3 5,84 4,54 3,18 2,35 5,84 4,54 3,18 2,35 4 4,60 3,75 2,78 2,13 4,60 3,75 2,78 2,13 5 4,03 3,37 2,57 2,02 4,03 3,37 2,57 2,02 6 3,71 3,14 2,45 1,94 3,71 3,14 2,45 1,94 7 3,50 3,00 2,37 1,90 3,50 3,00 2,37 1,90 8 3,36 2,90 2,31 1,86 3,36 2,90 2,31 1,86 9 3,25 2,82 2,26 1,83 3,25 2,82 2,26 1,83 10 3,17 2,76 2,23 1,81 3,17 2,76 2,23 1,81 11 3,11 2,72 2,20 1,80 3,11 2,72 2,20 1,80 12 3,06 2,68 2,18 1,78 3,06 2,68 2,18 1,78 13 3,02 2,65 2,16 1,77 3,02 2,65 2,16 1,77 14 2,98 2,63 2,15 1,76 2,98 2,63 2,15 1,76 15 2,95 2,60 2,13 1,75 2,95 2,60 2,13 1,75 16 2,92 2,58 2,12 1,74 2,92 2,58 2,12 1,74 17 2,90 2,57 2,11 1,73 2,90 2,57 2,11 1,73 18 2,88 2,55 2,10 1,73 2,88 2,55 2,10 1,73 19 2,86 2,54 2,09 1,73 2,86 2,54 2,09 1,73 20 2,85 2,53 2,09 1,73 2,85 2,53 2,09 1,73
per numeri di g.l. superiori a 20 usate la riga corrispondente a 20