Laboratorio di Probabilità e Statistica - Home Page-Dip ... · essendo p incognito. Ci sono quindi...

21
Laboratorio di Probabilità e Statistica Massimo Guerriero – Ettore Benedetti lezione 7

Transcript of Laboratorio di Probabilità e Statistica - Home Page-Dip ... · essendo p incognito. Ci sono quindi...

Laboratorio di Probabilità e Statistica

Massimo Guerriero – Ettore Benedetti

lezione 7

Indice Lezione

• Prerequisiti dalla lezione scorsa

• Intervallo di confidenza per le proporzioni

• Verifica di ipotesi sulle proporzioni

• Verifica di ipotesi per due proporzioni

Prerequisiti dalla lezione scorsa

• Intervallo di confidenza per la media

• Come si modifica l’intervallo al variare di alfa, n ed s.d.

• Verifica d’ipotesi sulla media

• Test a una o due code (dx e sx)

• Confronto tra le medie di gruppi

• Verifica di ipotesi di indipendenza

• Capacità di astrarre le dovute considerazioni e conclusioni

La variabile casuale di Bernoulli è una variabile casuale discreta chepuò assumere solo due valori: 0 e 1 con probabilità p ed 1-p.

E’ un caso particolare della variabile casuale binomiale, la quale descrive in generale il numero di successi che si possono ottenere in n prove di Bernoulli.

Es.

Probabilità di successoper 10 esperimenti bernullianicon p=0.3

media = np varianza = np(1-p)

Ripasso Binomiale

Gli intervalli di confidenza per le proporzioni forniscono un campo di variazione centrato sulla media campionaria 𝒑 (proporzione stimata)all’interno del quale ci si aspetta di trovare il parametro incognito p. (proporzione esatta)

Per la variabile casuale Binomiale, in virtù del teorema dellimite centrale, si ricava che, per n elevato:

Z = 𝑝𝑛 −𝑝

𝑝(1−𝑝)

𝑛

≅ N(0,1)

Quindi l’intervallo di confidenza per p ha il seguente aspetto:

𝑝 ∈ 𝑝𝑛 ± 𝑧1−𝛼2

𝑝(1−𝑝)

𝑛

Intervallo di confidenza per le proporzioni 1/4

L’intervallo di confidenza mostrato non è possibile calcolarlo in alcun caso essendo p incognito. Ci sono quindi diverse strade percorribili:

Primo metodo approssimatoSostituiamo il valore p con la sua stima 𝑝𝑛 e, per la legge dei grandi numeri,si è fiduciosi che l’intervallo trovato sia approssimativamente di livello 1-α.

In R:prop.test(x=n· 𝑝𝑛, n=n, corr=FALSE)

Secondo metodo approssimatoUtilizziamo un fattore di correzione.

In R:prop.test(n· 𝑝𝑛, n)

Intervallo di confidenza per le proporzioni 2/4

Il metodo esattoR permette di eseguire un test esatto ricorrendo alla distribuzione binomiale,anziché alle differenti approssimazioni asintotiche.

binom.test(n· 𝑝𝑛, n)

Es.Dopo la chiusura dei seggi, gli elettori, chiamati ad esprimersi su un quesito referendario,attendono l’esito della consultazione.

• Lo spoglio parziale di n schede rappresentative del totale, ha fornito il seguente risultato:• 51% Sì• 49% No

Determiniamo l’intervallo di confidenza al 95% della percentuale di «Sì» supponendo n=2500.

Intervallo di confidenza per le proporzioni 3/4

Siamo quindi confidenti al 95% che, alla fine dello spoglio,la percentuale dei «Sì» si troverà nell’intervallo di confidenza trovato.

Intervallo di confidenza per le proporzioni 4/4

Consegna

1. Utilizzare il comando prop.test per verificare quanto discostadal metodo esatto.

2. Sulla base dei risultati parziali dei seggi (51% Sì, 49% No),si calcoli la probabilità che il Sì vinca con n=2500, n=1000 ed n=500.

• Si ricorda che il Sì vince se si raggiunge la metà più 1 dei voti

Indice Lezione

• Prerequisiti dalla lezione scorsa

• Intervallo di confidenza per le proporzioni

• Verifica di ipotesi sulle proporzioni

• Verifica di ipotesi per due proporzioni

Vogliamo rispondere a questa domanda:

disponendo di un campione di numerosità limitata con probabilità p associata a un certo evento, si può affermare che tale campione è proporzionato, per quell’evento, all’intera popolazione che ha probabilità p0 per quell’evento?

Per condurre il test si devono effettuare i seguenti tre passi:

1. Si fissa il "tasso accettabile di rischio" α. Es. α = 0,05.

2. Si estrae il campione dalla popolazione e si determina la media campionaria

3. Si individua l'intervallo di confidenza ad 1- α mediante la variabile z

Z = 𝑝 −𝑝0

𝑝0(1−𝑝0)

𝑛

≅ N(0,1)

Verifica di ipotesi sulle proporzioni 1/5

• Se z è compreso nell'intervallo di confidenza trovato NON si può affermare che p sia diverso (sproporzionato) rispetto a p0 .

• Se invece z NON è compreso nell'intervallo di confidenza trovato allora SI PUO' affermare, con una probabilità di errare non superiore ad a, che p sia diverso (sproporzionato) rispetto a p0 .

Codice Grafico

Verifica di ipotesi sulle proporzioni 2/5

Accettazionep = p0

disponendo di un campione di numerosità limitatacon probabilità p associata a un certo evento,si può affermare che tale campione è proporzionato,per quell’evento, all’intera popolazione che haprobabilità p0 per quell’evento?

è sproporzionatoinferiormente rispettoall’intera popolazione?

è sproporzionato superiormente rispettoall’intera popolazione?

Verifica di ipotesi sulle proporzioni 3/5

Accettazionep = p0

Accettazionep > p0

Accettazionep < p0

Es. Da un’indagine condotta sulla composizione del management delle aziende italiane è risultato che il 35% delle aziende italiane è gestito da donne.Inoltre, in un campione di n = 100 aziende localizzate nel sud Italia, è risultatoche 15 sono gestite da donne. Verificare, al livello α = 0.01, se il campione può ritenersi rappresentativo dellarealtà aziendale italiana.

Soluzione:Come possiamo notare leggendo il testo, p = 0.15 mentre p0 = 0.35 e dobbiamo rigettarel’ipotesi nulla se |z|> z0.995

ovvero se |z|> qnorm(0.995)|z|> 2.575.

Calcoliamo quindi z:

Z = 0.15 −0.35

0.35 (1−0.35)

100

= - 4.19

Verifica di ipotesi sulle proporzioni 4/5

Rigettiamo H0 , il campione non èrappresentativo dell’interapopolazione

P-Value

(di molto inferiore a 0.005)

Verifica di ipotesi sulle proporzioni 5/5

Accettazione0.15 = 0.35

z= - 2.575

z= -4.19

Se abbiamo un campione di ampiezza n1 su cui abbiamo rilevato una proporzione di successi 𝑝1 ed un campione di ampiezza n2 con la rispettiva proporzione 𝑝2 possiamo chiederci se l’eventuale differenza riscontrata tra 𝑝1 e 𝑝2 sia dovuta al caso oppure no.

Per poter rispondere si costruisce la statistica test Z come segue:

Z = 𝑝1− 𝑝2

𝑝 1− 𝑝1

𝑛1+1

𝑛2

dove

𝑝 = 𝑛1 𝑝1+𝑛2 𝑝2

𝑛1+𝑛2

ovvero 𝑝 è la media ponderata tra le proporzioni 𝑝1 e 𝑝2

Verifica di ipotesi per due proporzioni 1/4

Es. Un’azienda automobilistica, prima di immettere sul mercato un nuovo modello di un’auto già in commercio, realizza un sondaggio di opinioni. In particolare, l’indagine rivela che su un campione di n1 = 100 donne il 36%preferisce il nuovo modello di auto rispetto a quello già in commercio mentre, su un campione di n2 = 100 uomini solo il 25% preferisce il nuovo modello.

Verificare, al livello α = 0.01, l’ipotesi che non ci sia differenza nelle preferenze in base al sesso dei potenziali acquirenti.

Soluzione:Come possiamo notare leggendo il testo, 𝑝1 = 0.36 mentre 𝑝2 = 0.25 e dobbiamo rigettarel’ipotesi nulla se |z|> z0.995

ovvero se |z|> qnorm(0.995)|z|> 2.575.

Z = 0.36 −0.25

0.305 1−0.3051

100+1

100

= 1.69

Verifica di ipotesi per due proporzioni 2/4

Accettiamo H0 , esiste quindi indipendenza dal sessorispetto alle preferenze dei potenziali acquirenti

𝑝 = 100∙0.36+100∙0.25

100+100= 0.305

Verifica di ipotesi per due proporzioni 3/4

Accettazione0.36 - 0.25 = 0

z= 2.575z= 1.69

P-Value

superiore a 0.01

In R si può ottenere velocemente un risultato simile, utilizzando una t di student,con il comando:

prop.test(c( 𝑝1, 𝑝2), c(n1 , n2), conf.level=0.99)

Verifica di ipotesi per due proporzioni 3/4

Consegna

1. Implementare delle funzioni che, accettando opportuni parametri iningresso, risolvano le formule viste in questa lezione.

2. Da uno studio statistico è risultato che l’80% degli studenti dellescuole superiori italiane ha buoni risultati nelle materie scientifiche.Una scuola di 1500 studenti di Verona, ha provato a ripetere il testnazionale in privato e ha visto che solo il 75% degli studenti ha ottenutobuoni risultati.Verificare, al livello α = 0.05, se gli studenti di Verona possono ritenersi sproporzionatamente inferiori nelle materie scientifiche rispetto alla realtà nazionale.

Consegna

3. Alcuni anni fa venne condotto uno studio epidemiologico per studiare glieffetti positivi dell’uso di aspirina sulla prevenzione degli attacchicardiaci. Di seguito si riportano i risultati:

Verificare se la proporzione di persone colpite da infarto che hannoassunto Aspirina, è statisticamente inferiore rispetto alle persone colpiteda infarto che hanno assunto un farmaco placebo senza principi attivi.